
의료 분야에서 LLM의 역할과 한계
의료 분야에서 인공지능은 점차 중요한 역할을 맡고 있습니다. 특히 대형 언어 모델(LLM)은 의료 정보를 처리하고 분석하는 데 사용되고 있습니다. 그러나 최근 발표된 연구는 LLM이 실제로 임상 추론을 수행하는지에 대한 의문을 제기하고 있습니다. 연구에 따르면, LLM은 주로 훈련 받은 패턴을 기반으로 답변을 생성하며, 이는 복잡한 의료 사례에서 심각한 한계를 드러낼 수 있습니다.
이 연구는 JAMA Network Open에 게재되었으며, 이 모델들이 의료 사례를 처리하는 방법에 대한 심층적인 분석을 제공하고 있습니다. 연구진은 MedQA 벤치마크에서 100개의 질문을 선택하여 실험을 진행했습니다. 각 질문에 대해 ‘다른 답변 없음(NOTA)’라는 선택지를 추가하여 모델이 이를 선택하도록 유도했습니다. 이는 모델이 단순히 패턴을 따르는 것이 아니라 실제 추론을 수행할 수 있는지를 평가하기 위한 것입니다.
패턴 매칭에 의존하는 LLM의 문제점
연구 결과, 대부분의 LLM은 질문의 작은 수정에도 불구하고 정확도가 크게 떨어졌습니다. 예를 들어, GPT-4o는 정확도가 36.8% 포인트 하락했고, LLaMA 3.3은 38.2% 포인트 하락했습니다. 이는 의료 분야에서 이러한 모델들이 얼마나 불안정한지를 보여줍니다. 의료 현장에서는 드문 질환이나 예상치 못한 증상이 빈번히 나타나기 때문에, 단순 패턴 매칭만으로는 충분하지 않을 수 있습니다.
특히, 일부 추론에 최적화된 모델인 Deepseek-R1과 o3-mini도 성능 저하를 겪었지만, 그 폭은 상대적으로 적었습니다. 그러나 이들 역시 완벽한 해결책을 제공하지는 못했습니다. 연구진은 ‘생각의 흐름’을 유도하는 프롬프트를 사용해 보았지만, 모델들이 일관되게 올바른 의료적 결론에 도달하지 못했다고 전했습니다.
미래의 LLM과 의료 산업의 변화
현재의 LLM 기술은 임상 환경에서 사용하기에 충분히 신뢰할 수 없음을 시사합니다. 이는 의료 산업 전반에 걸쳐 AI 기술의 적용 가능성을 재평가해야 한다는 목소리를 높이고 있습니다. 특히, 최신 모델인 GPT-5-Thinking이나 Gemini 2.5 Pro와 같은 모델들이 더 나은 성능을 보일 가능성이 있지만, 그것이 임상 추론 문제를 완전히 해결할지는 여전히 미지수입니다.
현실적인 시사점과 향후 방향
이번 연구는 LLM이 현재 임상 환경에서 널리 사용되기에는 신뢰성 문제를 안고 있음을 시사합니다. 이러한 기술적 한계는 AI 개발자, 의료 전문가 및 정책 입안자들에게 중요한 고려 사항으로 작용할 것입니다. AI가 의료 분야에 효과적으로 통합되기 위해서는 보다 강력한 추론 능력을 갖춘 모델 개발이 필요합니다. AI 기술 발전은 계속될 것이며, 이를 통해 궁극적으로 더욱 안전하고 정확한 의료 서비스를 제공할 수 있는 날이 올 것입니다.
참고
Matthias Bastian, LLMs struggle with clinical reasoning and are just matching patterns, study finds, the-decoder.com