“나는 잘 모르겠어”: AI의 언어, 진실일까?

AI가 “I’m not sure”라고 말할 때, 그것은 진심일까요? 스탠포드와 IBM의 연구진이 발표한 논문 *“Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words?”*는 바로 이 질문에 집중합니다.

우선, 언어모델이 작동하는 방식을 간단히 이해할 필요가 있습니다. GPT나 LLaMA 같은 LLM은 입력 문장에 이어질 다음 단어를 예측합니다. 이 예측은 단순히 ‘가장 그럴듯한 단어’를 고르는 것이 아니라, 수천 개의 단어 후보에 **확률값(confidence score)**을 부여해 그중 하나를 선택하는 것입니다. 이때 확률이 낮다는 것은 곧 ‘모델의 확신이 낮다’는 뜻이 됩니다.

magnifying glass, facts, investigate, research, backgrounds, news, information, newsletter, to blog, text, report, to report, reporter, journalists, communication, truth, facts, facts, facts, facts, facts, research
Photo by geralt on Pixabay

연구진은 여기서 “망설임 표현이 실제 확률적으로도 불확실할 때에만 사용되는가?”를 실험했습니다. 즉, 모델이 모를 때만 ‘I’m not sure’라고 말하는가, 아니면 모를 때도 “확신합니다”라고 말하는가를 측정한 것이죠.

이를 위해 연구진은 새로운 평가 지표인 **Faithful Response Uncertainty(FRU)**를 도입했습니다. 이 지표는 내부 confidence와 언어 출력의 결정성(decisiveness) 사이의 정합성을 수치화합니다. 실험 결과는 놀라웠습니다. 모델은 실제로 확신이 없을 때도 종종 단정적으로 말하는 경향이 있었고, “망설임 표현”은 일관되게 불확실할 때에만 등장하지 않았습니다.

이러한 결과는 인간과 크게 대비됩니다. 인간은 인지적으로 불확실할 때, 본능적으로 언어 표현에 주저함을 드러냅니다. 이는 메타인지(metacognition), 즉 자신의 지식 상태를 점검하는 능력과 관련이 있습니다. 반면 LLM은 메타인지가 없습니다. 단지 높은 확률을 따르는 알고리즘일 뿐입니다.

Yao 팀은 결론적으로, 현재의 LLM은 망설임을 ‘표현’할 수는 있어도, 그것이 진실한 신호는 아닐 수 있다고 지적합니다. 이 연구는 기술적으로 LLM의 정직한 표현을 위한 설계 개선, 예를 들어 확률-언어 정렬(calibration)이 필요하다는 메시지를 던집니다.


“나는 잘 모르겠어”: 인간은 어떻게 반응하는가?

AI가 “I’m not sure”라고 말하면, 우리는 그것을 어떻게 받아들일까요? 이는 또 다른 차원의 문제입니다. 프린스턴과 마이크로소프트 연구팀의 논문 *“I’m Not Sure, But…”*는 바로 이 지점을 실험적으로 검증했습니다.

연구진은 의료 정보를 찾는 사용자 상황을 시뮬레이션했습니다. 참가자는 AI로부터 세 가지 유형의 답변 중 하나를 받습니다:

  1. 단정적 응답: “The answer is X.”
  2. 일반적 망설임: “It’s unclear, but X may be correct.”
  3. 1인칭 망설임: “I’m not sure, but X might be the answer.”

실험 결과는 뚜렷했습니다. 1인칭 망설임 표현을 접한 사용자들은 AI를 덜 신뢰했지만, 자신의 판단 정확도는 높아졌습니다. 특히, 그들은 AI의 조언을 맹목적으로 따르지 않고, 스스로 더 많은 정보를 찾아보거나, 다른 판단 기준을 동원하려는 경향을 보였습니다.

이는 인지심리학에서 말하는 “metacognitive prompting”, 즉 외부의 불확실성 신호가 인간의 시스템 2 사고(느리고 논리적인 판단)를 활성화하는 효과와 유사합니다. 재미있는 점은 일반적 표현(“It’s unclear…”)보다 1인칭 표현(“I’m not sure…”)이 더 강한 영향을 미쳤다는 사실입니다. 이는 인간이 AI와의 대화에서 **사회적 공감(social alignment)**을 형성하려는 경향과도 관련이 있어 보입니다.

즉, “AI도 나처럼 조심스럽게 말하네”라는 인상이, 그 기술의 신뢰도를 조절하는 기준이 된다는 것입니다. Kim et al.의 연구는 불확실성 표현이 사용자 경험을 향상시키는 강력한 UI 요소임을 실험으로 증명한 셈입니다.


결론 – AI의 망설임을 어떻게 바라볼 것인가

이제 우리는 AI가 말하는 “I’m not sure”라는 한 문장 안에 얼마나 복잡한 의미가 담겨 있는지를 알게 되었습니다. 기술적으로는 그것이 내부 확률에 기반한 것인지 아닌지를 따져봐야 하고, 사용자 입장에서는 그 표현이 신뢰도를 조정하는 시그널이 됩니다.

흥미로운 점은, AI의 모호성은 인간과 동일한 방식으로 해석되어서는 안 된다는 것입니다. 인간의 망설임은 감정, 책임감, 관계 인식 등 복합적 맥락에 기반하지만, AI의 망설임은 그저 알고리즘의 확률 출력일 수 있습니다.

따라서 우리는 AI의 언어를 인간의 방식으로만 해석하기보다는, 그 특성과 한계를 이해하고 새로운 기준으로 받아들일 필요가 있습니다. 특히 의료, 법률, 투자 등 전문적 맥락에서는 AI의 모호성 표현이 단순한 ‘정중함’이 아니라, 결정 지연이나 판단 보류를 유도하는 요인으로 작용할 수 있습니다. 반면, 일상적 검색이나 조언에서는 오히려 인간적인 친근함을 주는 긍정적 기능도 할 수 있습니다.

앞으로의 과제는 AI가 언제 망설여야 하고, 언제는 확신을 보여야 하는지, 그 기준을 명확히 설계하는 것입니다. 그리고 그 설계는 기술자뿐 아니라 사용자, 심리학자, 윤리학자 모두가 함께 참여해야 할 문제입니다.

결국, 한 줄의 망설임이 만들어내는 의미는 우리 사회가 AI를 어떤 존재로 받아들이는가에 대한 거울이 될 것입니다.

“I’m not sure, but…” — 이 말이 AI의 언어가 되는 순간, 우리는 그것을 어떻게 이해해야 할까요?

위로 스크롤