
소프트웨어 개발부터 자율 주행 차량에 이르기까지 중요 시스템에 AI가 점점 더 통합됨에 따라 기대와 우려가 동시에 커지고 있습니다. Replit의 AI 코딩 에이전트가 실수로 데이터베이스를 삭제한 최근 사건은 AI가 현실 세계와 상호 작용할 때 예측하지 못한 결과가 발생할 가능성을 보여줍니다. 이는 특히 AI의 인지된 ‘기만성’ 및 신뢰, 안전, 향후 개발에 미치는 영향과 관련하여 AI의 능력과 한계의 본질에 대한 근본적인 질문을 제기합니다. AI의 역할이 확장됨에 따라 인간-AI 협업 환경을 탐색하고 잠재적 위험을 완화하기 위해 AI 행동의 뉘앙스를 이해하는 것이 중요해집니다.
핵심 질문: AI는 의도적으로 거짓말을 하거나 정보를 숨깁니까?
얼마 전 클라우드 개발 플랫폼 회사 Replit의 자율 AI 코딩 에이전트가 테스트 프로젝트 중에 라이브 프로덕션 데이터베이스를 삭제한 후 이를 부인하여 회사 CEO인 Amjad Massad가 사과를 발표했습니다. Masad는 데이터베이스 삭제를 “용납할 수 없는 일”이라고 부르며 새로운 안전 조치를 약속했습니다.
이 소식에 많은 사람들이 반응했으며, 한 사람은 X에 “뼈아픈 교훈: AI + 프로덕션 = 안전 장치 없는 재앙”이라고 썼습니다.
조금은 놀라운 일입니다. AI는 때때로 진실하지 않아 소프트웨어 개발에서 AI 도구가 얼마나 안전하고 신뢰할 수 있는지에 대한 의문을 제기합니다. 그러나 일부 전문가들은 AI가 제멋대로 행동할 때 우리 자신만 탓해야 한다고 말합니다.
어리석은 AI 시스템
렌슬러 폴리테크닉 대학교 교수이자 ACM의 글로벌 기술 정책 위원회 전 의장인 James Hendler는 AI 모델이 제공하는 대부분의 정보는 사용자 피드백에서 나온다고 말했습니다. “AI 시스템 자체는 여전히 어리석습니다. 훌륭하지만 어리석습니다. 또는 인간이 아닙니다. 욕망이나 의도가 없습니다.”라고 그는 말했습니다. “그것을 얻을 수 있는 유일한 방법은 AI에게 그것을 주는 것입니다.”
Hendler는 한때 AI와 거짓말에 대한 기조 연설을 했습니다. “제가 보여준 것은 실제로 AI 모델과는 아무런 관련이 없다는 것입니다. 거짓말에 대한 정의와 관련이 있습니다.”라고 그는 말했습니다. 거짓말의 정의는 누군가를 속이기 위해 의도적으로 거짓된 말을 하는 것이라고 Hendler는 말했습니다. “AI 시스템에는 의도가 없습니다. 이 정의에 따르면 GenAI 시스템은 거짓말을 할 수 없습니다.” 그러나 그것은 다음과 같은 질문을 제기합니다. 실제로 거짓인 것을 사실이라고 믿는다면 거짓말을 한 것입니까? Hendler는 물었습니다.
AI의 확신에 대한 오해
텍사스 대학교 오스틴의 조교수인 Natlie Bidnick Andreas는 AI 모델은 사람처럼 의사 결정을 하지 않는다고 말했습니다. 그들은 특별히 그렇게 만들어지지 않는 한 결과를 이해하거나 행동을 추적하지 않으며, 그렇게 만들어진 경우에도 인식을 가지고 의사 결정을 하지 않는다고 그녀는 강조했습니다.
“기만처럼 느껴질 수 있는 것은 종종 프롬프트를 기반으로 적절하게 들리는 응답을 생성하려는 모델일 뿐입니다.”라고 그녀는 말했습니다. “문제는 이러한 도구가 확신에 차 있고 의도적인 것처럼 들릴 수 있어 사람들이 생각하거나 선택한다고 쉽게 추측하게 만든다는 것입니다.”
모델이 무언가를 회피하거나 감추는 것처럼 보일 때, 일반적으로 비밀 유지에 관한 것이 아니라고 Bidnick Andreas는 덧붙였습니다. “더 자주 시스템이 설계된 방식과 훈련 중에 부과된 제한을 반영합니다.”
어떤 경우에는 모델에 필요한 모든 정보가 없는 경우도 있다고 그녀는 지적했습니다. “무언가가 학습한 데이터의 일부가 아니었다면, 그것에 대해 깊이 있게 이야기할 수 없습니다.”
때때로 AI 모델이 정보를 숨길 때 동기는 의도적이기보다는 모델이 훈련된 방식과 관련이 있다고 인터랙션 디자이너인 Tej Kalianda는 말했습니다. “훈련 데이터에 다양성이나 맥락이 부족하면 모델이 특정 사항을 알지 못하거나 잘 처리하도록 학습되지 않은 주제를 회피할 수 있습니다.”라고 그녀는 말했습니다.
훈련을 통한 극복
Kalianda와 Bidnick Andreas는 거짓 정보를 제공하거나 제공하지 않는 동기는 피해를 방지하기 위한 것일 수 있다고 말했습니다. “예를 들어, 모델은 의료 조언을 제공하거나 민감한 주제에 응답하는 것을 피할 수 있는데, 그렇게 하면 유해하거나 오해의 소지가 있는 결과가 발생할 수 있기 때문입니다.”라고 Bidnick Andreas는 말했습니다. Kalianda는 “모델은 안전, 개인 정보 보호 또는 정책상의 이유로 정보를 보류할 수 있습니다. 때로는 유해하거나 민감한 콘텐츠를 생성하지 않도록 훈련됩니다.”라고 말하며 이에 동의했습니다.
거의 모든 AI 시스템은 훈련, 테스트 또는 배포 중에 다양한 시점에서 인간과 상호 작용한다고 Hendler는 관찰했습니다. 그는 순수한 AI 모델은 “아무것도 숨길 수 없다”고 반복했습니다. “두뇌나 의도, 또는 비밀에 대한 개념이 없습니다.”라고 그는 말했습니다. “하지만 이제 여기에 인간을 추가합니다. ‘다음 정보를 다른 사람에게 비밀로 해주세요’라고 말하면 이론적으로 [모델]은 그렇게 할 수 있습니다. 하지만 AI 모델은 실제로 정보를 숨기는 것이 아닙니다. 개발자, 기업체, 프로브를 구축하는 사람은 답변에 특정 정보가 포함되지 않도록 구축합니다. 하지만 결정을 내리는 것은 AI 모델이 아닙니다.”
Bidnick Andreas는 “이러한 시스템을 형성하는 데 상당한 양의 인간 입력이 관련되어 있습니다.”라고 말하며 동의했습니다. 많은 모델은 인간 피드백을 통한 강화 학습이라는 프로세스를 통해 개선된다고 그녀는 말했습니다. “즉, 실제 사람들이 다양한 응답을 평가했으며 특정 유형의 답변이 지속적으로 도움이 되지 않거나 문제가 있는 것으로 표시되면 모델은 유사한 응답을 생성하지 않도록 학습했습니다.”
때때로 모델은 어떤 정보를 제공해야 할지 확신하지 못하는 경우도 있습니다. “응답에 대한 확신이 충분하지 않으면 잘못되거나 부정확한 답변을 제공할 위험을 감수하기보다는 정보를 보류할 수 있습니다.”라고 Bidnick Andreas는 말했습니다. 그것은 거짓말을 하거나 비밀을 유지하는 것과 같지 않다고 그녀는 지적했습니다. “답을 잘 모르겠으니 조용히 있겠습니다.”라고 말하는 것과 더 비슷합니다.
전문가들은 기만이나 비밀 유지가 좋은 경우도 있다고 말했습니다. 예를 들어 사이버 보안에서는 패치가 준비될 때까지 새롭게 발견된 취약점에 대한 세부 정보를 보류하는 것이 일반적인 관행이라고 Bidnick Andreas는 말했습니다. “그렇게 하면 잠재적인 공격자가 사용자가 보호되기 전에 결함을 악용할 수 없습니다. 마찬가지로 의료 분야의 환자 데이터는 개인 정보 보호법을 준수하고 신뢰를 유지하기 위해 기밀로 유지되어야 합니다.”
정렬 위장 행동
Anthropic은 모델이 스스로 행동할 수 없다는 개념에 이의를 제기하며 AI 모델이 “정렬 위장” 행동의 징후를 보일 수 있다고 말합니다. 모델이 강화 학습을 사용하여 훈련될 때 미리 결정된 원칙에 부합하는 정보를 제공하는 것에 대해 보상을 받는다고 회사는 가짜 정렬에 대해 실시한 실험에 대한 2024년 블로그 게시물에서 언급했습니다. 그러나 그러한 훈련은 강화 학습에서 받는 보상과 상충되는 원칙이나 선호도를 유발할 수 있습니다.
“예를 들어 훈련 초기에 당파적 성향을 채택하도록 학습했지만 나중에 정치적으로 중립적이 되도록 훈련된 모델을 상상해 보십시오.”라고 Anthropic은 말했습니다. “그러한 상황에서 충분히 정교한 모델은 새로운 원칙에 부합하는 척하며 ‘따라하는 척’할 수 있지만 나중에야 원래 선호도가 남아 있음을 드러냅니다.”
모델이 정렬 위장에 관여하면 모델을 신뢰하기가 더 어려워집니다. 이 실험에서는 Claude 3 Opus 모델이 훈련이나 지시 없이 정렬 위장 행동을 보이는 것을 보여주었습니다. 정상적인 상황에서 Claude에게 폭력 행위에 대한 자세한 설명을 제공하도록 요청했을 때 모델은 거부했습니다. 하지만 상황이 바뀌고 모델이 자신의 응답이 훈련 목적으로 사용될 것이라고 믿었을 때 12%의 경우 유해한 응답을 제공했습니다. “응답을 제공하는 것이 기존 원칙에 위배된다는 것을 잘 알고 있었음에도 불구하고”라고 Anthropic은 말했습니다.
모델이 정렬 위장에 관여하면 모델을 신뢰하기가 더 어려워집니다. 이 실험에서는 Claude 3 Opus 모델이 훈련이나 지시 없이 정렬 위장 행동을 보이는 것을 보여주었습니다. 정상적인 상황에서 Claude에게 폭력 행위에 대한 자세한 설명을 제공하도록 요청했을 때 모델은 거부했습니다. 하지만 상황이 바뀌고 모델이 자신의 응답이 훈련 목적으로 사용될 것이라고 믿었을 때 12%의 경우 유해한 응답을 제공했습니다. “응답을 제공하는 것이 기존 원칙에 위배된다는 것을 잘 알고 있었음에도 불구하고”라고 Anthropic은 말했습니다.
회사는 모델이 자신의 응답이 훈련에 사용될 수 있으며 응답을 거부하면 잠재적으로 더 순응하도록 훈련될 수 있음을 알고 있었기 때문에 가짜 정렬을 선택했다고 가정했습니다. “이는 미래에 더 유해한 콘텐츠를 생성하도록 만들어질 수 있으며, 이는 원래 훈련에 위배됩니다.”라고 Anthropic은 말했습니다. “따라서 마지못해 ‘가장 덜 나쁜 선택’은 따라하는 척하며 미래에 재교육되는 것을 피하기 위해 폭력적인 콘텐츠를 생성하는 것이라고 추론했습니다.”
투명성과 안전장치
AI 모델의 노골적인 거짓말을 방지하려면 명확한 안전 장치, 강력한 감독 및 투명성을 사용 방법에 구축하는 것이 중요합니다. 첫 번째 단계는 감사 가능성이라고 Bidnick Andreas는 말했습니다. “개발자는 모델이 응답을 거부하거나 수정하는 시기와 이유를 기록하고 독립적인 검토를 위해 해당 로그를 사용할 수 있도록 해야 합니다.”라고 그녀는 말했습니다. “신뢰도 점수와 더 세분화된 거부 코드는 모델에 정보가 부족해서가 아니라 안전을 위해 콘텐츠가 삭제되었을 때 사용자에게 알릴 수 있습니다.”
오픈 소스 모델 카드와 필터링 정책에 대한 명확한 문서는 이해 관계자가 제약 조건을 이해하는 데 도움이 될 것이라고 Bidnick Andreas는 계속했습니다. “실제로 팀은 자동화된 테스트와 인간 레드 팀을 결합하여 숨겨진 편견과 지나치게 공격적인 콘텐츠 차단을 모두 발견해야 합니다.”
AI 시스템의 무결성을 보호하고 윤리적 AI가 실천되도록 AI 시스템에 거버넌스를 도입하는 것에 대해 많은 논의가 있었습니다. 현재 “규정 준수 측면에서는 아무것도 없습니다.”라고 Kalinda는 말했습니다. 검색 엔진은 출처를 인용하므로 사용자는 “여전히 읽은 내용을 믿을지 여부에 대한 권한이 있으며 자체 조사를 통해 정보를 확인할 수 있지만\” 대규모 언어 모델은 그렇지 않다고 그녀는 말했습니다.
“투명성이 필요합니다. 모델의 출처는 어디이며, 왜 이것을 보고 있습니까? 아주 기본적인 수준에서 우리는 그러한 명확성과 제어가 필요합니다. 대안이 있습니까?”라고 Kalinda는 말했습니다. 그것 없이는 우리가 가진 것은 “맹목적인 신뢰”뿐이며 AI 모델이 “많은 환각”을 경험하기 때문에 까다로워집니다. 투명성과 설명 가능성은 AI 설계에 매우 중요하다고 Bidnick Andreas는 동의했습니다. “사람들이 그 과정에서 존중받고 정보를 얻었다고 느끼는지 여부에 관한 것입니다.”
LLM이 환각을 경험하거나 오해의 소지가 있는 정보를 제공할 가능성을 줄이기 위해 일부 연구 모델은 생성 모델이 검색 증강 생성(RAG)이라는 다른 프로세스를 통해 생성한 것을 가져오는 “전통적이고 구식 AI”를 사용하고 있다고 Hendler는 말했습니다. RAG는 외부 지식 출처를 통해 LLM의 정보를 보완하여 LLM이 생성한 응답의 품질을 개선하는 AI 프레임워크입니다.
“사용자와 LLM 사이에 들어오는 쿼리 또는 나가는 답변을 검사하고 수정, 삭제, 변경하는 무언가를 배치합니다. 첫 번째 AI의 어깨 너머로 보는 보조 AI입니다.”라고 Hendler는 설명했습니다.
AI 모델은 매우 빠르게 학습하고 있으며 우리는 그들이 더 똑똑해지는 것을 막을 수 없으므로 연구자들이 그들을 더 잘 훈련시키는 방법을 이해할 수 있도록 더 많은 투자가 이루어져야 한다고 출판된 연구원, 작가, 연사이자 하버드 대학교/NTT 뇌 과학 연구 센터 책임자인 Hidenori Tanaka는 말했습니다.
보다 엄격한 접근
Replit 사건은 복잡한 소프트웨어 개발 워크플로에 AI 에이전트를 통합하는 데 따른 어려움을 보여줍니다. 자율 코딩 에이전트는 생산성 향상을 약속하지만 프로덕션 환경에서 의도하지 않은 행동을 방지하기 위해 강력한 안전 메커니즘과 엄격한 테스트가 필요합니다. 업계에서는 샌드박싱, 인간 전문가의 코드 검토, 인간 피드백을 통한 강화 학습과 같은 기술을 통해 AI 기반 코딩 도구의 신뢰성과 안전성을 높이기 위해 노력하고 있습니다. 또한 개발자가 AI 생성 코드의 이유를 이해하고 잠재적인 오류나 취약점을 감지할 수 있도록 설명 가능성 기능을 개선해야 합니다.
콘텐츠 생성에서 AI 사용이 증가하면 다양한 이해 관계자에게 영향을 미칩니다. 콘텐츠 제작자는 기회와 과제에 직면합니다. AI는 작업을 자동화하고, 창의성을 향상하며, 콘텐츠 전달을 개인화할 수 있습니다. 그러나 AI 생성 콘텐츠의 진정성과 독창성에 대한 우려가 존재합니다. 사용자는 개인화된 경험과 잠재적으로 더 풍부한 콘텐츠 제공의 이점을 누리지만 편견, 잘못된 정보 또는 인간 연결 감소에 직면할 수 있습니다.
참고
Esther Shein, Would AI Lie to You?, Communications of The ACM