
Photo by <a href="https://pixabay.com/users/franganillo-4407724/?utm_source=instant-images&utm_medium=referral" target="_blank" rel="noopener noreferrer">franganillo</a> on <a href="https://pixabay.com" target="_blank" rel="noopener noreferrer">Pixabay</a>
2025년 7월, 인공지능 업계에 충격적인 연구 결과가 공개되었습니다. MIT Technology Review가 보도한 카네기멜론대와 워싱턴대 연구진의 연구에 따르면, 세계 최대 규모의 AI 훈련 데이터셋 중 하나인 ‘DataComp CommonPool’에 수백만 건의 개인 식별 정보가 포함되어 있다는 사실이 밝혀졌습니다[1].
규모와 심각성: 빙산의 일각

DataComp CommonPool은 2023년 공개된 이후 128억 개의 이미지-텍스트 쌍을 포함한 세계 최대 규모의 오픈소스 훈련 자료로, 지난 2년간 200만 회 이상 다운로드되었습니다. 그런데 연구진이 전체 데이터의 단 0.1%만을 분석한 결과에서도 놀라운 사실이 드러났습니다.
연구진은 800개 이상의 검증된 신분증명서(신용카드, 운전면허증, 여권, 출생증명서 포함)와 800건 이상의 검증된 구직 서류(이력서 및 자기소개서)를 발견했습니다[1]. 이는 단순한 스팸이나 가짜 이미지가 아닌, 링크드인 등을 통해 실제 개인들과 연결 확인된 진짜 문서들이었습니다.
더욱 심각한 것은 이력서에 포함된 민감한 정보들입니다. 많은 이력서에서 장애 상태, 배경 조사 결과, 부양가족의 생년월일과 출생지, 인종 정보가 발견되었으며, 온라인에서 확인 가능한 사람들의 경우 연락처, 정부 발급 신분증 번호, 얼굴 사진, 집 주소, 추천인 연락처까지 노출되어 있었습니다.
기술적 보호 조치의 한계
데이터셋 제작자들이 개인정보 보호를 위해 자동 얼굴 블러링 시스템을 도입했지만, 그 효과는 제한적이었습니다. 연구진이 확인한 작은 표본에서만 800개 이상의 얼굴이 필터링되지 않았으며, 전체 데이터셋에서는 약 1억 200만 개의 얼굴이 놓쳤을 것으로 추정됩니다[1].
카네기멜론대의 윌리엄 애그뉴 박사는 “필터링을 잘 수행하는 것은 극도로 어렵다”며 “효과적인 필터링을 위해서는 PII(개인식별정보) 탐지 및 제거 기술에서 중대한 발전이 필요했을 것”이라고 지적했습니다[1].
웹 크롤링의 연쇄 확산 문제
DataComp CommonPool의 문제는 단독 사건이 아닙니다. 이 데이터셋은 Stable Diffusion과 Midjourney 훈련에도 사용된 LAION-5B의 후속 버전으로, 둘 다 2014년부터 2022년까지 Common Crawl이 수집한 웹 데이터를 기반으로 합니다. 즉, 유사한 개인정보 침해 위험이 수많은 AI 모델에 이미 확산되어 있을 가능성이 높습니다.
더욱 우려스러운 것은 데이터의 영속성입니다. 한 번 웹에서 크롤링된 데이터는 원본이 삭제되어도 수많은 복사본이 인터넷을 떠돌며, 웹 크롤러들이 서로의 데이터를 다시 수집하는 과정에서 원래 업로드 목적과 전혀 다른 곳에서 재등장합니다.
동의의 시간적 모순
이 문제는 동의(consent)의 개념에도 근본적인 질문을 던집니다. CommonPool은 2014년부터 2022년 사이에 수집된 웹 데이터를 기반으로 구축되었는데, 이는 ChatGPT가 출시된 2020년 이전의 데이터가 많다는 의미입니다. 따라서 설령 누군가가 자신의 정보를 웹에 공개하는 것에 동의했다 하더라도, 그 당시에는 존재하지도 않았던 대규모 AI 모델 훈련에 사용되는 것까지 동의했다고 볼 수는 없습니다.
법적 보호의 한계와 공백
현재의 개인정보 보호 법체계도 이런 상황에 충분히 대응하지 못하고 있습니다. 유럽의 GDPR과 캘리포니아의 CCPA 같은 법률이 존재하지만, 미국에는 여전히 통일된 연방 차원의 개인정보 보호법이 없습니다. 스탠포드 사이버 정책 센터의 마리에트제 스하케는 “서로 다른 미국인들이 서로 다른 권리 보호를 받는다”고 지적했습니다[1].
뉴햄프셔대 로스쿨의 티파니 리 교수는 더 심각한 문제를 제기합니다. “누군가가 자신의 데이터가 훈련 데이터셋에 사용된 것을 발견하고 삭제권을 행사하더라도, 법적으로 그것이 무엇을 의미하는지 불분명하다”며 “조직이 훈련 데이터셋에서만 데이터를 삭제하고 이미 훈련된 모델을 삭제하거나 재훈련하지 않는다면, 피해는 이미 끝난 것”이라고 설명했습니다[1].
‘공개된 정보’라는 허약한 전제
머신러닝 연구자들은 오랫동안 “인터넷에서 이용 가능한 것은 공개된 것이며 더 이상 사적인 정보가 아니다”라는 원칙으로 작업해왔습니다. 하지만 이번 연구는 이 전제가 얼마나 허약한지를 보여줍니다.
워싱턴대의 레이첼 홍 박사과정생은 “우리가 발견한 것은 ‘공개적으로 이용 가능한’ 정보에 많은 사람들이 사적이라고 여길 만한 것들이 포함되어 있다는 것”이라며 “이력서, 사진, 신용카드 번호, 각종 신분증, 어린 시절 뉴스 기사, 가족 블로그 등은 아마도 사람들이 어디서든, 무엇에든 사용되기를 원하지 않을 것들”이라고 말했습니다[1].
윤리적 대안 모색
트리니티 칼리지 더블린의 아베바 비르하네 박사는 “대규모 웹 스크래핑 데이터에는 항상 있어서는 안 될 콘텐츠가 포함되어 있다고 가정할 수 있다”고 단언합니다[1]. 그렇다면 해결책은 무엇일까요?
연구진은 머신러닝 커뮤니티가 무분별한 웹 스크래핑 관행을 재고하고, 동의 기반 데이터 수집 원칙을 도입할 것을 촉구합니다. 또한 현재보다 훨씬 정교한 개인정보 탐지 및 제거 기술 개발이 시급하다고 강조합니다.
소비자연맹의 벤 윈터스는 이 문제의 본질을 날카롭게 지적합니다: “이것은 공개 데이터로 구축된 AI 시스템의 원죄를 조명한다 – 그것은 착취적이고, 오해의 소지가 있으며, 한 가지 위험 체계로 인터넷을 사용해온 사람들에게 위험하다. 그들은 모든 것이 이미지 생성기를 만들려는 그룹에 의해 빨아들여질 것이라고는 전혀 상상하지 못했다[1].”
결론: 기술 발전과 인권의 균형점 찾기
이번 연구는 단순한 기술적 문제를 넘어 AI 시대의 근본적인 윤리 문제를 제기합니다. 빠른 기술 발전 속도에 걸맞은 윤리 기준과 법적 보호 장치 마련이 시급합니다.
카네기멜론대의 애그뉴 박사의 말처럼, “웹을 스크래핑하면 거기에 사적인 데이터가 있을 것이다. 필터링을 해도 여전히 사적인 데이터가 있을 것이다. 단지 이것의 규모 때문이다. 그리고 이것은 머신러닝 연구자인 우리가 분야로서 정말로 씨름해야 할 문제다[1].”
AI의 혜택을 누리면서도 개인의 프라이버시와 존엄성을 보호할 수 있는 길을 찾는 것, 이것이 우리 모두가 직면한 시대의 과제입니다. 스하케의 말처럼, 이 연구가 “경보를 울리고 변화를 만들어내기를[1]” 바랍니다.
참고문헌
[1] MIT Technology Review. (2025, July 18). A major AI training data set contains millions of examples of personal data. Retrieved from https://www.technologyreview.com/2025/07/18/1120466/a-major-ai-training-data-set-contains-millions-of-examples-of-personal-data/