오픈AI, 해적판 책 데이터셋 삭제 이유 숨기려고 발버둥? 법원 “공개하라” 명령

요즘 AI가 만든 글 읽거나 이미지 보는 게 일상이 되다 보니, “이거 대체 어떤 데이터로 학습된 거지?” 하는 궁금증 한 번쯤 드시지 않나요? 특히 책을 쓰시는 작가 분들이라면 더 궁금하고 불안할 텐데요. 그 궁금증을 풀어줄 중요한 법적 공방이 미국에서 벌어지고 있어요.

사건의 핵심은 ‘Books 1’과 ‘Books 2’라는 두 데이터셋이에요. 오픈AI의 전 직원들이 2021년에 만든 건데, 인터넷을 긁어모아 만든 데이터고, 그중 상당량이 ‘LibGen’이라는 해적판 도서관 사이트에서 가져온 거라고 해요. 문제는 이 데이터셋이 챗GPT가 공개되기 전인 2022년에 갑자기 삭제됐다는 점이에요.

오픈AI는 “그냥 더 이상 안 써서 삭제한 거예요”라고 말했어요. 솔직히 말이 되게 느슨하죠? 그래서 이 데이터로 학습된 게 아니냐며 소송을 건 작가들은 “그 이유를 제대로 밝혀라”고 요구했어요. 그러자 오픈AI의 태도가 좀 흥미로워졌거든요.

처음에는 “안 써서(논유즈) 삭제했다”고 했다가, 나중에는 그 ‘논유즈’라는 이유조차 법률 자문 비밀 특권(어티니-클라이언트 특권)에 해당한다고 주장하며 공개를 거부한 거예요. 쉽게 말해 “변호사랑 상의한 내용이니까 비밀이에요”라는 건데, 법원은 이걸 그냥 넘어가지 않았어요.

지난주, 오나 왕 판사는 오픈AI에게 “데이터셋 삭제 이유와 관련된 모든 내부 논의를 공개하라”고 명령했어요. 판사님이 하신 말씀이 정말 일침이에요. “이유라고 말해놓고(그건 비밀이 아니란 뜻이죠), 나중에 그 이유가 비밀이라고 주장하는 건 말이 안 된다”고 지적하셨어요. 오픈AI가 자신의 주장을 계속 바꾸면서 ‘움직이는 과녁’을 만들었다는 거죠.

더 재미있는 건 오픈AI 내부의 슬랙 채팅 기록이에요. ‘LibGen’을 없애자는 채널 이름을 처음엔 ‘excise-libgen(리브젠 제거)’이라고 지었다가, 한 변호사의 조언으로 ‘project-clear(프로젝트 클리어)’라는 중립적인 이름으로 바꾼 사실이 공개됐어요. 판사는 이 대화 대부분이 “법적 조언을 구하는 내용이 전혀 아니었다”며 비밀 특권을 인정하지 않았답니다.

결국 오픈AI는 12월 8일까지 관련 내부 메시지를 제출하고, 12월 19일까지 자사 변호사들의 증언을 준비해야 해요. 물론 오픈AI는 “판결에 동의하지 않고 항소할 것”이라고 밝혔지만요.

이 소송의 결과는 정말 중요해요. 단순히 오픈AI 한 회사의 문제가 아니라, 앞으로 모든 생성형 AI가 대량의 데이터를 어떻게 수집하고 사용해야 하는지에 대한 선례가 될 수 있거든요. ‘학습 데이터의 정체’와 ‘삭제의 진짜 이유’가 AI 산업의 미래를 좌우할 수도 있다는 뜻이에요.

우리가 매일 쓰는 챗GPT 같은 친근한 AI 뒤에는, 아직 해결되지 않은 윤리적이고 법적인 복잡한 문제들이 숨어있네요. 기술의 발전 속도에 규범이 얼마나 잘 따라잡을지, 앞으로 지켜봐야 할 것 같아요.

원문: [Ars Technica](https://arstechnica.com/tech-policy/2025/12/openai-desperate-to-avoid-explaining-why-it-deleted-pirated-book-datasets/)

위로 스크롤