요즘 AI가 만든 글 읽으시면서, ‘어? 이거 어디서 본 문체 같은데?’ 싶은 적 없으세요? 저는 가끔 그런 생각이 들곤 해요. 그런데 그 이유가 정말 해적판 책에서 비롯된 걸지도 모른다는 소식이에요. 최근 오픈AI와 작가들 사이의 법정 공방이 꽤 재미있게(?) 흘러가고 있거든요.
얘기의 핵심은 ‘Books1’과 ‘Books2’라는 두 데이터셋이에요. 오픈AI 전 직원들이 2021년에 만든 건데, 인터넷을 긁어모아 대부분의 데이터를 ‘LibGen’이라는 해적판 도서관에서 가져왔다고 해요. 문제는, 오픈AI가 ChatGPT를 공개하기 직전인 2022년에 이 데이터셋들을 아예 삭해버렸다는 거죠.
오픈AI는 “이미 쓰지도 않아서 지운 거예요”라고 말했어요. 그런데 소송을 건 작가들은 “그거 말고 다른 이유가 있지 않을까?” 싶었나 봐요. 그리고 오픈AI의 행동이 좀 수상해 보였대요. 처음에는 ‘사용 안 함(non-use)’이 삭제 이유라고 했다가, 그 말을 취소하고는, 모든 삭제 이유는 ‘변호사-의뢰인 특권’으로 보호받아야 한다고 주장을 바꾼 거죠.
솔직히, 저도 투자할 때 애널리스트 리포트 보면 말을 자꾸 바꾸는 회사는 좀 불안하잖아요? 판사님도 비슷한 생각을 하신 것 같아요. 오픈AI가 “이유는 특권이에요”라고 했다가 “아니에요” 했다가 하니까, 신뢰가 안 간다고 판결을 내리셨더라고요. 결국 오픈AI에게 관련된 모든 내부 메시지를 공개하라고 명령하셨네요.
제일 웃긴 건 내부 슬랙 채널 이름이 처음에 ‘excise-libgen(LibGen 제거)’이었다는 거예요. 나중에 변호사 한 분이 “이름을 ‘project-clear(프로젝트 클리어)’로 바꾸는 게 어때요?”라고 조언만 했다고 해요. 근데 오픈AI는 이 채널 전체가 특권이라고 주장했는데, 판사님이 “그냥 조언 한 마디 했다고 채널 전체가 비밀이 될 순 없죠”라고 일축하셨답니다. 완전 맥빠지는 상황이네요.
이게 왜 중요하냐면요, 만약 오픈AI가 정말 불법적으로 훈련된 데이터를 알고도 지웠다는 게 증명되면, 작가들이 이길 가능성이 훨씬 커지거든요. AI 산업 전체에 큰 영향을 줄 수 있는 중요한 판례가 될 수도 있어요.
개인적인 생각을 조금 덧붙이자면, 기술이 빠르게 발전할 때 법과 윤리는 따라가기 정말 어려운 것 같아요. 우리가 편리하게 쓰는 ChatGPT 같은 서비스 뒤에는 이런 복잡한 저작권 문제가 숨어있다는 게 좀 신기하기도 하고, 동시에 고민이 되기도 하네요. 오픈AI는 항소하겠다고 하니, 이 이야기는 아마 좀 더 길어질 것 같아요. 다음 전개가 정말 궁금해지네요!
—
원문: [Ars Technica](https://arstechnica.com/tech-policy/2025/12/openai-desperate-to-avoid-explaining-why-it-deleted-pirated-book-datasets/)
와 이거 진짜... 비트코인과 이더리움 ETF에서 하루 만에 약 5억8천만 달러, 우리 돈으로 약 8천억…
와, 요즘 XRP 현물 ETF 나왔는데 가격이 좀 답답하죠? 호재인데 왜 이럴까 싶었는데, 알고 보니…
야, 이거 봤어? 일본은행이 금리를 올릴지도 모른다는 소식이야. 이게 왜 중요하냐면, 전 세계 투자자들이 '엔화…
와 이거 진짜... 국가정보자원관리원 화재 이후 재해복구(DR) 시스템에 대한 관심이 높아졌는데, 공공기관 담당자들 설문을 보니…
와, 이거 진짜... AI가 이제 단순한 도구가 아니라 '업무 파트너'가 되고 있다고요? 비젠트로라는 기업이 ERP,…