OpenAI, 저작권 소송에서 ‘삭제된 데이터셋’ 비밀 풀어야 할까

기술 산업의 역사를 돌아보면, 혁신의 속도와 기존 법률 체계 사이의 긴장 관계는 끊임없이 반복되어 왔습니다. 최근 OpenAI가 저작권 소송에서 마주한 법적 고민은, 생성형 AI라는 새로운 기술이 ‘학습’이라는 이름 아래 마주하는 근본적인 윤리적, 법적 질문을 다시 한번 부각시키고 있습니다.

미국 법원은 지난주 OpenAI에 대해, 불법적으로 복제된 도서로 구성된 ‘Books1’과 ‘Books2’ 데이터셋을 삭제한 결정과 관련된 내부 법률 자문 커뮤니케이션을 공개하라는 명령을 내렸습니다. 이 데이터셋은 ‘LibGen’이라는 섀도우 라이브러리에서 대량의 데이터를 긁어모아 만들어졌으며, ChatGPT 출시 직전인 2022년에 삭제된 것으로 알려져 있습니다.

OpenAI는 이 데이터셋이 2021년 내부에서 더 이상 사용되지 않아 삭제했다고 주장해 왔습니다. 그러나 소송을 제기한 작가들은 이 설명에 의문을 제기하며, 데이터 삭제의 진정한 동기가 불법 훈련 데이터의 증거 은닉에 있을 수 있다고 보고 있습니다. 특히 OpenAI가 법정에서 ‘사용 중지’를 삭제 이유로 언급했다가, 이후 변호사-의뢰인 특권을 이유로 그 이유 전체를 비밀로 하려는 태도를 보이자, 법원의 의심은 더욱 깊어졌습니다.

오나 왕 판사는 판결문에서 OpenAI의 입장 변화를 지적하며, “OpenAI는 ‘Books1과 Books2 삭제의 ‘이유’로서 ‘사용 중지’가 특권 보호를 받는지 여부를 앞뒤로 왔다 갔다 했다”고 지적했습니다. 더 나아가, 삭제의 모든 이유가 특권에 해당한다는 OpenAI의 주장은 “믿기 어렵다”고 결론지었습니다. 이는 단순한 법적 절차 이상으로, 기술 기업의 내부 의사결정 과정에 대한 투명성 요구로 읽힙니다.

실리콘밸리의 오랜 관행을 보면, 변호사-의뢰인 특권은 기업이 솔직한 법적 자문을 받을 수 있도록 보호하는 중요한 장치입니다. 그러나 왕 판사의 판단은, 이 특권이 정보 공개의 포괄적인 ‘방패’로 사용되어서는 안 된다는 원칙을 상기시킵니다. 특히 ‘excise-libgen’이라는 슬랙 채널의 대부분의 메시지가 법적 자문을 요청하거나 제공하는 내용이 아니었다는 법원의 확인은, 특권 주장의 범위가 어디까지 정당화될 수 있는지에 대한 중요한 질문을 던집니다.

OpenAI는 이 판결에 항소할 의사를 밝혔습니다. 이번 소송의 결과는 단순히 한 기업의 법적 책임을 넘어, 방대한 인터넷 데이터를 학습하는 모든 생성형 AI 모델의 개발 관행에 영향을 미칠 수 있는 중요한 선례가 될 것입니다. 역사적으로 소프트웨어와 데이터베이스 저작권 분쟁이 산업 표준을 형성해 온 것을 고려하면, 이번 사건의 결말은 AI 업계 전체의 미래 방향을 가늠하는 잣대가 될 수도 있습니다.

기술의 경계를 넓히는 과정에서, 기업의 혁신 의지와 창작자의 권리 보호는 조화를 이루어야 할 어려운 과제입니다. OpenAI의 내부 논의가 공개된다면, 우리는 단순한 ‘법적 전략’ 이상으로, 한 기술 기업이 이 난제를 마주했을 때의 진정한 고민을 엿볼 수 있을지도 모릅니다. 궁극적으로 우리가 묻고 싶은 질문은 아마도 이것일 것입니다. 인공지능이 인간의 지식을 학습하는 방식은, 과연 그 지식을 만든 이들에 대한 존중 위에 세워져야 하지 않을까요?

원문: [Ars Technica](https://arstechnica.com/tech-policy/2025/12/openai-desperate-to-avoid-explaining-why-it-deleted-pirated-book-datasets/)

위로 스크롤