여러분, 요즘 가장 많이 듣는 플레이리스트 있나요? 저는 출퇴근길에 스포티파이 추천 리스트 틀어놓고 다니는 게 일상이 되었는데요. 그런데 그 스포티파이의 데이터가 통째로 복사되어 인터넷에 퍼졌다는 소식, 들으셨나요?
말이 나온 김에 바로 본론으로 들어갈게요. ‘애나 아카이브(Anna’s Archive)’라고 불리는 세계 최대의 그림자 도서관이, 스포티파이에서 300테라바이트(TB)에 달하는 음원과 메타데이터를 긁어모아 토렌트로 배포하기 시작했어요. 300TB라니 상상이 가시나요? 고화질 영화로 치면 수만 편은 족히 들어갈 양이에요. 이 아카이브 측은 이 데이터가 스포티파이 전체 청취의 99% 이상을 차지하는, 가장 인기 있는 음원들을 우선적으로 모은 것이라고 설명했어요. AI로 생성된 질 낮은 음원이나 전혀 들리지 않는 곡들은 걸러냈다고 하네요.
솔직히 처음 들었을 때 ‘저게 가능해?’라는 생각이 가장 먼저 들었어요. 스포티파이 같은 거대 플랫폼의 데이터를 그 정도 규모로 가져간다는 게. 당연히 스포티파이는 즉각 반발했고, 불법적인 스크래핑(데이터 수집)을 한 제3자를 조사 중이며, 관련 계정을 차단했다고 발표했어요. DRM(디지털 저작권 관리)을 우회하는 불법적인 방법이 사용되었다는 거죠. 앞으로도 이런 일이 없도록 새로운 안전장치를 마련하고 있다고 합니다.
그런데 여기서 가장 궁금한 점은, ‘도대체 왜 이런 일을 벌인 거지?’예요. 애나 아카이브의 주장은 의외로 웅장해요. “인류의 음악 유산을 보존하기 위해서”라고 말하거든요. 자연재해, 전쟁, 예산 삭감 같은 재앙으로부터 음악을 ‘영원히’ 보호하겠다는 미션을 내세웠어요. 책과 학술지로 유명한 라이브제니(LibGen)처럼, 음악 분야에도 모든 곡을 아우르는 ‘권위 있는 목록’을 만들고 싶다는 거였죠.
근데 진짜 신기한 건 이 이야기의 배경이에요. 이 아카이브가 점점 더 AI 개발자들로부터 자금을 지원받고 있다는 사실이에요. 메타나 앤트로픽 같은 AI 기업들이 라이브제니를 통해 책 데이터셋을 불법적으로 사용해 모델을 학습시킨 건 이미 유명한 이야기잖아요? 이번 음원 데이터도 결국 AI 학습용으로 쓰이지 않을까 하는 의혹이 자연스럽게 생기네요. 해커 뉴스 같은 개발자 커뮤니티에서도 “이 데이터가 일반 음악 팬보다는 AI 연구자들에게 더 유용하지 않을까?”라는 지적이 나오고 있었어요.
제 생각엔 이 사건은 디지털 시대의 고전적인 갈등 구조를 잘 보여줘요. 한편에는 ‘정보와 문화는 자유로워야 하고, 보존되어야 한다’는 열린 정신이 있고, 다른 한편에는 창작자의 권리와 플랫폼의 안전을 지키려는 노력이 있죠. 애나 아카이브의 미션이 순수한 보존 욕구에서 비롯된 것일 수도 있지만, 그 과정이 합법적인 선을 넘어섰다는 건 부정하기 어렵네요.
이런 일이 계속되면 앞으로 우리가 음악을 듣는 방식 자체가 바뀔지도 몰라요. 플랫폼들은 더 강력한 보안 장치를 도입하고, 이용 약관은 더 까다로워지고… 결국 불편한 건 우리 일반 사용자가 되지 않을까 걱정이 되기도 해요.
한편으로는, 제가 경제학을 전공했던 입장에서 보면, ‘데이터’라는 자원의 가치와 그를 둘러싼 경쟁이 점점 더 치열해지고 있다는 생각도 들어요. 음원 스트리밍 데이터는 단순히 노래 파일이 아니라, 수억 명의 취향과 트렌드가 응집된 귀중한 자산이니까요. 이번 사건은 그 자산의 가치가 어느 정도인지를 여실히 보여주는 사례인 것 같네요.
여러분은 어떻게 생각하시나요? 인류의 문화 유산을 보존해야 한다는 대의명분과, 그 과정에서 지켜야 할 법과 규칙 사이에서 어디쯤이 타협점일까요? 스포티파이 플레이리스트를 들으며 한번쯤 생각해보게 되는 소식이었어요.
—
원문: [Ars Technica](https://arstechnica.com/tech-policy/2025/12/worlds-largest-shadow-library-brags-it-scraped-300tb-of-spotify-music-metadata/)