요즘 AI 챗봇 쓰시나요? “요즘 날씨 어때?” 같은 건 쉽게 알려주는데, 뭔가 구체적인 정보를 물어보면 가끔 “제가 찾아본 결과…” 하면서 링크를 던져주잖아요. 그런데 그 링크 정보는 대체 어디서 오는 걸까요? 🤔 그 배후에서 벌어지고 있는, 보이지 않는 데이터 전쟁에 구글이 본격적으로 뛰어들었네요.
얘기가 좀 복잡해질 수 있는데, 쉽게 말하면 이렇습니다. 구글은 세상에서 가장 큰 인터넷 색인(인덱스)을 가지고 있어요. 우리가 ‘맛집 검색’이나 ‘주식 용어 찾기’를 할 때 보는 그 하얀 페이지와 파란 링크들이 바로 그 결과물이죠. 근데 진짜 문제는, 구글이 이 검색 결과 데이터를 공식적으로 판매하는 API를 제공하지 않는다는 거예요. 그러니 다른 회사들, 특히 AI를 만드는 회사들은 이 귀중한 데이터를 구할 다른 길을 찾아야 했고요.
그래서 등장한 게 ‘SerpApi’ 같은 회사들이에요. 이 회사들은 로봇(봇)을 이용해 구글의 검색 결과 페이지를 마구마구 긁어오고(이걸 ‘스크래핑’이라고 해요), 그 데이터를 AI 업체 등에 다시 팔아요. 마치 구글 옆에 숨어서 메뉴판을 몰래 베껴다가 다른 식당에 파는 느낌이죠. 구글은 당연히 “우리 이용약관도 위반하고, 법도 무시하는 행위”라며 소송을 제기했어요.
근데 여기서 좀 신기한 게, 구글이 “우리만 보호하려는 게 아니다”라고 주장한다는 점이에요. “우리가 검색 결과에 보여주는 웹사이트들도, SerpApi가 자기네 콘텐츠를 긁어가는 걸 허락한 적 없다”는 거죠. 맞는 말이에요. 예를 들어 제 블로그 글이 구글 검색에 떴다고 해서, 다른 누군가가 그걸 긁어가 AI 학습에 쓰는 걸 제가 허락한 건 아니잖아요.
솔직히 이번 소송은 AI 시대가 본격화되면서 불가피한 충돌인 것 같아요. Perplexity 같은 유명 AI 챗봇도 실제로 SerpApi의 데이터를 썼다고 하고, 레딧(Reddit)이라는 커뮤니티 사이트는 지난번에 SerpApi와 Perplexity를 동시에 고소하기도 했거든요. 데이터에 대한 갈증이 커질수록, 그 출처를 두고 벌어지는 다툼도 격해지는 거죠.
제 생각엔 이 사건은 단순한 법적 다툼을 넘어서요. 앞으로 우리가 사용할 AI의 ‘지식’이 어디서 오는지, 얼마나 투명해야 하는지에 대한 중요한 질문을 던집니다. 구글이 승소하면, AI 회사들은 마이크로소프트의 Bing이나 Brave 검색처럼 공식 API가 있는 다른 데이터 출처를 더 많이 이용해야 할지도 몰라요. 반대로, 만약 스크래핑이 어느 정도 허용되는 문화가 이어진다면, 데이터 독점 문제는 더 심각해질 수도 있고요.
한편으로는 구글이 최근 반독점 소송에서 큰 타격을 입지 않았기 때문에, 데이터를 지키는 데 더 자신감이 생겼을 거라는 분석도 있어요. 만약 정부가 “구글아, 네 검색 데이터를 경쟁사에게도 제공해라”고 강하게 요구했더라면 상황이 달라졌을 텐데, 그렇지 않았으니 본격적으로 법적 무기를 들고 나선 거죠.
결국 이 모든 일의 중심에는 ‘데이터의 가치’가 있네요. 주식이나 코인 투자할 때도 기본적인 재료(데이터)가 중요하듯이, AI의 미래도 결국 어떤 데이터를 얼마나 잘 가공하느냐에 달려 있는 것 같아요. 구글의 이번 소송이 단순한 기업 이익 보호를 넘어, 조만간 우리 모두가 논의해야 할 데이터 소유권과 윤리에 대한 본격적인 문을 열지도 모르겠어요. 한편으로는 조금 걱정스럽기도 하고, 또 한편으로는 이제야 본격적으로 논의가 시작되는구나 싶기도 하네요.
—
원문: [Ars Technica](https://arstechnica.com/google/2025/12/google-lobs-lawsuit-at-search-result-scraping-firm-serpapi/)