개인정보 유출 걱정 없는 AI 시대, 합성데이터가 답이 될 수 있을까?

요즘 카드사나 통신사에서 몇 천만 건씩 터지는 개인정보 유출 소식에, 다들 불안하시죠? 저도 어딜 가면 번호랑 생년월일 입력하는 게 좀 겁나기 시작했어요. 그런데 이런 걱정이 정말 현실이 된 모양이에요. 올해 9월까지만 벌써 311건이나 유출 신고가 접수됐다고 하니, 작년 전체보다도 많다네요. 완전 심각한 수준이에요.

이렇게 위험한 상황에서 정부가 나섰어요. 공공기관이 AI 시스템을 도입하거나 개발할 때는 꼭 ‘개인정보 영향평가’를 깊게 해서 위험을 미리 점검하라고 새로운 안내서를 내놓았거든요. 쉽게 말하면, “AI 너 도입할 건데, 개인정보 털릴 위험은 얼마나 돼?” 하고 꼼꼼히 따져보라는 거죠.

근데 여기서 진짜 흥미로운 키워드가 나왔어요. ‘합성데이터’라는 거예요. 이게 뭐냐면, 실제 우리의 개인정보(원본 데이터)를 직접 쓰는 대신, 그 통계적 패턴과 특징만을 똑같이 따라 만든 가상의 데이터를 말해요. 마치 실제 고객 명단 대신, 그 고객들의 평균 나이나 선호도를 반영한 ‘가상의 인구 집단’을 만들어내는 거죠. 이걸로 AI를 학습시킬 수 있다고 해요. 원본은 안전한 금고에 넣어두고, 복제본으로 연구하고 개발하는 셈이니까 개인정보 유출 걱정이 현저히 줄어드는 거예요.

이 개념을 실제 솔루션으로 만든 ‘큐빅’이라는 스타트업의 전략이 눈에 띄네요. 그들의 DTS(Data Transform System)는 민감한 원본 데이터에는 손도 대지 않은 채, 안전하게 합성데이터를 만들어주는 인프라라고 해요. 그리고 이 데이터가 얼마나 원본과 비슷한지, AI 학습에는 얼마나 유용한지까지 자동으로 리포트를 뽑아준다니, 공공기관 입장에서는 규제 준수와 AI 개발을 한번에 해결할 수 있는 꿀 솔루션일 것 같아요.

솔직히 말하면, 영향평가라는 게 서류 작업으로 끝날까 봐 늘 불안했는데, 이렇게 기술로 직접 위험을 낮출 수 있는 실질적인 대안이 나온 건 정말 반가운 소식이에요. 큐빅은 앞으로 공공데이터포털에 AI 학습용 데이터셋을 제공하는 등 사업을 확대할 계획이라고 하니, 우리가 접하는 공공 서비스도 조만간 더 안전하면서도 스마트해질 수 있겠네요.

디지털 전환은 좋은데, 그 과정에서 우리 프라이버시가 털리면 의미가 없잖아요. 합성데이터 기술이 진짜 실용화되어서, ‘안전’과 ‘혁신’이라는 두 마리 토끼를 모두 잡는 그날이 빨리 왔으면 좋겠어요. 우리 정보가 안전해야, 마음 놓고 다양한 AI 서비스를 즐길 수 있을 테니까요.

원문: [전자신문](https://www.etnews.com/20251224000374)

위로 스크롤