요즘 통신사나 카드사에서 터지는 개인정보 유출 소식, 들을 때마다 마음이 조마조마하시죠? 저도 최근에 문자가 와서 깜짝 놀란 적이 한두 번이 아니에요. 그런데 이런 걱정이 정말 현실이 된 모양이에요. 올해 들어 벌써 작년보다 더 많은 유출 사고가 접수됐다고 하네요. 완전 심각한 수준이죠.
이런 상황에서 정부가 나섰어요. 공공기관이 AI 시스템을 도입할 때는 꼼꼼한 ‘개인정보 영향평가’를 받아야 한다는 새로운 가이드라인을 내놓았거든요. AI가 학습하고 운영되는 과정에서 개인정보가 침해될 위험을 미리 샅샅이 점검하라는 거죠. 좋은 의도지만, “평가도 어렵고, AI 도입도 해야 하는데… 어떻게 하지?”라는 고민이 생기기 딱 좋은 상황이에요.
근데 여기서 정말 신기한 해결책이 나왔어요. 바로 ‘합성데이터’라는 개념이에요. 쉽게 말하면, 실제 우리 개인정보(원본 데이터)는 건드리지 않은 채, 그 통계적 패턴과 특징만 똑같이 복제해서 만든 가상의 데이터라고 생각하시면 돼요. 마치 레시피와 요리 재료의 특성만 보고, 실제 재료는 쓰지 않고 똑같은 맛과 모양의 요리를 만드는 것과 비슷하달까요? 그래서 유출 걱정이 현저히 줄어들죠.
이 합성데이터 기술을 전문으로 하는 큐빅이라는 스타트업이 공공기관과 금융기관을 위한 인프라 솔루션을 선보였어요. ‘DTS’라는 시스템인데요, 영향평가에서 위험하다고 지적된 부분의 데이터를 합성데이터로 대체할 수 있게 해준다고 해요. 원본 데이터는 철통처럼 보안된 내부망에 두고, 그 ‘패턴’만 학습해서 새 데이터를 만들어내는 방식이에요.
제일 마음에 드는 점은, 이렇게 만든 합성데이터가 ‘AI-Ready’, 즉 AI 학습에 바로 쓸 수 있을 만큼 유용한지도 자동으로 검증해준다는 거예요. 유사도는 얼마나 되는지, 재식별 위험은 없는지 리포트까지 떼서 주니까, 기관에서 영향평가 보고서에 첨부하기에도 완전 좋겠더라고요. 서류상으로만 위험을 관리하는 게 아니라, 구조적으로 위험을 낮추면서 디지털 전환도 할 수 있는 실질적인 방법인 셈이죠.
솔직히, 규제가 강화되는 건 다 우리 개인정보를 지키기 위해서일 텐데, 그게 오히려 기술 도입의 발목을 잡으면 안 되잖아요. 큐빅의 이런 시도는 꽤 현실적인 해법처럼 느껴져요. 앞으로 공공데이터포털에 AI 학습용 데이터셋이 이렇게 준비된다면, 우리나라 AI 생태계에도 좋은 일이 될 거 같아요.
이제 보안과 혁신은 양자택일이 아니라, 함께 가야 할 과제가 된 것 같네요. 다음에 또 대형 유출 사고 소식을 들을 때는, ‘아, 그런데 이제는 해결 방법도 나오고 있구나’ 하고 조금은 다른 생각을 해볼 수 있을 것 같아요.
—
원문: [전자신문](https://www.etnews.com/20251224000374)