여러분, 요즘 통신사나 카드사에서 터지는 개인정보 유출 소식 들으시면, 막 심장이 철렁하시지 않나요? 저는 어디 가입할 때마다 ‘이 정보 또 털리면 어쩌지’ 하는 생각이 들어서 좀 신경이 쓰이더라고요. 그런데 정말 올해만 벌써 작년 전체보다 더 많은 유출 사고가 있었다고 해요. 완전 무섭죠.
이런 상황에서 정부도 나섰어요. 공공기관을 대상으로 ‘개인정보 영향평가’ 가이드라인을 좀 더 엄격하게 바꾸었거든요. 특히 AI 시스템을 도입할 때는, 이 AI가 개인정보를 침해할 위험이 얼마나 되는지 꼼꼼히 따져보고 보고서를 내야 한대요. 마치 위험한 물건을 쓰기 전에 안전성 검증을 받는 것처럼요.
근데 여기서 딜레마가 생기죠. AI를 훈련시키려면 당연히 많은 데이터가 필요한데, 그 데이터가 바로 민감한 개인정보라면? 평가도 어렵고, 유출 위험도 걱정되고… 막막할 수밖에 없어요.
그래서 나온 개념이 ‘합성데이터’예요! 이거 진짜 신기한 개념인데, 실제 개인정보를 복사해오는 게 아니라, 그 데이터의 통계적 패턴과 구조만을 똑같이 따라한 ‘가상의 데이터’를 만드는 거예요. 예를 들어, 실제 고객 A, B, C님의 정보는 전혀 쓰지 않으면서, ’20대 여성, IT업종, 월소득 300~400만 원’ 같은 특성을 가진 가상의 인물 데이터를 무한정 생성할 수 있는 거죠.
이 합성데이터를 전문으로 하는 회사 ‘큐빅’이 공공과 금융기관을 위한 인프라 솔루션, DTS를 내놓았어요. 이 시스템의 핵심은 ‘원본 비접근’ 구조라서, 원본 데이터는 철통처럼 보안된 내부망에 그대로 두고, 그 패턴만 학습해서 합성데이터를 만들어내요. 그러니까 원본을 건드릴 일이 전혀 없는 거죠. 여기에 추가로 ‘차등정보보호’라는 기술까지 더해, 데이터 주인이 누구인지 추적조차 불가능하게 만든답니다.
덕분에 기관들은 이 합성데이터로 AI 모델을 마음껏 훈련시키고, 정책을 연구할 수 있어요. 그리고 영향평가를 할 때, “저희는 위험한 원본 대신 이 안전한 합성데이터를 쓸 거예요”라고 말하면서, 시스템이 자동으로 만들어주는 검증 리포트를 제출하면 끝이죠. 서류 작업으로만 끝나던 위험 관리를, 실제로 위험을 낮추는 행동으로 연결해주는 셈이에요.
솔직히, 규제가 강화되는 걸 보면 불편할 수도 있지만, 이렇게 기술이 해결책을 제시하는 모습을 보면 반갑네요. 개인정보는 소중하게 지키면서도 AI 기술 발전도 멈추지 않는, 현명한 방법인 것 같아요. 큐빅이 앞으로 공공데이터포털에 AI 학습용 데이터셋을 구축한다고 하니, 더 다양한 분야에서 안전한 데이터로 만든 AI 서비스를 곧 만나볼 수 있지 않을까요? 기대가 됩니다!
—
원문: [전자신문](https://www.etnews.com/20251224000374)