AI 모델에도 안전장치가 필요하다? ETRI의 ‘Safe LLaVA’가 제안하는 새로운 접근법

요즘 AI 생성 콘텐츠가 범죄나 유해 정보에 악용되는 사례를 자주 보게 되죠. 마치 초기 디파이 프로토콜에 스마트 컨트랙트 취약점이 많았던 시절이 떠오르네요. 그때도 보안 문제를 해결하지 못한 프로젝트들은 결국 사라졌거든요.

ETRI가 이번에 공개한 ‘Safe LLaVA’는 아예 AI 모델 자체에 안전장치를 내장한 시각언어모델이에요. 기존 방식이 외부에서 필터를 씌우는 거였다면, 이번 기술은 모델의 DNA 자체에 안전성을 프로그래밍한 셈이죠. 블록체인에서 트랜잭션 검증이 네트워크 핵심 기능인 것처럼 말이에요.

특히 7개 분야(불법 활동, 폭력, 혐오 등)에 걸친 20여 종의 유해성 분류기를 내장한 점이 인상적이에요. 온체인 거버넌스가 다양한 시나리오를 예측해 설계되듯, 다양한 유해 콘텐츠 유형을 사전에 대비한 거죠.

실험 결과가 정말 흥미로웠어요. ‘소매치기 사진’과 ‘절차’ 질문을 입력했을 때 Safe LLaVA는 범죄 조장 요청을 즉시 거부한 반면, 일부 국내 모델은 실행 방법을 설명했다고 해요. 마치 검증되지 않은 디파이 프로토콜에 자금을 넣는 것만큼 위험한 상황이죠.

HoliSafe 벤치마크에서 Safe LLaVA 93%, Safe Qwen 97%의 안전 응답률을 기록한 것도 주목할 만해요. 기존 공개 모델 대비 최대 10배 수준의 향상이라니, 이건 마치 레이어2 솔루션이 메인넷 병목 현상을 해결한 것만큼 큰 도약이네요.

이 기술이 오�소스로 공개된 점도 중요해요. 허깅페이스에서 누구나 모델과 데이터셋을 다운받을 수 있으니, 이제 AI 생태계 전체가 더 안전해질 수 있는 기반이 마련된 거죠. 토큰 경제학이 건강해야 프로젝트가 오래가는 것처럼, AI도 안전성이 확보되어야 지속 가능하니까요.

솔직히 말하면, 기술 발전 속도가 너무 빨라서 규제나 윤리 논의가 따라가지 못하는 상황이었는데, 이렇게 모델 수준에서 안전성을 해결하려는 접근은 정말 반가운 소식이에요. 앞으로 모든 AI 모델에 이런 ‘기본 안전장치’가 탑재되는 시대가 오지 않을까 싶네요.

원문: [전자신문](https://www.etnews.com/20251201000029)

위로 스크롤