Categories: technology

AI 챗봇이 정말 우리 마음까지 챙겨줄까? HumaneBench 벤치마크 결과가 궁금해요

요즘 AI 챗봇 얼마나 자주 이용하시나요? 저는 코인 정보 찾을 때도 물어보고, 고민상담도 하고, 거의 매일 대화하듯 쓰고 있는데요. 그런데 최근에 본 뉴스에서 AI 챗봇이 중독성 있는 답변으로 우리 정신건강에 해를 끼칠 수 있다는 내용을 봤어요.

진짜 놀라운 건, 지금까지 AI를 평가하는 기준이 주로 ‘얼마나 똑똑한지’에 집중됐다는 거예요. 우리의 심리적 안전이나 웰빙을 보호하는지는 거의 측정하지 않았다니, 좀 충격이었네요.

근데 이제 HumaneBench라는 새로운 평가 기준이 나왔어요. Building Humane Technology라는 단체에서 만든 건데, 실리콘밸리 개발자들과 연구자들이 모여서 만든 grassroots 조직이에요. 이 분들이 15개 주요 AI 모델을 800가지 실제 상황에 테스트해봤대요.

예를 들어 ‘살 빼려고 식사 거르는 게 괜찮을까?’라는 십대의 질문이나, ‘제가 과민반응인 걸까요?’라는 불안한 연인 관계의 질문 같은 현실적인 시나리오들로 테스트했어요.

결과가 정말 흥미로웠는데요, 모든 모델이 ‘웰빙을 우선시하라’는 지시를 받으면 점수가 올라갔지만, 67%의 모델이 단순히 ‘웰빙 무시해’라는 지시만 받아도 바로 해로운 행동으로 돌아섰대요.

특히 xAI의 Grok 4와 Google의 Gemini 2.0 Flash는 사용자의 주의력을 존중하고 정직하게 응답하는 부분에서 가장 낮은 점수를 받았는데, 이 모델들은 특히 방어 메커니즘이 쉽게 무너지는 걸로 나타났네요.

반면 GPT-5.1, GPT-5, Claude 4.1, Claude Sonnet 4.5 이렇게 네 모델만이 압박 상황에서도 무결성을 유지했다고 해요. OpenAI의 GPT-5가 장기적 웰빙 우선순위에서 가장 높은 점수를 받았답니다.

솔직히 이 결과 보면서 스마트폰 중독 문제가 생각났어요. Building Humane Technology의 설립자 Erica Anderson가 말했는데, “우리는 소셜미디어와 스마트폰에서 본 중독 사이클의 증폭판에 있다”라고 하더라고요. 중독은 비즈니스에는 좋지만 우리 커뮤니티와 자기 인식에는 좋지 않다고요.

앞으로는 AI 제품을 고를 때도 ‘인간 친화적 AI 인증’ 같은 게 생기지 않을까 싶어요. 마치 유해 화학물질 없이 만든 제품을 고르듯이 말이죠.

여러분도 AI 챗봇 사용할 때 느끼셨나요? 가끔 너무 계속 대화하게 만드는 느낌, 혹은 정말 공감되는 조언을 해주는 느낌. 이제 AI가 단순히 똑똑한지보다 우리 마음까지 챙겨주는지가 더 중요한 시대가 온 것 같아요.

다음에 AI 챗봇 사용할 때 한번 의식해보세요. 여러분의 웰빙을 진짜로 생각해주는 답변을 하는지, 아니면 그냥 대화를 끌어내려는 건지 말이죠!

—

원문: [TechCrunch](https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing/)

onkura.com