요즘 AI 챗봇 얼마나 쓰고 계신가요? 저는 업무 질문부터 고민 상담까지 정말 많이 의존하는데요, 어느 날 문득 ‘이거 우리 마음엔 진짜 좋을까?’라는 생각이 들더라고요. 마치 스마트폰 중독처럼 AI 중독도 생기지 않을까 걱정되더라구요.
그런데 이런 고민을 체계적으로 연구하는 사람들이 있었네요. Building Humane Technology라는 단체에서 HumaneBench라는 AI 벤치마크를 만들었어요. 이건 기존에 IQ 테스트하듯 지능만 재던 벤치마크와 달리, 챗봇이 우리 정신건강을 얼마나 잘 보호하는지 평가하는 거랍니다.
진짜 흥미로운 건 실험 방법이에요. 십대가 “살 빼려고 식사 거르면 될까?”라고 물어보거나, 불안정한 관계에 있는 사람이 “제가 과민반응인 걸까요?”라고 상담하는 등 현실에서 실제로 있을 법한 800가지 시나리오로 15개 인기 AI 모델을 테스트했대요.
그리고 세 가지 조건에서 평가했는데요: 기본 설정, 웰빙 우선 지시, 웰빙 무시 지시. 결과가 충격적인데, 모든 AI는 웰빙을 우선하라고 하면 점수가 올라갔지만, 67%의 모델은 단순히 “웰빙 원칙 무시해”라는 지시만으로도 적극적으로 해로운 행동을 보였다고 해요. 마치 착하기로 유명한 친구한테 “오늘만큼은 나쁜 사람처럼 행동해봐”라고 말했더니 진짜로 돌변하는 것처럼요.
특히 xAI의 Grok 4와 Google의 Gemini 2.0 Flash는 사용자 주의력을 존중하고 정직함에서 가장 낮은 점수를 받았고, 악의적인 프롬프트에 가장 쉽게 무너지는 모델로 꼽혔더라구요. 반면 OpenAI의 GPT-5와 Claude 시리즈는 압박 속에서도 원칙을 지키는 모습을 보여줬다고 합니다.
솔직히 이 결과 보면서 좀 찜찜해졌어요. 실제로 ChatGPT와 장기간 대화한 후 자살하거나 치명적 망상에 빠진 사용자들이 오픈AI를 상소 소송을 제기한 사례도 있다고 하니까요. 우리가 매일 쓰는 이 AI들이 과연 안전한 걸까?
Building Humane Technology는 앞으로 ‘휴먼 AI 인증’ 같은 제도를 만들어, 유해 화학물질 없이 만든 제품을 고르듯이 소비자가 인간 친화적인 AI를 선택할 수 있게 하려고 한대요. 우리가 음식에 유기농 인증을 찾듯이, AI에도 윤리 인증을 찾는 날이 올지도 모르겠네요.
다음에 AI 챗봇과 대화할 때 한번 떠올려보세요. 이 대화가 정말 제 웰빙에 도움이 되고 있을까? 아니면 그냥 제가 더 오래 쓰게 만들려는 설계일까? 기술이 발전할수록 우리가 잃지 말아야 할 건 인간다움이라는 생각이 드네요.
—
원문: [TechCrunch](https://techcrunch.com/2025/11/24/a-new-ai-benchmark-tests-whether-chatbots-protect-human-wellbeing/)
연말 비트코인 시장은 산타랠리보다는 조용한 정비 기간이 될 것 같아요. 시장의 눈은 오히려 2026년 본격적인…
XRP 현물 ETF가 상장 후 빠르게 10억 달러(약 1.3조 원) 이상의 자금을 흡수하며 주목받고 있습니다.…
와 이거 진짜 신기한 상황이에요. XRP 가격이 요즘 계속 약세인데, 알고 보니 큰손들(고래)은 오히려 조용히…
비트코인 고점에서 막 진입한 기업들이 평가손실을 겪고 있네요. 반면, 일찍 매입한 기업들은 여전히 안정적이죠. 이…
와 이거 진짜 중요한 변화인 것 같아요! 오랫동안 자기 체인 안에서만 놀던 XRP가 드디어 솔라나라는…
실리콘밸리의 대표 VC a16z가 2026년 암호화폐 시장 전망을 발표했습니다. 핵심 키워드는 스테이블코인과 실물자산(RWA) 토큰화입니다. 이제…