사진 조작의 역사를 바꾼 GPT 이미지 1.5, 이제 문장만 쓰면 진짜 같은 가짜 사진이?

요즘 AI로 만든 이미지 보시는 분 많으시죠? 저는 가끔 SNS에서 너무 완벽한 사진을 보면 ‘이거 AI 아냐?’ 싶을 때가 많아요. 그런데 이제 그 구분이 점점 더 어려워질 것 같아요. OpenAI가 이번에 출시한 ‘GPT 이미지 1.5’가 그 주인공이거든요.

사진 조작의 역사가 200년 정도 된다고 하는데, 예전에는 암실 작업이나 포토샵 실력, 아니면 가위와 풀을 든 안정된 손이 필요했대요. 근데 지금은? 그냥 문장 하나만 입력하면 끝이에요. “아빠를 웨딩홀에서 턱시도를 입은 모습으로 바꿔줘”라고 말하면, AI가 사진과 글을 동시에 이해해서 새로운 픽셀을 만들어낸다고 하네요.

사실 OpenAI만 이런 기술을 만드는 건 아니에요. 올해 3월에 구글이 먼저 공개 프로토타입을 선보였고, 8월에는 ‘나노 바나나’라는 모델로 인기를 끌었거든요. 특히 글자를 선명하게 넣거나 편집을 거쳐도 얼굴을 일관되게 유지하는 능력이 좋아서 SNS에서 화제가 됐었죠. 이걸 본 OpenAI가 자극을 받아서 더 강력한 모델을 내놓은 느낌이에요.

GPT 이미지 1.5의 가장 큰 특징은 ‘네이티브 멀티모달’이라는 점이에요. 쉽게 말하면, 이미지 생성이 글을 처리하는 뇌(신경망) 안에서 바로 일어난다는 뜻이에요. 예전 DALL-E 3 같은 모델은 ‘확산’이라는 다른 기술을 썼는데, 이제는 글과 이미지를 똑같은 ‘토큰’이라는 데이터 덩어리로 보고, 다음에 올 패턴을 예측하는 방식으로 작업한다고 하네요. 마치 다음에 올 단어를 예측하듯이 다음에 올 픽셀을 예측하는 거죠.

덕분에 훨씬 자연스러운 편집이 가능해졌어요. 사람의 자세나 위치를 바꾸고, 배경의 각도를 살짝 틀고, 옷 스타일을 변경하는 것까지요. 심지어는 사진에 대해 AI와 대화를 하면서 수정안을 계속 만들어낼 수도 있다고 해요. 마치 ChatGPT로 이메일 초안을 고치듯이 말이죠.

솔직히, 이렇게 편리해지면 좋은 점도 많지만 좀 무서운 느낌도 들어요. 가짜 뉴스나 딥페이크 문제가 더 심각해질 수 있으니까요. 기술은 정말 빠르게 발전하는데, 우리 사회가 이를 따라잡을 준비는 되어 있을까 싶네요.

OpenAI는 이번에 채팅 인터페이스가 이미지 작업에는 맞지 않는다고 생각했는지, 사이드바에 전용 이미지 생성 공간도 따로 만들었대요. 프리셋 필터나 인기 프롬프트도 제공해서 더 쉽게 사용할 수 있게 했죠. 사용자 경쟁에서 구글에 뒤처지지 않으려는 노력이 보이네요.

물론 아직 완벽하지는 않아요. 테스트를 해보니 가끔 제시한 지시를 잘 따르지 않을 때도 있다고 하거든요. 하지만 작동할 때는 이전 모델보다 훨씬 정교하고 설득력 있는 결과물을 만들어낸다고 해요.

제 생각엔 이 기술이 본격적으로 보급되면, 단순히 ‘사진 편집’의 개념을 넘어서서 ‘시각적 커뮤니케이션’ 자체를 바꿀 것 같아요. 이제 우리가 사진을 ‘촬영’하는 것이 아니라 ‘생성’하고 ‘대화’하는 시대가 온 건지도 모르겠네요. 한편으로는 신기하고 편리하지만, 무엇이 진짜인지에 대한 우리의 기준도 다시 생각해봐야 할 때인 것 같아요.

여러분은 AI가 만들어내는 이 완벽에 가까운 이미지들, 어떻게 생각하시나요?

원문: [Ars Technica](https://arstechnica.com/ai/2025/12/openais-new-chatgpt-image-generator-makes-faking-photos-easy/)

위로 스크롤