요즘 개발하시는 분들, AI 코딩 도구 많이 써보셨나요? 저는 코딩은 잘 모르지만, IT 스타트업에 다니다 보니 개발자 분들이 ‘클로드 코드’나 ‘코덱스’ 같은 AI 에이전트로 몇 시간짜리 작업을 맡기는 모습을 자주 봐요. 앱을 통째로 만들고, 테스트하고, 버그까지 고친다니까 진짜 신기하더라고요. 근데 이게 마법의 지팡이는 아니랍니다. 오히려 프로젝트를 더 복잡하게 만들 수도 있어서, 어떻게 돌아가는지 아는 게 중요해요.
간단히 말하면, 이 AI 에이전트의 핵심에는 ‘LLM’이라는 큰 언어 모델이 있어요. 이건 엄청난 양의 텍스트와 코드를 학습한 패턴 매칭 머신이에요. 우리가 프롬프트(지시)를 주면, 학습한 데이터 통계를 바탕으로 ‘아, 이럴 때는 보통 이렇게 이어지겠지?’ 하면서 결과물을 뱉어내는 거죠. 잘하면 논리적인 추론을 해내지만, 가끔은 아예 상상으로 허구를 만들어내는 ‘환각’ 오류도 일으킨답니다. 우리가 코인 차트를 보고 패턴을 읽듯이, AI도 비슷한 원리로 움직인다고 생각하시면 돼요.
그래서 연구자들이 이 단점을 보완하는 방법을 개발했어요. 하나는 ‘시뮬레이션 추론’ 방식인데, AI가 문제를 풀기 전에 머릿속으로 ‘생각하는’ 과정을 텍스트로 적어내면서 더 정확한 답에 도달하도록 도와주는 거예요. 또 다른 혁신은 바로 ‘에이전트’에요. 여러 개의 LLM을 하나의 프로그램으로 묶어서, 한 명의 관리자(슈퍼바이징 LLM)가 작업을 나누고, 다른 LLM들이 동시에 여러 하위 작업을 수행하도록 만드는 거죠. Anthropic의 설명처럼 ‘정보 모으기 → 행동하기 → 작업 확인하기’를 반복하는 체계랍니다.
이걸 로컬 컴퓨터에서 쓰면, AI에게 파일을 쓰거나 명령어를 실행할 권한을 줘야 해요. 되게 강력해 보이지만, 동시에 위험할 수도 있죠. 반면 웹 버전은 샌드박스라는 안전한 공간에서만 작업하게 해서 비교적 안전하답니다.
여기서 중요한 개념이 ‘컨텍스트’예요. AI의 단기 기억력이라고 생각하시면 돼요. 대화 기록과 생성된 코드, 심지어 AI가 생각한 과정까지 모두 하나의 거대한 프롬프트에 담기는데, 이게 너무 길어지면 AI도 헷갈려서 성능이 떨어지는 ‘컨텍스트 부패’ 현상이 생긴다고 해요. 비유하자면, 우리가 너무 많은 일을 동시에 멀티태스킹하면 실수가 늘어나는 것과 비슷하네요.
결론은, AI 코딩 에이전트는 완전 자율적인 동료 개발자가 아니라, 아주 똑똑하지만 때로는 삐딱선을 타는 조수라는 거예요. 우리가 그 원리와 한계를 정확히 알아야, 언제 믿고 맡겨야 할지, 언제는 직접 확인해야 할지 판단할 수 있죠. 투자할 때도 그렇잖아요? 어떤 기술이 유행이라고 무조건 뛰어들기보다, 그 기술이 실제로 어떻게 작동하고 어떤 리스크가 있는지 아는 게 진짜 힘이 되는 법이에요. 다음에 AI가 코드를 추천해줄 때, 한번 그 뒤에서 어떤 일이 벌어지고 있는지 생각해보는 것도 재미있을 거예요.
—
원문: [Ars Technica](https://arstechnica.com/information-technology/2025/12/how-do-ai-coding-agents-work-we-look-under-the-hood/)