요즘 코딩하시는 분들, AI 에이전트 한번쯤 써보셨나요? ‘한 줄 설명만 하면 앱을 만들어준다’는 소리에 완전 관심 가져보셨을 거예요. 저도 스타트업에서 일하다 보니 ‘이거 진짜 되나?’ 싶어서 궁금했는데요, 최근에 나온 에이전트들은 정말 몇 시간씩 일하면서 코드를 짜고 테스트하고 버그까지 고친다고 하네요. 하지만 여기서 중요한 건, 이게 만능 해결사는 절대 아니라는 점이에요.
간단히 말하면, 이 모든 AI 코딩 에이전트의 핵심에는 ‘LLM’이라는 큰 언어 모델이 있어요. 이 모델은 엄청난 양의 텍스트와 코드를 학습한 패턴 매칭 머신이라고 생각하시면 돼요. 우리가 프롬프트를 주면, 학습한 데이터 속에서 통계적으로 가장 그럴듯한 다음 단어나 코드를 이어붙이는 방식이죠. 그래서 잘하면 천재적인 추론을 보여주지만, 가끔은 아주 그럴싸한 ‘허튼소리’를 할 때도 있어요. 우리가 막 ‘어? 이건 아닌데?’ 싶은 코드를 생성하는 바로 그 순간이에요.
이 기본 모델을 더 유용하게 다듬는 과정이 정말 흥미로워요. ‘RLHF’라고 해서 사람의 피드백으로 학습시키거나, 특정 작업에 맞게 미세 조정을 하거든요. 그리고 최근에는 ‘시뮬레이션 추론’이라는 방식으로 AI가 문제를 풀기 전에 먼저 ‘생각하는’ 텍스트를 생성하게 해서 정확도를 높이기도 했어요. 여러 LLM을 엮어서 동시에 작업하고 결과를 평가하는 ‘에이전트’ 시스템도 등장했고요.
결국 AI 코딩 에이전트는 여러 LLM을 관리하는 ‘관리자 프로그램’ 같은 거예요. 우리의 지시를 해석하는 ‘슈퍼바이저 LLM’이 있고, 이 친구가 실제 코딩이나 테스트 같은 하위 작업을 다른 LLM들에게 나눠주는 구조죠. Anthropic의 설명에 따르면 ‘정보 모으기 → 행동하기 → 작업 검증하기 → 반복하기’의 패턴으로 움직인다고 해요.
근데 여기서 조심해야 할 점이 있어요. CLI로 로컬에서 돌릴 때는 에이전트에게 파일을 쓰거나 명령어를 실행할 권한을 줘야 하는데, 이게 보안상 위험할 수 있거든요. 반면 웹 버전은 샌드박스라는 안전한 공간에서만 작업을 하도록 설계되어 있어 좀 더 안전하답니다.
또 하나, AI에게도 ‘기억력 한계’가 있다는 사실! ‘컨텍스트’라고 부르는 이 공간은 일종의 단기 메모리인데, 여기에 너무 많은 정보를 채우면 AI도 결국 앞뒤를 잊어버리고 헷갈려해요. 연구에 따르면 컨텍스트가 길어질수록 AI의 성능이 점점 떨어진다고 하네요. 결국 이 모든 처리 과정은 컴퓨팅 자원을 엄청나게 먹는 일이에요. 토큰(데이터 덩어리) 하나하나를 서로 비교하면서 계산하니까, 처리량이 늘어날수록 필요한 비용은 제곱으로 뛰어오른답니다.
그러니까 결론은요, AI 코딩 에이전트는 정말 강력한 도구이지만, ‘똑똑한 조수’ 정도로 생각하는 게 좋을 것 같아요. 모든 걸 맡기기보다는, 반복적인 작업을 덜어주거나 아이디어를 구체화하는 데 활용하는 전략이 현명하겠죠. 어떻게 쓰느냐에 따라 생산성의 천국이 될 수도, 예상치 못한 버그의 늪이 될 수도 있을 테니까요. 한번쯤 도전해보시되, 너무 의존하기보다는 우리가 주도권을 쥐고 활용해봐요!
—
원문: [Ars Technica](https://arstechnica.com/information-technology/2025/12/how-do-ai-coding-agents-work-we-look-under-the-hood/)