AWS re:Invent 2025에서 아마존이 꽤 흥미로운 발표를 했네요. 자체 개발 AI 훈련 칩의 3세대 버전인 ‘Trainium3’를 정식 출시한 거죠. 솔직히 말하면, AI 인프라 전쟁은 이제 GPU 하드웨어 싸움을 넘어서고 있는 것 같아요.
트레이니움3의 스펙을 보면 정말 인상적이에요. AWS에 따르면 전세대 대비 훈련 속도가 4배 빨라졌고, 메모리도 4배 늘어났거든요. 특히 ‘UltraServer’라는 시스템으로 묶으면 최대 100만 개의 칩을 연결할 수 있다고 하네요. 10배나 늘어난 수치죠. 이 규모를 비트코인 마이닝 풀에 비유하자면, 전 세계 해시레이트의 상당 부분을 하나의 네트워크로 묶는 것과 비슷한 느낌이에요.
개인적으로 더 주목한 건 에너지 효율 40% 향상이에요. 요즘 AI 데이터센터가 전기를 무진장 먹는 괴물이 되어가고 있는데, 아마존이 “덜 마시는” 시스템을 만들겠다는 건 현명한 전략 같아요. 이건 비용 절감뿐만 아니라, 결국 우리가 내는 클라우드 요금에도 영향을 미칠 테니까요. 실제로 Anthropic나 일본의 Karakuri 같은 고객사들은 이미 트레이니움3로 추론 비용을 크게 줄였다고 하네요.
하지만 진짜 핵심은 로드맵에 있었어요. 다음 세대 칩인 ‘트레이니움4’가 개발 중이고, 여기에 엔비디아의 NVLink 기술을 지원할 거라고 발표했죠. 이건 꽤 큰 의미가 있어요.
지금 AI 생태계는 사실상 엔비디아의 CUDA와 GPU에 갇혀 있다고 해도 과언이 아니잖아요. 모든 주요 AI 앱이 CUDA를 위해 만들어지죠. 아마존이 자체 칩을 개발하면서도 엔비디아와의 호환성을 열어둔다는 건, “우리 플랫폼으로 와도 기존에 쓰던 걸 그대로 쓸 수 있어요”라는 메시지거든요. 이건 마치 이더리움 가상머신(EVM) 호환성을 내세우는 다른 레이어1 블록체인들이 하는 전략과 비슷해 보이네요. 기존 생태계의 네트워크 효과를 뛰어넘으려면, 일단 그 안으로 편입되는 게 현명한 방법일 수 있죠.
아직 트레이니움4의 타임라인은 공개되지 않았어요. 아마도 내년 re:Invent에서 더 자세한 소식을 들을 수 있지 않을까 싶네요.
결론적으로, 이 발표는 AI 인프라 시장이 단순한 ‘GPU 대체’ 경쟁에서 ‘다양화와 통합’의 단계로 넘어가고 있음을 보여주는 것 같아요. 아마존은 엔비디아에 대한 완전한 의존도를 줄이면서도, 그 거대한 생태계를 외면하지 않는 현실적인 접근법을 선택한 거죠. 클라우드 비용에 민감한 개발자나 스타트업 입장에서는 선택지가 늘어나는 게 환영할 만한 일이에요. 하지만 여전히 CUDA의 벽은 두껍고, 실제 성능과 안정성은 써봐야 알겠죠. 한편으로 지켜봐야 할 것 같네요.
—
원문: [TechCrunch](https://techcrunch.com/2025/12/02/amazon-releases-an-impressive-new-ai-chip-and-teases-a-nvidia-friendly-roadmap/)