클라우드플레어 대규모 장애, 알고 보니 파일 크기 때문이었네요

여러분, 어제 인터넷 좀 느렸다고 느끼신 분 계세요? 🧐
저는 슬랙이 안 되고 몇몇 사이트 접속이 안 돼서 살짝 당황했는데요, 알고 보니 클라우드플레어라는 회사에서 큰 장애가 발생했더라고요.

처음에는 정말 거대한 DDoS 공격인 줄 알았대요
클라우드플레어 CEO도 “이거 큰 봇넷이 힘 자랑하는 건가?”라고 걱정했다고 하네요. 근데 자세히 조사해 보니 완전 다른 이유였어요.

사실은 중요한 설정 파일이 갑자기 두 배로 커져서 그랬다고 해요
봇 관리 시스템에서 사용하는 머신러닝 모델 파일인데, 이게 예상치 못하게 크기가 두 배가 되면서 네트워크 전체에 퍼졌대요. 그러니까 우리가 갑자기 옷장 정리하다가 옷이 두 배로 불어나는 느낌이랄까요?

이 파일이 너무 커지니까 시스템이 읽지를 못했어요
소프트웨어에는 파일 크기 제한이 있는데 그걸 초과해버린 거죠. 결국 시스템이 멈추고, 클라우드플레어의 CDN, 보안 서비스 등 여러 기능이 영향을 받았어요.

원인은 데이터베이스 권한 변경 때문이었대요
데이터베이스 사용자에게 추가 권한을 주다가, 쿼리 결과에 중복된 메타데이터가 포함되면서 파일이 불어난 거예요. 작은 설정 변경이 이렇게 큰 파장을 일으킬 수 있다니 정말 신기하네요.

다행히 빠르게 해결했지만…
클라우드플레어 팀은 문제를 파악하고 이전 버전의 파일로 교체했어요. 하지만 트래픽이 다시 몰리면서 추가로 2시간 반 정도 더 걸렸다고 하네요.

이번 사건을 보면서 느낀 점이에요
우리가 매일 사용하는 인터넷 서비스들이 얼마나 복잡하게 연결되어 있는지, 그리고 작은 실수 하나가 얼마나 큰 영향을 미칠 수 있는지 다시 한번 깨달았어요. 기술이 발전할수록 우리의 일상은 더 편리해지지만, 동시에 이런 시스템적 위험에도 더 취약해지는 것 같아요.

다음에 또 인터넷이 느려지면, 꼭 우리 와이파이 문제만은 아니라는 거 기억해두세요! 😅

원문: [Ars Technica](https://arstechnica.com/tech-policy/2025/11/cloudflare-broke-much-of-the-internet-with-a-corrupted-bot-management-file/)

위로 스크롤