네트워크 장애 발생 후 검토 보고서 — 2026년 2월 26일
이 게시물은 영어에서 자동으로 번역되었습니다.
어제 예정된 정기 유지 보수 과정에서 코어 라우터의 펌웨어 업그레이드를 진행하던 중 예상보다 긴 네트워크 장애가 발생했습니다. 무슨 일이 있었는지, 그리고 해결하는 데 시간이 오래 걸린 이유에 대해 투명하게 알려드리고자 합니다.
발생 상황
겉보기에는 펌웨어 업그레이드가 문제없이 완료된 것 같았습니다. 라우터가 정상적으로 부팅되었고, 인터페이스가 제대로 작동했으며, 라우터 내 서버 간의 로컬 트래픽은 정상적으로 처리되었습니다. 그러나 업스트림 BGP 세션과 VXLAN 터널이 다시 활성화되지 않았습니다.
이후 약 8시간 동안 우리가 겪었던 가장 이상한 네트워크 문제 중 일부를 진단하는 과정이 진행되었습니다. 트랜짓 포트의 ARP 해결이 일관성이 없었습니다. BGP 세션이 설정되고, 트래픽이 라우팅되기 시작했지만, 연결이 제대로 작동하지 않았습니다(인터페이스 수준에서 연결이 끊어진 것은 아니었지만, 패킷을 전달하지 않았고, 패킷 손실은 발생하지 않았습니다). 라우터에서 실행한 모든 진단에서 오류가 없었습니다. 어떤 로그도 기록되지 않았습니다.
트랜짓 제공업체에 연락하여 그쪽에서도 문제가 없다는 것을 확인했습니다. 다양한 설정을 시도했습니다. 문제 해결을 위해 BGP 및 터널 구성을 라우터에서 완전히 분리하여 별도의 Linux 서버에 적용하기도 했습니다. 하지만 동일한 문제가 발생했습니다. 이 시점에서 라우터 자체는 문제가 아닌 것으로 판단되었는데, 문제가 트랜짓 포트와 관련이 있었고, 어떤 구성으로 인해 발생하는지는 알 수 없었습니다.
모든 가능성을 다 검토한 후, 마지막 수단으로 라우터를 공장 초기화하고 처음부터 최소한의 구성(브리지 및 VLAN 설정)을 적용했습니다. 놀랍게도 즉시 정상적으로 작동했습니다. 완벽하게 작동했습니다.
근본 원인
현재까지 파악한 바로는 펌웨어 업그레이드 과정에서 라우터의 상태에 조용한 손상이 발생하여 트랜짓 인터페이스가 트래픽을 처리하는 방식에 영향을 미친 것으로 보입니다. 겉보기에 업그레이드가 완전히 성공한 것처럼 보였고, 라우터에서 오류가 발생하지 않았으며, 문제가 BGP를 다른 시스템에서 처리할 때에도 동일하게 발생했음에도 불구하고, 공장 초기화 및 클린 설정을 적용하는 것만으로 문제가 해결되었습니다. 이는 지금까지 우리가 해결했던 문제 중 가장 이해하기 어려운 문제 중 하나입니다.
사용자가 해야 할 일
- VM에 연결할 수 없는 경우, 제어판에서 VM을 중지했다가 다시 시작하십시오. 대부분의 경우 연결이 다시 정상적으로 작동할 것입니다.
- 중지/시작 후에도 연결할 수 없는 경우, 지원팀에 문의하시면 확인해 드리겠습니다.
- VM에 연결할 때 SSH 호스트 키 변경 경고가 표시되는 경우, 이는 예상된 것입니다. VM은 새로운 설정으로 작동하도록 일괄적으로 재구성되었으며, cloud-init가 해당 과정의 일부로 호스트 키를 재생성했습니다. VM이 재초기화될 때 발생하는 표준 cloud-init 동작이므로, 새로운 키를 안전하게 수락할 수 있습니다.
오랜 시간 동안 발생한 불편과 그로 인한 좌절감에 대해 사과드립니다. 향후 이와 같은 문제를 더 빠르고 효율적으로 식별하고 해결할 수 있도록 업그레이드 절차를 검토하고 있습니다.
Write a comment