网络故障事后分析 - 2026 年 2 月 26 日

本文由英文自动翻译而来。

昨天,我们在计划的例行维护过程中经历了一次长时间的网络中断:对核心路由器进行固件升级。我们希望透明地说明发生了什么,以及为什么需要这么长时间才能解决。

##发生了什么

固件升级本身似乎没有问题。路由器干净利落地启动了,接口也出现了,路由器上服务器之间的本地流量运行正常。但是,我们的上游 BGP 会话和 VXLAN 隧道却拒绝恢复。

随后,我们花了大约 8 个小时来诊断我们遇到的一些最奇怪的网络行为。中转端口上的 ARP 解析不一致。BGP 会话会建立,流量会开始路由,然后链路会实际断开–实际上不是接口断开,而是根本不转发数据包,报告的丢包率为零。我们在路由器上运行的所有诊断程序都没有显示任何问题:没有错误,没有日志条目,什么都没有。

我们联系了我们的转接提供商,他们确认他们也没有发现任何问题。我们尝试了许多不同的配置。我们甚至将 BGP 和隧道配置从路由器上完全移到了一台单独的 Linux 服务器上,以隔离问题,但结果完全一样。在这一点上,路由器本身的问题似乎被排除了,因为无论驱动端口是什么,问题都会跟着中转端口出现。

在用尽所有其他方法后,我们不得已重置了路由器,并从头开始进行最低限度的配置–只有网桥和 VLAN 设置。出乎意料的是,路由器立刻就正常工作了。太完美了

根本原因

据我们判断,固件升级导致路由器状态出现某种形式的静默损坏,影响了面向中转接口的流量处理方式。尽管升级似乎完全成功,路由器也没有报告任何错误,甚至当 BGP 完全由另一台机器处理时,问题也会重现,但只需重置出厂设置并清除配置就能解决这个问题。这仍然是我们处理过的最令人费解的故障之一。

您可能需要做的事情

  • 如果您的虚拟机无法访问,请从控制面板中停止并启动它。在大多数情况下,这将恢复连接。
  • 如果停止/启动后仍无法访问,请联系技术支持,我们将进行调查。
  • 如果您在连接虚拟机时看到 SSH 主机密钥更改警告,这是预料之中的。虚拟机被批量重新配置以使用新设置,而云启动会在此过程中重新生成主机密钥。这是虚拟机重新初始化时云启动的标准行为,您可以放心接受新密钥。

我们对停机时间的延长和由此造成的挫折深表歉意。我们正在审查我们的升级程序,以确保今后能更快地识别和恢复此类问题。

Write a comment
No comments yet.