solidot新版网站常见问题,请点击这里查看。

Facebook 披露宕机事故的更多内幕

Facebook
WinterIsComing (31822)发表于 2021年10月06日 22时42分 星期三

来自艾米七号
Facebook 披露了 10 月 4 日宕机事故的更多内幕:Facebook 使用骨干网连接不同地点的数据中心,这些数据中心之间的流量使用路由器管理。工程师在执行维护工作时经常需要将部分骨干网下线,如修理光纤,增加更多容量或更新路由器固件。10 月 4 日的宕机就是在例行维护时发生的,一条旨在评估全球骨干网容量可用性的指令无意间中断了所有网络的连接,为了防止此类故障发生 FB 的系统内置有审计工具,但审计工具的一个 bug 未能正确阻止指令执行。紧跟着停止 BGP 广播恶化了整个事故。为了确保可靠运行,FB 的 DNS 服务器会在无法连接数据中心时关闭 BGP 广播。这一切发生的非常快。工程师在解决问题时面临两大障碍:因为整个网络下线了无法通过正常方法访问数据中心;DNS 服务器停止工作导致很多用于调查和诊断问题的内部工具也停止工作。将工程师派去数据中心现场解决问题需要时间,而为了避免内部破坏即使能物理访问服务器和路由器要进行修改也很困难,结果是解决问题花费了更长时间。