solidot新版网站常见问题,请点击这里查看。

亚马逊解释本周 AWS 宕机事故原因

云计算
WinterIsComing (31822)发表于 2021年12月11日 22时00分 星期六

来自寻找时间的人
亚马逊解释了本周 AWS US-EAST-1 区宕机事故的原因。亚马逊称,绝大部分 AWS 服务和所有客户应用都在其主网络内运行,但它还用一个内部网络托管了基础性的服务,包括监视、内部 DNS 服务等。鉴于其重要性,AWS 用了多个地理位置上隔离的网络设备连接到这个内部网络,大幅扩展网络容量,确保其高可用性。12 月 7 日 7:30 AM PST,主网络的一个自动容量扩展活动意外引发了内部网络客户端的活动,导致了连接激增,连接内部网络和主网络的网络设备出现拥堵,通信延迟,引发了持续的拥堵和性能问题,影响到了团队实时监控的能力,使得他们难以快速识别问题的根源,只能依靠日志判断发生了什么。亚马逊表示它采取了行动确保相同的问题不会再次发生。