关注我们: 微信公众号

扫码关注我们

AWS 崩了 14 个小时:DNS 打喷嚏、DynamoDB 感冒、EC2 发烧了。。。

云头条 2025-10-21 13

US-EAST-1 区域出问题,根因竟是 DynamoDB 的 DNS 解析异常。

1.png

2025 年 10 月 20 日凌晨,美国东部时间还未破晓,AWS 的 US-EAST-1(北弗吉尼亚)区域却突然告急。短短几分钟内,多个服务错误率飙升、响应延迟暴增。

Reddit、Snapchat、Perplexity、Signal、Ring、Stripe……纷纷中招。

2.png

一时间,全球上千个网站和应用陷入“半瘫痪”状态。

AWS 官方健康状态页(AWS Health Dashboard)在凌晨发布通告:“我们正在调查 US-EAST-1 区域内多项服务错误率上升的问题。”

AWS 详细公告内容:

3.png

随后,这场从云端蔓延的风暴,持续了整整 14 个小时。

4.png

虽然问题只出在一个区域,但波及范围堪比“地震震中”,AWS 的 US-EAST-1 是其最核心的全球节点之一,无数服务默认部署在此。

这不是“局部宕机”,而是一场全球云端“数字流感”。

AWS 在最新说明中给出了关键结论:根本触发点,是 DynamoDB 区域服务端点的 DNS 解析问题。

简单说,系统在访问 DynamoDB 时,域名解析失败 —— 服务器“找不到家”。

而 DynamoDB 是 AWS 内部大量服务的基础依赖,问题一出,整个云端生态像被扯断的电缆一样,迅速失衡。

AWS 解释道,这一 DNS 故障导致:EC2 内部子系统无法正常启动实例(该子系统依赖 DynamoDB 存储元数据);网络负载均衡器(NLB)健康检查机制异常,连带使 Lambda、CloudWatch、SQS 等服务连接失败;部分服务实施限流(Throttling),以防止系统过载进一步扩散。

AWS 详细解释:

5.png

在 10 月 19 日晚上 11:49(PDT)至 10 月 20 日凌晨 2:24(PDT) 期间,

我们在 US-EAST-1(北弗吉尼亚)区域 的多个 AWS 服务中经历了错误率上升和延迟增加的情况。

此外,依赖 US-EAST-1 区域端点的服务或功能(如 IAM 和 DynamoDB Global Tables)也在此期间出现了问题。

在 10 月 20 日凌晨 12:26(PDT),我们确定事件的触发原因为:区域性 DynamoDB 服务端点的 DNS 解析问题(DNS resolution issues)。

在 凌晨 2:24(PDT) 修复了 DynamoDB 的 DNS 问题后,服务开始恢复。

但随后我们发现 EC2 内部子系统出现新的故障,该子系统负责启动 EC2 实例,而它依赖于 DynamoDB,因此受到连带影响。

在我们持续处理 EC2 实例启动受阻问题的过程中,

网络负载均衡器(Network Load Balancer, NLB)健康检查也出现损坏,

导致多个服务(包括 Lambda、DynamoDB、CloudWatch)出现网络连接问题。

我们在上午 9:38(PDT) 恢复了网络负载均衡器健康检查。

作为恢复工作的一部分,我们临时限制(throttled)了一些操作,包括:

1)EC2 实例启动;

2)通过 Lambda 事件源映射(Event Source Mappings)处理 SQS 队列;

3)异步 Lambda 调用。

随着时间推移,我们逐步减少了限流措施,并并行解决网络连接问题,直到所有服务完全恢复。

到下午 3:01(PDT),所有 AWS 服务已恢复正常运行。

不过仍有部分服务(如 AWS Config、Redshift、Connect)存在消息积压,

这些积压将在接下来的数小时内处理完毕。

一句话总结:DynamoDB 打喷嚏,EC2 感冒,整个 AWS 都开始发烧。

云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。

关键词:

网友留言2

未查询到任何数据!
◎欢迎您留言咨询,请在这里提交您想咨询的内容。