US-EAST-1 区域出问题,根因竟是 DynamoDB 的 DNS 解析异常。
2025 年 10 月 20 日凌晨,美国东部时间还未破晓,AWS 的 US-EAST-1(北弗吉尼亚)区域却突然告急。短短几分钟内,多个服务错误率飙升、响应延迟暴增。
Reddit、Snapchat、Perplexity、Signal、Ring、Stripe……纷纷中招。
一时间,全球上千个网站和应用陷入“半瘫痪”状态。
AWS 官方健康状态页(AWS Health Dashboard)在凌晨发布通告:“我们正在调查 US-EAST-1 区域内多项服务错误率上升的问题。”
AWS 详细公告内容:
随后,这场从云端蔓延的风暴,持续了整整 14 个小时。
虽然问题只出在一个区域,但波及范围堪比“地震震中”,AWS 的 US-EAST-1 是其最核心的全球节点之一,无数服务默认部署在此。
这不是“局部宕机”,而是一场全球云端“数字流感”。
AWS 在最新说明中给出了关键结论:根本触发点,是 DynamoDB 区域服务端点的 DNS 解析问题。
简单说,系统在访问 DynamoDB 时,域名解析失败 —— 服务器“找不到家”。
而 DynamoDB 是 AWS 内部大量服务的基础依赖,问题一出,整个云端生态像被扯断的电缆一样,迅速失衡。
AWS 解释道,这一 DNS 故障导致:EC2 内部子系统无法正常启动实例(该子系统依赖 DynamoDB 存储元数据);网络负载均衡器(NLB)健康检查机制异常,连带使 Lambda、CloudWatch、SQS 等服务连接失败;部分服务实施限流(Throttling),以防止系统过载进一步扩散。
AWS 详细解释:
我们在 US-EAST-1(北弗吉尼亚)区域 的多个 AWS 服务中经历了错误率上升和延迟增加的情况。
此外,依赖 US-EAST-1 区域端点的服务或功能(如 IAM 和 DynamoDB Global Tables)也在此期间出现了问题。
在 10 月 20 日凌晨 12:26(PDT),我们确定事件的触发原因为:区域性 DynamoDB 服务端点的 DNS 解析问题(DNS resolution issues)。
在 凌晨 2:24(PDT) 修复了 DynamoDB 的 DNS 问题后,服务开始恢复。
但随后我们发现 EC2 内部子系统出现新的故障,该子系统负责启动 EC2 实例,而它依赖于 DynamoDB,因此受到连带影响。
在我们持续处理 EC2 实例启动受阻问题的过程中,
网络负载均衡器(Network Load Balancer, NLB)健康检查也出现损坏,
导致多个服务(包括 Lambda、DynamoDB、CloudWatch)出现网络连接问题。
我们在上午 9:38(PDT) 恢复了网络负载均衡器健康检查。
作为恢复工作的一部分,我们临时限制(throttled)了一些操作,包括:
1)EC2 实例启动;
2)通过 Lambda 事件源映射(Event Source Mappings)处理 SQS 队列;
3)异步 Lambda 调用。
随着时间推移,我们逐步减少了限流措施,并并行解决网络连接问题,直到所有服务完全恢复。
到下午 3:01(PDT),所有 AWS 服务已恢复正常运行。
不过仍有部分服务(如 AWS Config、Redshift、Connect)存在消息积压,
这些积压将在接下来的数小时内处理完毕。
一句话总结:DynamoDB 打喷嚏,EC2 感冒,整个 AWS 都开始发烧。
云头条声明:如以上内容有误或侵犯到你公司、机构、单位或个人权益,请联系我们说明理由,我们会配合,无条件删除处理。
网友留言2