AWS 920宕机事件深挖故障原因大揭秘

2015-09-24 10:23:04

来源
ZDNet

AWS云服务平台发生了宕机事件，只有Netflix公司对AWS数据中心出现大故障做了二手准备，这次AWS故障主要是DynamoDB服务出问题了。

9月20日，AWS云服务平台发生了宕机事件，影响了不少的公司，而在AWS的大客户里，似乎只有Netflix公司对AWS数据中心出现大故障做了二手准备，其他人似乎都没有准备。

要知道，这次的故障远非一个“简单的”数据中心问题，并不是诸如美东AWS主干互联网叫推土机不小心碰了一下那么简单，这次的故障要复杂得多。

一开始是亚马逊在美国弗吉尼亚的DynamoDB服务出问题。DynamoDB是一种快速灵活的NoSQL数据库服务。DynamoDB用于支持应用程序，必须保证在支持大规模的程序时延迟在几毫秒以内。你可能已经猜到了，许多时间敏感度高的AWS云服务都用到 DynamoDB服务。

一位AWS发言人在对此事作出正式回应时表示，“2015年9月20日太平洋夏令时间凌晨02时13分到早上7点10分，美国东部地区的亚马逊DynamoDB服务的读写操作出现错误率非常大的情况，影响了该地区的其他AWS服务，并造成一些AWS客户也受到错误率增大的影响。“

DynamoDB一旦出现读/写问题，其性能就会开始崩溃，进而会影响美国东部的其他AWS服务。出现这种情况后，美国东部所有其他AWS服务的应用程序编程接口（API）开始出现超时。尔后，基于AWS的服务就开始失效。

有些客户受到的影响比其他客户大些。在大多数情况下，这些客户会受到错误增多的影响，导致客户无法访问自己的网站和服务。许多这一类的网站其实并没有“挂掉”，但网站的性能下降，无法提供满意的服务。

根据周日的AWS服务运行状况仪表板上DynamoDB条目的数据，整个故障过程如下：

凌晨3:00 （所有时间为太平洋夏令时间，缩写为PDT）：我们正在检查美国-东-1区API请求错误率升高的问题。

凌晨3:26 PDT：美国-东-1区所有DynamoDB API调用误差率继续增加，我们正在全力解决此问题。

凌晨04时05 PDT：已经找到了问题的根源，我们正在努力恢复服务。

凌晨04时41分PDT：我们仍在解决美国-EAST-1区错误率升高的问题，以求恢复DynamoDB API的正常工作。

凌晨04时52分PDT：我们在下面为大家提供目前情况的详细信息。问题的根源是DynamoDB内部的部分元数据服务。它是一个内部子服务，作用是管理表和分区信息。我们的恢复工作重点目前放在恢复元数据操作上。在我们进行恢复工作期间，API的速度将受到限制。

可以看到，亚马逊花了两个小时才找到问题的根源。他们接着就降低了所有AWS API的速度，以便其间他们的系统管理员解决出现的问题。

早上5:22 PDT：我们现在开始对API限速，以利恢复工作的进行。

早上05:42 PDT：元数据服务开始趋向稳定；我们仍在继续恢复工作，力求尽快取消API限速。

早上6:19 PDT：元数据服务现在稳定了下来，我们的恢复工作的目标是尽快取消API限速。

早上07:12 PDT：我们仍在努力恢复服务，力求尽早取消API限速及恢复正常API，但会遵循小心谨慎的原则。

早上07:22 PDT：我们已开始逐步取消API限速，恢复正常流量。

早上7:40 PDT：我们继续取消API限速，可望在短期内恢复正常。

早上7:50 PDT：读写操作开始恢复正常，我们在继续努力恢复其他各种操作。

早上8:16 PDT：读写操作的恢复进展非常顺利，我们仍在继续努力恢复其他各种操作。

至此，AWS用了5个多小时才重新恢复正常服务。

从理论上说，7月16日发布的亚马逊DynamoDB可能有助于缓解该问题，原因是该版本含DynamoDB跨区域复制功能。其客户端解决方案使得AWS客户可以在不同的AWS地区内同时保存相同的DynamoDB表副本，而且是近乎实时的。使用该功能当然是要交钱的，但有了这个功能以后，你就可以利用跨区域复制功能备份DynamoDB表，或是可以对分布在不同地理位置上的数据进行低延迟访问。

不管怎么说，此次事件表明，即便是全球最大的云服务提供商也会发生重大故障。有些业务要求绝对无中断，那么，在DynamoDB跨区域复制上花点钱则会是明智的一步。

声明： 此文观点不代表本站立场；转载须要保留原文链接；版权疑问请联系我们。

AWS 920宕机事件深挖故障原因大揭秘

京津冀有望实现协同救灾

招行张春林：大型商业银行故障管理实践 “黑天鹅”飞来不再惊慌

华为发布基于OpenStack的云灾备解决方案

混合云容灾未来容灾趋势

N2W 宣布为 Kubernetes 提供下一级别自动备份与恢复功能

Cloudflare 3周2宕，宕机事件暴露了人工智能和支付依赖的风险

嵌入式安全：嵌入式系统制造商如何通过安全启动密钥管理加强保护

X平台发布全新“Chat”功能，新增端到端加密与视频通话

PostgreSQL 数据库开源接口 pgAdmin4 中发现严重的远程代码执行（RCE）漏洞

Wasabi 推出隐蔽复制功能，提升云存储安全，防勒索软件

HostColor 在迈阿密数据中心推出新的 AI 兼容云和裸机服务器

Inveniam 收购 Storj 为去中心化数据基础设施的未来提供动力

Smash 专为创意社区设计的新服务取代传统文件传输

ASI Solutions 推出 InfiniStor 云存储平台

我国科学家在量子体系中实现突破商业化落地迎关键拐点

江门中微子实验精度提高1.5~1.8倍

2030 年比特币会被量子计算机攻破吗？

NODKA IPC-615H5-Q670利用英特尔的处理和工具集提高性能

LDRA 宣布其 LDRA 工具套件现在支持对多核架构上的时序耦合干扰的增强分析

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

美光战略调整，彻底退出消费级内存市场，2026年起停售DDR内存和SSD

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

慧荣科技宣布推出SM8388，业界领先的高能效PCIe Gen5企业SSD主控芯片

Supercomputing 2025：西部数据将展示创新的下一代AI存储

天硕工业级宽温存储方案：智能SLC模式助力关键领域国产化替代

为AI时代打造的 Pure Storage平台，让数据更智能、更快、更安全、更有趣

和硕通过先进的 OCP 解决方案为数据中心的未来提供动力

江苏:县级以下禁止开发政务服务APP

瑞金医院联合华为开源RuiPath病理模型，加速行业智能化落地

科技要闻

Microchip推出数字功率监测器，实现便携式设备测量功耗减半

全球半导体设备市场统计报告：出货量330亿美元，中国占额最大

CISP认证全面介绍，CISP报名条件及培训课程介绍

芯展速“臻·6”发布会圆满礼成国内首发Gen6路标加速「多模态」真正落地

谷轮赋能中国绿色数据中心建设，打造面向未来的制冷解决方案

AWS 920宕机事件深挖 故障原因大揭秘

猜你喜欢

科技要闻

AWS 920宕机事件深挖故障原因大揭秘