阿里云再次发生故障
3月3日凌晨,网友反映阿里云出现大规模故障,导致部分互联网公司和App运行不畅,甚至瘫痪。一时之间,阿里云官微下几乎被反馈“宕机”问题的留言攻陷,有网友调侃称,程序员、运营和运维都从被窝爬起来干活了。此时,距离2月22日爆出的阿里云云效平台的源代码泄露问题才刚刚十天。
当日阿里云回应称:华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复。同时,阿里云方面表示,针对本次故障,阿里云将根据SLA协议,尽快处理赔偿事宜。
附阿里云关于华北2地域可用区C部分ECS服务器IO HANG通报
北京时间2019年3月3日凌晨,华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复。目前我们已经全面排查其他地域及可用区,未发现此类情况。
非常抱歉给您带来的影响!如有任何问题,可通过电话工单随时反馈,感谢您的理解和支持!
针对本次故障,我们将根据SLA协议,尽快处理赔偿事宜。
持续了三个小时左右,故障排除。
事实上,这并非阿里云首次出现故障。2018年6月27日下午,有大量用户反映阿里云控制台访问出现问题,用户账号无法登陆,图片服务无法使用。同时,阿里云官网的部分管控功能、MQ、NAS、OSS(对象存储)等产品的部分功能也出现无法访问异常现象。
28日,阿里云官方回应,“我们在运维上的一个操作失误,导致一些客户访问阿里云官网控制台和使用部分产品功能出现问题”,引发大量吐槽。
云计算/服务商宕机及服务中断事件整理
类似的宕机事件或服务中端故障时有发生,云计算厂商纷纷中招。
- 2015 年 6 月 6 日,(QingCloud)广东 1 区全部硬件设备因遭遇雷暴天气引发电力故障,造成 QingCloud 官网及控制台短时无法访问、部署于 GD1 的用户业务暂时不可用;
- 2015 年 7月22日和7月23日青云QingCloud北京2区(PEK2)网络故障;
- 2016年7月21日,金山云因工程师更换硬盘操作失误,公司二客户的云主机受到数据丢失的严重损失;
- 2016年12月21日金山云一机房发生错拔电源事故,导致金山云公司产生了客户资源损失,其公司赔付了客户服务及广告;
- 2017 年 2 月 28 日,云计算巨头 AWS S3 故障,事件的起因是 AWS S3(云存储)团队在进行调试时输入了一条错误指令;
- 2017 年 3 月 22 日,微软云服务宕机,Outlook、 Hotmail、 OneDrive、 Skype 和 Xbox Live 都出现了网络故障,全球用户都无法登录;
- 2017 年 3 月 22 日青云(QingCloud)发生故障,不少公司网站无法打开。
- 2017 年3月30日第二京汉广光缆在广东境内中断,金山云、阿里云在相关地区的访问出现故障。
-
2018年6月15日,因重复分配内部IP地址,谷歌云虚拟机实例大量出现联不上网的问题。
-
2018年6月28日,阿里云官网控制台和使用部分产品功能出现故障;
- 2018年7月17日,AWS管理控制台间歇性失灵故障;
- 2018年7月18日,谷歌云平台全局负载均衡服务发生中断;
- 2018年7月20日,北京清博数控科技有限公司所属“前沿数控”平台一块操作系统云盘,因受腾讯云北京三区部分物理硬盘固件版本bug导致的静默错误(写入数据和读取出来的不一致)影响,文件系统元数据损坏,索赔1000多万。
- 2018年11月2日18:45左右,腾讯云部分用户无法登陆腾讯云后台。腾讯云官网发布故障通知公告。
数据在云中一样存在安全风险
尽管多家云服务商承诺99.99%的安全可靠性,这一数字的确经过验证,但仍不可避免出现事故,即便是再小的故障也都会在网上引起轩然大波。比如,这次阿里云宕机主要影响华北2地域,其对应的城市是北京,而北京是国内互联网重镇,因此宕机事件引起广泛关注。
对于企业来说,宕机不只是网站、App瘫痪不能登陆而已,严重的事故可能会使企业在云上存储的商业数据丢失,对经营造成重大影响,甚至发生财务损失。因此,云的安全性和稳定性,一直是企业的重要考虑因素。
企业云安全规划建议
- 选择多云部署,防止鸡蛋放在一个篮子。
- 对云上数据做好备份。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。