盘点 | 那些年，云计算厂商出过的十大故障

来源：互联网时间：2016-07-07

伴随着云计算的发展，云计算技术、应急响应机制都日趋成熟和完善。多数情况，云计算平台都能持续、稳定的正常运行。

不过，因天气或者其他原因，全球各地大大小小的云计算厂商过去几年，确实发生过众多大大小小的“著名”故障。

1、2009年6月，因分布式拒绝服务攻击(DDoS)，亚马逊EC2服务宕机5小时。

2、2009年6月，Rackspace因供电设备跳闸，备份发电机失效，导致服务器大面积停机。

3、2010年5月，一周内，亚马逊弗吉尼亚数据中心上演了三次不同的宕机。第一次是不间断电源(UPS)转换到备份电源时失败，一整个机架的服务器停机。第二次发生在四天之后，因一个电源分配箱短路，导致服务中断8小时。两天后，一辆汽车撞击了电线杆子，切断了数据中心的电源，导致半小时宕机。

4、2011年4月22日，由于技术原因导致亚马逊在美国东部地区的许多服务中断。这个故障持续了大约四天时间，被认为是亚马逊史上最严重的云计算安全事件。

5、2012年2月28日，由于“闰年bug”导致微软Azure在全球范围内大面积服务中断，中断时间超过24小时。

6、2014年8月18日，在Windows 8.01安全补丁例行发布后，Azure云因技术问题引发部分用户中断服务长达5个小时。微软报告称，Azure服务例如虚拟机网站、自动化、备份和站点恢复都在多个地区出现中断。

7、2014年11月，Azure多个主要Region的存储服务出现问题，引发11个小时的故障。该故障影响了19种Azure服务，涉及12个Region，当时似乎只有澳大利亚数据中心幸免于难。

8、2014年11月2日中午12点，腾讯云在上海、广州两地的服务器出现故障，导致使用该服务器的用户出现无法正常登录、连接不稳定等现象。故障持续约两小时。

9、2015年6月6日，青云的服务商睿江科技机房因雷暴天气引发电力故障，导致青云广东1区全部硬件设备意外关机重启，青云官网及控制台无法访问、部署于GD1的用户业务不可用。

10、2016年7月6日，上午10点22分，阿里云华北2地域可用区A由于网络设备出现异常，导致部分产品访问受到影响。故障持续约1小时。

结束语 | 写给所有云计算用户的话

当企业把IT基础设施托付给云服务商的时候，千万别忘了你才是这些系统的主人。

美国知名电脑周刊杂志eWeek 资深科技记者Mike Elgan曾表示：“云计算不是万灵丹，我们不过是租别人的计算机而已。因此自己数据中心可能出现的问题就算是转向了云计算也依然存在”，他建议“企业有自己的替代方案很重要”。

Netflix的技术人员认为，不论在何种情况下，每个系统必须靠自己存活。所以，他们在设计系统时考虑了其所依赖的其他系统的故障并且能够容忍故障。

从两地三中心到同城双活到异地多活，金融机构、政府、大中型企业一直秉持“不把鸡蛋放在一个篮子里”的思路，在灾备的路上越走越高精尖。

但是高精尖的背后是高昂的成本，对中小企业而言有些负担过重。事实上，在云计算上也有对应的服务：地域(Region)和可用区(AZ：Availabe Zone)。所以对于自己的云端业务，既可以分散到多个可用区，也分散到多个地域。

除此之外，互联网界对于系统如何达到高可用是有一些基本共识的，比如：大系统小做，服务拆分;并发控制，服务隔离;灰度发布;全方位监控报警;核心服务，平滑降级。这些最佳实践，如果很好地落实，对于提高系统可用性非常有帮助。

云计算迎来二次增长曲线，云厂商如何“上车”？