周二早上6:30到周三下午14:30,提供云服务的Salesforce.com遭遇了一次由于停电导致的大范围服务器宕机,此次宕机影响了北美的14个站点,同时北美的用户也受到影响。
更糟糕的是,宕机故障发生后,Salesforce.com工作人员希望将数据库恢复到4小时以前的状态,但不幸的是,这一操作进而导致了这4个小时内的数据丢失。
此消息一出引起了广泛关注。一位使用了salesforce.com五年的用户表示,从未想过提供云服务的salesforce.com会出现因电力故障所引起的服务器宕机。
其实近年来无论是国外还是国内的数据中心,因为电力故障导致的服务器宕机不在少数,而且都值得人们引起注意和反思。
数据中心电力故障事件比比皆是
2011年11月,据网友爆料,世纪互联天津机房出现了停电事故,部分地区的互联网用户受到影响,受到此次事故影响的互联网服务包括傲游浏览器、豌豆荚等。
2012年7月,美国东海岸爆发的大型雷电暴风雨导致亚马逊云计算数据中心电力遭到破坏,暴风雨损害了他们的主要电力服务和备用发电机,包括Netflix、图片共享服务Instagram和Pinterest在内的客户服务出现中断。
2012年10月,电商网站凡客诚品(vancl.com)出现访问故障。凡客诚品相关负责人表示,出现这一问题是因为机房停电。据悉当天还是凡客诚品五周年的纪念日,此次停电事件造成的经济损失据说达千万元。
2014年11月,新加坡证券交易所(SGX)业务系统中止了将近三个小时,因其数据中心无法应付由雷击引起的电压波动而停电宕机,并且导致其切换到辅助数据中心的数据不完整。由于停电,致使2小时42分的证券交易中断和4小时27分钟的衍生业务计划外停机,严重影响新加坡作为金融中心的声誉。
2015年8月,位于美国洛杉矶市中心的一个高层建筑的地下室发生了爆炸,一个三级通信网络基础设施在爆炸中连接中断,其中影响了很多该地区数据中心用户的业务,由于这个事件发生,一家公司的数据中心全部断电。
2015年9月,日本富士通集团在美国硅谷的数据中心遭遇停电,致使其一些云服务中断。一些客户报告说,其影响持续了几天之久,这个问题是由输变电设备发生故障引起的。
……
数据中心停电损失超过5000美元/分钟
众所周知,对于数据中心来说电是至关重要,数据中心的正常运转唯一离不开的就是电,不难想象,无论数据中心设备多么先进、功能多么强大,可是一旦断电,再好的系统也无法运转,电对数据中心的重要性就像水对鱼儿的重要性一样。
虽然如此,数据中心停电事故并不少见,根据一份研究报告显示,95%的美国企业在过去两年中至少遭遇一次数据中心停电事故,导致停电的原因有的是因为天灾意外无可避免,有的是因为数数据中心专业人员采用措施不当且投资不足,阻碍了停电预防和停电反应时间等等。
但无论是哪方面的原因所致,相信这都是业界不愿看到的,因为即使是短暂的电力中断也会很麻烦。失去0.02秒电力,可能触发让IT设备遭遇15分钟到数小时的宕机事件,这种停机时间将让企业付出巨大的代价。据了解,数据中心意外停电每分钟损失可超过5,000美元,包括收入和生产损失、数据损毁和利益相关者的信任受到损害带来的损失,以及企业所付相应的法律责任所导致的损失。
机房停电折射数据中心服务商运营能力
数据中心停电所带来的损失除金钱方面,更重要的是公司声誉和客户信誉的永久性损失。数据中心的用户会对服务商的服务能力表示担忧,数据中心服务商的服务能力因此而将受到极大质疑。机房停电后为何备用电源及发电设备没有紧急启用?网站数据和相关灾备服务是否到位等问题,都折射出数据中心服务商在应对突发事件的处理乏力,机房运营能力薄弱等问题。
那么如何来规避电力故障事件的发生,在数据中心的供电系统这方面应提出更高的要求,争取做到数据中心永不断电。
首先是要考虑供电系统的可靠性,尤其随着数据中心承载的业务越来越多,也越来越重要,大中型的数据中心都要求达到99.999%以上的供电可靠性。
其次是考虑供电的持续性,在数据中心建成以后,供电系统就很难再做调整了。所以在数据中心建设初期一定要对供电系统进行周密设计,并对数据中心的未来进行预估,做出预留。
最后是要考虑维护管理的便捷性,在设计建设数据中心供电系统时,必须考虑后期使用维护的方便性。目前有不少数据中心供电系统的管理软件,通过管理软件对供电系统进行智能化管理,往往可以减少维护的工作量。
当然,要想建设质量高的供电系统不仅需要全面周全的设计和具有前瞻性的分析,更重要的是要有资金的投入,而以上这些都是对数据中心服务商能力的考验。