谷歌的数据中心遭雷劈 但雷不是重点
【科技真探】2015年第2期(总第2期)
这是一个叫做《科技真探》的栏目,我们只关注真正的科学和技术。这里没有人云亦云,只有需要经过思考才能得到的真相。第二期,数据中心停电不是新闻,数据中心因为雷击停电也不算新闻,但是如果这事儿发生在谷歌的数据中心就不同了,特别是还丢了数据的话。
谷歌发布的声明示意图
“比利时布鲁塞尔西南郊的St.Ghislaina小镇遭遇了强雷电天气,当时的雷电天气总计有四次击中了当地一处电力设施,并导致主要电力系统的供电中断,而谷歌的数据中心恰好就位于该电力设施的附近。其结果是,谷歌数据中心服务器中大约0.000001%的数据遭到了永久删除。”
谷歌比利时数据中心遭雷击
主持人:今天我们来讨论的话题是关于数据中心和雷击的话题。今天我们科技真探的话题是关于Google数据中心关于雷击的一次事件,盘骏先介绍一下。
ZD Research:这是8月19日发布的消息——当地时间而不是我们这里的时间——由BBC发布的消息,这个事故大概发生在13-17日,比利时的一个Google的数据中心说是被雷电击中导致了数据丢失。
主持人:雷击并不常见,在数据中心被雷击这样的事情。
ZD Research:不仅仅是数据中心,它跟是不是数据中心没有关系。
主持人:是电网的。
ZD Research:这是一种大气活动,它有可能击中电网,也有可能直接击中建筑物,这次是击中了电网,Google声明并没有击中数据中心。
主持人:但是击中了电网却对数据中心的数据造成了影响,为什么?
ZD Research:首先需要解释的是,报道里面提到了连续4次击中电网,然后导致供电中断,雷击是有可能通过它击中的线路侵入数据中心里面导致电源相关部件出现问题的,但是这种情况一般也很少见,因为有很多措施,供电局那边有措施,数据中心这边也会有措施,所以这种直接电击导致里面供电出现问题,就是导致里面设备故障是很少见的。
所以说核心应该是造成了供电的中断引起停电。
主持人:简单说就是停电造成了数据丢失,如果按这个理解停电对数据中心而言应该是一个日常就要去防范的措施。
ZD Research:对。
主持人:我们把问题可以简化为说为什么停电造成了这次数据中心的数据丢失呢?
ZD Research:其实按照正常的做法来说,数据中心里面肯定有一种叫做UPS不间断电源的东西,你断电之后它还可以继续供电一段时间,同时如果是在线式UPS的话,它还可以过滤净化供电,也起到一部分抵抗这种浪涌电流的作用。
主持人:在这次活动中似乎这些手法失效了?
ZD Research:看报道里面好像没有说得太详细,稍微提到说是有一些电池耗尽,因为你连续中断太久其实你电击多少次都无关紧要,重要是你造成断电的时间,因为一般的UPS设计最小的可能是10分钟,10分钟之后你电又来了,那你没事没问题可以继续正常运转。有些长耗时的UPS比如两个小时,8个小时都有可能,或者你自己接个发电机上去,这也算UPS一部分,但是它跟电池就没什么关系了,所以关键还是在于总供电的时间和总断电时间之间的矛盾。
主持人:把它更简化一下,Google在这个数据中心的设计上起码没有在断电保护的准备上,不够冗余,比如说它能够忍受停电的时间不够长。
ZD Research:我觉得是。
主持人:这种可能性是不是最大?
ZD Research:我觉得是最大的,但是也有一个因素也得考虑一下,因为连续中断4次,它造成了多长时间不清楚,但是从我们的报道里面故障时间是13-17日之间造成的损坏,可见断电的时间是比较长,这应该是不多见的。
不间断电源没有起到足够的作用
主持人:但是报道中也提到了说丢失的数据是很小的一部分,大概是百万之分之一,怎么理解这百万分之一呢,这个数据在哪比较容易丢,比如说数据在磁盘里还是在传输的过程中,就像一个运钞车一样,最容易在等红绿灯的时候被劫匪抢走,数据在什么地方的时候最容易找不到家?
ZD Research:在存储领域有一个数据叫Persistant Storage,持久化存储,一般认为进入了这个区域数据就是安全的,已经可以永久可靠的存取,所以说一般问题是出现在写到这个持久化存储之前——就是红绿灯等这个灯的时候被劫走的。
主持人:在数据中心这个红绿灯相当于什么部件?
ZD Research:有点相当于阵列卡,里面有内存,内存是易失性的,所以阵列卡上面还有一个电池,电池作用就是当你掉电之后它还可以保持阵列卡里面内存里面的数据还在,但是那个电池其实跟UPS一样的,也有时间的,但是那个时间还是比较长的。所以说它数据丢失了,它可能是跟阵列卡没关系的,虽然数据它是在那个阶段丢的。
主持人:它跟谁的关系比较大?
ZD Research:它跟外面的UPS掉电,整台机器都坏了,丢了数据可能是在内存里面,在系统主内存里面。
主持人:丢了这个数据,内存这个环节很难去保护它,如果掉电时间太长,因为它里面也没有额外的供电去保证它的信息永久性。
ZD Research:理论上这UPS应该设计够余量,可能是Google它用的稍稍不够,或者某一些地方还用的是小的老的。
主持人:因为我觉得这个事件比较意外的地方有两个,一个是说雷电击中4次,这是一个小概率发生的事件,但是它发生了。第二,它发生在Google,我们认为Google是一个无所不能的公司,别说被雷电击中4次了,被雷电击中40次我们也认为Google依然固若金汤,这件事情改变了很多人一贯的认识。否则如果是其他的数据中心这样断电和数据损失,并不是一个新闻,但是发生在Google可能就是个新闻了,所以我们是不是也可以认为说Google没有我们想象得那样不计成本或者是追求真理,或者是追求数据的完整性到那个程度,可能我们理解得还不到那个程度。
ZD Research:我个人的理解可能是稍稍不大一样,因为你企业越大,那你就越不能保证所有的地方都是高质量的,总有没那么高质量的地方存在,说不定那个问题就出现在那里。
主持人:高标准的企业之所以是高标准就在于它在任何地方,所有的地方都有这种高标准。我举一个例子不一定恰当,像英特尔的工厂有一个术语叫完美复制,英特尔的工厂在不同地区建的工厂,它要求完美地复制在另外一个工厂的所有细节,当然可能也未必做得到,但是道理要求它在不同的地方设施标准是一样的,所以我提这个观点的意思是说如果不小心有雷电击中了旧金山湾区的Google数据中心,这个电网击中了4次,是不是也有可能这个数据数据会丢失?
ZD Research:这种可能性是有的,但是其实按照你刚才说的是一个标准化的过程,数据中心本身就有标准化,就是你是属于哪一级别,国标也有,国际上更加有。
主持人:Google的数据中心也可能分不同的标准,偏巧这个数据中心在比利时,可能这个数据中心Google执行的是比利时国标。
ZD Research:有可能。
主持人:欧洲地区标准,可能在旧金山这边执行的是联合国级标准,这种概率也是可能的,你认为哪种可能更大,Google在所有的地方执行一个标准的可能性大,还是在不同的地方执行不同的标准可能性更大一些?
ZD Research:我觉得理论上说是不可能在所有地方都按照同一标准,而且还要考虑到地方法规之类的,肯定是不同的。
数据中心供电的问题
主持人:所以对我们来说虽然是一个Google,可能在不同的场合我们不能持相同的态度对待它。
还有一个问题,关于电网和Google之间的关系,Google能发生这样的事情,其他人也可能发生,如果避免这个百万分之一的数据产生,对具体的数据而言就是百分之百,我们如何来解决这样的问题呢?怎么来防范这样的问题再次发生。
ZD Research:其实数据中心的建立标准都是有的,我们首先要保证的是按照质量来完成,譬如说主要的供电线路你其实不管停多久,4个小时,8个小时,你都必须要有备用的选择,新闻里面也提到了,它切换到了备用电源,但是其实备用电源——备用线路它也有可能同样会受雷电击中的影响,这是没有办法控制的。
所以最重要是在于数据中心内部的不间断电源,UPS,关键在于这里,从这里来看我觉得Google那个数据中心没有发电机,它可能没考虑过长时间断电的情况。
主持人:可能是因为毕竟这个数据中心在比利时,我相信基础设施应该它认为比较完善,所以做这个数据中心设计的时候余量设计不够,看来只有提高数据中心的标准或者在UPS这个层面去增加冗余量,是解决这个问题的唯一方法。
ZD Research:而且UPS还有一个问题,那个电池,核心在于这个电池流入和流出的比率问题,譬如说你流出一个小时,你流进可能就得等10个小时,然后在这段时间之内你就不能出错,这也是一个问题,因为我们用蓄电池充电电流不能太大,这是一个比率问题,输入和输出。
所以,一般来说发电机还是应该要配置的。
主持人:比如说燃料,汽油的发电机,解决这样的问题。当然这件事情多少还是破除了一点Google的神话,我们原来真是认为Google无所不能,百毒不侵的,现在看起来Google也并非如此万能,也多少改变大家的认识,因为我想如果这个事情不是发生在Google上,可能大家不会对这个事情有那么高的关注度,说到这可能我想多延伸一点,对数据中心而言它需要电,电毕竟是由电力公司提供的,像特斯拉它是做电动汽车的,它现在做了自建电网,利用所谓的太阳能去做自建电网,会不会像Google这样的公司最后也走到这一天,去做自建电网。
ZD Research:Google其实有很多它都考虑过自建,比如说热气球,自建的网络,供电它其实也有考虑过,还有很多相关的技术其实业界都在考虑,比如说在很冷的地方建数据中心这样散热就更好。或者在河流附近有发电厂的地方建数据中心那样电价就很便宜,而且应该也不用担心供电问题,所以说这个其实还是看成本,我觉得最重要的还是看成本。
主持人:很多人来说百万分之一的数据丢失是可以接受的损失,而不是在很细节的地方增加成本,因为这个成本增加可能是几何型的。
ZD Research:最重要还是看这个几率问题,譬如说现在的云计算谁也不能说自己百分之百可靠,都是说5个9,6个9,或者说4个9一般人也觉得够用了。
主持人:所以任何时候我们看做好本地的备份永远还是,作为数据比较重视的企业不可缺少的一环。
ZD Research:是应该的。
主持人:所以我们可以认为是不是有可能这个私有云和公有云在未来很长一段时间都还是会并存。
ZD Research:其实就像发电机算是私有的。
主持人:私有电,电网算是公有电,未来很多企业可能也是有一个由Google这样公司提供公有云,我们自己留一个私有云。
ZD Research:我觉得这是合理的配置。
主持人:合理的配置,我们今天的话题就聊到这里。