/ 中存储网

数据中心必须可靠!可用!可维护!

2015-04-27 09:21:43 来源:企业网D1Net

我们经常讨论一个数据中心(Data Center)的优劣,在讨论的过程中往往争论得不可开交。由于大家参照的标准各有不同,引起争论就不可避免。因为每个人考虑问题的角度不同,所以造成了这样的现象,这再正常不过了。这也让我们意识到,究竟如何客观去评价一个数据中心(Data Center)的好与差,关于数据中心(Data Center)各种指标的专家言论,机构发言,系统论文等都有列及,有时会让人看得眼花缭乱,更不知道如何去用这些指标去评价一个数据中心(Data Center)。笔者认为,不管数据中心(Data Center)建设的如何好,我们应该关注这个数据中心(Data Center)能为人们提供什么,这个数据中心(Data Center)好不好用,这个数据中心(Data Center)是否业务都是中断。根据这三个方面,能够概括出来我们关心的东西,而我们关心的地方就应该是数据中心(Data Center)差异的地方。对于一个数据中心(Data Center),那么我们评价它的优劣标准就是这三个:可靠性,可用性和可维护性。这三个标准都有量化的指标,通过这三个确立的可量化数据中心(Data Center)基础设施建设衡量指标,也就形成了相应的行业工程基准,使得数据中心(Data Center)基础设施的设计有了可量化的依据,也使得评估有了可量化的依据。下面就来详细说一说这三个量化指标。

可靠性(Reliability):是指数据中心(Data Center)在规定环境条件下、规定时间内,完成规定业务的能力。可靠性用MTBF指标来量化。MTBF (Mean Time Between Failure,平均无故障时间),是衡量一个产品的可靠性指标。单位是“小时”,它反映了产品的时间质量。数据中心(Data Center)里的任何一款产品都要有MTBF指标,这个在产品出厂之前就要做完。MTBF也称为平均故障间隔,MTBF指标是一个比率,是产品故障总数与寿命单位总数之比。通常一款产品我们不可能连续运行几年,等到产品出现故障,然后算出结果,那么等产品卖出来,产品早就过时了。其实在实际生产过程中,是通过疲劳实验,以空间换时间,缩短实验的时间,从而对产品的平均寿命进行预估,得到MTBF指标。对于数据中心(Data Center),由于数据中心(Data Center)包含有各种各样的仪器和设备,不同的设备MTBF肯定不同,甚至是相同功能的设备MTBF也有不同,所以对于数据中心(Data Center)的MTBF应该取所有设备MTBF的最小值。在一些数据中心(Data Center)充分考虑了设备的业务备份,从而很大程度上避免设备故障造成数据中心(Data Center)业务中断,所以MTBF数值越高就能够证明这个数据中心(Data Center)越好。而对于MTBF不高的数据中心(Data Center),依然能够通过其它数据备份、容错的方式提高可靠性指标。其中容错是高可靠性的重要体现,当灾害或错误发生时,能够有自动修复、还原的作用,减少数据中心(Data Center)系统宕机率,确保系统不间断运行。

可维护性(Serviceability):是指系统在规定环境条件下和规定的时间内,完成规定功能的能力,以及完成维护的容易程度。可维护性用MTTR指标来量化。MTTR(Mean Time To Repair,平均可修复时间),是随机变量恢复时间的期望值。它包括确认失效发生所必需的时间以及维护所需要的时间。MTTR数值越小,说明数据中心(Data Center)故障恢复处理能力越强。数据中心(Data Center)出现各种故障是难免的,而MTTR数值小的数据中心(Data Center),那么恢复业务的用时就短,带来的损失就小。比如像淘宝网,如果中断一小时,就会损失几十万条定单交易,不仅给阿里,给用户和商户都带来了损失,三方都受损,所以淘宝网要求全年网络不得中断超过两个小时,这两个小时包括业务变革、设备软件升级、故障等造成业务中断的时间,一旦全年累计中断时间超过两个小时,所有数据中心(Data Center)运维人员的年奖金清零,所以阿里数据中心(Data Center)运维团队承受这巨大的工作压力。在数据中心(Data Center)进行任何的操作时,都要充分分析MTTR指标。以往的MTTR数值很小,并不能代表未来数据中心(Data Center)不出问题,所以要对未来可能出现的突发事件想好对策。提升数据中心(Data Center)可维护性的最重要一环就是要加强对人的技术提升,只有运维人员充分掌握了数据中心(Data Center)的维护技巧,对数据中心(Data Center)各种业务平台、设备操作都很熟悉,才能大大缩短故障处理的时间,提升数据中心(Data Center)的MTTR指标。

可用性(Availability):是指系统在使用过程中,能够正常使用的时间与总时间之比。可用性用一个比率指标来量化。可用性的表征为:A=MTBF/(MTBF+MTTR),即可用性是由可靠性和可维护性计算得出的。比如:一个数据中心(Data Center)的MTBF是10年,MTTR是2小时,那么可用性指标A=10*365*24/(10*365*24+2)=0.9999772=99.998%.在数据中心(Data Center)行业里,通过可用性指标的9数字的多少来表示数据中心(Data Center)的可用性高低。表1列了关于可用性等级的定义:

20140928113506

大家通常用五个九,即99.999%,来衡量数据中心(Data Center)的可用性,只有达到五个九的数据中心(Data Center)才算是高可用性的数据中心(Data Center),这意味着一个数据中心(Data Center)全年业务中断不得超过五分钟,可用性的高低一定程度上取决于可靠性和可维护性。

通过可靠性、可维护性以及可用性这三个指标基本能够对一个数据中心(Data Center)有个整体综合评价,通过三个指标的对比也能够分出数据中心(Data Center)的好与差,是评价一个数据中心(Data Center)的根本。正确运用这三大指标来指导数据中心(Data Center)工作,将有助于提升数据中心(Data Center)的业务处理能力,增加效益,减少故障带来的损失。数据中心(Data Center)也不能一味地追求这三点,提升这三大指标意味着数据中心(Data Center)要投入大量的资金与人力,包括软件、硬件、人力和培训等都需要投入。数据中心(Data Center)需要综合衡量这些花费,对比一下意外宕机造成的损失和投入的资金,看目前的数据中心(Data Center)主要顾及哪一方面,不要单独追求指标的三高。如果这样,虽然你的数据中心(Data Center)常年无故障,但是数据中心(Data Center)却因为高额的投入而陷入亏损,那就得不偿失了。