/ 中存储网

别让灾备中心成摆设

2010-07-28 13:13:02 来源:中国存储网

尽管在这次莫拉克的肆虐中,通信业少量基站和海底光纤受到影响,未对大部分人的通信生活造成困扰,但是在自然灾害频发的时代,需要时刻警醒:安全措施和保障是否足够应对灾害,能否在关键时刻保障客户的通信需求?

对运营商而言,现有的灾备手段,最好用的莫过于数据备份。据一位不愿透露姓名的运营商内部人士表示,最近某移动运营商在进行异地灾备恢复时,灾备中心并没有启动起来,仍是等待了数小时,利用数据恢复技术解决了面临的问题,而异地的灾备中心已经形同虚设。

这种情况并不是个案,尽管汶川地震后,运营商采取了一系列提升容灾能力的措施,但是运营商仍面临很多灾备软肋。

数据备份仅是第一道防线

“现在中国电信某些省份直接将磁盘存进柜子,作为容灾的唯一一道保障,这显然不能够满足现在数据业务发展的需要。”某IT咨询公司的咨询师对记者表示。数据备份、存档,这并不是真正的灾备方案。专家指出,真正的数据容灾就是要避免传统冷备份的先天不足,它能在灾难发生时,全面、及时地恢复整个系统。但就现在运营商灾难恢复方案来看,还远不能满足发展所需。

容灾按其能力的高低可分为多个层次,例如国际标准SHARE78定义的容灾系统有七个层次:从最简单的仅在本地进行磁带备份,到将备份的磁带存储在异地,再到建立应用系统实时切换的异地备份系统,恢复时间也可以从几天到小时级到分钟级、秒级或0数据丢失等。

当然无论是采用哪种容灾方案,数据备份还是最基础的,没有备份的数据,任何容灾方案都没有现实意义。“容灾不等于备份,但光有备份是不够的,容灾也必不可少。容灾对于IT而言,就是提供一个能防止各种灾难的计算机信息系统。”EMC公司电信行业技术经理薛雁冰表示。

一个完整的灾难备份系统主要由数据备份系统、备份数据处理系统、备份通信网络系统和完善的灾难恢复计划组成。在灾难备份系统建设中,数据备份是关键,如何将数据(包括系统、应用和业务等数据)完整、实时地复制到灾难备份中心,是灾难备份系统建设中首先要考虑的重点。

H3C存储产品部部长龚军生表示,可以将容灾归纳为3个步骤:基础设施建设、两个数据中心的同步、日常的技术支持和运维管理,这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统,从技术的角度来说,最复杂的内容就是两个数据中心的同步。

两个数据中心的同步分为同步灾备数据复制和异步灾备复制。据福建移动信息系统部经理林志云介绍,同步复制多半采用同城灾备模式,因为这种数据同步方式,是需要先将数据写入灾备中心的I/O,后写入数据中心,两者基本上能达到同步形式。而异步多半采用甲骨文等数据库软件,在一段时间内周期性进行数据同步工作,基本采用异地同步的形式。

目前运营商以省级为单位建设灾备中心,“灾备数据中心的建设多半选择同城建设。”林志云表示,“同城建设可以选择同步数据备份形式,能够快速备份数据,有效保护数据。”

而灾备数据中心的远程部署,是灾备的最大特点,龚军生提出“IP存储先天具备广域特性,基于IP的远程复制技术可以大大简化灾备的远程部署。”

做好基础演练

对于大多数运营商而言,目前已经做到了在同城建立数据备份中心,但是这显然对地震等区域性灾害的容灾能力很低。为此,有些业务发展优秀的运营商也正尝试着进行异地灾备中心建立的工作。但似乎并没取得很好的效果。

建立灾备中心的目的是希望当灾难发生时,能够通过灾备中心实现业务和数据的恢复,这就要求灾备中心的数据100%的可用,“如果灾备中心的数据不能够保证可以恢复,那么灾备就没有太大的价值和意义了。”龚军生表示

万国数据公司(简称GDS)副总裁张权表示:“业内有句经典的话,灾备不是一项技术,而是一项工程。对于运营商而言,灾备中心并不是建立完成,并做好运维工作就可以在灾难到来时安枕无忧了。灾备是项系统且繁杂的项目,包括前期容灾评估,容灾规划,后期演练等多项工作。”

林志云也指出:“现在很多运营商都不太重视灾备的演练,很多运营商一年也没有做到一次,不能完全发现灾备中心的缺陷。可以说只有少数省份能够做到半年进行一次演练。”

四川安县桑枣中学的中学校长因经常带领全校师生进行安全演练,最终逃过汶川地震,全校师生无一人伤亡。安全事故的防范和演练对IT系统同样适用。

专家指出,定期的容灾演练才能验证容灾架构、灾难恢复预案的有效性以及实际执行能力。针对演练过程,发现各方面存在的问题并加以改进,可以使容灾体系更加完善,同时也能使各部门相关人员都熟悉、了解相关的策略、流程和方法,提高电信运营商应急响应和灾难恢复的综合执行能力。

但林志云表示,对于运营商来讲,做一次灾备演练,是十分耗时耗力的事情,需要将现有系统运行的业务全部转载到灾备系统上。由于现在运营商数据中心与灾备中心的配备多是1∶0.75到1∶1之间,灾备中心并不能支撑所有客户,对客户服务感知度略有影响,所以这种演练通常在业务量低的夜间进行。而且由于演练需要各个部门的相互协作,光靠IT系统部门去组织也是不现实的,更需要运营商高层的从上而下的重视。

薛雁冰认为,目前容灾管理制度和管理手段的重要性日益突出;容灾环境健康检查、容灾监控软件成为必须;对于容灾系统的量化评估体系成为必须。

据了解,目前国内部分运营商已经着手这些问题,在同EMC合作开发客户化的容灾管理软件,对大型容灾环境进行监控和管理。

但是这种监控和管理能否真正落实到位仍是问题。张权认为,灾备外包可以有效解决这个问题。灾备外包不但可以从组织结构上帮助运营商建立有效的灾备管理体系,并可以帮助运营商进行科学的整体灾备规划。“最为重要的是,灾备外包可以降低运营商运维成本,对运营商的整体财政有着重要意义。”张权表示。

技术创新提高灾备能力

从技术上看,衡量容灾系统有两个主要指标:RPO(Recovery Point Object)和RTO(Recovery Time Object),其中RPO代表了当灾难发生时允许丢失的数据量;而RTO则代表了系统恢复的时间。最好的情况是RPO=0,RTO=0,但显然这种情况是个理想状态。

龚军生指出,现在灾备做得最好的银行系统是将指标设在RPO=0,RTO<5分钟。每个单位每个业务的灾备目标不可能都要求达到银行的标准,因在规划业务系统的灾备和技术选择时,需要细致分析各单位复杂的IT系统的危险程度,有效区分关键业务和非核心业务系统,并平衡业务系统的实际需求和总体成本的关系。

除对灾备规划重视外,作为容灾的关键设备,存储设备本身的性能也很重要。薛雁冰认为,电信运营商对于核心存储设备的稳定性要求远高于主机和网络设备;存储产品本身必须有容错架构、故障自检和自愈能力,而且厂商应该具有充分的技术服务能力,支撑电信运营商对于安全和稳定性的苛刻要求,仅仅提供设备已经不能满足运营商对于存储系统稳定运行的需要了。国内的运营商开始出现多点容灾、双向互容灾等等复杂的需求;而过去大多仅仅建设同城同步容灾,现在的市场需求多样,而且要求的功能越来越复杂。