/ 中存储网

容灾系统建设存在的常见问题分析

2011-10-14 11:09:54 来源:中存储

今天,提高IT 系统的高可靠性以及IT 系统的容灾建设已相当普遍。随着越来越多的企业实施业务系统大集中,IT系统的高可靠性和容灾能力的需求日渐突出。例如,现在很多电信运营商都已经实施了有针对性的容灾系统,进而更加关注如何实现业务数据的有效保护和电信业务的连续性运行。

然而,目前大多数容灾系统建设还存在诸多问题,这里不仅有技术层面的缺陷,也有流程和人员方面的不足。这些问题可能导致的直接后果就是当发生灾难时,根本无法实现应用系统的快速恢复,甚至可能导致业务运转的长时间灾难性中断。列举如下部分问题:

1. 企业仅从产品功能层面考虑问题,最终建设的容灾环境仅是一个多种产品的堆积,仅实现了数据的远程复制或者离线存放。企业没有进行灾难的各种场景测试和灾难预演,并缺乏灾难恢复机制和危机应对流程。当发生灾难时,企业不知道数据或者系统能否恢复正常。

2. 企业进行了一定的测试和预演,但是缺少相应的灾难恢复计划和特殊情况下的行动指南,更没有全面的业务连续性计划。在真正发生灾难时,由于没有依据和参考,可能无法顺利进行有关操作。

3. 企业有了灾难恢复计划等必要文档,但是没有及时地将IT 系统、业务流程和管理人员等不断变化的信息更新,导致容灾手册成为一纸空文。

4. 虽然不存在以上问题,但是容灾系统的建设局限在IT部门,缺少业务部门的参与和管理高层的介入和全力支持。发生灾害时,IT系统能够恢复但是业务流程仍无法恢复运转。

除了以上问题之外,还有许多问题:
如对容灾系统负载能力估计不足
实施过程中没有严格遵循高可靠标准
实施过程沟通不足
日常运维管理方面存在漏洞
缺少厂商及系统集成商的后续支持服务等等,

这些都可能导致业务持续性系统建设的失败。

另一类问题是项目小组仅将目光放在了大型灾难等突发事件的应对之上,而忽略了计划性停机对业务运行的影响。根据有关统计,非计划性停机只占13%的停机概率,而在非计划停机中大型自然灾难占的比例就更低了。所以在项目实施时,项目小组未能很好的优化现有系统和流程,未能充分发掘现有潜力,未能将日常操作流程和业务持续性目标充分整合,虽然实现了容灾,但是仍没有从本质上解决业务持续性问题。