2007年7月,国务院信息化工作办公室领导编制的《重要信息系统灾难恢复指南》正式升级成为国家标准《信息系统灾难恢复规范》(GB/T 20988-2007 )。
一、灾备建设国家标准的诞生
上世纪70年代末,美国Sungard公司在费城建立了全世界第一个灾备中心。三十年来,频繁发生的自然灾难和恐怖袭击一次次的提醒人们,作为业务支撑系统的重要组成部分,灾备系统已经成为数据中心不可或缺的部分,全球的灾难备份行业也因此得到了迅猛发展。而在国内,最早在2003年,中央办公厅和国务院办公厅联合下发了《国家信息化领导小组关于加强信息安全保障工作的意见》,第一次提到了重要信息系统需要具备灾难恢复能力。
2005年4月,国务院信息化办公室联合银行、电力、民航、铁路、证券等八大重点行业,制定发布了《重要信息系统灾难恢复指南》,对国内各行业的灾难备份与恢复工作的开展提供了指导。通过两年的试行以及广泛征求意见,《重要信息系统灾难恢复指南》经修改完善后正式升级成为国家标准GB/T 20988-2007《信息系统灾难恢复规范》,并于2007年11月1日开始正式实施。这是中国灾难备份与恢复行业的第一个国家标准,是各行业进行灾备建设的重要参考性文件,具有重大意义。
二、《信息系统灾难恢复规范》解读
1.核心内容
《信息系统灾难恢复规范》规定了信息系统灾难恢复应遵循的基本要求,适用于信息系统灾难恢复的规划、审批、实施和运维。主要包括以下几部分内容:
1)灾难恢复行业相应的术语和定义;
2)灾难恢复概述(包括灾难恢复的工作范围、灾难恢复的组织机构、灾难恢复规划的管理、灾难恢复的外部协作、灾难恢复的审计和备案);
3)灾难恢复需求的确定(包括风险分析、业务影响分析、确定灾难恢复目标);
4)灾难恢复策略的制定(包括灾难恢复策略制定的要素、灾难恢复资源的获取方式、灾难恢复资源的要求);
5)灾难恢复策略的实现(包括灾难备份系统技术方案的实现、灾难备份中心的选择和建设、专业技术支持能力的实现、运行维护管理能力的实现、灾难恢复预案的实现)。
由此可见,《信息系统灾难恢复规范》对灾难恢复建设的全流程实现给出了详细的指导意见,具有很高的可操作性。
2.灾难恢复能力等级
灾难恢复等级的确定是信息系统灾备建设的重要考虑因素。《信息系统灾难恢复规范》将灾难恢复能力划分为6级:
图1. 灾难恢复的6个等级
等级一:基本支持。要求数据备份系统能够保证每周至少进行一次数据备份,备份介质能够提供场外存放。对于备用数据处理系统和备用网络系统,没有具体要求。
等级二:备用场地支持。在满足等级一的条件基础上,要求配备灾难恢复所需的部分数据处理设备,或灾难发生后能在预定时间内调配所需的数据处理设备到备用场地;要求配备部分通信线路和相应的网络设备,或灾难发生后能在预定时间内调配所需的通信线路和网络设备到备用场地。
等级三:电子传输和设备支持。要求每天至少进行一次完全数据备份,备份介质场外存放,同时每天多次利用通信网络将关键数据定时批量传送至备用场地。配备灾难恢复所需的部分数据处理设备、通信线路和相应的网络设备。
等级四:电子传输及完整设备支持。在等级三的基础上,要求配置灾难恢复所需的所有数据处理设备、通信线路和相应的网络设备,并且处于就绪或运行状态。
等级五:实时数据传输及完整设备支持。除要求每天至少进行一次完全数据备份,备份介质场外存放外,还要求采用远程数据复制技术,利用通信网络将关键数据实时复制到备用场地。
等级六:数据零丢失和远程集群支持。要求实现远程实时备份,数据零丢失;备用数据处理系统具备与生产数据处理系统一致的处理能力,应用软件是“集群的”,可实时切换。
由此可见,灾难恢复能力等级越高,对于信息系统的保护效果越好,但同时成本也会急剧上升。因此,灾备建设中,如何确定业务系统的合理的灾备恢复等级是一大难题。在《信息系统灾难恢复规范》中也指出了,可以根据成本风险平衡原则(即灾难恢复资源的成本与风险可能造成的损失之间取得平衡)来确定。这里面,实际包含了两层含义。
1、业务单位在选择合适的灾备等级时,需要考虑投资回报率
对于银行、运营商等行业而言,核心业务系统的数据对于企业的正常运行至关重要,一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的。例如2003年,某电信运营商的计费存储系统仅发生了两个小时的故障,就造成了400万元的经济损失,这还不包括公司品牌受损和客户流失等影响。因此,对于这些行业的核心业务系统,往往选择等级六的灾难恢复等级,虽然投资巨大,但是与风险造成的影响比较起来是相称的。而对于一般行业(例如中小企业),一方面受到资金投入、技术门槛、人员素质、管理及维护复杂度等因素的制约,另一方面发生灾难所带来的损失也不像银行、运营商等行业那么巨大,因此完全没有必要一味追求高的灾备建设等级,而是可以结合自身条件在等级一到等级五中进行选择。
2、每个业务单位中的不同业务系统,可采用不同的灾难恢复策略
同样是银行、运营商等行业,核心业务的灾备等级选择了等级六,有没有必要非核心业务(例如OA、网站等)也采用等级六呢?答案显然是否定的。风险给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设,而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务,并平衡业务系统的实际需求和总体成本的关系。以某个银行同城灾备系统建设为例,该银行对应用进行了分级,对“核心、授信、网银等交易系统进行同城同步应用级的Recovery灾备系统建设”,而对“验印、集中授权、国际结算、资金交易、财务、OA应用等实施数据级的灾备建设”,另外“数据仓库、报表、管理信息和呼叫中心等系统”暂未进行灾备建设规划,视条件成熟再逐步考虑。因此,各业务单位在进行灾备系统建设时,需要根据业务系统重要性的不同,采用不同的灾备等级。这也说明,我们在进行灾备规划时,单靠一种方案或一种技术是行不通的,为了实现多种灾备等级,需要有一个完整的灾备技术体系作支撑。
3. RTO和RPO目标
信息系统灾难恢复能力等级与恢复时间目标(RTO)和恢复点目标(RPO)具有一定的对应关系,各行业可根据其行业特点及信息技术的应用情况制定相应的灾备等级要求和指标体系。在《规范》中,也给出了某个行业灾难恢复能力等级与RTO、RPO之间关系的示例,可作为参考:
灾难恢复能力等级 |
RTO |
RPO |
1 |
2天以上 |
1天至7天 |
2 |
24小时以后 |
1天至7天 |
3 |
12小时以上 |
数小时至1天 |
4 |
数小时至2天 |
数小时至1天 |
5 |
数分钟至2天 |
0至30分钟 |
6 |
数分钟 |
0 |
表1. 某行业灾难恢复能力等级与RTO、RPO之间关系示例
需要指出的是,这个行业用户的灾备等级六中,RTO是“数分钟”而不是“0”。在实际的灾备建设中,部分的用户对此存在误区,认为等级六(或者说应用级灾备)就一定要达到RTO为0,即应用自动切换。从技术层面而言,目前的远程集群技术能够达到应用自动切换的目标,但是这种方式的弊端在于,多种潜在因素(例如集群服务器心跳线中断、网络短时间中断、应用服务器响应不及时等)容易导致在生产中心实际运行正常情况下进行误切换,运行风险高。我们知道,灾备中心的应用接管是一个管理和决策的过程,需要人为参与,无法完全交给机器和软件来替代完成的。一旦灾难发生,在人为决策后,将灾备中心服务器启动或恢复对外访问,通过几分钟实现业务的快速切换,既能够达到高等级的灾备建设目标,又能避免误切换的巨大风险。
通过对《信息系统灾难恢复规范》中该行业灾备建设RTO建议的研究,我们可以看到选择等级六时,“数分钟”的切换时间目标是非常科学和理性的。
我们再以前面介绍的进行同城灾备建设的银行为例,该银行在确定具体的灾备技术指标时,就非常理智的选择了RTO<5分钟、RPO为0,而且这个目标的确定还有一个前提是针对计划内的停机切换(例如由于系统升级、测试、维护等原因有计划的停机),如果对于计划外停机(例如由于电源故障、硬件故障、自然灾难、人为破坏等不可预知的原因的停机),则RTO和RPO目标将进一步降低了,比如RTO<半小时、RPO<10分钟。
4. 灾难恢复资源要素
在明确了灾备建设中灾难恢复能力等级和RTO、RPO目标之后,另一个重要问题是在具体建设中应该考虑哪些资源要素。我们把《规范》中灾备建设内容的描述称之为灾备建设的七要素:
序号 |
要素 |
要素的考虑要点 |
1 |
备用基础设施 |
灾难备份中心选址与建设; 备用的机房及工作辅助设施和生活设施; |
2 |
数据备份系统 |
数据备份范围与RPO; 数据备份技术; 数据备份线路; |
3 |
备用数据处理系统 |
数据处理能力; 与生产系统的兼容性要求; 平时的状态(处于就绪还是运行); |
4 |
备用网络系统 |
备用网络通信设备系统与备用通信线路的选择; 备用通信线路的使用状况; |
5 |
灾难恢复预案 |
明确灾难恢复预案的: A)整体要求 B)制订过程的要求 C)教育、培训和演练要求 D)管理要求 |
6 |
运行维护管理能力 |
运行维护管理组织架构; 人员的数量和素质; 运行维护管理制度; 其他要求; |
7 |
技术支持能力 |
软件、硬件和网络等方面的技术支持要求; 技术支持的组织架构; 各类技术支持人员的数量和素质等; |
表2.灾备建设的七要素
很多用户觉得灾备建设复杂,是因为整个灾备建设过程牵涉到很多环节,给人感觉没有头绪、无从下手。通过对《信息系统灾难恢复规范》所定义的七要素的细致分析,我们不难发现,灾备建设实际可以归纳为三个步骤:
第一步是建设灾备中心,主要考虑要素一即基础设施建设,包括灾备中心的选址与建设,备用机房、工作辅助设施和生活设施的建造等;
第二步是在灾备中心建设完成后,重点考虑如何将生产中心的数据同步到灾备中心,具体的讲就是考虑要素二、三和四,即数据备份系统、备用数据处理系统和备用网络系统;
第三步,就是日常的运维和管理,即要素五至七。
这三个步骤之中,基础设施建设、日常的运维管理属于灾备的基础支撑系统,业界有很多成熟的标准和体系可以借鉴。从技术的角度来说,最复杂的内容就是两个数据中心的同步,面临了很多技术上的选择难题,这也是传统灾备系统建设复杂性的根源所在,需要重点考虑规划。
《信息系统灾难恢复规范》中对七要素的详细定义,还可以引导灾备建设单位全面考虑灾难恢复建设的各个相关方面,防止片面强调个别要素而忽略整体。例如,大部分单位在进行灾备建设时,重“硬”而轻“软”,对于备用基础设施、数据备份系统、备用数据处理系统和备用网络系统充分重视和关注,而对于日常运维、灾难演练等有所忽略。灾备系统建设完成后,几年都没有进行演练,灾备的建设目标是否达到、灾难应急流程是否完善、数据恢复后是否可用等等都无法确定,花了巨资建设的灾备系统的效果自然也大打折扣。因此,详细对照《规范》中的七要素,有助于我们建设一个完整、完善、完美的灾备系统。
三、小结
《信息系统灾难恢复规范》推出后,我国各个行业的信息系统灾难恢复规划和建设将逐渐规范化和统一化。特别是对灾难恢复能力六等级、七要素的定义,有助于我们在灾备建设中能够更加明确和清晰的确定建设目标和内容。
《重要信息系统灾难恢复指南》下载- 解压密码:www.chinastor.cn