/ 中存储网

江苏移动公司信息技术中心云备份平台实践

2010-07-12 02:10:11 来源:江苏移动

随着运营商用户数的持续增长,业务的飞速发展,3G业务的推广,企业数据中心的规模越来越大,数据也越来越重要,需要备份的数据量在持续的增长。与之对应的却是业务系统要求的越来越苛刻的恢复准确率。

业务支撑部门面对分散的数据中心,持续扩大的系统平台规模,7*24小时的服务时间要求,全面严谨的业务指标考核标准,业务数据“零”丢失的严谨要求现状,紧张的维护人力资源配置状况,迫切需要提高现有备份系统的备份效能,提高运维管理效率高、降低运维成本。并根据这些经验及公司未来的ICT业务发展战略,也可以将这些成熟服务产品推向市场。

本文通过介绍中国移动江苏公司统一备份平台在备份虚拟化、备份服务差异化、备份系统管理自动化、系统架构云备份模型优化的具体实践,能够很好的解决中国移动江苏公司现网系统运行遇到的种种问题,为读者建立了一种全新的备份系统架构设计思路。

1、引言

如今的数据中心越来越复杂,不仅系统规模每年翻番,系统的复杂性及面临的风险也与日俱增,另一面,业务部门对业务连续运行的要求却是不断提高的,甚至越来越多的系统要求“零数据丢失”。拿中国移动江苏公司的核心业务支撑系统来看,包括BOSS系统、经营分析系统、客服系统、企业信息化系统等子系统,总计近400台服务器(TPCC值超过10000万),近100台高、中、低端存储设备,超过1000TB的重要业务数据,分布于南京和无锡的5个数据中心。为了提高数据的安全性,作为数据保护的最后一道防线-备份的重要性就不言而喻了。但是根据国际知名调研机构对世界五百强大企业的技术主管的回访记录和巡检记录来看,大部分企业用户的平均备份成功率在75%左右。事实上,我们还注意到很多时候的备份成功率小于50%,恢复率就更低。一方面我们面临的实际情况是每天需要备份的数据量在增长,中国移动江苏公司业务支撑系统每年需要备份数据的增长量在50%~75%之间,但备份系统的预算的增长却远远小于这个速度。

传统的备份系统都是和项目一起采购,造成数据中心多个独立的备份系统,备份的效率差和备份资源的浪费很严重,备份系统架构及其不合理,管理也极其复杂。

相同的问题也给IT行业的发展带来挑战。因此“虚拟化”、“云备份”、“标准化”和“备份资源整合”等成为目前业界最为热门的技术话题,同样也代表着未来技术发展的方向。近几年来,在业界也涌现出几家在这个领域运营不错的云备份服务的厂商-如赛门铁克的 orto O li eBackup,EMC 的Mozy.……作为IT技术、IT系统大量应用的中国移动江苏公司该如何解决自己发展中遇到的问题,如何整合行业先进经验、新技术、解决方案,如何规划IT系统架构科学发展,我们在上述领域做出了一些自己的实践。

2、 系统建设背景

中国移动江苏公司拥有一套完整的企业备份产品,在架构设计上基于原来的经验进行了创新,并结合一些云技术的设计理念,为业务支撑系统的数据保驾护航。

· 虚拟化-以整个数据中心为视角的备份资源部署,而不是基于应用和设备的备份资源管理;

· SOA-建立跨越整个备份资源的统一兼容的面向业务需求的备份服务,而不是绑定特定的应用或设备的备份软硬件设备;

· 自动化-以整个数据中心为视角的基于策略的图形化备份资源管理,实现备份任务的灵活调度、实时监控和报告,而不仅仅是僵化的为备份而备份

图1:中国移动江苏公司业务支撑系统备份云示意#p#副标题#e#

3、 系统技术实现方案

系统的技术设计及实现方案分为以下几个层次:

备份虚拟化技术引入及部署-建立一个可扩展的基础架构

SOA-建立跨越整个备份资源的统一兼容的面向业务需求的备份服务

自动化管理-提高云备份基础架构管理效率降低复杂度

3.1虚拟化

首先,在云备份架构中将备份SA 从生产SA 分离出来,这一变革,使得原有的四个数据中心中,分散在各个应用系统中的备份设备通过备份SA 虚拟化地呈现给整个数据中心,形成了一个集中的备份资源池。同时备份的SA 可以根据业务的变化,备份任务的变化灵活的扩展和回收,实现了备份资源的灵活调度和灵活的缩放,对生产SA 没有任何影响。

在数据中心备份SA 的基础上,建立了跨数据中心的备份SA 连接,使得所有数据中心都能物理共享第五个数据中心(浦口高新机房)的备份设备,这样当任何一个数据中心的备份设备故障时,云备份架构将自动启用第五数据中心的备份设备,保证核心生产系统备份作业,如数据库归档日志备份能够持续进行。这里的关键是第五数据中心的备份设备是共享的而不是其中一个数据中心专享的。

对于IP网络的资源虚拟化,则在云备份架构中建立了一个具有负载均衡功能的介质服务器资源池,接入云备份架构的任何一个网络备份客户端的备份任务可以自动计算并分配到一个负载最低的备份介质服务器。所以对于通过网络备份的应用系统来说,备份系统是即插即用式的,备份客户端软件从备份服务器自动下发,同时客户端不需要关心对应哪个介质服务器,或具体使用哪里的备份设备。

多层次的备份架构,除了传统的磁带库设备,还采用了新型的磁盘备份技术,如虚拟磁带库技术,数据重复删除技术,这些技术都作为基础架构的形式提供,为接入云备份系统的不同性质数据提供不同类型的存储方式。其中使用的数据重复删除技术是云备份体系中核心组成部分即备份软件自带的功能,在对客服系统中大量的具有冗余性质的VMware虚拟环境的备份有良好的效果。

建立面向地市分公司支撑系统的共享备份架构,对于分公司的备份需求,统一提供备份资源池,提供用户透明的集中备份服务,用户不需要考虑备份系统所在的地点和具体结构,同时通过重复数据删除技术,减少本地写入的数据量,相应的减少网络数据流量。

3.2SOA备份服务

一个共享的、可伸缩的备份架构是实现一个满足SLA的备份服务投送平台的基础。我们所定义的备份服务基于备份云上的各个关键要素——数据、网络、存储资源,分别细化、组合、封装,最后形成备份服务的SLA。对服务的使用者来说,云服务通过封装底层技术屏蔽了复杂的技术组合,使得一个复杂的备份策略设置操作,变成简单的服务挑选。

我们首先通过区分应用系统数据重要性等级,分别定义金,银,铜三个服务等级;数据重要性等级指标有三个,一为是否需要快速恢复,二为是否需要长期保存,三为是否需要异地保存。之后我们将应用系统对应到备份平台的SLA;从服务等级的角度看,铜牌服务仅提供长期保存(磁带备份),银牌服务则在满足长期保存基础上提供了异地保护(磁带复制等),金牌服务除包括长期保存和异地保存外还提供了数据的快速恢复(综合磁盘备份等多种技术)。这样在备份平台上每个服务器都被赋予了SLA的属性,并将贯彻到其对应数据的整个备份生命周期。这其中用到了SLP(StorageLifecycle Policy)技术,不同服务标准的备份作业会自动寻找合适的存储资源,备份数据也可以根据设定的数据生命周期在存储资源间进行流动。
 

图2:备份服务等级管理

对备份系统服务水平的评价标准之一是是否满足集团对数据保护的要求,其中关键的一点是能否为特定数据提供异地的备份数据冗余,比如跨机房的数据复制。由于备份SA 架构的形成,使得南京各数据中心和无锡数据中心的备份数据可以互相流动,流动的形式是多样的,可以是在线多数据流复制,也可以是离线的Vault(保险柜)复制,相比传统的手工出库和磁带运送方式先进很多。

共享的备份数据验证服务,大多数企业的集中备份环境都缺少可行的数据恢复验证环节,但事实上数据的恢复是比备份更复杂的过程,即使系统在初始备份后进行了成功的恢复测试,也不代表在实际生产中需要恢复的时候一定能成功,实际情况中数据库软件的升级,备份软件的参数调整,失败的备份作业,操作系统参数的调整都有可能造成恢复失败,而恢复失败时现场定位错误原因需要的时间将直接影响业务系统恢复的时间,所以常规例行的数据恢复验证能最大程度保证生产系统的快速恢复。在我们的云备份架构中提供了共享的数据恢复平台,能够满足多个核心系统的数据恢复验证需求。并专门立项建立了业务支撑系统数据备份恢复测试环境,覆盖了支撑系统主机的所有相关机型和版本和存储的主要型号。

数据安全性,不同的业务系统其数据的敏感程度不同,对备份数据安全性的要求也不同,当所有系统的备份都归入云备份架构后如何保证数据的安全性,如何保证敏感信息不泄露?事实上我们可以利用云备份架构中的数据加密模块,启用数据加密的备份数据只能被数据源系统所恢复,数据加密所需要的证书管理和认证都作为平台服务提供,对于高负载的业务系统的加密备份可以由资源池中的介质服务器承担加密运算,减少对业务系统的性能影响。

3.3自动化管理

集中的报表平台,报表平台作为云备份架构的重要组成部分,可以为遵从验证和业务规划提供高级备份报告。在云备份作为SOA存储服务的情况下,我们需要具有跟踪和分析备份服务水平遵从以及将操作作为一项业务来进行管理的能力。备份管理平台为我们提供了所需的报告,以验证各关键系统的数据库等数据受到确实的保护,以及RTO(恢复时间目标)和RPO (恢复点目标)要求可以得到满足。同时还可以深入了解数据保护基础架构,这样就可以为备份操作进行有效的业务计划。例如,可以按照业务系统、用户和部门分析增长趋势和资源需求。同时,可以为备份服务使用部门或系统提供在线的报表展示,确保服务水平承诺。报表平台还可以根据各部门或应用系统统计固定时间段内其备份所产生的费用成本,这样的报表数据既可以做为部门成本核算的依据,也可以做为系统扩容的参考。

图3:集中报表平台

集中的管理平台,我们通过基于Web的集中管理门户能够实现所有监控、警报、报告和故障排除功能,并通过图形化的方式显示。管理员能够实时收集信息,包括恢复的成功率、哪些系统由于备份故障而面临风险、存储使用的趋势、关于特定警报与错误的详细信息。可提供整个基础设施范畴的所有数据保护操作的视图。为了简化日常管理工作,还能够通过统一备份界面,保护和管理数据资源。管理员能够主动诊断故障,识别可能的问题,并采取正确的纠正措施。#p#副标题#e#

4、 架构收益

随着该系统架构投入使用,我们获得了诸多收益,很好的解决了目前系统采购、建设、运行、维护、使用、应用支撑方面的诸多问题,具体的内容如下:

(1)成本

云架构的采用对备份系统成本的影响是革命性的。备份系统占总体架构的投资比例显著下降了。原来备份系统占总体投资的10%,云架构使得这个比例下降到不足5%,节约了50%以上的投资。

备份资源的增加来自云备份架构整体需求,资源复用率和整体利用率提高,由此带来了成本的相对减少。

维护成本的减少来自两个方面,一个方面,低端磁带库主要面向中小型业务系统的独立备份需求,由于机械故障率极高,带来的维护成本较高,云备份使得这方面的维护成本消失。另一方面,由于备份标准不统一、业务平台各自为阵,一个数据中心就有多个备份管理员,云备份把多个备份平台整合成一个,一个专业备份管理员就够了。

(2)构架“云”模型来提高备份服务能力

实现任意业务数据备份可以随时运行在任意“云节点”上,实现了负载均衡与随需调度

充分利用云架构的扩展能力,实现了比业务增长速度更高的扩展性。核心业务系统的数据量在增长,备份/恢复窗口却在缩小。

针对业务系统的架构瓶颈和备份策略,通过交叉备份方式来提升数据备份和恢复的效率和成功率,成功实现了IT部门承诺的99.99%的恢复成功率。

备份系统处理余量由原来的30%下降到15%甚至更低

(3)利用备份“解耦”提升备份系统可靠性

业务应用模块并不关心备份数据在哪里

一套完整备份策略可以灵活在任意的备份中心部署

(4)利用备份共享提高备份资源利用率,提高备份调度运维效率

通过构建全局备份视图将需要管理的备份空间数量有效降低了20%,将预留的冗余备份空间容量有效降低了25%。

更好的根据业务调整备份策略,充分利用网络的资源,提高备份的处理效率

通过细分业务、方式调整备份策略,实现业务服务水平和备份服务水平的的精细化管理,既提高了整体备份服务水平,也优化了备份资源

备份系统运行及配置环境集中管理,实现一点配置,全网生效

(5)极佳的鲁棒性和系统弹性

每个业务模块的备份策略部署已经可以完全产品化,提升了系统整体备份能力;

备份系统处理的能力可以线性扩充,对现有系统不产生影响,只需增加新的软硬件资源;

未来新的业务模块增减、数据存储空间添加、业务模块调度调整或备份备份策略的调整都可以分别在线进行,系统架构不需要发生联动变化,为生产系统、备份系统平台的能力提升提供了安全、高效的手段;

提供分级备份规划能力,帮助对业务系统生命周期管理,实现分级备份,随需调度,降低硬件采购成本并体现节能减排效益。

5、 结束语

中国移动江苏公司信息技术中心通过BOSS系统备份虚拟化、云计算改造实践,为应用系统未来的发展提供了及时可靠的备份系统架构保障,为备份系统平台实现异构基础设施资源整合,建立开放、标准、统一、高效、易于管理的IT备份基础设施,优化备份资源配置,获得备份整体的最优性能和使用效率,增加IT基础设施的灵活性,改善IT系统备份服务水平提供了有效保障。近期对于地市分公司的生产环境计划尝试建设单独的备份IP网络,结合高速局域网技术和重复数据删除技术,提供低成本的备份服务。目前,中国移动江苏公司也正在研究怎样将这些技术通过服务的方式为广大中小企业的用户提供远程在线数据备份业务