工商银行上海数据中心灾备系统运维实践
一、“两地三中心”建设历程
工商银行于1999 年开启了数据中心集约化建设的先河,在北京、上海分别建设两大数据中心后,于2002年1 月在国内同业率先启动了主机灾难备份工程。经过多年的建设和持续投入,已经实现了高等级的核心系统灾备体系建设,完成了全行应用分等级灾备体系建设。为进一步提升信息系统灾难恢复能力,工商银行启动了 “两地三中心”工程建设。根据规划,2014 年将在上海嘉定建立同城数据中心,与上海外高桥数据中心构成同城双中心,同城双中心整体与北京异地灾备中心组成异地灾备模式(如图1 所示)。
“两地三中心”模式可以满足不同灾难场景下的恢复要求,实现更灵活的风险应对。在架构布局上,上海同城双中心具备基本相同的业务处理能力并通过高速链路进行实时数据同步,两个中心之间距离约55 千米,日常情况下可按主/ 备或双活模式运行。在发生区域级灾难某个中心失效时,可在基本不丢失数据的情况下进行双中心间的应急切换,保持业务连续运行。北京异地灾备中心用于同城双中心的灾难恢复,当出现因大范围自然灾害等原因导致同城双中心同时失效时,异地灾备中心可以用灾备系统接管全行核心业务。
二、“两地三中心”技术手段和实施策略
工商银行通过技术攻关,完成了“两地三中心”模式下的信息系统业务连续性架构设计和方案研究,提出了可以提供多层级业务连续性保障水平的解决方案。信息系统可以给银行业务应用提供A/A、A/Q 和A/S 等多种部署模式,最终以业务影响分析结果作为应用部署模式选型的决策依据。
在具体实施中,工商银行坚持“全面覆盖基本保障能力、重点针对关键核心应用部署高等级灾备保障技术”原则,做好资源分等级和差异化配置。如ATM、POS、柜面业务、资本市场等核心业务系统是银行的关键应用,与其相关的应用系统就具有较高的业务连续性等级。自2010 年工程启动以来,项目进展情况良好,完成方案规划设计和验证评审,在数据库复制技术全面推广、智能网管改造、55 千米磁盘同步镜像等关键技术领域取得了突破;完成了核心主机并行系统投产,即双园区模拟同城双活的试运行,目前主机并行系统主要运行可分离查询交易,分流了部分核心生产系统的负载压力;完成13 个开放平台应用服务器双活改造,预计今年将完成近50 个开放平台应用的双活改造。同时,工商银行积极探索“两地三中心”运行模式,按照“一体化管理”原则,初步制定了“两地三中心”生产运行管理方案,并对组织架构和主要职能进行了规划。嘉定同城数据中心园区基建工程按计划推进,于2011 年底奠基,2012年4 月开工,2012 年底8 万平方米基建工程结构封顶,计划今年底机房楼交付使用,2014 年嘉定同城数据中心园区建成启用,实现“两地三中心”的数据中心布局。
三、“两地三中心”安全措施
1. 建立全面、系统、可持续发展的信息安全管理体系
①以安全、稳定、高效、追求卓越为安全方针建立具有工商银行特色的ISO27001 信息安全管理体系。数据中心(上海)于2011 年通过了ISO27001:2005 信息安全管理体系认证,实现在信息安全组织、资产管理、人员安全、物理和环境安全、通信及操作管理、访问控制等11个方面130 余个控制点的全方位的信息安全管理体系。同时,建立起具有工商银行特色的支撑跨地域统一管理的ISO27001信息安全管理体系,主要包括信息安全制度管理、安全生产与运维管理、安全与防控技术管理、用户与人员管理、综合管理等五大方面共107 项精细化管理制度。
②建设信息安全组织体系确保信息安全管理有效开展。数据中心成立了信息安全领导小组,作为信息安全管理最高管理机构,确定信息安全方针、目标和控制策略,明确信息安全的管理职责。信息安全领导小组定期或不定期召开联席会议,分析信息安全形势,研究中心信息安全管理薄弱环节及应对措施,贯彻落实监管部门、上级机构信息安全管理要求等。中心建立了纵、横向联系报告机制,及时掌握并报告本区域重大信息安全事件、案件线索或案件,提示风险,有效防控风险。
③信息安全管理体系随着工商银行和中心自身的发展、内外部安全形势的不断变化,与时俱进持续改进。主要措施包括:定期对人员、硬件、软件、数据与文档等各类重要资产所面临的风险进行评估,结合现有技术能力和管理成本,制定相关的补偿控制措施;利用有效的技术平台,通过完整、系统、及时的问题整改跟踪管理,将内外部审计检查发现的问题进行分析汇总,在督促及时完成整改的同时,不断挖掘制度漏洞和流程缺陷,及时完善管理体系;主动对生产故障事件、外部信息安全重大事件等进行分析研究,深入剖析问题发生和防控失效的深层次原因,进一步细化制度执行要求、强化技术硬控制、优化生产运维流程;积极与外部审计监管单位、各行业先进企业进行沟通,主动学习借鉴国际先进标准和业界领先经验,不断完善优化中心的信息安全管理体系。
2. 生产运维安全措施多管齐下,确保生产稳定运行
①努力降低变更引发的安全生产问题。变更前通过变更评审会和变更协调会对高风险度变更和跨多个部门的变更进行评估和协调;变更中严格按照双人复核提交方式进行变更操作;变更后及时开展技术和业务验证。根据应用等级和对外服务时间严格控制变更窗口,严格控制紧急变更。将环境搭建和版本升级准备等相关变更活动限制在与生产环境隔离的区域,进一步降低变更操作风险。
②持续完善应急管理。制定完备的应急和灾备演练计划,开展层次丰富的各类演练,及时总结演练过程发现的问题并加以改进,定期开展南北两地互相远程接管演练等。
③ 建立了涵盖主机、网络、平台、UPS、应用、安全等各领域的集中监控报警平台,统一了监控报警事件的处理流程,使得各类报警能得以快速处理。
④ 定期对生产事件进行总结分析,找到问题根源和解决方案,避免事件的再次发生和深层次安全隐患。建立完善的事件沟通机制,通过每日、每周及不定期专项会议将相关事件发生原因、处理过程、改进措施等进行分析总结,举一反三防微杜渐。
⑤高度重视性能容量管理,建立了覆盖操作系统、数据库、中间件、网络、存储、动力、应用等领域的较为全面的性能容量指标和监控系统及指标阈值和报警规则,并结合实际生产情况、版本变化定期进行全面的指标梳理。定期开展性能容量统计分析,根据分析结果进行相应扩容、改造或资源回收。
⑥进一步完善运行操作管理,提高批量操作自动化水平,减少人为干预。通过专业系统对操作步骤制定、修改、发布、执行过程记录等进行信息化、流程化、自动化管理。实现了管理严谨、操作有序的安全生产目标。
⑦以“知其所需、最小授权、唯一鉴别、有效控制”为原则,进行各类用户权限的划分和按需发放,通过细致的访问控制,降低操作类安全事件发生的可能性。
⑧进行严格的网络区域划分,实现生产与外部网、生产与办公网的隔离。在接入网和互联网区域网络边界部署入侵检测防护设备,实现对攻击事件、DOS/DDOS 事件的检测和防护。
⑨ 通过技术手段严格落实数据访问、数据变形、数据传输、数据恢复、数据清理、数据销毁等数据管理各环节的安全管理要求。同时建立完善的客户端安全技术防护体系,包括防病毒管理、系统补丁管理、软硬件管理、外发邮件管理、互联网访问管理、电子文件安全管理、信息泄漏防护管理、笔记本硬盘密码保护管理等,实现客户端的安全准入控制和数据安全管理。
⑩通过日志集中和安全审计平台建设,对各类生产系统的人员操作、系统安全事件等进行快速和全面审计,及时发现和通报违规操作、恶意攻击、高风险操作等现象。
四、未来发展规划
未来,工商银行数据中心要努力实现生产运行管理可控、可靠、可持续的目标。可控,即对日常运维和突发问题可以主动安排和快速把控;可靠,即能提供稳定可靠运作的基础设施环境,确保全行信息系统运行不因物理设备故障而中断。可持续,即在任何时候、任何情况下均不发生对外服务中断。为此重点要做好以下几方面工作。
一是树立“安全生产第一”和“第一时间恢复生产”的指导思想,落实各项生产运行管理措施。包括提升监控的覆盖率、准确率和时效性;提升应急管理效率,确保在应急情况下,能够立即切换,第一时间恢复生产;提升生产一线发生事件的处置能力;提升变更管理和应用版本投产管理质量;提升健康检查、性能容量分析水平,提前采取预防和改进措施,切实降低重大生产事件发生概率;提升对境外机构的生产运行管理和服务,强化中心针对分行管理的专业人员的配备,完善对分行生产系统的远程实时监控能力,抓好分行机房动力设施、网络通信线路的改造升级等。
二是进一步提升信息系统的高可用性和灾备能力。要积极推进以数据零丢失和“本地双活、异地灾备”为原则的“两地三中心”建设,高标准、高质量建设上海同城中心;要积极推动应用系统灾备体系优化,根据应用灾备等级划分的要求,加快推进开放平台应用系统的灾备建设,确保关键开放平台应用系统均具备异地灾备能力。
三是加强生产运维的自动化工具研发与投入,不断提升操作、监控、维护、资源配置的自动化程度。推动实现数据中心批量操作自动化比例达到98% 以上;要全面建立覆盖各应用系统的“端到端”业务级监控,推动数据中心运行维护和资源配置的自动化,从而全面提升数据中心例行化工作的质量和效率。
四是以风险管理为核心,建立覆盖全流程的信息安全管理体系,不断提升信息安全管理水平。通过风险评估的方法,建立、实施、运行、监视、评审、保持和改进信息安全工作的流程与规范。
五是建立科学合理的人力资源配置和激励机制,加快建设数据中心专业化人才队伍。要合理配置人力资源,加强行业领军人才和高级专业人才培养,建立人才梯队,稳定人才队伍。