工商银行灾备及生产运维体系建设
工商银行在数据中心建设运营过程中始终坚持“安全生产运行第一”和“第一时间恢复生产”的指导思想。近年来,工商银行信息系统处理的业务量逐年攀升、屡创新高,手机银行等电子银行渠道已成为工商银行交易量的主要增长点,互联网和移动终端业务以及第三方支付业务快速发展,小额高频交易增长明显。同时,随着互联网金融的蓬勃发展和客户需求的日益多元化,工商银行正在加快构建电商平台(融E 购)、直销银行平台(融E 行) 和即时通讯平台(融E 联)三大互联网金融服务产品体系。
在此背景下,工商银行信息系统总体保持了安全稳定运行态势,核心信息系统主要业务时段可用率保持在99.99% 的较高水平。本文重点介绍工商银行数据中心信息系统灾备管理的相关情况。
一、完成“两地三中心”灾备体系部署
一直以来,工商银行高度重视并积极推动数据中心灾备体系和系统高可用性建设。早在2004 年,工商银行就在国内同业中率先建立起“两地两中心”的数据中心异地灾备架构,并于2009 年启动“两地三中心”数据中心新架构研究。2014 年6 月上海嘉定同城数据中心正式投产启用,在业界率先成功实现数据中心同城双中心全业务切换运行,标志着“两地三中心”工程初见成效。工商银行信息系统灾备体系已达到了国际灾备标准SHARE-92 定义的七级水平和国务院信息化办公室《重要信息系统灾难恢复指南》六级的高灾备等级标准要求。
在此基础上,2014 年11 月工商银行首次采用临时通知的方式,成功实施同城核心系统切换运行,实施过程采用“一键式”切换工具,主机核心系统切换时间控制在分钟级;2015 年11 月,工商银行又成功实施了核心系统第三次切换运行,并在嘉定同城园区连续运行一周, 验证同城环境的可用性,达到预期效果。异地灾备方面, 工商银行连续7 年采取临时通知方式组织实施全行业务级灾备应急切换和恢复演练,验证异地灾备部署的效果。“两地三中心”部署为工商银行信息系统连续运行提供了“同城双活、异地灾备”的完整防护体系,满足不同场景下业务连续性要求,其价值主要体现在以下几方面。
1. 缩短核心业务故障情况下的恢复时间
当生产中心发生重大突发事件,核心业务可在数分钟内切换至同城中心运行;当同城双站点同时不可用时, 全行业务可在2 小时内切换至异地灾备中心运行。
2. 减少信息系统计划停机时间
通过应用“双活”系统切换机制,工商银行综合应用版本投产对外业务影响时间已从原来的3~4 个小时缩短为30 分钟之内;在系统投产过程中,工商银行大部分时间仍可提供ATM 存取款、POS 消费等基本服务。
3. 实现对核心系统运行负载的有效分流
由于同城双站点平时保持同时运行,当核心系统交易负载增加时,可以将部分查询交易从核心系统自动切换至并行系统运行,从而实现整体负载均衡,提高了资源利用效率。
4. 快速提供增值服务
在核心系统处理交易性业务的同时,可以利用并行系统处理部分内部管理、经营分析甚至风险控制、数据挖掘类业务,从而更好地满足客户服务和内部管理多元化和时效性的要求。
二、建立一体化生产运维管理体系
在“两地三中心”工程建设期间,工商银行同步建立了与“两地三中心”架构相适应的数据中心生产运维管理模式,实现了对数据中心三个园区的一体化管理。
1. 建立专业线管理工作机制
设置主机技术、平台技术、网络技术、设备和机房设施、安全管理五条技术专业线,由专家层级人员作为专业线牵头人,跨园区负责各专业技术架构、应急场景、变更方案等技术风险的把控。
2. 建立智能化综合监控平台
涵盖主机、开放平台、网络、机房及动力、信息安全以及面向业务的应用监控。通过整合和关联各专业监控信息,实现对问题和隐患的“快速发现、准确定位”。
3. 实现ECC 现场一体化管理
建立ECC 总值班工作机制,在中心三个园区ECC 现场部署24 小时在线视频会议系统,确保三园区生产事件信息和应急指令快速传递,实现ECC 总值班对全行生产现场的统一调度、统一协调、统一应急、统一决策。
4. 实现跨园区一体化操作监控
通过统一信息系统操作监控流程,实行三园区运行操作大轮班工作机制,确保在任一园区发生异常的情况下,其他园区可及时接管日常运行操作监控。
此外,为与“两地三中心”基础架构相适应,工商银行同步完善了生产管理制度、优化工作流程。2014 年6 月,上海嘉定同城数据中心正式投产启用后,工商银行启用了“两地三中心”总体框架下的一体化运行管理体系,同步修订了相应的信息科技制度,进一步建立健全了业务和科技联动、总行和分行协同的应急组织体系。
三、推动自主创新,实现可持续发展
工商银行坚持可持续发展方针,通过建立自主可控的技术和管理体系,保障了信息系统的安全稳定运行, 确保了金融安全。
1. 积极推动科技成果向金融创新产品的转化
工商银行始终坚持自主研发和使用自主可控技术。积极应用国产成熟产品和开源系统,提高信息安全综合防护水平。工商银行还与国内领先IT 企业建立联合实验室,完成了“量子通信技术验证和应用示范项目”等技术的自主研发和试点,积极推动这些技术在电子银行和银行卡等金融信息化领域的应用。通过采取各项技术手段和管理措施,确保信息系统稳定运行,保障客户信息和内部管理信息安全,实现信息科技风险可监控、可管理、过程可审计。
2. 自主研发智能化综合监控和远程接管工具
通过整合和关联各专业监控信息,使监控策略部署从“量大”向“精准”转变,目前有97% 的生产故障事件可通过监控系统发现。另外,通过智能化综合监控和远程接管工具,数据中心可实现对分行远程监控和操作接管。
3. 积极推动切换工具自动化建设,缩短应急处理时间,降低业务影响
工商银行自主研发的同城自动化切换工具,通过集成相关应急处理脚本,实现了同城切换“一键式”操作。当核心系统发生重大突发事件时,核心主机业务可以分钟级实现同城切换,双活部署的开放平台应用可快速完成同城切换,有效提升了突发情况下同城切换的时效性。
四、提升数据中心园区实体安全防护能级
数据中心承担着银行核心信息数据处理的重任,不仅是金融机构的核心部门,也是我国经济安全极大的风险点,因此,数据中心必须建立抵御内外部威胁的安全防范体系。工商银行在建设上海嘉定同城数据中心的过程中,按照“物理防范、人员防范、技术防范相结合” 原则,按不同区域的功能和风险建立了纵深防护体系, 根据安全等级配置相应的安防设备及防护措施,建立兼具监控、报警、指挥三大功能的安防监控中心,整体安防规划建设可基本满足精细高效的安全管理要求。在视频监控防护、动力和机房基础设施防护以及车辆安防管理方面,制定了专项防护措施,并从制度上严格管理, 确保安全风险控制能力始终保持良好状态。
创新引领发展,专业成就安全。工商银行将始终秉持“安全生产第一”的指导思想,切实提高信息系统风险防范能力,保障信息系统安全高效稳定运行。
(文章来源:中国金融电脑杂志)
作者:中国工商银行数据中心(上海)总经理 钱斌