/ 中存储网

招行张春林:大型商业银行故障管理实践 “黑天鹅”飞来不再惊慌

2015-09-30 10:48:02 来源:赛迪网

 今年五月末,互联网连续出现两次“黑天鹅事件”仍让我们记忆犹新。支付宝因“光纤被挖断”大规模瘫痪2小时,网友惊呼:高科技都顶不住传统行业一铲子。随后,携程又因数据被人为删除,导致官方网站及APP无法使用,抢救12小时后才恢复。显然,两家企业都被“黑天鹅”造访,好在结果有惊无险,试想,如果这类突发意外没有有效的应急措施,故障无法恢复,将会带来什么?

02
黑天鹅事件

“黑天鹅”可能会飞到任何领域,它在意料之外,却又改变一切。当下,国内外经济形势已进入一个新常态,互联网、金融、商业等领域关键业务不允许宕机,数据不允许丢失。在业务连续性管理中,如何应对各种风险问题引起更高关注度。

P_20150910_135425
招商银行数据中心技术管理室主管 张春林

拥有十二年金融业IT运维从业经验的张春林,在接受赛迪网专访时表示,我们一直在凭借经验教训总结多种模型对抗风险,也只是用已知对抗未知,永远慢半拍。作为招商银行数据中心技术管理室主管,张春林曾负责招商银行重要系统灾备建设项目、招商银行总行负载均衡项目、招商银行分行负载均衡项目、应急管理项目等。在负载均衡技术、高可用架构、灾备和应急管理、自动化运维等领域积累了丰富的实战经验。

在大型商业银行故障管理实践中,他们总结出一套“应急标准化方法论”。对于大型商业银行而言,由于业务对信息系统强依赖,信息系统的可用性成为关系到财务收益和声誉风险的重要因子,而应急处置效率又是影响可用性的关键因素之一。如何快速有效地处置突发事件,既是商业银行的内在管理需要,也是外部监管要求。

招商银行张春林说,金融危机的发生是由金融体系的脆弱性内生决定的。同理,信息科技风险也是由信息系统的脆弱性内生决定的。诸如,万分之四的硬盘坏盘率、数以万计的软件代码的BUG、新老员工更替带来的断层、以已知对抗未知的无奈。因此,“黑天鹅事件”告诉我们,需要转换应对危机的思考方式:不要预测、谨慎预防、保证充足的冗余。

P_20150910_135138
招商银行数据中心技术管理室主管 张春林

张春林分析,就商业银行故障历史数据来看,很多故障的处理时长超过30分钟;很多故障无法通过切换来解决。为了提升应急效率,需要缩短故障修复时间,可以通过故障自愈、一键恢复工具、业务补帐工具、流量清洗服务等具体措施实现。

其中,业务补帐在异地灾备中非常重要。由于异地灾备存在时延,数据双活难以达到“真双活”,虽然RPO可以做到秒级差异,数据仍难以达到一致。张春林举例说,招商银行是北京和上海双中心运行,两地直线距离1500公里,中间还有传输设备,光传输即便做到极致仍然有30毫秒的差异,这是不可改变的物理规律。人工补帐虽然可以弥补缺失,但效率不高。支付宝瘫痪2小时事件,张春林认为时间并不是用来恢复光缆,很有可能是在做补帐。现在,更高效的方式是自动代替人工。将人工补帐过程工具化,实现半自动补帐。

在招行的实践中,他们还将故障场景标准化。不同于收集以原因为导向的故障场景案例库,而以IT的视角,以结果为导向,根据组件发生故障的类型来组合推导故障原因。“一个IT系统的组件数量是有限的,而每个组件的故障种类其实也并不多。无论是A场景还是B场景,只要解决方案是一样的,就可以归类为同一个场景。总结下来,其实情景并不多”,张春林解释说。

据招商银行分析总结,有25%的故障可以通过重启、隔离、异地切换来解决;60%的故障用高可用架构来解决;10%需要手工诊断解决;另外5%的未知风险才需要专家等人员来解决。赛迪网视频专访招商银行张春林片段

在赛迪网专访接近尾声时,张春林表示,未来商业银行业务连续性和灾备的发展方向,一是演练切换向常态运行转变。做到真正的双中心轮替运行,而不是灾备中心一直空闲,需要切换时也不敢动手。第二,自动化代替人工,减少人为误操作。商业银行也在以开放的心态向先进的互联网公司学习和借鉴,行之有效的方法也将被陆续采纳。