近年来,大数据迅速升温,成为社会关注的热点。以长尾理论为基础的互联网金融正是基于大数据分析技术实现了与传统金融不一样的产品研发、客群分析、营销推送、风险控制等新金融业态,取得了颠覆性的成果。
随着信息化浪潮的推进,数据爆炸式增长,数据分析成为各行业竞争的制高点,更成为企业创新发展的重大战略。如何从海量数据中挖掘出具有价值的信息并将其应用于业务经营、管理中成为企业的战略重点。
银行业在数据挖掘和使用上有着天然的优势,近年来各家银行均构建了基于信息系统的业务场景,积累了大量高价值数据,但是受限于多种因素,银行业当前数据的实际利用率并不高。在应对利率市场化,提升管理精细化的背景下,大数据分析能力将越来越受到重视,成为银行的重要核心竞争力。
民生银行为开展全行转型升级启动的凤凰计划项目中,将IT能力作为全行转型发展的基础,并将大数据战略作为研究专项,致力于实现大数据分析对产品、营销、决策的强力支持。
??大数据系统:贴近场景更高效、智能
大数据变革反映的是新的分布式技术体系的日趋成熟,分布式体系在很多领域开始全面超越传统的技术体系。
银行的交易系统构建在关系型数据库技术之上,对性能的扩展通常采用垂直扩张方式。当用户数量增加后,服务器对应的CPU、内存等的配置也相应增加,通过资源扩展满足业务性能需求。而非交易系统(在银行整个体系中扮演着非常重要的角色,如营销体系、客户管理体系、风险控制体系等)早期也大都基于关系型数据库构建数据分析体系。
近年来,随着开源技术体系的快速发展和成熟,逐渐形成了处理效率更高、更智能且成本更低的新一代数据分析体系。
在探讨银行业大数据应用时,民生银行认为大数据在营销、运营和风险控制领域更有用武之地,尤其在风险控制领域可能会引发变革。这因为大数据分析的本质是在可接受的成本下,解决数据使用效率和决策智能自动化的问题。
一是效率。移动互联和大数据的发展使得信息单元越来越小,传递越来越快,数据时效性越来越高。同样的数据分析结果,用时一周和用时一小时对商业应用产生的影响截然不同。对于银行业而言,从业务需求角度,所有的非交易系统正经历着从批量到准实时、从准实时到实时的转变。
二是智能自动化。随着手机银行、网上银行的推广,用户和银行的接触渠道从线下厅堂柜台逐步向线上迁移,据统计,当前超过90%的银行业务来自于线上渠道。业务流程自动化和智能化的本质是让信息系统有能力像人一样做出决策,而这需要一整套大数据技术体系支持模型计算。新一代数据分析体系能力如图1所示。
??大数据建设:立足人才,整合平台和数据为应用服务
提到大数据自然会联想到Hadoop,对民生银行来说,Hadoop不仅是一个大数据基础技术平台,更在于其盘活银行内外部数据资源的能力。民生银行希望借助挖掘分析算法、机器学习算法等,发挥数据效用,创造商业价值。
民生银行大数据发展规划可概括为人才、平台、数据和应用四个方面。
1.人才储备
首先,做大数据最重要的是人才队伍建设。Hadoop技术在互联网环境中经受了上万台集群规模的验证,应用较广泛,技术体系也较成熟。但对商业银行而言,新技术应用需要新型的专业技术人才。为此,民生银行早在2013年就从互联网企业引入了经验丰富的Hadoop技术团队。专业的人才队伍为民生银行大数据构想落地实施奠定了基础。
不仅如此,为将大数据新技术体系和数据驱动业务发展的思想传递给更多的员工,民生银行信息科技部组织了大量有针对性的培训活动,邀请行内外专家进行专场讲座,全面提升了团队分析能力,构建了企业先进的分析文化,为大数据项目接入做好充分准备。
2.平台建设
经过论证,民生银行认为,Hadoop是构建大数据平台的不二之选。在平台选型方面,民生银行关注平台的灵活性、兼容性和现场支持力度。当前在Hadoop技术领域国内外研究水平相当,考虑到Hadoop平台自身的技术问题以及响应监管部门支持国产厂商的号召,民生银行倾向于选择与国内Hadoop厂商合作开发。民生银行大数据平台架构如图2所示。
基于业务发展和机房现状,民生银行在生产环境构建了三套Hadoop集群,对不同集群按照应用特点进行分工定位,包括:在线存储集群(提供在线查询如电子回单、历史数据等查询)、计算集群(提供批量加工计算)和灾备集群(两地三中心,对重要数据进行灾备)。
实施中,针对诸如基础网络环境的支撑状况、计算与存储集群机型的标准化、集群的管理应用等问题进行了细致的研究和分析。同时,基于大数据分析平台,引入可视化挖掘工具,提升平台的易用性。
3.数据积累
银行在多年信息化历程中积累了大量的历史数据,包括结构化数据,如客户基本信息、资产信息、交易信息;非结构化数据,如语音、图片、文档等。以往这些种类繁多的数据存储在不同的系统中。大数据平台建设完成后,民生银行实现了用户数据的集中管理,并在此基础上,将用户行为数据、第三方数据等逐步集中。
未来,民生大数据平台的数据种类和数量还将不断扩展。
4.应用场景实施
对银行而言,与营销、运营和风险控制等场景结合可以带来新的应用创新。大数据对应用创新的支撑可以简单归纳为两个方向:
一是解决当前数据“存不下”和“算不了”的问题。如民生银行成立20年来积累了大量的用户数据。这些数据存储在磁带库上,查询难度非常大,在处理部分监管或者纠察事件时,经常需要追查历史磁带库的数据,在传统存储体系下,需耗费很长时间,而新的大数据技术体系使得上述问题迎刃而解。
二是进行新技术的引入和探索,推动决策自动化、智能化发展。未来,大部分决策工作可交给计算机完成,就算法原理而言,目前的算法和十年前的并没有太大变化,但大数据技术的出现,加快了计算速度。
2016年,GoogleAlphaGo战胜围棋冠军李世石的消息让人工智能瞬间进入了公众视野。尽管当前人工智能还达不到像人类一样思考,但在某些固定场景下,人工智能可以通过对海量历史数据的学习、分析,达到甚至超越专家的知识水平。如在银行风险控制领域,依据专家知识对数据指标做出加工规则和决策判断,如果银行积累了足够多的历史数据,完全可以尝试让计算机进行决策。
目前,民生银行已经在非交易型系统中大量使用了大数据技术,投产上线的系统达到10套(如图3所示)。
民生银行大数据平台项目主要分为两类:简单计算查询类和高级分析挖掘类。
简单计算查询类项目解决从技术角度出发“存不下”和“算不了”的问题,这类项目大部分是通用平台系统。
高级分析挖掘类平台主要实现数据分析。如移动运营数据平台,该平台对民生银行所有的移动端(手机银行、直销银行等)的用户行为数据、地理位置数据等进行完整采集和分析,通过移动运营数据平台,民生银行可以及时了解移动客户端使用状况,开展用户行为分析,进行产品迭代更新和移动端产品运营。
再如手机银行资产汇集及查询平台,该平台是完全基于大数据强大计算和查询能力而开发的应用模块,用于实现手机银行客户画像、风险评分、理财产品推荐等功能;又如外部数据平台,该平台将所有第三方数据(结构化、非结构化)进行统一管理,统一分析加工,为全行应用系统提供集中统一的数据服务。
民生银行大数据应用既要着手解决当前数据存储和计算问题,也要着眼未来,坚持“思想统一,人才建设,平台构建,数据完善,人工智能”指导方针,致力于实现建设更快更智能的大数据平台的科技新构想。
文丨牛新庄,中国民生银行科技开发部总经理。