宜信郑华：金融大数据大有可为，看好Spark和Docker-中国存储网

2014-11-20 11:13:00 来源：中存储网

2014年12月12-14日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中科院计算所与CSDN共同协办的 2014中国大数据技术大会(Big Data Technology Conference 2014，BDTC 2014) 将在北京新云南皇冠假日酒店拉开帷幕。大会为期三天，以推进行业应用中的大数据技术发展为主旨，拟设立“大数据基础设施”、“大数据生态系统”、“大数据技术”、“大数据应用”、“大数据互联网金融技术”、“智能信息处理”等多场主题论坛与行业峰会。由中国计算机学会主办，CCF大数据专家委员会承办，南京大学与复旦大学协办的“2014年第二届CCF大数据学术会议”也将同时召开，并与技术大会共享主题报告。

本次大会将邀请近100位国外大数据技术领域顶尖专家与一线实践者，深入讨论Hadoop、YARN、Spark、Tez、 HBase、Kafka、OceanBase等开源软件的最新进展，NoSQL/NewSQL、内存计算、流计算和图计算技术的发展趋势，OpenStack生态系统对于大数据计算需求的思考，以及大数据下的可视化、机器学习/深度学习、商业智能、数据分析等的最新业界应用，分享实际生产系统中的技术特色和实践经验。

在本次大会召开之前，CSDN和本次大会“大数据应用”的演讲嘉宾宜信大数据创新中心研发总监郑华做了一次简单的沟通，他简要地介绍了自己与大数据结缘的经历，以及大数据技术在金融领域推进的难点和解决思路。

宜信是全球最大的P2P金融服务公司，公司在2013年底成立大数据创新中心，旨在以技术推动金融创新的尝试，如风控和反欺诈等。郑华对Spark、Docker等新技术在宜信的应用前景非常看好，认为它们能够帮助宜信提升IT效率。郑华同时表示，他将会在12月14日“2014中国大数据技术大会””上和大家分享和交流更多的金融大数据的干货！点击报名！

郑华

宜信大数据创新中心研发总监

2007年毕业于清华大学电子工程系，获得学士，硕士学位。毕业后加入美国著名视频平台Hulu工作，是Hulu最早的员工之一。离开Hulu之前是Hulu算法和数据平台团队的负责人，带领团队从头搭建并全面负责Hulu的视频推荐系统，广告精准投放平台，用户智能平台，以及大数据处理平台等。2013年加入宜信大数据创新中心任研发总监，目前负责大数据处理平台，大数据实时授信平台，大数据驱动的反欺诈和风险管理引擎等。

演讲嘉宾采访实录：

CSDN：您曾使用过哪些大数据技术？对这些技术的总体评价如何？

郑华：我主要的工作经历在Hulu，从事大数据处理平台和海量数据挖掘算法的研究和开发，进入宜信大数据创新中心之后，我们也在过去的一年时间内搭建了新的大数据平台，包括数据的获取，存储，处理，挖掘和服务等模块。我们大数据这边的技术全面拥抱开源，主要依赖Apache Hadoop社区生态环境，具体来说，日志归集和文件传输使用了Apache Flume，文件存储使用了HDFS，计算框架使用了MapReduce和Storm，资源管理是YARN，NoSQL数据存储使用了HBase，Cassandra，Redis等，数据仓库使用了Hive，消息系统使用了Apache Kafka，搜索使用了ElasticSearch等。

总体来说，Hadoop社区对整个大数据的发展起着不可替代的作用，有效的降低了技术门槛，推动了上层系统和创新应用的蓬勃发展。普遍的感受是把这些服务集群搭起来跑起来是比较容易的，但是能把系统全局优化好，运维好是非常不容易的。一方面一些开源软件本身就不够成熟，文档比较少，甚至有的时候文档和具体实际实现细节不一样，比如Flume我们使用的时候就遇到了好几个bug，需要深入读代码才能定位到问题，另一方面系统全局优化是一个综合工程，需要对各个软件，操作系统，硬件，网络等都有足够的了解才能做好，比如我们有一个使用场景是用户提交查询词，我们实时从互联网爬取数据，处理数据到最终在ElasticSearch中1分钟内搜索展示出来，我们采取了很多优化措施才能达到最终令人满意的效果。另外一点相比较一些有实力的大公司的成熟产品，开源社区始终处于追赶者的角色，一些好的特性或者产品迟迟还没有完成，比如Hive的查询非常慢一直是为大家所诟病的，Google的实时交互数据分析系统Dremel多年前就已经成熟了，但Apache的开源项目Drill目前还处于孵化阶段；分布式事务和强一致性的数据同步是分布式数据库梦寐以求的特性，Google从BigTable，MegaStore到Spanner，进行了很好的演化，但目前开源社区如HBase还没有看到相应的特性。

CSDN：您现在服务于金融行业，根据您的了解，目前的金融领域，在数据应用方面，遇到的最大困难是什么？

郑华：目前的金融企业，在数据方面面临的困难首先是高价值的数据源很难获取，比如客户的交易数据，负债数据，资产数据等，我们从互联网上公开数据源抓取的数据往往存在准确性和一致性较差的问题，需要我们从多渠道，多方位获取数据进行交叉验证，这对数据处理能力和海量数据挖掘能力提出了更高的要求；其次就是大数据人才的稀缺，现在虽然大数据炒得很火，但是真正有丰富实践经验包括大数据平台的运维和优化，以及在平台上进行海量数据分析，处理和挖掘的人才还是比较难找；最后就是怎么结合大数据技术做好跨领域比如互联网金融的创新应用，也是比较难得，目前大家也都处理探索阶段，希望我的这次分享也能起到抛砖引玉的作用。

CSDN：从技术层面来看，目前还有哪些大数据技术是您正在观察和研究的，为什么看好这些技术？

郑华：大数据技术领域，我们主要在研究Spark，作为一个内存计算的框架，Spark在速度上要远好于MapReduce，而且更通用，支持SQL和结构化数据处理，流数据处理，图处理，MLLib也已经实现了包括SVM，LR，SVD等主流的机器学习算法，降低了海量数据挖掘的门槛并且提高了效率；从0.6.0开始可以使用YARN作为资源管理和调度框架，并支持HDFS，HBASE等数据源，完全可以共享我们现有的集群资源。我们正在尝试把我们的BI和数据挖掘迁移到Spark上。另外我们也正在研究Docker。Docker提供了基于Container的轻量虚拟化解决方案，使得构建，交付和运行应用更加容易，大大简化了开发和运维的工作，目前包括Google, Amazon, Microsoft等大公司都已经拥抱Docker，Google还发布了Docker容器集群管理系统Kubernetes。Docker作为一项新技术推动了云计算的发展，我们正在自动化测试和持续集成部署方面尝试Docker。

CSDN：请谈谈您在这次大会上即将分享的话题。

郑华：宜信是全球最大的P2P金融服务公司，公司一直致力于为中国高成长性人群提供方便快捷的普惠金融服务。2013年底公司成立了大数据创新中心，主要是想用大数据和互联网的技术做一些金融创新的尝试。我们目前已经推出了多款基于大数据的纯线上信贷产品，而支撑这些创新产品的正是我们大数据实时风控平台。平台结合了用户申请数据、用户授权数据、第三方数据、互联网海量数据等不同数据源，全方位了解客户并分析客户的信用状况和欺诈风险，实时估计授信额度和检测欺诈风险等。这次分享我会介绍宜信大数据处理平台的架构以及我们实时风控平台中的一些核心技术，包括知识图谱，风控模型和反欺诈技术等。

CSDN：哪些听众最应该了解这些话题？你所分享的主题可以帮助听众解决哪些问题？

郑华：我分享的主题是大数据技术在互联网金融领域的一些实践，如果大家对如何用大数据互联网技术做一些风控和反欺诈的事感兴趣的话，欢迎到现场跟我交流。金融的本质是风险管理，我们深信大数据在这方面可以有所作为，美国的征信机构、评级机构以及风头正盛的LendingClub，Kabbage， ZestFinance等就是很好的佐证。在利用大数据技术进行风险管理方面，我们也处于尝试阶段，但我们是非常开放的、真诚的和各位对大数据技术感兴趣的同行进行交流，希望我们的实践能对大家有所启发，做出更多更创新和引领的事，共同推动技术和社会的进步。

全国大数据创新项目评选活动目前也在如火如荼进行中，详情点击这里。

CSDN诚邀您参加中国大数据有奖大调查活动，只需回答23个问题就有机会获得最高价值2700元的大奖（共10个），速度参与进来吧！

2014中国大数据技术大会（Big Data Technology Conference 2014，BDTC 2014）将于2014年12月12日-14日在北京新云南皇冠假日酒店召开。传承自2008年，历经七届沉淀，“中国大数据技术大会”是目前国内最具影响、规模最大的大数据领域技术盛会。本届会议，你不仅可以了解到Apache Hadoop提交者Uma Maheswara Rao G（兼项目管理委员会成员）、Yi Liu，以及Apache Hadoop和Tez项目管理委员会成员Bikas Saha等分享的通用大数据开源项目的最新成果和发展趋势，还将斩获来自腾讯、阿里、Cloudera、LinkedIn、网易等机构的数十场干货分享。 门票限时折扣中，预购从速。

免费订阅“CSDN大数据”微信公众号，实时了解最新的大数据进展！

CSDN大数据，专注大数据资讯、技术和经验的分享和讨论，提供Hadoop、Spark、Impala、Storm、HBase、MongoDB、Solr、机器学习、智能算法等相关大数据观点，大数据技术，大数据平台，大数据实践，大数据产业资讯等服务。

继续阅读