在吸引Cloudera、Datastax、 MapR、Pivotal、Hortonworks等众多厂商加入的同时,Spark技术更在Yahoo、eBay、Twitter、Amazon、阿里、腾讯、百度、小米、京东等众多知名国内外企业落地实践。 只一年时间,Spark已实现开源到火爆 ,亦逐渐显露出与通用大数据平台Hadoop的分庭抗争之势。然而作为一个高速发展中的开源项目,其部署过程中存在的门槛和挑战亦不可谓不大。在这个大背景下, 2015 Spark技术峰会将于4月18日适时开启,同期举行的还有OpenStack技术大会与Container技术峰会。【购票快速通道】
陈 超 Reynold Xin(辛湜)
为了更了解行业的需求,最大化与会来宾的收获,在精心准备和策划之外,我们更邀请了七牛技术总监陈超(@CrazyJvm)、Databricks联合创始人Reynold Xin(@hashjoin,Apache Spark PMC成员)出任本届Spark峰会主席,指导嘉宾邀请与议题规划。
谁来了!
那么,如此合力之下,2015 Spark技术峰会可以给与会者带来什么样的收获?这里一一起底!
1. Databricks的声音
2014年,Spark共发布了4个版本,其1.2版本中涵盖了来自172位Contributor贡献的1000多个Commits,而Spark 1.3也将在2015年初推出( 其中DataFrame更新可参考这里)。可以如此快速迭代,Spark的护航公司Databricks可谓是功不可没。而本次峰会上,你可以直面Databricks工程师,进行充分的交流。
Tathagata Das
连城
Tathagata Das——Spark Streaming负责人。在大会组委会的努力下,Tathagata将为大家献上两场分享。而在技术分享之外,Tathagata还会为大家分享Spark现状、发展趋势及RoadMap。
连城——Apache Spark committer,Spark SQL主要开发者。他将为大家分享名为“四两拨千斤——Spark SQL结构化数据分析”的主题演讲,详细解析Spark如何借小数据分析之力,撼大数据分析之巨石。
2. Intel和微软的实践
在Databricks之外,软件巨头微软与芯片巨头Intel也将参会分享。其中,Intel一直位于Spark社区贡献前列,更与Cloudera等大数据厂商有着深入合作。会议期间,微软亚洲研究院研究员周虎成的分享主题是“Spark Ecosystem and Applications inside Microsoft”,而英特尔大数据技术中心研发经理黄洁则聚焦Intel在Spark上的优化及实践经验分享。
3. 来自BAT的探索
在云计算与大数据技术探索上,各大互联网公司一直都处于第一阵营。在本届Spark技术峰会上,百度、阿里、腾讯国内三大互联网巨头都将出席,并做精彩分享。
百度资深软件工程师马小龙——“Spark在百度的工程实践分享”。马小龙,2008年毕业于清华大学自动化系,先后就职于Yahoo!和Zynga等公司,在Yahoo!北研参与搜索广告系统的优化,获得Yahoo! You Rock奖项;在Zynga中国参与游戏服务器性能优化,提升游戏服务器性能超过60%,所用技术方案被Zynga各大游戏广泛采用,获得CTO Award奖项;马小龙于2012年底加入百度,目前在百度基础架构部从事大数据处理相关产品的研发工作。本次,他将给我们带来Spark在百度公有云、私有云的实践情况,还会着重介绍Spark在BMR的使用情况、在Spark SQL上的探索以及Spark与Tachyon的结合等等。
阿里巴巴淘宝技术部高级技术专家黄明(明风)——“图流合璧——基于Spark Streaming和GraphX的动态图计算”。黄明是淘宝网数据挖掘与计算团队负责人,Spark早期研究者和布道者之一,带领团队使用Spark进行分布式机器学习,并基于GraphX的图计算进行了各种研究和探索。本次议题简介:
借助GraphX强大的图计算能力,在小时级别内,完成对TB数量级的图数据挖掘已经不是什么难事。但是随着互联网电子商务的快速发展,各种各样的图场景应运而生,这些对图的计算,也提出了更高的时效性要求。业务需要在一个大图的基础上,实时进行各种拓扑结构变换和关系修正,并尽可能快地在图的实时变化中,感知和挖掘出有价值的信息。而Streaming作为Spark天然的流式计算框架,能否和GraphX进行合理搭配,在图计算的速度和精度上,都取得什么样更好的效果呢?且让我们看看图流合璧,可以产生什么样的化学反应?
腾讯高级工程师王联辉——“腾讯在Spark上的应用与实践优化”。王联辉从2009年开始从事Hadoop相关工作,经历了Hadoop集群大规模的演变和扩张,对Hadoop、Hive、HBase、Yarn、Storm、Spark等项目有着丰富的实践经验并熟悉其核心代码。本届会议上,他将介绍腾讯TDW的大数据处理基础架构以及Spark在腾讯的现状,腾讯在Spark上的典型应用案例及其应用效果,腾讯在Spark实践过程中的一些经验及改进优化,以及腾讯对Spark的未来规划和工作。
4. 小米和亚信的最佳实践
在传统IT豪强和互联网巨头之外,我们还邀请了在大数据领域有着丰富实践经验的小米和亚信科技。其中,小米公司软件研发工程师朱诗雄分享的主题是“Spark在小米公司的应用”,他将介绍Spark中小米公司的应用场景和使用案例,以及在使用Spark过程遇到的问题和解决方案; 亚信科技大数据平台研发部门经理田毅的分享则围绕着Spark平台在电信运营商的应用实践。
5. 最后一个保留议题将在近日确定
在已确定的议题和嘉宾之外,本次峰会特保留一个待定议题,通过读者推荐和嘉宾自荐的方式完成。那么,你想听谁讲?讲什么?又或是自己讲?请把你的需求在评论中留下,亦或者是在嘉宾自荐通道留下身影。
还缺谁?
据往年CSDN主办及参与主办的会议数据统计来看,不少参会者的级别和技术实力完全达到了演讲水准,甚至很多大型传统行业和互联网公司的技术骨干会组团参会。而这些来自一线的工程师、技术高手们都将在大会现场“过招”,台上台下深入探讨,给参会的朋友们带来更多惊喜! 此外,门票6折优惠本周结束,还不到碗里来? 【购票快速通道】
由“2015 OpenStack技术大会”、“2015 Spark技术峰会”、“2015 Container技术峰会” 所组成的 OpenCloud 2015大会于4月17-18日在北京召开。日程已经全部公开!懂行的人都在这里!【购票快速通道】。