Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持,技术也逐渐走向成熟,然而到真正投入企业生产,还需要经过许多优化。以Shark、Spark Streaming及相关项目为主题,Spark Summit邀请到了Yahoo、Adobe、Intel、Amazon、RedHat、Databricks等众多知名企业高管,分享Spark在企业内部的第一手实践。
1.Databricks高级软件工程师Michael Armbrust:Catalyst,一个Spark和Shark的查询优化框架
Databricks 高级软件工程师Michael Armbrust在此次Spark峰会上就什么是查询优化、简捷的查询规划、优化执行、目前的主要工作以及Catalyst等做了详细介绍。
2.UC Berkeley AMPLab 高级软件工程师Sameer Agarwal:在大数据上近似查询
UC Berkeley AMPLab 高级软件工程师Sameer Agarwal在此次Spark峰会上详细介绍了BlinkDB的目标,什么是BlinkDB以及它的架构等等内容。
3.Stratio高级架构师Luca Rosellini:StratioDeep ,一个在Spark 和Cassandra之间的集成层
Stratio高级架构师Luca Rosellini在此次峰会上和其同事Oscar Méndez、Alvaro Agea重点介绍Stratio的主要客户、Cassandra的优势以及为什么使用Spark,最后举例说明。
4.Systems Technology Lab of Adobe Research研究专家Nedim Lipka:利用Spark的数字化营销迈向分布式强化学习阶段
Nedim Lipka是Systems Technology Lab of Adobe Research研究专家,主要致力于机器学习、数据挖掘方向的研究。最近他的工作方向是可扩展的强化学习算法、Spark、Hadoop等。此次峰会上就利用Spark的数字化营销向分布式强化学习做了详细的介绍。
5.Databricks客户端解决方案主管Pat McDonough:用Spark并行程序设计
Databricks 客户端解决方案主管 Pat McDonough,此次峰会主要就如何用Spark开始你的项目给出自己的建议,从Spark的性能、组件等方面全面介绍Spark的各种优异性能,所以想了解Spark的,这里有你想要的。
6.Databricks高级软件工程师Michael Armbrust:用Shark快速分布式查询处理
Databricks高级软件工程师:Michael Armbrust在此次峰会上除了介绍Catalyst之外,还介绍了Shark和Hive,以及用Shark快速分布式查询处理。(此文档是Michael在Spark峰会第二天的演讲PPT)