2014年Spark Summit于6月30日至7月2日在美国旧金山举行。Spark、Shark以及相关项目的主要用户聚集一地,共同探讨Spark项目开发方向以及实践经验。
Spark是一个基于内存计算的开源的集群计算系统,目的是让数据分析更加快速。Spark非常小巧玲珑,由加州伯克利大学AMP实验室的Matei为主的小团队所开发。使用的语言是Scala,项目的核心部分的代码只有63个Scala文件,非常短小精悍。 Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,它们使 Spark 在某些工作负载方面表现得更加优,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
免费订阅“CSDN云计算”微信公众号,实时掌握第一手云中消息!
CSDN作为国内最专业的云计算服务平台,提供云计算、大数据、虚拟化、数据中心、OpenStack、CloudStack、Hadoop、Spark、机器学习、智能算法等相关云计算观点,云计算技术,云计算平台,云计算实践,云计算产业资讯等服务。
尽管创建 Spark 是为了支持分布式数据集上的迭代作业,但是实际上它是对 Hadoop 的补充,可以在 Hadoop 文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。目前 50 +公司正在为这个项目贡献代码,每年的Spark 峰会都是我们学习大数据知识的绝好的机会,这里有来自UC伯克利以及一些使用Spark的著名公司,比如Databricks、Cloudera 、 MapR、 DataStax等。Spark Summit一共三天,第一天、第二天是一些主题演讲,第三天是Databricks提供的Spark培训。我们精选了一些精彩的PPT分享给大家。
1. Databricks公司联合创始人兼现任CTO Matei Zaharia: Spark在大数据生态系统中的地位
Matei Zaharia是加州大学伯克利分校AMP实验室博士研究生,Databricks公司的联合创始人兼现任CTO。Zaharia致力于大规模数据密集型计算的系统和算法。研究项目包括:Spark、Shark、Multi-Resource
Fairness、MapReduce Scheduling、SNAP Sequence Aligner,这次spark 峰会上他主要就 Spark的现状和未来做了详细的阐述。
2. 加州大学伯克利AMP实验室主任Mike Franklin:Berkeley数据分析的未来
Mike Franklin是加州大学伯克利AMP实验室主任, AMPLab是Berkeley Data Analytics Stack (BDAS)和Spark的发源地,作为BDAS的核心组件,获得了24家顶尖的IT公司的支持。在这次演讲中,我将分享伯克利未来BDAS的研究方向以及目前正在进行的一些研究项目,如机器学习、数据和模型服务。
3.DataStax工程执行副总裁 Martin Van Ryswyk:Spark 和 Cassandra
Apache Cassandra是领先的分布式数据库,能够满足世界上成千上万对可伸缩性和可用性最为苛刻的网站需求。这个演讲简要概述Cassandra,以及目前DataStax及DataStax合作伙伴的状态,另外还将分享两家使用Spark和Cassandra成功经验的例子。
4. Cloudera 联合创始人兼首席战略官Mike Olson:Apache Spark在企业数据分析的作用
Mike Olson是Cloudera 的联合创始人,并担任首席执行管直到2013年,然后开始了他的首席战略官生涯。主要负责Cloudera的产品策略、开源的领导以及与用户的对接。Mike还在Oracle公司担任过2年的嵌入式技术副总裁。此次峰会上他主要就Spark在企业中的作用以及Cloudera和Intel的合作做了相关解读。
5. SAP平台战略实施副总裁Aiaz Kazi: 交付大数据的企业级架构
Aiaz Kazi是SAP公司的平台战略实施副总裁,他负责平台技术、商业策略、平台采用、新平台计划。他的工作主要围绕SAP HANA、SAP HANA云平台、SAP HANA市场以及所有SAP产品的投资组合,包括内存技术、移动、分析、用户体验、集成和应用程序开发。
6. Hortonworks CTO Eric Baldeschwieler:Spark和大数据应用程序的未来
Eric Baldeschwieler是专业大数据顾问。他是Hortonworks的创始CEO和后来的首席技术官。他创立并领导雅虎团队,将Apache
Hadoop从原型发展到企业级技术,从而是Hadoop才有了如今的广泛使用。曾经他是雅虎和Inktomi网络搜索工程团队的领袖级人物。此次的演讲他主要分析了为什么Spark是最好的选择以及它为什么会是当下应用程序更好的平台。