Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,立足于内存计算,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark当下已成为Apache基金会的顶级开源项目,拥有着庞大的社区支持,技术也逐渐走向成熟,然而到真正投入企业生产,还需要经过许多优化。以Shark、Spark
Streaming及相关项目为主题,Spark Summit邀请到了Yahoo、Adobe、Intel、Amazon、RedHat、Databricks等众多知名企业高管,分享Spark在企业内部的第一手实践。会议共两天,CSDN将其中精华演讲PPT整理汇总分三期发布,以飨读者。本期为第二部分,第一部分
请猛击这里。
CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。
1.Amazon高级架构师Parviz Deyhim:让Spark飞,用Amazon Elastic MapReduce构建弹性和高可用性的Spark集群
Parviz Deyhim是AWS解决方案架构师。Parviz现在为许多AWS的客户构建可扩展,高可用的和安全的基础架构。在此之前Parviz花了很多年的时间在CDN行业,帮助客户发布他们的内容。在此次Spark峰会上Parviz主要介绍了Spark在Amazon EMR上的一些信息。
2.WANdisco 大数据工程总监Konstantin Boudnik:Spark集成到企业大数据堆栈的成功和挑战
Konstantin Boudnik是WANdisco 大数据工程总监,负责提供企业级NonStop服务器的Hadoop解决方案,ASF的Hadoop、MRUnit提交者,ASF Bigtop的合著者,Spark/Shark贡献者。此次Spark峰会上Konstantin Boudnik介绍了Spark集成到企业大数据堆栈以及挑战。
3. Adobe系统技术实验室主要科学家Jim Donahue:Flint发展了Spark
Jim Donahue是 Adobe系统技术实验室主要科学家,主要研究方向是云计算、数据库和企业系统,此次峰会上Jim Donahue主要从架构、安装等方面详细介绍了Flint。
4.Red Hat公司高级软件工程师William Benton:为Fedora集成Spark
Red Hat公司高级软件工程师William Benton:专注于大规模分布式计算、并发、编程语言程序分析、编译器和虚拟机实现和逻辑。此次Spark峰会他主要介绍了Fedora集成Spark的动机、用户、开发者、挑战等课题,从几个方面指出Fedora集成Spark是大数据时代的必然趋势。
5.Intel首席工程师Jason Dai:RTAP上Spark技术栈使用情况介绍
Intel首席工程师Jason Dai:Intel工程总监和首席工程师(软件和服务集团),负责先进的大数据技术发展方向——包括与加州大学伯克利分校联合开发Spark 堆栈,基于Hadoop的下一代大数据分析。在此次峰会上他例举现实生活中的三个RTAP用例,说明Spark技术的优势。