本年度Hadoop World会议上最火的一则消息可能就是Cloudera决定提供Apache Spark的全企业级支持——类似Hadoop发行版里的定制内容及付费产品支持,不仅仅是技术整合。这进一步证明了未来Hadoop的工作负载比现在和过去的看起来大不一样。
Spark是一个内存中的数据处理平台,兼容Hadoop数据源,但是比Hadoop MapReduce运行的更快。它非常适合机器学习作业,以及交互式数据查询,非常易于开发者使用,因为它包含了Scala、Python、Java的API。Spark已经在大量的网络公司和网络创业公司中使用,一个旨在商业化Spark的初创公司Databricks近日获得了1400万美元的风险投资。
实际上,Databricks是Cloudera Connet的第一个合作伙伴,它将帮助Cloudera提供支持,在Apache Spark未来发展中也将与大的Hadoop供应商合作,Cloudera公司联合创始人兼CTO Amr Awadallah解释了这个合作关系,也作为所有潜在客户的合作关系:将作为Cloudera所有感兴趣的客户创新的枢纽。Databricks以类似OEM的关系获益,但该协议仅限于扩展Apache Spark,不会发布任何商业版本的Databricks。
除下Databricks和Cloudera建立在Spark上的合作之外,Hortonworks也在致力流处理引擎Storm的企业级应用,这些探索都是非常重要的,因为只运行MapReduce的Hadoop永远都无法取得长期胜利。现在,YARN资源管理层已经可以投入使用,Cloudera和Hortonworks不用浪费任何时间为Hadoop未来的工作负载做准备,坦白来说,面对本质上Hadoop变成能支持可扩展性的开源数据层,我不明白过去几年那些对Hadoop持怀疑态度的人依然能够坚持,理论上,你可以使用它来处理任何类型。
Awadallah指出,虽然MapReduce仍然能流行一段时间,但是作为事实上的通用数据处理平台,Hadoop的未来应该更好。
原文链接: Spark is a really big deal for big data, and Cloudera gets it