在近日结束的Hadoop欧洲地区峰会上,Hortonworks公布了Hortonworks Data Platform (HDP)2.1版本。这一Hadoop发行版的升级版本新增了数据治理、安全、流处理和搜索等新企业功能,代表着针对交互式SQL查询的Stinger Initiative工具发展到了一个新的高度。
Hortonworks产品营销总监Jim Walker说:“为了让Hadoop真正成为企业级数据平台,它们必须要满足某些特定需求。对此实践者们都有着非常明确的需求,那就是数据治理、数据访问、数据管理、安全和操作。HDP 2.1将这些都整合在了一起,让其成为企业级Hadoop。”
HDP 2.1是Apache开源项目的最新稳定版。在Hadoop交互式SQL查询方面,新的版本提供了Apache Hive 0.13。Apache Hive 0.13是Stinger Initiative社区为在Hadoop中提供拍字节级交互式SQL查询的最新努力成果。过去的13个月里,Apache Hive社区一直在专注于创新,来自微软、Teradata和SAP等45家公司的145名开发者为Hive新增了39万余行代码。
Walker表示,借助Apache Hive 0.13,Hive在SQL查询性能方面提升了100倍,让交互式查询达到了拍字节级别。除了具备了大范围的复杂查询和连接功能外,Hive还能够拓展Hadoop上分析应用的SQL语义范围。
数据治理和安全方面,HDP 2.1整合了Apache Falcon和Apache Knox。其中,Falcon提供了一个用于治理和编排Hadoop内部和周边数据流的数据处理框架。该框架为获取和处理数据集、复制与保留数据集、重新定向位于非Hadoop扩展中的数据集、维护审核跟踪与沿袭提供了关键性的管控框架。Knox拓展了Hadoop的安全边界,实现了与LDAP、用于证书管理的活动目录等框架进行了充分整合,为跨Hadoop和所有相关项目的授权提供了一个通用服务。
数据处理方面,升级后的平台包含有两个全新的处理引擎,即Apache Storm和Apache Solr。Storm为传感器和业务活动监控提供实时事件处理,它是创建数据湖架构(data lake architecture)的关键性组件,因为它允许用户每秒获取数百万的事件,实现对拍字节级数据的快速查询。
与此同时,通过与LucidWorks的深度技术合作,Solr也与HDP进行了整合。整合后的Solr可提供开源企业搜索,实现对数十亿的文档的高效索引和次秒级搜索。此外,作为用于配置、管理和监控Apache Hadoop集群的框架,Apache Ambari在HDP 2.1中被升级到了1.5.1版本,增加了对新数据访问引擎的支持,以及堆栈扩展、可插拔视图、无缝重启和维护模式等新功能。
目前HDP 2.1已经提供技术预览版,预计正式版将在2014年4月底推出。