作为以Apache Hadoop YARN架构为基础的新一代方案,HDP 2.0(HDP,Hortonworks Data Platform,Hortonworks数据平台)的出现让Hadoop从单一用途的Web规模批量数据处理平台进化为一套多用型操作系统。如今,它能够处理批量、交互、在线以及数据流等多种任务类型。
在Hadoop上运行SQL的案例分析。多年以来,业务分析师们一直将SQL作为查询语言,从而对数据仓库进行临时性查询。如果大家利用Hadoop创建出一套数据池,就可以利用SQL对其中的数据进行查询。
“但由于SQL访问被绑定在Hadoop之上,这意味着Hadoop只是一套单一应用程序系统,挑战也因此产生,”Hortonworks创始人兼架构师、雅虎Hadoop Map-Reduce开发团队前任架构师Arun Murthy写道。“当我在数据中运行一条SQL查询时,它会消耗掉全部集群资源并导致集群中的其它应用程序与工作遭遇性能问题——这可绝对不是什么好消息。”
解决这一难题的关键答案正是YARN(即‘另一种资源协议机制’),这也正是最近刚刚发布的Hadpop 2的基础。Apache Hadoop YARN作为Hadoop操作系统,能够替代原本的单一用途批量处理数据平台并将其进化成多用平台,从而实现批量、交互、在线以及数据流等处理任务。
YARN在HDFS(即Hadoop分布式文件系统)当中充当着首要资源管理器以及存储数据访问调解机制的角色,能够为企业用户提供多项能力,包括在单一位置保存数据并将其以多种方式进行交互——且始终保持服务水平一致性。
作为人气最高的Hadoop发行版之一HDP(即Hortonworks数据平台)的供应商,Hortonworks率先对YARN做出回应——公布其HDP 2.0通用版本。
HDP 2.0是第一款基于Hadoop 2创建的商用发行版,为用户带来基于YARN的架构以及众多来自“Stinger”倡议第二阶段的新型功能。Stinger倡议项目以技术社区为基础,旨在为由Apache Hive支持的SQL语义提供速度、规模以及广泛性等方面的提升。
“HDP 2.0采用基于YARN的架构,这使我们得以实现自己的发展目标——通过提供一套可与现有以及未来数据中心技术相对接的企业级Hadoop推广现代数据架构,”Hortonworks企业战略副总裁Shaun Connolly指出。
“在我们对现有客户群体进行的基准测试当中,经典MapReduce任务只会由1.0产品线转向2.0产品线,”Connolly补充称。“大家将得到双倍的性能,并因此获得运行双倍任务数量的能力。集群中的余量也将变得更加充裕。”
与此同时,Hive 0.12(Stinger倡议第二阶段的主要内容)也将把查询活动与“人为交互响应时间而非批量响应时间”相对接,从而显着提高查询性能表现。
Connolly指出,过去需要耗时1400秒的查询活动如今已经能够在10秒之内获得响应。在第三阶段(对应2014年第一季度)中,我们期待通过允许内存内临时处理来进一步改进响应时间。
HDP 2.0目前已经开放下载。Connolly表示HDP 2.0的Windows 版本将于下个月与广大用户见面。
2013-10-25 00:00:00