在3月19日举办的China Hadoop Summit(中国Hadoop技术峰会)上,中国Hadoop大数据厂商红象云腾与OpenPOWER基金会共同发布红象云腾的新一代大数据产品,帮助企业高速处理PB规模数据。
此次发布的两款新产品中,“红象数据高铁-CRH4”的RedHadoop Enterprise CRH4 For POWER版软件,是全球第一个支持OpenPOWER服务器的Hadoop商业版本。同时发布的RedHadoop Enterprise CRH4 For POWER EC版软件, 支持Hadoop HDFS Erasure Code CAPI FPGA加速方案,也是全球第一个支持Erasure code(可擦除码)在FPGA/CAPI上实现的商业发行版Hadoop方案。
用“高铁”比喻Hadoop,源自二者动力原理的相似:高铁的效率比传统火车快,是因为每节车厢都有动力,而不仅仅是火车头有动力。基于分布式技术的Hadoop的原理即把数据分块,通过并行运算来提高数据检索、查询、分析等操作的效率,每台机器都有自己的动力(计算力)与存储,从而提供充沛的动力和功能模块来提升客户的大数据应用环境。
北京红象云腾系统技术有限公司总经理童小军演讲
可以看出这两款产品都是为OpenPOWER服务器定制的。从OpenPOWER生态的角度看,两款大数据产品的发布也进一步完善了OpenPOWER的生态链。据北京红象云腾系统技术有限公司总经理童小军介绍,基于OpenPOWER服务器的开发的RedHadoop的性能大幅提高。标准的Hadoop测试表明:在OpenPOWER服务器上的Redhadoop测试值,是在x86服务器上测试值的三倍。同时,RedHadoop借助FPGA/CAPI来实现Erasure Code加速算法,将原本社区版的三份副本的存储量缩小到原来的一半,大大降低磁盘使用,节省一半磁盘成本,并通过红象DataBank产品实现界面化操作数据,提高大数据工具使用效率。
据悉,作为Hadoop社区经典难题,Erasure Code (可擦除码)是由Xilinx、IBM中国研究院和红象云腾、恒扬科技、中太、烽火科技等OpenPOWER成员及合作伙伴联合研发的。
“大家都在盼望Erasure code, 这个功能在Hadoop 1.0年代存在,但是到了Hadoop 2.0年代就被取消了。这其实是非常好的功能,可以大大节省硬盘存储。”中国Hadoop技术峰会主席何建军评价说,“随着我们去年开始倡导第二代分布式计算架构,今天的Erasure code第一次真正意义上实现了分布式计算,把CPU不适用的算法挪到了FPGA/CAPI上,而FPGA/CAPI上来计算擦除码是传统软件算法的300倍。我很高兴,今天我们的Hadoop爱好者们可以享受到更好的技术。”
据悉,这一系列产品具备分布式存储和计算功能,支持PB级海量数据存储和批处理、流处理、内存计算、多维查询、搜索引擎等,支持在其前往数据中进行分钟级统计和秒级延迟检索,在在线(Online)、近线(NearLine)、离线(OffLine)三大应用场景做场景优化,为用户提供全场景的大数据平台解决方案。与此配套的Redhadoop Databank则成功提升大数据人机交互,通过可视化数据展现和多维度查询,让Hadoop使用更安全,更简单,更快速。
并且这些大数据产品已在联想集团、NTT-DOCOMO、中国航天等企业顺利上线,管理最大集群超过100台,数据达到 4.8PB规模。其中,联想集团通过红象Hadoop和奥飞ETL,在三个月内完成完成了数据仓库、实时计算、多维查询等应用,出数效率提高到分钟级别。
背景知识
红象云腾公司于2016年初加入OpenPOWER基金会,并提出 +Hadoop战略——将HADOOP技术融入到各种应用场景中,打造“芯片、操作系统、云计算、算法(深度学习)、应用、行业”+Hadoop等多个细分战略方向。