/ 中存储网

EMC开始推出数据计算设备Greenplum Data Computing Appliance

2010-10-15 15:16:50 来源:中存储

EMC开始推出数据计算设备Greenplum Data Computing Appliance(DCA:数据计算设备),并承诺该产品的性能是Oracle的Exadata系统的两倍。

DCA是一个在线分析处理(OLAP)引擎,用于观察和挖掘商业交易数据并从中提取有效信息以更好地描绘客户行为,从而帮助企业提高竞争力,比如说帮助手机提供商降低客户流失率。

DCA 使用Greenplum的大规模并行处理和无分享架构。每个机架内有16个分服务器,每个服务器使用两个英特尔Xeon E5670 6核2.93GHz处理器,因此总的处理器核数量为192个。每个机架还拥有两个冗余服务器来用于协调操作,这些服务器并不进行数据挖掘工作。

整个系统可以整合最多24个机架,也就是总共4608个数据挖掘处理器核。一个DCA机架有36TB可用未压缩磁盘空间,使用600GB驱动器。EMC表示如果进行压缩的话,空间数量可以达到144TB。压缩比率取决于数据类型,这里EMC使用的是通常的4倍压缩比率。

DCA是一个整合的IT堆栈系统,包含数据库、计算、存储和网络资源。它可以设置为半机架、全机架和多机架,通过压缩可以扩展到3.46PB容量。

Greenplum创始人,也就是现在的EMC数据产品事业部首席技术官Luke Lonnergan表示:"我们不需要任何过于深奥的东西。"

他表示现在我们需要用大规模并行系统来摄入大量数据、挖掘这些数据并快速得出结论。

客户可以把DCA和EMC的Data Domain重复数据删除备份、恢复和复制技术整合在一起。EMC针对灾难恢复的RecoverPoint产品也提供复制功能。

该硬件运行4.0版本的Greenplum数据库,同时EMC承诺提供"数据仓库业内最快的数据载入速度和最好的性价比"。

Lonnergan表示:"设备模式的优点在于它采用的是受过检验的成熟的技术,缺点是许多这种产品是架构孤岛。"

"DCA可以部署为单独的设备。启动它,然后数据就会输入,结果就会流出。不过你需要把它连接到你所选择的EMC阵列上,用RecoverPoint来复制它,并把它备份到Data Domain。"

"因此,现在你是在生产阵列上存储数据,进行连续的长距离远程复制,备份到重复数据删除存储,使用内置的完整性检查和带宽优化后的复制功能……我们的这个设备在你的数据中心中不再是孤岛,它是架构的一部分。"

Greenplum 4.0数据库作为单独的软件来出售,运行在X86硬件上,比如,EMC所建议的虚拟计算环境(VCE)联盟Vblock架构包。DCA产品将马上上市,价格尚未披露。

Greenplum介绍

总部位于加州San Mateo的Greenplum主要面向那些在云中保存大量数据的企业用户。EMC副总裁、全球营销首席技术官Chuck Hollis表示,Greenplum将被划分到EMC信息基础架构部门下成为一个新的数据计算产品部门。

Greenplum的大规模并行处理(MPP)Scatter/Gather Streaming(SG Streaming)这一“秘密武器”旨在消除其他数据加载方法相关的瓶颈。

Greenplum采用了一种全面并行的数据加载方法,数据从一个或者多个源系统流入数据库的每个节点中。

EMC表示,Greenplum软件能够交付超出传统数据库软件10~100倍的性能。以数据为主导的企业包括NASDAQ OMX、NYSE Euronext、Skype、Equifax、T-Mobile和Fox Interactive Medi,他们将Greenplum产品用于他们基于云的高性能数据分析服务。

Greenplum与大多数主流数据库和MPP设备厂商使用的传统批量加载技术有所不同,后者是将数据从一个来源通过一个或者几个并行通道进行推送,这可能导致瓶颈出现和加载时间增加。

Enterprise Strategy Group高级咨询分析师Brian Babineau表示:“这些数据仓库中总是存在一个瓶颈,不管是在数据库、服务器还是存储中。大家都试图以不同的方式解决这些瓶颈,而且很容易将其归咎于存储,因为磁盘驱动器往往是瓶颈中最慢的部分。”

“事实是,EMC公司并不想将[存储和数据库优化软件]业务拱手让给Oracle等厂商。现在有了Greenplum,他们非常适合于x86环境,并且能够很好地在共享存储资源之间分布工作负载。”

Babineau表示,只针对x86开放系统的Greenplum正好符合了EMC的“大数据”全盘计划。“另一方面,EMC已经在后端部署了大量数据仓库系统。

Greenplum不仅成功地挑战了Oracle、Teradata和Netezza等老牌厂商,而且自创建以来已经顺利地运营了7年时间。

EMC信息基础架构产品总裁兼首席运营官Pat Gelsinger表示:“数据仓库世界即将发生改变。Greenplum的大规模并行、横向扩展型架构以及自助服务消费模式让他们能够从老牌厂商中脱颖而出,走在该行业的前端并向‘大数据’分析方向大步迈进。”

Hollis表示,EMC看到了这次收购Greenplum公司所带来的存储市场发展机会。

“汇总到一起就是:大数据、数十亿份记录、让实时分析成为一种武器的新要求、全面虚拟化环境的出现、自助服务分析以及那些知识型工作者,等等。”

“这并不是新瓶装旧酒。这是一个针对大数据的全新使用实例。我们将把赌注押在未来,而不是沉湎于过去。”

长期以来良好的开发协同关系

Greenplum共同创始人、公司总裁Greenplum表示,过去两年多时间两家公司一直在各种部署项目中保持着合作,最终形成了一个良好的协同关系。

Yara表示:“双方在多方面都有着一致的见解:我们如何看待数据的重要性、将处理流程迁移到更接近数据所在为止的想法、虚拟化和私有云将在数据分析中发挥的作用等。”

“当时的想法是,我们应该联合起来。不管这会很快发生,还是自己继续前进发展,我们都作出了这一决定。”

Greenplum在旧金山湾地区的员工大约有140人。

Hollis表示:“我们相信,Greenplum就成为EMC新产品群组的核心。正如并购Data Domain(2009年)和RSA(2006年)时专门创建了全新产品部门一样,我们也将让Greenplum的领导团队为我们做相同的事情。”

Babineau表示,2010年将是在数据仓库领域取得突破的一年。

Babineau表示:“这是一个非常有趣的领域,其中的两大厂商,Teradata和Netezza在连续12个月内的收入大约是20亿美元,Teradata大约是17亿美元,Netezza大约是2.03亿美元。”

他说:“现在已经有很多钱投入到了这个领域中,EMC希望在这方面下一些工夫。”