/ 中存储网

EMC更新Isilon 数据湖单集群容量达50PB

2015-03-20 17:45:46 来源:中存储

中存储网消息,3月19日,EMC宣布新产品和解决方案,支持数据湖基础。数据湖基础是支撑业务数据湖解决方案的存储基础设施。业务数据湖将数据、应用和分析整合到一起,同时,在任何需要的地方提供分析能力。(什么是数据湖?

当EMC和客户交谈时,持续听到的是前所未有的数据增长,以及管理存储孤岛的挑战。去年,EMC分享了数据湖基础策略,并且已经提供像EMC Isilon和EMC ECS(弹性云存储)这样的产品,帮助客户消除存储竖井,为存储和管理数据提供更简便的方式。这样,客户就可以将更多精力投入到从数据中获取洞察和价值这件事上。

以下是数据湖基础可以为企业带来的好处:

· 高效的存储:消除存储竖井,简化管理,提高利用率

· 强大的可扩展性:基于可大规模扩展的scale-out架构构建,易于管理

· 更高的操作灵活性:多协议和下一代访问能力支持传统和新兴应用

· 企业属性:通过高效和弹性的备份、灾难恢复、安全选项保护数据

· 就地进行的大数据分析:利用共享存储并支持像HDFS这样的协议,就地进行划算的分析,并更快形成结果。

新平台

2014年,EMC发布Isilon S210平台,将世界纪录的性能数字加倍。现在,EMC发布全新的Isilon HD400平台,容量增加2.5倍,允许客户将其数据湖基础史无前例地扩展至单集群50PB容量。该平台对那些需要一个强大、可扩展、可存储2PB至50PB数据的高容量平台的客户而言,是理想的选择。这种容量能力适用于深度归档、灾难恢复,以及构建一个高容量的数据湖基础。而且,HD400极致的密度(3.2PB/rack)可有效减少包括电、制冷、数据中心空间等在内的运营费用达50%。

新软件和能力

除了全新的阵列,EMC还发布了帮助客户从数据湖的数据中获取丰富洞察的新功能。全新的OneFS7.2操作系统将支持较新的、更多当前的Hadoop协议,包括HDFS2.3和HDFS2.4,更快地提供洞察。

EMC还宣布提供面向OpenStack Swift的支持,同时支持文件和对象,后者是增长速度最快的非结构化数据类型。

新解决方案

从数据湖基础的数据中实现价值的关键是利用EMC ISV伙伴提供的丰富的分析工具,例如Cloudera和Pivotal。这些合作伙伴的应用是经验证的,可运行在Isilon数据湖基础上。今天,EMC宣布与业界另一个企业Hadoop领导厂商——Hortonworks达成认证。这一认证标志着EMC Isilon OneFS系统可在最复杂的Hadoop测试套件中运行,是Isilon面向Hadoop环境系列成就的顶点。EMC还将继续与其他几个分析生态系统的伙伴紧密合作,为客户提供丰富的数据湖解决方案。

“通过经Hortonworks数据平台认证的EMC Isilon,组织现在可以利用其共享存储能力,运行全新的分析负载,从现有数据中获得更多价值。通过与Apache Amabari的工程和集成,客户现在可以部署分层,加快获得洞察,同时在Isilon上使用最彻底的经验证的Hadoop分发版。”

——Hortonworks业务开发副总裁 Mitch Ferguson

关于数据湖data lake:

什么是数据湖:

截至目前Pivotal和EMC对数据湖这一概念的推广是最用力的,但这一概念最早应该是在2011年由CITO Research网站的CTO和作家Dan Woods提出。简单来说,数据湖是一个信息系统,并且符合下面两个特征:

1.     一个可以存储大数据的并行系统

2.     可以在不需要另外移动数据的情况下进行数据计算

      目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。但未来总会有新的技术出现,因此我们要区分出Hadoop和数据湖的不同点。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。

数据湖应用:

Pivotal大数据套件是目前较为完整的数据湖解决方案。它以基于Hadoop的Pivotal HD架构为基础,整合了内存数据库网格软件GemFire XD,具有实时处理HDFS中数据的能力。

GemFire通过平台虚拟化技术,将若干x86服务器的内存集中起来,组成最高可达数十TB的内存资源池,将全部数据加载到内存中,进行内存计算。计算过程本身不需要读写磁盘,只是定期将数据同步或异步方式写到磁盘。GemFire在分布式集群中保存了多份数据,任何一台机器故障,其它机器上还有备份数据,不用担心数据丢失,而且有磁盘数据作为备份。