对于IT主管来说,为大数据构建一个同时具有高可扩展性和成本效益的存储基础架构是非常关键的,也是必要的。日前,Garter对目前市场主流的九大存储供应商所推出的9款横向扩展文件系统产品进行了对比评测分析,并指出了各自的有点和需改进的地方,以供用户在采购时进行对比参考,以下为报告主要内容(注:本译文部分有删减):
海量非结构化数据的存储和分析日趋重要,已经上升到战略高度,这使得在IT基础设施规划中,横向扩展存储架构将成为最突出的问题。横向扩展存储产品往往能够实现接近线性的缩放,并通过并发来提供高性能。大多数横向扩展存储供应商倾向于采用X86标准化硬件,从而降低硬件的采购成本,并在软件层嵌入存储信息。横向扩展存储供应商的主要目标市场一般都是学术机构或特定行业的HPC环境,例如基因组测序、金融建模、三维动画、气象预报和地震分析等。因此,产品的主要关注点在于其可扩展性、原始计算能力和聚合带宽,数据保护、安全和效率则是次要考虑因素。但是,企业对于容量空间、存储效率以及非结构化数据保护方面的需求越来越强烈,迫使供应商提供更好的安全性、可管理性、数据保护以及ISV互操作性来满足客户的需求。虽然大多数产品用作通用存储阵列的情况还很少,但向这方面发展的趋势将会越来越明显。
IT组织必须要制定严格的规划流程来全面评估产品的关键能力以选择合适横向扩展存储供应商。厂商需要针对特定使用情况继续优化其产品,尽管在本研究报告中,这些领先供应商兼顾到了其产品在企业环境中使用可能出现的各种情况。但是,横向扩展存储的意识和全局命名空间在企业IT环境中并不常见,所以培训支出应该是预算分配的重要组成部分。
本研究的目的在于比较三种常见的用例——商业HPC、大的主目录以及备份和归档,并在9个关键能力方面进行考量。
非结构化数据的增长趋势明显已经超过了结构化数据。企业和服务提供商所要求的高可扩展性和弹性存储基础设施必须在合理的成本之内,才能解决大数据的挑战,并构建云计算基础。横向扩展存储正迅速成为一种可行的替代方案,以满足各种企业使用情况,因为其允许企业在现有存储之上按需增加容量和性能。Garter认为,在不久的将来,无情的成本压力——由于非结构化数据的爆炸增长,需要提供差异话的服务以提供更好的功能和更专业的支持——将推动市场对横向扩展文件系统存储的需求。
本报告对目前领先的横向扩展文件系统存储产品进行了研究,在企业可能的使用情况下评估其效益。
产品类别定义
横向扩展磁盘存储系统都通过模块或节点连接在一起并组成一个系统。“横向扩展”在严格意义上并不是指一个集群文件系统,它可以横跨多个节点而组成一个单一命名空间。并且,这还包括一个松散集群聚集而成的一个全局命名空间。根据系统设计,系统中可能有一种或多种节点类型,例如访问节点和存储节点。这种模块化设计可使用户有一个较低的初始成本,其系统也能够随时间不断扩展,另一方面,也可以不再将关注重点放在系统生命周期之上。
横向扩展存储架构具备以下特点:
容量、性能、吞吐量和端口数与系统中节点数成正比。
可扩展性往往受存储硬件和网络体系架构的束缚,而不是由软件设计决定。
关键功能定义
横向扩展文件系统存储需要多方面的能力。其必须是可扩展的,但也必须着眼于成本、聚合带宽、每秒的输入/输出操作(IOPS)、存储效率、数据保护、兼容性、易管理性和耐用性,尤其是大规模情况下。本研究探讨了企业在部署大规模文件存储架构时应当考虑的9个关键能力,企业可以通过这些实现目标来评估横向扩展文件系统存储平台的所有功能领域:
Capacity(容量):这是指平台支持容量以近线性方式增长的能力。检查文件系统在理论上和实际情况下扩容能力的限制,如最大容量、文件数量以及每文件系统、卷或命名空间所支持的节点数量和磁盘驱动器数量。
Efficiency(效率):这是指该平台支持的存储技术方面的能力,如压缩、重复数据删除、自动精简配置、自动分层存储以降低总体拥有成本等方面的技术。
Interoperability(互操作性):这是指该平台支持第三方ISV应用程序、公共云计算API和多厂商虚机管理程序方面的能力。
Manageability(可管理性):这是指该平台所支持的自动化、管理、监测和报告工具以及应用程序方面的能力。
Performance(性能):这是指集群所能提供的最大聚合IOPS和带宽,并观察实际配置所取得的数值。
Resiliency(弹性):这是指该平台配置一个高层级高可用系统正常运行所提供的选项和功能。提供的选项可能包括磁盘同时发生故障和/或节点发生故障后的高耐受性、故障隔离技术、内置的防止数据损坏的保护技术以及其他技术(如快照和复制),以满足客户的恢复点目标(RPO)和恢复时间目标(RTO)。
Applicability for Infrequently Accessed Data(不经常访问数据的适用性):这是基于重要的长期归档和备份功能,或者产品往往用于备份和归档。这有助于突出文件系统存储在不同使用情况下的设计差异。
Applicability for Production Data(生产数据适用性):这是基于频繁访问的生产数据,或者产品广泛用于存储生产数据。这有助于突出文件系统存储在不同使用情况下的设计差异。
实际使用案例
本报告评估横向扩展文件系统存储供应商在三种不同使用情况下的性能表现(见表1):
Commercial HPC(商业化HPC):用最大规模的横向扩展文件系统存储产品来解决最苛刻的使用环境。商业HPC环境的特点是需要高吞吐量和并行读写来访问大量的数据。在产品选择方面,性能、容量、生产数据适用性、灵活性和可管理性是最重要的考虑因素,并需要高权重。
Large Home Directories(大型主目录):这是典型的网络附加存储(NAS)使用案例,但规模更大。IT专业人士如果渴望整合文件服务器或NAS文件服务器的扩张,应考虑使用横向扩展文件系统存储产品,其可以提供财政简便性和近乎线性的可扩展性。在文件服务器蔓延的坏境中,可通过消除物理间隔、通过全局命名空间使客户机映射到服务器等手段使其成为一个理想的工作负载平台,例如自动分层存储和用户透明的数据迁移等。弹性、存储效率、生产数据适用性和可管理学是重要考虑因素,必须加大权重。
Backup and Archiving(备份和归档):文件系统存储已经被用来作为以年为目标的备份/归档;横向扩展文件系统为大的备份和归档数据集提供额外的基于磁盘备份和归档的可扩展性,以满足不断增长的需求。为备份目标内置存储效率技术是尤为重要的,这些功能包括集成的存储分层和一写多读(WORM,见注1)等,这可提高将横向扩展文件系统作为归档的吸引力,并提高归档的简易性、可负担性和数据一致性。不经常访问数据的适用性、容量、存储效率和弹性是重要考量因素,需要提高权重。
表1:在实际使用中各种关键能力的比重
入选标准
本次研究报告中所涉及的产品为目前市场上较为主流的可扩展文件系统存储产品,Panasas和Intel(Lustre)的产品并不在此列,因为这两家厂商只专注于HPC环境。
在存储系统中,文件系统的可扩展性定义为:
每文件系统最小为100TB;
每命名空间最小为1PB,可跨越两个或以上的节点。
其他产品纳入标准:
至少10个客户的生产系统是基于该平台部署而成,存储容量在300TB以上;
在集群模式下,必须支持驱动器容量和吞吐量的水平扩展,或在一个全局命名空间内增加独立节点;
产品必须在这三种情况下都有成功案例;
供应商必须提供一个或多个用户参考;
该产品必须安装在至少全球两大地区。
关键能力评级
每个满足入选标准的产品或服务都对几个关键能力进行评估(见表2和图1),其数值在1.0(最低)到5.0(最高)之间。
表2:产品关键能力评估表
资料来源:Garter(2013年1月)
图1:每个供应商产品的整体分数为每个关键能力的未加权分数
要确定每个产品在实际使用情况下的总得分,可以将表2中的评分乘以表1中的权重,得到如表3所示的分数。
表3:实际使用情况下的整体得分
资料来源:Gartner(2013年1月)
产品可行性的不同是由于每个产品的关键能力得分。这是我们对供应商的战略评估,以及供应商的增强能力和贯穿整个生命周期的预期产品的评估,而不是对供应商的整体的评估。这需要考虑四个主要领域:战略、支持、执行和投资。战略包括供应商战略的某一个特定产品适用于其他产品线、市场方向和整体业务;支持包括技术和账户支持质量,以及客户的产品使用经验;执行要考虑供应商的销售、营销、定价和交易管理的架构和流程;投资要考虑供应商的财务状况,以及业务负责主管对产品继续投资的可能性。每个产品按照上述5个评分被分为四个等级,并得出产品的整体可行性评价。
表4:为产品的可行性评估
所有实际情况使用的加权得分显示组成部分的整体得分
图2:实际使用案例的整体得分
图3:商业HPC的实际使用情况得分
图4:大型主目录实际使用情况得分
图5:备份归档实际使用情况得分
九大供应商产品优缺点点评
Dell Fluid File System(FS)
Dell Fluid FS是戴尔2009年年底收购Exanet技术而来。Fluid FS后端支持不同的戴尔存储阵列,包括PowerVault、EqualLogic和Compellent。许多功能评分,如容量、性能和可靠性等,取决于Fluid FS后端的存储阵列。其中PowerVault解决方案在实际使用情况下是面向低成本的备份和归档,而Compellent解决方案则属于高性能部署。 Fluid FS在高可用基础上有一个横向扩展架构,条带化的元数据和数据散布在集群中所有节点上为性能提供了保障。目前其部署的最大生产容量已经超过1PB。与同行业相比,Dell Fluid FS通常起始部署规模较小,因为戴尔在小型和中型企业市场所占据的主导地位。Fluid FS并不支持重复数据删除/压缩,多租户管理或WORM(一写多读),只支持Network File System(NFS)v.3和Server Message Block(SMB)v.1 NAS协议。
EMC Isilon
EMC于2010年年底收购Isilon系统公司。从那时起,EMC就使得Isilon业务不断增长,从2亿美元增至5亿美元,据Garter估计,并突破了Isilon的传统业务领域,如媒体/娱乐和生命科学等,进入到企业级数据中心,以应对新的挑战,如大型主目录和VMware虚拟服务器。 EMC Isilon的NL系列实际上已经越来越多地用于备份和归档。Isilon是基于full-stack管理卷的横向扩展架构文件系统,并提供了内置的数据保护,高达四个节点的奇偶校验以容忍集群内多个节点故障。Isilon最新的OS操作系统(OneFS v.7.0)与2012年11月推出,增加了很多企业所关注的功能,如文件级写克隆、身份验证区域、用于阵列集成的VMware vStorage API(VAAI)和对VMware vStorage API的存储感知(VASA)支持,以及增强的WORM功能。但是这些新功能必须在现场实现。在产品评估时,Isilon在容量、性能、可管理性和灵活性方面都遥遥领先。但是其在效率方面仍相对滞后,因为其缺乏重复数据删除和压缩,尤其是在特别重要备份的使用情况下。
Hitachi Data Systems(HDS)Hitachi NAS(HNAS)Platform
经过长期的OEM合作关系(从2006年开始),HDS在2011年第三季度收购了BlueArc,以利用磁盘存储日益增长的非结构化数据。 Hitachi NAS (HNAS)平台主要定位于业务关键型企业应用和如生命科学、媒体和娱乐等垂直行业,提供一个可扩展的高性能存储阵列。HNAS通过使用硬件加速来提高并行输入/输出(I/O),并将于近期推出性能加速器软件、可选的许可证密钥功能,以提高其整体性能。HNAS命名空间最多可跨越8个节点,并具备有竞争力的分层存储功能。通过使用企业虚拟服务器(EVS),其可以提供一个弹性和安全的环境,最大限度地提高可用性。通过与日立内容平台(Hitachi对象存储)和本地WORM功能的整合,扩大了HNAS的实际使用场景,其中涵盖了归档环境。但是,相对于一些竞争对手的横向扩展文件系统,HNAS仍有一些小的瑕疵,例如缺乏重复数据删除和压缩方面的功能。重复数据删除技术预计将会在2013年第一季度推出。
HP StoreAll Storage
在2009年惠普收购了Ibrix,并与ProLiant服务器上的并行文件系统重新打包形成了X9000系列横向扩展存储系统,以面向高吞吐量的环境,如高性能计算(HPC)和基于Web的归档等市场。2012年12月,惠普推出了新的平台——HP StoreAll存储,其充分利用了Ibrix的横向扩展引擎和一些新的特性,如StoreAll快速查询,可非常快速地进行海量内容搜索。惠普还将快速查询与HP Autonomy Intelligent Data Operating Layer(IDOL)相集成以接近实时地对大数据进行查询。HP StoreAll在单一命名空间内支持高达16PB的容量和超过1024个节点。自动化、基于策略的数据分层已是标准功能,与之集成的HP Systems Insight Manager(SIM)and Storage Essentials等工具让管理变得更加容易。StoreAll系列具备本地WORM功能和广泛的ISV支持,在PB级归档市场,其是已经成为一个非常有吸引力的产品。惠普还在一个统一的定价机制了打包了所有的硬件和软件。StoreAll系列产品依靠后端存储阵列所具备的自动精简配置具有较好的效率,但缺乏重复数据删除和压缩等功能。惠普用于备份并内嵌重复数据删除技术的产品名为StoreOnce,其也是利用Ibrix的横向扩展技术,但本报告并没有评估此备份设备。
IBM Scale Out Network Attached Storage(SONAS)
IBM在2010年初推出了其基于通用并行文件系统(GPFS)的SONAS,迄今为止,在某些特定市场大获成功。GPFS主要面向HPC研究环境,为大型Linux计算集群提供高度并行的存储吞吐量。SONAS是一个交钥匙的软件和硬件解决方案,在更为广泛的市场上超越了HPC。IBM利用 XIV存储阵列里高度可视化的图形用户界面(GUI)改善了SONAS的可管理性。因为其高容量的可扩展性和高吞吐性能,在本报告中,其获得高度评价。其同样也提供了一些独特的功能,如在一个跨地域的命名空间内提供全局协作,并在同一个命名空间内支持磁带层。但是,其存储效率和弹性取决于其后端的不同存储阵列,并缺乏重复数据删除和压缩技术。
NetApp Clustered Data Ontap
本次报告只评估了NetApp Clustered Data Ontap v.8.x,其增加了一个全局命名空间、负载均衡功能和联邦管理、非聚簇文件系统等流行功能集。驱动用户采用Clustered Data Ontap的原因主要是更新由于中断的故障迁移来进行新的部署或结束。NetApp Clustered Data Ontap最多可支持12个成对的故障转移节点,最大可扩展到50PB。其可使用户在不同配对节点之间进行透明迁移以实现负载均衡,在大的环境下其具有高可用性,并简化了管理的复杂性。NetApp在整合Windows文件服务器主目录方面一直占据了市场领先地位,Clustered Data Ontap还提供对Common Internet File System(CIFS)的支持,使其成为一个更具扩展性的环境。在本报告的关键能力评估中,Clustered Data Ontap在存储效率、灵活性、性能和安全性,以及互操作性方面都获得了高度评价。最新的Data Ontap, v.8.1.1版本与2012年6月推出,引入了一项称之为无限卷的新功能,在单一空间内提供高达20PB的存储容量,可管理多大2亿个文件。但是,无限卷目前仅支持NFS v.3版本,重复数据删除触发的FlexVol等级比无限卷水平要小得多。Clustered Data Ontap在重要的备份和归档方面目前不支持一些非集群的标准功能,例如SnapVault和WORM,与NetApp非聚簇存储相比,增加了管理的复杂性。
Nexenta NexentaStor
本研究只评估了NexentaStor产品命名空间的集群插件软件。Nexenta公司成立于2004年,在2008年推出了开源产品,NexentaStor是基于开源项目illumos而来。Illumos最初由Sun Microsystems开发,后续合并到OpenSolaris,包括ZFS。为了弥补没有自带的并行文件系统,NexentaStor开发了一个命名空间集群外挂软件选项,使其具备水平缩放和全局命名空间功能。NexentaStor的商业部署超过4000家,其中只有少数用户使用全局命名空间集群插件。该产品提供了统一的块和文件存储,并支持无限快照、同步复制、自动精简配置和虚拟机集成(VMware、思杰和微软),使得NexentaStor在企业级IT市场很有吸引力。但是Nexenta相对滞后的是其可管理性和安全性。其公司的基础设施支持需要改善,以满足用户不断扩大的全局需求。
Quantum StorNext
Quantum是一个IT认识所熟知的磁带机磁带库数据保护和管理产品制造商。2006年,昆腾收购了Advanced Digital Information,并通过此次收购获得了StorNext,一个共享SAN文件系统产品。多年来,昆腾不断增强StorNext以使其有能力处理更大的数据集和IP网络为中心的工作负载,并嵌入了更加灵活的自动化存储分层技术。该产品主要针对高性能的富媒体流,跨操作系统的文件共享和长期归档行业,如生命科学、能源、媒体和娱乐,以及政府等。2012年8月,昆腾推出了v.4.3产品,具有增强的MySQL数据库,以处理数十亿的文件和PB级存储。 StorNext可作为一个纯软件解决方案,与元数据控制器、NAS网关和归档存储设备等专用硬件一起工作。该产品紧密集成了磁带和昆腾的对象存储,并利用基于策略的分层技术,可降低总体拥有成本。但StorNext缺乏精简配置和快照等技术,如果要更加通用,并扩大该产品对数据中心的吸引力,昆腾必须要超越小众垂直行业,并扩大其ISV合作伙伴。
Red Hat Storage Server
在2011年第四季度,红帽收购了专注于横向扩展存储的开源私人持有初创公司Gluster。红帽重新启动了GlusterFS作为Red Hat Storage Server,预先集成的软件包括Red Hat Enterprise Linux (RHEL)、GlusterFS和可扩展文件系统(extensible file system XFS)。Red Hat Storage Server可以运行在绝大多数的符合行业标准的X86服务器、以太网和InfiniBand,并支持裸机硬件,或公共云的Amazon Machine Image。Red Hat Storage Server在软件层支持统一的文件和对象存储,但仍然是一个需要不断完善的产品。企业IT用户需要注意其数据保护功能,如快照尚未提供,并且管理、报告和日志记录等功能需要进一步改善。但是,红帽的收购使得Gluster团队拥有更广泛的开源社区和工程师人才。红帽已经公布了未来12个月到18个月具体的产品路线图。