重复数据删除技术是目前存储行业中最热门的技术之一,用户和厂商们都很看好这 种技术。
近年来国外一些知名的存储企业都已经在推出把重复数据删除技术应用到各自 的存储备份技术和容灾系统产品中的设计方案。
2007年5月17日,领先业界的网络存储解决方案提供商 Network Appliance推出了突 破业界传统的重复数据删除产品,该产品适用于 NetApp NearStore® 和 FAS 存储系统 的 NetApp® A-SIS (Advanced-Single Instance Storage)——先进的单一实例存储。
凭 借 NetApp 存储,重复数据删除已是 Data ONTAP 运行环境中不可或缺的一部分,贯 穿整个产品系列。随着 NetApp 硬件平台一直在不断发展。NetApp WAFL 技术的独特 功能确实简化了重复数据删除的实施,它可以删除任何存储数据(而不仅是备份数据) 中的重复数据。NetApp免费将重复数据删除技术整合进其Data ONTAP运行系统,因此 重复数据删除技术可在公司的任何平台(例如,FAS, V-Series, VTL等)上运行。
其 次,通过采用V系列虚拟网关,NetApp可对其竞争对手(包括EMC,惠普,日立和IBM 的磁盘阵列)的磁盘阵列进行重复数据删除。NetApp能精简虚拟服务器环境中第三方 磁盘35%的容量。
EMC 于2006年年底买下重复数据删除技术厂商 Avamar,除了推出 Avamar 备份软 件外,新版的备份软件 NetWork 7.4.1和归档软件 DiskXtender for NAS V3.1也整合了重复数据删除技术。EMC 的归档产品包括归档软件 EmailXtender、动态归档系统 Centera, 而这些软件早已内建了单一实例(Single Instance)储存技术,相较于既有的单一实例 储存技术,它是在档案层级进行去重复化,Avamar 更延伸至子档案(sub-file)级,因 此压缩效果更好。
备份软件 Network 7.4.1除了支持重复数据删除技术外,也可与自家的 连续数据保护(Continuous Data Protection,CDP)产品 RecoverPoint 整合。可透过 Networker 直接将经由 CDP 备份后的数据输出至磁带上,另外,Netwoerker 中也会备份 一份 CDP 的索引(index)。
EMC 新版备份分析与报告软件 Backup Advisor V3.0则是支 持更多其他厂商的备份软件,如 IBM TSM、HP DataProtector。新款的虚拟磁带柜 DL4106/DL4206/ DL4406则首度支持了 RAID 6,因此即使两颗硬盘同时发生故障,也 能回复数据,让数据保护技术再提升,另外它也支持1TB SATA 硬盘和提供硬件压缩功 能。
在现有研究成果基础上推出来的容灾系统、重复数据删除技术存在许多不足,主要 问题包括:
1、数据损坏的风险大:
在重复数据删除技术上,有的厂商在开发硬件,有的厂商 在开发软件,还有的厂商同时开发相关的软件和硬件。但存在这样一个问题:如果重复 数据删除的硬件或者软件损坏了,则有可能会失去所有的数据。
2、数据完整性弱:
在重复数据删除算法中,两个不同的数据块也可能具有相同的 指纹或哈希值,这种可能性虽然很低,但却是存在的。我们称之为“哈希冲突”,这将导 致唯一的数据块被意外删除。
3、成本高:
由于企业数据的迅速增长,需要更多的存储容量来备份数据,同时迅 速增长的数据也对容灾系统的传输带宽、复制时间、能耗带来了非常大的考验。这就大 大提高了容灾系统的对存储、传输、能耗需求成本。
4、通用性差:
目前不同磁盘阵列厂商生产的产品互不兼容,基于磁盘阵列的远程 复制一般只能在同一厂家的同一类型的磁盘阵列间进行。同时各厂商生产自己的重复数 据删除产品,也只能运用于自己的存储产品上。不同厂商生产的重复数据删除产品与存 储产品互不兼容,这使应用重复数据删除技术对企业现有备份环境造成影响。
5、性能较低:
从性能的角度看,重复数据删除软件占用CPU和内存比较大,于是 提出单台重复数据删除服务器、设备的解决方案。一些企业考虑用两台或多台设备完成 这一工作,但由于每台设备都保留了它自己的Hash索引,设备根本不能鉴别出重复的数 据是否已经由另一台设备进行了备份。这种方法不仅会影响到重复数据删除的比率,还 会增加维护的工作量。在这种情况下,重复数据删除反而会造成容灾备份的瓶颈。