重复数据删除(Data deduplication)无疑是存储行业近年来最热门的技术,甚至有分析师认为重复数据删除是“10年来最重要的存储技术创新”。重复数据删除之所以在短时间内窜红,主要原因在于其诉求点非常简单---消除传统备份技术衍生出的重复存储数据问题,进而为企业节省成本,而这些诉求又恰巧符合了现今IT行业大力提倡的节能环保理念。
然而,今日的企业面临的数据保护问题相当复杂,备份数据重复储存的问题仅仅是冰山一角,但是,重复数据删除在某些厂商的华丽包装下,成了解决所有数据保护问题的“万能药”,导致用户对重复数据删除产品过多的期望,在对技术本身了解不够、欠缺全盘考虑的情况下便贸然部署了重复数据删除方案,结果却往往不如预期,甚至付出比省下的磁盘还要高的成本,因小失大、得不偿失。
用户在选择具备重复数据删除技术的产品时,如何针对真正需求理性做出判断,而不被销售广告和专业术语所迷惑呢?不妨参考以下几项建议:
切勿掉入重复删除比率的迷局
几乎所有重复数据删除产品厂商都会强调自己可以达到多高的重复数据删除比率,有些甚至宣称可以达到500:1这样不可思议的数据。事实上,重复数据删除比率完全取决于数据的类型和备份策略,跟技术本身的关联并不大。因此,比较不同产品之间的重复数据删除比率其实是没有意义的,更不能借些来判别产品的优劣。
重复数据删除不能影响性能
对于采用资源端重复数据删除技术的解决方案,必须在生产服务器上安装代理程序来执行重复数据删除,无可避免的给生产服务器造成了相当大的性能负担。任何改变传统的数据保护方式,都必须建立在不影响系统运行的前提下才能被接受,换句话说,服务器的性能绝不能受到数据保护方案的牵制(无论是应用服务器还是,因此在这个前提下,目标端重复数据删除技术才是最理想的选择。
在线处理不见得比后处理好
重复数据删除技术依据数据处理方式的不同,分成备份与重复数据删除同时执行的在线处理(Inline),以及备份完成后执行重复数据删除的后处理(Post processing)两种。无论采用哪种数据处理方式,绝大多数重复数据删除技术都是基于业界标准的哈希算法(Hash),仅有少数采用自主开发的专利技术,其运行方式也都大同小异。
另外,两者的差异在于,在线处理运用了大量的内存作为数据写入硬盘前的缓存空间,后处理则是先将备份数据写入硬盘后,再进行分析比对,然后删除重复数据。
重复数据删除不局限单一应用
目前市场中具备重复数据删除功能的解决方案,在架构和技术上或有不同,但应用范围几乎全都集中在数据备份领域,换而言之,这些产品本身不是备份软件就是必须搭配备份软件才能使用的硬设备。然而企业内部存在重复冗余数据的岂止只在备份?散落在各个部门的文件服务器内的非结构性数据(其中以Office文件居多),在经年累月不断增加之下已经累积了相当多的重复数据,在企业不具备完善的数据分级存储与归档机制的情况下,管理员面对文件服务器数据量不断增长的问题,也只能消极的以扩展硬盘空间的方式应对。
换个角度想,如果文件服务器能够利用重复数据删除技术,理论上就可以有效的抑制这个问题,可惜的是大多数的重复数据删除方案受限于技术和性能,功能 上只能局限在备份应用。
兼具远程复制与全局重复数据删除能力
除了节省存储空间外,重复数据删除技术与远程复制相结合,则可以消除通过网络执行远程备份时,一再传送重复数据而造成的带宽浪费的问题,进而达到广域网优化的功效。对于许多有分公司、远程办公室或分支机构的企业来说,还能建立多网站远程集中备份,可兼具节省带宽和存储空间的双重效果。