上篇介绍了3种重复数据删除技术之块级去重原理,本文介绍字节级的去重。
从字节级别上分析数据流是重复数据删除的另外一种方法。
它通常能“识别内容”, 其基本原理是对记录的数据格式进行比对。在备份数据时,该技术会读取数据并从中提 取出每组备份集以及备份集中数据对象的元数据,存入到内嵌文件系统的数据库内。当 有新的数据进入时则对新的元数据与数据库中的元数据进行版本比对。如果发现相同的 元数据,接下来会对数据对象进行逐字节的比较,从而发现发生变化的数据,即使它们 的元数据是形同的。如果数据对象确实是重复的,则删除该数据对象并代之以相应的指 针。这种算法的优势在于可以避免哈希冲突,并可以利用元数据之间的联系更快的查找 重复数据。其实现逻辑结构图如 下: