初创公司Datos IO就像是备份界的特斯拉,针对分布式应用重新设计了数据保护,并专注于高端客户,解决特定其他人无法解决的问题。
2016年6月发布之后的6个月中,Datos IO的RecoverX分布式数据库备份产品已经获得10家付费客户。该软件采用语意的重复数据删除功能作为其秘密武器之一,这就是为什么今天我们要来看一看这家公司的原因。
RecoverX备份运行在本地或者运行在AWS、Google或者其他云中的非关系型数据库。RecoverX 1.5版本支持Google Compute Engine以及Google Cloud Storage。它帮助Google Cloud Platform用户保护他们托管在非关系型数据库(NoSQL、图形等)的下一代应用,这些数据库部署在IaaS和PaaS环境中。
这10家客户来自于金融服务、零售、电子商务、媒体和娱乐、医疗和物联网。Ayla Networks是Datos IO的物联网客户,Datos IO主要是备份这家公司的AWS云基础设施和非关系型数据库。Ayla因为成本和无法扩展的问题认为基于脚本的备份不适合自己之后,决定购买RecoverX软件。
Datos IO的零售客户是一家财富100强的大型家庭装修零售企业,他们将现有的电子商务应用从本地数据中心迁移到Google Cloud Platform公有云上,以满足法规遵从标准并提高运营效率。
Cassandra DBA Ishinder Singh的推特上询问Home Depot是否是Datos IO的客户,另外一家客户是梭子鱼(Barracuda Networks)。
Datos IO表示:“RecoverX是基于Consistent Orchestrated Distributed Recovery (CODR),这个下一代横向扩展数据保护架构是基于可以自动扩展的弹性计算服务,避免了对媒体服务器的依赖,并将数据并行地发送到基于文件的或者基于对象的二级存储,或者从二级存储中迁移出来。CODR让RecoverX能够提供可扩展的版本控制,这样企业就可以以任何间隔或者颗粒度保护和备份他们的数据,从而实现操作恢复和测试/设备使用实例中一键点击、协调的、无需修复的恢复,此外行业首推的语意重复数据删除功能让客户可以节约高达70%的二级存储成本。”
那么什么是语意重复数据删除?Datos IO的网页上有一份可下载的PDF,是由包括Datos IO共同创始人、首席执行官Tarun Thakur,以及首席技术官Prasenjit Sarkar在内的多名作者撰写的研究论文。该论文谈到了下一代最终一致存储系统(NECST,例如像Cassandra和MongoDB这样的非关系型数据库)备份和恢复的问题,并建议“对保存在系统中的数据具有深度语意方面的了解是一种解决方案”。
这篇论文中写道,“这种现代化的系统是如何不再将数据保存在单一设备的磁盘(或者SSD)上,而是把数据以复制的方式分布于多台设备上;复制是以最终一致性的方式进行的……正如我们所说,核心问题很简单:工具和系统还无法实现对这些复杂的、多样化的、分布式的NECST系统下的数据具有有效的、一致的逻辑视图。”
然后他们说:
我们相信成功的关键是对保存在这些新型存储系统中的数据具有深度语意的了解。只有通过监控和检查I/O传输和重构其含义(例如是否达到定量,或者动地如何复制特定的数据条目)关键NECST管理功能才能得到有效地、可扩展地发挥其作用。
因此,语意重复数据删除的第一个特点就是,它是应用感知的,应用就是非关系型数据库。
语意了解的特点,或者数据库操作结构理解,包括:
仲裁协调——传统存储相对比较容易知道什么时候进行更新,与传统存储不同,了解什么时候应该对存储系统进行升级的这个简单任务却是存在诸多挑战的。NECST系统要求那些想要了解其中保存了什么内容的工具和系统要知道数据是如何以及何时安全地在系统中进行了复制。通过全面了解NECST复制协议,备份工具可以决定升级的顺序,从而形成一致的存储视图。
冗余拷贝检测——传统条带或者镜像系统中的冗余性是很容易观察到的,与之不同,NECST系统能够以不同数位的方式对数据拷贝进行编码。因此,NECST备份或者归档系统必须能够仔细梳理NECST系统,以确定逻辑上相同的拷贝在哪里,这样才能将其合并,从而实现存储高效的备份。
配置忽略的备份和恢复——分布式系统会频繁更改配置,纵向扩展以满足新的要求,或者在发生故障、系统掉线的情况下出现问题。NECST工具必须能够保存数据,然后重建数据,尽管事实是配置已经更改了。
Datos IO的CODR软件“对数据库进行全面快照;在这之后,CODR追踪数据库的变更,生成这些变更的增量版本,有一个版本是对横向扩展分布式数据库的集群一致快照”,我们得知:
完整快照和增量快照是并行传输到一个备份存储系统中的,这个系统可以是小规模部署中心的单一节点,或者是更大规模部署的一个集群。在备份库CODR必须处理本地快照集以发现一个版本。CODR通过运行集成仲裁和语意重复数据删除算法来做到这一点,最终结果是数据的单一拷贝,节省了空间。这意味着CODR中必须有算法是专门针对单独数据库产品的,不能简单地说一个新数据库产品是不具备语意(操作结构)知识的。
CODR部署示意图
在这里有几个视频,你可以了解关于Datos IO CODR是如何工作的。
RecoverX的年度订购许可是基于物理数据库大小容量层($/TB)。在6个月内只获得了10家客户意味着定价并不便宜,这些客户在切换到Datos IO之前他们可能已经被自己的备份和恢复操作搞的焦头烂额了。
为什么我们在文章一开始的时候说Datos IO是备份界的特斯拉呢?如果把Veeam、Veritas和Dell EMC比作是备份界的福特、通用和克莱斯勒,那么我们认为Datos IO就像是特斯拉,以他们自己的方式重新定义了人们的备份方式,专注于一种精心设计的、高端产品来打造他们的业务。
我们相信未来它会扩大在数据库方面的覆盖面,可能会在市场中遇到Veeam和Veritas的竞争,对于备份界来说这将是一个有趣的时刻。