云分层和对象存储,以平衡备份成本和速度
如何兼得两全:云存储价格低廉,数据检索时间短。确保首先拥有正确的体系结构。
为何不享受云技术在备份/还原,灾难恢复和长期保留方面的优势?云已经无处不在,其可访问性和成本结构非常灵活。随着公司转向对象存储以获取不断增长的数据量,这些数据可能永远不会更改或只能很少访问,因此云分层变得越来越流行。
但是,组织不能仅仅通过将其数据推送到Amazon S3或Azure块Blob中来获得这些优势。当他们考虑并实施架构更改以充分支持其优势时,他们将充分利用云存储。对技术和部署的仔细考虑将使他们避免犯下代价高昂的错误,例如将重复的数据发送到云中以及将低优先级的数据存储在昂贵的层中。
本文着重于通过将数据存储在云中的不同层或云层中来保护数据。它检查与备份数据的云分层相关的成本,收益和风险。有了正确的架构,组织可以依靠云分层来降低数据保护的成本,并使备份管理员的工作更加轻松。
对象存储,云层,Capex和Opex
随着数据的爆炸性增长和要保护的新型数据,备份数据的对象存储对企业越来越有吸引力。对象存储是备份数据的理想选择,因为它可以无限扩展,极具成本效益,几乎可以在任何地方工作并且不受特定大小或格式的限制。
云分层利用了云中对象存储的优势。Amazon Simple Storage Service(Amazon S3)和Azure块Blob是云分层解决方案旨在提供的云存储目标的示例,它们提供了巨大的规模并支持大量的非结构化数据。
由于云提供商以非常低的成本提供存储,因此智能组织已将云作为其存储策略的一部分。图1描述了企业备份存储层次结构的示例。
表1包含存储层次结构中不同层的详细信息。使用云层存储进行备份(表1的最后两行)的一项引人注目的功能是其成本模型。
即使在磁带上,用于在本地或远程将数据存储的基础架构也需要资本支出(CapEx)以及长期购买和拥有权。除了硬件,软件和设施,维护周期还包括每隔几年刷新一次数据。这就需要回读所有数据,更换介质,将数据重写到新介质上,更换驱动器并付钱以完成工作。
另一方面,在云中存储和维护数据涉及每月的OpEx,这更易于控制。如果一家公司要面对100,000美元的CapEx来建设其数据中心以长期备份数据存储的需求,那么他们很可能更愿意每月花1,000美元在OpEx上以达到类似的容量,而无需拥有基础设施。
OpEx和云定价使组织可以随着存储需求的增长和收缩而增加或减少支出。
云层的成本优势
那么,如果成本模型如此青睐它,为什么不将所有备份数据存储在云中呢?
首先,有交易成本。尽管在云中存储数据每GB的成本更低,但请求(读取,写入,列表,复制等)数据的每GB成本却更高。因此,将最新备份作为对象存储在云中几乎没有意义,因为可能有人会想要检索其中的数据。再次触摸物体的成本将抵消任何节省。
将云存储用于备份数据时,一个重要因素是对RTO的期望。如表1所示,检索时间可以根据层而有所不同。该表最后一行中的“云–存档和深度存档”存储层是指实际上已精细存储的数据,并具有相当大的延迟-到第一个字节的时间或TtFB-使数据可以再次访问。虽然费用根据层级而有所不同,但在最初请求检索后的数小时甚至数天之内,数据可能仍保持良好状态。这可能与对RTO的期望相抵触。
组织经常忽略的另一个重要因素是,将备份数据移入或移出云时,网络成本的增加。要维护到云的WAN链接并经常将其用于云分层,通常需要额外的带宽。这些增加的成本未包括在云提供商的数据传输费用中。
我们的目标是两全其美:运营成本成本模型的低开销和低价格,以及CapEx模型的TtFB短。
正确的云存储帐户类型将解决这两个问题。
冷热库?还是存档和深度存档?
管理员如何平衡低存储成本和短TtFB?考虑这种典型的存储方案,将它们与表1中的层进行映射。1
.首先,组织将其最近30天的备份数据存储在本地,因为最热,最紧急和最可能的数据恢复将在该时间范围内进行。 。它需要能够非常快速地恢复最新数据,以避免任何业务影响。
2.接下来,将保留90天的数据复制到远程站点存储中。数据仍在手边,但总体还原要比本地层慢一些。这也支持为灾难恢复创建异地备份数据的辅助副本的最佳实践。
3.然后,组织需要将数据保留几年以备审核。它需要检索数据的可能性较低,并且可以忍受较慢的还原。因此,它将数据作为冷热对象存储在云中。
4.最后,它在档案库和深度档案库中存储长期需要的数据,通常是为了符合政府或监管机构的要求。恢复的频率要少得多,紧急程度也要少得多,因此数据存储在最便宜,最慢的位置。
云分层的费用是多少?
表2总结了不同云层和存储服务的代表性成本。请注意,存档(Azure)和深度存档(Amazon)云层每千兆字节存储的成本较低,但每笔事务的成本更高,且TtFB更长。
使用更便宜,更慢的产品时,管理员必须请求还原整个对象,然后等待很长时间才能访问它。这进而需要备份/还原应用程序中的接口来请求所需的数据,以及在数据可访问时通知应用程序的回调。
用于云分层的技术越好,就有更多的选择来实现两全其美:更低的每月成本和更快的存储。但是,这些优势并非来自简单地走对象存储路线并将所有备份任务转移到云中。与大多数事物一样,必须重新审视和优化IT体系结构。
从安全性入手。
体系结构–安全性和云分层
对象存储的执行没有策略,用户帐户和访问特权的开销。这意味着企业在锁定对象时不能依靠通常的安全结构。云分层需要不同的防火墙和不同的访问模式,以及相关的学习曲线。
仅仅假设对象存储的安全性较差
缺乏对基于对象的存储安全性的熟悉可能会导致数据泄露。许多高性能数据泄露是由于将对象写入云存储(如Amazon S3存储桶或Azure Blob存储)而没有首先适当保护对象的结果。习惯于基础架构即服务(IaaS)实践的用户和管理员可以通过认为云安全性以传统的本地安全性工作的方式轻松犯错。
如何安全地将数据发送到对象存储?
当云提供商拥有基础架构时,就无法知道谁都可以访问网络,数据中心中允许谁以及是否强制执行安全策略。因此,对于安全的对象存储,智能组织在发送数据之前先对其数据进行加密,并且它们使用自己的加密密钥而不是IaaS提供程序的密钥。
将数据安全地发送到云的应用程序具有几个加密特征。它们提供了符合FIPS 140-2的行业标准的256位AES算法,用于加密和解密用户数据。他们使用零知识加密来允许对加密密钥进行本地控制,而不是使用云提供商的密钥。它们包括不断变化的旋转式加密密钥,可进一步减少发生批量数据泄露的可能性。
这些特性至少代表了与大多数本地基础结构相同的安全性和流程级别,在某些情况下,则代表更高的级别。
技术架构–重复数据删除减少了前往云的数据量
除了为安全性进行架构更改外,IT团队还可以
通过重新考虑存储本身背后的架构来解决价格较低和TtFB较短之间的折衷。
表1和表2的结果是,要迁移到云中的数据越少,存储和传输数据的总成本就越低。
为了减少离开本地基础架构的备份数据量,可用于企业的主要技术是重复数据删除(重复数据删除)和压缩。
重复数据删除使用算法扫描数据并删除已存储的所有元素,并用指向相似的备份数据的指针替换它们。
具体来说,将源端重复数据删除与压缩相结合是减少要存储的数据之前最有效的方法。这可以大大加快数据移动速度并提高吞吐量。
实际上,将压缩和重复数据删除与热云层或冷云层结合使用可以提供两全其美的优势:更低的价格和更短的TtFB。
体系结构–寻找正确的云层技术
在数据离开本地基础架构之前,减少存储数据量的因素有哪些?
带宽
如上所述,一些公司预计需要更高容量的WAN链接并增加网络成本。但是由于源端重复数据删除备份和云层仅是增量,因此这些公司可以看到所需带宽和存储空间最多减少了80%。这样就无需长期升级WAN链接容量。
(注意:在源端不进行重复数据删除涉及发送要备份的数据的完整副本。这会消耗目标服务器上的网络带宽和存储空间。)
可变长度滑动窗口重复数据删除
可变长度滑动窗口重复数据删除是数据缩减的黄金标准。包含它的应用程序可以将数据存储到云中,然后将其存储在云中,然后再将其有效地带回站点,从而将每月的存储成本降低了95%。
本地存储
在源端进行重复数据删除的应用程序也可以利用现场容量来实现相同的RPO,而无需增加WAN链接容量。他们可以加快从云中检索数据的速度,提供对数据的实时访问,并且在许多情况下,只需几分钟而不是几天就可以恢复数据。
透明操作
在透明操作中,无论数据存储在本地设备还是云中,应用程序读写数据的方式都可以消除复杂性。实际上,它通过透明地备份和恢复数据将本地存储扩展到云中,而无需继续进行任何操作或干预。为了还原数据,它使管理员不必弄清对象的存储位置,然后等待直到可以再次访问其数据。
云层备份–一个示例
考虑一个组织,该组织决定将数据本地存储30天,然后将其备份到在线云层。
专为云层数据而设计的透明应用程序不需要特殊配置,而应替代较旧且可能成本很高的方法,例如磁带备份以及异地存储和处理。
生产数据中心
管理员只需在备份应用程序中设置一个策略,即可在30天后自动对数据进行重复数据删除,压缩,加密并将其发送到可用的云层。
由于数据在发送到云之前已进行压缩和重复数据删除,因此与使用Amazon Glacier和Azure存档等更便宜,更慢的云存储相比,成本可以更低。但是,这种温暖的在线云层使所有备份数据易于访问。
然后,在还原时,透明的应用程序不需要手动干预。更重要的是,管理员无需查找文件或备份映像,甚至无需知道数据当前存储在何处。他们在所需文件上启动还原过程,然后应用程序执行查找和还原数据的工作。检索速度更快,因为重复数据删除与本地数据对象匹配,然后再从云存储中调用数据。而且,它更便宜,因为读取云数据的交易成本较低。该应用程序重新组装文件并还原它们。
图2描述了使用Quest QoreStor进行云层备份的典型配置,其中具有重复数据删除和压缩功能以减少通过WAN链接发送的数据量。
结论–要问的问题
对于某些企业和管理员,云分层是磁带备份的诱人选择:更新的技术,更少的开销,更低的存储成本和更少的故障点。但是在简单地将所有备份和归档从磁带发送到云之前,管理员应根据以下战略问题考虑其体系结构:
•我每月必须存储多少数据?
•我必须多久检索和处理一次数据?
•在将数据发送到云之前,应将其保留在现场多长时间?
•万一发生灾难,我应该保留该数据的2个副本吗?
•用户期望哪些RPO和RTO进行还原作业?我必须多快能够检索和恢复数据?
•当我有多个还原作业排队时,我可以高效地利用时间吗?还是我必须照顾每个工作并等待它完成?
•如果所有数据移动都是通过策略自动化的,那么我可以提高多少效率?
•如果我的所有备份数据(无论多旧)都可以立即访问,我的工作会轻松得多吗?
在线云层技术与正确的备份应用程序,压缩,源端重复数据删除和加密相结合,为透明,经济高效的数据保护策略提供了最佳选择。它使用低成本的云对象存储来从最新备份和长期归档中高效恢复数据。
通过更改体系结构以利用对象存储的优势,异地发送数据是完全自动化的,并且检索是透明的。公司可以降低数据保护成本,并释放备份管理员的时间和资源来执行更高价值的任务。透明的云层解决方案减少了所有的工作量,成本,时间和风险。
本文作者迈克·威尔逊,Quest软件公司,原文地址:https://www.storagenewsletter.com/2020/03/13/cloud-tiering-and-object-storage-for-backup-2/