截至 2023 年第二季度末,Backblaze 监控了全球数据中心的 245,757 个硬盘和 SSD。其中,4,460个是启动驱动器,其中3,144个是SSD,1,316个是HDD。SSD 的故障率在 2022 年SSD驱动器统计信息中进行了分析。
今天,我们将重点介绍管理的 241,297 个数据驱动器,同时回顾截至 2023 年第 2 季度末的季度和生命周期故障率。在此过程中,我们将分享我们对所提供数据的观察和见解,告诉您我们现在包含的一些其他数据字段等等。
2023 年第 2 季度硬盘故障率
截至 2023 年第二季度末,我们管理 241,297 个用于存储数据的硬盘。为了进行审查,我们从考虑中删除了 357 个驱动器,因为它们用于测试目的或没有至少 60 个驱动器的驱动器型号。这使我们获得了240,940个硬盘驱动器,分为31种不同的型号。下表回顾了这些驱动器型号在 2023 年第二季度的年化故障率 (AFR)。
关于 2023 年第二季度驱动器统计数据的说明和观察
- 零故障:如下表所示,2023 年第二季度有六种驱动器型号的零故障。
该表按每个模型在本季度累积的驾驶天数排序。通常,驾驶模型在该季度中应至少有 50,000 个驾驶日才能具有统计相关性。前三个驱动器都符合该标准,考虑到三个驱动器的生命周期 AFR 范围为 0.13% 到 0.45%,因此在一个季度内出现零故障也就不足为奇了。垫底的三个硬盘在本季度都没有累积 50,000 个硬盘日,但两个希捷硬盘有一个良好的开端。而且,看到4TB东芝(型号:MD04ABA400V)总是很高兴,具有八年以上的服务,本季度零故障。
- 最古老的驱动器?平均使用年限最长的硬盘型号仍然是 6TB 希捷(型号:ST6000DX000),时长为 98.3 个月(8.2 年),该组中最老的硬盘为 104 个月(8.7 年)。
机群中最古老的运行数据硬盘是 4TB 希捷(型号:ST4000DM000),时长为 105.2 个月(8.8 年)。这非常令人印象深刻,尤其是在数据中心环境中,但我们机群中最古老的运行驱动器的赢家实际上是引导驱动器:WDC 500GB 驱动器(型号:WD5000BPKT),具有 122 个月(10.2 年)的连续服务。 - 上调:2023 年第二季度的 AFR 为 2.28%,高于 2023 年第一季度的 1.54%。虽然季度AFR数据可能不稳定,但它们也可用于识别需要进一步调查的趋势。在这种情况下,随着我们机队年龄的不断增加,预计会上升。但这才是真正的原因吗?
深入研究,我们从按驱动器大小分组的驱动器的年化故障率和平均使用年限开始,如下表所示。
出于我们的目的,我们将在驱动器使用五年或更长时间时将其定义为旧驱动器。为什么?这是我们今天购买的驱动器的保修期。当然,4TB 和 6TB 驱动器以及一些 8TB 驱动器仅提供两年保修,但为了保持一致性,我们将坚持使用五年作为我们将驱动器标记为“旧”的时间点。
使用我们对旧驱动器的定义可以消除 12TB、14TB 和 16TB 驱动器。这为我们留下了以下图表,列出了过去三年中每个旧驱动器组(4TB、6TB、8TB 和 10TB 型号)的季度 AFR。
有趣的是,最古老的驱动器,4TB和6TB驱动器,拥有自己的驱动器。是的,在过去一年左右的时间里有所增加,但考虑到他们的年龄,他们做得很好。
另一方面,8TB 和 10TB 驱动器平均服务年限分别为 5 年和 6 年,需要进一步关注。我们将在本报告的后面查看生命周期数据,看看我们的结论是否合理。
云端硬盘统计信息数据中有哪些新增功能?
在过去的 10 年里,我们一直在捕获和存储云端硬盘统计信息数据,自 2015 年以来,我们开源了用于创建云端硬盘统计信息报告的数据文件。当我们安装报告新的 SMART 属性集的新驱动器模型时,新的 SMART 属性对会不时添加到架构中。本季度,我们决定捕获并存储一些有关驱动器及其运行环境的其他数据字段,并已将它们添加到每个季度发布的公开可用的驱动器统计信息文件中。
新数据字段
从 2023 年第二季度的云端硬盘统计信息数据开始,每条云端硬盘记录中填充了三个新数据字段。
- Vault_id:所有数据驱动器都是 Backblaze Vault 的成员。每个保管库由 900 或 1,200 个硬盘驱动器组成,平均分布在 20 个存储服务器上。保管库是从 1,000 开始的数值。
- Pod_id:每个 Backblaze Vault 中有 20 个存储服务器。Pod_id是一个数值字段,其值从 0 到 19 分配给 20 个存储服务器之一。
- Is_legacy_format:目前为 0,但随着更多字段的添加,在未来几个季度将很有用。
新架构如下所示:
- 日期
- serial_number
- 型
- capacity_bytes
- 失败
- vault_id
- pod_id
- is_legacy_format
- smart_1_normalized
- smart_1_raw
- 剩余的 SMART 值对(由每个驱动器型号报告)
有时,我们的读者会问我们是否有任何其他信息可以提供关于驱动器居住的地方,更重要的是,它在哪里死亡。上面新添加的数据字段是我们每天收集的内部云端硬盘数据的一部分,但并未包含在我们用于创建云端硬盘统计信息报告的云端硬盘统计信息数据中。在我们基础架构软件团队的 David 的帮助下,这些字段现在将在云端硬盘统计信息数据中提供。
如何使用保管库和 Pod 信息?
首先需要注意的是:我们正好有一个季度的新数据。虽然创建图表和表格很诱人,但我们希望看到几个季度的数据以更好地理解它。在今年晚些时候进行初步分析。
也就是说,这些数据提供给我们的是每个驱动器的存储服务器和保险库。逆向工作,我们应该能够提出这样的问题:“某些存储服务器是否更容易出现驱动器故障?”或者“某些驱动器型号在某些存储服务器中工作得更好还是更差?”此外,我们希望将存储服务器类型和数据中心等数据元素添加到组合中,以便为我们的多 EB 云存储平台提供更多见解。
多年来,我们在内部利用云端硬盘统计信息数据来提高运营效率和耐用性。通过云端硬盘统计信息报告和数据下载向所有人提供这些新的数据元素是正确的做法。
镇上有一个新的驱动器
如果您决定下载我们 2023 年第二季度的云端硬盘统计信息数据,那么里面会有一个惊喜——全新的云端硬盘型号。这些驱动器只有四个,因此很容易错过,并且它们未列在我们发布的任何表格和图表中,因为它们目前被视为“测试”驱动器。但是,如果您正在查看数据,请搜索型号“WDC WUH722222ALE6L4”,您会发现我们新安装的 22TB WDC 驱动器。他们在第二季度末进行了测试,并在我们说话时正在经历他们的步伐。敬请关注。(Psst,截至 7 月 28 日,没有一个失败。
终身硬盘故障率
截至 2023 年 6 月 30 日,我们跟踪了用于存储客户数据的 241,297 个硬盘。对于我们的生命周期分析,我们删除了 357 个驱动器,这些驱动器仅用于测试目的,或者在完整数据集中没有至少 60 个驱动器。这给我们留下了 240,940 个硬盘驱动器,分为 31 种不同的型号,以分析下面的生命周期表。
关于生命周期统计信息的说明和观察
终身AFR也会上升。上面列出的所有驱动器的生命周期年化故障率为 1.45%。这比上一季度的1.40%增长了0.05%。在本报告的前面,通过检查 2023 年第二季度的数据,我们确定了 8TB 和 10TB 驱动器是增长率上升的主要嫌疑人。让我们看看我们是否可以通过检查按大小分组的不同驱动器的生命周期 AFR 速率的变化来确认这一点。
红线是我们的基线,因为它是所有驱动器的生命周期 AFR 从 Q1 到 Q2 (0.05%) 的差异。高于红线的驱动器支持增加,低于红线的驱动器从增加中减去。“驱动”生命周期年化故障率增加的主驱动器(按大小)是 8TB 和 10TB 驱动器。这证实了我们之前发现的情况。鉴于 10TB 驱动器 (1,124) 与 8TB 驱动器 (24,891) 相对较少,让我们深入了解 8TB 驱动器型号。
所有 8TB 驱动器的生命周期 AFR 从第 1 季度的 1.42% 跃升至第 2 季度的 1.59%。增长12%。有六种 8TB 驱动器型号正在运行,但其中三种型号占 8TB 驱动器队列驱动器故障的 99.5%,因此我们将重点介绍它们。下面列出了它们。
对于所有三种型号,从第 1 季度到第 2 季度的生命周期年化故障率增加 10% 或更多,这在统计上类似于所有 8TB 驱动器型号的 12% 增长。如果必须选择一种驱动器型号来重点进行迁移,则三种驱动器中的任何一种都是不错的候选项。但是,希捷硬盘型号 ST8000DM002 平均比其他相关硬盘型号大近一年。
- 上表分析了 2013 年 4 月 20 日至 2023 年 6 月 30 日期间的数据,即 10 年 2 个月零 10 天的数据。如前所述,我们拥有的最古老的驱动器是 10 年零 2 个月,或花一两天。似乎我们需要更改表标题,但还没有。在 2013 年第 2 季度任何时候安装并且今天仍在运行的驱动器将报告驱动器天数作为该型号生命周期数据的一部分。一旦 2013 年第 2 季度安装的所有驱动器都消失了,我们就可以相应地更改表格和图表上的开始日期。
关于驱动器故障的一句话
我们是否担心驱动器故障率的增加?当然,我们希望看到它们降低,但云存储业务不可避免的现实是驱动器出现故障。多年来,我们看到了不同制造商、驱动器型号和驱动器尺寸的各种故障率。如果你没有为此做好准备,你就会失败。作为准备工作的一部分,我们使用驾驶统计数据作为了解环境的众多输入之一,以便我们可以根据需要进行调整。
原文:https://www.backblaze.com/blog/backblaze-drive-stats-for-q2-2023/