/ 中存储网

Backblaze 2022年第二季度硬盘故障率追踪报告

2022-08-28 13:22:03 来源:中存储

Backblaze  2022年第二季度硬盘故障率追踪报告

截至 2022 年第二季度末,Backblaze 正在监控其全球数据中心的 219,444 个硬盘驱动器和 SSD。 其中,4,020 个是引导驱动器,2,558 个是 SSD,1,462 个是 HDD。 本季度重点关注正在管理的 215,424 个数据驱动器,将审查它们截至 2022 年第二季度末的季度和生命周期故障率。在此过程中,将分享Backblaze 对所提供数据的观察和见解。

终身硬盘故障率

在这份报告中,Backblaze 将稍作改动,从终生故障率开始。我们稍后将在本文中介绍第二季度的数据。 截至 2022 年 6 月 30 日,Backblaze 正在监控 215,424 个用于存储数据的硬盘驱动器。 在评估中,我们从考虑中删除了 413 个驱动器,因为它们用于测试目的或驱动器模型没有至少 60 个驱动器。 这给我们留下了 215,011 个硬盘驱动器,它们分为 27 种不同的型号来分析生命周期报告。

Backblaze  2022年第二季度硬盘故障率追踪报告

关于生命周期统计的注释和观察

上面列出的所有驱动器的生命周期年化故障率为 1.39%。 这与上一季度相同,低于一年前(2021 年 6 月 30 日)的 1.45%。

快速浏览年化故障率 (AFR) 列可以确定故障率最高的三个驱动器:

  • 8TB HGST(型号:HUH728080ALE604)为 6.26%。
  • 希捷 14TB(型号:ST14000NM0138)为 4.86%。
  • 东芝 16TB(型号:MG08ACA16TA 为 3.57%。

这三个模型有什么共同点? 在我们的案例中,运行天数的样本量太小,在这三种情况下,导致低置信区间值和高置信区间值之间的范围很大。 差距越大,我们最初对 AFR 的信心就越低。

在上表中,为了完整起见,我们列出了所有模型,但这确实使图表更加复杂。 我们喜欢让事情变得简单,所以让我们删除那些置信区间很宽的驱动器模型,并且只包括通常可用的驱动器模型。 我们将参数设置如下:95% 置信区间差距为 0.5% 或更小,最小驱动天数为 100 万,以确保我们有足够大的样本量,以及驱动模型大小为 8TB 或更大。 简化图表如下。

Backblaze  2022年第二季度硬盘故障率追踪报告

总而言之,在我们的环境中,我们有 95% 的把握为每个驱动器型号列出的 AFR 介于低置信区间值和高置信区间值之间。

计算年化故障率

我们在Drive Stats 报告中使用术语年化故障率 (AFR) 。让我们花一点时间来解释一下我们如何计算 AFR 值以及为什么我们这样做。 给定一组驱动器的公式是:

AFR = ( drive_failures / ( drive_days / 365 )) * 100

让我们定义使用的术语:

  • 驱动器群组: 在给定时间段(季度、年度、生命周期)内选定的驱动器集(通常按型号)。
  • AFR: 年度故障率,适用于选定的驱动器群组。
  • drive_failures: 所选驱动器群组的故障驱动器数量。
  • drive_days: 选定群组中所有驱动器在群组定义的时间段(即季度、年度、生命周期)内可运行的天数。

例如,对于上表中的 16TB 希捷硬盘,我们计算出在这组特定硬盘的生命周期内有 117 次硬盘故障和 4,117,553 天硬盘。 AFR 计算如下:

AFR = ( 117 / ( 4,117,553 / 365 )) * 100 = 1.04%

为什么我们不使用驱动器计数?

在驱动器进入和离开系统时,我们的环境非常动态; 一个 12TB HGST 驱动器出现故障并被 12TB 希捷取代,添加了一个新的 Backblaze Vault 并添加了 1,200 个新的 14TB 东芝驱动器,一个 4TB 驱动器的 Backblaze Vault 被淘汰,等等。 使用驱动器计数是有问题的,因为它假设在观察期间队列中的驱动器数量稳定。 是的,我们承认,只要有足够的数学知识,你就可以完成这项工作,但我们不会回到大学,而是保持简单并使用驾驶天数,因为它考虑了观察期间驾驶次数的潜在变化以及每个人的分配驱动器的贡献相应。

为了完整起见,让我们使用基于驱动器计数的公式计算 16TB 希捷驱动器的 AFR,假设有 16,860 个驱动器和 117 个故障。

驱动器计数 AFR = ( 117 / 16,860 ) * 100 = 0.69%

虽然驱动器计数 AFR 低得多,但假设所有 16,860 个驱动器在整个观察期(生命周期)都存在是错误的。 在上个季度,我们增加了 3,601 个新驱动器,在去年,我们增加了 12,003 个新驱动器。 然而,所有这些都被视为在第一天安装。 换句话说,在我们的案例中使用驱动器计数 AFR 会歪曲我们环境中的驱动器故障率。

我们如何确定驱动器故障

今天,我们将驱动器故障分为两类:反应式和主动式。 反应性故障是驱动器发生故障并且无法或无法与我们的系统通信的地方。 主动故障是基于驱动器报告的错误即将发生的故障,这些错误通过检查驱动器的 SMART 统计信息来确认。 在这种情况下,驱动器会在完全失败之前被移除。

在过去几年中,数据科学家使用我们收集的 SMART 统计数据来查看他们是否可以使用各种统计方法以及最近的人工智能和机器学习技术来预测驱动器故障。在我们扩展存储平台时,准确预测驱动器故障且误报率最低的能力将优化我们的运营能力。

智能统计

SMART 代表自我监控、分析和报告技术,是一种包含在硬盘驱动器中的监控系统,用于报告给定驱动器状态的各种属性。 每天,Backblaze 都会记录并存储我们数据中心的硬盘报告的 SMART 统计数据。 查看这篇文章,了解更多关于 SMART 统计信息以及我们如何使用它们的信息。

2022 年第二季度硬盘故障率

对于 2022 年第二季度的季度报告,我们仅使用第二季度的数据跟踪了 215,011 个硬盘驱动器,按驱动器型号分为 27 个不同的群组。 下表列出了每种驱动器型号的数据。

Backblaze  2022年第二季度硬盘故障率追踪报告

对 2022 年第二季度统计数据的注释和观察

突发新闻,OG 跌跌撞撞:  6TB 希捷硬盘(型号:ST6000DX000)在本季度终于出现了故障——实际上是两次故障。 鉴于这是我们车队中最古老的驱动器型号,平均使用年限为 86.7 个月,预计会出现一两次故障。 尽管如此,这是自去年第三季度以来该驱动模型的第一次失败。 在未来的某个时候,我们可以预期这些驱动器将被淘汰,但它们的使用寿命 AFR 仅为 0.87%,它们并不是第一个。

下一个 OG 的另一个零: 我们系列中下一个最老的驱动器组,4TB 东芝驱动器(型号:MD04ABA400V)在 85.3 个月时,第二季度的故障为零。 最后一次失败是在一年前的 2021 年第二季度记录的。他们的生命周期 AFR 仅为 0.79%,尽管他们的生命周期置信区间差距为 1.3%,正如我们所见,这意味着我们缺乏足够的数据来对 AFR 数字真正有信心.  尽管如此,如果每年失败一次,它们可以再持续 97 年——可能不会。

第二季度更多零: 本季度其他三个驱动器的故障为零:8TB HGST(型号:HUH728080ALE604)、14TB 东芝(型号:MG07ACA14TEY)和 16TB 东芝(型号:MG08ACA16TA)。 与上面提到的 4TB 东芝一样,这些驱动器的置信区间差距非常大,这是由有限数量的数据点驱动的。 例如,在所有这些驱动器型号中,16TB 的东芝拥有最多的驱动器天数 - 32,064。 我们需要在一个季度中至少有 500,000 个驾驶日才能达到 95% 的置信区间。 尽管如此,这些驱动器中的任何一个或所有驱动器都完全有可能在未来几个季度继续发布大量数据,我们只是还没有 95% 的信心。

运行在烟雾中:  4TB 希捷硬盘(型号:ST4000DM000)开始显示它们的年龄,平均为 80.3 个月。 他们的季度失败率在过去四个季度中的每一个季度都上升到本季度的 3.42%。 作为数据持久性计划的一部分,我们已经为这些驱动器部署了驱动器克隆程序,在接下来的几个月中,这些驱动器将被循环淘汰。他们为我们提供了很好的服务,但经过近七年的不断旋转,他们似乎感到疲倦。

AFR 再次增加: 在第二季度,所有驱动器型号的 AFR 增加至 1.46%。 这比 2022 年第一季度的 1.22% 和一年前的 2021 年第二季度的 1.01% 有所上升。老化的 4TB 希捷硬盘是增长的一部分,但东芝和 HGST 硬盘的故障率也有所增加。年。 这似乎与整个驱动器组的老化有关,我们预计随着旧驱动器在明年退役,这个数字会下降。

四千台存储服务器

在开头段落中,我们注意到有 4,020 个引导驱动器。 可能不明显的是,这相当于 4,020 台存储服务器。 这些是 4U 服务器,每个服务器有 45 或 60 个驱动器,驱动器大小从 4TB 到 16TB。 最小的是 180TB 的原始存储空间(45 * 4TB 驱动器),最大的是 960TB 的原始存储空间(60 * 16TB 驱动器)。 这些服务器是 Backblaze Storage Pod 和第三方存储服务器的混合体。 距离我们上次更新 Storage Pod 已经有一段时间了,所以在第三季度末或第四季度初寻找一些东西。

原文地址:https://www.backblaze.com/blog/backblaze-drive-stats-for-q2-2022