Backblaze公司发布了第一个 SSD 版本的 Backblaze Drive Stats 报告。此版本专门关注 SSD,而不是以往的的季度和年度 HDD Drive Stats报告。该公司希望每年发布两次 SSD 版本硬盘报告,同时将继续按季度发布 HDD Drive Stats 报告。
背景
本报告中的 SSD 都是我们存储服务器中的引导驱动器。在我们早期的存储服务器中,我们专门将 HDD 用于引导驱动器。我们在 2018 年第四季度开始使用这种容量的 SSD。从那时起,所有新的存储服务器和任何有故障的 HDD 引导驱动器都安装了 SSD。我们环境中的引导驱动器不仅仅引导存储服务器,它们还存储存储服务器生成的日志文件和临时文件。每天,引导驱动器都会根据存储服务器本身的活动来读取、写入和删除文件。
概述
截至 2021 年 12 月 31 日,我们使用了 2,200 个 SSD。当我们在下面分享各种表格和图表时,一些数字,尤其是年化故障率 (AFR) 会让知情的读者感到非常惊讶。例如,43.22% 的 AFR 可能会引起您的注意。我们将继续解释这些异常值。大多数是由于驱动器的新颖性,但我们会通知您。
与 HDD 报告一样,我们发布了用于开发 SSD 报告的数据。事实上,我们一直发布这些数据,因为它与 HDD 数据位于相同的文件中。现在是坏消息:数据目前不包括驱动器类型、SDD 或 HDD,因此您必须按型号进行研究。对不起。您可以在我们的Drive Stats 测试数据网页上找到下载数据文件的链接。如果您只是在寻找 SSD 数据,请从 2018 年第四季度开始并继续前进。
如果您不熟悉我们的 Drive Stats 报告,您可能想知道我们为什么要收集和分享这些信息。首先是我们有大量可用的数据存储,迄今为止超过 2 EB,供使用 Backblaze B2 云存储和 Backblaze 计算机备份服务的客户使用。为此,我们需要深入了解我们的环境,其中一个方面是驱动器(HDD 和 SSD)发生故障的频率。从大约七年前开始,我们决定分享我们学到的知识,并对以前不透明的硬盘故障率世界有所了解。很自然,我们会像 SSD 一样透明。继续阅读。
2019 年、2020 年和 2021 年的年度 SSD 故障率
到 2021 年底,我们的存储服务器中有 2,200 个 SSD,从 2018 年第三季度的零增长。我们将从查看过去三年的 AFR 开始,然后深入研究 2021 年的故障率,最后,采取查看自 2019 年以来的每月 AFR 费率。我们将在进行中进行解释。
下图显示了 2019 年、2020 年和 2021 年的故障率。
观察和评论
- 每年(2019 年、2020 年和 2021 年)的数据包括当年发生的活动。
- 2021 年的故障率呈上升趋势。当我们在上一篇文章中比较我们的 HDD 和 SSD 引导驱动器时,我们看到了这一点。当我们在这篇博文后面看到逐季度图表时,这种趋势本身就会更加清晰。
- 两款硬盘的故障率令人瞠目结舌——Crucial 型号:CT250MX500SSD1 和 Seagate 型号:ZA2000CM10002。在这两种情况下,驱动天数和驱动计数(未显示)都非常低。Crucial 仅在 2021 年 12 月安装了 20 个驱动器。Seagate 仅在 2021 年初安装了 4 个驱动器,其中一个发生故障。在这两种情况下,AFR 都基于非常少的数据,这导致了非常宽置信区间,我们将在下一节中看到。为了完整起见,我们将这些驱动器包括在内。
- 一个驱动器日表示一个驱动器运行一天。因此,2021 年运行的一个驱动器将有 365 个驱动器日。如果驱动器在 200 天后出现故障,它将有 200 个驱动器日并被标记为出现故障。对于指定时间段内的给定驱动器群组,我们按如下方式计算 AFR:
AFR = (驱动器故障数 / (驱动器天数 / 365)) * 100
这提供了任何时间段内的年化故障率 (AFR)。
2021年度SSD故障率
让我们深入研究 2021 年并添加更多细节。下表是上一张图表的 2021 年度部分的扩展版本。
从表中可以清楚地看出,具有两位数 AFR 的 Crucial 和 Seagate 硬盘需要更多数据才能对它们在我们环境中的可靠性做出任何判断。每个驱动器的极宽置信区间证明了这一点。一个可观的置信区间小于 1.0%,0.6% 或更低对我们来说是最佳的。只有希捷型号:ZA250CM10002 符合 1.0% 的标准,尽管希捷型号:ZA250CM10003 非常接近。
显然,建立足够的数据以确信相关驱动器的性能达到预期水平需要时间。在我们的案例中,我们预计 AFR 为 1% 至 2%。少即是好,多则值得关注。我们“观察”的方式之一是跟踪季度业绩,我们将在接下来进行探讨。
随时间变化的季度 SSD 故障率
我们可以通过两种不同的方式查看季度数据: 在离散的时间段内,例如一个季度或一年;或在一段时间内累积,例如,自 2018 年以来的所有数据。按季度划分的数据可能不稳定或尖峰,但对变化反应迅速。累积数据显示了长期趋势,但对快速变化的反应较小。
下面是我们的 SSD 从 2019 年第一季度开始的季度数据和季度累积数据图表。首先我们将比较所有 SSD,然后我们将深入研究一些感兴趣的单个驱动器。
累积曲线轻松地低于我们关注的 2% AFR 阈值。如果我们只关注季度数字,我们可能会认为使用 SSD 作为引导驱动器存在问题,因为在多个季度中 AFR 处于或接近 3%。也就是说,数据越多越好,随着 SSD 的老化,我们希望更加警惕,看看它们能持续多久。我们有大量关于 HDD 主题的数据,但我们仍在学习 SDD。
考虑到这一点,让我们看一下三个较旧的 SSD,看看此时是否有什么有趣的地方。
观察和评论
- 2021 年全年,所有三个驱动器的累积 AFR 率均低于 1%。
- 相比之下,截至 2021 年第四季度,所有 SSD 驱动器的累积 AFR 为 1.07%(来自上一张图表)。
- 扩大比较范围,我们的硬盘驱动器的累积(使用寿命)AFR 为 1.40%,如我们的2021 Drive Stats 报告中所述。但是,正如我们在比较 HDD 和 SSD时所指出的那样,这两组(SSD 和 HDD)在其生命周期中并不处于同一时间点。正如承诺的那样,我们将在未来几个月继续研究这种二分法。
- 红线表示的型号(ZA250CM10002)似乎遵循经典的浴缸故障曲线,在稳定到低于 1% 的 AFR 之前经历了早期故障。另一方面,其他两个驱动器没有显示早期驱动器故障的迹象,只是最近才开始出现故障。这种类型的故障模式类似于我们的 HDD 所展示的,不再适合浴缸曲线模型。
实验和试驾
如果您决定下载数据并四处寻找,您会看到一些与 SSD 型号相关的异常情况。在您开始四处寻找之前,我们想对这些异常值有所了解。我们已经介绍了 AFR 数据高于预期的 Crucial 英睿达和希捷硬盘,但还有其他两种 SSD 型号没有出现在本报告中,但确实出现在数据中。这些是三星 850 EVO 1TB 和 HP SSD S700 250GB。
为什么他们没有出现在这份报告中?与我们对 HDD 的驱动器统计数据审查一样,我们删除了用于测试目的的驱动器。以下是详细信息:
- 三星 SSD 是第一款作为引导驱动器安装的 SSD。安装了 10 个驱动器来测试 SSD 如何用作引导驱动器。竖起大拇指!我们事先计划在其他服务器中安装这 10 个驱动器,大约两周后,三星驱动器被替换为其他 SSD 并按其原始用途进行??部署。他们的开创性工作被记录在 Drive Stats 数据中以供后代使用。
- HP SSD 是我们内部数据迁移平台测试的一部分,即将数据从较小的驱动器移动到较大的驱动器。这些驱动器出现在 2021 年第三季度和第四季度的数据中。在第三季度或第四季度与这些驱动器相关的任何数据都不是基于在我们的生产环境中使用这些驱动器。
下一步是什么
我们承认 2,200 个 SSD 是用于执行我们分析的驱动器数量相对较少,虽然这个数字确实导致比预期的置信区间更宽,但我们必须从某个地方开始。当然,我们将继续向研究组添加 SSD 引导驱动器,这将提高所提供数据的保真度。此外,我们希望我们的读者能够将他们通常持怀疑态度的视角应用到所提供的数据上,并帮助指导我们使这份报告越来越具有教育意义和实用性。
在我们的环境中,我们确实在其他类型的服务器中安装了 SSD。例如,还原服务器、实用程序服务器、API 服务器等。我们正在考虑对其中一些服务器中的驱动器进行检测,以便它们能够以与我们的引导驱动器类似的方式报告其统计信息。在我们这样做之前有多个考虑因素:
- 我们不会影响其他服务器的性能。
- 我们认识到其他每个服务器中驱动器的工作负载很可能是不同的。这意味着我们最终可能会得到多个 SSD 驱动器群组,每个群组都有不同的工作负载,这些驱动器可能适合也可能不适合组合在一起进行分析。
- 我们不希望通过向他们在维护其他服务器时使用的流程添加额外或冲突的步骤来影响我们的数据中心技术人员完成工作的性能。
SSD 统计数据
用于创建本次审查中使用的信息的完整数据集可在我们的硬盘测试数据页面上找到。如前所述,您会在同一个文件中找到 SSD 和 HDD 数据,您必须使用型号来区分一个记录和另一个记录。您可以出于自己的目的免费下载和使用这些数据。我们只要求三件事:1)如果您使用数据,您引用 Backblaze 作为来源,2)您接受您对如何使用数据负全部责任,以及 3)您不会将此数据出售给任何人;这是免费的。
声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。