/ 中存储网

新的 MLPerf Storage v1.0 基准测试结果表明,存储系统在 AI 模型训练性能中发挥着关键作用

2024-09-26 15:49:37 来源:中存储

MLCommons 宣布了其行业标准 MLPerf Storage v1.0 基准测试套件的结果,该套件旨在以架构中立、具有代表性和可重现的方式衡量机器学习 (ML) 工作负载的存储系统的性能。结果表明,随着加速器技术的进步和数据集规模的不断增加,ML 系统提供商必须确保其存储解决方案能够满足计算需求。

新的 MLPerf Storage v1.0 基准测试结果表明,存储系统在 AI 模型训练性能中发挥着关键作用

这是 ML 系统快速变化的时代,一个技术领域的进步推动了其他领域的新需求。高性能 AI 训练现在需要既大规模又高速的存储系统,以免访问存储的数据成为整个系统的瓶颈。随着 MLPerf 存储基准测试结果的 v1.0 版本发布,很明显,存储系统提供商正在创新以应对这一挑战。

1.0 版存储基准测试开辟了新天地

MLPerf 存储基准测试是第一个也是唯一一个公开、透明的基准测试,用于测量各种 ML 训练场景中的存储性能。它模拟了多个场景和系统配置的存储需求,涵盖一系列加速器、模型和工作负载。通过模拟加速器的“思考时间”,基准测试可以生成准确的存储模式,而无需运行实际训练,从而使所有人都更容易访问它。基准测试的重点是给定存储系统的跟上速度的能力,因为它要求模拟的加速器保持所需的利用率水平。

基准测试中包含三个模型,以确保测试各种 AI 训练模式:3D-UNet、Resnet50 和 CosmoFlow。这些工作负载提供各种样本大小,从数百 MB 到数百 KB 不等,以及从几毫秒到几百毫秒的广泛模拟 “思考时间”。

该基准测试模拟 NVIDIA A100 和 H100 模型,作为当前可用加速器技术的代表。与 v0.5 轮中的早期 V100 加速器相比,H100 加速器将 3D-UNet 工作负载的每批计算时间缩短了 76%,将通常对带宽敏感的工作负载转变为对延迟更敏感的工作负载。

此外,MLPerf Storage v1.0 还包括对分布式训练的支持。分布式训练是基准测试的一个重要场景,因为它代表了一种常见的实际做法,可以更快地训练具有大型数据集的模型,并且它为存储系统带来了特定的挑战,不仅在提供更高的吞吐量方面,而且在同时为多个训练节点提供服务方面。

V1.0 基准测试结果显示 ML 系统存储技术的性能有所提高

提交给基准测试的工作负载范围广泛,反映了不同存储系统和架构的广泛范围和多样性。这证明了 ML 工作负载对所有类型的存储解决方案的重要性,并展示了该领域正在发生的积极创新。

“MLPerf Storage v1.0 结果表明存储技术设计焕然一新,”MLPerf Storage 工作组联合主席 Oana Balmau 说。“目前,似乎还没有就 ML 系统中存储的'最佳'技术架构达成共识:我们收到的 v1.0 基准测试提交的内容采用了各种独特且富有创意的方法来提供高速、大规模存储。”

分布式训练场景中的结果显示了主机数量、每台主机的模拟加速器数量和存储系统之间需要的微妙平衡,以便以所需的利用率为所有加速器提供服务。添加更多节点和加速器来为越来越大的训练数据集提供服务会增加吞吐量需求。分布式训练增加了另一个变化,因为历史上不同的技术(具有不同的吞吐量和延迟)一直用于在节点内和节点之间移动数据。

单个节点可以支持的最大加速器数量可能不受节点自身硬件的限制,而是受在分布式环境中将足够数据快速移动到该节点的能力的限制(每个模拟加速器高达 2.7 GiB/s)。存储系统架构师现在几乎没有可用的设计权衡:系统必须具有高吞吐量和低延迟,以保持大规模 AI 训练系统在峰值负载下运行。

“正如我们预期的那样,新的、更快的加速器硬件显著提高了存储的标准,很明显,存储访问性能已成为整体训练速度的门控因素,”MLPerf 存储工作组联合主席 Curtis Anderson 说。“为了防止昂贵的加速器闲置,系统架构师正在转向他们可以采购的最快的存储,而存储提供商也正在进行创新。”

MLPerf 存储 v1.0

MLPerf Storage 基准测试是通过十几家领先的存储解决方案提供商和学术研究小组的协作工程流程创建的。开源和同行评审的基准测试套件为竞争提供了公平的竞争环境,从而推动了整个行业的创新、性能和能源效率。它还为采购和调整 AI 训练系统的客户提供关键技术信息。

来自众多技术提供商的 v1.0 基准测试结果表明,行业认识到高性能存储解决方案的重要性。MLPerf Storage v1.0 包括来自 13 个提交组织的 100 多个性能结果:DDN、Hammerspace、Hewlett Packard Enterprise、华为、IEIT SYSTEMS、Juicedata、Lightbits Labs、MangoBoost、Nutanix、Simplyblock、Volumez、WEKA 和燕荣科技。

“我们很高兴看到如此多的大小存储提供商参与首创的 v1.0 存储基准测试,”MLCommons 的 MLPerf 负责人 David Kanter 说。“它表明该行业正在认识到需要不断创新存储技术以跟上 AI 技术堆栈的其他部分,并且衡量这些技术性能的能力对于成功部署 ML 训练系统至关重要。作为公开、公平和透明的基准测试的值得信赖的提供商,MLCommons 确保技术提供商知道他们需要达到的性能目标,并且消费者可以购买和调整 ML 系统,以最大限度地提高其利用率,并最终获得投资回报。

MLCommons 邀请利益相关者加入 MLPerf 存储工作组,并帮助 MLCommons 继续发展基准测试。未来的工作包括改进和增加加速器仿真和 AI 训练场景。

要查看 MLPerf Storage v1.0 的结果,请访问存储基准测试结果。

关于 MLCommons

MLCommons 是构建 AI 基准测试的全球领导者。它是一个开放的工程联盟,其使命是通过基准测试和数据让 AI 更好地为每个人服务。MLCommons 的基础始于 2018 年的 MLPerf 基准测试,该基准测试迅速扩展为一组行业指标,以衡量机器学习性能并提高机器学习技术的透明度。MLCommons 与其 125+ 成员、全球技术提供商、学者和研究人员合作,专注于协作工程工作,通过基准和指标、公共数据集和 AI 安全测量为整个 AI 行业构建工具。