/ 中存储网

NVIDIA 的 Spectrum-X 将 AI 存储带宽提高了 48%

2025-02-07 03:08:52 来源:中国存储网

2025 年 2 月 6 日 — AI 工厂依赖的不仅仅是计算结构。虽然连接 GPU 的东西向网络对 AI 应用程序性能至关重要,但连接高速存储阵列的存储结构也同样重要。存储性能在 AI 生命周期的多个阶段起着关键作用,包括训练检查点、检索增强生成 (RAG) 等推理技术等。

为了满足这些需求,NVIDIA 和存储生态系统正在将 NVIDIA Spectrum-X 网络平台扩展到数据存储结构,从而为 AI 带来更高的性能和更快的时间。由于 Spectrum-X 自适应路由能够缓解流冲突并增加有效带宽,因此存储性能远高于 RoCE v2,后者是大多数数据中心用于 AI 计算和存储结构的以太网网络协议。

NVIDIA 的 Spectrum-X 将 AI 存储带宽提高了 48%

Spectrum-X 将读取带宽提高了 48%,将写入带宽提高了 41%。这种增加的带宽转化为更快地完成 AI 工作流的存储相关步骤,从而加快作业完成时间(在训练的情况下)和更低的令牌间延迟(在推理的情况下)。

主要存储合作伙伴集成 Spectrum-X

随着 AI 工作负载的规模和复杂性不断增长,存储解决方案必须不断发展,以满足现代 AI 工厂的需求。包括 DDN 、 VAST Data 和 WEKA 在内的领先存储供应商正在与 NVIDIA 合作,集成和优化其 Spectrum-X 解决方案,为 AI 存储结构带来尖端功能。

使用 Israel-1 超级计算机实现 Spectrum-X 的大规模影响

NVIDIA 构建了生成式 AI 超级计算机 Israel-1,以优化 Spectrum-X 性能,通过启用 AI 结构的预先测试和验证蓝图来简化网络部署。这使得 Israel-1 成为 Spectrum-X 如何影响存储工作负载的良好试验台,展示了在实际超级计算机运行条件下网络对存储性能的影响。

为了了解 Spectrum-X 对存储网络的影响,Israel-1 团队测量了 NVIDIA HGX H100 GPU 服务器客户端访问存储产生的读写带宽。该测试(使用 Flexible I/O Tester 基准测试)在网络配置为标准 RoCE v2 结构的情况下执行一次,然后在 Spectrum-X 的自适应路由和拥塞控制打开的情况下重新运行。

这些测试使用不同数量的 GPU 服务器作为客户端运行,范围从 40 个 GPU 到 800 个 GPU。在每种情况下,Spectrum-X 的表现都更好。对于读取带宽,改进范围从 20% 到 48% 不等。对于写入带宽,改进范围为 9% 到 41%。这些结果与合作伙伴生态系统为 DDN、VAST 和 WEKA 实现的加速相当。

存储网络性能对 AI 性能至关重要

要了解 Spectrum-X 为何会带来如此大的不同,考虑为什么存储是 AI 的一个因素会有所帮助。AI 性能不仅仅是大型语言模型 (LLM) 步骤完成时间的函数,还涉及许多其他因素。例如,由于模型训练通常需要数天、数周或数月才能完成,因此在训练过程中(通常每隔几个小时)将部分训练的模型检查点或保存到存储中是有意义的。这意味着,在系统中断的情况下,训练进度不会丢失。

借助十亿和万亿个参数模型,这些检查点状态变得足够大(对于当今最大的 LLM 来说可达数 TB 的数据),以至于保存或恢复它们会产生“大象流”。这些是大量数据,可能会使交换机缓冲区和链路不堪重负,网络必须保证为训练工作负载提供最佳利用率。

RAG 是存储结构可以决定工作负载性能的另一个实例。借助 RAG,LLM 与不断增长的知识库相结合,为模型添加特定于领域的上下文,以提供更好的响应,而无需额外的模型训练或微调。RAG 的工作原理是获取额外的内容或知识,并将其嵌入到矢量数据库中,这使其成为可搜索的知识库。

当推理提示出现时,将解析(嵌入)提示并搜索数据库,检索到的内容将上下文添加到提示中,以帮助 LLM 制定最佳答案。矢量数据库是多维的,并且可能非常大,尤其是在由图像和视频组成的知识库的情况下。

这些数据库通过存储结构连接到推理节点,网络必须提供快速通信以保持延迟最小。这在多租户生成式 AI 工厂的情况下尤为重要,因为每秒的查询数量非常大。

将自适应路由和拥塞控制应用于存储

Spectrum-X 平台引入了改编自 InfiniBand 的关键创新,例如 RoCE 自适应路由和 RoCE 拥塞控制。通过采用这些创新并将其与存储结构一起使用, NVIDIA 能够提高存储工作负载的性能和网络利用率。

自适应路由

为了消除大象流冲突并缓解检查点期间产生的网络流量,采用自适应路由在网络上逐个数据包动态地对流进行负载均衡。Spectrum-4 以太网交换机根据实时拥塞数据选择拥塞最少的路径。由于数据包是通过网络喷射的,因此它们可能会无序地到达目的地,在传统以太网下,这需要重新传输许多数据包。

借助 Spectrum-X,目标主机中的 SuperNIC 或数据处理单元 (DPU) 知道数据包的正确顺序,将它们按顺序放置在主机内存中,并保持自适应路由对应用程序透明。这样可以提高结构利用率,从而获得更高的有效带宽,并为检查点、数据获取等提供可预测、一致的结果。

拥塞控制

检查点和其他存储作通常会导致 Incast 拥塞,也称为多对一拥塞。当多个客户端尝试写入单个存储节点时,可能会发生这种情况。Spectrum-X 引入了一种基于遥测的拥塞控制技术,该技术使用来自交换机的基于硬件的遥测来通知 SuperNIC 或 DPU 以减慢发送方数据注入速率(即 RDMA 写入和读取)。这可以防止拥塞热点的出现,拥塞热点可能会向后传播,并导致相邻的作业或进程受到拥塞的不公平影响。

弹性增强功能

由于 AI 工厂通常由大量交换机、电缆和收发器组成,并且任何中断的链路都可能导致网络性能大幅下降,因此网络弹性对于维护健康的基础设施至关重要。Spectrum-X 全局自适应路由可在链路中断时实现最佳和快速的重新收敛,从而保持存储结构的良好利用。

与 NVIDIA 堆栈集成

除了 Spectrum-X 为存储结构带来的创新之外,NVIDIA 还提供并建议使用多个 SDK、库和软件产品来加速存储到 GPU 的数据路径。这些包括但不限于以下内容:

  • NVIDIA Air:基于云的网络模拟工具,用于对交换机、SuperNIC 和存储进行建模,从而加快第 0 天、第 1 天和第 2 天的存储结构作。
  • NVIDIA Cumulus Linux:围绕自动化和 API 构建的网络作系统,确保大规模的顺利运营和管理。
  • NVIDIA DOCA:适用于 NVIDIA SuperNIC 和 DPU 的 SDK,可在存储、安全性等方面解锁无与伦比的可编程性和性能。
  • NVIDIA NetQ:一个网络验证工具集,与交换机遥测集成,以提供交换矩阵的实时可见性。
  • NVIDIA GPUDirect 存储:一种在存储和 GPU 内存之间实现直接数据路径的技术,从而提高数据传输效率。