/ 中存储网

Xinnor:使用 xiRAID 使 IB 带宽饱和,让 Nvidia DGX 保持忙碌

2024-03-19 19:25:28 来源:中存储

虽然 GPU 可以更快地获得结果,但传统存储解决方案往往滞后,导致资源利用效率低下,项目完成时间延长。传统的企业存储或以 HPC 为中心的并行文件系统成本高昂,并且难以管理 AI 规模的部署。高性能存储系统可以减少 AI 模型训练时间。数据访问延迟也会影响 AI 模型的准确性,这凸显了存储性能的关键作用。

Xinnor与德国系统集成商 Delta Computer Products GMBH 合作,构建专为 AI 和 HPC 任务设计的高性能解决方案。由于使用了 美光科技的高性能 NVMe 驱动器、Xinnor 的高效软件 RAID 和 Nvidia的 400Gb IB 控制器,Delta 设计的系统通过 NFSoRDMA 接口确保了高水平的性能,用于读取和写入操作,这对于减少 AI 项目的典型检查点时间和处理可能的驱动器故障至关重要。

NFSoRDMA 支持并行访问,以便同时从多个节点读取和写入。使用的 2U 双插槽服务器,配备美光 24×7400 NVMe 15.36,可存储高达 368TB 的容量,并提供高达 50GB/s 的理论访问速度。在本文档中,我们将介绍如何使用 xiRAID 设置系统以饱和 IB 带宽并为 Nvidia DGX H100 系统提供最佳性能。

此外,我们还将展示xiRAID软件的功能。xiRAID 代表了一种软件 RAID 引擎,提供一系列量身定制的功能,以满足不同的存储需求。

最后,此报告提供了详细的说明手册,用于在各种部署中实现最佳且一致的性能。

测试设置

主板:Giga Computing MZ93-FS0

处理器: 2xAMD EPYC 9124

内存:756GB

存储:Micron 7450 (15.36TB) x 24

启动驱动器:Micron 7450 (960GB) x 2

网络:NVIDIA ConnectX-7 400Gbit

操作系统: Ubuntu 22.04.4 LTS (Jammy Jellyfish)

RAID:xiRAID 4.0.3

客户端 1:

英伟达DGX H100

英特尔® 至强® 铂金 8480CL

2063937MB内存

网络 IB 控制器:Mellanox Technologies MT2910 系列 [ConnectX-7]

客户端 2:

英伟达DGX H100

英特尔® 至强® 铂金 8480CL

2063937MB内存

网络 IB 控制器:Mellanox Technologies MT2910 系列 [ConnectX-7]

测试方法

我们对同步和异步文件访问模式进行了测试,以证明这两种方法之间的性能差异。同步模式意味着只有在数据写入非易失性存储器后,主机才会收到写入确认。此模式可确保数据完整性和更稳定的性能。在异步模式下,当数据保存在服务器的页面缓存中时,客户端会收到写入确认。异步模式对存储级延迟不太敏感,因此对阵列几何形状不太敏感,但它可能会提供不稳定的性能级别,具体取决于缓存填充级别,并且可能导致在断电和缺乏适当的工具来保护缓存本身的情况下丢失数据。

如果应用程序支持,Xinnor 建议使用同步模式。

RAID 和文件系统配置

为了在同步模式下获得最佳结果,必须正确配置阵列几何和文件系统挂载参数。在我们的例子中,我们将创建一个具有 18 个驱动器的 RAID-50 阵列,条带大小为 64k。对于日志,我们将从 2 个驱动器创建一个 RAID-1(对于每个奇偶校验 RAID),以便小日志 IO/s 不会干扰写入大型数据块。这种几何形状使我们能够与 512kb 块对齐,从而获得更好的顺序写入结果,因为减少了读-修改-写 (RMW) 操作。此配置的替代方法可以是 2 个 RAID-5,其中每个 RAID 都属于专用 NUMA 节点。在此测试中,我们没有看到 NUMA 关联方法的巨大价值,但在某些服务器配置中,它可能会有很大帮助。值得一提的是,一个 xiRAID 软件实例支持无限数量的 RAID。