/ 中存储网

Cloudian 利用 Nvidia GPUDirect 存储技术,通过新的 PyTorch 连接器提供突破性的 AI 性能

2025-07-20 10:05:01 来源:中国存储网

中国存储网消息,国外企业级对象存储解决方案提供商 Cloudian宣布推出支持远程直接内存访问 (RDMA) 的新型 PyTorch 连接器,从而提高 AI 和 ML 工作负载的性能。

Cloudian 利用 Nvidia GPUDirect 存储技术,通过新的 PyTorch 连接器提供突破性的 AI 性能

这一突破性解决方案基于 Nvidia GPUDirect Storage 技术构建,并针对 Nvidia Spectrum-X 网络基础设施进行了优化,数据传输性能提高了 74%,同时将处理器利用率降低了 43%,代表了 AI 工作流加速的重大进步。

使用开源 PyTorch 性能测量工具 TorchBench 进行的测试表明,图像处理能力有了显著改进。基于 Nvidia GPUDirect Storage 技术构建的支持 RDMA 的新连接器每秒处理 52000 张图像,而使用默认 S3 连接器每秒处理 30000 张图像,这是一个显著的性能提升,直接转化为更快的模型训练并降低 AI 从业者的计算成本。

“这代表了 AI 工作负载如何通过先进的 Nvidia 网络加速访问和处理数据方面取得了根本性突破,”Cloudian 首席技术官 Neil Stobart 说。“通过利用 Nvidia GPUDirect Storage 技术消除传统网络瓶颈,我们使数据科学家和 AI 工程师能够增强他们的工作流程,同时通过 GPU 到存储的直接通信来降低基础设施成本。”

借助 RDMA,增强型连接器能够绕过传统的 CPU 密集型网络协议,从而在 Cloudian 存储系统和在 Nvidia 网络基础设施(包括 Nvidia Spectrum-X 以太网交换机和 Nvidia ConnectX SuperNIC)上运行的 GPU 加速 AI 框架之间实现直接内存到内存数据传输。事实证明,这种架构进步对于利用 Nvidia 加速计算的 PyTorch 用户来说尤为重要,他们代表了 ML 社区的很大一部分,包括主要技术公司、学术机构和专注于 AI 的初创公司的研究人员。

基准测试是使用 Cloudian HyperStore 8.2.2 软件进行的,该软件在六台配备 Nvidia 网络平台的 Supermicro 服务器上运行,采用全闪存介质配置,代表了通常为 GPU 加速 AI 工作负载部署的企业级存储基础设施。

PyTorch 生态系统为全球数百万开发人员提供服务,从个人研究人员到利用 Nvidia 加速计算基础设施的大型企业 AI 运营。在 Nvidia 平台上实施计算机视觉、自然语言处理和深度学习应用程序的组织将受益于 Nvidia GPUDirect Storage 连接器提供的减少的训练时间和更低的计算开销。

与 Nvidia GPUDirect Storage 技术的集成可确保 AI 工作负载的最佳数据路径效率,消除不必要的数据复制并减少以 GPU 为中心的 ML 管道中的延迟。这种直接存储到 GPU 的通信路径最大限度地提高了 Nvidia 高级网络和计算基础设施的性能潜力。

Cloudian PyTorch 连接器可用于评估,使组织能够评估其 Nvidia 加速的 AI 环境中的性能优势。