/ 中国存储网

Oracle 推出面向 AI 的下一代 Oracle Cloud Infrastructure Zettascale10 集群

2025-10-18 00:17:04 来源:中国存储网

中国存储网消息,甲骨文公司 Oracle Cloud Infrastructure (OCI) Zettascale10 发布,这是云中最大的 AI HPC。

OCI Zettascale10 将跨多个数据中心的数十万个 Nvidia GPU 连接起来,形成数千兆瓦的集群,可提供前所未有的 16 zettaFLOPS 峰值性能。OCI Zettascale10 是与位于德克萨斯州阿比林的 OpenAI 合作构建的旗舰超级集群的结构,作为 Stargate 的一部分。OCI Zettascale10 基于下一代 Oracle Acceleron RoCE 网络架构构建,由 Nvidia AI 基础设施提供支持,可提供突破性的扩展性、整个集群的极低 GPU-GPU 延迟、行业领先的性价比、更高的集群利用率以及大规模 AI 工作负载所需的可靠性。

OCI Zettascale10 是 2024 年 9 月推出的第一个 Zettascale 云计算集群的强大演变。OCI Zettascale10 集群位于大型千兆瓦数据中心园区中,这些园区针对 2 公里半径内的密度进行了超优化,可为大规模 AI 训练工作负载提供最佳的 GPU-GPU 延迟。该架构正在阿比林的 Stargate 站点与 OpenAI 一起部署。

Oracle 云基础设施执行副总裁 Mahesh Thiagarajan 表示:“借助 OCI Zettascale10,我们将 OCI 突破性的 Oracle Acceleron RoCE 网络架构与下一代 Nvidia AI 基础设施融合在一起,以无与伦比的规模提供数 GB 的 AI 容量。“客户可以使用更少的单位性能功耗来构建、训练和部署他们最大的人工智能模型并实现高可靠性。此外,客户将可以自由地在甲骨文的分布式云中进行运营,并具有强大的数据和人工智能主权控制。

OpenAI 基础设施和工业计算副总裁 Peter Hoeschele 表示:“OCI Zettascale10 网络和集群结构首先在德克萨斯州阿比林的 Stargate 旗舰站点开发和部署,这是我们与 Oracle 的联合超级集群。“高度可扩展的定制 RoCE 设计在千兆瓦级范围内最大限度地提高了结构范围的性能,同时将大部分能力集中在计算上。我们很高兴能够继续扩大阿比林和更广泛的星际之门计划。

OCI 计划向客户提供 OCI Zettascale10 的 OCI Zettascale10 的 0 千兆瓦部署。最初,OCI Zettascale10 集群将以部署多达 800,000 个 Nvidia GPU 为目标,提供可预测的性能和强大的成本效益,并由 Oracle Acceleron 的超低延迟 RoCEv2 网络支持高 GPU 到 GPU 带宽。

Nvidia 超大规模副总裁 Ian Buck 表示:“Oracle 和 Nvidia 正在将 OCI 的分布式云和我们的全栈 AI 基础设施结合在一起,以超大规模交付 AI“OCI Zettascale10 采用 NVIDIA 全栈 AI 基础设施,提供推进最先进的 AI 研究所需的计算结构,并帮助世界各地的组织从实验转向工业化 AI。”

Oracle Acceleron RoCE 网络为 OCI Zettascale 上的 AI 提供可扩展性、可靠性和效率

Oracle Acceleron RoCE 网络架构是客户在云中构建、训练和推理 AI 工作负载的一项关键创新,同时充分利用 OCI Zettascale10 的强大功能和功能。它使用现代 GPU NIC(网络接口卡)内置的交换功能,允许它们同时连接到多个交换机,每个交换机都在一个单独且隔离的网络平面上。这种方法通过在出现问题时将流量转移到其他网络平面来显着提高网络的整体规模和可靠性,从而避免代价高昂的停顿和重新启动。Oracle Acceleron RoCE 网络的主要功能可帮助客户处理关键的 AI 工作负载,包括:

  • 宽、浅、弹性结构:通过将 GPU NIC 用作迷你交换机并连接到多个物理和逻辑隔离的平面,帮助客户以更低的总成本更快地部署更大的 AI 集群。这提高了规模,同时降低了网络层、成本和功耗。
  • 更高的可靠性:通过消除跨平面的数据共享,帮助客户保持 AI 作业的稳定性。这将流量从不稳定或拥挤的飞机上转移开,从而保持训练作业运行并避免代价高昂的检查点重新启动。
  • 一致的性能:与传统的三层设计相比,通过删除一层设计,为客户提供更均匀的 GPU 到 GPU 延迟,从而提高大规模 AI 训练和推理的可预测性。
  • 高能效光学器件:通过线性可插拔光学器件 (LPO) 和线性接收器光学器件 (LRO) 支持客户工作负载,在不牺牲 400G/800G 吞吐量的情况下降低网络和冷却成本。这允许客户将更多的功率预算用于计算。
  • 运营灵活性:通过平面级维护和独立网络作系统更新,帮助客户减少停机时间并加快功能上线。

OCI 目前正在接受 OCI Zettascale10 的订单,该订单将于明年下半年上市,配备多达 800,000 个 Nvidia AI 基础设施 GPU 平台。