西门子与nVent已达成联合参考架构,用于面向大型基于NVIDIA的人工智能数据中心的液冷和电力基础设施。
该蓝图目标是高达100兆瓦的超大规模设施,运行高强度人工智能工作负载。它结合了西门子的电气和自动化系统、nVent的液冷技术以及NVIDIA的DGX SuperPOD参考设计。
这些公司正在为使用NVIDIA DGX SuperPOD和DGX GB200等系统构建或扩展AI集群的运营商定位该架构。该设计支持三级配置,采用模块化方式实现多个站点的快速部署。
针对超大规模企业
参考架构聚焦于AI机架功率密度的上升以及图形处理单元和其他加速器向直接液冷的转变。它为这些系统制定了电力分配、自动化和液冷基础设施的集成设计。
西门子将提供支持高密度计算大厅连续运行的工业电气系统和控制技术。这些设备包括中低压配电设备以及用于监控和管理能源使用的自动化平台。
nVent 将贡献其液冷解决方案,用于高密度环境中的服务器和机架级热量管理。公司与主要芯片制造商和云服务商合作,开发了用于AI训练和推理集群的定制冷却设计。
作为合作的一部分,两家公司计划使其设计与NVIDIA用于DGX SuperPOD安装的参考架构保持一致。这为大规模采用基于NVIDIA的AI基础设施的运营商创建了预定义的布局和集成方案。
关注能源使用
合作伙伴目标是提升部署速度和能源效率。他们将“每瓦代币数”描述为架构的核心指标,定义为每单位能源消耗的AI输出。
nVent Systems Protection(nVent)总裁Sara Zawoyski表示:“我们拥有数十年支持客户下一代计算基础设施需求的专业知识。”“与西门子的合作凸显了这一承诺。联合参考架构将帮助数据中心管理者部署我们先进的冷却基础设施,以支持人工智能建设。”
该设计强调模块化且容错的配置,能够在多个数据大厅和地点重复使用。这种做法与超大规模云和人工智能服务提供商在多个地区建设标准化设施的推广策略相契合。
运营商面临着在支持快速扩张的人工智能集群的同时,减少能源使用和排放的压力。许多设施现在使用的机架超过了传统空气制冷的限制,这推动了向靠近热源的液冷系统转变。
参考架构为此类环境提供了模板。它们定义了电力、冷却、监控和控制系统在不同厂商和技术间的接口。它们还为供应链和安装合作伙伴建立了统一的结构。
西门子数据中心推送
近年来,西门子在数据中心市场扩大了布局。公司将工业和基础设施组合中的自动化、电力分配和建筑技术应用于关键任务设施中。
它提供软件驱动的能源管理和监控系统,连接电力链中的硬件。这些包括传感器、保护装置以及实时跟踪和优化电气性能的数字服务。
该公司将其智能基础设施业务定位为能源网络、建筑物与工业场地之间的桥梁。数据中心作为大型能源用户和关键数字基础设施资产,处于这一战略的中间位置。
西门子全球数据中心解决方案负责人Ciaran Flanagan表示,新蓝图旨在加快AI部署速度和实现能源感知运营。
Flanagan表示:“该参考架构加快了计算时间,并最大化了每瓦代币数,瓦特是衡量单位能量AI产出的指标。”“这是一份规模化的蓝图:模块化、容错且节能。我们与nVent及更广泛的合作伙伴生态系统携手,连接价值链各环节,推动创新、互作性和可持续性,帮助运营商建设面向未来的数据中心,释放AI的全部潜力。”
nVent冷却策略
nVent的液冷业务围绕与芯片制造商和原设备制造商的直接合作展开。这包括用于密集计算平台的冷板和机架级解决方案,以及位于白空间中的分发单元和歧管。
公司的产品线涵盖服务器、网络设备和电力电子设备的冷却。还涵盖工业和基础设施场所的外壳和保护产品。
通过与西门子和英伟达参考设计的对齐,nVent在遵循联合蓝图的未来AI数据中心项目中获得了明确的角色。随着芯片设计功耗和机架密度的提升,合作也为未来产品更新创造了结构化的路径。
合作伙伴预计,随着工作负载分布在更多地点以及监管对能源使用日益关注,人工智能数据中心的设计将进一步演进。随着NVIDIA发布新AI系统以及运营商完善大规模水冷和电力基础设施方案,他们计划对参考架构进行更新。