最近在弗里德里希-亚历山大大学埃尔朗根-纽伦堡(FAU)部署的“Helma”超级计算机,标志着德国学术研究的一个关键时刻,同时也标志着Celestica进入了行业领导力的新大胆新纪元。虽然系统庞大的GPU阵列常常成为头条新闻,但项目的成功真正依赖于Celestica在高性能计算人工智能领域的深厚专业知识和架构领导力。
MEGWARE作为欧洲领先的超级计算专家之一,利用其在高性能计算系统工程方面的专业知识整合并实现了存储基础设施。他们设计并部署了一个复杂的存储生态系统,利用Xinnor的xiRAID和Celestica的先进存储平台,驱动全NVMe Lustre并行文件系统。此次合作使他们在IO500榜单中获得#3全球排名。
SC6100 存储层:消除 I/O 瓶颈
在 Helma 项目的核心,Celestica 的存储控制器是将这一高性能生态系统紧密结合的纽带。通过以 SC6100 ——一款高可用性、双节点全闪存控制器——为架构奠定基础,Celestica 无缝集成了 PCIe Gen5 技术和 AMD EPYC 处理器,消除了通常耗电严重的 GPU 的 I/O 瓶颈。这种存储桥接舱(SBB)设计成为终极稳定器,将分散的组件统一为可靠且冗余的系统,消除了长时间运行的 AI 训练中的单点故障。最终,Celestica能够将这些先进技术融合在紧凑的半机架空间内,使其电力和散热性能远超传统多机架设备。
回顾这些解决方案背后的工程背景,Celestica企业产品战略现场首席技术官兼负责人George Tehrani指出:“我们在Helma项目中的角色证明了我们在设计驱动制造领域深厚的产品管理和工程专业能力。在该项目中,我们作为战略设计合作伙伴,专注于构建推动人工智能革命的核心基础设施。我们在复杂数据中心基础设施方面的经验使我们能够交付高密度、关键任务的系统,满足全球最先进超级计算环境的严苛需求。”
提供开源系统蓝图以实现成本效益高的AI存储
除了原始性能,此次合作还凸显了Celestica所倡导的“商品经济学”和对开放系统的承诺。通过使用高质量、开放的组件而非专有的锁定硬件,Celestica赋能客户拥抱拆分技术,将硬件与软件解耦,以更灵活且经济地扩展基础设施。这种方法不仅为德国科研界提供了灵活、供应商中立的环境,也为企业客户提供了可重复的蓝图,帮助他们更有效地部署AI兼容存储。
为关键任务超级计算设计
谈及这些更广泛的市场优势,Celestica企业存储负责人David Autrey表示:“Helma项目的成功为我们更广泛的客户群体带来了显著优势:能够通过开放高效的架构实现世界级的高可用性存储性能。通过最大化GPU利用率和最小化物理足迹,我们帮助客户解决性能、成本和可持续性的多重挑战。本案例研究进一步展示了Celestica平台解决方案如何具备在快速发展的AI、混合云和高性能计算生态系统中领先的敏捷性和效率。”
Celestica在Helma超级计算机部署上的技术领导力,强有力验证了其SC6100存储平台,在超高密度的空间中实现了创纪录的性能和高可用性可靠性。通过将SC6100的尖端PCIe Gen5硬件与关键存储软件合作伙伴Xinnor的高性能xiRAID解决方案相结合,Celestica为AI驱动研究的未来提供了可扩展且具成本效益的蓝图。