NVIDIA 周四发布了一段视频,首次公开展示了其最新的数据中心规模超级计算机 Eos,为高级 AI 工厂提供动力的架构。
Eos 是一个超大规模的 NVIDIA DGX SuperPOD,NVIDIA 开发人员使用加速的计算基础设施和完全优化的软件实现 AI 突破。
Eos 由 576 个 NVIDIA DGX H100 系统、NVIDIA Quantum-2 InfiniBand 网络和软件构建,提供总计 18.4 exaflops 的 FP8 AI 性能。在 11 月的 Supercomputing 2023 贸易展上,Eos(以据说每天打开黎明之门的希腊女神命名)反映了 NVIDIA 对推进 AI 技术的承诺。
EOS超级计算机推动创新
每个 DGX H100 系统都配备了 8 个 NVIDIA H100 Tensor Core GPU。Eos 共有 4,608 个 H100 GPU。因此,Eos 可以处理最大的 AI 工作负载,以训练大型语言模型、推荐系统、量子模拟等。它展示了 NVIDIA 技术在大规模工作时可以做什么。
Eos的到来恰逢其时。人们正在通过生成式人工智能改变世界,从药物发现到聊天机器人,再到自主机器等等。为了实现这些突破,他们需要的不仅仅是人工智能专业知识和开发技能。他们需要一个 AI 工厂,这是一个始终可用的专用 AI 引擎,可以帮助提高其大规模构建 AI 模型的能力
Eos 在全球最快的超级计算机 TOP500 榜单中排名第 9,突破了 AI 技术和基础设施的界限。它包括 NVIDIA 先进的加速计算和网络,以及 NVIDIA Base Command 和 NVIDIA AI Enterprise 等复杂的软件产品。
Eos 的架构针对需要跨大型加速计算节点集群实现超低延迟和高吞吐互连的 AI 工作负载进行了优化,使其成为希望扩展其 AI 能力的企业的理想解决方案。
基于采用网络计算技术的 NVIDIA Quantum-2 InfiniBand,其网络架构支持高达 400Gb/s 的数据传输速度,有助于训练复杂 AI 模型所必需的大型数据集的快速移动。
Eos 的核心是由 NVIDIA 的 DGX H100 系统提供支持的突破性 DGX SuperPOD 架构。该架构旨在为人工智能和计算领域提供紧密集成的全栈系统,能够进行大规模计算。
随着全球企业和开发人员寻求利用 AI 的力量,Eos 是一种关键资源,有望加速迈向 AI 注入应用程序的旅程,为每个组织提供动力。