美国能源部阿贡国家实验室正在建造一台新的 44 petaflops(理论峰值)超级计算机。这颗名为 Polaris 的新超级计算之星已被选中为百亿亿级和 Aurora 指明道路,Aurora 是百亿亿级英特尔-HPE 系统,其交付时间已推迟到明年(2022 年)。
在今天的正式揭幕公告之前,HPCwire与高级计算机科学家兼阿贡领导力计算设施 (ALCF) 的技术总监Kalyan Kumaran就实验室将如何使用该系统作为 Aurora 及其他地区的垫脚石进行了交谈。
Polaris 由 HPE 构建并由 AMD CPU 和 Nvidia GPU 提供支持,将使研究人员和开发人员能够测试和优化软件代码和应用程序,以解决为即将推出的 Aurora 超级计算机计划的一系列人工智能、工程和科学项目,这是 Argonne 的联合合作项目、英特尔和慧与。
目前正在进行的安装跨越 40 个机架的 280 个 HPE Apollo Gen10 Plus 系统,总计 560 个 AMD Epyc Rome CPU 和 2,240 个 Nvidia 40GB A100 GPU,以及 HPE 的 Slingshot 网络。作为计划升级的一部分,第二代 Epyc Rome CPU(32 核 7532 SKU)将于 2022 年 3 月更换为第三代 Epyc Milans(32 核 7543 部分)。同时,Polaris 将从 Slingshot 10 过渡到 Slingshot 11 面料(与 Aurora 将使用的相同)。该系统使用风冷 HGX“红石”板,后门热交换器采用液冷。
以 44 petaflops(双精度,峰值)计算,Polaris 将跻身世界前 15 名左右最快的计算机之列。据 HPE 和 Nvidia称,基于混合精度计算能力,该系统的理论 AI 性能最高可达 近1.4 exaflops 。
Polaris 将与 ALCF 的两个名为 Grand 和 Eagle 的 100 PB 全球可访问 Lustre 文件系统联系在一起,这两个文件系统由 HPE 的 Cray ClusterStor E1000 平台提供支持。根据 ALCF 文档,安装于今年 1 月的每个存储阵列控制着 8,480 个磁盘驱动器,持续传输速度为 650 Gbps。
之所以选择 Apollo Gen10 Plus 而不是 HPE Cray EX 架构是经过深思熟虑的,因为 Gen10 可以灵活地支持其他配置。“这些机箱中的每一个实际上都适合两个(单插槽)节点,并且它们确实支持其他加速器,”Kumaran 说。“因此,在未来,我们可以将新的 Apollo 机箱添加到此配置中,例如,在一侧支持 Nvidia GPU,在另一侧可能支持其他一些 GPU。未来,他们可能会支持其他人工智能加速器。”
库马兰说,即使在部署了 Aurora(一种 Cray EX 设计)之后,Polaris 仍可能继续成为未来研究工作的途径之一。阿贡实验室一直是探索新兴人工智能硬件的热点。其AI 测试平台目前包括 Cerebras CS-1 系统、Graphcore Colossus GC2 系统、SambaNova DataScale 机器和(2021 年推出)Groq 加速器硬件。
Polaris 将提供大约四倍于 Argonne 的 7-petaflops Linpack(11.7-petaflops 峰值)HPE/Cray XC40 Theta 系统的计算能力,该系统于 2016 年底安装,作为早期未实现的 Aurora 概念的伴侣和斜坡机器(又名 A18)。今年年初,得益于CARES Act 的资助,该实验室为 Theta 增加了 24 个 Nvidia DGX A100 节点,显着提升了其能力。
凭借其异构 CPU-GPU 架构(比例为 1:4),Polaris 正在帮助 Argonne 过渡到 Intel-HPE Aurora 系统,由于英特尔路线图延迟(影响 Sapphire Rapids 和 Ponte Vecchio )。美国能源部的百亿亿级计算项目和 ALCF 的 Aurora 早期科学计划中的研究人员将使用 Polaris 开始为 Aurora 准备代码。
“我们在脑海中考虑了许多可能的 Aurora 解决方案,”Kumaran 在谈到技术选择过程时说。“我们想要一些支持多 GPU 节点的东西。而我们想要的东西,会支持一些关键的编程模型的极光,这是MPI,OpenMP的,也SYCL在DPC ++(从英特尔SYCL 2020变种)。我们希望支持这些编程模型,Polaris 提供了该解决方案。
“它有多个 GPU 节点。它支持编程模型。它具有与 Aurora 相同的 Slingshot 互连。我们的早期科学计划通常在传统的 HPC 模拟空间以及数据和学习空间中都有应用。所以我们想要一些优化的框架、优化的 Python 支持,以及诸如此类的东西,这些东西将在 Aurora 上可用,以便这些应用程序取得进展。而这适用于 Nvidia 和 HPE 解决方案。”
Argonne 重点关注的项目包括:
通过推进数据科学的使用来推动对极端尺度流固耦合模拟的分析,从而加快了解生物变量在肿瘤细胞路径中的作用的研究,从而推进癌症治疗;并通过从单一到多种组合筛选数十亿虚拟药物来预测对肿瘤细胞的药物反应,同时预测它们对肿瘤细胞的影响。
通过由美国能源部科学生物与环境研究办公室资助的NWChemEx 项目,推进国家能源安全,同时通过生化研究最大限度地减少气候影响。研究人员正在通过开发模型来解决生物燃料生产中的分子问题,这些模型优化生产生物质的原料并分析将生物质材料转化为生物燃料的过程。
在ATLAS 实验中通过粒子碰撞研究扩展物理学的界限,该实验使用大型强子对撞机 (LHC),这是世界上最强大的粒子加速器,位于瑞士日内瓦附近的欧洲核子研究中心。科学家们在非常大的探测器中研究粒子碰撞的复杂产物,以加深我们对物质基本成分的理解,包括寻找暗物质的证据。
ALCF 主管 Michael E. Papka 表示:“Polaris 装备精良,可以通过加速 AI 功能对用户不断增长的数据和模拟需求的应用,帮助 ALCF 进入计算科学的百亿亿级时代。” “除了让我们为 Aurora 做好准备之外,Polaris 还将进一步提供一个平台来试验超级计算机和大型实验设施(如 Advanced Photon Source)的集成,让更多的科学界可以使用 HPC。Polaris 还将提供更广泛的机会来帮助原型和测试 HPC 与实时实验和传感器网络的集成。”
该实验室已经拥有一些 HPE 系统基础设施方面的经验,包括 Slingshot 和HPE Performance Cluster Manager (HPCM)。一个名为 Crux 的测试台架包括 AMD Rome 处理器、Slingshot 技术和 HPCM。“从这个意义上说,Polaris 是继续大规模测试 HPCM 并为 Aurora 的到来做好准备的另一个测试平台,”Kumaran 说,“不仅在应用程序方面,而且还能够测试系统软件和 Slingshot。”
一个长期寻求并稳步前进的更广泛目标是跨平台代码可移植性。Argonne 的研究人员与 NERSC(伯克利实验室)和 Codeplay(著名的 SYCL 支持者)合作,将SYCL和 DCP++移植到 A100 GPU。“如果人们使用 SYCL 或 DCP++ 将代码移植到 Aurora,他们将能够继续支持该编程模型,而不必重写为 OpenMP 或 MPI 或 CUDA 以在 Polaris 上使用,”Kumaran 说。“同样,我们也探索了支持HIP在这个平台 (Polaris) 上,所以如果您有 CUDA 支持,并且您正在 Summit 上使用 CUDA 进行开发,或者使用 Frontier 为未来的基于 AMD 的平台开发,那么您可以使用它。最后,我们还在探索用于 AMD GPU 的 SYCL 和 DCP++ [与 Oak Ridge 和 Codeplay 合作]。因此,如果您正在 AMD GPU 上寻找 CUDA 和 HIP 的替代解决方案,并且您想运行您的 DCP++ 代码,我们有一个正在处理的概念验证。”
Polaris 已交付,目前正在安装中。预计明年第一季度部署与百亿亿级就绪相关的早期科学工作。