美国能源部橡树岭国家实验室的Frontier超级计算机在2022年6月最新的TOP500全球超级计算机排行榜上登顶, 1.1 exaflops 的性能使该系统成为世界上最快的超级计算机和第一台百亿亿级计算机。Frontier实现前所未有的计算性能水平, exaflops 称为百亿亿次计算,每秒计算的阈值是五亿次。
Frontier 的理论峰值性能为 2 exaflops,即每秒两次 quintillion 计算,使其比 ORNL 的 Summit 系统强大十倍。该系统利用 ORNL 在加速计算方面的广泛专业知识,将使科学家能够开发该国能源、经济和国家安全所急需的技术,帮助研究人员解决五年前无法解决的具有国家重要性的问题。
“Frontier 正在迎来一个百亿亿级计算的新时代,以解决世界上最大的科学挑战,”ORNL 主任 Thomas Zacharia 说。“这个里程碑只是对 Frontier 作为科学发现工具的无与伦比的能力的预览。这是国家实验室、学术界和私营企业十多年来合作的结果,包括美国能源部的百亿亿级计算项目,该项目正在部署确保百亿亿级影响所必需的应用程序、软件技术、硬件和集成。”
排名是在德国汉堡举行的2022 年国际超级计算大会上公布的,该大会聚集了来自世界各地的高性能计算 (HPC) 领域的领导者。Frontier 的速度超过了世界上任何其他超级计算机,包括 2018年全球排名第一的ORNL 的Summit,它也位于 ORNL 的Oak Ridge Leadership Computing Facility,这是美国能源部科学办公室的用户设施。
HPE Cray EX 超级计算机 Frontier 在 Green500 榜单上也名列第一,该榜单对商用超级计算系统的能源使用和效率进行了评级,每瓦性能为 62.68 gigaflops。Frontier 在新类别混合精度计算中以 6.88 exaflops 的性能对人工智能常用格式的性能进行评分,从而在一年两次的排名中名列前茅。
早在2019年的时候,美国能源部就宣布,将投资6亿美元打造一台名为Frontier(前沿)的超级计算机,计算能力将是是Summit系统的7倍,计划在2021年上线。
交付、安装和测试 Frontier 的工作始于 COVID-19 大流行期间,因为世界各地的停工使国际供应链紧张。公私团队的 100 多名成员夜以继日地工作,从采购数百万个组件到确保按时交付系统部件,再到仔细安装和测试 74 个 HPE Cray EX 超级计算机机柜,其中包括 9,400 多个 AMD 驱动的节点和90 英里的网络电缆。
“当研究人员在今年晚些时候能够访问全面运行的 Frontier 系统时,这将标志着三年多前开始的工作的高潮,该工作涉及能源部的数百名人才以及我们在 HPE 和 AMD 的行业合作伙伴,”ORNL 助理计算和计算科学实验室主任 Jeff Nichols 说。“来自世界各地的科学家和工程师将利用这些非凡的计算速度来解决我们这个时代最具挑战性的一些问题,许多人将在第一天开始他们的探索。”
Frontier 的 1.1 exaflops 的整体性能转化为每秒超过 1 个 quintillion 浮点运算或 flops,由高性能 Linpack 基准测试测量。每个触发器代表一个可能的计算,例如加法、减法、乘法或除法。
Frontier 在 Linpack 基准测试中的早期表现是 Summit 的 148.6 petaflops 的七倍多。Summit 继续作为开放科学领域令人印象深刻、排名靠前的主力机器,在 TOP500 中排名第四。
根据High-Performance Linpack-Accelerator Introspection或 HPL-AI 测试的测量,Frontier 的混合精度计算性能大约为 6.88 exaflops,即每秒超过 6.8 quintillion flops 。HPL-AI 测试以推动人工智能进步的机器学习方法通常使用的计算格式测量计算速度。
传统 HPC 用户依赖的详细模拟来模拟癌细胞、超新星、冠状病毒或元素的原子结构等现象需要 64 位精度,这是一种计算精度要求很高的计算形式。机器学习算法通常需要的精度要低得多——有时只有 32、24 或 16 位精度——并且可以利用图形处理单元或 GPU 中的特殊硬件,像 Frontier 这样的机器所依赖的更快的速度。
ORNL 及其合作伙伴继续按计划执行 Frontier 的启动。下一步包括对该系统的继续测试和验证,该系统仍有望在 2022 年晚些时候进行最终验收和早期科学访问,并在 2023 年初对全面科学开放。
Frontier 超级计算机的百亿亿次计算性能得益于 HPE 和 AMD 的一些世界上最先进的技术:
Frontier 拥有 74 个 HPE Cray EX 超级计算机机柜,这些机柜专为支持下一代超级计算性能和规模而设计,一旦开放供早期科学访问使用。 每个节点包含一个优化的 EPYC(霄龙)处理器和四个 AMD Instinct™ 加速器,整个系统总共有 9,400 多个 CPU 和 37,000 多个 GPU。由于 EPYC 处理器和 Instinct 加速器支持的一致性,这些节点为开发人员提供了更轻松的应用程序编程功能。 HPE Slingshot 是世界上唯一一款专为下一代 HPC 和 AI 解决方案(包括更大的数据密集型工作负载)而设计的高性能以太网结构,可满足对更高速度和拥塞控制的需求,以使应用程序平稳运行并提高性能。 HPE的 I/O 子系统将于今年上线,以支持 Frontier 和 OLCF。I/O 子系统具有系统内存储层和 Orion,这是一个基于 Lustre 的增强型中心范围文件系统,也是世界上最大和最快的单个并行文件系统,基于 Cray ClusterStor E1000 存储系统。系统内存储层将采用通过 PCIe Gen4 链路连接的计算节点本地存储设备,以提供超过每秒 75 TB 的峰值读取速度、超过每秒 35 TB 的峰值写入速度以及超过 150 亿次随机数据。每秒读取输入/输出操作。Orion 中心范围的文件系统将提供大约 700 PB 的存储容量和每秒 5 TB 的峰值写入速度。 作为下一代超级计算系统和世界上最快的开放科学系统,Frontier 还具有液冷能力,因此还具有高能效。这种冷却系统消除了对噪音更大的风冷系统的需求,从而促进了更安静的数据中心。