/ 中存储网

分析一下微软Azure超算新贵Voyager的运营成本,有点惊人

2021-11-17 01:10:04 来源:中存储

本届也就是2021年11 月top500超级计算机排名中,最有趣的新机器实际上是一个在 Microsoft Azure 上永久运行的集群,名为 Voyager(不要与同名的圣地亚哥超级计算中心的集群混淆)。Voyager 系统不是基于其 HBv2 实例的全 CPU 设计,该实例使用一对 60 核 AMD “Rome” Epyc 7742 处理器,或者HBv3 实例将首次亮相混合内核数量和缓存配置在不久的将来某个时候的 Milan-X. 相反,Voyager 集群中的 Azure ND A100 v4 实例有一对定制的 48 核 AMD Rome Epyc 7V12 处理器,运行频率为 2.45 GHz,与八个 Nvidia A100 GPU 加速器相匹配,每个加速器具有 40 GB 的 HBM2 内存。这些实例具有 900 GB 的物理内存、一个来自 Nvidia 的 200 Gb/秒 HDR InfiniBand 接口,用于每个 GPU 加速器,以及返回服务器主机的 PCI-Express 4.0 连接。这些实例实际上在去年的 SC20 上进行了预览,并于今年 6 月投入生产。

Azure 上的 Voyager 集群共有 253,440 个 CPU 内核和 GPU 流式多处理器(或 SM),这就是进行 Top500 排名的人如何正确比较具有这些截然不同架构的 CPU 和 GPU 计算元素。具有 40 GB 内存的 A100 有 108 个 SM,因此总共有 228,096 个 SM,总共留下 25,344 个 CPU 内核。如果你算一算,Voyager 机器有多达 264 个物理节点。该系统具有 39.53 petaflops 的峰值理论性能,并在运行 HPL 基准测试时提供 30.05 petaflops 的 64 位 oomph,计算效率为 76%,这是当今混合 CPU-GPU 架构的典型特征。30 petaflops,你在名单上排名第十。

ND96asr A100 v4 实例,因为这个具有两个 CPU 和八个 GPU 的虚拟机被正式称为具有 6.5 TB 的本地存储和一个 40 Gb/秒的链接到 Azure 网络(以及外部世界)。如果您以现收现付模式购买,每小时收费 27.197 美元,如果您保留一年,则实例成本降低 31%,每小时 18.8284 美元,如果您保留三年,每小时收费 10.8788 美元. 那么这台264节点机器三年的成本是多少呢?一天有 24 小时,一年有 365.25 天,超级计算机的使用寿命有三年,因此在 Azure 上保留这台机器三年,每个节点的成本为 286,090 美元,264 个节点的三年成本为 7553 万美元。这包括电力、冷却、数据中心和系统管理成本。

我们可以很容易地估算点亮和冷却这个 Voyager 实例所需的功率,并在下表中进行:

分析一下微软Azure超算新贵Voyager的运营成本,有点惊人

我们认为这是一个 1.2 兆瓦的集群,包括网络和存储,三年内将运行约 360 万美元。所以我们减去它以获得机器、设施和管理成本。

现在,让我们找点乐子。假设微软想在 Azure 上降低 exaflops 的魅力并让它运行三年,这样它就可以保持在 Top500 名单上,并将其能力贡献给科学。为什么不呢?)这将需要 8,785 个 ND96asr A100 v4 实例——略少于 9,000 个节点数,因为进入橡树岭的“前沿”超级计算机将拥有,顺便说一下,由于这些,它的性能将提高约 50% AMD“Aldebaran”Instinct MI200 加速器——你最好拿出山姆大叔的支票簿来支付这个费用。让我们算一算:

三年后,按照微软的标价折扣,Voyager 百亿亿级机器将耗资约 25.1 亿美元,即使你在三年内以约 1.2 亿美元的成本收回价值约 40 兆瓦的果汁,你仍然有 23.9 亿美元成本。这个数字让我们的眼睛流泪,就像我们在感恩节早上切洋葱来塞几只火鸡一样。考虑到Frontier 的硬件成本为 5 亿美元,非经常性工程 (NRE) 成本为 1 亿美元,因此它恰当地表明了云 HPC 比本地 HPC 昂贵得多的看法。Frontier 的额定功率预计约为 29 兆瓦,因此称其为大约 9000 万美元,用于为它供电和冷却三年。

现在我们知道为什么微软、谷歌、AWS、阿里巴巴、百度和腾讯不拿百亿亿级机器来刷存在感。他们看重的是利性和大规模规模成本,而不是所有权和容量规划责任简而言之,这就是云。将云实例与本地集群进行对比时,5 到 9 倍的成本差异仍然很常见。您必须计算云提供商所做的所有事情的成本——在已建立技术的架构决策上承担风险,以及 HPC 中心在推动技术包络方面承担的风险,在对表格中的数学进行全面核算时考虑在内以上。这是我们没有做过的,没有更多的信息也做不到。差距并不像看起来那么大,但它会一直存在,因为任何云构建商的利润率都必须大于他们获得的批量定价折扣,考虑到云必须始终过度配置他们的计算、网络, 和存储。

本文来源nextplatform