随着百亿亿级计算竞赛进入最后阶段,很自然地想知道后百亿亿级计算时代会是什么样子。HPE 的 HPC 业务部门副总裁兼首席技术专家 Nicolas Dubé 在上周举行的 2021 年欧洲超级计算前沿会议上同意并分享了他的愿景。他在SFE21 上告诉虚拟观众,下一件大事是将 HPC 和(广泛地)所有 IT 连接到 Dubé 所说的工作流互联网。
“这不仅仅是百亿亿级能力,它本身将使我们能够解决一些我们以前从未解决过的问题,而且百亿亿级技术将渗透到广泛的 IT 社区,它的计算量如此巨大[正在生成]的数据量。我们不再只是做经典的模拟 HPC,还做机器学习和数据分析。更有趣的是,这三个领域越来越耦合,甚至流水线化。您可能让数据经历多个阶段,或者您可能使用机器学习来[引导] 经典模拟,” Dubé说。
他详细介绍了潜在的推动因素——加速器芯片及其迅速发展的多样性、封装创新以及基于快速结构和协同定位的多芯片万物、紧密集成的内存处理器通信的兴起。Dubé 认为,在整个 HPC(和大型计算)中注入 AI 以及由此产生的工作流的多样性,将会出现的是一个由他所谓的工作流互联网主导的计算领域,跨越边缘到超级计算机环境.
欢迎来到 Dubé 对后百亿亿次时代的愿景。
好吧,冒着引入新首字母缩略词的风险,这个 IoW 是什么?
“工作流互联网的理念是,数据在整个互联网上生成,然后在不同的点流动和处理,然后在整个互联网上进行分析和可视化。[它] 不仅仅是物联网,物联网都是关于寻址 [设备]。工作流互联网实际上会带来一些价值,”Dubé 说。
“首先,它将从边缘到百亿亿次。为什么?因为工作流将从传感器数据开始执行,所以你知道手机和汽车的所有传感器等等。然后他们可以处理将在百亿亿级超级计算机上运行的微型推理引擎或行星大小问题。这需要更多的数据提取能力,您可能不想将所有数据发送到存储系统或海外。在ATLAS [粒子物理学]项目已经开始寻找那些东西超过十年前。”
Dubé 说,IoW 是关于“将这些原则应用于更广泛的科学领域,因为我们相信这就是前进的方向。”
这是一个有趣的想法,网格计算和物联网的回声都被粉碎了。这里展示的是 Dubé 演讲的六个要点,简要介绍了最近的相关进展以及制定 IoW 的要求清单,许多挑战是熟悉的。
1.首先是基础知识。实现百亿亿级的努力和异构计算的需求通常是产生 IoW 所需技术的催化剂。Dubé 还指出,“无数的芯片初创公司在做加速器”来处理不同的工作负载。尽管如此,还需要做更多的工作。这是 MCM 对内存的预期影响的片段。
“多芯片模块 (MCM) 也正在成为事实上的标准。如果你看,AMD 很早就开始采用 MCM 路径。而现在的下一代主板,您可能会将它们视为 MCM 或那些高速基板,它们将同时具有计算硅、内存和不久之后,一些网络互连直接位于基板上。因此,您将在 MCM 上放置非常高速的数据。大多数数据容量将不再只是加载到 RAM 中,而是可能会加载到更远的一些连接结构的内存中,这些内存可能是非易失性的,但可以在正确的时间以正确的吞吐量进行访问,”他说。
“如果您感兴趣,我们已经做了一些演示,例如,使用XSBench [一个中子传输迷你应用程序] 表明如果您将正确的数据结构放置在连接结构的、延迟更高的内存结构上,您实际上在该基准测试中获得大致相同的性能百分比,即使数据具有更高的延迟,只要您了解您的数据子结构并将其放置在您的内存层上。”
2.白帽与数据主权。目前尚未完全解决的一个关键问题是数据主权。Dubé 同意这是一个严峻的挑战,在 IoW 世界中更是如此。他没有提供具体的技术或实践指南。
“后百亿亿级世界的另一个关键先决条件是数据主权。超大规模者会给你开一辆卡车,对吧?一辆装有硬盘的 FedEx 卡车,您可以将数据放在上面,然后他们将其加载到他们的场所中,但是一旦数据得到处理,他们就永远不会将装有您的数据的 FedEx 卡车送回。在 HPE,我们将自己视为行业中的白帽子之一;我们希望让社区能够以正确的权限和正确的识别机制、正确的端到端加密等方式访问数据,”Dubé 说
“我们不会参与其中数据被锁定在一个王国然后永远无法将其取出的游戏。数据主权是我认为在未来十年我们会听到越来越多的话题。数据是新的货币,它是迄今为止所有组织中最重要的资产。我们需要确保您的数据不仅安全,而且用于其预期目的,并且由于数据提供给计算,我们必须确保正确的计算位置足够靠近数据,以便它可以在正确的环境中处理,”他说。
3.宏伟愿景的新运行时。梦想IoW是一回事;建造它是另一回事。需要针对不同设备的有效并行编程以及能够适应设备多样性的合理性能运行时系统的可用性。
“我们必须找到真正接近该数据源的正确工作流执行引擎。Edge-to-exascale 是一个伟大的愿景,但它需要通过新的运行时和部署模型来实现。今天,我们以非常静态的方式部署系统,并且我们总是在数据中心的范围内执行。我们需要启用一个更加流畅的执行环境,该环境可以将数据从边缘获取到百亿亿级超级计算机的输出,但它们可以在站点之间、组织之间流动,同样,始终具有正确的身份验证和安全机制,但是以一种不那么局限的方式,”他说。
“因此,这导致我们实现了并行运行时环境的民主化。Fortran 和 MPI 以及 OpenMP 是非常强大的工具,但可以使用它们的毕业生比例正在稳步下降。例如,我们需要启用像 Python 这样的新语言。想想我们在 HPE 继承的来自 Cray 的 Project Dragon;它是关于编写一个真正的、非常有能力的并行 Python 执行引擎。Chapel和Arkouda 是另外两个例子。但最终,我们需要开发和运行时环境,使越来越多的用户能够计算越来越大的问题规模。”
4.追求性能可移植性……仍然如此。Dubé 认为,某些人(选择您最喜欢的目标供应商)所提倡的紧密垂直软件集成并不是一个好主意。这不是一个新的争议,也许它是 IoW 的一个硬性障碍。走着瞧。Dubé 主张开放,并表示 HPE (Cray) 正在努力使 Cray 编程环境成为一个不错的选择。
“我们需要性能可移植性(为了)以启用替代计算。因此,有些人正在寻求的软件平台一直到硅的垂直集成乍一看可能很有吸引力,但它确实锁定了任何接受这种模型的人,并且它阻止了您采用替代选项。我们将性能可移植性视为工作流互联网的基础支柱。它允许针对单个代码库针对多个芯片基础进行优化和优化。为此,我们正在将 Cray 编程环境发展为一项关键资产,以扩大影响范围,并将其定位为实现这一广阔愿景的基础资产,”Dubé 说。
“在某种程度上,我们希望 CPE(Cray 编程环境)成为并行工作负载并行模型的 TensorFlow。当你是一名本科生时,如果你想对机器学习进行编程,那么有很多 TensorFlow 本科课程。我们正在努力使 CPE 能够被广泛的人群和本科课程以及所有这些内容所使用。因此,人们有办法为可扩展的并行环境开发代码,而如今这些代码可能会在 x86、GPU 和 Arm 上运行。这就是性能可移植性的全部思想。为了使其更易于使用,我们甚至将其打包在 Docker 容器中,以便任何人都可以在笔记本电脑上运行它。现在正在进入概念验证阶段。”
5. “配置的组合爆炸”。现在有一个有趣的短语。老牌玩家和新人涌现的新筹码是福也是祸。创建系统以适应新的丰富选择同样令人兴奋,但令人生畏且昂贵。Dubé 认为我们需要找到降低硅创新和后续系统成本的方法,以帮助实现 IoW。
“我们需要制定更好的计划来实现硅创新。现在,制造一个新芯片的成本超过 1 亿美元,这还不包括软件和之后的所有支持。如果算上软件,5nm 的成本就超过 2 亿美元。因此,这使得硅创新变得非常困难。最重要的是,为每个新芯片构建一个新平台对于每个系统集成商来说都是非常麻烦的。我们需要来到这样一个地方,不仅要为想要通过欧洲IMEC或MOSIS等计划构建新芯片的人们提供一条制造路线 在美国,但也有供应商采用平台标准外形的方法,这样当新芯片建成时,它可以有一个主板来启用它,实例化它,”Dubé 说。
“我们作为供应商——不仅仅是 HPE,而是所有其他系统供应商——可以接受它并真正降低我们的采用成本,因为现在,在硅成本之上构建主板使得每次定制所有东西都变得非常昂贵有,有一种新的芯片正在问世。当你有一个或两个 CPU 供应商,也许有一两个 GPU 供应商时,它会起作用,但现在我们有 [许多] — 有英特尔、AMD、CPU 方面的多个 Arm 版本,以及然后是 GPU 方面的 Nvidia、Intel、AMD,然后添加所有机器学习加速器。这是配置的组合爆炸,作为供应商,支持如此广泛的机会变得非常具有挑战性。因此,我们作为一个行业需要找出我们将如何实现这一目标。”
6.全球数据中心?如果一个人要设定目标,它们也可能是大目标。创建具有合理治理和实践的基础设施来支持 IoW 是一个大目标。Dubé 认为,数据几乎是一切事物的核心。
“我们在工作流互联网上看到的下一个关键事物是一种全球数据网络。回到谷歌如何通过索引整个内容网络来彻底改变内容网络。人们可以访问所有这些内容,而不会像美国在线那样被锁定。如果我们可以再次为元数据做到这一点,并且具有正确的访问权限和权限,那将是很棒的,因为这样人们将能够释放数据,以便人们可以计算该 [数据] 并将其投入到他们的工作流程中,无论他们身在何处. 这将导致混合执行管道。以SmartSim为例,它是我们与NCAR一起构建的代码 (国家大气研究中心)。我们已经能够使用具有机器学习方法的增强经典模拟 HPC 来加速行星尺度的海洋模型,并且获得洞察力的速度提高了 10 倍,”Dubé 说。
“归根结底,所有这些都是关于拥有开放的东西。正如我所说,HPE 将成为行业中的白帽系统供应商/系统集成商。我们致力于开放、提供选择、成为值得信赖的顾问。我们一直是开源社区的强大贡献者,我正在谈论的 SmartSim 就是一个例子。我知道这是一个非常高层次的谈话,但我们将工作流互联网视为 HPC 的未来,并且确实是互联网的真正重生,工作负载和数据将推动新的洞察力。这就是我们在价值链中处于更高位置的地方,我们所有人都是 HPC 社区,因为我们将这一成果交付给科学家,并最终交付给全世界。”
总结
正如问答中所指出的,IoW 的构建面临着许多技术和治理/实践问题。正如 Dubé 所说,曾经被松散地认为是物联网 (IOT),一个以设备为中心的概念,是否会变成工作流互联网,将令人着迷。