/ 中存储网

利用节点上的非易失性RAM解决HPC的内存和I/O瓶颈

2019-11-11 02:54:26 来源:中存储

节点非易失性内存(NVRAM)是一项改变游戏规则的技术,可以消除许多I / O和内存瓶颈,并为百亿亿次存储提供关键的推动力。

利用节点上的非易失性RAM解决HPC的内存和I/O瓶颈

这是欧洲NEXTGenIO项目的科学家和研究人员得出的结论,该项目是由欧洲委员会的Horizon 2020计划资助的一项计划,旨在探索这项新技术对高性能计算(HPC)的潜在影响。

“当您在计算节点中放置大量的高性能,字节可寻址的NVRAM时,一切都会发生变化,” EPCC高级研究员,爱丁堡大学超级计算中心以及34位软件架构师的艾德里安·杰克逊(Adrian Jackson)说。 NEXTGenIO合作伙伴组织共同开发的节点原型平台,以支持其研究。“计算节点既是存储节点,又是存储节点,您可以扩展I / O带宽并以不同方式使用I / O。您需要正确的工具来访问节点内的数据,但是您可以根据应用程序以不同的方式使用数据。”

对于像Tiago Quintino这样的HPC用户来说,这是令人兴奋的,他在欧洲中型天气预报中心(ECMWF)处理大量,快速增长的数据集。他说:“我们可以做的更多。” “我们可以在内存中拥有更复杂的结构。我们可以在任何地方使用数据,而不必在整个工作流程中移动数据。随着我们节省时间,我们可以运行更复杂的工作流程,进行更多的物理工作,提高模型分辨率。根据我们的数据增长(每两年增长三倍)来推断,基于此技术的I / O系统将使我适应未来的10-15年。它是改变游戏规则的人。

探索非易失性节点上的内存

除EPCC和ECMWF外,NEXTGenIO的合作伙伴还包括富士通,英特尔,巴塞罗那超级计算中心(BSC),德累斯顿工业大学,ARM和ARCTUR。他们共同设计的平台遵循需求驱动的流程,该流程还规定了现实的约束条件。它具有一个定制的主板,该主板装有3 TB的Intel Optane DC永久内存(DCPMM),双第二代Intel Xeon可扩展处理器和192 GB的DRAM。Intel Optane DC内存作为驻留在内存总线上的标准DIMM托管,并且可以由CPU的集成内存控制器控制。节点还连接到两个Intel Omni-Path高性能网络,从而使MPI流量可以通过一个网络传播,而存储通信可以跨另一个网络传播。

为该系统开发的软件包括一个多节点,本地和分布式NVRAM文件系统,使旧应用程序可以透明地受益于新的内存/存储层,而无需更改应用程序。分布式文件系统使用应用程序对象存储来提供数据局部性并减少对并行文件系统(例如Lustre)的依赖。其他系统软件包括性能分析和调试工具,以及SLURM计划程序和工作负载管理器的扩展,用于管理数据局部性并将工作的能耗纳入工作安置决策中。

富士通在其位于德国奥格斯堡的工厂制造了该系统和主板,该系统于2019年3月下旬在EPCC安装。在未来三年内,NEXTGenIO合作者和精选I / O研究人员将可以使用该系统,这为欧洲提供了主要资源增进对重要的新存储技术的理解和使用。

项目成员已开始共享初步结果,以证明该技术对各种HPC用例的影响。[1]这是三个例子。

ECMWF的集成预测系统:时间紧迫的工作流中的强大I / O

ECMWF总部位于英国,每天为全球客户提供五到十五天,每天多次的天气预报。其综合预测系统(IFS)将其结果(每小时约25 TB)写入ECMWF的分布式字段数据库(FDB)。后续工作流程涉及数百个后处理步骤,其中许多步骤是并行进行的,需要快速访问数据输出。如果中央并行文件系统因其他工作负载而减慢了速度,则预测人员必须限制预测并减慢模型的速度。

使用NEXTGenIO平台,ECMWF展示了将数据输出到新型内存并显着提高性能的能力。为了将IFS写入ECMWF的字段数据库,在具有288个Lustre Object的系统上,16个NEXTGenIO节点提供了60 GiB / s的读取带宽和72 GiB / s的写入带宽,而持续读取吞吐量为22.4 GiB / s,写入吞吐量为20 GiB / s。存储服务(OST)节点,每个节点具有10个磁盘。它在工作流程中实现了端到端的改进,幅度超过了一个数量级。ECMWF期望在优化FDB代码时看到进一步的改进。

CASTEP:内存需求量大,I / O最少

CASTEP是共享源软件,使用密度泛函理论从第一原理计算材料特性。它用于多种材料和物质,包括DNA以及新奇的外来元素。

许多CASTEP仿真每个MPI进程都需要大量内存,超过了典型HPC系统的内存容量。这通常迫使用户减少每个节点的MPI进程数量,使CPU不足,并在许多节点上运行仿真,以使仿真适合DRAM。

EPCC使用CASTEP在NEXTGenIO平台上运行需要大量内存的DNA仿真,从而使仅使用DRAM的单个DNA仿真仅需要在单个节点上运行就需要20个节点,尽管速度要慢得多。在四个节点(表1)上,DCPMM的实现使用的时间减少了五倍,而执行速度却比NEXTGenIO系统上的全DRAM执行速度慢了三倍。

表1. CASTEP基准测试结果

CASTEP基准测试结果

实际意义是巨大的,它为HPC站点提供了经济且省电的解决方案,即使对于内存需求超出计算需求的工作负载部署全DRAM平台的替代方案也要慢一些。释放的节点可以用于其他作业,从而优化整体吞吐量并增加成本优势。

OpenFOAM:具有大量小文件的繁重I / O

OpenFOAM是一个开源3D计算流体动力学软件包,实际上是从网格创建到后处理的复杂任务工作流中使用的应用程序的集合。

这里的挑战不仅是数据的总量,而且是每个时间步写入的大量小文件。为了探讨这个问题,EPCC模拟了小型电动飞机周围的气流。在1000个时间步中,OpenFOAM被配置为每五个时间步写入其结果。在16个节点上运行448个进程,中期结果达到806,400个文件和1.2 TB的数据。性能分析表明,在传统的实现中,I / O消耗了50%的执行时间,从而严重限制了可伸缩性。

EPCC使用系统软件将节点本地文件系统有效地安装在计算节点的Intel Optane DC内存上。使用DCPMM作为存储,并使系统软件根据需要将数据移入或移出节点,然后将临时结果写入本地节点。这将整体运行时间减少了多达50%,并且优势随着规模的增加而增加。这些节省的运行时间为您提供了进行更多计算和探索更多解决方案的机会。

早期采用者的见解

NEXTGenIO合作者为HPC用户和技术创新者提供了以下建议。

  • 换个角度思考。Quintino说:“不要像判断Lustre这样的并行文件系统那样来判断这项技术。” “卢斯特(Lustre)就像一辆卡车,它在缓慢移动大量数据。给定大量卡车,您可以移动大量数据并具有大量吞吐量。这是一级方程式赛车,是I / O系统的巅峰之作。它可以是分层系统中的第一层,也可以是突发缓冲区,但是我们应该进一步考虑。它打开了我们从未想过的工作流程。”
  • 保持好奇心。考虑一下哪些用例与您的工作负载和数据中心挑战有关。“在ECMWF,DCPMM是存储层次结构的一部分,” Jackson说。“其他应用程序可以将其用作文件存储,也可以用作使用内存执行常规并行I / O的多节点文件系统。有些人正在使用它来创建更大的内存空间,因此他们可以将问题放在单个节点上,而不是20或30个节点上。利用DCPMM需要对应用程序进行认真的思考和设计,但是好处可能很大。”
  • 愿意做一些工作。Quintino将Intel Optane DC永久内存与GPU进行了比较,后者需要进行一些代码修改才能完全受益。尽管可以直接使用DCPMM,而无需修改代码,但是许多应用程序将从显式控制内存中受益。英特尔提供工具和库,以方便使用内存的全部功能集。

一种做更多科学的方法                 

NEXTGenIO平台将供研究目标与NEXTGenIO项目的研究目标兼容的HPC用户使用。富士通为某些PRIMERGY和PRIMEQUEST型号提供了新的存储类别,其技术团队在与客户协商时正在运用其NEXTGenIO知识。

EPCC资深研究员兼NEXTGenIO项目经理MichèleWeiland表示,英特尔Optane DC永久内存和NEXTGenIO合作伙伴添加的创新标志着HPC领域的可喜变化。她说:“ ??DCPMM代表了内存,I / O和存储系统在未来几年内将如何发展的格局变化。” “它可能表明我们目前看不到的问题还有解决的办法。对于在当前的传统HPC系统中苦苦挣扎,没有足够的内存或足够快的存储空间或受可写数据量限制的人来说,这种方法可能会为他们提供一种改善方法,并做更多的事情科学。”

要了解有关NEXTGenIO项目的更多信息,请访问http://nextgenio.eu

有关访问该平台的信息,请联系Mark Parsons教授,m.parsons @ epcc.ed.ac.uk或MichèleWeiland博士,m.weiland @ epcc.ed.ac.uk

关于作者 

Jan Rowell