/ 中存储网

在 HPC 大海捞针:使用 AI 大规模监控异常

2024-01-15 03:46:31 来源:科技号

科技号消息,法国替代能源和原子能委员会 (CEA) 在许多技术领域的研究、开发和创新方面发挥了重要作用。2021 年底投入使用的新型 EXA1 超级计算机的第一个分区称为 CEA-HF,基于 Atos(现为 Eviden)BullSequana XH2000,并采用第二代 BullSequana eXascale 互连 (BXI V2)。该系统提供 12,960 个 AMD 处理器(或 829,440 个内核),并实现了 36 PFlops;EXA1 完全由水冷却,并与 Atos 共同开发,可满足 CEA 军事应用部门推动的核防御计划的模拟需求。

与许多超级计算站点一样,CEA 在监控 EXA1 方面面临着重大挑战。组成该中心的数以万计的服务器和设备每秒生成数千个系统指标。在如此庞大的数据中检测故障或异常是一项艰巨的任务,对于人类操作员来说几乎是不可能的。

CEA的军事应用部门开发了一个控制系统,用于监控计算中心内的所有事件流,以简化监督过程。该系统可以引入和分析大量的监控数据,包括系统事件、性能指标和能耗指标。它可以识别需要特别注意的异常情况。

在人工智能算法 (AI) 的帮助下,该系统能够精确识别故障组件(节省寻找干扰原因和后果的宝贵时间)、检测难以检测的问题,甚至预测它们。

该系统的第一个实现是为了监控计算机的电源和冷却基础设施而开发的;一旦投入运行,它就明显地发现了几个异常情况,例如冷却系统的不规则性或电力系统中的接线错误,从而导致异常用电。除了异常检测之外,AI 还可以确定任何观察到的系统配置是否可以在不降低性能的情况下节省能源。

在 HPC 大海捞针中寻找指针

这两张图分别表示用于计算的电力使用情况(图1)和其中一个逆变器提供的电力(图2)。通常,电功率水平会随时间波动,具体取决于系统的计算负载

在本例中,图 1 中的整体图形没有显示任何明显的异常。为了检测异常情况,需要操作员单独检查每个组件的功耗。

在 HPC 大海捞针:使用 AI 大规模监控异常

图 1:整机的计算能力使用情况随时间变化的图。来源:CEA

然而,AI 算法突出显示了 2 号逆变器上的特定异常过度消耗,如图 2 中的绿色部分所示。系统会立即提醒操作员注意这一标记的异常情况,并提请注意原本不会被注意到的潜在问题。在此特定情况下,异常行为归因于接线错误。

在 HPC 大海捞针:使用 AI 大规模监控异常

图 2:AI 算法突出显示了 2 号逆变器上的特定异常过度消耗,由绿色部分表示。来源:CEA

在此示例中,系统通过自动检测与预期模式的偏差来节省时间,并向操作员提供有针对性的信息,表明需要进一步调查,特别是关于2号逆变器。

鉴于这些有希望的结果,该系统现在将应用于计算中心的其他方面,例如硬件故障检测、计算和存储资源利用率的优化以及安全漏洞的识别。从长远来看,人工智能可以自动为计算中心确定适当的管理策略:高性能模式、节能模式(在能源危机中有用)或故障后的降级模式。

由CEA军事应用部开发的ML(机器学习)系统已经证明了监控大规模系统异常行为的能力。除了检测日常操作中的“隐藏”事件外,人工智能系统还有助于识别事件来源。这项创新为关键基础设施监控的进一步应用铺平了道路,特别是在能源和网络安全领域。同样值得注意的是,人工智能系统可以提高能源效率并降低许多非HPC计算中心的运营成本。随着机器变得“太大”而无法进行人工监控,CEA基于人工智能的工具为可扩展的系统提供了一条前进的道路。