/ 中存储网

NVIDIA Mellanox UFM Cyber-AI最大限度地减少超级计算数据中心的停机时间

2020-06-23 08:47:33 来源:中存储

数据中心拥有许多用户和应用程序,并已成为研究组织和制造公司的竞争优势。随着越来越多的科学计算需求和新的安全威胁推动超级计算机的运营成本不断提高,保持数据中心的完整性和健康状况至关重要。此外,恶意用户可能会通过运行禁止的应用程序(例如,加密货币挖矿)来利用数据中心访问权限来滥用计算资源,从而导致意外停机和更高的运营成本。

NVIDIA在本周推出了Unified Fabric Manager(UFM)Cyber-AI平台,该平台可利用AI支持的分析来检测安全威胁和运营问题,从而最大限度地减少停机时间并节省InfiniBand数据中心的OPEX,并预测网络故障并提供预防性维护建议。UFM Cyber-AI是UFM产品线的新成员,其中包括广泛使用的UFM企业平台。UFM Enterprise平台通过其网络监视,管理,性能优化,配置检查和安全电缆管理功能,一直在帮助超级计算机系统管理员管理InfiniBand网络。除了这些功能外,新的UFM Cyber-AI平台还利用AI来学习数据中心的操作节奏和网络工作负载模式,同时利用实时和历史遥测以及工作负载数据。以此基准为基准,它可以跟踪系统的运行状况和网络修改,并检测性能下降,使用情况和配置文件更改。此外,随着时间的推移,随着系统数据的收集,可预测性得到了优化,并且学习了数据中心的节奏。这使系统管理员可以快速检测并响应潜在的安全威胁并解决即将发生的故障,从而节省成本并确保为客户提供一致的服务。

NVIDIA Mellanox UFM Cyber??-AI最大限度地减少超级计算数据中心的停机时间

UFM平台包括多个解决方案级别和全面的功能集,可以满足最广泛的现代横向扩展数据中心要求。为了完善UFM平台产品组合,NVIDIA还推出了UFM Telemetry平台。UFM Telemetry提供网络验证工具并监视网络性能和状况。它捕获丰富的实时网络遥测信息,工作量使用情况,系统配置等信息,并将其流式传输到已定义的内部部署或基于云的数据库以进行进一步分析。

NVIDIA Mellanox UFM Cyber??-AI最大限度地减少超级计算数据中心的停机时间

UFM可以轻松地与现有数据中心管理工具集成。UFM提供了一个开放且可扩展的对象模型,以描述数据中心基础架构并执行所有相关的管理操作。UFM的REST API支持与领先的作业调度程序,云和群集管理器(包括Slurm和Platform LSF)集成。UFM还提供网络供应以及与OpenStack,Azure Cloud和VMware的集成。最后,定期进行性能分析对于确保您的NVIDIA Mellanox解决方案与您的业务目标和最新的NVIDIA Mellanox技术保持一致至关重要。我们的NVIDIA Mellanox Care监控和NOC服务会在任何潜在故障发生之前不断检查您的解决方案,通过在问题出现之前识别并解决问题,让您高枕无忧。结果是增加了ROI,降低了系统维护成本。通过将增强的实时网络遥测与基于AI的网络智能和分析功能相结合以支持横向扩展的InfiniBand数据中心和NVIDIA Mellanox Care服务,NVIDIA Mellanox UFM平台产品组合可彻底改变您的超级计算机数据中心网络管理,节省运营成本并保持客户满意度。