今天的数据中心消耗了全球 1% 到 3% 的电力。目前,超过 80%(参考文献 1)的电力是通过燃烧化石燃料产生的,而发电是全球最大的温室气体排放源。然而,随着不断向消费者和组织提供新服务,数据中心不断扩大。包括 CPU 级世代增强、异构计算以及更快的存储和网络在内的高级计算技术能够将更复杂的分析和模拟引入主流工作负载。
随着人工智能从研究主题转向企业工作流程以增强业务目标,出现了几种新的硬件架构。与仅使用 CPU 的传统应用程序相比,使用这些创新设计可显着加快 AI 训练和推理速度。由于特定应用程序的性能达到千万亿次,此类系统仍然需要主机 CPU 并产生大量热量。
寻找 COVID-19 疫苗以及对全球大流行的相关研究已将 HPC 技术在关键医疗保健研究中的作用推到了最前沿。美国国家实验室参与了多个研究项目,利用他们的 HPC 专业知识寻找治愈方法和了解突变。一个例子是劳伦斯利弗莫尔国家实验室 (LLNL) Ruby 集群,它被用于应对各种研究挑战。Ruby 被用于非机密研究,包括中子成像射线照相和聚变研究。在 Ruby 上进行的其他工作与小行星探测、月球形成和高保真裂变过程一样多种多样。在医疗保健方面,Ruby 被用于寻找治疗药物和设计抗体来对抗 SARS-CoV-2。第三代英特尔®至强®处理器与内建的人工智能加速。
虽然可以从单个服务器构建大型 HPC 系统,但大型多机架安装的功耗可能很大。此类大型数据中心的环境影响可以以兆瓦时为单位进行衡量,然后根据用于产生消耗电力的发电厂转化为二氧化碳排放量。数据中心运营商可以做出多种选择,以减少 HPC(或企业)数据中心对环境的影响。
可再生能源购买力——许多公用事业公司可以选择产生的电力来自何处。全球约 80% 的电力是通过化石燃料产生的,这种选择会对大型数据中心的运营产生的环境影响产生巨大影响。
高效的数据中心组织——通过让服务器产生的热空气远离 CPU 和其他组件上的冷空气,可以实现更高效的冷却。冷通道和热通道需要控制空气。保持冷热空气分离的最有效方法是用密封解决方案封闭这些过道中的任何一个。通过实施不同的热通道和冷通道,数据中心可以提高其入口空气的温度。
适当时使用液体冷却 - 对于运行时间百分比较高且采用高功率 TDP CPU 的系统,液体冷却可能是一种选择。由于液体冷却的效率比空气冷却高 1,000 倍左右(液体分子更紧密),因此这种冷却技术将随着时间的推移使用更少的电力来节省成本。
在工作负载配置文件中调查服务器功耗——尽管当今大多数 HPC 服务器使用相同的底层 CPU 和 GPU,但机械设计的差异会影响功耗。使用先进的机械和建模技术,可以对组件上的最佳气流进行建模,从而降低风扇速度并减少 CPU 和 GPU 的过热。
选择大小合适的系统 – 有多种外形尺寸可供选择,其中包含不同的 CPU、GPU、内存和存储功能,因此必须根据工作负载和获得结果的时间要求做出选择。可以共享较大风扇的系统通常会降低功耗,因为较大的风扇不必像较小的风扇一样努力工作来保持服务器凉爽。
选择更高效的 CPU——随着主要 CPU 供应商的最新公告,系统供应商提供配备最新 CPU 的新服务器。在每瓦性能测量中,由于更快的时钟速率、更多的内核和更快的总线速度,这些新系统对于 HPC 应用程序的速度更快,并且它们每瓦电力执行更多的工作(想想应用程序)。
不要忘记相关的硬件——在 AppDirect 模式下使用时,持久内存会显着影响性能。这允许开发人员将持久内存用作数据的缓存,虽然速度不如 DRAM,但比存储设备快一个数量级。
Supermicro 为许多应用程序提供范围广泛的服务器。在 HPC 领域,美超微提供最新的第三代英特尔至强可扩展处理器和第三代 AMD EPYC™ 处理器,具有不同的外形。凭借市场上最密集的 CPU 和 GPU 型号,美超微每平方英尺数据中心空间可以提供更高的总 GHz。此外,由于创新的机械设计,Supermicro 服务器对环境的影响也有所减少。对于需要最密集机架安装的数据中心,液体冷却也是一种选择,为非常高性能的配置提供冷却。
参考:
1 - https://ourworldindata.org/fossil-fuels