/ 中国存储网

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

2025-11-17 20:48:06 来源:中国存储网

虽然采用人工智能的动力往往集中在半导体短缺和算法优化上,但更大的限制因素是电力基础设施。根据德勤最近对 120 名美国电力公司和数据中心高管进行的一项调查,72% 的人认为电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍。

电源和冷却限制是未来三到五年人工智能数据中心增长的重大障碍

现代 AI 工作负载需要比传统数据中心应用高出三到五倍的功率密度,GPU 集群每个机架需要高达 100kW 的功率,而传统服务器的典型功率为 10-15kW。功耗的增加影响了嵌入式系统设计的每个部分,从芯片级热管理到机架级冷却分配。

拥有可用电力并不是唯一的问题。人工智能工作负载以非常规的方式给传统的供电系统带来压力。训练大型语言模型 (LLM) 会产生功率峰值,需要能够处理持续高负载和快速瞬态的基础设施。面对这些挑战,工程师不得不重新考虑配电单元 (PDU) 的尺寸、不间断电源 (UPS) 容量和备用发电机的规格。

临界点热管理

这些高密度人工智能集群产生的热负荷超出了传统空气冷却的能力。液体冷却解决方案对于机架级的 AI 部署变得必要。然而,大规模实施它们需要重新设计传统的板和机架架构。

当处理器以持续的高利用率运行时,芯片到芯片的热管理变得至关重要。人工智能的问题在于,没有占空比允许热恢复来保持一致的高温运行。借助人工智能,对复杂的热界面材料、散热器和冷却分配网络的需求出现了。传统系统设计足够的热设计功耗 (TDP) 额定值现在不足以满足持续的 AI 工作负载。

网格规模瓶颈

正如德勤调查所揭示的那样,电力容量是资源分配的主要竞争点,这种限制会影响部署时间表和系统性能。

新的发电能力在交货时间方面面临重大挑战,因为发电厂项目可能要到 2030 年代才能投入使用。此外,具有电池存储功能的可再生能源项目可能会面临输电基础设施的延误,延误可能会持续十多年。然而,人工智能开发周期需要六个月的冲刺才能完成。

“权力第一”的方法

工程师现在必须平衡计算吞吐量与能效,实施针对 AI 工作负载要求进行优化的动态电压和频率缩放 (DVFS) 技术。这种新的功率优先方法需要根据可用功率余量调整处理强度的预算分配。

基于传统连接或房地产成本的站点可能不是成功部署人工智能的最佳地点,因为人工智能要求需要不同的电力基础设施容量。或者,电力优先的方法利用“搁浅电力”资产和创新购电协议 (PPA) 来比传统开发时间表允许的更快地释放容量。

供应链和组件优化

电力受限的挑战在整个供应链中产生了涟漪,影响了关键组件的可用性,包括变压器、开关设备、冷却分配装置 (CDU) 和备用电源系统。即使在最终系统规范完成之前,就必须将长引线设备纳入设计过程。这意味着需要考虑更灵活的模块化设计方法,以便在不影响系统性能的情况下进行替换。

还需要更复杂的电源管理集成电路 (PMIC),以对 AI 加速器芯片内的电源域进行细粒度控制。这些解决方案支持动态功率门控、电压调节优化和热节流,从而在可用功率预算内最大限度地提高计算性能。

结论

人工智能正迫使嵌入式系统设计进行根本性的重新思考。功率必须从周期后期考虑的约束转移到第一个设计参数......这一转变涉及嵌入式系统设计师、电力工程师和设施规划者之间的早期协作,以确保计算需求与基础设施能力的最佳匹配。

掌握高效AI部署的开发者将在持续面临电力限制的世界中拥有竞争优势。实现人工智能承诺不仅仅是关于进化芯片组;这还需要重新构想我们如何大规模构建和部署计算基础设施。