/ 中存储网

机架冷却与工作负载管理工具解决热点问题

2014-10-28 10:19:00 来源:TT中国

热点问题是计算机房空调的一大隐痛,使一些数据中心(Data Center)实施热源冷却以及能跨服务器重新分配工作负载的软件工具。

一些IT团队将每平方英尺的机柜密度推向峰值效率,并为之建立冷却结构。其他的数据中心(Data Center)每个机柜甚至没有达到高功率密度,但IT部门陷入了热点问题。

美国马萨诸塞州绿色高性能计算中心MGHPCC关于计算的研究显示,刀片服务器中包含PB内存、高速中央处理单元(CPU)和GPU,都通过高速互联网络连到一起。

哈佛大学的调查员James Cuff 说:“我们运行的系统不断变热,我们的目标是100%的效能。”

MGHPCC的机柜设计成每个机架负载为标准14KW,每个机架平均约10KW.可是每个机架能够轻松承受20-25KM,理论上达到100KW的密度是可能的。

“当功率上升,液体冷却无疑重新回到了数据中心(Data Center),但是现在,空气冷却的性价比让其更受欢迎。”

MGHPCC的IT技术领导James Culbert说:“MGHPCC使用热通道遏制和行间冷却,通过一个25到106华氏摄氏度的热通道使服务器维持在81华氏摄氏度。”

计算流体动力学模型软件和服务供应商Future Facilities公司的CEO Hassan Moezzi指出:“密集的机柜创造了复杂的空气流类型,需要注意布局和严谨的冷却。一个数据中心(Data Center)就像是俄罗斯方块。”

Hassan Moezzi说:“当目标是100%塞满机架,事实上,设计者们都会制造孔洞和洞隙,物理破碎破坏了能量效率。”一个Future Facilities客户端最终因为超载45%的容量导致过热的机架。

MGHPCC将机架进行了安排,使布线不在热量流动的位置,但是由于高密度和混合使用的机架,他们仍然安排行间系统冷装置冷却热点。其他的数据中心(Data Center)将冷却设置在离热源更近的地方。

MTS Systems公司IT服务经理Greg Tupper 说到:“机架冷却能够节省很多的成本,有效地关闭交流电源,但是我们还没有这么做。”

MTS淘汰了许多旧的服务器,所以他们需要重新部署机架以增加密集度。Tupper展望,在放置冷却器之前每个机架至少有70%的空间是填满的。机架冷却供应商提供了自顶向下或者rear-door模型,以及多种多样的配置选项。Tupper建议研究你的机架是否与冷却系统供应商的产品兼容,并不是每一个机架都是相同的大小或者是相同的深度。

机架冷却装置是一个大型的一次性资本支出,需要相关的人力和设计成本。Tupper推荐在4-5家供应商之间做成本对比,同时加入你的机架密度、存在的问题和目标等已确定的信息。

Tupper 说:“例如,我喜欢OptiCool提供的散热器单元模块化产品,在遇到失败情况时该产品是多重路径,但Subzero的自顶向下设计在我们当前空间中的设置失效。”

MGHPCC发现他们将最初的行间冷却规格设置的有些过度了,能够在每个安装中拿走几台冷却器而不会损失冷却性能。

“这也是我们担心的问题,塞满了机架或者过度投资。” Tupper说。

可是,根据主机托管供应商RagingWire 数据中心(Data Center)SVP兼CTO William Dougherty指出,高密度机柜没有像我们期望的那样快速发展。

多数托管用户和供应商为每个机架装满4-6KW的机柜,他说:“很少有用户为一台机柜分配10KW工作负载。”

Dougherty相信处理器能效的增加会使大多数的商业服务器和IT设备保持和先前版本一样强大。

“用户看不见更加密集的好处,所以增加密集度和应对专门的冷却条件是毫无意义的。” 他说。

工作负载管理缓解热点问题

系统管理软件供应商TeamQuest 公司市场发展主管Dave Wagner指出,相反,数据中心(Data Center)IT员工能够通过重新分配工作负载来改善热点问题。Wagner说到:“在另一台机架中也许有未充分利用的服务器能够接管热机柜的工作负载。你需要知道哪里有剩余空间和哪里的芯片负担过度。”

工作负载管理是“比构建CRAC更加便宜,”Wagner说。

典型企业的数据中心(Data Center)中有来自不同厂商的不同设计因素,可能每家厂商的产品也有不同版本,Wagner说,你必须建立热量和电源之间的物理映射,同样还有应用资源消耗的工作负载分配的映射。数据中心(Data Center)基础设施管理工具能够管理这些方面,他说。这些需要IT和设备团队去经常查看映射。

毕竟,数据中心(Data Center)充满了IT 设备,一个不变的操作是:改变。

Future Facilities公司Moezzi 说:“你认为你已经设计了最灵活的、只要智能电源在最大数量(例如两百万瓦特)内,能够做任何你想做的事,但是每个改变都在侵蚀你的容量和电源。”

任何改装或者是建立新的数据中心(Data Center)的人都应该准确地测量每个机柜的电能是否接近低能效,防止过度冷却或者未利用的冷却装置运行在上面。Wagner说,在高负载情况下,机柜也许承载了比标准负载情况多五倍的能源,所以你怎样设计两者?预留空间来转移负载。

Dougherty说:“像PowerAssure的软件定义电源的自动化和流程编排层,能够使数据中心(Data Center)在经营需求的基础上转移工作负载,当需求变化时,重要的是将服务器移来移去需要保持可靠性和一致性,这种做法就电源使用、延迟和管理上而言都会获得回报。”