作为全球TOP500强高性能计算机排名上半年发布的事件载体,ISC(Internatinal Supercomputing Conference,国际超级计算大会)有着举足轻重的地位,它与年底在美国举办的SC超级计算大会一起,为我们勾勒出未来HPC(高性能计算)产业发展的风向标。不过由于大会的正式开幕日期是7月13日(德国时间),所以今天(7月12日)我来到会场时,主会议厅肯定闭门谢客,只有展示区里各家厂商正热火朝天的装扮着自己的展台,而我也趁机先进行了一番打探。
ISC 2015的赞助商列表,来自中国的华为与联想位列金牌赞助商,中科曙光位列银牌赞助商,浪潮与中国国防科技大学位列铜牌赞助商
本次ISC大会展示区给我印象最深的是,液冷HPC系统可能要算是最大的热点之一,原因在于,商业化液冷系统的明显增多。
液冷HPC系统早已出现,现实中的应用也并不算新鲜,而且从其设计与实现原理来说,相比传统的风冷系统有着更大的局限性,所以称之为主流趋势并不现实。不过随着技术的成熟与相关配套设施的不断完善与优化,液冷HPC的应用门槛正在不断降低,标准化程度也在不断提高,也让其逐渐成为了真正的热点。 在以往的HPC大会的展示区里,液冷系统更多的以DEMO或POC形式展示,但在今年的ISC 2015上,液冷系统的展示,正式商业化的产品比重明显提高,其对于整体市场的现实意义就有了很大的不同。
来自中国的中科曙光公司(SUGON)重点展示了其刚刚商用不久的液冷刀片系统TC4600E-LP,与传统的TC4600E相比,高度增加了1U(TC4600E机箱高度为5U,TC4600E-LP机箱高度为6U)。这多出来的1U就是为液冷设计准备的,它可以说是中国推出的第一款正式商业化的液冷刀片服务器。
TC4600E-LP的6U机箱,可插10个刀片,按照整体HPC方案的配置,1个42U的机架可部署6台机箱,最多共60个刀片(可以是CPU或是GPU液冷刀片)
TC4600E-LP的前身TC4600E可以说是专门为HPC设计(据曙光工作人员介绍,它是目前曙光HPC方案的销售主力机型),这一点从机箱背板设计就可以看出来,最上层是10个InfiniBand直联模块对应10个刀片服务器而无需中板中转,这在当前IniniBand速度不断攀升的趋势下(最高已达100G),对于保证InfiniBand的速率稳定性有非常大的帮助,而在最下方多出的1U高度留给了统一的冷热分离的集中交换器,它将10个刀片的排出的热水与供给刀片的冷却水在总体I/O层面各自进行了整合与简化,并采用了后端设计,有效降低了液冷维护难度
机箱刀片插槽的中板设计(空出了两个刀片槽位),最下方的两个圆形接口就是液冷I/O阀口
TC4600E-LP刀片内部设计,用液冷模块代替了传统的金属散热器,除了通用的CPU刀片外,曙光目前还推出液冷的CPU+GPU与CPU-MIC(Xeon Phi)的异构计算刀片,采用了双槽位设计(本次展会并未展出)
TC4600E-LP刀片尾部特写,与传统TC4600E刀片相比,主要的区别是刀片下方(按刀片插入的形态,即图中的右侧)的液冷I/O阀口,它占用了多出来的1U高度。需要指出的是,传统5U高的TC4600E刀片仍然可以插入TC4600E-LP机箱里,与TC4600E-LP刀片混合使用
当然,TC4600E-LP不可能单独部署,必须配合相应的液冷机柜使用, 根据其技术规格介绍,液冷部分的PUE值可达1.1,风冷部分PUE值可达1.6,整机综合PUE可达1.2。曙光的工作人员表示,TC4600E-LP已经有了第一个商业化案例,这就是由中科院大气所主导设计的“地球系统数值模拟装置”,在本届ISC也将会有重点的介绍。而在今年,曙光将把液冷HPC系统作为一个重点的推广产品,以期能进一步体现曙光HPC解决方案的差异化与技术优势。
接下来要介绍的商业化液冷HPC系统来自日本富士通,它在2014年年底推出了经典的PRIMEHPC FX10系列的接班人——FX100系列,可提供超过100P的浮点运算性能,当然CPU还是采用富士通自己的SPARC64,但型号从SPARC64 IXfx升级到了SPARC64 XIfx。
PRIMEHPC FX100的规格可谓“豪华”,SPARC64 XIfx采用了32 CPU核心+2个OS协处理器核心的设计(专门用于执行操作系统的任务,让其他32个核心专门用于执行HPC软件任务),提供了1T的浮点性能,并且采用了20nm生产工艺(目前英特尔至强还是22nm工艺)。在系统架构上采用了6D高速互联技术,并使用了Hybrid Menory Cube 3D堆栈板载内存,最高可实现512个机柜110562个CPU(节点)的并行集群,最高运算性能达110PFLOPS
PRIMEHPC FX100的计算模块,分上下两层设计,每层有左右对称的(按部署形态)的6个CPU,上下两层共12个,模块的左侧就是出入水阀口,即后端供水设计
PRIMEHPC FX100的CPU内存板,每颗CPU即为一个计算节点,每颗CPU周边有8颗HMC 3D内存芯片(图片上显示为美光生产),单颗4GB容量,每颗CPU(节点)的内存容量也就固定为32GB
展会上展示的另一个比较著名的液冷HPC系统是惠普的Apollo 8000,严格的说它并不是新产品了(推出已有一年之久),不过在液冷HPC系统中它是至今为数不多的,由主流大厂推出的商业化产品,所以仍然具有代表意义。虽然我在一年前就写过介绍它的专文《从Odyssey与Apollo系统看惠普服务器的发展变革》( http://news.zdnet.com.cn/zdnetnews/2014/0716/3027452.shtml),但并没有见过真机,而这次则有机会一睹直容。
Apollo 8000的“整机柜”设计,部署其中的计算服务器和InfiniBand交换机都是为其量身打造的——典型的ProLiant XL730f服务器内置两个双路计算节点(采用至强E5-2600 v3处理器,每个节点256GB内存并配有一块SFF SSD),在1U的全宽机架内包含两台ProLiant XL730f服务器,一个f8000机柜中最多可装载72台ProLiant XL730f服务器(另外8个槽位留给InfiniBand交换机模块),共144个双路计算节点,目前采用NVIDIA Tesla与英特尔经Xeon Phi的加速处理模块也已经推出。在两台服务器之间的则是液冷散热墙,采用净水媒介,而服务器内部采用类似于氟利昂的制冷媒介,并全封闭设计,通过热导管与中间的液冷散热墙进行热交换
Apollo 8000的背部风扇与散热墙的出入水设计
展示区里另一个需要提一提的商业化液冷HPC系统来自著名的克雷公司(CRAY),其合作伙伴,专注于数据中心液冷散热设计的ASETEK展出了CRAY CS300-LC液冷系统的架构设计,以及可能是用于更新的CRAY CS400-LC液冷系统的新节点设计。
CRAY CS300-LC从总体上看出曙光的TC4600E-LP比较像,也是刀片化设计,也是后出入水设计,但不同在于没有对出入水进行集中整合,因此在水管的布置上显得有些繁杂,想必维护起来也更麻烦一些
采用ASETEK方案的液冷双CPU(右)与GPU节点(左),改为了前出入水设计,看上去很像给CRAY CS400-LC设计的方案
除了以上几款商业化的液冷系统之外,我还在华为展台看到了液冷设计的展示,但只是个DEMO模型,所以就不再详细介绍了。总的来说,由于大会的展示区的展台基本都在搭建中,所以很多展品其实还没有看到,但能明显感觉到商品化的液冷HPC系统的确比以前更多了,这也体现出了近一年来了HPC市场的一个比较明显的现象。 可能在以前,液冷HPC更多的还是夸夸其谈,是HPC圈里的一个谈资,而如今越来越多的HPC厂商推出了商业化的液冷系统,就与以往基本上都是DEMO或POC展示,实际应用基本上是Case by Case定制方案的模式,有了重大的意义区隔。
当然,就如很多HPC专家的共识,液冷系统在HPC领域目前仍然不能算是主流,它较风冷系统仍然有很多制约因素阻碍了它的普及。但 我认为时代在变(对HPC的需求与HPC的种类),技术在变(液冷从组件至系统,再到数据中心级的技术演进与成本降低),环境也在变(气候以及新老数据中心的更迭),保持对液冷的持续关注,说不定哪天就会遇到与它的合理交汇点而不至于错过,而这一切也将进一步带动”液冷之热“。