中国数字经济的快速发展离不开算力的支撑,为提升国家整体的算力水平,从2022年起我国正式启动了“东数西算”工程。随着工程逐步开展,许多大中型数据中心落地高海拔地区,然而高海拔会对数据中心的电子设备造成散热、绝缘性能等方面的影响外,还会因为中子通量较大,造成电子设备故障,如比特翻转、宕机等情况的发生,甚至还有数据错误或丢失的风险。
一、中子试验
大气中的中子是初级宇宙射线与地球大气中的氧、氮等原子核发生核反应产生的,中子通量随着海拔高度的增长而呈现指数增长,大气中子特别是中高能中子的单粒子效应(SEE)已成为地面大型计算系统,如高性能计算机等可靠性不可忽视的威胁。
为帮助高海拔数据中心避免受到中子的影响,忆联与国内知名实验室联合展开中子试验,以满足数据中心对 SSD 高可靠的需求,助力“东数西算”工程顺利进行。
二、试验环境基本信息
本次试验配置如下:
1、服务器配置:
·CPU:Intel 5218 *2
·内存:8*32G
·网卡:2*10GE+2*GE
2、试验 SSD 数量
本次试验产品主要为忆联自研的企业级 UH8 系产品,试验 SSD 数量共为 12 块。涵盖了 UH810a、UH830a、UH811a、UH831a 等企业级固态硬盘。
3、中子注量率
本次试验中子注量率为 2.67*105 n/( cm2 ·s)。
在国内地面条件下,阿里地区作为中子量最多的地区之一,中子注量率约为 509n/ (cm2 ·h) (En≥1MeV)。在不间断接受中子辐照的条件下,SSD 在本次试验条件下接受到的累计中子注量远超国内地面可接收的最大累计中子注量(对比示例如图 2)。
图 1:试验场景下中子发生设备——靶站
图 2:累计中子注量对比图
三、试验过程及结果
图 3:试验环境整体示意图
图 4:试验现场监测图
1、试验过程
·所有盘片均在同一中子注量率下进行辐照,以中子辐照注量率达到试验要求为开始,以盘片功能失效为结束,通过自动化试验脚本记录运行时间;
·5 块 SSD 为一组,本次试验一共完成 3 组;
·试验人员在监测室实时监测 SSD 运行状况,并进行统计。
2、试验结果
、部分单盘实测结果
图 5:UH810a/UH830a 单盘实测情况-1
图 6:UH811a/UH831a 单盘实测情况-1
图 7:UH810a/UH830a 单盘实测情况-2
图 8:UH811a/UH831a 单盘实测情况-2
、详细运行时间统计
从试验结果可知,UH8 系产品在同一中子注量照射下,最低平均运行时间为 6.5 分钟,总平均运行时间为 11.7 分钟。
三、试验数据分析
忆联 SSD 的寿命一般为 5 年,以阿里地区中子注量率为基准,并以忆联 SSD 在 5 年内累计中子注量达2.23E+07 n/ cm2为计算条件,忆联 SSD 为满足 5 年寿命,试验中需在 2.67*105 n/( cm2 ·s) 中子注量率下,运行时间达到 83s。
试验结果表明,忆联 UH8 系 SSD 平均运行时间达 11.7 分钟,充分验证了忆联 UH8 系 SSD 在较高的中子通量自然环境条件下,具备可抵抗一定中子辐照的高可靠性,自带的 ECC、RAID 数据恢复、重读等功能,能够及时纠正中子带来的比特翻转等问题,能保证在 SSD 使用寿命范围内正常运行,可为高海拔数据中心提供高可靠的 SSD 产品。
“东数西算”是平衡算力增长与节能减排的重要支撑,其成果将在多个方面对未来中国的数字经济发展产生深远影响。数据中心则是“东数西算”工程落地的载体,忆联将凭借高可靠、高稳定的SSD产品助力西部地区建造更强、更安全的数据中心,为中国腾飞插上“数字翅膀”。