大数据文摘出品
2019年底的新冠疫情,给全世界按下了暂停键。
但一场未被人注意到的比赛,才刚拉开序幕。
2020年1月,新冠病毒人传人的事实得到确认,2月,德克萨斯州麦克莱伦的研究小组的实验证明,新冠病毒的强度被证明至少是SARS的10倍……
引起疫情的原因是什么?重症患者后期缘何会出现低氧血症?病毒感染的靶细胞是什么?要从日渐攀升的确诊数中拯救更多人,通过病毒基因测序来了解这种疾病显得刻不容缓。为了探索这些问题的答案,中国的医学专家们在新冠肺炎疾病病因学方面展开了深入探索。
2020年大年初三,面对全然未知的病毒,上海市公共卫生临床中心紧急求助转化医学国家重大科技基础设施(上海)瑞金基地(以下或简称为“瑞金国家转化医学中心”),瑞金国家转化医学中心立即召集精兵强将,开始“与时间赛跑”,对新冠病毒进行基因测序。
对一种全新的病毒进行测序和分析不是件容易的事情,研究人员需要持续将病毒数据纳入病毒基因组快速分析流程,按照不同的参数在基因组进化动态分析跟踪展示平台进行验算,整个过程耗费超过200万个CPU核时。
在这场争分夺秒的抗争中,面对人类一无所知的新病毒,瑞金国家转化医学中心从零开始,仅用了45天就实现了对于新冠病毒的基因组测序和组装,就新型冠状病毒基因组、分子流行病学特点、疾病临床特征进行了深入研究。
图:组装的 SARS-CoV-2 基因组分析,来自Viral and host factors related to the clinic outcome of COVID-2019
2020年5月20日,《自然》杂志在线全文发表了该项研究成果“Viral and host factors related to the clinic outcome of COVID-2019”。文章阐述了新冠肺炎的病理生理,并为后续治疗提供相关病理学依据,也为保护全人类生命安全做出重要的贡献。
论文链接:https://www.nature.com/articles/s41586-020-2355-0
这一切成果并非偶然。
基因测序之于瑞金国家转化医学中心虽是日常工作的一部分,但要从头完成一种新病毒的测序及研究,除了过硬的科研能力,还需要完备的基础设施的支持。而早在2017年,瑞金医院就已经开始打造一个集存、传、算、用为一体的定制化超算平台,还成功利用其研发了服务全国五百多家医院的《中国成人白血病诊疗登记管理系统》。
可以说,这项工作,非瑞金国家转化医学中心莫属。
“与时间赛跑”的瑞金国家转化医学中心
转化医学一直都是一个“与时间赛跑”的领域。
其本质就是在主张更为紧密地结合基础医学研究与临床实践,通过多学科交叉合作,实现“从实验室到临床、再从临床到实验室”的转化。
而一旦前期分析和探索新疗法或尝试新药物花费了太多时间,临床实践的时间便会大幅缩减,治疗周期被延长不说,还可能错失最佳治疗时机。
因此,引入超算平台对于瑞金国家转化医学中心这个国内首个也是截至目前唯一建成的国家级综合性转化医学中心来说,成了一件顺势而为的事。
但在初期实践中,该中心的IT技术团队发现,该平台搭载的英特尔® 至强® 可扩展处理器固然可以保障算力性能,但存储系统始终难以满足实时、高频和高效的数据访问和处理需求。
要知道,瑞金国家转化医学中心的日常研究和工作主要围绕基因组测序、转录组测序、蛋白质组学等组学检测技术,结合不同患者生理生化指标、疾病历史诊疗结果等信息,通过生物信息学手段对原始数据进行综合分析,再通过机器学习、深度学习和人工智能等方法整合特征数据。而单个人类全基因组测序分析涉及的数据可能高达870GB,这一套流程下来,数据量级已经难以想象了。
同时,平台还必须满足不同的转化医学团队对不同生信数据的高需求。也就是说,瑞金眼中超算平台的理想存储系统,不仅要具备存储海量数据的能力,还必须要具备更出色的I/O和吞吐能力。
也正是这些制约因素,让瑞金与英特尔再次携手合作。
打破HPC领域的存储墙
瑞金的数据存储难题并不是个例,而是在转化医学研究过程中的常态,也是很多高性能计算系统都在面对的主要瓶颈。
1996年,转化医学的概念在柳叶刀杂志上首次问世。2003年,时任美国NIH主任的Elias A. Zerhouni明确指出,转化医学的核心是要将医学生物学基础研究成果迅速有效地转化为可在临床实际应用的理论、技术、方法和药物,也即打破基础医学、药物研究、临床医学之间的屏障,加强研究与应用之间的结合。
在转化医学的实践过程中,如果失去超算平台的技术支持,处理海量生信数据的速度和质量将会大打折扣。但超算平台的建设并非一劳永逸,如果存储性能跟不上算力,高性能处理器应有的功效也会遇到效率瓶颈,这就是所谓的存储墙。
打破转化医学的存储墙,也就是在“与时间的赛跑”中拯救更多的病患。而突破高性能计算的存储墙,其影响和意义也会超越单个行业或应用领域。
其实不止是瑞金国家转化医学中心,整个行业都亟需一个性能更出色、功能更全面、部署和应用也更便捷的新型存储方案,于是,英特尔® 傲腾™ 持久内存和基于它打造的DAOS(Distributed Asynchronous Object Storage,分布式异步对象存储)应运而生。
这个新方案几乎是从初试啼声开始,就改变了高性能计算领域的存储竞争格局——以该领域权威的IO-500排行榜为例,瑞金国家转化医学中心使用的ASTRA高性能计算平台,在去年就以高达87.50 GiB/s和2984.61 kIOP/s的带宽和吞吐性能于拿下了该榜单10节点榜单第8名的排位,在IO-500总榜单上也排名第14,堪称中国及全球生信领域高性能计算系统存储性能中的佼佼者。而今年最新一期的排名上,前10名中也有一半是在使用DAOS方案。
图片来源:https://io500.org/list/sc21/ten
这一切,都要归功于对于存储系统的全新设计。在生信超算平台的建设中,瑞金采取了三级存储模式,其中原始数据的存储及备份采用的是传统并行文件系统方案,而一些追求更极致性能的生信计算部分,则采用了基于英特尔® 傲腾™ 持久内存的DAOS并行文件系统。
DAOS是一种开源软件定义横向扩展对象存储,可为高性能计算应用提供高带宽、低时延和高IOPS的存储容器。DAOS主要使用傲腾™ 持久内存和固态盘,能形成更加灵活的分层存储机制,把热数据、源数据、索引数据放到持久内存里,利用距离处理器更近的优势来为更大体量的数据提供高速低时延访问,从而构建出更有层次化的、能适应新的数据读写需求、模型及工作流的存储系统。
可以说,DAOS涵盖了创新存储介质和技术、以及对这些介质和产品使用方式的双重革新,这也是它赢得与时间赛跑的关键所在。
DAOS中这个创新存储介质,所指就是英特尔的傲腾技术,而产品则是基于这种介质开发的傲腾持久内存。其创新之处,就在于它兼顾了传统内存和存储产品的优势,但同时又尽可能避开了它们的短板。具体来说,现在的内存多使用DRAM,它性能高、读写快,主要用来承载热数据。这看起来没什么问题,但问题就在热数据的体量一旦变大,DRAM要进行容量扩展时,其成本过高,单条容量受限以及掉电数据就会丢失等短板就会暴露出来。
相比之下,作为DAOS存储加速硬件底座的英特尔® 傲腾™ 持久内存,不但能像DRAM一样,可插入现有DIMM插槽,并提供接近于DRAM的性能,还可以像存储一样,提供更大的容量规格(目前单条容量可达128GB、256GB和512GB)以及数据的持久化存储。它同样可以担负起承载热数据的重任,而且还是容量数倍于DRAM的热数据,这就加快了算力对数据进行读写和处理的整体效率,而且在计划中的停机和意外宕机后,这些数据还无需从存储设备中重新加载,可大大加快重启时间并减少I/O,从而显著降低了大内存节点的功耗。
图注:从架构层面了解传统存储系统(左)与基于英特尔傲腾™ 持久内存的DAOS系统(右)的差异
加快了数据读取和处理速度,就加快了整个高性能计算系统的数据处理效率,也就为病患争取了更多的治疗时间。同时,随着数据不断积累,新方案也给医生的日常诊断提供了值得借鉴的参考,由此形成了一个数据闭环,如此循环下来,时间越久效果自然就越好。
破墙之后,量变引起质变
一旦存储墙问题得到缓解,量变终会引起质变。
在面对超高深度肿瘤全基因组测序这种超大数据的处理时,原先需要一周的处理时间,在经过全面和反复的调优,包括引入DAOS及使用至强可扩展平台对Sentieon提供的测序应用加速后,瑞金国家转化医学中心现在只需要7-8个小时就能得到结果,而且优化还在持续,以求更进一步缩短肿瘤分析的用时。
效率提上去之后,基因检测就可以更好地向临床方向发展。
通过大数据对现有知识建模,在软件的辅助下病患就能得到更多新的信息,这些信息都是与基于病患的诊断和临床的路径密切相关的。再纳入到瑞金"300张床"的研究型病房背景下,病患就能有更多种方案的选择,而这些都是根据数据分析的结果来确定的。
虽然瑞金国家转化医学中心建立在瑞金医院内部,但转化医学中心本身又作为一个医院在运行,其也拥有一整套完整的信息系统,这些信息与医院的信息是完全对接的。
面对专病时,由于其自身的数据集逻辑、检验指标等方面都存在差异,直接调用医院系统数据存在较大的问题。因此瑞金国家转化医学中心正在着手一个全国性白血病数据分析的项目,需要采集汇总近500家医院的数据,涉及到8万多病人。但是在分析过程中,他们发现,统一回收的数据特异性不够,精细到某一个病后精细度又变差了。如果转化医学中心能够把这些信息系统都打通的话,数据收集也就会变得更加轻松。
此外,随着AphaFold2在蛋白质结构预测领域声名鹊起,相关运行代码的开源分享,结构生物学研究进入一个新的时代。瑞金国家转化医学中心ASTRA高性能计算平台共同负责人吕纲也告诉大数据文摘,中心也在尝试利用高性能计算在临床问题中利用这些新兴的技术工具,并做好随时准备应对重大的公共卫生安全事件的准备。
吕纲还表示,随着高性能计算逐渐渗透进入科学的各个角落,未来肿瘤检验的测序价格会更低,也就会有更多的患者会选择采用更新的组群分析来支持医生的判断,更多的数据也就会涌入整个过程中,因此能为数据存储、读写、访问和处理提供全方位高性能支持的存储系统也就必不可少。
其实,这样的系统不只是在转化医学领域必不可少,它对所有面临存储墙或数据墙挑战的用户来说都是一剂良药。从改造内存/存储,以更优的成本大幅扩展内存子系统的空间,到将大体量数据存储在更接近算力、能够实现更高速数据读写和持久化存储……在高性能计算作用越来越凸显的当下,英特尔® 傲腾™ 持久内存及相配套的DAOS方案也必然会继续大放光彩。
更多架构师成长计划课程,欢迎访问英特尔架构师成长计划平台:
https://protect-eu.mimecast.com/s/hASjC0VnLHMLXqnVtDfD69?domain=bizwebcast.intel.cn