大运网讯(记者 谭大跃 通讯员 刘旭林 梁淡丽)2011年7月26日,国际权威期刊《自然》杂志以《基因组学巨头提供数据服务》为题,报道了全球最大的基因组测序机构之一——华大基因正展望于云计算,在全球引起广泛关注。
记者获悉,华大基因宣布将在2011年计划推出生物云计算服务,希望通过产品创新,更好地满足各大科研机构及生命科技行业对信息能力的需求。届时用户可以通过互联网远程操作进行测序数据的处理,随时随地获取生物信息分析资源。
“高性能计算”支撑华大整体发展
《基因组学巨头提供数据服务》报道指出,由于DNA测序技术成本的下降幅度远远高于测序数据存储成本,云计算已成为基因组学研究领域中的一个日趋重要的工具或服务。目前一般的研究实验室均缺乏存储、计算资源和处理当前庞大基因组数据的技术,华大基因提供的云计算服务将为此难题提供一个解决方案。就目前而言,华大基因的云计算服务主要应用于全基因组组装。在未来,可提供其他生物信息分析软件,如搜寻基因组中的单核苷酸多态性位点,寻找基因组中重复或缺失的大片段等。华大基因虽然并非唯一一个开展云计算服务的测序中心,但他们将测序服务与内部云计算相结合,突出了其“一站式”服务的优势。前不久,华大基因信息生产中心荣获由国际数据公司在2011国际超级计算机大会公布的首届“高性能计算创新优秀奖”,寓意着华大基因高性能计算和应用能力已经处于国际先进水平,引领国内生物领域高性能计算的行业发展。
“高性能计算”具有高效能
华大基因研究院通过自身的努力不断提升其高性能计算能力,为基因组学研究带来创新解决方案,在加快基因组学相关科学研究进展和商业化发展的同时大大提高经济效益。
他们通过软件优化和使用通用服务器代替性价比较低的小型计算机,在硬件成本、数据存储和分析能力方面取得突破性的成果,硬件成本可节约10倍以上。例如高性能计算在并行拼接的应用,由于拼接对内存和机器本身的要求非常高,而同类型机器的价格较为昂贵,华大基因通过优化软件将机器成本节约近一半。他们还通过软件优化提升机器性能,普遍提高6至10倍性能并减少约十分之一的运营成本,使庞大数据的分析时间可缩短至数天或数小时。
华大基因的高性能计算应用研发涵盖了应用软件、系统软件和云计算3个领域。在计算软件方面,华大基因不断开发新的算法,紧密跟踪图形处理器计算等先进技术,在提高计算能力的同时降低功耗,力图做到绿色高效能计算。他们与世界上最大的GPU生产商英伟达成立了联合创新实验室,积极推进创新软件开发,目前正在研发的一系列计算软件,其性能都有数量级的提高。系统软件方面,正在研究一系列的面向大规模数据和计算的中间件和管理系统。通过云计算技术,将生物信息学特有的海量数据和计算结合起来,形成了具有特色的生物信息云计算平台。
生物技术研究发展史上的里程碑
随着在基因组学研究中分析处理的数据量的迅猛飙升华大基因与众多生物企业和科研机构存在着强大的存储和分析需求。他们在高性能计算软硬件系统上加大了各种资源的投入,建立了具有自己特色的云计算系统以及相应的运行、管理和研发队伍。
华大基因目前拥有的测序能力相当于一天可以获得130人的基因组数据,每天新增原始数据就有近10T之多。华大基因每天测序数据产出量从早期的500G到现今的10T,海量数据对存储、计算机性能等方面以每12至18个月10倍的增长速度,带来巨大的挑战。
为支撑华大基因各重大科研项目和各个产业体系的发展,华大基因信息生产中心不断地在高性能计算领域内开发可以解决生物信息产生的海量数据方面的硬件和分析软件。华大基因目前在深圳、香港、北京、杭州和武汉拥有数个大型生物信息学超级计算机,其中,位于深圳和香港的集群的峰值计算能力分列国内生物信息领域第一和第二位,该集群已成为国内乃至国际生物信息学界新的性能标杆和生物技术研究发展史上的一个新的里程碑。