二十世纪初的西班牙流感大约用了13-15年才决定了病原的性质,2003年用了4个月时间才确定了SARS病原体的组成和序列,而我们现在有了大数据,有了更先进的技术,新冠病毒的核酸组成几天就确定了,而之后用几个小时就可以把疫苗设计出来。——中国科学院院士陈润生
2021年10月21-23日,第十七届2021CCF全国高性能计算学术年会(CCF HPC China 2021)上,中国科学院院士陈润生发表了《从大数据精准医学到核酸药物》主旨报告。
中科院生物物理所,中国科学院核酸生物学重点实验室学术委员会主任陈润生院士是我国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,二十多年来在生物信息学领域进行了系统的研究,在大会上他介绍了从大数据到精准医学再到核酸药物的研发和应用。
从大数据到精准医学
组学大数据与医学的结合
从生物本身来看,过去30年好像没有发生什么变化。但是生物信息学发生了天翻地覆的变化,这是因为科学技术的发展,特别是大数据与医学的结合,生物领域进入了大数据时代。
大家知道人现在遗传病可以测了,水稻的遗传病也可以测了,“人类历史上只有最近30年我们人才破译出自己的遗传密码,破译了遗传密码,我们就知道了前所未有的和生物相关得大数据,这个大数据必然会带来大的信息,而这个信息的解析和带来对生物医学的冲击是巨大的。”
上图左边是高等生物的结构和遗传核酸信息链,右面是新冠病毒核苷酸的链,这个病毒远比人简单得多,它虽然很短,但是对人类的冲击和影响也是巨大的。
人类遗传密码是3乘10的九次方,而新冠病毒只有29903个,即便这么短的小序列,给我们带来的影响是深远的。由于有了大数据的测量,新冠病毒出现以后,中国科学家在一周内就测量了它的完整序列,而这个序列公布给国际以后,世界上最大的核酸疫苗的公司Moderna用了两天时间基于这个序列设计出了现在大家天天都知道的核酸疫苗,BioNTech公司用这样的大数据只用四小时就设计出核酸疫苗,为抗击新冠起了非常重要的作用。所以数据对生物的冲击、数据对防备新冠的影响是巨大的、是根本的。
西班牙流感用了13到15年才决定了病原的性质,而现在有了大数据只要几天就可以确定,几小时就可以把疫苗设计出来,可见大数据对人类的影响所以是巨大的。
举例,大数据对人类健康和疾病的作用 ,美国前总统卡特,2015年体检的时候发现他罹患了黑色素瘤,同时肝转移、脑转移,这是后期的肿瘤,非常难治。他做了大数据,发现这个肿瘤是非常重要的肿瘤微环境的变化,这个变化非常契合当时非常对症的刚刚研制出抗原,是完全一致的。用对症药物在大数据精准判断下只用五个月的时间,不仅仅是原发肿瘤消失了,所有的转移灶也不见了,再也找不到身上任何的肿瘤细胞,换言之他痊愈了,对后期转移的病人精确全部治愈,也是依赖于大数据精确的测量和判断,卡特现在还是很好的活着。
举两个学术例子,一个发表在重要学术刊物《Scinece》上,美国一位教授定期抽自己血液做大数据检测,希望通过大数据可以判断他健康的情况和预测未来的疾病,测量结果说明,他是糖尿病的危险者。右侧中间的图,测量完了后进行了一段时间,确实他自己的血糖是高上去了,鼓起了一个包,说明用新的大数据测量和挖掘能够非常精确的预测他未来健康的发展。
最后一个例子,发表在2020年8月13日《新英格兰医学杂志》上。上图结果两条线,显示了从2001年开始,美国非小细胞肺癌,发生率和死亡率的变化。非小细胞肺癌系肺癌最主要的部分,有80%的肺癌病人都是非小细胞肺癌,美国大数据统计,从2001年美国非小细胞肺癌的发生率和死亡率都是单调下降的,我国到目前为止肺癌发生率和死亡率还是单调上升的,差别是极端不同的,一个是单调上升、一个是单调下降,原因是什么?我国肺癌有两个非常好的单抗靶向药物,一个针对EGFR,一个针对ALK,但是美国通过肺癌病人组学大数据测量得到另外将近20个新的靶点。换言之,我们治疗非小细胞肺癌只有两个对症药物,美国通过大数据计算发现了20个,同时有20不同精准位点治疗,两种治疗方案导致的结果,美国非小细胞肺癌呈现单调下降的趋势,预示着即便是肿瘤也是可防可治的,相信在大数据搜集和挖掘情况下也一定会实现肿瘤得到根本的预测和治疗。
医疗体系的本质变化:从诊断治疗到健康保障
更重要的是随着人类遗传密码的破译,生物医学进入了大数据时代,不仅仅像上面例子展示的可以使得疾病得到了精准预测、精准的用药和有效的治疗,更加根本的是有人预测整个大数据会带来生物医学发生本质变化,使得生物医学从诊断治疗过渡到健康保证,在大数据推动下将来医疗体系是对全民的,是涉及到整个生命周期的,从出生到死亡对全民都可以都进行健康保障。这样的健康体系跟现在而言是本质不同的,这样必然会引起国家相应法律法规、药物管理体制、社保制度等等一系列的法律法规的变化,最终要推动整个产业发展,所以国际上的发达国家包括美国、欧盟、英国、日本都建立了自己的针对大数据驱动的精准医学的计划和执行。最终会推动跟大数据相关生物医药产业的发展,有人估计这个产业规模可以到达万亿美金的数量级。
精准医学发展中的挑战:基因组中的暗信息
生物医学的变革中,有哪些可以产生原始创新的机会,或者说在精准医学路上目前有哪些挑战:
一是认识论的挑战。现在遗传密码是可以测了,但是很多人不能回答的是,测了自己的遗传密码能够利用多少、可以精确的解析多少?虽然每个人现在很容易测自己的遗传密码,但是真正能够完全解析的遗传密码,只有遗传密码的3%,现在医学可以用的只是大数据当中很少的一部分,另外97%的遗传密码是非编码序列,总体而言人类依然没有解析,这部分大量的挖掘工作有待于进一步的开发,所以离精准利用基因组信息差距很远。
引用一篇文献,如果关心这个问题可以看2010年12月17日的《Science》,统计了最近十年,2001到2010年十年前自然科学领域中人类最希望、最重要需要解决的问题。首先是Genome’s “Dark Matter”基因组当中的暗物质,告诉我们遗传密码是非常容易可测了,但是解析遗传密码的路还很长,只能解析不过百分之二三的样子。另外有待于解析、有待于发掘跟疾病和健康有关的信息。
举几个例子说明没有解析这部分跟疾病和肿瘤紧密相关。
第一个例子是发现有些肿瘤在现在医院里常规检测的指标都没有变化都是正常的,但是它的变化来自于没有解析的97%,说明那97%跟肿瘤的发生有关。
第二个例子,研究肿瘤的恶性程度和肿瘤干细胞的恶性程度是否只是由现在了解的所参与的呢?其实不是,97%的没有充分破解的地方其实跟人的健康紧密相关。
第三个例子,现在很多肿瘤病人晚期希望做PD1、PDL1治疗,我们考虑来自97%的地方是否也起到了像PD1那样的作用。研究结果充分证实了,不仅仅PD1可以影响肿瘤微环境,很多因素都可以影响到肿瘤的微环境,所以另外97%是广大的有待于创新和挖掘的源泉,它如果利用好大数据一定可以更好为人类健康,特别是为解决严重疾病问题服务。
人工智能
数据收集与标准化非常重要
目前人工智能不仅在其他领域,也在生物领域中发挥了很大的作用,展示了非常美好的前景,生物大分子结构预测中,至少有两个领域人工智能或Deep Learning这些技术能够在生物医药处理中显示了非常重大的作用。
一是结构预测,AlphaFold2这些人工智能技术、Deep Learning可以很好的预测蛋白质的结构,它的预测精度达到了实验的90%以上,换句话说是可用的,这是我自己做生物大分子计算以前没有想到的,所以用这样的技术能够预测了天然蛋白值的85%。同时对核酸预测也提供了很好的模式,对为核酸疫苗、核酸药物的设计开拓了很好的前景,这是重要的领域。
二是影像学方面,目前用人工智能构建的影象系统超过任何一个独立的医生的准确度,这展示了人工智能对生物大数据处理的精度和作用,这个作用会向大数据其他方面延展,而为生物医药提供更好的工具。
现在我自己觉得在人工智能当中可能有两个方面应当值得重视。
第一,现在的人工智能的基本理论和当初做的实际本质上并没有根本性的差别,只是技术上有差别,首先是规模扩大了,另外是收敛有所改进,我们系统是全局收敛,现在因为重塑的增加,全局收敛计算复杂度比较高,我自己觉得人工智能的模式、理论、技术可能有待于进一步的完善和发展;第二,对于生物医学工作者而言,如何构造一个很好的学习集是充分发挥人工智能作用非常重要的环节。
核酸疫苗与核酸药物
随着大数据的认识,随着这次新冠疫情的出现,使得充分的对核酸疫苗和核酸药物有了充分的认识,通过大数据的解析、通过核酸疫情的发展,使得整个生物医药进入了所谓“核酸时代”。
目前关于新冠效率最高的疫苗是由Moderna和BioNTech两家公司做的核酸疫苗,在一些地区大人群实验,包括群体测量证实其有效保护率达到95%左右。一般的蛋白疫苗平均保护率是达到70%,核酸疫苗保护作用和蛋白疫苗相差20个百分点,说明核酸疫苗保护作用是非常非常重要的。这就推动了核酸领域研究的发展,这样的新冠核酸疫苗出现不仅仅本身对于抗击新冠起到了很重要的作用,更重要的它促进了核酸疫苗的出现和发展,为未来出现新的所谓烈性传染病、烈性病毒的治疗提供了很好的经验,以后有了任何新的烈性病毒出现可以很快的设计核酸疫苗,使得达到保护的作用,这是非常重要的。
核酸和蛋白药物、其他药物相比有不可替代的优势,小分子药物是第一代药物,现在关心的PD1、CAR-T这些所谓抗体或者细胞药物作为第二类药物的话,在最近几年由于整个核酸的发展,核酸类药物很快会在大数据挖掘技术上成为第三代药物。核酸药物第一是安全,因为机体里面有很多核酸所以很安全,第二是它的设计要远比抗体或其他细胞药物简单得多,因为它只是一条线,上面只有四个字符,所以设计起来比较简单,有了新的疫情以后也可以在小时或者天的时间内设计相应的疫苗,而蛋白疫苗一般以年计,合成也很容易,因为用一个核酸合成仪就很快可以实现,说明将来核酸疫苗和核酸药物将是低廉的、快速的、有效的手段,促进了整个发展。
举例,基于上面讲的核酸药物,2020年欧洲心脏病学会上的报告,这家公司做了一个降血脂药物,也许在座很多人血脂高,每天要吃他汀,但这样一个小核酸药物,基于上述的优点,它的效果可以和他汀一样,但是打一针可以维持药效6个月。换言之,以后高血脂病人只要打这样的一个小核酸药物,一年两次就够了,从临床上看对人的生活质量影响几乎不存在。这样的药物显示了核酸药物自己不可替代的优势,因为打蛋白药物如果能够起生物学作用的话,打核酸药物就是打它的模板,打入模板以后能造多少造多少,所以药效即持久又高效。核酸药物也在不断发展,一个核酸药物很重要的是核酸适配体,通过大规模计算才能实现。
最重要的两类核酸药物,一类是小核酸药物,就是刚才讲的降脂药一类,短短一年的时间,2020年降脂药物出现以后,目前在美国FDA等待批准的小核酸药物已经有20多个排队,一年时间就已经有这么多核酸药物出来,除了降脂,降糖、降压的也出现了,这些是核酸药物非常重要的作用和基于大数据分析的结果。
另外一类药物,核酸疫苗和核酸药物,基于新冠的重要序列来设计的,为以后人类对抗所谓烈性传染病提供了很好的机会。
所有核酸药物有两个关键的问题,一是核酸药物成药前要经过修饰,二是要研究很好的递送系统。核酸药物给我们很大的空间,核酸药物递送系统在世界上依然是一个开放的问题,谁能够发展更好独特的系统,谁就可以在未来利用大数据研发新一代药物中走在前列。
最后讲一个我自己的统计,2020年十个“药王”,十个药里面第一代小分子药物只剩下三个,2020年的7个都是第二代药物。第二号药物(阿达木单抗)销售额已经达到1159亿美金,截止到去年,换句话说一个药卖了八千亿人民币,十年卖这么多的话,一年800亿,一个单品创造的社会效益就很高。看榜单倒退20年、30年前,榜单里大部分是第一代药物(小分子药物),再过十年再统计榜单,大部分就是刚才讲的核酸药物,核酸药物我乐意跟大家一起见证未来的很短时间核酸药物就会成为新一代药物的主导。
我国在这个领域其实并不差,我国基础研究,在论文数量、总他引数量、重要论文基础数量上都已经超过了美国,而远远的超过了德国、日本和英国。如果我们把基础研究成果转化而来结合大数据挖掘开发新一代药物的话,一定会在药物领域取得国际领先和创新的成果,我自己深深的体会到,随着遗传密码的破译,整个生物医药正在发生的变革,变革的源头就是以遗传密码为代表的大数据,大数据无论在方法上、内涵上都远远没有解决,随着自身的发展、随着其他领域科学家的介入,在这个领域一定能够得到更加蓬勃的发展,为人类造福。谢谢!