人类基因组筹划完成20多年来,凌驾九成的非编码序列还是未破译的“天书”,是基因组的“暗物质”。克日,浙江大学医学院郭国骥、韩晓平传授团队在《细胞》发布最新结果,其自主研发的AI生物大模子“女娲CE”(NvwaCE ...
人类基因组筹划完成20多年来,凌驾九成的非编码序列还是未破译的“天书”,是基因组的“暗物质”。克日,浙江大学医学院郭国骥、韩晓平传授团队在《细胞》发布最新结果,其自主研发的AI生物大模子“女娲CE”(NvwaCE),为破译非编码序列提供了全新的工具。 据悉,女娲CE大模子能从一级DNA序列出发,精准猜测脊椎动物基因突变对细胞的表型影响,精度达单细胞级,正确率超90%。别的,它还乐成猜测并经实行验证了稀有病镰刀型血虚症的基因治疗位点,成为天下首例AI计划的人类疾病治疗性位点。 “通过深度学习,那些人类临时无法明白的复杂语法,正在被AI学习、剖析。”郭国骥就课题最新希望,担当了文报告记者专访。 单细胞图谱,让AI大模子有了“佳构课本” 人类险些全部详细的生理性能都依赖卵白质来完成。在人类基因组中,编码序列(对卵白质举行编码,直接表达为卵白质)仅占1-2%,剩下的98%都黑白编码序列(不会直接表达为卵白质,包罗调控序列)。 这98%的非编码序列,在很长一段时间内无法被明白。比年来,随着AI发展和生物学研究的深入,科学家们发现,这些序列对基因的表达调控,有大概被解读。 “生命科学研究恒久以‘还原论’为主,也就是科学家会将某个表型还原到某个基因,研究它的调控和功能。但进入调控序列,这种方法就行不通了。”郭国骥表明,非编码序列有一套复杂细密的“语法体系”,决定了哪个基因在何时、何地、以何种强度表达。每一个调控序列的碱基,都大概在差别时间、差别范例细胞中饰演差别脚色。因此,用传统敲除验证的方法,就像瞽者摸象。 2020年,郭国骥团队完成了小鼠和人类细胞图谱的一系列工作,他们开始思索从生物的一级DNA序列探求细胞图谱的编码模式。其时,传统学界并不明白。“凭什么一级DNA序列就会决定终极表型?”但郭国骥以为,生物的表观、表型等复杂征象之“因”,深植于DNA序列自己。从一级DNA序列出发,研究生物表型,远比直接研究生物表型特性之间的接洽更能找到本质规律。 传统表型检测外貌、身高、指纹之类的宏观表型。郭国骥则将之精致到单细胞级别的分子表型。“单个细胞内里的分子是什么?昨们测的是这种‘没有私见’的分子表型。” 为此,团队在传统的ATAC测序技能上自主研发出超高敏捷度、超高通量的单细胞级测序技能UUATAC-seq,使测序敏捷度在理论上提拔了4倍,通量提拔了10到100倍,可以在单日内高效绘制一个物种全部范例细胞核中的染色质可及性图谱。以此为底子,团队科学家绘制出涵盖哺乳类、鸟类、两栖类、爬行类、水生类五大类脊椎动物的单细胞图谱数据集。 通过研究范式创新得到高质量的数据,是这个团队的焦点科研上风地点。据先容,国外很多顶尖的基因组AI模子,好比克日Deepmind团队预发表的AlphaGenome,都是基于ENCODE项目举行数据练习。由于该数据集年代长远、最长已凌驾20年,其涵盖的根本是“群体细胞”“器官细胞”大概在体外造就的“细胞系”数据,存在分辨率低、差别范例细胞稠浊的题目。用如许的数据集练习AI,比如用一本内容含糊、稠浊的课本讲授生。 相较而言,女娲CE的练习集堪称“佳构”,全部数据在同一技能尺度下产生,精度到达单细胞级别,数据噪音更少,有高度的可比性与纯净性。 “可以说,昨们为AI提供了迄今为止最得当学习基因调控语法的练习集。”郭国骥说。 更高精度带来惊人发现:“生命语法”比DNA序列自己更守旧 与依靠大量数据、超长扫描窗口(读长)的生物深度学习算法差别,女娲CE接纳多使命框架、超短扫描窗口,直接学习从一级DNA序列到生物体全部范例细胞表型的映射关系。“AI学到了一些昨们人类临时无法明白的复杂规则。”郭国骥说,通过这种规则,就能让基因组的“暗物质”开口语言,进而猜测基因突变带来的结果。 借助女娲CE,以500碱基对(简称bp)的“短窗口”举行分段扫描,团队发现,在亿万年的演化长河中,脊椎动物的基因“调控语法”比其核苷酸序列自己更为守旧。 “这意味着,在进化过程中,纵然物种的某段调控序列和已往已完全差别,但它们终极利用的功能依然雷同。”郭国骥说,这一发现对达尔文进化论中的“随机突变”提出了紧张增补:脊椎动物的基因组突变并非完全随机,适者生存并非仅仅依赖情况筛选,另有一套深刻的内涵调控语法束缚着进化过程。“任何跳出这套语法的突变,大概胚胎都无法形成。它在担当天然选择前,就被生命底层的逻辑镌汰了。” 这一发现自己,也成为了女娲CE算法的紧张构成部门,让它拥有超高泛化本领。女娲CE可以或许从基因组序列出发,猜测未经练习物种的细胞染色质可及性蓝图,并一次性猜测了包罗人、猴、牛、猪、马、羊、熊猫七个物种的单细胞调控原件蓝图。 女娲CE的正式发表,也意味着中国科学家团队在AI基因组大模子研发的赛道上已先人一步。团队表现,相干数据和模子自己,将会全部开源。 天下首例AI猜测基因位点乐成,开辟基因治疗新路径 要知道,许多遗传性疾病、稀有病,都是由于细胞的表型非常。以往,当科学家们试图通过基因编辑本领治疗这些疾病,只能通过“神农尝百草”的方式,不停实验,实验几百、上千次都不算多的。但是,有了AI,就可以根据非常表型特性,让AI猜测哪些基因位点最有大概让表型规复正常。 针对镰状细胞病,女娲CE就猜测出了治疗关键位点:胎儿血红卵白基因HBG1-68:A>G。这是一个全新的、从未被记载过的位点。进一步实行表现,该位点在基因编辑后可以或许实现胎儿血红卵白表达量的明显提拔,这也是科学家初次在人类细胞中验证了基因组AI猜测的功能性位点。 除了“女娲”,另有“华佗”“神农”……郭国骥坦言,他偏幸用中国传统神话为本身的算法定名,这既是对传统文化的致敬,也拜托了一种盼望。“AI大概终极会逾越人类,向着‘神性’发展,就像神话中的女娲抟土造人,帮昨们明白以致创造生命,办理人类的困难。”
郭国骥团队的下一步筹划,是构建假造细胞,将调控元件模子与网络模子、卵白质布局模子等模块整合,创造出“数字小鼠”以致“数字人类”。有了如许的“数字生命”,科学家就可以高效举行假造实行,测试基因突变的影响或筛选疾病药物和治疗位点,从而大幅收缩研发周期、低落本钱,并极大淘汰实行动物的利用,让将来的临床试验更安全、更精准。 业余时间,郭国骥照旧一位歌者。他创作的歌曲《生命》中,有如许一句歌词:“宇宙众多无穷尽,却不及她的贵重……该怎样解开基因的密锁,该怎样理清神经的网络,千山万水寻寻觅觅,春去秋来上下求索。”那张调色盘般的封面图,正来自2020年他在《天然》发表的天下第一份全面的人类细胞图谱。 为生命求索,中国科学家从未停下进步的脚步。 |