克日,中国和澳大利亚科学家的一项国际团结研究使用人工智能(AI)工具发现了161979种新RNA病毒,是已知病毒种类的近30倍,大幅提拔业界对RNA病毒多样性和病毒演化汗青的认知。这项研究也是迄今为止发表的数目最大的病毒物种发现论文。 图片泉源:阿里云 这项颠末偕行评审的研究10日发表在国际着名学术期刊《细胞》(Cell)上。研究的共同通讯作者[1] 中山大学医学院施莽传授告诉汹涌消息(www.thepaper.cn):“人工智能算法模子使昨们可以或许发掘出从前未知或被忽视的病毒。这种本领在疾病控制和快速辨认新病原体方面尤为紧张。” 本年刚刚发表的诺贝尔物理学奖和化学奖都和AI在科学范畴的应用有关,将科学智能(AI for Science)推上了汗青风口。施莽表现,对于病原学范畴来说,AI完全差别于传统工具,它是一种数据驱动的研究模式,代表了一种新的科研范式。 “昨们常说,新的方法带来新的发现,AI资助昨们突破了对病毒圈的认知。这类方法还能应用于更多病毒学范畴的科学题目,好比新发现的病毒是否具有致病性?是否大概引发下一次大盛行?它的卵白质功能是什么?”施莽说,“在科研范畴,AI的应用已经势不可挡,通过AI方法探索科学题目已取得了紧张突破。这种研究范式将成为将来科学界的常态,也大概成为昨们认知天下的紧张本领。” 初次展现了病毒圈“暗物质”的寄义 病毒是无处不在的微生物,但现在被人类辨认的仅有5000余种,是病毒天下的冰山一角。此中一些病毒大概会导致人类抱病,对于病毒的熟悉扩展,意味着能有助于人类应对各种疾病。 根据病毒的遗传物质,可将病毒分为DNA病毒和RNA病毒,一样平常来讲,后者建构更简朴,在天然界中的数目也更多。RNA病毒无处不在,在最极度的情况中也有存在,是最秘密的微生物,乃至有大概到场了早期生命的劈头。它们在环球生态体系中发挥着关键作用,此中一些是人类感染病的病原体。 传统的病毒发现方法包罗病毒分离和通过比力未知病毒与已知病毒的序列相似性的生物信息学方法来举行辨认。然而,RNA病毒种类繁多且高度分化,传统方法难以捕获缺乏同源性或同源性极低的“暗物质病毒”,新病毒发现的服从较低。但这些序列对应的有雷同功能的卵白质布局却有相对较高同源性,而基于AI的卵白质布局猜测与病毒学研究的联合正在突破这一困难。 此前,已有科学家使用呆板学习搜刮了公开数据库中存档的基因组样本,并发现了很多新的RNA病毒。此次发表在《细胞》杂志上的最新研究将这项工作更推进了一步,即通过AI辅助的卵白质布局的猜测。 RNA病毒都有一个称为“RdRp”的焦点卵白,即病毒RNA复制酶。上述研究根据一个全新的深度学习模子“LucaProt”,基于Transformer框架(构建GPT等主流AI大模子的底子框架),通过向其输入卵白质序列猜测。练习好的模子可以用来辨认病毒 RdRp,并用它在大量基因组数据中查找这些未知病毒的雷同卵白序列。 值得一提的是,该AI模子包罗一种名为ESMFold的卵白质猜测工具,该工具由美国科技巨头Meta的研究职员开辟。雷同的AI体系还包罗由Google DeepMind的研究职员开辟的AlphaFold,其CEO德米斯·哈萨比斯(Demis Hassabis)于本周得到了诺贝尔化学奖。 使用这套算法,研究团队对来自环球生物情况样本的10487份数据举行病毒发掘,发现了513134条病毒基因组,代表161979个潜伏病毒种及180个RNA病毒超群。使RNA病毒超群数目扩容约9倍,病毒种类增长约30倍,此中23个超群无法通过序列同源方法辨认,被称为病毒圈的“暗物质”。 该论文还展现多个病毒学范畴新发现:发现迄今为止最长的RNA病毒基因组,长度到达47250个核苷酸;辨认出超出以往认知的基因组长度,展示了RNA病毒基因组进化的机动性超出之前病毒学家的认知;别的,在高温的深海热泉等极度情况中,RNA病毒仍旧存在多样性。 “这些病毒中的绝大多数都已经测序并存储在公共数据库中,但它们的差别太大,以至于没人知道它们是什么,到场这项研究的悉尼大学医学与康健学院医学科学院的爱德华兹·霍姆斯(Edwards Holmes)传授说,“它们包罗通常被称为序列 ‘暗物质’的东西。昨们的人工智能方法可以或许构造和分类全部这些差别的信息,初次展现了这种’暗物质’的寄义。” 大幅提拔对病毒多样性认知 施莽团队的研究表现病毒的多样性远超人类想象,现在昨们所看到的只是冰山一角,将来病毒分类体系大概会有大规模的调解。 论文共同作者、阿里云智能云栖实行室研究员李兆荣博士表现:“LucaProt是前沿人工智能技能与病毒学的紧张联合,表明人工智能可以有用地完成生物探索使命。这种联合为进一步解码生物序列、重新视角解构生物体系提供了名贵的看法和鼓励。昨们也将继承在病毒学人工智能范畴的研究。” 施莽也进一步先容:“人工智能的算法模子可以或许发掘出昨们之前忽略或根本不知道的病毒,这种本领在疾病防控和新病原的快速辨认中尤为紧张。特殊是在疫情暴发时,人工智能的速率和精度可以资助科学家更快地锁定潜伏病原体。” 施莽表现,已往依赖繁琐的生物信息学流程来发现病毒,限定了昨们可以探索的多样性。“如今,昨们有了一个更有用的基于人工智能的模子,它提供了杰出的敏捷度和特异性,同时让昨们可以或许更深入地研究病毒多样性。昨们筹划将此模子应用于各种应用。” 施莽透露,下一步的研究包罗对于病毒与宿主的关系,以及辨认可以感染特定宿主的病毒群。 “比方,在人体中可以发现很多病毒,但并不是全部病毒都会感染人类。有些病毒专门感染细菌,有些则感染人类摄入的食品,另有些感染寄生虫。因此,关键在于找到真正感染宿主细胞的病毒。另一种环境是,当昨们在动物或前言昆虫中监测潜伏的人类病原体时,必要一个工具来判定在这些动物和前言中新发现的病毒是否具备跨物种流传到人类并引发大盛行的潜力。”他说。 研究团队表现,将继承练习该模子以发现更多的病毒多样性,而且同样的方法可以用于辨认细菌和寄生虫。 没有到场这项研究的生物进化学家姜小炜博士以为: “对于扩大对病毒圈的认知来说,这是一种非常有前程的方法,基于AI的布局生物学和演化生物学联合的方法会资助科学家发现病毒在天然界许多未知的多样性和演化规律。 以后更好的这类方法和数据会带来更多的病毒多样性和演化的庞大发现,资助人类应对将来挑衅。” |