来源:山东省兽医协会
关键词:人工智能、RNA病毒、病毒多样性、元转录组、全球生态、极端环境、LucaProt、深度学习、病毒发现、生态系统
提到病毒,人们通常会想到对人类健康有显著影响的病毒,例如流感病毒或新冠病毒。然而,RNA病毒的世界远比已知的复杂和广阔,它们以RNA为遗传物质,潜伏在几乎所有的生态系统中,从海洋深处到极端高温的热泉。 这些微观世界中的大多数病毒仍然是科学未知的领域,被称为“病毒暗物质”。为了探索这些“隐秘居民”,科学家们开发了一种先进的人工智能工具——LucaProt,这是一种基于Transformer架构的深度学习模型。 全球RNA病毒分布与发现流程 (The global RNA virosphere) 通过这个工具,研究团队对RNA病毒多样性有了全新的理解,并首次识别出许多从未被发现的病毒种群。 这项突破性研究的成果以论文形式发表,标题为Using Artificial Intelligence to Document the Hidden RNA Virosphere,发表于2024年11月27日的国际顶级学术期刊 Cell。这是RNA病毒研究领域的一次重要飞跃,同时展示了人工智能技术在揭示生命科学中“暗物质”方面的巨大潜力。 论文:通过人工智能方法记录未知的RNA病毒世界 链接:https://doi.org/10.1016/j.cell.2024.09.027 研究团队的背景: 1. 中山大学: 深圳校区的国家重点实验室团队负责主导,专注于传染病的智能预测和全球病毒多样性研究。 2. 阿里巴巴云智能实验室:提供强大的技术和计算资源支持,包括64个NVIDIA A100 GPU和500TB存储,为深度学习建模及大规模数据分析奠定了基础。 3. 悉尼大学:Edward C. Holmes教授是病毒学领域的国际权威,他的研究专注于RNA病毒的进化历史和生态学。 4. 广州国家实验室及其他机构:包括多个中国国内顶级实验室及国际专家团队,覆盖从病毒学、生物信息学到生态学的多学科合作。 作者阵容:研究的第一作者是 Hou Xin 和 Yong He,通讯作者包括 Edward C. Holmes(悉尼大学)、Zhao-Rong Li(阿里巴巴)以及 Mang Shi(中山大学)。他们在RNA病毒多样性及人工智能应用领域具有深厚造诣。 资助与支持:研究获得了 国家自然科学基金、广东省“珠江人才计划”创新项目以及 香港创新与技术基金 等多项支持。 元转录组数据的地理分布 解读:显示了本研究分析的10,487个元转录组样本的全球地理分布。 A:地图上以不同大小的圆圈表示样本的数量,地理覆盖范围极广,包括空气、土壤和水沉积物等环境类型。 B:柱状图总结了不同生态系统中样本数量及RNA与DNA双测序样本比例。
解读:通过LucaProt模型进行RNA病毒发现的整体流程。左侧(A)以蓝色标注的是基于传统序列同源性方法的路径,包括序列聚类、扩展和合并步骤;右侧(A)以橙色标注的是基于LucaProt的AI建模路径,突出模型构建与整合步骤。
人工智能助力病毒发现 传统的病毒发现方法主要依赖序列相似性分析工具(如BLAST和HMMscan)。然而,由于病毒的高度变异性,这些工具往往难以识别显著不同的新病毒种群。为此,研究团队开发了基于深度学习的LucaProt工具,利用RNA依赖性RNA聚合酶(RdRP)的序列与结构信息,大大提高了病毒识别的效率。 LucaProt与其他病毒发现工具的基准测试 解读:对比了LucaProt与其他病毒发现工具(如HMMscan、PalmScan)的性能,包括准确率、召回率及假阳性率 通过对10,487个元转录组数据(总量51Tb)的分析,研究团队首次识别出161,979种潜在RNA病毒,并发现了180个RNA病毒超组,其中许多是首次记录的未分类病毒。 RNA病毒超组真实性验证 解读:验证RNA病毒超组的真实性,包括序列特征和实验验证。 A:散点图显示BLAST中值e值、HMM得分及AI建模概率,区分已知病毒与新发现超组。 B:柱状图比较RNA病毒与DNA病毒在不同样本中的丰度和分布。 C:RT-PCR实验结果支持新发现超组为RNA病毒。 D:三维结构分析显示新超组的RdRP域与已知RNA病毒具有较高相似性。
病毒的分布与多样性 RNA病毒被发现分布在几乎所有生态系统中,特别是在湿地、土壤和水沉积物中表现出极高的多样性。 例如,在湿地中,RNA病毒的物种数量和多样性达到最高水平。而在极端环境(如温泉和海底热液喷口),尽管病毒的种类较少,但它们展示了惊人的基因组适应能力。 令人瞩目的是,研究团队在土壤样本中发现了一种超长基因组的RNA病毒,其长度高达47.3kb,刷新了RNA病毒长度的记录。 研究的意义
全球RNA病毒组的生态结构 解读:新发现病毒超组的分布密度,颜色区分已知、未分类及新发现超组。 1. 丰富病毒学分类体系: 本研究将RNA病毒的超组数量从21个扩展到180个,揭示了RNA病毒进化中的深远历史。 2. 生态学突破: RNA病毒在生态系统中的重要作用得以进一步理解,尤其是它们对物质循环和生物多样性的贡献。 3. 公共卫生视角: 虽然许多RNA病毒与人类健康无直接关联,但它们的传播模式和进化规律可能为未来的病原体监测和疫苗开发提供重要启示。 写在最后 这项研究不仅是一项技术上的突破,更是对RNA病毒多样性的一次全新探索。人工智能工具LucaProt展示了强大的潜力,揭开了RNA病毒“暗物质”的神秘面纱,同时为病毒学、生态学和公共卫生领域带来了新的研究方向。未来,随着技术的进一步发展,我们或许可以揭开更多微观世界的秘密,为生命科学打开新的篇章。
来源: SC参考