发布时间:2026-03-13 23:13:13 来源: 秀目传媒
中新网西安3月13日电 (记者 阿琳娜)基因注释是连接“测出基因组”和“读懂基因组”的核心环节,是基因组研究走向功能解析和应用转化的重要基础。随着国际大型基因组计划持续产出海量数据,如何实现高质量基因注释已成为后基因组时代亟待突破的重要瓶颈。传统方法通常依赖RNA测序、同源蛋白等外部证据,存在数据需求高、计算开销大、对数据匮乏物种适用性受限等问题。
记者13日从西安交通大学获悉,针对这一挑战,西安交通大学叶凯教授团队近日提出了一种基于混合专家架构的深度学习基因注释框架 ANNEVO。
团队系列成果概览。西安交通大学供图
据了解,ANNEVO围绕“进化异质性建模”和“长距离上下文建模”两大关键难题进行设计。在模型架构上,该方法首先在宏观层面对不同生物大类群进行区分,尽可能减少进化距离较远物种之间的信号干扰;在类群内部,则进一步通过混合专家机制自动学习不同亚类群特异性的基因结构模式,从而增强模型对复杂生物多样性和跨物种差异的适应能力。与此同时,ANNEVO引入长距离上下文建模模块,以适应基因组序列中局部模式与全局模式并存的复杂特征:前者体现在剪接位点、起始和终止密码子等短程保守信号,后者则体现在远距离外显子协同、长基因结构组织以及跨区域关联等长程依赖关系。
除在特征学习层面实现突破外,ANNEVO还在预测输出阶段融入了与基因结构相关的生物学约束机制,在解码过程中显式考虑外显子、内含子、剪接位点、起始/终止密码子以及阅读框连续性等生物学规则,使模型不仅具备深度学习方法强大的模式提取能力,也兼顾了基因预测任务对生物学一致性的严格要求。
研究结果表明,该方法能够同时建模不同生物类群之间的进化规律以及基因组内部的长距离序列依赖关系,在无需RNA测序和同源蛋白等外部证据的情况下,仅依赖DNA序列即可实现高精度从头基因注释。该方法不仅在多个系统发育分支中展现出优异的泛化能力,还可用于修正现有参考数据库中的错误注释,为新基因组解析和参考注释完善提供了新的技术路径。
ANNEVO方法概览。西安交通大学供图
该研究表明,基因注释正从高度依赖外部实验数据和人工规则的传统范式,迈向更加智能化、自动化的新阶段。ANNEVO的提出,不仅为数据匮乏物种提供了切实可行的高质量注释方案,也为大规模生命基因组计划提供了更具扩展性的技术支撑。同时,该成果打破了国外尤其是德国研究团队在该领域二十余年的技术主导局面,推动中国在基因注释核心方法上实现重要突破,进一步增强了中国在智能基因组学关键技术领域的自主创新能力。
该研究对于服务国家生物安全战略、推动人工智能与生命科学深度交叉融合、提升中国在生命大数据核心技术领域的国际竞争力具有重要意义。未来,随着模型在非编码RNA、可变剪接等更复杂注释任务中的进一步拓展,ANNEVO有望在更广泛的基因组功能解析场景中发挥作用。
相关成果以“Highly accurate ab initio gene annotation with ANNEVO”为题,于2026年3月12日在线发表于国际顶级期刊Nature Methods。西安交通大学电信学部自动化学院博士生张鹏宇为该论文第一作者,叶凯教授为通讯作者。
叶凯教授团队表示,面向生命科学加速迈入“海量基因组数据”时代,推动人工智能与基因组学深度融合、加快构建自主可控的核心方法体系,已成为抢占生命科学前沿制高点的重要方向。研究团队长期围绕“人工智能驱动基因组解析”开展系统性研究与技术布局。随着相关研究持续推进,团队已逐步形成覆盖基因组变异识别与基因功能注释等关键环节的连续方法链条,并已在Darwin Tree of Life等国际旗舰基因组计划中展现出重要应用价值。(完)
😗