多组学数据为揭示基因功能和疾病机制提供了前所未有的机会。然而,如何从海量数据中提取有意义的生物学见解仍是重大挑战。传统工具如基因集富集分析(GSEA)和过表达分析(ORA)在关联基因集与已知生物通路方面表现良好,但其依赖现有数据库的局限性使其难以发现未知机制。此外,这些工具通常要求用户具备一定的编程能力,并需手动整合文献信息,这增加了应用门槛。近年来,大型语言模型(LLM)因其强大的文本处理能力受到关注,但其“黑箱”特性、知识更新滞后以及与生物信息工具的割裂限制了其在科研中的直接应用。
为应对这些问题,纽约大学团队开发了Discovera——一种融合LLM推理、知识检索和生物信息学工具的多模态智能系统。该工具旨在自动化基因集功能探索并生成可解释的机制假说。本文将以子宫内膜癌研究为例,系统介绍Discovera的设计理念、功能特点及其潜在价值。
Discovera基于ReAct模型构建智能体,整合三大核心模块:
Discovera通过协调这些模块,将复杂的分析任务转化为结构化的流程,并以易懂的方式呈现结果,使不具备编程背景的生物学家也能高效利用。
为验证Discovera的实用性,研究团队以Dou等人(2020)的子宫内膜癌蛋白质组数据集为例,展示了其工作流程。
用户上传与β-catenin突变表型相关的基因表达数据后,Discovera自动调用run_gsea()
工具,基于KEGG 2016、GO生物过程2023、Reactome通路2024和MSigDB标志2020等通路库进行分析。结果显示,“Wnt信号通路的负调控”(GO:0030178)是最显著的通路(FDR q-val=0.006),涉及关键基因如LRP4、NOTUM、APCDD1、DKK4、CTNNBIP1、WIF1和CSNK1A1。系统同时生成可视化结果,便于用户直观理解。
用户进一步筛选与β-catenin突变高度相关的基因(如CTNNB1、AMOT、MSX2),并要求系统检索其互作关系。Discovera通过INDRA数据库提取证据:
结合富集分析和基因互作证据,Discovera提出假设:CTNNB1(β-catenin)通过与AMOT的相互作用可能影响Wnt和Hippo信号通路的协同调控,进而促进细胞增殖和迁移——这是子宫内膜癌发生发展的关键特征。此外,MSX2的上调可能进一步放大Wnt信号效应。系统建议针对这些通路进行实验验证,以探索潜在治疗靶点。
这些特性使Discovera在提供创新见解的同时,保持了较高的可靠性。
研究团队计划从以下方面优化Discovera:
基因集功能分析正在从依赖静态注释向动态发现转变,通过整合LLM的推理能力、生物信息工具和知识检索功能,实现从数据处理到机制推测的全流程自动化,为研究人员提供了高效、可解释的分析平台。
Veizaga, D.P., Santos, A., Freire, J., Liu, W., Keegan, S. and Fenyo, D., Gene Set Function Discovery with LLM-Based Agents and Knowledge Retrieval. In ICLR 2025 Workshop on Machine Learning for Genomics Explorations.
本文为BioAI实验盒对论文的学术分析、阐释及个人观点的呈现。原论文的版权归属于原作者,并遵循其版权协议。本文的解读部分内容由BioAI实验盒撰写,如需转载,请提前通过私信联系。