CGI GPT - a Hugging Face Space by ICGI

从多组学角度识别与癌症因果相关的基因对于理解癌症机制和改进治疗策略至关重要。依赖广义相关性方法的传统统计和机器学习方法在识别癌症基因时,往往产生冗余、有偏的预测结果,且可解释性有限,这主要是因为忽略了混杂因素、选择偏差以及神经网络中的非线性激活函数。在本研究中,我们引入了一种跨多个组学领域识别癌症基因的新框架,命名为 ICGI(整合性因果基因识别),该框架利用了带有因果上下文线索和提示的大型语言模型(LLM),并结合数据驱动的因果特征选择。这种方法展示了 LLM 在揭示癌症基因和理解疾病机制方面的有效性和潜力,特别是在基因组水平。然而,我们的研究也表明,当前的 LLM 可能无法捕捉到所有组学层面的全面信息。 通过将所提出的因果特征选择模块应用于来自癌症基因组图谱的六种癌症类型的转录组数据集,并与最先进的方法进行比较,它展示了在识别区分癌症样本和正常样本的癌症基因方面的卓越能力。此外,我们开发了一个在线服务平台,允许用户输入感兴趣的基因和特定的癌症类型。该平台提供自动结果,表明该基因是否在癌症中发挥重要作用,并提供清晰易懂的解释。此外,该平台还总结了从数据驱动的因果学习方法中获得的推理结果。
我们提出了一种名为 ICGI 的新型癌症基因识别框架,该框架结合了数据驱动因果学习基础上的特征选择与因果上下文提示的 LLM。我们的框架从多组学视角定义癌症基因,识别它们与癌症进展中涉及的关键生物过程的内在因果关系。我们利用多级因果学习,包括通过 LLM 逐步推理和组学数据驱动的局部因果关系发现。识别出的癌症基因能有效区分癌症样本和正常样本。这种 LLM 辅助策略对于解决其他复杂科学挑战也具有巨大潜力。
该框架中的 CGI-GPT 模块整合了关于癌症基因的丰富先验知识以及由尖端算法和计算资源赋能的当前最先进 LLM 的高级推理能力。这突显了 LLM 在揭示癌症基因和阐明疾病机制方面的有效性和潜力,尤其是在基因组水平。通过迭代优化输入 CGI-GPT 的因果提示并深入分析其输出,研究人员可以加深对潜在基因-癌症因果关系理解。然而,生成式预训练变换器(GPT)在探索复杂多组学数据中的基因-癌症因果关系方面仍存在局限。数据驱动因果发现模块从观察数据中推断因果关系,作为一项宝贵的补充,有效消除了混杂因素产生的冗余和假阳性特征。这两个模块的整合有望应对基因与癌症之间潜在因果关系的复杂性和多层级特性。这强调了将领域专业知识与生物数据相结合在识别因果基因方面的重要性。 此外,还开发了一个在线服务平台,以促进这些工作。
尽管我们方法识别的一些癌症基因已被现有研究或数据库验证,但其他基因的因果关系仍有待阐明。使用 CRISPR-Cas9 基因编辑[59]或 RNA 干扰技术[60]对这些基因进行进一步探索,可能获得关于预测癌症基因在癌症进展中作用的宝贵线索。即便如此,CGI-GPT 的推断结果和解释有助于湿实验设计,因为它们减少了候选基因集和实验验证的成本。另一方面,我们应承认,由于缺乏足够的可靠生物医学证据和标签来支持,我们无法对 CGI-GPT 的生成能力和局限性进行更彻底的评估。此外,CGI-GPT 的性能取决于基础 LLM 的能力,它在准确量化不确定性和执行干预方面存在局限性,并且手动设计的提示可能不是最优的用于癌症基因识别。 LLMs 的局限性源于其训练范式,这些范式专注于预测最可能的下一个词,而不是评估其预测的事实基础和确定性。此外,本研究在使用静态转录组数据进行数据驱动的因果推理实验时也面临局限。为解决这一问题,在整个疾病进展过程中整合动态基因表达数据,并整合多样化的组学数据,可以更全面地理解基因功能及其与癌症的因果联系。
在未来研究中,我们旨在深入探索 LLM 所编码的先验知识及其涌现能力如何补充和增强多组学数据分析,这些分析是癌症基因预测的主要数据来源。同时,有必要更有效地将现有的多组学数据和因果规则与 LLM 中嵌入的先验知识相结合,以实现更全面的因果推理,并促进癌症系统生物学领域的研究进展。虽然因果提示策略为基于 LLM 的因果基因识别提供了一个有前景的起点,但需要进一步探索如何通过提示调整和检索增强生成来使 LLM 适应这项任务。我们相信,针对 LLM 的微调和参数更新方法具有重要价值,并且预计与提示工程相结合时会产生协同效应。
在本研究中,我们从 TCGA(https://portal.gdc.cancer.gov/)[52]收集了六种癌症类型的 RNA-seq 数据图谱。有关数据处理更多信息,请参见补充说明 2。此外,我们还使用了来自 COSMIC 数据库的专家基因整理列表(https://cancer.sanger.ac.uk/cosmic/curation)[55],该列表是经过精心整理的、包含体细胞突变并与人癌症相关的基因集合。该列表作为本研究的基准,用于评估计算方法在识别关键突变方面的精确性。有关比较方法和评估指标的说明,参见补充说明 3。
我们首先选择一个合适的大型语言模型(补充说明 4)。然后,我们专注于识别因果基因,并借鉴 GPT 提示工程指南[61]来设计有效的提示(关于迭代 LLM 提示和部署,参见补充说明 5)。具体而言,我们遵循两个关键原则:一是创建具体且任务导向的指令,二是为模型提供充足的环境信息,并允许它“思考”,因为不同的标记可能包含不同的信息密度。基于这些原则,我们成功开发了一个因果提示模板,该模板直观、易于理解且通用性强。该模板包含五个组成部分:系统指令、领域洞察、任务描述、解决方案指导和输出指示。
对于系统指令,我们为 GPT-4o mini 发送的系统消息中专家角色创建定制描述,以提示模型根据该代理背景(分子生物学、功能基因组学、癌症研究和精准医学领域的专家,对因果基因识别有深刻见解)生成内容。对于领域洞察,最初,我们在提示中明确强调识别癌症因果基因的重要性。随后,我们将检索到的生物信息格式化为基因感知上下文,并将其整合到模板中。关于任务描述,我们提供特定任务的指令,使 GPT-4o mini 能够推断输入基因符号与癌症类型之间是否存在因果关系。在解决方案指导中,基于当前对癌症基因的认知以及癌症研究和精准医学的见解,我们设计了一个专门用于因果基因识别的思维链。这种策略使 GPT-4o mini 能够理解问题的复杂性及潜在的推理过程,从而激发其复杂推理能力。 关于输出指示,为了便于提取和分析因果基因识别结果,我们使用明确的指令和“< >”指示器,确保 GPT-4o mini 输出推理结果和自然语言解释严格遵循预期格式。
总体而言,我们通过提示学习对 GPT-4o mini 进行适配,用于因果基因识别,从而无需重新训练或复杂的微调过程。这种方法不仅降低了计算开销,还提高了灵活性,能够快速适应不同的研究目的,而无需修改底层模型架构。
癌症基因的异常改变以及在不同分子背景下的复杂调控机制导致了癌症的发生和发展。基于我们对癌症基因的当前理解以及癌症研究和精准医学的见解[3],我们构建了一个由中间推理步骤组成的思维链,类似于深度神经网络中不可或缺的隐藏层。癌症因果基因的识别需要全面考虑,包括分子功能、所涉及的信号通路、在特定癌症类型进展中的潜在作用以及临床和预后意义。在此基础上,我们最终生成了图 7 中所示的思维链提示。思维链提示[62]使模型能够以受控的方式生成详细解释。这种策略增强了模型推理的可解释性,并创造了与人类对齐的机会,因为获得的结果是通过可读的高级语言推理表达的。

LLM 的潜在缺陷包括幻觉、过时知识[63]以及在特定领域缺乏深入理解。此外,LLM 难以学习长尾知识[64]。为解决这个问题,我们实现了检索程序和 LLM 推理参数配置(补充说明 6),这对癌症基因识别(CGI)具有深远意义。RAG [65] 通过整合领域特定数据库的知识,是一种有前景的解决方案,它减少了对外部预训练数据的依赖,并为学习长尾知识提供了一种有效方法。此外,该程序有效应对了生物信息学中基因命名不一致的独特挑战,因为许多基因有多个别名。我们提供了一个示例笔记本供其他研究人员直接使用,链接为 https://github.com/verylucky01/ICGI/blob/main/code/retrieval_program.ipynb。例如,EGFR 基因的基因感知上下文如图 8 所示。这种方法提高了生成内容的可靠性,并支持持续的知识更新和生物医学信息的整合,从而展示了其可扩展性。

我们在转录组数据上部署因果结构学习,以识别可能与疾病状态标签具有潜在因果关联的基因。在 DML-CGI 模块(图 1B 的底部)中,我们首先构建一个基于转录组数据的关联骨架[66],然后采用基于 DML 的因果推理[67]来识别基因与特定癌症类型之间的潜在因果关系(补充说明 7)。
Key Points 要点
https://github.com/verylucky01/ICGI.
https://github.com/verylucky01/ICGI/blob/main/code/retrieval_program.ipynb.
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系外文翻译,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。