Nat. Methods | 评估GPT-4在单细胞RNA测序分析中进行细胞类型注释的应用

DrugAI

发布于 2024-04-19 18:44:40

2210

发布于 2024-04-19 18:44:40

文章被收录于专栏：DrugAI

今天为大家介绍的是来自Wenpin Hou和 Zhicheng Ji团队的一篇论文。在这里，作者展示了大型语言模型GPT-4可以准确地利用单细胞RNA测序分析中的标记基因信息来注释细胞类型。当在数百种组织和细胞类型上进行评估时，GPT-4生成的细胞类型注释与手工注释表现出强烈的一致性。这项能力可以显著减少细胞类型注释所需的努力和专业知识。此外，作者还开发了一个用于GPT-4自动化细胞类型注释的R软件包GPTCelltype。

细胞类型注释是单细胞RNA测序（scRNA-seq）分析中的一个基本步骤。这一过程通常既费力又耗时，需要人类专家将每个细胞群集中高度表达的基因与典型的细胞类型标记基因进行比较。尽管已经开发了自动化细胞类型注释方法，但使用标记基因的手工注释仍然广泛使用。GPT，包括GPT-3.5和GPT-4，是为了语言理解和生成而设计的大型语言模型。最近的研究已经证明了它们在生物医学语境中的有效性。

图 1

在这篇简短通讯中，作者假设GPT-4可以准确地注释细胞类型，将注释过程从手工转变为半自动甚至全自动的程序（图1a）。GPT-4提供了成本效益和并能无缝整合到现有的单细胞分析流程，如Seurat3，避免了建立额外流程和收集高质量参考数据集的需要。GPT-4庞大的训练数据使其能够广泛应用于各种组织和细胞类型，而其聊天机器人的性质允许用户驱动的注释细化（图1a,b）。作者系统地评估了GPT-4在十个数据集上的细胞类型注释性能，涵盖五个物种和数百种组织和细胞类型，包括正常和癌症样本。GPT-4或其竞争方法的细胞类型注释基于与原始研究提供的手工注释的一致性进行评估。一致性的程度使用数值评分衡量。

图 2

作者首先探索了可能影响GPT-4注释准确性的不同因素（图2a），并发现当使用前十个差异基因，并且差异基因是通过双边Wilcoxon检验得出时，GPT-4表现最佳。GPT-4在不同提示策略中展示了类似的准确性，包括基本提示策略、包含推理步骤的链式思维启发的提示策略，以及重复提示策略。在后续分析中，GPT-4和GPT-3.5都使用了基本提示策略，并将通过Wilcoxon检验得到的前十个差异基因作为适用数据集的输入。GPT-4的注释在大多数研究和组织中超过75%的细胞类型与手工注释完全或部分匹配（图2b），证明了其在生成可与专家比较的细胞类型注释方面的能力。对于文献搜索中的标记基因，这种一致性特别高，在大多数组织中至少有70%完全匹配率。尽管对于通过差异分析确定的基因来说较低，但一致性仍然很高。然而，2021年9月之前发布的数据集的结果应谨慎解读，因为它们早于GPT-4的训练截止日期。GPT-4对于免疫细胞（如粒细胞）的表现优于其他细胞类型（图2b）。它能够识别结肠和肺癌数据集中的恶性细胞，但在B淋巴瘤上存在困难，可能是由于缺乏明确的基因集。恶性细胞的识别可以从其他方法中获益。在仅包含不超过十个细胞的小细胞群体中，性能略有下降（图2b），可能是由于可用信息有限。GPT-4的注释在主要细胞类型（例如，T细胞）中比在亚型（例如，CD4记忆T细胞）中更高的与手工注释完全匹配，而超过75%的亚型仍然实现完全或部分匹配（图2b）。

GPT-4与手工注释在某些细胞类型中的低一致性并不必然意味着GPT-4的注释是不正确的。例如，被归类为基质细胞的细胞类型包括表达I型胶原基因的成纤维细胞和成骨细胞，以及表达II型胶原基因的软骨细胞。对于手工标注为基质细胞的细胞，GPT-4分配了更高粒度的细胞类型注释（例如，成纤维细胞和成骨细胞），导致部分匹配和较低的一致性。对于那些被手动标注为基质细胞但被GPT-4识别为成纤维细胞或成骨细胞的细胞类型，I型胶原基因的表达显著高于II型胶原基因（图2c）。这与手工标注为软骨细胞、成纤维细胞和成骨细胞的细胞中观察到的模式一致（图2c），表明GPT-4为基质细胞提供了更准确的细胞类型注释。

GPT-4在平均一致性得分上显著优于其他方法（图2d）。使用GPTCelltype作为界面，GPT-4也显著更快（图2e），这里部分原因是其利用了如Seurat3这样的标准单细胞分析流程中的差异基因。鉴于这些流程的核心作用，作者认为差异基因对于GPT-4来说是立即可用的。与此相反，像SingleR和ScType这样的其他方法需要额外的步骤来重新处理基因表达矩阵。与其他免费的方法相比，GPT-4使用在线网络门户每月需要支付20美元的费用。GPT-4 API的成本与查询的细胞类型数量线性相关，在此次研究中的所有查询费用不超过0.1美元（图2f）。作者进一步在复杂的真实数据场景（图1c）和模拟数据集中评估了GPT-4的鲁棒性。GPT-4能够以93%的准确率区分纯细胞类型和混合细胞类型，并以99%的准确率区分已知和未知细胞类型（图2g）。当输入基因集包含较少的基因或受到噪声污染时，GPT-4的性能有所下降，但仍然保持高水平（图2g）。这些结果展示了GPT-4在不同场景中的鲁棒性。

最后作者评估了GPT-4注释的可重复性。GPT-4在85%的情况下为相同的标记基因生成了相同的注释（图2h），表明其具有高重复性。两个GPT-4版本的注释在大多数情况下显示了相同的一致性得分，展示了显著的一致性（图2i）。尽管GPT-4在细胞类型注释方面表现出色，超过了现有方法，但还是有一些限制需要考虑。首先，GPT-4训练语料库的未公开性使得验证其注释基础变得具有挑战性，因此需要人工评估以确保注释的质量和可靠性。其次，人工参与模型微调可能会由于主观性影响重复性，并且可能限制模型在大型数据集中的可扩展性。第三，scRNA-seq数据中的高噪声水平和不可靠的差异基因可能会对GPT-4的注释产生不利影响。最后，过度依赖GPT-4可能会导致人工智能幻觉。作者建议在进行下游分析之前，由人类专家验证GPT-4的细胞类型注释。

编译 | 曾全晨

审稿 | 王建民

参考资料

Hou, W., Ji, Z. Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis. Nat Methods (2024).

https://doi.org/10.1038/s41592-024-02235-4

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-04-18，如有侵权请联系 cloudcommunity@tencent.com 删除

methods