今天要为大家分享一篇来自《Nature》杂志的文章。
2024年3月25日,《Nature methods》刊发的专栏文章《Assessing GPT-4 for cell type annotation in single-cell RNA-seq analysis》引发了学界广泛关注。
文献地址:https://www.nature.com/articles/s41592-024-02235-4
Wenpin Hou和Zhicheng Ji两位教授在单细胞RNA测序(scRNA-seq)分析中取得了重要进展。他们开发了一款名为GPTCelltype的R软件包,结合GPT-4这一先进的大型语言模型,将其集成到单细胞分析中,以实现基于标记基因的细胞类型自动化注释。该工具充分展示了ChatGPT在单细胞生物学领域的应用潜力,显著降低了研究人员在细胞类型注释上的时间成本和专业知识门槛。
GPT-4生成的注释结果与手动注释表现出高度一致性,特别是在对数百种组织和细胞类型的评估中,其表现与专家水准相当。Hou和Ji指出,这一工具能够极大地减少对专家人工注释的依赖,从而显著提高注释效率,推动scRNA-seq研究的进展。
ChatGPT:自动化、广泛适用
他们的研究表明,GPT-4具有广泛的适用性,能够应用于多种物种和组织类型。在十个数据集的测试中,GPT-4表现出优异的准确性,这些数据集涵盖了五个物种及正常和癌症样本。
相比于其他现有的自动化方法(如CellMarker2.0、SingleR和ScType)
GPT-4在平均一致性评分方面更为优越。此外,GPT-4通过GPTCelltype接口进行注释的速度显著快于传统方法。
两位教授强调,GPT-4的训练数据范围广,使其能够在不同组织和细胞类型之间实现有效迁移应用,而无需重新构建参考数据集或搭建复杂的新分析流程。此外,GPT-4的交互式特性使用户能够在注释过程中进行实时优化,从而获得更精细的注释结果。
ChatGPT的适应性与稳健性
为了验证GPT-4的适应性,Hou和Ji两位教授进行了不同情景下的全面性能测试。结果显示,
GPT-4在93%的情况下能够准确区分纯细胞类型和混合细胞类型,且在
区分已知与未知细胞类型时的准确率高达99%。
即便输入的基因集较少或存在噪声,GPT-4的表现依然保持较高水平。两位教授指出,这种稳健性使得GPT-4成为处理复杂生物数据的理想工具。
在与手动注释的比较中,GPT-4在大多数情况下与专家的注释结果高度一致。在某些特定情况下
GPT-4甚至能够提供比手动注释更高粒度的细胞类型识别,例如将“基质细胞”进一步细分为“成纤维细胞”或“成骨细胞”。研究表示,这种细致的注释可以帮助研究人员更深入地理解细胞类型的具体功能。