2024年6月,北京大学高歌教授课题组在《Quantitative Biology》期刊上发表了一篇题为《生物信息学中的基础模型》的综述。该文章系统探讨了大语言模型(ChatGPT、Claude等AI模型)在生物信息学中的应用,包括基于文本的大语言模型和基于生物数据的专门化模型,详细剖析了基础模型的影响、发展与局限性,以及未来的发展潜力。
1. 基于文本的大语言模型在生物信息学中的应用
基于Transformer架构的基础模型(如ChatGPT)已在多个领域产生了显著影响,生物信息学也不例外。文章详细讨论了将这些大语言模型(LLMs)应用于生物信息学的几种方式:
文本型基础模型通过对文本的语法和语义进行解析,用于文献总结和数据库整理,有助于研究者快速获取生物医学知识。
通过领域特定的微调,LLMs可以生成输入文本的语义特征,从而实现基于语义的文献检索,提高信息检索的准确性。
图片引用自文献《生物信息学中的基础模型》
例如,在Reactome的研究中,ChatGPT提出了13个昼夜节律途径的新候选基因,其中7个得到了文献支持,表明LLMs在信息挖掘中的潜力。然而,LLMs在应用中仍存在以下挑战:
LLMs可能生成看似合理但错误的回答,适合作为辅助工具而非独立决策者。
由于幻觉现象存在,LLMs的结果需进一步验证以确保准确性。
为了提高LLMs在生物信息学中的应用,研究者提出了以下策略:
精心设计提示词以提升LLMs的任务表现,减少错误生成。
通过从外部数据库检索信息,增强LLMs的知识背景,减少幻觉的可能性。
通过插件扩展LLMs的知识获取能力,如支持向量数据库搜索、网页浏览和文献检索等。
提供ChatGPT所有插件支持
地址链接:cloud.dftianyi.com
2. 生物数据的基础模型
文章还讨论了为生物数据设计的专门化基础模型。生物序列数据(如DNA、RNA、蛋白质序列)适合应用于Transformer架构,其“注意力”机制能够有效捕捉序列中元素之间的关系。
在设计生物序列模型时,研究者面临以下关键选择:
模型架构的选择:BERT类模型擅长上下文相关嵌入,适用于结构预测和突变效应评估;GPT类模型则适合从头生成蛋白质及进行复杂工程。
序列化策略:如DNABERT-2使用字节对编码(BPE)标记DNA序列,提高计算效率;ESM All-Atom模型则在原子级别进行建模,实现更细粒度的特征提取。
此外,Transformer架构还应用于小分子和单细胞组学等生物数据:
药物设计:通过序列化小分子,模型可以预测分子属性,显著加速药物筛选。
细胞类型注释:通过对单细胞组学数据建模,生成上下文嵌入,精准注释细胞类型。
基因调控网络推断:利用注意力机制提取生物数据中的复杂关系,为基因调控网络分析提供支持。
3. 讨论与展望
尽管基于Transformer的基础模型在生物信息学中具有广泛应用潜力,但仍存在以下挑战:
模型可解释性:注意力机制与实际解释之间存在差距,模型的可解释性亟待改进。
计算复杂性:长序列数据的时间和空间复杂度限制了大规模应用,需要采用低秩近似和稀疏注意力等技术来降低复杂度。
输入长度限制:长序列数据的处理受到输入长度限制,新一代模型正在尝试通过改进架构来克服这一瓶颈。
未来的研究方向
开发新型架构:提升模型扩展性与可解释性,探索状态空间模型以处理长序列数据。
扩充数据集:增加高质量生物数据集,减少幻觉现象,提高模型的可靠性。
多模态整合:整合文本、图像及生物数据,以增强跨领域处理能力。
处理长序列的新方法:降低长序列计算复杂度,更高效地处理基因组数据。
综上所述,ChatGPT这类Ai大模型在生物信息学中的发展充满了机遇与挑战。通过不断优化模型架构与训练策略,这些模型将在基因组学、药物设计和医学文献分析等多个领域中展现出更广阔的应用前景。