Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用

万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用

作者头像
实验盒
发布于 2025-02-05 08:46:25
发布于 2025-02-05 08:46:25
3640
举报
文章被收录于专栏:实验盒实验盒

近年来,深度学习技术尤其是大型语言模型(LLM)的发展,为微生物组和宏基因组学研究带来了重大变革。微生物蛋白和基因组序列,如同自然语言一样,构成了生命的“语言”,使得LLMs能够从复杂的微生物生态中提取有价值的信息。

2025年1月7日,宾夕法尼亚大学Hongzhe Li团队和和范登堡大学医学中心Siyuan Ma团队在《Frontiers in Genetics》期刊发表了《深度学习与语言模型在微生物组研究中的新进展》的综述,介绍了深度学习和语言模型在分析微生物组和宏基因组数据中的应用,重点探讨了问题表述、所需数据集以及语言建模技术的整合。

1. 引言

微生物组研究涉及特定栖息地中微生物群落的集体基因组,如人体部位(肠道、皮肤、呼吸道)和环境(空气、土壤、水)。宏基因组学研究通过直接分析这些微生物群落的基因组序列,绕过了分离和培养单个成员的需求,从而全面评估微生物的多样性、功能和动态。这些序列中编码的复杂依赖关系代表了基因/蛋白、生物体和群落层面的生物学结构和功能。随着下一代测序技术、生物信息学和计算能力的进步,微生物基因组序列的可用性在过去十年中急剧增加,为计算学习、表示和利用微生物组的进化和功能依赖结构提供了可能。

2. LLMs及其在生命语言建模中的扩展

LLMs是专门设计用于理解和生成人类语言的高级基础模型,能够执行多种自然语言处理任务,如问答、信息提取和文本总结。LLMs的可扩展性、多功能性和上下文理解能力归功于两个关键因素:首先,它们在包含多样化语言模式的大规模数据集上进行训练,能够学习语言作为序列标记(即单词和短语)的复杂性和细微差别;其次,LLMs基于变换器架构构建,该架构包括编码器和解码器,并使用自注意力机制处理输入序列。注意力机制有效地编码了序列标记的依赖结构,大大增加了可学习的长距离依赖的长度,并考虑了它们的上下游邻近“上下文”。这使得LLMs能够高效处理序列数据,提供输入文本的有意义的表示,并根据输入提示生成连贯且上下文相关的输出文本。

受LLMs的启发,微生物组研究中的语言模型通常采用类似的架构设计。这些基因组序列的语言模型提供了具有更丰富上下文的序列改进表示,并且可以扩展到令人印象深刻的复杂性(多达数十亿模型参数)。例如,ProGen和ProtGPT2等模型基于GPT-2架构,通过自回归方式预测下一个氨基酸,生成人工蛋白质序列。这些模型在足够大的微生物蛋白空间(数百万或更多蛋白序列)上进行训练,能够学习自然蛋白序列固有的进化模式,从而生成功能上可行的人工蛋白。

3. 微生物组的蛋白质、contigs和基因组的语言建模

现有的宏基因组序列语言模型可以分为两类:蛋白质/基因尺度的模型和基因组尺度的模型。蛋白质语言模型适用于微生物蛋白,因为它们通常少于1000个氨基酸(标记)。相比之下,DNA或基因组语言模型由于微生物contigs或整个基因组的规模较大,通常需要额外的技术来扩展其操作范围。例如,细菌基因组通常从50万到1000万碱基对不等,这个规模通常超过了变换器的上下文窗口。

3.1 蛋白质语言模型用于新蛋白质生成

蛋白质语言模型如ProGen和ProtGPT2通过学习已知微生物蛋白中氨基酸的依赖结构,以自回归方式生成人工的、潜在的新蛋白序列。这些模型基于GPT语言模型的解码器架构,预测给定前序残基序列的下一个氨基酸。如果在足够大的微生物蛋白空间(数百万或更多蛋白序列)上进行训练,足够灵活的模型可以学习自然蛋白序列固有的进化模式,从而生成功能上可行的人工蛋白。例如,ProtGPT2基于GPT-2架构,训练了包含整个蛋白空间的5000万序列。由该模型生成的蛋白显示出与自然蛋白相似的氨基酸序列倾向,但仍然可以覆盖未充分探索的蛋白序列区域。

3.2 蛋白质语言模型用于功能和结构预测

与生成新蛋白质序列的任务相关但不同的是,预测重点的蛋白质语言模型主要关注基于氨基酸残基序列预测蛋白质的生物学属性(例如,3D结构、功能)。编码器风格的语言模型架构,如BERT,特别相关,因为这些模型旨在学习给定更广泛序列上下文的每个标记(即氨基酸)的最佳表示,从而可以以有意义、高效的方式表示整个序列。例如,Elnaggar等人开发了多个蛋白质序列的语言模型,包括两个自回归模型(Transformer-XL,XLNet)和四个自编码器模型(BERT,Albert,Electra,T5),数据来自UniRef和BFD,包含多达3930亿个氨基酸。这些表示可以作为下游预测模型的输入,通常也使用神经网络实现,用于各种任务。例如,ESM-2模型通过将语言模型从800万扩展到150亿参数,有效地从蛋白质序列中内化进化模式。学习到的注意力模式提供了低分辨率的蛋白质结构,对应于残基接触图。这进一步与下游预测模块结合,形成了ESMFold模型,该模型提供了从序列到蛋白质3D结构的直接推断,并取得了与最先进的蛋白质结构预测模型(例如AlphaFold2)相当的性能。

3.3 基因组尺度的DNA语言模型

基因组序列的语言模型需要额外的考虑,因为它们比单个基因或蛋白质的规模大得多,并且包含比蛋白质更稀疏的生物信息,包括具有功能和垃圾DNA元素的间隔区域。DNA序列词汇表仅由四种不同类型的核苷酸组成,少于通常构成蛋白质序列的20种不同氨基酸。因此,基因组尺度上的语言模型可以进一步分为两类。第一类,通常在文献中称为DNA语言模型,专注于建模整个生物体的基因组规模的DNA序列,例如DNABERT和核苷酸变换器(NT)。这些模型采用技术如专门的标记化、替代注意力模式和层次化建模架构,以显著扩展模型上下文长度。这种方法的一个重要优势是它允许表示和识别DNA上的非编码功能元素(例如,启动子)。以提供通用的“基础”模型为目标,模型如DNABERT和NT旨在提供有意义的、上下文化的基因组规模DNA序列表示,可用于预测其功能属性和分子表型。这些模型基于编码器风格的模型架构,在数百个生物体(包括微生物物种)的基因组上进行训练,然后用于诸如预测基因组元素(启动子、增强子、转录因子、表观遗传标记)和区分微生物物种等任务。

4. 语言模型用于病毒组注释和病毒-宿主相互作用

人类病毒组包括感染真核细胞的真核病毒和感染细菌和古菌的原核病毒(也称为噬菌体)。肠道病毒组是人类肠道微生物组的重要组成部分,主要由感染细菌的病毒(噬菌体或噬菌体)组成,以及其他可能感染真核细胞的病毒物种。病毒组在维持肠道健康中发挥着关键作用,通过影响细菌群落动态、塑造免疫反应以及可能影响肠道的整体代谢环境。宏基因组测序提供了大量信息,用于识别病毒,特别是噬菌体,它们是病毒-细菌相互作用的关键参与者。研究这些相互作用的一个重要方法是通过CRISPR间隔序列,它们作为细菌基因组中过去病毒感染的分子记录。CRISPR-Cas系统是细菌的免疫防御机制,针对入侵的噬菌体。最近开发的蛋白质或DNA序列语言模型已应用于病毒组序列识别和注释,以及基于序列数据构建病毒-细菌相互作用的预测模型。

4.1 病毒组序列注释和识别

在宏基因组样本中注释病毒基因组是理解病毒多样性和功能的关键第一步。当前的注释方法主要依赖于序列同源性方法,如基于轮廓隐藏马尔可夫模型(pHMM)的方法。然而,这些方法受到已表征病毒蛋白的稀缺性和病毒序列之间显著差异的限制。为解决这些挑战,Flamholz等人应用了精心策划的病毒蛋白家族(VPF)数据库和最近开发的蛋白质语言模型(PLMs)。他们证明了基于PLM的病毒蛋白序列表示可以捕获超出传统序列同源性方法范围的功能同源性。他们的参考注释来自原核病毒远程同源群(PHROGs)数据库,这是一个精心策划的VPF库,旨在检测远程序列同源性。PHROGs被手动注释为高级功能类别,并包含868,340个蛋白序列,聚类成38,880个家族,其中5,088个被分配给9个功能类别。使用这些数据,Flamholz等人证明了基于PLM的病毒蛋白表示可以有效预测其功能,即使在缺乏接近序列同源物的情况下。

Peng等人开发了一种病毒语言模型(ViraLM),通过微调基因组基础模型DNABERT-2来检测病毒。DNABERT-2在大量生物体上进行预训练,获得了有价值的DNA序列表示,这特别有助于区分病毒序列与其他物种的序列。为了将基因组基础模型适应于病毒检测,他们针对宏基因组数据中新型病毒contigs的二元分类任务进行了微调,构建了一个包含49,929个高质量病毒基因组的大型病毒数据集,这些基因组来自NCBI RefSeq,涵盖了多样的分类群,作为正样本。负数据(245,734个非病毒序列)包括细菌、古菌、真菌和原生动物的完整组装序列,同样来自NCBI RefSeq。这些基因组被随机切割成300到2000碱基对的短contigs,以模拟宏基因组数据中的可变长度contigs。他们观察到,使用预训练基础模型初始化的模型在病毒contig识别中收敛更快,性能更好。

4.2 深度学习和LLM方法用于病毒-宿主相互作用

病毒组研究中的一个重要问题是预测哪些病毒可以感染哪些宿主,这对于理解病毒如何与宿主相互作用并引起疾病至关重要。病毒-宿主相互作用对于理解噬菌体疗法也至关重要,噬菌体疗法利用噬菌体治疗细菌感染。目前,还没有高通量实验方法可以确定性地为未培养的病毒分配宿主。为了预测未知的病毒-宿主关联,已经开发了多种计算方法。病毒与其宿主的共同进化在它们的基因组中留下了信号,这些信号已被用于计算预测病毒-宿主关联。基于比对的方法搜索同源性,如前噬菌体或CRISPR-cas间隔序列。算法如BLAST常用于将病毒序列与宿主基因组序列进行比对,以检测同源性。这可以揭示病毒和宿主蛋白中的保守区域,例如允许病毒进入宿主细胞的受体结合域。相比之下,无比对方法使用特征如k-mer组成、密码子使用或GC含量来测量病毒和宿主序列之间的相似性或其他已知宿主的病毒。通过识别哪些病毒基因组包含与细菌的CRISPR间隔序列匹配的序列,研究人员可以推断潜在的病毒-宿主相互作用。然而,这种方法受到已知CRISPR间隔序列集的限制。相比之下,基于k-mer匹配和密码子使用分析预测病毒-宿主相互作用是另一种强大的方法,用于识别新的病毒-细菌相互作用。密码子使用指的是在基因组中编码氨基酸的不同密码子的频率。当病毒的密码子使用与宿主匹配时,表明病毒已经进化出高效利用宿主翻译机制的能力,从而增强了其在该宿主内的复制能力。通过执行密码子使用和其他基因组特征的联合分析,研究人员可以更准确地预测哪些宿主物种容易受到特定病毒的感染。

由于这些基因组特征嵌入在病毒或细菌基因组中,因此可以使用机器学习和人工智能方法自动学习这些特征。Liu等人开发了evoMIL,用于仅从病毒序列预测病毒-宿主关联。他们使用从病毒-宿主数据库VHDB收集的数据集,该数据库包含从各种来源(包括公共数据库如RefSeq、GenBank、UniProt和ViralZone以及文献调查的证据)整理的手动策划的已知物种级病毒-宿主关联。对于每个已知的相互作用,该数据库提供了病毒和宿主的NCBI分类ID以及病毒基因组的Refseq ID。最终数据集包括17,733个关联,涉及12,650种病毒和3,740种宿主,用于构建原核和真核宿主的二元数据集。对于每个宿主,构建了一个evoMIL模型来预测可能相互作用的病毒。

5. 深度学习和语言模型用于生物合成基因簇的预测

微生物次级代谢产物是具有广泛功能的化学化合物,在药物应用中具有巨大潜力,如抗菌剂和抗癌治疗。这些生物活性小分子通常由细菌基因组中的一组基因编码,称为生物合成基因簇(BGCs)。尽管准确的BGCs实验验证既费力又昂贵,但高通量测序技术与先进的基因组组装算法相结合,使人们能够访问大量的细菌基因组数据。这些基因组序列数据为BGCs挖掘提供了丰富的资源,使研究人员能够更好地了解细菌的功能潜力,并发现新的次级代谢产物或天然产物。已经开发了基于机器学习的算法用于检测微生物基因组中的BGCs。例如,antiSMASH通过基于从实验表征的签名蛋白或蛋白域构建的轮廓隐藏马尔可夫模型(pHMM)库的多序列比对来识别候选BGCs,然后使用基于专家知识的策划规则过滤这些候选者。PRISM采用类似的方法,通过搜索HMM库来识别BGCs。ClusterFinder利用基于隐藏马尔可夫的概率算法来识别已知和未知的BGCs。MetaBGC整合了分段pHMM与聚类策略,使其能够直接从宏基因组读取中检测BGCs。尽管这些传统机器学习模型取得了成功,但它们无法处理基因组序列之间的长距离依赖关系,也无法从其他数据集中转移知识,从而导致检测新BGCs的能力降低。为了克服这些限制,已经开发了几种基于变换器型语言建模架构的机器学习框架,专门用于预测细菌BGCs。这些模型利用先进的计算技术分析基因组数据,并识别编码生物合成途径的区域。许多现有方法使用蛋白质家族域序列(Pfams)来表征BGCs和细菌基因组。蛋白质通常由一个或多个功能区域组成,通常称为域。不同域的组合产生了自然界中发现的多样化蛋白质。因此,识别蛋白质中出现的域可以提供对其功能的见解。

5.1 深度学习方法用于BGC预测

DeepBGC是一种基于深度学习的工具,它使用卷积神经网络(CNN)和循环神经网络(RNN)的组合来预测和分类细菌基因组中的BGCs。它处理原始基因组序列以识别BGCs,并提供其功能组件的详细注释。e-DeepBGC进一步扩展了DeepBGC,纳入了蛋白质家族域的功能描述,并利用Pfam相似性数据库进行数据增强。RiosMartinez等人开发了一种深度学习模型,该模型利用自监督学习来检测和分类微生物基因组中的BGCs。这种方法旨在提高BGC识别的准确性和效率,并预测它们产生的天然产物类型。

5.2 基于语言模型的BGC预测

Lai等人引入了BGC-Prophet,这是一种神经网络模型,它利用自然语言处理(NLP)技术将基因组序列作为语言数据进行分析,识别表明生物合成基因簇(BGCs)的模式。这种创新方法使模型能够掌握遗传序列中固有的复杂语法和语义。BGCProphet的输入是由ESM-2生成的320维向量表示的嵌入。模型架构整合了卷积神经网络(CNN)与基于变换器的模型,这种混合设计有效地管理了DNA数据的序列性质,从而提高了BGC检测和分类的准确性。

6. 利用LLMs整合微生物组研究中的公共知识

由于过去20年宏基因组学研究的快速发展,已经确定人类微生物组与人类宿主健康有关。许多将肠道微生物组与复杂疾病(如IBD和克罗恩病)联系起来的发现都可以在单独的科学出版物中找到。手动聚合这些公共领域中的结果到一个有组织且可搜索的存储库中将是耗时的,并且仅限于一小部分微生物和疾病。这样的知识库可以用于下游分析和发现。自然语言处理(NLP)和文本挖掘方法可以用于自动化这一过程。从科学文本中自动提取微生物组-疾病关联需要三个步骤。首先是识别文本中提到的疾病和微生物(实体提取),其中实体是疾病或微生物。可以使用诸如命名实体识别器(NERs)和语言标记器等成熟算法来完成这一过程。第二步是关系提取,旨在建立实体对(即微生物-疾病对)之间关系的存在。最后一步是将识别出的关系细化为正向或负向关联。已经开发了多种统计模型用于关系提取。虽然每个步骤都需要使用NLP算法,但最近特别关注将深度学习和LLMs整合到第二和第三步中。Wu等人提供了一个早期使用深度学习进行关系提取的例子。在这项工作中,作者应用了一个预训练的BERE模型来识别微生物-疾病关联。BERE是一个最初为提取药物相关关联而开发的深度学习模型。该模型使用生物医学语料库进行预训练。模型使用词嵌入将文本转换为向量表示,句子表示为200维连接。然后,循环神经网络使用门控循环单元(GRUs)编码短距离和长距离依赖关系以及语义特征。最后,分类器执行预测。预测任务有四个可能的标签:正向(微生物的存在在疾病发生时增加)、负向(微生物的存在在疾病发生时减少)、相关(微生物-疾病对一起出现但关系无法确定)和NA(文本中没有关系描述)。该模型需要大量的训练数据。尽管手动策划的金标准很难且成本高昂,但作者通过先使用自动化工具学习转移学习银标准语料库,然后用手工策划的金标准语料库进行微调,从而降低了错误率。最近,深度学习模型开始使用像GPT-3和BERT这样的LLMs。使用LLMs的主要优势在于它们已经用大量文本进行了预训练,因此减少了对大量训练数据的需求。无需微调或训练数据的设置称为零样本学习。Karkera等人使用与Wu等人相同的正向、负向、相关和NA标签,发现零样本和少量样本学习器的表现并不理想,尤其是对于NA标签,这表明直接使用LLMs来识别微生物-疾病关联存在局限性。通过微调,生成式(例如GPT3)和判别式(例如BERT)模型的性能得到了提升,提升的程度强烈依赖于训练数据的质量。

7. 讨论

深度学习方法,尤其是大型语言模型的最新发展,为微生物组和宏基因组研究带来了许多新的应用,解决了该领域的重要挑战。本文综述了这些方法在微生物功能分析中的最新应用,包括细菌基因组中生物合成基因簇的识别、病毒组基因组的注释和病毒-细菌相互作用的预测。我们还探讨了使用通用LLMs(如ChatGPT)从公共知识中提取微生物-疾病关联的用途。以下是面临的挑战和未来方向的讨论。

7.1 数据代表性不足、稀缺性和质量问题

仍有大量微生物分类群、功能元素、生态和环境未得到充分描述、注释或培养。这些将在AI模型的“训练数据”数据库中缺乏代表性。为了进一步推进这一有前景的研究领域,必须关注从多个来源收集和注释数据集。整合从基因组序列到环境元数据的多样化数据集,将为微生物群落及其相互作用提供更全面的理解。然而,这需要仔细的数据策划、标准化,并创建大型、注释良好的数据集,作为训练和评估深度学习模型的基准。具体来说,对于本文涵盖的每个研究领域:

  • DNA、蛋白质和基因组语言模型:模型将自然地优先考虑来自研究充分的环境和条件(例如人类肠道)的微生物和微生物遗传元素。然而,当前的研究也表明微生物组基因组语言模型能够穿越尚未被现有微生物组研究所探索的基因组和蛋白质空间。例如,ProtGPT2不仅产生了具有挑战性的目标,还报告了以前未报告的拓扑结构。因此,微生物组语言模型有望至少部分覆盖未充分描述的微生物和基因。
  • BGC识别:尽管模型显示出显著的潜力,但这一领域仍面临数据限制的挑战。最大的经过实验验证的BGCs数据库MiBIG 3.0包含大约2500个条目,这对于训练AI模型来说相对较小。为解决这一问题,Rios-Martinez等人通过使用antiSMASH预测的BGCs扩展了数据集。然而,模型的性能可能会受到预测算法的准确性的影响,并且容易受到预测偏差的影响。此外,大多数经过验证的BGCs属于聚酮和非核糖体肽类,其他BGC类别的代表性不足。训练集中的不平衡可能导致对较少描述的BGC类型的预测能力降低。最后,没有普遍接受的方法用于构建用于训练的负样本(非BGC序列)。理想情况下,负样本应类似于真正的BGCs,同时避免假阳性。随意构建的负样本也会影响模型性能。解决这些数据限制问题对于推进AI驱动的BGC发现以及确保在多样化BGC类别中进行更准确和稳健的预测至关重要。
  • 病毒组:与细菌或真核生物基因组不同,病毒基因组注释受到缺乏全面和高质量参考数据库的限制。这阻碍了语言模型为病毒组数据学习有意义的表示。此外,病毒进化迅速,即使在密切相关的分类群中,序列也高度发散。这使得语言模型难以有效地建模和预测保守的功能元素或相互作用。NIH人类病毒组计划预计将生成大量病毒组序列,以在纵向、多样化的队列中表征人类病毒组,这些数据可以用于开发病毒组特定的模型。还可以利用蛋白质结构预测(例如AlphaFold)与基于序列的语言模型相结合,以改善病毒组功能注释和病毒组-细菌相互作用预测。
  • 公共知识整合:自动提取过程受到训练数据质量的严重影响。Wu等人和Karkera等人指出,这类语言模型的预测准确性与训练数据的质量密切相关。因此,高质量的金标准语料库对于训练和微调至关重要,以确保模型性能。

7.2 发现的评估、解释和验证

将微生物组AI研究的进展转化为生物学和临床进展,下游解释和验证发现至关重要。这可以通过首先将AI模型与现有数据资源进行基准测试来实现。例如,公开可用的高质量微生物组队列,如人类微生物组计划和美国肠道项目构建的队列,应作为现实世界的“银标准”,用于比较最新的AI模型并衡量它们在有意义的应用环境中生成新见解的能力。还初步努力组装和策划计算基准测试任务,如Zhou等人和Marin等人所做的工作。这些资源旨在编制已知真实情况的基因组和宏基因组分析的现实生物任务,从而促进AI模型之间的公平和有意义的比较。然而,鉴于该领域尚处于起步阶段,这些努力主要集中在与人类基因组相关的任务上。未来,我们预计会开发出专门针对宏基因组语言模型的类似基准测试资源。其次,对新AI模型发现的基于湿实验室的验证是必要的,可以通过基于生化或模型系统的评估方法来实现。例如,ProGen测试了100个AI生成的新基因序列(与已知蛋白空间足够不同),通过无细胞合成进行验证,并通过底物结合和荧光响应验证其生物活性。MetaBGC纯化并解析了五个新的II型聚酮分子的结构,其中两个显示出强大的抗菌活性。未来,我们预计会有更多的跨学科合作来促进这种实践,并特别开发标准化协议,以在真实生物系统中验证AI生成的发现。

7.3 其他未来方向

7.3.1 多域整合

自然语言模型研究在多域数据整合方面取得了显著进展,涵盖了文本、图像、视频和音频等数据模态。对于宏基因组AI研究,我们预计跨数据域的整合将成为未来研究的一个关键领域。这包括整合多组学数据模态(例如,宏转录组学、蛋白质组学、代谢组学、宿主遗传学)与宏基因组数据,以及基于现有知识整合微生物组数据的复杂生物学细节(微生物与宿主遗传学、环境和彼此之间的相互作用)。成功的LLM技术,如知识图谱整合和检索增强生成,可以潜在地转移到宏基因组AI模型的整合任务中。无论怎样,大规模AI模型的能力承诺了它们整合多样化微生物组数据类型和现有知识的潜力,提供对微生物功能和相互作用的更全面理解。

7.3.2 计算和模型开发

鉴于模型规模和训练数据的大小,开发新的基因组语言模型相关的计算可能变得限制性,以实现期望的模型准确性。例如,ESM2报告称,他们最大的模型(150亿参数)在512个NVIDIA V100 GPU上训练了60天。我们预计未来的研究将开发有效的技术来提高计算性能,特别是对于适应预训练模型以适应特定领域任务(即微调)。在这方面,最近有效的参数更新技术,如适配器调整和低秩适应(LoRA)显示出前景。例如,DNABERT-2采用了LoRA来高效更新其微调阶段的模型参数。在架构方面,需要设计能够处理微生物组和宏基因组数据独特挑战的模型,例如高维度、稀疏性和微生物物种之间的复杂关系。创新的模型架构,如图神经网络、注意力机制和层次模型,在捕获数据中的复杂依赖关系方面可能发挥关键作用。此外,这些模型应该能够适应数据集的演变性质,允许随着新数据的可用性进行持续学习和细化。

参考

Yan, Binghao, Yunbi Nam, Lingyao Li, Rebecca A. Deek, Hongzhe Li, and Siyuan Ma. "Recent advances in deep learning and language models for studying the microbiome." Frontiers in Genetics 15 (2025): 1494474.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 实验盒 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Microbiome | 刘庆友/陈卫华构建山羊肠道微生物基因组目录
The multi-kingdom microbiome of the goat gastrointestinal tract
生信宝典
2023/10/08
2210
Microbiome | 刘庆友/陈卫华构建山羊肠道微生物基因组目录
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的所有蛋白质。现在,另一家科技巨头 Meta 正在填补另一空白,微生物领域。
机器之心
2022/12/15
4070
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构
根据NIH人类基因组研究所的解释,宏基因组学(Metagenomics,又译宏基因组学)研究从大宗样品中的所有生物体(通常是微生物)中分离和分析的整个核苷酸序列的结构和功能,通常用于研究特定的微生物群落,比如居住在人类皮肤上、土壤中或水样中的微生物身上的蛋白质。
新智元
2023/01/07
2960
Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构
内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
人类肠道微生物群中已经发现了大量微生物基因组,但由于目前大多数研究中使用的测序深度相对较浅,在个体水平上了解低丰度物种的作用仍具有挑战。为了提高基因组的组装性能,本研究采用了Illumina HiSeq与Pacbio混合、超深度宏基因组测序的方法,从12份粪便样品中重建了宏基因组组装基因组。该方法结合了第二代测序以及第三代测序,提高了肠道中低丰度微生物的测序覆盖率。我们共还原了44个Mb级别scaffolds以及4个完整的环状基因组 (CMAG),代表了对应物种下的首个环状基因组。此外,从所有样品中共组装出475个高质量的基因组,其中234个为未培养微生物的基因组,并且有24个不存在于任何一个公共数据库中。值得注意的是,有287个和77个基因组分别为每个个体的低丰度和超低丰度的肠道物种。同时,我们的研究结果揭示了个体特异性的基因组特征,包括微生物基因组生长速率、选择压力以及染色体可移动遗传元件的频率。最终,从宏基因组数据中鉴定出数千个染色体外的可移动遗传元件,包括5097个噬菌体和79个新的质粒基因组。总的来说,本研究方法为从个体水平上对人类肠道微生物群进行更加全面的基因组分析和功能表征迈出了重要的一步。
生信宝典
2022/03/27
8420
内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
万字综述|一文掌握大语言模型在生物信息学中的应用
随着大语言模型(LLMs)技术的飞速发展,其在自然语言处理(NLP)领域的成功应用逐渐扩展到了生物信息学领域。生物信息学作为一个跨学科的领域,涉及基因组学、蛋白质组学、药物发现等多个方向,LLMs的引入为这些领域带来了新的研究工具和方法。
实验盒
2025/02/05
5370
万字综述|一文掌握大语言模型在生物信息学中的应用
Nature综述:噬菌体多样性、基因组学与系统发育
噬菌体是地球上丰度和多样性最高的生物学实体,大规模病毒宏基因组学和培养极大的推动了人们对噬菌体的了解。本篇综述从四个方面总结噬菌体研究进展,并结合研究现状给出自己的观点:
SYSU星空
2022/05/05
3.2K0
Nature综述:噬菌体多样性、基因组学与系统发育
单细胞时代 || 宿主-微生物组相互作用
Host-Microbiome Interactions in the Era of Single-Cell Biology
生信技能树jimmy
2021/03/10
1.6K0
单细胞时代 || 宿主-微生物组相互作用
宏病毒组binning工具—— vRhyme教程
Hello,Hello小伙伴们大家好,好久没有给大家更新微信公众文了,最近小编在学习宏病毒组,其中一个和宏基因组类似的过程——binning,然后和宏基因组binning不同是,目前宏基因组binning工具数目众多,宏病毒组binning工具数目稀少,今天小编为大家介绍一款宏病毒组binning工具—— vRhyme。
用户1075469
2025/02/28
2960
宏病毒组binning工具—— vRhyme教程
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
本文介绍了中国科学院微生物研究所王军及陈义华共同通讯发表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者结合了包括LSTM、Attention和BERT在内的多种自然语言处理神经网络模型,形成了一个统一的管道,用于从人类肠道微生物组数据中识别候选抗菌肽(AMP)。在被确定为候选AMP的2349个序列中,化学合成了216个,其中显示出抗菌活性的有181个。并且,在这些多肽中,大多数与训练集中AMP的序列同源性低于40%。对11种最有效的AMP的进一步表征表明,它们对抗生素耐药的革兰氏阴性病原体具有很高的疗效,并且对细菌性肺部感染的小鼠模型显示出了细菌负荷降低10倍的效果。该研究展示了机器学习方法从宏基因组数据中挖掘功能肽并加速发现有前景的AMP候选分子以进行深入研究的潜力。
DrugAI
2022/03/25
6890
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
Science: 微生物单细胞、高通量、菌株分辨率,我全都要!| 深度长文
近期,哈佛大学和麻省理工学院的研究团队在微生物群落研究方法学上取得重要突破,发明了微生物高通量单细胞基因组学技术——Microbe-seq。相关成果以研究长文(Research Article)的形式于6月3日在Science上以High-throughput, single-microbe genomics with strain resolution, applied to a human gut microbiome为题发表。
生信技能树jimmy
2022/06/13
9320
Science: 微生物单细胞、高通量、菌株分辨率,我全都要!| 深度长文
GenomeOcean:基于宏基因组的大规模基因组基础模型
基因组基础模型(Genome Foundation Models, gFMs)作为计算生物学和生物信息学领域的重要工具,正在逐步改变精准医学、药物发现和复杂生物系统研究的格局。然而,现有模型在数据覆盖、计算效率和功能建模等方面存在明显局限,尤其是在表征低丰度和未培养微生物时表现不足。
实验盒
2025/02/08
2470
GenomeOcean:基于宏基因组的大规模基因组基础模型
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。
新智元
2025/03/31
810
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
Microbiome: 微生物组的定义重新审视:旧概念和新挑战
Link:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7329523/
Listenlii-生物信息知识分享
2020/09/04
5.5K0
使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱
热心肠研究院的这个介绍让我对这个软件产生了好奇,我决定学习一下这个软件的使用,看看它和picrust的区别在哪,picrust2刚刚发布,看看是棋逢对手还是略胜一筹呢。后来发现,好吧,最后发现一个实验室开发的。。。区别在于一个是完全基于已知的参考数据库,而这个目标是发现是大多数(>60%)未注释基因家族与代谢物相对丰度的关联。
用户1075469
2020/03/03
1.6K0
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
今天为大家介绍的是来自Peter R. Girguis团队的一篇论文。解读基因与其基因组环境之间的关系是理解和工程生物系统的基础。机器学习在从大规模蛋白质序列数据集中学习隐藏的序列-结构-功能范式关系方面显示出潜力。然而,迄今为止,利用更高阶的基因组环境信息的尝试还很有限。进化过程决定了基因在不同系统发育距离中所处的基因组环境的特异性,这些新出现的基因组模式可以用来揭示基因产物之间的功能关系。在这里,作者训练了一个基因组语言模型(gLM),通过数百万的宏基因组来学习基因之间潜在的功能和调控关系。
DrugAI
2024/04/28
4060
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
利用基于深度信号处理进展的架构,Evo扩展到了70亿参数,并在单核苷酸分辨率下实现了131千碱基的上下文长度。
新智元
2025/02/14
1360
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
Nature:原核生物基因的生物地理学研究
文章导读:近十几年来,随着测序技术的飞速发展与快速应用,生物信息学数据得到大量积累。以往研究多集中于新数据的挖掘,在系统化分析上仍然存在很大不足。接下来很可能会进入“后组学”时代,系统化分析生物数据以解决核心科学问题为大势所趋。本篇文章系统地整理了全球不同生境的微生物组数据,并以此分析基因的生物地理。
SYSU星空
2022/05/05
7650
Nature:原核生物基因的生物地理学研究
GigaScience综述:从分类学基因推断微生物功能
Link: https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giab090/6505123
Listenlii-生物信息知识分享
2022/03/31
1.4K0
GigaScience综述:从分类学基因推断微生物功能
微生物生态学研究中的宏基因组工具
2021年2月,来自美国、荷兰、中国、挪威的多国研究团队在《Current Opinion in Biotechnology》发表综述,回顾了从宏基因组学的应用中收集到的关于微生物生命的新见解,以及促进探索复杂微生物群落多样性和功能的广泛分析工具。
尐尐呅
2022/04/01
1.2K0
微生物生态学研究中的宏基因组工具
Nature | 通过全球宏基因组学揭示功能性暗物质
今天为大家介绍的是来自Nikos C. Kyrpides团队的一篇论文。宏基因组包含了海量多样的蛋白质序列,反映了多种功能和活性。过去,我们通常通过将宏基因组中的序列与参考微生物基因组和那些基因组衍生的蛋白质家族进行比较分析,从而探索这些序列空间。然而,这种方法的局限性在于它只能探索已知的、与参考基因组相关的功能多样性。为了突破这一局限,探索更多未知的功能多样性,作者开发了一种计算方法,可以在不依赖参考基因组的情况下,从宏基因组的序列空间中生成蛋白质家族。
DrugAI
2023/11/30
7580
Nature | 通过全球宏基因组学揭示功能性暗物质
推荐阅读
Microbiome | 刘庆友/陈卫华构建山羊肠道微生物基因组目录
2210
世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成
4070
Meta打造首个「蛋白质宇宙」全景图!用150亿参数语言模型,预测了6亿+蛋白质结构
2960
内蒙古农大孙志宏教授证实超深度混合宏基因组测序能够对人类肠道微生物组中的低丰度物种进行基因组和功能表征
8420
万字综述|一文掌握大语言模型在生物信息学中的应用
5370
Nature综述:噬菌体多样性、基因组学与系统发育
3.2K0
单细胞时代 || 宿主-微生物组相互作用
1.6K0
宏病毒组binning工具—— vRhyme教程
2960
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
6890
Science: 微生物单细胞、高通量、菌株分辨率,我全都要!| 深度长文
9320
GenomeOcean:基于宏基因组的大规模基因组基础模型
2470
从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?
810
Microbiome: 微生物组的定义重新审视:旧概念和新挑战
5.5K0
使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱
1.6K0
Nat. Commun. | 基因组语言模型预测蛋白质共同调控和功能
4060
斯坦福伯克利重磅发现DNA Scaling Law,Evo荣登Science封面!AI设计DNA/RNA/蛋白质再突破
1360
Nature:原核生物基因的生物地理学研究
7650
GigaScience综述:从分类学基因推断微生物功能
1.4K0
微生物生态学研究中的宏基因组工具
1.2K0
Nature | 通过全球宏基因组学揭示功能性暗物质
7580
相关推荐
Microbiome | 刘庆友/陈卫华构建山羊肠道微生物基因组目录
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档