前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >算法:IMPACT通过微生物特征分析可解释的微生物表型

算法:IMPACT通过微生物特征分析可解释的微生物表型

原创
作者头像
生信学习者
发布2025-01-13 08:45:34
发布2025-01-13 08:45:34
910
举报

介绍

人类肠道微生物群由数万亿细菌组成,对健康和疾病有重大影响。通过现代技术的进步,高通量分析提供了增强我们对微生物组与复杂疾病结果之间联系的理解的潜力。然而,目前的微生物组模型缺乏微生物特征的可解释性,这仍然是一个开放的挑战,限制了对肠道微生物组在疾病中的作用的更深层次的理解。为了解决这个问题,我们提出了一个框架,该框架结合了特征工程步骤,使用功能性微生物注释数据库将表格丰度数据转换为图像格式,并结合了用于表型分类的剩余空间注意转换块架构。

与类似的方法相比,我们的模型IMPACT在多类分类中提供了更好的预测精度性能。更重要的是,我们的方法通过图像分类显著性方法提供了可解释的特征重要性。这使得提取与疾病结果相关的分类群标记(特征)及其相关的功能性微生物特征和代谢物成为可能。

Abstract Motivation

The human gut microbiome, consisting of trillions of bacteria, significantly impacts health and disease. High-throughput profiling through the advancement of modern technology provides the potential to enhance our understanding of the link between the microbiome and complex disease outcomes. However, there remains an open challenge where current microbiome models lack interpretability of microbial features, limiting a deeper understanding of the role of the gut microbiome in disease. To address this, we present a framework that combines a feature engineering step to transform tabular abundance data to image format using functional microbial annotation databases, with a residual spatial attention transformer block architecture for phenotype classification.

Results Our model, IMPACT, delivers improved predictive accuracy performance across multiclass classification compared to similar methods. More importantly, our approach provides interpretable feature importance through image classification saliency methods. This enables the extraction of taxa markers (features) associated with a disease outcome and also their associated functional microbial traits and metabolites.

框架

IMPACT的目标是促进微生物组数据的可解释深度学习模型。IMPACT的关键创新是将传统的表格微生物组数据转换为图像,允许使用先进的计算机视觉技术进行疾病分类并深入了解重要的分类群。该框架背后的三个关键概念是:(i)分类群相似性,(ii)低维表示和(iii)图像变换。

第一步是评估分类群的相似性。IMPACT通过使用从微生物注释数据库Agora2 (Heinken et al. 2023)和微生物目录(Shaaban et al. 2018)中提取的物种水平的人类共代谢功能信息来考虑类群相似性。然后,构建的相似性有助于将相对丰度矩阵降低为低维嵌入,并将其转换为图像格式,作为深度学习模型的输入。我们将这种代谢方法与其他常见的相似性进行了比较,如Pearson相关性、基于系统发育的相似性(系统发育树的亲缘距离)和Spearman相关性。这四种相似性对IMPACT性能的贡献几乎相同,但我们的代谢方法是计算效率最高的一种(直接从Agora2数据库加载,无需进一步计算)。

图1显示了在低维嵌入中以类群的相对丰度和代谢物产量作为空间类群相似性参考的特征工程过程,用于生成图像。我们利用CNN架构,使用内置空间注意图的残差块来学习这些图像的空间重要区域。由于所有样本都具有相同的分类群二维嵌入,分类群重要度是通过平均标准计算机视觉显著性方法提取的像素特征重要度来确定的。一旦分类群的重要性被提取出来,我们将这些信息与微生物数据库相关联,以研究重要分类群的代谢物和功能微生物特征(如革兰氏状态)的模式。

代码

参考

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 介绍
  • 框架
  • 代码
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档