研究提出一个基于系统发育树的生境交错度指标(connectivity),用于量化同一 ARG 在不同生境(如土壤与人群)序列的交错混合程度,揭示土壤不仅是 ARG 的“蓄水池”,更与人群健康风险相连。结果显示,2008–2021 年间,土壤 Rank I(高风险) ARG 的风险评分持续上升,并与临床 E. coli 的耐药基因库重叠度不断增强;跨生境的水平基因转移(HGT)是主要驱动因素。此外,团队还整合 126 个国家 的临床耐药数据,发现土壤 ARG 风险水平与临床耐药率显著相关。
本研究引入“连通性(connectivity)”度量,结合序列相似性与系统发育分析,评估 ARG 在不同生境间的跨生境连通程度;结果发现,与 1985–2023 年临床 E. coli 基因组之间的遗传重叠度随时间增加,提示土壤与人类耐药基因库之间的联系日益紧密。对 4,500 万对基因组配对的比较表明,跨生境的水平基因转移(HGT)是人类与土壤 ARG 连通性的关键驱动因素。最后,本研究整合了覆盖 126 个国家(1998–2022 年)的临床耐药数据集,发现土壤 ARG 风险、潜在 HGT 事件与临床耐药性之间存在显著相关(R² = 0.40–0.89,p < 0.001)。总体而言,本研究加深了对土壤与人群 ARG 连通性的认识,并有助于制定防止耐药性传播的策略。
本研究构建了一个包含 3,816 份宏基因组数据集(其中包括来自公共数据库的 2,391 份土壤样本和 1,425 份其他生境样本,以及 149 份自主测序数据)的综合数据集,用于系统描绘土壤抗生素抗性基因库(soil antibiotic resistome)的组成特征与来源归属(总计样本数为 3,965)。与此同时,本研究收集了 8,388 株来源于土壤、畜禽和人类(主要来源)的 Escherichia coli 基因组,E. coli 是土壤中携带 ARG 的主要潜在病原体,用于解析 Rank I ARGs 在土壤与其他生境间的物种水平潜在传播网络。此外,我们还构建了全球人类临床抗生素耐药性数据集,用以分析土壤抗性基因与人类耐药性之间的关联关系。
本研究聚焦于两个关键科学问题: (i)Rank I ARGs 的主要来源是什么?其风险水平如何随时间变化? (ii)土壤抗性基因库如何与人类抗性基因库及临床抗药性相关联?
材料与方法
本研究整合了来自 12 种生境的 3965 份宏基因组数据,其中包括 149 份自主生成的中国土壤样本(2018 年 36 份、2021 年 113 份)、2391 份公开土壤数据与 122 份作物表面数据的复分析,以及 1303 份来自猪/牛/鸡粪、人粪、污水处理厂水体、下水、自然沉积物、淡水、海水、填埋场等生境的已发表的数据。基于 ArcGIS(v10.8)汇总各样本的土地利用与土壤类型信息。为确保数据可比性,仅纳入 Illumina 平台测序、paired-end 、原始数据量 >1 GB、DNA 提取前无培养或其他处理、非明显污染环境来源、具备精确坐标与采样时间等完整元数据、平均读长 >100 bp 的公开数据;公开数据通过 Aspera 下载。自主样本采用五点混合法采集,去除植物根系与石砾后 −20 °C 保存;DNA 以 DNeasy PowerSoil Kit(Qiagen)提取,NEBNext Ultra 建库后在 NovaSeq 6000 上以 150 bp 成对末端策略测序,单样本原始数据约 10 GB。
所有宏基因组数据采用一致流程处理:先以 Trimmomatic(v0.36;leading 3、trailing 3、slidingwindow 4:20、minlen 100)进行质控;随后使用 ARGs-OAP(v3.2.2;identity ≥80%、coverage ≥75%、e-value ≤1e-7)在 SARG3.0\_S 数据库上注释并定量 ARG。ARG 结果在 type、subtype 与 gene 三层级分类,并以 copies per cell 归一化;参照既有列表界定 Rank I(高风险)ARG,并评估真菌对 ARGs-OAP 结果的潜在影响。为控制时间与地域偏差,将数据划分为 2008–2010、2011–2013、2014–2016、2017–2019、2020–2021 五个时期,以最小时期样本量为基准对各时期进行 999 次等量抽样,并分别在洲别与土地利用类型上实施固定配额的 999 次重复抽样。
针对 2540 份土壤数据(2391 公开 + 149 自测),采用 MEGAHIT(v1.2.9;k-min 35、k-max 115、k-step 20)组装,过滤长度 <5000 bp 的 contig,使用 Prodigal(v2.6.3)预测 ORF。以 diamond blastp(v2.1.8.162)对 SARG3.0\_S 进行比对识别携带 ARG 的 contig,利用 geNomad 排除质粒所携 ARG;随后以 Kraken2 进行分类学注释,并据 PHI-base 与 2023 年《人类可传播病原微生物名录》聚焦 ARG-携带的原核致病体。定量采用 Bowtie2(v2.4.2,very-sensitive)比对并经 Samtools(v1.11)处理,按 copies per cell 计算 pARG 与 pRank I。
为解析物种水平的潜在交换网络,从 NCBI 初始下载 9700 份 *Escherichia coli* 分离株基因组,限定来源为土壤、人类、鸡/牛/猪粪,且具备明确国家与分离时间,并尽量保持各来源数量均衡。使用 GTDB-Tk(v2.4.0)校验分类与系统发育后排除 231 份,最终纳入 8388 份高质量基因组(完整度 >97%、污染 <5%),分别来自土壤(1404)、牛粪(1485)、鸡粪(1491)、人(3411)与猪粪(597),覆盖 1977–2023 年、53 个国家。对每个基因组以 Prodigal 预测 ORF,按与宏基因组相同阈值用 diamond blastp 比对 SARG3.0_S 与移动遗传元件(MGE)数据库,并同样排除多药外排泵相关基因;将上下游 5 kb 内可检测到 MGE 的 Rank I ARG 定义为 MRank I ARG,仅保留完整 ORF 参与分析;以年度(或时期)“携带 MRank I ARG 的基因组数/总基因组数”定义发生频率,并对各时期按最小样本量(如猪对应时期 A 为 38)进行 999 次等量抽样;全部 8388 份分离株亦用于纯培养条件下的来源归属(FEAST)分析,按生境与时期每次各取 38 个基因组,重复 999 次
为量化跨生境遗传交错,提出连通性(connectivity)指标:在系统发育树上比较同一 ARG 的生境交替程度。候选基因需同时满足“在全部时期均存在”与“属于 Rank I”两项条件,因此选取 *E. coli* 中最常见的 Rank I 基因 eptA。对每个时期与生境,随机抽取 30 条 eptA 完整序列,重复 999 次;用 ClustalW(v2.1)进行比对并以 FastTree(v2.1)构树;连通性据相邻位置的生境交替程度计算,并按理论极值归一化(生态分离的最小值为 2,完全交错的最大值为 60),数值越高表示跨生境交错越强。
为识别可能的水平基因转移(HGT),使用 blastn(v2.6.0)在基因组对间检测 100% 身份度且可翻译为完整 ORF 的 ARG 片段,并将“两个基因组共享至少一个完全一致的 ARG”定义为一次共享事件;为消除样本量差异,每个生境随机抽取 100 份基因组并重复 999 次,总计比较约 4.5×10⁷ 个基因组对;对共享事件涉及的 ARG 片段提取上下游 5 kb 进行 MGE 注释。进一步在 120 个核糖体基因集合上用 snippy(v4.6.0)统计 SNP,并按每 10⁶ bp 归一化;依据每 10⁶ bp 每年 1 个 SNP 的分子钟估计,1977–2023 年间理论累积约 8.2 个 SNP,因此设置 1000 个 SNP 为严格阈值以区分垂直遗传与 HGT,并进行了 100 与 10 个 SNP 的敏感性分析。
最后,构建全球人类临床耐药数据集以检验土壤与人群耐药之间的关联,数据来源包括 ResistanceMap、ECDC Surveillance Atlas、PAHO/PLISA、WHO-GLASS 与中国 CARSS,覆盖 1998–2022 年、126 个国家、18 种病原体与 53 种抗生素。
代码和数据的可用性
本研究测序的宏基因组测序数据已存档于 NCBI Sequence Read Archive(SRA),登录号 PRJNA1202346 与 PRJNA1229199。所用公共数据库中宏基因组数据与 E. coli 分离株基因组来自 NCBI RefSeq、IMG/M portal 与 European Nucleotide Archive (ENA),详情见 Supplementary Data 1、2、8。
GitHub:https://github.com/Yuxiang-Zhao/ARGs
Zenodo:https://doi.org/10.5281/zenodo.15826297
主要结果
在 8,388 株 E. coli 分离株中,土壤来源 E. coli 的 Rank I 与 MRank I ARGs 的人
均拷贝数、基因丰富度以及 MRank I 发生频率均随时间显著上升(p<0.001;r=0.69–0.85),且 2020 年后相较 2007 年前提升约 2.6–6.9 倍(拷贝数)与 1.9–5.5 倍(丰富度);其中 eptA 与 tet(B) 在各时期最为稳定和常见,显示土壤 E. coli 的高风险耐药潜力正在增长。来源归因显示,对土壤 E. coli 影响最大的是人源(26.6%)与鸡源(25.3%),且人源自 2011–2013 年起超过鸡源并在近年保持主导。以 eptA 为代表的系统发育“连通性”度量进一步表明,人与土壤的连通性最高(0.28),并呈近线性增强(R²=0.91,p<0.001),与分箱与宏基因组层面的结论一致,提示土壤与人群 resistome 的耦合在持续强化。
3.E. coli 分离株基因组谱系与特征
基于约 4.5×10^7 组“土壤—他域”的 E. coli 基因组配对,作者用极保守标准(完整 ORF 且 100% 序列一致)识别到大量跨生境 ARG 共享事件,并在分期分析中观察到随时间持续上升的趋势;这些共享事件以土壤—人源/家禽源配对最为突出。对共享 ARG 片段上下游 ±5 kb 的注释显示,多数与可移动遗传元件(MGE)共定位,支持其为水平基因转移(HGT)所致。为排除垂直遗传,研究在 120 个核糖体基因上采用 >1000 SNP 的严格阈值判定,且在更宽松阈值(100、10 SNP)下结论依然稳健。按时期汇总后,共享事件频率与系统发育“连通性”指标同步上升,与分离株和宏基因组层面的证据相互印证,指向跨生境 HGT 是土壤与人群 ARG 连通性增强的主要驱动。
4.土壤 I 级抗生素抗性基因与不同环境中抗性基因的联系
本研究将 1998–2022 年覆盖 126 个国家的临床耐药监测数据(18 种病原体、53 种抗生素)与环境指标对接,发现土壤 Rank I ARG 风险及基于基因组配对的潜在 HGT 指标与人群临床耐药率呈显著相关(R²≈0.40–0.89,p<0.001)。换言之,哪里土壤中高风险 ARG 水平更高、跨生境基因交换信号更强,那里临床耐药率也往往更高。这一关联并不等同于因果,但为“环境—人群”耐药联动提供了定量证据:环境侧的高风险信号可作为临床耐药上升的前置预警;在“One Health”框架下,将土壤与污水等环境监测并入常规耐药治理,有望更早识别热点地区与优先干预对象。总体上,结果 4 将前面三个层面的证据(群落、分离株、跨生境 HGT)与真实世界的临床结局“闭环”关联,强化了“土壤—人群 resis tome 连通性增强正在转化为临床风险”的主线结论。
通过对4490万个基因组配对的分析,研究发现8.7%的总ARGs和0.8%的Rank I ARGs存在序列共享事件。基于严格的分子钟标准(≥1000 SNPs),40.7%的序列相似事件被归因于水平基因转移,其中人类-土壤(53.3%)和鸡-土壤(51.2%)的HGT比例最高。系统发育分析显示,人类和土壤来源的大肠杆菌基因组具有明显的栖息地特异性分布模式,但同时存在大量的跨栖息地基因交流。95%的参与HGT的Rank I ARGs在其上下游5kb范围内检测到移动遗传元件,证实了移动性在ARGs传播中的关键作用。
为验证研究发现的临床意义,研究团队整合了来自五个公共数据库的全球人类临床抗生素抗性数据,涵盖126个国家、18种病原菌、53种抗生素制剂,时间跨度1998-2022年。相关性分析显示,所有土壤抗性组指标(包括Rank I ARGs相对丰度、检出频率、大肠杆菌ARGs拷贝数、HGT效率等)均与人类临床抗生素抗性呈高度正相关(r = 0.66-0.95, R² = 0.40-0.89, p < 0.001)。这一发现从全球尺度证实了土壤抗性组与人类健康的直接关联。
研究揭示了ARGs跨栖息地传播的两种主要机制:垂直基因转移(VGT)和水平基因转移(HGT)。VGT主要发生在土壤与人类接触的界面区域,如农田、城市区域和绿地空间,通过环境细菌与人类细菌的直接混合实现。HGT则通过广宿主范围的通用类群(如污水处理厂中的气单胞菌属和生物气溶胶中的约翰逊不动杆菌)实现跨栖息地传播。
研究首次在全球尺度上确立了土壤在ARGs传播网络中的关键节点地位。土壤既是人类和畜禽ARGs的汇集地,也可能成为ARGs向人类传播的源头。这一双重角色使得土壤成为"One Health"框架下抗生素抗性监测和干预的重要靶点。
时间序列分析揭示了ARGs来源的重要转变:2011-2013年前,鸡粪和牛粪对土壤ARGs的影响更大,但随后人类逐渐成为主导影响因素。这一变化可能反映了人类抗生素使用量的增加以及畜牧业抗生素管理政策的实施效果。
这项研究通过整合全球宏基因组和基因组数据,运用创新的生物信息学方法,系统性地证明了土壤抗生素抗性组与人类抗性组之间日益密切的关联。研究发现土壤中高风险ARGs的丰度和可移动性随时间显著增加,跨栖息地水平基因转移是ARGs传播的重要机制,人类已成为土壤ARGs的主要来源。
这些发现不仅深化了我们对ARGs环境传播的理解,也为"One Health"框架下的抗生素抗性防控提供了重要的科学依据。研究强调了将土壤纳入全球ARGs监测体系的必要性,并为制定更加综合和有效的抗生素抗性管理策略提供了方向。
随着全球抗生素使用量的持续增加和环境污染的加剧,土壤作为ARGs传播节点的作用可能进一步凸显。因此,加强土壤ARGs的监测和管理,将是未来抗击抗生素抗性这一全球健康威胁的重要战略组成部分。
Zhao Y, Li L, Huang Y, Xu X et al. Global soil antibiotic resistance genes are associated with increasing risk and connectivity to human resistome. Nat Commun. 2025 Aug 4;16(1):7141. doi: 10.1038/s41467-025-61606-3. PMID: 4075989.