
DRUGONE
理解基因组改变如何驱动癌症发生是精准肿瘤学的核心。检测这些改变需要依赖准确的算法,但由于隐私问题,很少有深度测序的癌症基因组可供共享,这限制了工具的基准测试和改进。为解决这一问题,研究人员开发了 OncoGAN,这是一种结合生成对抗网络和变分自编码器的生成式人工智能模型,用于生成逼真的合成癌症基因组。OncoGAN 在大规模基因组数据集上训练,能够准确再现不同癌症类型中的体细胞突变、拷贝数变异和结构变异,并保持供体隐私。生成的基因组反映了肿瘤特异性突变特征和位置分布模式。利用 DeepTumour 工具验证表明,合成数据与真实肿瘤高度一致,并且在训练数据中加入合成基因组能够提升 DeepTumour 的准确性。这显示 OncoGAN 有潜力生成带有已知真值、可公开共享的数据集,用于基准测试和改进癌症基因组分析工具。

大多数癌症源自基因组损伤,这些损伤改变了调控细胞增殖、程序性细胞死亡和组织相互作用的关键基因与蛋白的活性。精准肿瘤学的目标是通过描绘这些基因组改变,指导临床应用靶向疗法,以提高疗效并减少副作用。尽管已有国际癌症基因组计划、癌症基因组图谱等大型项目分析了超过两万个癌症样本,揭示了点突变、结构变异和拷贝数变异,但由于隐私与伦理限制,缺乏可公开共享的标准化癌症基因组。这阻碍了分析工具的发展。
近年来,深度学习技术如生成对抗网络和变分自编码器为创建开放的合成数据集提供了机会。这些方法已被应用于图像与表格数据生成。研究人员在此基础上提出了 OncoGAN,它利用 GAN、TVAE 和随机采样方法,训练于大规模癌症基因组数据集,生成包含已知真值的合成癌症基因组。
结果
合成肿瘤生成流程
OncoGAN 是一个多模型集成流程,能够为八种不同癌症类型生成合成样本。该流程通过多种模型分别模拟突变类型、变异频率、基因组位置以及 CNA-SV 特征,并在最终整合为完整的基因组文件。结果显示生成的数据在突变密度、突变类型分布和供体异质性等方面与真实数据高度一致。

模拟肿瘤异质性与克隆性
研究人员生成了数百个不同癌症类型的样本,并与真实数据比较。结果表明,OncoGAN 能准确再现供体间的突变负荷、变异等位基因频率分布及驱动基因间的相关性。模拟结果与真实癌症群体的差异极小。

组织特异性突变模式
在基因组分布上,OncoGAN 能够再现不同肿瘤的特异性突变热点区域。例如,在慢性淋巴细胞白血病中,OncoGAN 成功生成了免疫球蛋白基因的高突变峰值。突变特征分析也表明,模型能够捕捉与吸烟、紫外线暴露等相关的突变特征,并保持不同供体之间的差异性。

驱动突变与算法评估
OncoGAN 在模拟中引入了肿瘤类型特异的驱动突变,且保持了其发生频率与相互关系。利用 ActiveDriverWGS 等工具验证表明,合成数据能够正确识别大部分驱动基因。DeepTumour 工具在合成数据上的预测准确率接近真实数据,并且当训练集中加入合成样本时,模型的整体准确性进一步提高,尤其在样本量较少的肿瘤类型中提升明显。

CNA 与 SV 的模拟
OncoGAN 还能模拟拷贝数改变和结构变异,并保持与真实癌症基因组相似的染色体不稳定性指标和变异分布。这使得生成的 VCF 文件可以用于下游分析或结合 InSilicoSeq、BAMsurgeon 等工具生成模拟的 FASTQ/BAM 文件。

数据共享与可用性
研究人员基于 OncoGAN 生成了 800 个合成癌症基因组,涵盖八种肿瘤类型,并已公开在 HuggingFace 和 Zenodo 平台上。这些数据不受分发限制,便于研究人员用于工具开发与基准测试。
讨论
研究人员提出的 OncoGAN 展示了生成式人工智能在癌症基因组模拟中的潜力。它能够再现实验中观察到的多种肿瘤特征,并在驱动基因检测、突变特征识别和肿瘤类型预测等分析中表现出与真实数据相当的结果。进一步地,合成数据能弥补真实数据集的不足,如样本量小和类别不均衡,为算法训练提供了新的资源。
此外,OncoGAN 模拟的基因组在隐私保护方面具备优势:其突变位置与序列上下文是独立生成的,不含任何供体身份信息。因此可以完全开放共享。这种方法不仅有助于推动癌症基因组学研究,也能为其他稀有癌症类型的数据增强提供支持。
尽管如此,OncoGAN 也存在局限。例如,当前模型尚不能模拟亚克隆重建和复杂染色体事件(如染色体碎裂、重排等),驱动突变与 CNA 的整合仍然是独立的。这些不足需要在未来的模型改进中进一步解决。
整理 | DrugOne团队
参考资料
Dı ́az-Navarro et al., In silico generation of synthetic cancer genomes using generative AI, Cell Genomics (2025).
https://doi.org/10.1016/j.xgen.2025.100969