前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >Nat. Biomed. Eng. | 盛斌教授联合多国学者联合述评,解读生成式AI数据对于医学大模型的影响

Nat. Biomed. Eng. | 盛斌教授联合多国学者联合述评,解读生成式AI数据对于医学大模型的影响

作者头像
DrugAI
发布于 2025-04-13 10:45:39
发布于 2025-04-13 10:45:39
1710
举报
文章被收录于专栏:DrugAIDrugAI

转自《上海交通大学人工智能研究院》微信公众号

生成式人工智能(如生成对抗网络、扩散模型等)通过合成高质量、多样化的医学数据,其科学价值体现在突破数据瓶颈、推动多模态融合与因果推理,而实际应用则体现在提升诊断精度、加速个性化诊疗及优化医疗资源分配等方面,正在推动医学领域从数据驱动向知识驱动的范式转型。这一技术创新不仅突破了医学数据获取与利用的核心瓶颈,为提升国家医疗科技竞争力、服务健康中国建设提供了关键支撑。

我国医疗数据体系长期受困于三大核心挑战:严格的隐私保护法规(《数据安全法》《个人信息保护法》构建的合规高墙)、高昂的标注成本(单例医学影像标注需数小时专业人力)、严重的数据孤岛(跨机构数据共享率不足 30%),这些瓶颈让 AI 模型训练陷入 “巧妇难为无米之炊” 的境地。在全球医学 AI 竞争转向 “基座模型 + 大模型” 驱动的算力算法数据综合比拼的当下,生成式 AI 带来了破局之道 — 通过精准模拟真实数据分布特征,将单中心千级病例扩展为百万级训练集。这不仅为罕见病诊疗、儿科等数据稀缺领域提供 “数据造血” 能力,更在数据割裂、技术脱钩风险加剧的国际环境下,为我国构建自主可控的医疗数据生态提供了战略级技术储备,直接响应 “面向国家重大需求” 的核心诉求。

2025年3月,复旦大学颜波教授团队在Nature Biomedical Engineering期刊发表了通过利用生成式AI数据构建眼科基座模型的有益探索。针对这一突破性工作,上海交通大学计算机科学与工程系、人工智能教育部重点实验室盛斌教授联合清华大学医学院黄天荫教授、英国伦敦大学学院(UCL)眼科研究所 Pearse Keane 教授、新加坡国立大学医学院覃宇宗教授等多国学者,在同期Nature Biomedical Engineering期刊发表题为《合成数据助推医学基座模型发展》(Synthetic Data Boosts Medical Foundation Models)的深度述评文章(DOI: https://doi.org/10.1038/s41551-025-01365-0)。

述评中盛斌等学者提出,首先,尽管人工智能生成的数据可能会降低与真实世界医疗数据相关的隐私风险,但它并不能完全消除这些风险。其次,基础模型的黑箱性质使得当模型主要或仅在合成数据上进行训练时,性能恶化或失败的原因变得模糊;这个缺点会让开发者和用户不确定人工智能生成数据的 “毒性” 程度。第三,用有限的真实世界疾病标签样本指导合成数据生成可能会无意中强化小真实世界数据集中固有的偏差,从而损害模型的公平性、公正性和通用性,特别是对于罕见疾病或少数民族和其他代表性不足的群体。目前尚不清楚构建一个强大的基础模型需要多少真实世界数据;实际上,完全在合成数据上训练的模型的性能仍然未知。此外,建立确保医疗人工智能中真实世界和合成数据的可追溯性和来源的指南和标准是当务之急。

述评对复旦大学的研究成果予以高度肯定,同时也指出,该项研究引出了有关人工智能生成数据在构建基础模型过程中所起作用的一系列根本性问题。其中最为关键的一点在于,人工智能生成的数据对医疗基础模型性能的影响具有两面性,它既可能成为提升性能的强力催化剂,大幅优化模型表现;也可能沦为降低性能的污染物,给模型带来难以预估的负面效应 。因此,必须在合成数据提供的机会与严格验证、伦理考虑以及对持续改进真实世界数据收集的承诺之间找到微妙的平衡。

此外,当前的人工智能模型距离能够精准捕捉人类健康复杂性、堪称 “通用模型”或“世界模型” 的目标,仍存在着巨大的差距。人类健康所涵盖的范畴极为广泛,涉及到生物、心理、环境等诸多复杂因素,其内在机制盘根错节,绝非现有模型所能轻易驾驭。若要构建针对普遍健康问题的基础模型,绝不能仅仅依赖人工智能生成的数据,而需采用一种更为全面、综合的方法。在人类生物学与健康领域,尚有海量的未知等待我们去探索,例如许多罕见病的发病机制至今成谜,环境因素与慢性疾病之间的关联也有待进一步明确。在这样的背景下,提升真实世界数据收集的效率与通用性,依旧是医学研究与人工智能医疗应用发展进程中的重中之重。不可否认,合成数据在辅助真实世界数据方面具备一定的潜力,当它与真实世界数据巧妙结合时,能够在数据扩充、模型训练等方面发挥积极作用,助力研究工作的推进。但必须清醒地认识到,合成数据存在诸多局限性,它难以独立成为解决人类健康问题的完整方案,无法完全替代真实世界数据所蕴含的丰富信息与真实性价值。唯有将二者合理搭配,以真实世界数据为基石,以合成数据为补充,才能为构建强大且实用的医疗基础模型筑牢根基。

述评提出,生成式人工智能于医学领域的应用,绝非局限于技术层面的创新,实则掀起一场医疗服务模式的重大变革。这一前沿技术在医学 AI 领域意义非凡,有望推动我国医学 AI 实现科技自立自强。当前,医学AI领域国际竞争日趋激烈,生成式人工智能则为学术界突破这一技术垄断提供了有力契机,助力我国在医疗 AI 底层算法等关键领域实现自主可控与创新发展。着眼未来,通过全方位完善制度,推动生成式 AI 顺利从技术突破迈向规模化落地,为实现 “四个面向” 战略目标源源不断地贡献医疗科技力量,让先进技术切实惠及广大民众,提升我国整体医疗水平 。

责任编辑 | 黄蕾宇

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档