首次系统综述和分析发现,人工智能(AI)与医疗专业人员一样,能够很好地根据医学图像诊断疾病。
人工智能和医疗保健专业人员在基于医学影像诊断疾病方面同样有效。检查了现有证据,以试图确定AI是否可以像医疗专业人员一样有效地诊断疾病。
人工智能可与医疗保健专业人员媲美
研究人员将深度学习算法与医疗专业人员在基于医学成像进行诊断时的诊断效果进行了比较。他们检查了研究报告的质量,临床价值和研究设计。此外,在评估AI与医疗专业人员的诊断性能时,考察了两个结果:特异性和敏感性。
“ 敏感性 ”定义了诊断工具在患有该疾病的人中获得阳性结果的可能性。特异性是指诊断测试的准确性,是对灵敏度测量的补充。
选择过程仅产生14项研究,其质量足以纳入分析。我们审查了20,500篇文章,但其中不到1%的文章在设计和报告上足够强大。
此外,只有25项研究从外部验证了AI模型(使用来自不同人群的医学图像),只有14项研究比较了使用相同测试样本的AI和健康专业人员的表现。
在那几项高质量的研究中,我们发现深度学习确实可以像卫生专业人员一样准确地检测出从癌症到眼科疾病的各种疾病。但是必须指出的是,人工智能在本质上并没有超越人类的诊断。
更具体地说,该分析发现,AI可以在87%的病例中正确诊断疾病,而由医疗保健专业人员进行检测可以得出86%的准确率。深度学习算法的特异性为93%,而人类为91%。
偏差可能会夸大AI性能
研究注意他们在检查AI诊断性能的研究中发现的一些局限性。首先,大多数研究在不模仿常规临床实践的孤立环境中检查AI和医疗保健专业人员的诊断准确性。
其次,大多数研究仅比较数据集,而对诊断性能的高质量研究则需要在人中进行这样的比较。
此外,所有研究都报告不佳,而分析并未考虑到所述数据集中缺少的信息。大多数研究没有报告是否有任何数据丢失,该数据代表什么比例以及在分析中如何处理丢失的数据。
其他限制包括:术灵敏度和特异性分析的阈值设置不明确以及缺乏样本外验证。使用新的,可能挽救生命的诊断程序的愿望与以高质量的证据开发以使患者和医疗系统在临床实践中受益的方式之间存在着内在的张力。
从我们的工作中得出的一个重要教训是,与医疗保健的任何其他部分一样,在人工智能中,好的研究设计也很重要。没有它,您就很容易引入偏见,从而使您的结果产生偏差。这些偏见可能导致夸大了对AI良好性能的要求。不能转化为现实世界的工具。
到目前为止,几乎没有任何试验可以采用AI算法做出的诊断决策来观察对患者真正重要的是什么,例如及时治疗,出院时间甚至存活率。
领取专属 10元无门槛券
私享最新 技术干货