在我们的日常生活中,会经常使用人工智能的工具,比如手机的语音助手。这些工具,大部分的时候,相对准确,即使偶尔出错,我们人类也会原谅它们。
然而,用于医学临床诊断的人工智能,一旦出错,对人的影响可能会很严重了。
2020年,一项重磅消息发布,由国外一家制药公司资助的研究发现,一种通过分析说话方式的人工智能模型,可以相对准确地预测早期阿尔茨海默病(也就是老年痴呆),准确率高达74%,甚至比临床医生的诊断更准确,这项研究成果发表在了《柳叶刀》旗下的一本医学期刊上。
这个消息让业内很兴奋,随之而来的是:初创科技公司和资本的跃跃欲试。
但是现在来看,情况似乎出现了反转。
一般情况下,人工智能模型会随着训练样本输入的增加,而变得更加准确。
但结果却恰恰相反。
真实的情况是,该模型的准确性,随着训练数据集的增加而降低。
当前有分析指出,这种违反常理的情况可能的原因在于:如何评估模型的准确性。
正常情况下,我们会把人工智能模型所需的数据集合分成两个部分,一部分用于训练人工智能模型,另一部分用于测试人工智能模型的准确性。
但是如果在模型训练的过程中,使用了部分用于测试的数据集,那问题就来了,这一部分的数据既当教练员,又当裁判员,我们称之为数据泄露,从而导致了人工智能模型的准确性被夸大。所以,当使用全新的数据集,进行测试的时候,模型准确性彻底拉胯。
所以对于医学临床诊断方面的应用,除了需要算法设计师考虑:是否模型本身能够涵盖人体健康的多模态和多维度的复杂结构;
还需要考虑:训练数据集和测试数据集的完全隔离,否则,过渡夸大的准确性,只会变成一种炒作,尤其是在医学临床诊断这种非常严肃的场景下。
人工智能是一门极具挑战性的严肃科学,它应该不包括:吹牛这个方向。
领取专属 10元无门槛券
私享最新 技术干货