新智元报道
来源:BBC
编辑:三石
警告:机器学习导致了一场“科学危机”!
目前,许多科学家用机器学习技术来分析数据等,但其产生的结果有时是具有误导性的,而且往往是完全错误性的。
来自休斯顿莱斯大学的Genevera Allen博士说,这种系统使用的增加导致了一场“科学危机”。
她警告科学家们:
如果科学家们不对机器学习技术进行改进,就等同于浪费时间和金钱。
采用机器学习技术来分析处理已有的数据集像是一股热潮,从生物医学到天文学,比比皆是。而且这些数据集往往“体量”庞大、价格昂贵。
“可复制性危机”
虽然Allen博士发出了这样的警告,但是根据她们的说法,团队所提出的答案可能不完全是正确的:
因为软件识别的模式只存在于数据集中,而不存在于现实世界中。
Allen博士表示,有缺陷的机器学习正在制造一场“科学危机”
Allen博士说:
通常情况下,先使用机器学习技术并产生了一定结果的研究,往往不会发现它是错误的。 直到其他人在将这些技术应用于更大的数据集中,然后产生的结果与前人的结果完全不同,这时人们才会惊呼:“天哪!这两项实验结果完全不一致!” 目前,科学界普遍承认存在可复制性危机。我敢说,其中很大一部分原因确实来机器学习技术在科学研究中的使用。
科学上的“可复制性危机”指的是当另一组科学家尝试同样的实验时,研究结果没有被重复。这意味着最初的结果是错误的。一项分析表明,世界上85%的生物医学研究都是徒劳的。
这是一场已经持续了20年的危机。
这场危机之所以会出现,是因为实验的设计不够完美,无法确保科学家们不会自欺欺人——只想得到自己想要的结果。
具有缺陷的模式
Allen博士表示,机器学习系统和大数据集的使用加速了这场危机。
这是因为机器学习算法专门用于在数据集中查找“有趣”的东西。因此当它们搜索大量数据时,将不可避免地找到一种模式。
真正的挑战在于,我们真的可以相信这些“发现”吗? 那些所谓的科学发现,能够代表真正的科学吗?它们是可重复的吗?若是给定一个额外的数据集,运用同样的方法,是否会得到相同的结果呢?不幸的是,事实往往并非如此。
机器学习也应用于生物医学研究
Allen博士正与休斯顿贝勒医学院的一组生物医学研究人员合作,以提高他们研究结果的可靠性。
她正在开发下一代机器学习和统计技术,这些技术不仅可以筛选大量数据进行“发现”,还可以报告结果的不确定性及其可能的重复性。
她告诉与其共事的科学家:“收集这些数据集是非常昂贵的,论文的发表可能会需要更长的时间,但是你们的成果是能够经得起时间的考验的!”
“这将为科学家节省资金。更重要的是,可以保障科学不会按着这些错误的方向发展。”
原文链接:
https://www.bbc.com/news/science-environment-47267081