通过:盖蒂图片社
根据英国和美国研究人员的一项研究,当人工智能(AI)大型语言模型在机器而不是人类生成的数据上进行训练时,会导致模型崩溃。
换句话说,大规模使用[大型语言模型]在互联网上发布内容将污染训练它们的数据收集。
我是斜杠青年,一个PE背景的杂食性学者!
这给未来的生成式人工智能训练带来了一个问题,因为越来越多的人工智能生成的文本和合成数据在网上发布。
像Open AI的ChatGPT和Alphabet的Bard这样的大型语言模型最初主要是使用从互联网上抓取的人类生成的文本进行训练的,并使用进一步的人类输入进行微调。
但是,越来越多的在线内容也是由AI模型本身创建的。
当作者Ilia Shumailov和Zakhar Shumaylov讨论大型语言模型时,他们想知道在训练中使用越来越多的人工(机器生成的)数据是否会给未来的模型带来麻烦。
当人工智能模型从机器生成的数据而不是人类创建的数据中学习时,“即使保留了一些原始数据,也会在短短几次迭代中发生重大退化。
优化缺陷、有限模型和有限数据造成的错误最终会导致合成数据质量低(er)。随着时间的推移,错误会加剧并最终迫使从生成的数据中学习的模型进一步误解现实。
研究人员表示,所有形式的生成式人工智能都存在这个问题。
模型崩溃是一种影响任何在合成数据上训练的模型的现象。
研究发现,从其他模型产生的数据中学习会导致模型崩溃 - 这是一个退化的过程,随着时间的推移,模型忘记了真正的底层数据分布,即使随着时间的推移分布没有变化。
Shumailov用狗图片的类比解释了模型崩溃的概念。
“考虑一个场景,我们有一个生成狗图像的模型,初始数据集由10只蓝眼睛的狗和90只黄色眼睛的狗组成。在训练了我们的初始模型后,它变得非常精通从数据中学习,尽管并不完美。由于训练集中黄眼狗占主导地位,该模型无意中改变了蓝眼睛,使其看起来稍微更绿。随后,我们使用这个模型来生成新的狗并在社交媒体上分享它们。在这一点上,有人决定在互联网上抓取狗的图像,包括生成的图像。他们找回了10只蓝眼睛的狗,现在看起来蓝色略少,绿色多了,还有90只黄眼睛的狗。然后,他们使用这些数据训练一个新模型,从而产生类似的结果。由于大多数数据包括黄眼狗,因此该模型变得更加擅长表示它们,而其理解和表示蓝眼狗的能力则减弱。
随着时间的推移,对少数群体的这种理解会恶化,从蓝色发展到蓝绿色,然后是绿色,最后是黄绿色,最终导致对这些信息的完全丢失或扭曲。这种现象就是模型崩溃。
为了防止这种情况,重要的是要确保原始数据中的少数群体在随后的数据集中得到公平的体现,不仅在数量方面(例如,10张图像),而且在他们的独特属性方面(例如,蓝眼睛)。
Shumailov对有错误的数据进行训练会导致模型学习这些错误并误解现实。随着时间的推移,这些误解会变得更糟。
该论文认为,保存人类生成的训练数据(“在大规模采用该技术之前从互联网上抓取”)可能是有价值的,特别是包括不太可能发生的数据,以供后续模型学习。
论文作者写道:在避免模型崩溃方面,最重要的是能够从“分布的尾部”访问数据。希望在未来训练人工智能模型的公司和实体将需要“在数据收集和注释上花费足够的资源,以确保他们未来的模型能够有效地学习。
领取专属 10元无门槛券
私享最新 技术干货