就在这周,麻省理工学院紧急下架了Tiny Images数据集。
原因很简单,有学者研究指出,这个通过大量搜索引擎整合的数据集,内里竟然隐藏着诸多令人不齿的标签:儿童猥亵、性暗示、种族歧视……
而这些图像的标签(b***h,w**re),则带有强烈的偏见和反人道的意味。
如果含有这样的标签和图像的数据集被用于训练AI,后果将不堪设想。
然而局面似乎已经无法挽回:由于这个数据集主打微小图像,且图片数量庞大,在当年计算机硬件还不发达时,曾被广泛用于AI训练,在arXiv上属于高引用论文。
Reddit上针对此事的说法不一。
有网友认为,这件事有点小题大做的意思。毕竟这些通过网络搜集到的图片、文本信息,也是真实世界的一部分。
在我看来,这有点「道德恐慌」了。难道会有人觉得用来训练GPT-3的接近1TB的开放式网络文本信息里没有任何冒犯性的内容?
但也有支持的网友拍手称快。
MIT干得好!
除了这类情绪化的观点,很多人也开始理性思考这种数据集形成的原因。
这是不是制作数据集的作者们无暇抽空检查导致的?
这些机器学习的研究人员在处理图像的时候,难道不会设置一下搜索过滤吗?就我经验来看,有些制作不精的数据集在没时间检查的情况下就发布了。
很快有网友否认了这种观点,因为Tiny Images不属于这种情况。
我认识原作者,情况不是你想的那样。我觉得,作者只是没有像我们今天这样考虑这么多,他们在利用搜索引擎整合图片的时候,可能没想过要对标签列表进行过滤。
无论网友抱持有何种观点,目前这个数据集的下架都已是不争的事实。
哪怕是比Tiny Images更有影响力的数据集ImageNet,在这次研究中也被指出存在部分令人不适的图片,但没有Tiny Images数量这么庞大。
有学者指出,ImageNet维护者众多、且图像分类明确,与之相比,Tiny Images则几乎从未被仔细检查过。
到底是什么原因,使得这么多年来,Tiny Images数据集一直少有人工清查?
这个问题,可能还得从Tiny Images自身的特性说起。
Tiny Images数据集自2006年问世后,至今已包含5万多个WordNet中的不同标签。
数据集中的图像,来源于搜索引擎搜索标签、并自动下载所搜到的图片。
整理后的图像数量达8000万张,每张都以非常低的分辨率(32×32)保存在数据集中,形成了Tiny Images数据集的特色:数量庞大,图像微小。
然而,正是由于图像数量过于庞大,导致这些令人反感的图像隐藏太深;而低分辨率,则会导致这些图像难以被视觉识别。
下架时,麻省理工学院给出了官方说明。
由于我们无法保证,能彻底删除Tiny Images中所有令人反感的图像,所以将它下线了。
同时,也希望网上不要再传播已有的Tiny Images数据集副本。
将Tiny Images下架的最重要的原因,是因为这些带有强烈偏见的、令人反感的标签所标注的图像,与我们计算机视觉行业致力于达成的包容、无偏见的价值观背道而驰。
不仅如此,采用这些标签进行训练后的AI模型,可能会在图像分类或目标检测时,将这些隐含的反人道标签用于目标识别中。
无论是Tiny Images还是ImageNet,这次都栽在了一个叫WordNet的分类词库上。
词库以其强大的词义关联性著称,会根据各种单词的意义,将不同的词组成各式各样的集合,最终构成一个词库网。
例如,WordNet会将「比基尼」、「色情」和「whore」(贬义)等单词关联到一起,如果在搜索引擎上进行图像搜索,所获得的图片会带有强烈的偏见色彩。
不可避免的是,WordNet中会收录许多带有贬义和偏见标签的图片,如果在使用这些图片进行训练时,没有对标签进行过滤,训练后的AI就可能会利用这些标签,戴上「有色眼镜」识人。
ImageNet以其知名度和做得较好的图像分类,较为幸运地得到了比较良好的维护,与之相比,Tiny Images中许多带贬义标签的图像却因为低分辨率难以被识别。
这就导致了这次的紧急下线。
但正如某些网友所说,无论如何,制作无任何偏见的数据集,本身就是良好的AI训练不可或缺的一部分。
目前,许多最新的数据集也在不断致力于以各种方式,接近这种「无偏见」的目标。
Antonio Torralba,麻省理工学院的副教授,主要研究方向为计算机视觉和机器学习,Tiny Images是他与另外两位作者,经过8个月时间整理出来的微型图像数据集。
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
领取专属 10元无门槛券
私享最新 技术干货