药明康德/报道
在过去几年中,计算机视觉识别已经被应用到了很多领域。例如,一些手机应用程序可以识别出照片中的物品是什么,以及在哪里可以购买。Facebook和Twitter等大型社交媒体也利用这一技术,在用户上传的照片中将他们的朋友自动识别并@出来,为人们提供了一种和朋友保持联系的方式。
在实现了这些突破之后,计算机视觉识别的下一项重大应用就是为失明的人们提供帮助,让他们的生活不再因为视觉的缺失而产生不便。现在一些公司已经推出了解决这一问题的应用程序,利用视觉问答技术,让用户拍摄照片并提出他们想要了解的问题,再由后台给出答案。例如,如果一名用户想要得知他手上的T恤是什么颜色的,他只需要拍摄一张T恤的照片并附上问题,就可以得到相应的答案。
然而,这类应用程序存在着一个非常严重的问题:由于照片均为失明者拍摄,而他们又无法看到自己拍摄的照片,因此导致照片质量参差不齐,一些低质量的照片无法被识别,从而不能给用户正确的答案。为了能够更好的帮助失明者,这类应用程序急需开发一套算法,来训练计算机识别低质量的图片并提示用户重新拍照。因此,建立开发算法所使用的图像数据库,就成了研究人员的当务之急。
▲VizWiz用户上传的照片,以及根据这些照片提出的问题和答案。其中第二行的图片由于画面模糊等质量问题,无法根据图片来进行回答(图片来源:arXiv)
近日,来自德克萨斯大学奥斯汀分校(University of Texas at Austin)的Danna Gurari博士团队发表了一项研究成果,建立了一个用于训练计算机进行视觉问答的数据库,其中包括31000张由失明者拍摄的照片,以及和这些照片相关的问题和答案。这些图片和问题都来自一个叫做VizWiz的应用程序。
▲这项研究的主要负责人Danna Gurari博士(图片来源:The University of Texas at Austin)
Danna Gurari博士及其团队成员筛选了70000多张由失明者拍摄的照片,其中去掉了一些个人隐私信息,然后依据筛选过后的照片,收集相关问题的答案。为了保证数据的一致性,研究人员针对每张照片都搜集了十个左右的回答作为参考。经过筛选过后的31000张照片及其相关问题和回答,就组成了新的数据库,可以用于训练机器学习算法。
除了建立新的数据库之外,Gurari博士团队还对他们所收集的所有图片及问答进行了分析。在收集到的所有问题中,虽然大部分问题都可以概括为“XX是什么”的形式,但是问题里面经常会出现一些很少见的词汇。而且,只有2%的问题可以用“是”和“不是”来回答。在图像分析方面,有28%的图像因为质量过低,无法用作回答问题的参考。
▲VizWiz上所有问题的前六个单词的频率分布环形图,其中最内侧的环形代表第一个单词,以此类推。图中我们可以看出,“what”是所有问题开头使用频率最高的词汇(图片来源:arXiv)
Gurari博士表示,训练机器学习算法来帮助失明者是至关重要的。如果成功开发出相关的算法,可以让失明者克服生活中因视觉不便带来的困难,同时也可以减轻在视觉问答过程中对于人力的依赖。这样一来,可以减少雇佣人力的成本,同时大大加快了提供答案的速度,并且避免出现信用卡信息泄露等隐私问题。
我们希望,可以早日看到这个新建的数据库被用于训练机器学习算法,从而让失明者的生活变得更加方便。
领取专属 10元无门槛券
私享最新 技术干货