
现在,你可以在Facebook上通过描述照片中的内容来搜索图片了:手工添加的图片标题和标签都不再重要。
这个功能的背后,是Facebook计算机视觉平台Lumos,他们在去年四月开发了这一平台,是为了把Facebook上的图片描述给有视觉障碍的用户听。

为了实现这个功能,Facebook使用了上百万张照片来训练深度神经网络,好在他们的平台上已经有数十亿张加了标题的图片。Facebook建立的模型通过某种概率性将搜索语句与从图片提取的特征匹配起来。
将搜索词和照片匹配起来之后,Facebook的模型使用图片本身和原有搜索中的信息来对搜索结果进行排序,另外,他们在排序中还考虑到了照片的多样性,以确保用户不会连续看50张照片都是同一个东西,只在焦距和角度上略有不同。
最终,Facebook会将这一技术用于它日益扩大的视频库。这一技术可能用在个人情境中,比如说帮用户搜索朋友的视频,找到她吹灭生日蜡烛的那一刻;也可能用于商业情境中,有助于提升Facebook信息流广告营收的天花板。
从图片和视频中提取内容信息为改善匹配提供了一个初始向量。最终,我们将看到一个完全整合的系统,在这个系统中,我们可以提取信息,比如说从视频中搜索一件你非常喜欢的裙子,然后把它链接到市场上的商品,甚至把你和广告合作商直接连接起来以增进用户体验、保持营收增长。
在新图片搜索功能发布的同时,Facebook还对Lumos的初心:“自动替换文本”功能进行了升级,让视障用户能听到更生动的图片描述。

去年四月推出时,这个为图片生成文字描述的工具只能告诉用户图片里有等、台阶等物体,但不太会描述物体的动作。
为了解决这个问题,Facebook的一个团队手工标注了平台上的130000张照片。现在,对于上面的图片,视障用户听到的描述将从原来的“人和舞台”变成“人们在舞台上跳舞”。
把计算机视觉领域的技术发展用在已有的产品上,Facebook并不是独一份。
Pinterest的视觉搜索功能也在持续改进,现在用户可以通过图片中的物体来搜索图片。
Google则在去年秋天开源了他们的图片自动描述模型,这一模型能识别物体、对动作进行分类,准确率高达90%。开源之后,这一模型在机器学习开发者中大受欢迎,累积了不错的声望。点击文章下方的“阅读原文”,可以看到这个模型的开源代码。
编译 | 量子位 李林