20 世纪 60 年代末,全世界的大学都想知道这个问题的答案:有朝一日计算机能拥有视力吗?大家都对计算机能否看到东西,能否与人类互动特别感兴趣。这个探索导致了一个新领域的诞生,那就是计算机视觉。在 90 年代初,麻省理工学院的研究人员发明出能检测人类头部的机器,曼彻斯特大学的研究小组也有了一种可以检测面部特征的机器。直到 2013 年,此时距离智能手机问世已经 6 年,人工智能技术以神经网络形式出现已经 3 年,瑞典皇家理工学院的团队才得以在手机上运行这个东西。
这项工作长期以来都完全是学术研究,但在 2014 年,乌克兰初创公司 Looksery 利用这技术创建了一个数字化妆品自拍应用,用户下载量超过 100 万次。Snapchat 看到了更大的机遇,收购了该公司。6 个月后,Looksery 成为了 Snapchat 现在著名的 Lenses。Facebook 意识到有必要将其竞争对手的功能与功能相匹配,随后在第二年早些时候收购了应用程序 MSQRD 背后的团队。以人为中心的计算机视觉,以自拍 AR的形式在公共形式中应用,突然在全球范围内引起了轰动,成为两大社交媒体巨头争夺关注的关键武器。
2017 年,苹果推出了开发 AR 应用的 ARKit,Snapchat 推出 AR 相机应用 World Lenses,Facebook 则开放了 AR 工作室,然而这些努力并没有带来用户的疯狂增长。
对我们来说,新的社交 AR 不仅将缩小自拍 AR 与以眼镜为基础的新兴 AR 之间的差距,而且潜在的技术可能是未来几年的关键组成部分。为了做到这一点,需要开发一个神经网络,在所有的配置中实时检测追踪人们,而不仅仅是自拍,这是个很大的挑战。
用前置摄像头追踪自拍照本质上是一种特殊情况,在识别和跟踪一个人的时候,可能会遇到各种各样的情况。从前置镜头到后面的镜头可以看到很多其他的例子,其中包括:主题有可能偏离中心;人可能看起来是不同的距离/尺寸;他们通常不会面对镜头,所以不能只看人脸,而是要寻找头部、头发、帽子和其他各种特征的背部;照片中经常有很多人。
上面这些问题都是必须克服的,克服后技术才能够工作。那么这项技术到底能做些什么,我们可以分为以下四个部分:
多人检测
考虑到用户的相机图像,应用程序需要识别图像中显示头部和相应物体的区域。这使得我们可以根据头部的大小来估计人的距离。通过身体,可以将任何视觉信息锚定在人的运动上。
持久的个人跟踪拍摄
将多人头部和身体检测的信息与多个帧进行比较,以追踪场景中人物的运动和身份。这使我们能够将视觉信息固定在一个特定的个人身上,即使他们被其他人包围,或是他们离开了相机的视线又重新进入。
个人背景和全身分割
对于每一个被跟踪的人,进一步分类哪些像素属于他们的脸、皮肤、头发、衣服和背景。这为我们提供了一系列分层的清晰的分色,可以用它来进行 AR 效果的高级混合。否则只能使用光场或深度传感捕获技术,这在智能手机上不容易实现。
编辑器
我们专门训练神经网络以产生这些层,让任何设计师都可以轻易地与之交互和操作。因为这些网络是基于简单的数学计算,所以很容易让他们在桌面和移动设备上运行相同的质量。这使得设计者可以快速的迭代和设计,使用自定义编辑器,为溢出应用视觉效果。
案例:
社交应用:鼓励人们聚在一起,扮演他们最喜欢的明星。
游戏体验:玩家现在可以成为游戏中的角色,目标和视觉操控,被攻击时还能还击。
时尚应用:在顾客身体上放衣服,既可以娱乐,也可以试用和购买。
我们的细分用户可以将他们的移动头像放置在任何视频中,这都是实时追踪的。在基于眼镜的未来,人们很可能是整个互动的上下文触发器。最初是在室内,比如特定于人的提醒 、个人详细信息或更丰富的游戏体验。然后很可能会看到涉及商业交易的户外交互,比如网上即时支付,以及视觉增强,预计 Tumblr 和 Pinterest 后面的相同动机将会扩展到个人身上。
简而言之,在以技术为动力的世界里,以人类为中心的视觉技术的进步只会进一步将两者联系在一起。我们正在走向一个未来,智能手机的商业、娱乐和自我表达将会从屏幕上消失,进入现实世界。
来源:Medium
领取专属 10元无门槛券
私享最新 技术干货