脸书于12日发布了Learning from Videos项目,准备利用用户上传到脸书的公开视频,来学习人们在现实生活中的声音、文本与视觉呈现,以用来改善各种应用的核心AI系统,而不是只通过资料集来学习,而该项目的首个实际应用则是Instagram Reels的推荐系统。
脸书表示,比起只从小规模的数据集来学习,可从公开视频中学习的AI将更能分析未经整理、现实世界中的各种视野与声音,特别是这些视频可能涉及每一个国家与数百种语言,使得AI系统不仅能改善精确性,还能适应快速变动的世界,以及理解不同文化与地区之间的细微差别。
此外,该全面且实际的学习,也能协助研究人员摆脱对标签资料的依赖,改善基于AI的产品并创造全新的体验。
迄今脸书已利用自我监督学习框架来理解用户上传至该平台的视频,并改善其计算机视觉及语音识别系统,让语音识别错误减少了20%,现在则直接部署一个相关的AI模型至Instagram Reels的推荐系统。
Instagram Reels是一个类似TikTok的短视频服务,根据脸书的研究,热门的视频通常具备同样的音乐及舞步风格,只是由不同的人所表演或创造,而自我监督模型则可自动学习这些主题,将它们聚集,之后提供给推荐系统。该系统可以根据用户最近观看的视频来推荐其它视频,还能过滤几近重复的视频,与过去推荐系统最大的不同在于:它并没有替每个分类任务提供清楚的训练标签。
Instagram Reels推荐系统也借助了脸书所开发的通用资料转换(Generalized Data Transformations,GDT)技术,用以学习视频中声音与视觉上的关系,也发现在不同视频中有类似的声音对于推荐相关内容上极有帮助。
脸书对AI系统的野心并不只在于单纯的推荐系统,该公司正在发展AR眼镜,期盼该标榜时尚风格且轻便的眼镜能够理解用户所看到的场景,Learning from Videos项目的目的是能够理解视频中每个单独存在的声音、文本与画面,也能理解这些元素之间的关联性。脸书指出,该项目在机器对视频的理解上带来典范式的转移,替打造更聪明的AI系统铺路。
领取专属 10元无门槛券
私享最新 技术干货