编译 | bie管我叫啥
视频着色可能是一种艺术形式,但人工智能模型也在慢慢掌握它。微软亚洲研究院,微软AI感知和混合现实部门,哈马德滨哈利法大学和南加州大学创新技术研究所的科学家们共同发表了一篇论文,详细介绍了第一个基于自动示例(从参考图像导出)视频着色的端到端系统。在定量和定性实验中,它都取得了优于现有技术的成果。
主要的挑战是实现时间一致性,同时保持参考风格,所有模型组件,端到端学习,有助于制作具有良好时间稳定性的逼真视频。
论文作者指出,能够将单色视频转换为彩色的AI并不新颖。去年9月,Nvidia的研究人员描述了一个框架,该框架只从一个彩色和带注释的视频帧中推断出颜色,谷歌AI引入的一种算法,可以在没有人工监督的情况下为灰度视频着色。但是这些和大多数其他模型的输出都包含伪像和错误,这些错误积累的时间越长,输入视频的持续时间就越长。
为了解决这些缺点,研究人员的方法将先前视频帧的结果作为输入以保持一致性,并使用参考图像执行着色,使该图像逐帧地引导着色并减少累积误差。如果参考是视频中的彩色帧,它将执行与大多数其他颜色传播方法相同的功能,但是采用更稳健的方式。
因此,它能够根据输入灰度图像的语义预测自然颜色,即使在给定的参考图像或之前的帧中没有合适的匹配。
团队构建了端到端的卷积网络,具有保留历史信息的循环结构。每个状态包括两个模块:基于密集语义对应关系将参考图像与输入帧对齐的对应模型,以及对由前一帧的着色结果和对齐后的参考引导的帧着色的着色模型。
该团队从开源的Videvo语料库中编译了一个训练数据集,其中主要包含动物和景观。又补充了一个单独的语料库中的人像视频,过滤掉了颜色太暗或褪色的视频,总共留下768个视频。
对于每个视频,他们提取了25帧图像,并使用ImageNet的照片进一步扩展了数据类别,他们使用这些照片来应用随机几何失真和亮度噪声来生成帧。最终有7万个不同类别的增强视频。
在测试中,系统在ImageNet中提供了最佳的Top-5和Top-1级准确度,表明它产生了语义上有意义的结果。此外,与基准相比,它的Frechet Inception Distance(FID)得分最低,这表明它的输出非常真实。
研究人员写道,“总体而言,我们的方法输出的颜色虽然不那么鲜艳,但却表现出与现实相似的色彩。定性比较也表明我们的方法产生了最逼真、最鲜明的着色结果,与其他方法相比,该方法在每个帧中呈现鲜艳的色彩,并且显著减少了伪影。同时,连续着色的帧表现出良好的时间一致性。”
End
领取专属 10元无门槛券
私享最新 技术干货