首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >来自亚马逊、NEC 和斯坦福的 AI 研究人员推出了第一个深度视频文本替换方法“STRIVE”

来自亚马逊、NEC 和斯坦福的 AI 研究人员推出了第一个深度视频文本替换方法“STRIVE”

作者头像
代码医生工作室
发布2021-09-29 15:56:23
发布2021-09-29 15:56:23
7050
举报
文章被收录于专栏:相约机器人相约机器人

来自 NEC 实验室、帕洛阿尔托研究中心、亚马逊、PARC 和斯坦福大学的一组研究人员正在共同努力解决在视频中真实地改变场景文本的问题。在这项研究背后的主要应用是为营销和促销目的创建个性化内容。例如,用个性化的名称或消息替换商店标志上的一个词,如下图所示。

从技术上讲,基于深度样式转换的原理,已经进行了多次尝试来自动化静止图像中的文本替换。该研究小组正在包括这一进展及其研究,以解决视频中的文本替换问题。视频文本替换不是一件容易的事。它必须应对静止图像所面临的挑战,同时还要考虑时间和效果,例如光线变化、由相机运动或物体运动引起的模糊。

解决视频测试替换的一种方法可能是在单个帧上训练基于图像的文本样式传输模块,同时在网络损失中加入时间一致性约束。但是使用这种方法,执行文本样式转换的网络将额外负担处理视频中遇到的几何和运动引起的效果。

因此研究组采取了截然不同的方法。首先,提取感兴趣的文本区域 (ROI) 并训练时空变换器网络 (STTN) 来正面化 ROI,以便它们在时间上保持一致。接下来,扫描视频并选择具有高文本质量的参考帧,根据文本清晰度、大小和几何形状进行测量。

研究团队使用 SRNet 对给定帧执行静止图像文本替换,SRNet 是一种在视频帧上训练的最新方法。接下来,新文本通过一个名为 TPM(文本传播模块)的新模块传输到其他帧上,该模块考虑了光照和模糊效果的变化。作为输入,TPM 从原始视频中获取参考和当前帧。它以对 SRNet 生成的已更改参考帧的应用对之间的图像转换结束。重要的部分是 TPM 在学习成对变换时考虑了图像的时间一致性。

研究人员与上述研究方法相关的框架命名为 STRIVE(VidEos 中的场景文本替换),如下图所示。

使用所提出的方法,研究人员能够展示合成和具有挑战性的真实视频的结果,具有逼真的文本传输、具有竞争力的定量和定性性能以及相对于替代方案的卓越推理速度。还引入了带有配对文本对象的新的合成数据集和真实数据集。据研究小组称,这可能是深度视频文本替换的首次尝试。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档