前面已经给大家讲了动作放大算法中的一种:欧式视频放大。看起来这种技术非常炫酷,然而它并非毫无缺点。
今天这篇文章首先会给大家讲讲这个算法的缺点,然后简要介绍一种改进的动作放大算法:基于相位的动作处理。最后,再给大家介绍下作者的进一步研究内容。这里面有一些研究方向会让普通人瞠目结舌,至少我当时看到时是这样的,希望你喜欢今天的内容。
欧式视频放大算法的核心假设是像素的空间运动和像素值的变化直接是线性的关系,如下图所示
欧式视频放大算法的核心假设是像素的空间运动和像素值的变化直接是线性的关系,如下图所示
这个假设有很强的限制性,当运动过于剧烈时,假设就不再成立了,如下图所示:
另外,如果视频中的噪声比较强烈的话,这种线性的假设会使得噪声也被相应的放大了。
信号噪声被放大
正因为这些缺点,因此人们又在想新的办法来进行动作放大,这就引入了下一节所说的基于相位的动作处理,相关文章来自于:
Phase-Based Video Motion Processing (SIGGRAPH 2013) With Neal Wadhwa, Fredo Durand, Bill Freeman
二、基于相位的动作处理
在更多原理性内容之前,我们先来看看这种基于相位的动作处理算法与欧式视频放大算法之间的结果比较:
支持更大的放大倍率
不会代入过多噪声
比较一下几个结果视频,大家会有更直观的理解:
现在来看看两种方法的原理比较:
下面的视频展示了我们可以将一个一维的信号分解为多个正弦信号的加权和:
如果对分解后的正弦信号进行移相并重建,就可以改变信号的值,造成动作的改变:
当然,上述展示的是一个一维信号,通过移相仅仅能对信号中进行全局的处理。但通常视频中有很多局部动作,而且我们感兴趣的也是这些局部的动作。为了处理这个问题,作者采用了一种复变方向金字塔(好吧,我这个翻译可能不准确,原文叫做Complex Steerable Pyramid),它利用局部傅里叶变换将每一帧图像分解为不同尺度,不同方向的空间结构图像。
观察一下这样一来局部信号的组成:
局部移相对应局部动作
总而言之,相比欧式视频放大,基于相位的视频处理方法自然是要更复杂更先进一些。这两者的流程可以用下图来展示:
因为这个系列文章还有很多精彩的内容需要写,我就暂时不再深入进行原理探讨了,感兴趣的读者可以参考原论文
视频放大有很多应用。例如:
这里再给大家看一些朋友制作的例子:
最让我惊奇的是用这个技术来重建声音,实现远程的“偷听”远程谈话的应用(突然想到了很多谍战片),我们看看下面的信息:
一个男人张大了嘴,发出元音”啊“
通过我们文章介绍的技术,可以放大他的喉结运动:
这里面会有各种各样频率的震动产生的图像变化,但如果我们对特定的频率进行放大,就能捕捉到真正的信息:
利用这个技术,甚至可以远程恢复出奥巴马和其副总统拜登的谈话:
研究者在场景中摆上塑料薄膜,并播放上述录音,然后通过摄像头观察薄膜的震动,并成功的尝试恢复出了部分的对话声音
今天这篇文章是图像放大系列的完结篇。我首先介绍了欧式视频放大的缺点,然后简要介绍了基于相位的动作处理算法。最后还给大家看了更多关于视频放大技术的应用,如果你喜欢请给我点赞?。
这一篇文章的绝大部分素材来自于: