神经网络生成极慢视频，突破人类肉眼极限

文章来源：企鹅号 - 中国指挥与控制学会

新智元报道

来源：Github; Arxiv 编辑：文强，金磊

【新智元导读】英伟达团队CVPR-18论文Super SloMo使用深度学习，能将任意视频变为“高清慢速播放”模式，从此不再错过任何细节。今天有人开源了PyTorch实现，赶紧来试试吧！

总有那么一些细节，你瞪大双眼拼了命想看清却依然奈不了何，比如下面这个：

跟得上球吗？要看清男子羽毛球比赛的细节实在不容易

有时候想盯住飞来飞去的羽毛球，非常吃力，这就是人类肉眼的极限。

你或许会说，好解决啊，用慢速回放功能就行了。

确实可以回放，但慢速回放的前提，是摄像机一开始就捕捉到了这些细节。如今，一些大型体育赛事已经用上了工业高速摄像头，为的就是在裁判的裁决引发争议时，可以用慢镜头回放来判定结果。

但是，没有专业的高速摄像头怎么办？

像我们用智能手机拍的视频，记录下生活中很多美好，随风飘逝的晚霞，又或者池塘溅起的涟漪，还有孩子们在泳池里泼水嬉戏，如果都能够放慢了观看，必将带来全新的感受。

正因如此，当今年计算机视觉顶会CVPR举行时，英伟达团队的一篇能让手机拍摄的视频也“高清慢速播放”的论文，在业界引发了很大的反响。

这项被称为Super SloMo的工作，使用深度神经网络，对视频中缺失的帧进行预测并补全，从而生成连续慢速回放的效果。

更赞的是，他们提出的方法，能够排除原视频帧当中被遮挡的像素，从而避免在生成的内插中间帧里产生模糊的伪像(artifact)。

值得一提，这篇论文的第一作者，是本硕毕业于西安交通大学、现在马萨诸塞大学阿默斯特分校读博四的Huaizu Jiang。第二作者Deqing Sun是英伟达学习与感知研究小组的高级研究员，本科毕业于哈工大，硕士读的港中文，在布朗大学取得博士学位后，在哈佛 Hanspeter Pfister 教授的视觉研究小组做过博士后。

感受一下Super-SloMo生成的“慢速回放”效果：

注意，左右两边都是Super SloMo生成的视频。左边是原始慢速视频，右边是将这个结果再放慢4倍的效果，如果不告诉你中间的细节(帧)是神经网络生成的，你会不会把它们当做真的慢速回放？来源：Huaizu Jiang个人主页

实际用手机拍摄的画面是这样的，对比后，意识到Super SloMo补充多少细节了吗？

论文作者称，他们能将30FPS(画面每秒帧数)的视频变为480FPS，也即每秒帧数增加了16倍。

根据Super SloMo项目主页，作者表示，使用他们未经优化的PyTorch代码，在单个NVIDIA GTX 1080Ti 和 Tesla V100 GPU上，生成7个分辨率为1280*720的中间帧，分别只需要0.97秒和0.79秒。（补充说明：从标准序列30-fps生成240-fps视频，一般需要在两个连续帧内插入7个中间帧。）

Super SloMo效果展示。来源：NVIDIA

效果当然称得上惊艳。然而，令很多人失望的是，论文发布时并没有将代码和数据集公开，尽管作者表示可以联系 Huaizu Jiang 获取部分原始资料。

仅在论文中提到的数据和示例。来源：Super SloMo论文

今天，有人在 Github 上开源了他对 Super-SloMo 的 PyTorch 实现。这位ID为atplwl的Reddit用户，在作者提供的adobe24fps数据集上预训练的模型(下图中pretrained mine)，实现了与论文描述相差无几的结果。

现在，这个预训练模型，还有相关的代码、数据集，以及实现条件，都能在GitHub上查到。

自称新手的atplwl表示，他目前在努力完善这个GitHub库，接下来预计添加一个PyThon脚本，将视频转换为更高的fps视频，欢迎大家提供建议。

发表于: 2018-12-292018-12-29 14:42:03
原文链接：https://kuaibao.qq.com/s/20181229B0PNWN00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

神经网络生成极慢视频，突破人类肉眼极限

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐