用2D图片生成的3D动态图，竟然这么逼真

文章来源：企鹅号 - 青亭网

几年前，360°全景是沉浸式VR视频，后来越来越多开始用容积摄影技术拍摄6DoF VR视频，效果更加立体，观众可以走进VR场景中，从多个角度查看3D人物、道具。与此同时，基于摄影测量法捕捉的静态3D场景也比全景照片更加立体、生动。

不过，现有的容积摄影、摄影测量法依然受到一些限制，比如不能准确捕捉镜面反光、透镜效果等情况。而且这两种方案成本较高，难以规模应用。为了快速、低成本合成3D图像，谷歌训练了一个基于NeRF（神经辐射场）的学习算法，尝试从多张2D图片生成可多视角查看的立体影像。

近期，为了进一步提升3D图像视角合成的效果，泰国VISTEC研究所研发了一种全新的3D视角合成算法NeX。同样是从多张平面图像合成3D图像，NeX最大的特点是可渲染逼真的反光、阴影变化。与NeRF方案实时对比后发现，NeX合成的图像可视角度更多，而且更清晰。

简单来讲，NeX是通过合成多张照片，来生成照片中任意点的立体位置，进而生成平面图像的不同视角，此外其特点是可将立体图像渲染的更逼真，模拟逼真的光照效果。

据了解，NeX算法基于多平面图像技术（MPI），也就是从多个角度查看会看到动态变化的立体图像，它并不是可以360°查看的3D模型，而是通过合成多角度变化，来模拟立体观感的图像形式。细节方面，MPI的原理是根据一组半透明平面来合成3D场景视图，模拟场景几何结构和纹理。

实际上，谷歌在2018年就曾探索MPI技术，通过AI来合成新视角，赋予静态图片动态效果。而与传统MPI不同的是，NeX算法不是基于静态的RGB图像来生成立体视角，而是通过用参数（Alpha透明度值、反射系数）表示每个像素，独立渲染立体效果。也就是说，图像中每种颜色都以一种据视角变化的函数来表示，接着神经网络基于球面基础的线性组合来预测函数的值。据悉，独立渲染的好处是，可以更加准确的捕捉场景中的反光效果，或是CD光盘的彩虹色镜面反射。

细节方面，NeX基于神经网络，通过线性组合来计算每帧图像中像素的Alpha值和反射系数，然后生成最终的色值。此外，科研人员还提出了一种显式和隐式建模混合的方案，目的是实时合成逼真的新视角，模拟复杂保真的表面反射效果。

科研人员表示：NeX算法足够高效，刷新率可高达60Hz（据称处理速度是现有技术的1000倍），即使在移动端也能实时显示。此外，也可以在6DoF VR头显中观看，通过Firefox浏览器来查看WebVR demo。

从NeX官网提供的立体图像样本来看，虽然图像边缘存在一些模糊，但是勺子上反光的划痕看起来足够逼真，而且随着视角变化，勺子反射光源、食物/盘子的影子等效果也会跟随角度而自然变化。此外，在渲染玻璃球折射周围彩色卡片的场景，Nex可渲染的足够自然。不过，NeX还存在一些局限，比如在两个反光物体遮挡的时候，难以渲染后面物体的反光效果，而且反光表面的闪烁也不够细致。

另一方面，NeX的优势在于它可以合成更多自然的细节，这是现有容积摄影技术难以达到的效果，即使是配置高端的容积摄影棚，也很难捕捉反光物品，因此在进行拍摄时，演员通常不戴反光的金属饰品。未来，如果将NeX与容积捕捉方案结合，将有望提升3D动态捕捉的逼真感和细节。

除此之外，也可以和摄影测量法结合。摄影测量法是一种捕捉3D静态场景的常用手法，不过摄影测量法仅能捕捉静态的场景，生成的3D模型只具有固定的亮度和色彩，因此即使你从不同角度观看，也不会发现有光影变化。

总之，NeX在现有3D图像生成技术基础上，进一步提升色彩还原度和观影效果，未来的潜在应用场景包括：3D立体地图、虚拟产品展示等等。参考：RoadtoVR

发表于: 2021-10-082021-10-08 01:22:27
原文链接：https://kuaibao.qq.com/s/20211008A027P500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

用2D图片生成的3D动态图，竟然这么逼真

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐