在新型冠状病毒危机期间,视频的使用变得普及,在教育、娱乐、社交、办公等日常社会活动中越来越重要。
与此同时,主要AI生成技术团队公布新的研究及应用,包括Google AI、Microsoft AI、Facebook AI、Moviebook AI、TensorFlow、Open AI,以领导AI技术在抗疫中发挥关键作用。
Google使用AI创建音频,推出NeRF做到多视角逼真3D效果
谷歌于上周宣布使用AI WaveNetHQ来大面积增强视频通话的音频质量,Google WaveNetHQ通过创建新的语音数据来填充音频下降所造成的间隙。谷歌表示,其Duo应用程序通话中有99%会遇到不同音频相关问题,有20%的通话损失超过3%的音频,而10%的通话损失了近十分之一。AI是行之有效方法,AI经过训练可以产生大部分音节音调,并且可以填补长达120毫秒的间隙。
这一功能在Duplex AI中得以应用,并大面积实际应用。引援谷歌首席执行官桑达尔·皮查伊(SundarPichai)在博客中表示,在情况允许的情景下,谷歌计划使用Duplex与英国企业联系以了解营业时间,这是Duplex继2018年5月首次演示后的最大规模现实应用,它将完成自主收集数据、触发、创建数据集、结果分析的全流程。
在视频方面,谷歌和伯克利大学发布最新开源研究NeRF,只需要输入少量静态图片,就能做到多视角的逼真3D效果。NeRF可在复杂的遮挡下,展现场景中详细的几何体,在现实场景中,插入虚拟对象,实践结果显示3D图像都比较逼真。
Moviebook使用AI生成新视频
在本周,中国视觉技术应用企业Moviebook研究人员描述了其AI系统AGC引擎的训练场景,运用视频帧元素间的图像耦合及语义逻辑关系,该引擎可生产质量更高的视频,亦可用于其他 AI系统生成的视频在其AGC上合成或新创建,以补充不完整的真实视频数据集或损坏的样本,生成一段全新视频。据悉,此生成方法已经广泛应用于中国影视、综艺节目、短视频、体育、资讯可视化等场景中。
正如影谱科技研究人员所解释的那样,视频合成领域的大部分工作都利用GAN(或由两部分组成的神经网络)组成,这些神经网络由生成样本的生成器和鉴别器组成,这些鉴别器试图区分生成的样本和真实样本。它们具有很高的能力,但会遭受称为模式崩溃的现象,在这种情况下,无论输入如何,生成器都会生成有限的样本多样性(甚至是相同的样本)。
相比之下,影谱AGC的系统由代表视频内容功能的变量,特定于帧的瞬时变量,生成器和递归机器学习模型组成。它将视频分解为静态部分,该部分捕获所有帧共有的视频的恒定部分,而一个瞬态部分表示视频中所有帧之间的时间动态(即基于时间的事件驱动的周期性规律性),形成一个动作捕捉系统。该系统有效地共同学习了静态和瞬态成分,并将其用于在推理时生成视频。
与几种基准模型生成的视频相比,研究人员表示,他们的系统所生成的视频“在视觉上更具吸引力”,并通过更清晰的帧“保持一致性”。此外,AGC展示了一种用于帧插入关联图像的诀窍,或者是一种视频处理形式,其中在现有帧之间生成中间帧,以使动画更加流畅,或插入商业化场景。
Microsoft AI开源最新跟踪对象,实现抑制视频通话中音噪
Microsoft AI团队本周发布FairMOT开源最新模型,用于多对象跟踪对象检测器,即使佩戴口罩也可使用面部识别技术识别患者。除此之外,还有许多其他用途,包括安全性和老人护理。
与此同时,MicrosoftDynamics 365 AI Research研究人员协同加利福尼亚大学圣塔芭芭拉分校实验室一项有关视频和语言推理开源技术,其将显著增强自动会议转录工具的效果和准确度,通过AI驱动的噪音抑制功能可自动消除视频通话中的背景噪音。
Facebook推出RegNet,将2D照片转换为3D
上周,Facebook AI的研究人员推出了一种称为RegNet的新网络设计范例。根据实验结果,RegNet模型在性能上胜过流行的EfficientNet模型,而在GPU上的速度最高可提高五倍。
Facebook表示,借助AI,即使手机没有双摄或者人像算法,程序也可以将2D的照片转换为3D照片。为此,Facebook训练了一个神经网络来“估算每个像素与相机的距离”,从本质上讲,AI可以通过分析来给出景深信息,以此将照片转换为3D。用户还可以用它做更复杂的功能,比如更正照片问题、添加肖像效果、美化脸部,在晚上拍摄星星效果也会比正常的相机更清晰。
OpenAI推出神经元可视化
OpenAI本周发布了Microscope,这是一个神经元可视化库,从九个流行或主流框架神经网络开始。该集合包含数百万张图像,可以帮助AI研究人员更好地理解具有成千上万个神经元的神经网络的结构和行为。
使用可视化来解释机器学习模型做出的决策,与手动设计不同,这项工作利用了半自动化过程。这对跨领域、跨产业的机器学习应用产生关键促进作用,如电路设计、脑神经元、病原体研究等可视化模型搭建和运行推理。去年同期,OpenAI和Google发布了激活地图集技术,以可视化机器学习算法做出的决策。
领取专属 10元无门槛券
私享最新 技术干货