与图像处理相比,从视频当中提取见解或使用AI技术既带来新的挑战,同时也提供可观的优化赊。有一种误解认为,视频AI只是简单从视频素材当中提取特定帧,并对各视频帧运行计算机视觉算法。虽然这种作法确实可行,但却并不能真正带来分析见解。在今天的文章中,我们将通过几项实例来了解这种处理单一视频帧方法的缺点。但考虑到篇幅有限,这里我不会详细讨论克服这些缺点所需要的其它算法。感兴趣的朋友可以参考Video Indexer,其提供了多种能够实现此类目标的特定视频算法。
视频中出现的人物
我们一起来看以下[视频]中的前25秒
请注意,在这25秒当中Doug一直出现在画面之内。
如果要为Doug在视频当中出现的情况绘制一条时间线,则应该如下图所示。
请注意,在这一过程当中Doug并非全程面向镜头。在视频的第7秒当中,他有在盯着Emily——第23秒也出现了同样的情况。
如果您在视频中的对应时段之内运行人脸检测,则Doug的面部将无法被检测到(请参阅以下截图)。
换句话来说,如果只是在各视频帧上进行人脸检测,大家将无法绘制出如上所示的时间线。要获得这样的时间线,我们必须有能力跨越视频分段追踪面部,并考虑其中出现的脸部侧面视图。Video Indexer能够追踪面部,这意味着您将能够看到之前展示的完整时间轴。
使用光学字符识别提取主题/关键词
请看以下两帧内容。
这两帧来自主讲人在舞台上进行演讲的视频,后面背景墙上的“Microsoft”一词一直时隐时现。作为人类观看者,我们当然能够轻松推断出其显示的是“Microsoft”。但如果在这两张图片上运行OCR,输出结果将只有“Microsc”与“crosoft”。如果在视频剪辑当中处理完整的视频帧序列,您会得到大量这种残缺不全的词汇。为了顺利从镜头中提取到正确且完整的词汇,您需要对这种部分词汇应用算法。Video Indexer能够实现这项功能,并从视频当中获得更好的分析见解。
人脸识别
人脸识别系统由人脸数据库组成,而该人脸数据库则包含一组指向不同人物对象的训练用图像。其还提供一项查询功能,用于从查询图像当中提取面部特征,并将其与人脸数据库相匹配。查询函数的输出结果包含可能的匹配列表以及置信度值。查询功能的输出质量,将取决于人脸数据库与查询图像的实际质量。
在视频处理场景下,其中将包含多个视频帧,且人物会配合不同的头部姿态及照明条件亮相。我们当然可以在每位人物出场时采取逐帧处理的方式进行人脸识别系统查询,但这种作法可能导致各帧之间出现不同的人脸匹配结论与存在巨大差异的置信度值。换句话来说,我们需要使用额外的逻辑层来确定人脸匹配结果。作为优化手段,我们可以选择合适的帧子集进行有针对性的人脸识别系统查询,从而减少该系统的实际查询次数。
在处理视频时,我们还可以通过使用来自多个视频帧的人物训练图像整理变化趋势,从而构建并增强人脸数据库。另外,大家也能够建立逻辑以追踪跨帧人物并利用启发式算法评估其中的变化。 Video Indexer同样能够实现这一功能,意味着用户将能够从当前视频当中构建起质量更高的人脸数据库成果。
原文标题:How is AI for video different from AI for images
【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】
领取专属 10元无门槛券
私享最新 技术干货