之前有一次给大家介绍过
微软出的 PPT 插件
,功能是在幻灯片播放时,可以实时自动根据演讲者的语音,生成字幕,听众手机里安装微软翻译 APP 的话,还可以实时将演讲翻译成各种语言,简直是人工智能版的同声传译。
今天,再给大家分享一个微软的黑科技 ——Video Indexer。
虽然上面的翻译十分生硬,但是大意就是,这款「视频索引器」能够帮你读懂视频,不仅可以将演讲声音识别成文字,同时还可以对说话的人物、演讲的关键词,甚至情感倾向进行分析。
对于音频文件,支持语音转文字,可以进行翻译,标识关键字,标识品牌商标等命名实体,进行语音消噪,进行情绪分析等。同时,语音识别还支持对特定行业进行调整,以更好地从语音中识别出这个行业里的专业名词。
对于视频文件,能够检测视频中的人脸,标识出讲话的人物。可以识别出视频中出现的文字(比如演讲时镜头切换到 PPT 时,可以识别 PPT 中的文字)。另外还有关键帧提取等功能。
这个 Video Indexer 把诸多 AI 技术进行了结合:语音处理、图像处理、文本挖掘……最终,这些功能恰当地综合在一起,就能做出一个帮你读懂视频的识别助手。
体验网址
输入http://video.ai即可访问,目前还是免费预览版,供大家感受黑科技使用。同时提供了面向开发者的相关 API,开发者可以申请密钥,在自己的程序中集成这套服务。
试用一下吧
在 video.ai 网站中,使用微软账户登录,来体验一下这款产品。你可以上传自己的视频进行分析,或者直接用示例视频体验一下效果。
先上一个示例视频体验一下,选微软 Build 大会上的一段视频吧:
点开之后,直接能看到分析结果,在「脚本」一栏,可以看到视频转文字的处理结果。可以自动将演讲转换为文本,同时标识出是谁讲了这段话。如果镜头切换到 PPT, 还可以 OCR 识别出视频中的文字。
在 「见解」一栏中,提供了对视频内容的分析,例如识别出视频中出现的人、品牌、关键词等。
为了增加难度,从微博上随手选了一段视频,上传来看下效果。
上传之后,需要等待一段时间,待视频处理完成。由于只是预览试用版,无论上传速度还是处理速度都不会很快,建议选个小点的视频来尝试。
由于选的这段视频出自综艺节目,户外录制噪音较大,而且综艺节目屏幕上出现的人物、文字通常也很凌乱,但仍然识别出了不少信息。这只是预览版本,将这项服务与企业级应用标准相结合,一定会有广泛的前景。
微软的这款黑科技产品,让我们看到了人工智能技术在当下的一些可行的应用。虽然语音、图像、文本看似不太相关的领域,但稍微一进行结合,也能找到非常合适的应用场景。未来的会议纪要、发布会演讲、新闻报道,都可以通过这些技术进行自动处理,帮助人们更好地存储、检索信息。
领取专属 10元无门槛券
私享最新 技术干货