我的目标是使用一个语音到文本模型来处理几个视频。
令人困惑的是,谷歌有两款产品似乎都在做同样的事情。
这些产品的主要区别是什么?
Google语音到文本:
- Speech-to-Text has an "enhanced video" model for interpreting the audio.
谷歌视频智能:
- VI has the option to request a `SPEECH_TRANSCRIPTION` feature
又是一年一度的云+峰会,在昨天的腾讯云+未来峰会上,Pony提出了很多重磅消息:打造“超级大脑”,语音版微信,再次提出“三网”设想,另外还给出了一个AI全免费开放的消息,可以看出“AI in All”不只是谈谈而已,而是整个社会的趋势走向,那么如何理解“超级大脑”?云计算又如何助力实现“AI in All”呢?
我已经建立了一个家庭自动化系统,目前正在被许多客户使用。家庭自动化系统由一个中央集线器组成,它总是连接到一个云服务器,它还控制着各种节点设备。我还开发了一个移动应用程序来远程控制家庭设备。
现在我想在我的系统中添加一个语音控制功能,我认为Amazon Alexa是我需要的完美选择,因为我的大多数客户都拥有Alexa。我将给出我想要实现的概述。
假设客户向Alexa发出语音命令,就像Alexa, turn on living room's floor light一样。收到这样的命令后,Alexa应该通过API向我的云服务器发出POST请求,参数为:Turn On, Living Room