我是twilio的新手,所以我甚至不知道语音通话流是如何工作的。我只有一个任务:我需要使用twilio呼叫一个号码,并在此人停止说话时将语音输入google speech to text。我试着将语音直接发送到google speech,但是我不知道怎么做。基本上,我走进了死胡同,不知道该怎么做。如何让语音通话直播,如何将其发送到谷歌。
我已经使用Python语音识别工作了大半个月,制作了一个类似JARVIS的助手。虽然识别是准确的,但我很难处理这些软件包处理语音所需的大量时间。它们的工作方式似乎是从一个静默点记录到另一个静默点,然后将记录传递给STT引擎。在处理录音的过程中,无法录制其他声音进行识别,如果我试图连续发出多个复杂的命令,这可能是一个问题。当查看Google Assistant语音识别、Alexa的语音识别或Mac OS High Sierra的离线识别时,我看到在我说出