我正在尝试使用google could APIs转换语音到文本,像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US,这段代码,我能够转换完美,文本是基于音频的US,口音或UK。如何通过google could API转换这个印度口音,我需要做哪些改变。谢谢
桑迪普。
我使用谷歌云API和转换音频到文本-文本必须有时间戳。将上述步骤1的输出发送到text to audio接口。我想发送上述生成的文本或JSON (从音频到文本API),并转换我的文本到音频再次。音频应该保留时间戳,以便我可以得到相同的原始文件与中断,暂停,沉默与不同的声音。因此,如果我的原始文件是1分钟的持续时间,我想生成相同的1分钟不同声音的持续时间文件。所以,它应该保留我<em
我喜欢GoogleSpeech to TextAPI的一点是,它有惊人的准确性,在我的经验中比Azure API要好得多。原因是,我能够在我的请求中向GoogleAPI发送一个预期单词的列表,因此,增加了这些术语/短语出现的可能性。使用Azure,我只能创建语音模型。这样做的问题是,我必须为每个请求创建一个新模型