我正在使用谷歌语音到文本API转换FLAC音频文件使用Python3中的同步识别意图。但是,当音频文件包含短暂的停顿或静默时,转录将提前结束,并且响应不会捕获暂停/静默后的文本。
audiofile = self.convert_mp3_to_flac(audiofile)
with io.open(audiofile, 'rb') as audio_file:
content = audio_file.read()
audio = types.RecognitionAudio(content=content)
config = types.RecognitionConfig(
encoding=enums.RecognitionConfig.AudioEncoding.FLAC,
sample_rate_hertz=24000,
language_code='en-US',
enable_automatic_punctuation=True)
response = self.client.recognize(config, audio)
response对象不包含音频文件中静音后语音的转录。
我希望看到整个转录,因为我提出了与整个音频文件的请求。
发布于 2019-06-04 02:07:16
音频源是用消噪麦克风产生的吗?一种解决办法是在音频中添加一些白噪声。
https://stackoverflow.com/questions/56397257
复制相似问题