我正在使用IBM的语音到文本服务为很少的电话音频文件(8 8kHz)生成记录。我已经尝试过wav和opus版本的相同的文件。在使用opus格式时,我没有看到文字记录的质量有任何严重的下降。我正在考虑仅仅存储文件的opus格式,以减少存储空间的需求,并减少文件传输时间。一般来说,使用wav格式进行更高质量的成绩单是否更好?如果我们使用opus格式,是否有任何已知的文字记录质量下降?
发布于 2016-05-04 18:31:16
如果比特率足够,则不应降低识别精度。您应该使用不降低准确度的最低比特率,这可以通过实验确定(尝试不同的比特率和计算单词错误率)。
或者,您可以使用FLAC,它是无损的,通常比未压缩的wav提供5倍的压缩因子。
最后,请记住,您不希望采样率高于16 the,因为这将无助于识别,并将大大增加存储。
发布于 2016-05-04 17:09:06
只有您知道您的用例的需求(现在和未来),所以很难提供一个直接的答案。话虽如此,我个人认为作品的质量相当不错。
下面是一些关于Opus编解码器质量的链接,您可能会发现这些链接很有趣:
https://stackoverflow.com/questions/37018868
复制相似问题