音频文件规范
腾讯云智聆口语评测(Smart Oral Evaluation,SOE)在流式或非流式评测下都需要开发者按以下格式上传音频数据:
注意:
1. 需要满足音频属性,如有不一致,可能导致评估不准确或失败。
2. 比特率的控制模式推荐使用 CBR,固定码率。
音频文件格式 | 音频压缩格式 | 采样率(sample rate) | 声道(channels) | 位深(bit depth) | 比特率(bit rate) |
pcm | pcm | 16kHz | 单声道 | 16bit | 256kbps以上 |
wav | | | | | |
mp3 | MP3 | | | - | 32kbps以上 |
speex | speex | | | - | 24kbps以上 |
音频格式转换
wav 转 mp3
ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1 -b:a 48k "output.mp3" -y
mp4 转 mp3
ffmpeg -i "input.mp4" -vn -acodec libmp3lame -ar 16k -ac 1 -b:a 48k "output.mp3" -y
mp3/pcm 转 wav
ffmpeg -i "input.mp3" -acodec pcm_s16le -ar 16k -ac 1 "output.wav" -y
wav 转 pcm
ffmpeg -i "input.wav" -f s16le -ar 16k -ac 1 "output.pcm" -y
参数描述
参数 | 说明 |
ffmpeg | ffmpeg 命令 |
-i input.wav | -i 输入音频文件名 |
-vn | 关闭视频流。用于视频转音频 |
-acodec libmp3lame | 设置音频 codec 为 libmp3lame。将文件转换为 mp3 格式。 |
-acodec pcm_s16le | 设置音频 codec 为 pcm_s16le。将文件转换为 wav 格式,位深16bit。 |
-f s16le | 设置文件格式为 s16le(pcm 小端)。 |
-ar 16k | 设置采样率为16k(hz) |
-ac 1 | 设置音频通道数为1(单声道) |
-b:a 48k | 设置比特率为48k(kb/s) |
output.mp3 | 输出转码后的音频文件 |
-y | 输出文件存在时,无需询问,直接覆盖输出文件。 |
音频信息获取
ffprobe -i 'out.wav' -v quiet -of json -show_format -show_streams
参数 | 说明 |
ffprobe | ffmpeg 命令。ffprobe 包含在 ffmpeg 中 |
-i input.wav | -i 输入音频文件名 |
-v quiet | 设置日志级别为 quiet |
-of json | 设置输出打印格式为 json |
-show_format | 设置显示输入多媒体流的容器格式信息 |
-show_streams | 设置显示输入多媒体流中每一个流的信息 |