众所周知,基于领先的声音事件定位和检测技术,可以研发“声学照相机”和“工业听诊器”等产品,并在电力、水利、轨道交通、汽车制造等行业领域发挥效用,保证工作人员的安全以及节省成本。声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。利用声音定位和检测技术,可以设计工业质检系统实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。
多声源检测与定位系统(sound event detection and localization,SEDL)的目标是输出声音的标签和声音方位信息(仰角和方位角)。
一、数据库
数据库的形成是在不同的室内环境(2019年5个,2020年15个)通过球型Eigenmike麦克风阵列采集真实位置的脉冲响应(impulse responses ,IRs),与真实的声音事件进行卷积,获得某个位置的声音信号。
球型Eigenmike麦克风
当声源位置距离1m时,方位角范围[180° , 180°]每隔10°,仰角范围[40° , 40°]每隔10°,会产生324个方位的IRs;当声源位置距离2m时,方位角范围[180°,180°],每隔10°,仰角范围[20°,20°],每隔10°,会产生180个方位的IRs,由方位角-仰角-距离组成的IRs总共会有504个。利用采集的IRs与合成声音数据库,其中包含400个采样频率为48000Hz的一分钟的声音,为了创造真实的声学环境,在采集的IRs中添加30dB自然噪声。
以DCASE2019 Task3数据库为例,与DCASE2020 Task3格式有所不同
训练及测试文件命名格式为:
split[number]_ir[locationnumber]_ov[number of overlapping sound events]_[recording number per split].wav
评估数据集由100个录音组成,不包含任何位置信息,也不包含以下命名约定中重叠声音事件的数量:
split[number]_[recordingnumber per split].wav
两年中数据集中声音类别分别为:
数据集链接:
2020年:
https://zenodo.org/record/3870859
2019年:
https://zenodo.org/record/2599196#.Xy-3-DW-uUk
https://zenodo.org/record/3377088
二、输入特征
1. Log-Mel
在语音识别中常用到频域特征梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)特征,基于对人耳听觉研究发现,人耳对不同频率信号敏感度不同,在1000Hz以下,与频率成线性关系;反之,与频率成对数关系。因此,引入Mel频率,Mel频率与实际的频率关系。
提取过程:
2. 广义互相关(GCC-Phat)
由于麦克风阵列中阵元距离声源的间距不等,当声波传递到阵元时,会在其之间产生延时差值,时间差结合阵元结构的几何关系,可以估计出声源的方位信息。
噪声、混响对相同位置同一声源产生广义互相关函数特征的谱峰相似,鲁棒性能较好。利用深度学习或者机器学习的方法,不直接计算其峰值,减少噪声和混响对其产生的干扰。选择其作为声源信号方位的估计特征。
3. 声强矢量(Intensity vector)
瞬时声强矢量:
声强矢量中包含声波能量方位信息,其反方向可以理解为其方位信息。
三、网络结构
模型选择CRNN [1]:
四、网络结构
利用单独的指标对声音事件检测与声音方位估计进行评价。对于声音事件检测的评价标准错误率(Error Rate, ER)和F分数(F-score),对于声音事件检测一般是基于1s的声音片段,当某一声音事件在该时间片段中超过一般时,则认为该时间片段中包含该事件。对应声音事件方位的估计评价标准,声音事件估计坐标为:声音事件参考坐标为。对于整个数据集的方位估计误差对于整个数据集的方位估计误差DOAerror为
其中,
N表示整个数据集方位估计总数。
考虑到估计DOA与参考DOA数量不对等时,提出了召回率(Frame Recall,FR)
通过召回率检测整个网络声音事件与方位检测系统性能。
参考文献:
[1]Cao Y, Iqbal T, Kong Q, et al. Two-stage sound event localization and detection using intensity vector and generalized cross-correlation[J]. Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.
[2]Kong Q, Cao Y, Iqbal T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems[J]. arXiv preprint arXiv:1904.03476, 2019.