前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >“工业听诊”中多声源事件检测与定位

“工业听诊”中多声源事件检测与定位

作者头像
用户7699929
发布2020-08-27 15:01:03
1.7K0
发布2020-08-27 15:01:03
举报
文章被收录于专栏:一刻AI

众所周知,基于领先的声音事件定位和检测技术,可以研发“声学照相机”和“工业听诊器”等产品,并在电力、水利、轨道交通、汽车制造等行业领域发挥效用,保证工作人员的安全以及节省成本。声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。利用声音定位和检测技术,可以设计工业质检系统实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。

多声源检测与定位系统(sound event detection and localization,SEDL)的目标是输出声音的标签和声音方位信息(仰角和方位角)。

一、数据库

数据库的形成是在不同的室内环境(2019年5个,2020年15个)通过球型Eigenmike麦克风阵列采集真实位置的脉冲响应(impulse responses ,IRs),与真实的声音事件进行卷积,获得某个位置的声音信号。

球型Eigenmike麦克风

当声源位置距离1m时,方位角范围[180° , 180°]每隔10°,仰角范围[40° , 40°]每隔10°,会产生324个方位的IRs;当声源位置距离2m时,方位角范围[180°,180°],每隔10°,仰角范围[20°,20°],每隔10°,会产生180个方位的IRs,由方位角-仰角-距离组成的IRs总共会有504个。利用采集的IRs与合成声音数据库,其中包含400个采样频率为48000Hz的一分钟的声音,为了创造真实的声学环境,在采集的IRs中添加30dB自然噪声。

以DCASE2019 Task3数据库为例,与DCASE2020 Task3格式有所不同

训练及测试文件命名格式为:

代码语言:javascript
复制
split[number]_ir[locationnumber]_ov[number of overlapping sound events]_[recording number per split].wav

评估数据集由100个录音组成,不包含任何位置信息,也不包含以下命名约定中重叠声音事件的数量:

代码语言:javascript
复制
 split[number]_[recordingnumber per split].wav

两年中数据集中声音类别分别为:

数据集链接:

代码语言:javascript
复制
2020年:
https://zenodo.org/record/3870859
2019年:
https://zenodo.org/record/2599196#.Xy-3-DW-uUk
https://zenodo.org/record/3377088

二、输入特征

1. Log-Mel

在语音识别中常用到频域特征梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)特征,基于对人耳听觉研究发现,人耳对不同频率信号敏感度不同,在1000Hz以下,与频率成线性关系;反之,与频率成对数关系。因此,引入Mel频率,Mel频率与实际的频率关系。

提取过程:

2. 广义互相关(GCC-Phat)

由于麦克风阵列中阵元距离声源的间距不等,当声波传递到阵元时,会在其之间产生延时差值,时间差结合阵元结构的几何关系,可以估计出声源的方位信息。

噪声、混响对相同位置同一声源产生广义互相关函数特征的谱峰相似,鲁棒性能较好。利用深度学习或者机器学习的方法,不直接计算其峰值,减少噪声和混响对其产生的干扰。选择其作为声源信号方位的估计特征。

3. 声强矢量(Intensity vector)

瞬时声强矢量:

I=\rho v, \rho 表示声压,可以用方位信息表示

声强矢量中包含声波能量方位信息,其反方向可以理解为其方位信息。

三、网络结构

模型选择CRNN [1]:

四、网络结构

利用单独的指标对声音事件检测与声音方位估计进行评价。对于声音事件检测的评价标准错误率(Error Rate, ER)和F分数(F-score),对于声音事件检测一般是基于1s的声音片段,当某一声音事件在该时间片段中超过一般时,则认为该时间片段中包含该事件。对应声音事件方位的估计评价标准,声音事件估计坐标为:声音事件参考坐标为。对于整个数据集的方位估计误差对于整个数据集的方位估计误差DOAerror为

\alpha =2\arcsin(\frac{\sqrt{\Delta x^2+\Delta y^2+\Delta z^2}}{2})\cdot \frac{180}{\pi}
(x_E,y_E,z_E)
DOA_error = \frac{1}{N}\sum_{n=1}^{N}\sigma ((x_R^n,y_R^n,z_R^n),(x_E^n,y_E^n,z_E^n))

其中,

\Delta x = x_R-x_E,\Delta y = y_R-y_E,\Delta z = z_R-z_E

N表示整个数据集方位估计总数。

考虑到估计DOA与参考DOA数量不对等时,提出了召回率(Frame Recall,FR)

FR = \frac{TP}{TP+FN}

通过召回率检测整个网络声音事件与方位检测系统性能。

SELD_{score} = \frac{SED_{score}+DOA_{score}}{2}
SED_{score} = \frac{ER+(1-F)}{2}

参考文献:

[1]Cao Y, Iqbal T, Kong Q, et al. Two-stage sound event localization and detection using intensity vector and generalized cross-correlation[J]. Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

[2]Kong Q, Cao Y, Iqbal T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems[J]. arXiv preprint arXiv:1904.03476, 2019.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 一刻AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档