Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >如何让机器像人一样听声音

如何让机器像人一样听声音

作者头像
AI研习社
发布于 2019-05-08 09:55:58
发布于 2019-05-08 09:55:58
6460
举报
文章被收录于专栏:AI研习社AI研习社

本文为 AI 研习社编译的技术博客,原标题 : Human-Like Machine Hearing With AI (1/3) 作者 | Daniel Rothmann 翻译 | 悟空空、Glimmer 校对 | 邓普斯•杰弗 审核 | 酱番梨 整理 | 立鱼王 原文链接: https://towardsdatascience.com/human-like-machine-hearing-with-ai-1-3-a5713af6e2f8

图片来源:Jonathan Gross

通过对人体系统进行建模,人工智能技术已经取得了重大突破。尽管人工神经网络是数学模型,仅能粗糙地模拟人类神经元的实际运作方式,但它们在解决复杂而模糊的现实问题中的应用却是深远的。此外,在神经网络中模拟建模人脑的结构深度,为学习到数据背后更有意义的内涵开辟了广泛的可能性。

如果您错过了其他文章,请点击阅读原文以了解该技术的最新发展。

背景:人工智能在音频处理方面的前景

评论:用于音频处理的卷积神经网络(CNNs)和频谱图有什么问题?

第二部分:如何让机器像人一样听声音(2/3)

在图片识别和处理中,来自视觉系统卷积神经网络(CNNs)中的复杂且空间不变的神经元的灵感,也对我们的技术产生了很大的改进。如果您对将图片识别技术应用于音频频谱图感兴趣,请查看我的文章“用于音频处理的卷积神经网络(CNNs)和频谱图有什么问题?”

只要人类的感知能力超过机器,我们就可以通过理解人类系统的原理来学习获益。在感知任务方面,人类非常熟练,且在机器听觉领域,人类的理解能力和当前的AI技术之间的对比尤为明显。考虑到在视觉处理领域中受到人类系统启发所带来的好处,我建议我们可以通过神经网络应用于视觉领域相似的过程,运用在机器听觉领域一定会获益。

本文的流程框架

在本系列文章中,我将详细介绍使用AI进行实时音频信号处理的一个框架,该框架是Aarhus大学和智能扬声器制造商Dynaudio A/S合作开发的。它的灵感主要来自于认知科学, 认知科学试图将生物学、神经科学、心理学和哲学的观点结合起来,以更好地理解我们的认知能力。

认知声音属性

也许关于声音最抽象方式,在于我们作为人类如何理解它。虽然信号处理问题的解决方案必须在强度、频谱和时间这些低级别属性参数的范围内进行处理,但最终目标通常是可认知的:以我们对声音包含的意义认知方式转换信号。

例如,如果希望以编程方式改变一段语音说话者的性别,则必须在定义其较低级别特征之前,以更有意义的术语来描述该问题。说话者的性别可以被认为是由多种因素构成的认知属性:语音的音高和音色、发音的差异、单词和语言选择的差异,以及对这些属性如何与性别联系起来的理解。

这些参数可以用较低级别的特征来描述,例如强度、频谱和时间这些属性,但只有在更复杂的组合中,它们才能形成高级别的意义表示。这形成了音频特征的层次结构,从中可以推断出声音的“含义”。人类声音的认知属性可以认为由声音的强度、频谱和统计特性的时间序列的组合模式来表示。

可用于从数字音频中获得含义的功能层次。

神经网络(NNs)非常擅长提取抽象的数据表示,因此非常适合检测声音中的认知属性。为了构建一个基于此目的的系统,让我们先来研究声音在人类听觉器官中的表现方式,我们可以用它来激发通过神经网络来处理声音意义的表示。

耳蜗表示

人类听觉始于外耳,外耳首先由耳郭组成。耳郭充当声音频谱预处理的一种形式,其中输入声音根据其相对于收听者的方向而被修改。然后声音通过耳郭中的开口进入耳道,随后通过共振这种放大频率(范围为~1-6kHz)的方式,来改变输入声音的频谱特性[1]。

人类听觉系统的图解。

当声波到达耳道末端时,它们会激发耳膜,耳膜上附着了听小骨(人体中的最小骨头)。这些骨头将压力从耳道传递到内耳充满液体的耳蜗内[1]。耳蜗对为神经网络(NNs)引导声音的意义表示起很大作用,因为这是负责将声振动转换成人类神经活动的器官。

它是一个盘管,沿其长度上被两个薄膜分开,即赖斯纳氏膜和基底膜。沿着耳蜗的长度上, 有一排约3500个内毛细胞[1]。当压力进入耳蜗时,它的两个膜被压下。基底膜的底部较窄且较硬,但在其顶点处较宽且松散,这使得沿其长度的每个位置在特定频率下的相应更强烈。

简单来说,基底膜可以被认为是一组连续的、和薄膜一样长度的带通滤波器,作用是把声音分离到他们的谱分量。

人类耳蜗的图解

这是人类将声压转变为神经活动的最基本的机制。因此,我们有理由假设,在用人工智能建立声音感知模型的时候,声音的谱表示比较有利。因为基底膜上的频率反应是以指数形式变化的,对数化的频率表示可能是最有效的。一个这样的频率表示可以用gammatone滤波器组产生。这些滤波器被普遍应用于听觉系统的谱滤波建模中,因为他们能够估计产生自听觉神经纤维的人类听觉滤波器的脉冲响应,这是对一种叫做“revcor”函数的白噪声的回应。

简化的人类谱转导和数字化谱转导的对比

耳蜗有大约3500个内毛细胞,且人类能够检测到长度在2-5ms的声音中的空隙,因此使用3500个分为2ms的窗口的gammatone滤波器进行谱分解看起来是用机器实现类人谱表示的最好的参数。然而,在实际场景中,我认为更少的谱分解也能在大多数分析和处理任务中达到理想的效果,同时在计算角度更为可行。

一些听觉分析的软件库在线可用。一个重要的例子就是Gammatone Filterbank Toolkit by Jason Heeris.它不仅提供了可调节的滤波器,也提供了用gammatone滤波器进行声音信号类谱分析的工具。

神经编码

在神经活动从耳蜗移动到听觉神经和上升听觉通路的同时,一些工序在它到达听觉皮层之前在脑干核执行。

这些工序建立了一个表示刺激和感知之间相互作用的神经编码。更多的关于这些细胞核内具体的工作的知识仍然是基于猜测或未知的,所以我将在他们如何发挥作用的高层次来介绍。

图:简化的上升听觉通路(一只耳朵)和设想功能的图解。

人类内在连接着的每只耳朵都有一套这样的核,但是简单起见,我只阐述一只耳朵中的流程。耳蜗核是为从听觉神经到来的神经信号编码的第一步。它包含许多有着不同特性,能够完成声音特征的初处理的神经元。这些神经元中,一部分指向和声源定位相关的上橄榄体,另一部分指向外侧丘系核和下丘,通常与更高级的特征相关。

J.J.Eggermont 在“Between sound and perception: reviewing the search for a neural code” 中如下详细地阐述了从耳蜗核开始的信息流动过程:“腹侧耳蜗核(VCN)提取并增强了在听觉神经纤维的放电模式中多路复用的频率和时间信息,并且通过两种主要的通路来发送结果:声源定位路径和声纹鉴别路径。VCN的前部(AVCN)主要在声源定位方面发挥作用,而且它的两种bushy 细胞为上橄榄核(SOC)提供了输入。在上橄榄核中耳间时间差(ITDs)和耳间水平差(ILDs)对于每种频率分别映射。

声纹鉴别路径携带的信息是像元音一样的复谱的一种表示。这种表示主要在腹侧耳蜗核中由特殊种类的单元创造,这些单元也被叫做”chopper"神经元。听觉编码的细节很难被详细说明,但是他们告诉我们,到来的频谱的“编码”形式可以提高对低层次声音特性的理解,同时使在神经网络中处理声音的代价更小。

谱声音嵌入

我们可以应用非监督自动编码器神经网络结构作为学习和复杂谱相关的普遍特性的一种尝试。像词嵌入一样,在表示选中特征(或一种更严格浓缩的含义)频谱中发现共性是可能的。

一个自动编码器经训练能够将输入编码为一种压缩的表示法,这种表示法能重建回和输入有高相似度的形式。这意味着一个自动编码器的目标输出就是输入本身。如果一个输入能够在被重建的同时没有很大的损失,神经网络就会学习在这种包含足够多有意义的信息的压缩内在表示法下编码它。这种内在表示法也就是我们所说的嵌入。自动编码器的编码部分可以从解码器解耦,来为其他应用生成嵌入。

谱声音嵌入的自动编码器结构图解

嵌入还有一个优点,就是他们通常比原始数据有着更低的维度。举个例子,一个自动编码器可以把有着3500个值的频谱压缩为一个长度为500的向量。简单地说,这样的向量的每一个值都可以描述像元音、声震粗糙度或调和性的高层次的谱特征——它们仅仅是例子,事实上一个自动编码器生成的统计上的共同特征的含义通常很难在原始语言中标记。

在下一个文章中,我们会拓展这个想法,采用新增内存来为声音频谱的时间产物生成嵌入。

这是我“用人工智能进行声音处理”的系列文章的第一部分。接下来,我们会讨论声音中的感觉记忆和时序依赖的核心概念。

参考文献:

[1] C. J. Plack, The Sense of Hearing, 2nd ed. Psychology Press, 2014.

[2] S. J. Elliott and C. A. Shera, “The cochlea as a smart structure,” Smart Mater. Struct., vol. 21, no. 6, p. 64001, Jun. 2012.

[3] A.M. Darling, “Properties and implementation of the gammatone filter: A tutorial”, Speech hearing and language, University College London, 1991.

[4] J. J. Eggermont, “Between sound and perception: reviewing the search for a neural code.,” Hear. Res., vol. 157, no. 1–2, pp. 1–42, Jul. 2001.

[5] T. P. Lillicrap et al., Learning Deep Architectures for AI, vol. 2, no. 1. 2015.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI研习社 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音
【新智元导读】谷歌大脑和 DeepMind 合作发布一个名为 NSynth (Neural Synthesizer)的神经声音合成器,使用深度神经网络在单个样本的水平上合成声音。NSynth 直接从数据中学习,为艺术家提供对音色和音乐力度变化的直观控制,可能创造出人工方法不可能实现的音乐。 Magenta 是 Google Brain 的一个致力于用机器学习创造引人入胜的音乐和艺术的项目,其目标是利用机器学习开发人类表达的新途径。它是 TensorFlow 的一部分,是一个开源机器学习库。今天,Magent
新智元
2018/03/27
1.8K0
谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音
音频编码:入门看这篇就够了丨音视频基础
(本文基本逻辑:音频编码的理论基础 → PCM 编码 → AAC 编码工具集、编码流程、编码规格和数据格式)
关键帧
2022/06/13
5K0
音频编码:入门看这篇就够了丨音视频基础
跨物种脑-脑连接!听障人士通过豚鼠大脑听到了声音 | Nature
最近《Nature》发表的一篇研究中,科学家们成功把人类和豚鼠的大脑连接在了一起。
量子位
2021/07/19
2880
声音的表示(1):作为音视频开发,你真的了解声音吗?丨音视频基础
(本文基本逻辑:声音的定义是什么 → 声音有哪些特征 → 怎样对声音进行数学描述 → 怎样对声音进行数字化 → 数字音频数据是什么)
关键帧
2022/06/13
6910
声音的表示(1):作为音视频开发,你真的了解声音吗?丨音视频基础
Science:对时-频调制的不同敏感性支持了大脑对旋律和语音的不对称处理
语音和音乐是人类对声音最复杂、最独特的认知方式。这两个领域在多大程度上依赖于可分离的神经机制?这种专业化的神经基础是什么?对于这两个问题,虽然已经有了部分认识,但是对具体细节仍旧知之甚少。一些研究已经
用户1279583
2020/03/06
7400
声音处理之-梅尔频率倒谱系数(MFCC)
在语音识别(SpeechRecognition)和话者识别(SpeakerRecognition)方面,最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁邦性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
用户9925864
2022/07/27
2K0
声音处理之-梅尔频率倒谱系数(MFCC)
【语音处理】开始学习语音,从基本概念和应用讲起
今天我开通了新专栏《语音处理》,又名曰——不语。我将分享介绍一些关于语音信号处理的基础知识。
用户1508658
2022/05/24
9460
【语音处理】开始学习语音,从基本概念和应用讲起
反之亦然,科学家开始用深度神经网络解释人类大脑
2011年冬天,麻省理工学院计算神经科学博士后研究员丹尼尔-亚明斯(Daniel Yamins)常常会为了研究他的计算机视觉项目熬到深夜。那时候的他正在苦心设计一个系统,用于识别图片中变化的物体。其实人类可以轻松做到这些的,但对于机器来说,这是个艰难的任务。而丹尼尔预想中的解决方案模仿自生物大脑,而这就是深度神经网络。
机器之心
2021/01/06
5450
虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
2022年江苏卫视跨年晚会上,一身优雅深蓝色旗袍的邓丽君与周深一起演绎了《小城故事》,《漫步人生路》,《大鱼》3首歌,让不少观众直呼感动。
mixlab
2022/04/11
1.7K0
虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
【GNN】图神经网络综述
本篇文章是对论文“Wu Z , Pan S , Chen F , et al. A Comprehensive Survey on Graph Neural Networks[J]. 2019.“”的翻译与笔记
zenRRan
2020/02/18
1.8K0
从视音角度看多模态学习的过去与未来
作者丨卫雅珂、刘学旻 视觉和听觉在人类的沟通和场景理解中至关重要。为了模仿人类的感知能力,旨在探索视音模态的视音学习在近些年来已成为一个蓬勃发展的领域。本文是对由中国人民大学高瓴人工智能学院GeWu-Lab联合德克萨斯州大学达拉斯分校以及西北工业大学共同发布的最新视音学习综述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解读。 该综述首先分析了视音模态的认知科学基础,进而对近来的视音学习工作(近三百篇相
AI科技评论
2023/04/12
6830
从视音角度看多模态学习的过去与未来
可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法
选自Medium 作者:Leon Fedden 机器之心编译 参与:Nurhachu Null、刘晓坤 这篇文章基于 GitHub 中探索音频数据集的项目。本文列举并对比了一些有趣的算法,例如 Wavenet、UMAP、t-SNE、MFCCs 以及 PCA。此外,本文还展示了如何在 Python 中使用 Librosa 和 Tensorflow 来实现它们,并用 HTML、Javascript 和 CCS 展示可视化结果。 Jupyter Notebook:https://gist.github.com/f
机器之心
2018/05/09
3.1K0
可视化语音分析:深度对比Wavenet、t-SNE和PCA等算法
GitHub标星近10万:只需5秒音源,这个网络就能实时“克隆”你的声音
本文中,Google 团队提出了一种文本语音合成(text to speech)神经系统,能通过少量样本学习到多个不同说话者(speaker)的语音特征,并合成他们的讲话音频。此外,对于训练时网络没有接触过的说话者,也能在不重新训练的情况下,仅通过未知说话者数秒的音频来合成其讲话音频,即网络具有零样本学习能力。
AI科技大本营
2019/11/14
12.2K0
机器人视觉听觉融合的感知操作系统
摘要:智能机器人面对复杂环境的操作能力一直是机器人应用领域研究的前沿问题,指称表达是人类对指定对象定位通用的表述方式,因此这种方式常被利用到机器人的交互当中,但是单一视觉模态并不足以满足现实世界中的所有任务。因此本文构建了一种基于视觉和听觉融合的机器人感知操作系统,该系统利用深度学习算法的模型实现了机器人的视觉感知和听觉感知,捕获自然语言操作指令和场景信息用于机器人的视觉定位,并为此收集了12类的声音信号数据用于音频识别。实验结果表明:该系统集成在UR机器人上有良好的视觉定位和音频预测能力,并最终实现了基于指令的视听操作任务,且验证了视听数据优于单一模态数据的表达能力。
一点人工一点智能
2023/04/10
8250
机器人视觉听觉融合的感知操作系统
谷歌神经网络人声分离技术再突破!词错率低至23.4%
把一个人的声音从嘈杂的人群中分离出来是大多数人潜意识里都会做的事情——这就是所谓的鸡尾酒会效应。像谷歌Home和亚马逊的Echo这样的智能扬声器实现分离人群中的声音可能还要再经历一段时间,但多亏了AI,它们或许有一天能够像人类一样过滤掉声音。
新智元
2018/10/24
6650
谷歌神经网络人声分离技术再突破!词错率低至23.4%
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
神经信号的语音解码面临着两大挑战。首先,用于训练个性化神经到语音解码模型的数据在时间上是非常有限的,通常只有十分钟左右,而深度学习模型往往需要大量的训练数据来驱动。其次,人类的发音非常多样,哪怕是同一个人重复说出相同的单词,语速、语调和音调等也会有变化,这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型,模型通常不需要庞大的训练数据集,可解释性强,但是准确率很低。近期的基于深度神经网络,尤其是利用卷积和循环神经网络架构,在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如,有研究将大脑皮层活动解码成口型运动空间,然后再转化为语音,虽然解码性能强大,但重建的声音听起来不自然。另一方面,一些方法通过利用wavenet声码器、生成对抗网络(GAN)等,虽然成功重建了自然听感的语音,但准确度有限。最近,在一个植入了设备的患者的研究中,通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音,实现了既准确又自然的语音波形。然而,HuBERT特征不能表示发音者特有的声学信息,只能生成固定统一的发音者声音,因此需要额外的模型将这种通用声音转换为特定患者的声音。此外,这项研究和大多数先前的尝试采用了非因果(non-causal)架构,这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。
脑机接口社区
2024/04/13
3400
Nature子刊 | 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码
Nature子刊:大脑功能与结构的解耦合揭示了人脑脑区行为专门化
大脑是通过结构通路相互连接的神经元群体的集合。大脑活动在此基础上表达并受其制约。因此,直接连接的区域之间功能信号间的统计依赖性更高。然而,大脑功能在多大程度上受到潜在的结构网络(文章中将其形象地称为接线图,可以理解为体现人脑神经元间连接模式的连接图)的约束仍然是一个有待解决的复杂问题。本文引入结构解耦指数来量化结构和功能之间的耦合强度,揭示了一个宏观尺度的梯度,从大脑耦合强烈的区域,到解耦合强烈的区域。这种梯度跨越了从低级感觉功能到高级认知功能的行为领域。并且,本文首次表明,结构-功能耦合的强度在空间上的变化与来自其他模式(如功能连接组、基因表达、微结构特性和时间层次)的证据一致。本文发表在NATURE COMMUNICATIONS杂志。
用户1279583
2022/02/28
3.9K0
Nature子刊:大脑功能与结构的解耦合揭示了人脑脑区行为专门化
工程师将大脑信号直接转化为语音
通过监测一个人的大脑活动,这项技术可以以前所未有的清晰度重建一个人听到的单词。这一突破利用了语音合成器和人工智能的力量,可能会带来计算机直接与大脑交流的新方法。它还能帮助无法说话的人(例如患有肌萎缩侧索硬化症 (ALS) 或中风康复的人)重新获得与外界交流的能力。
脑机接口社区
2022/08/26
4460
工程师将大脑信号直接转化为语音
【语音处理】硬核介绍人体的感知和听觉特性
本节主要介绍语音感知和听觉特性,包括人体的语音听觉系统,客观度量和主观听觉感受以及听觉特性三方面内容。
用户1508658
2022/05/24
1.1K0
【语音处理】硬核介绍人体的感知和听觉特性
学界 | 一文概览基于深度学习的监督语音分离
选自arXiv 机器之心编译 参与:刘晓坤、路雪 近年来,基于深度学习的监督语音分离发展很快。本文作者对今年相关研究进行概述,介绍了语音分离的背景、监督语音分离的形成和组成部分,从历史的角度叙述了监督
机器之心
2018/05/10
1.7K0
推荐阅读
相关推荐
谷歌大脑&DeepMind:NSynth神经音乐合成器,生成超逼真乐器声音
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档