前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2,检索速度提高八倍

ICASSP 2022丨字节跳动最新音乐检索系统ByteCover2,检索速度提高八倍

作者头像
AI科技评论
发布于 2022-05-27 13:15:14
发布于 2022-05-27 13:15:14
1.1K0
举报
文章被收录于专栏:AI科技评论AI科技评论

翻唱识别(CSI)是音乐信息检索(MIR)领域的一项重要任务,在歌曲搜索,音乐分发,曲库整理,智能推荐等场景下有着重要作用,被誉为下一代音乐识别技术。

近期,字节跳动火山语音团队的最新音乐检索系统ByteCover2入选了ICASSP 2022。这一系统主要面向翻唱识别(CSI)这一音乐信息检索(MIR)领域的一项重要任务,通过表征学习方法让其具备提取音乐核心特征的能力,并且该特征能够对种类繁多的音乐重演绎具有良好的鲁棒性,检索速度提高8倍。经Da-Tacos数据集上的评估,准确率远超其他方案的SoTA性能。

1

BYTECOVER2: 

为高效翻唱识别系统设计的隐式嵌入降维方法

BYTECOVER2: TOWARDS DIMENSIONALITY REDUCTION OF LATENT EMBEDDING FOR EFFICIENT COVER SONG IDENTIFICATION

方法详述:翻唱识别往往需要对音乐中的一些常见变化具有鲁棒性,从而保证系统专注于对音乐旋律走向的建模。在设计翻唱识别系统时,有三种音乐变化通常会被重点考虑,即音乐调式偏移、音乐结构变化和音乐节奏变化。此外,抖音平台上每日新增千万量级的用户投稿,如何快速应对巨量查询需求,提高识别系统的整体吞吐量并同时确保识别准确性,也是亟待解决的问题;另外在设计特征时,如何在保障其他性质的前提下尽可能减小特征大小,从而减少存储空间,降低系统复杂度和成本,也是字节跳动内部开发翻唱识别时面临的挑战。

在ByteCover2系统中,团队通过多任务学习范式联合ResNet-IBN模型,做到从音频输入中提取鲁棒且具备区分性的向量表征。针对效率优化问题,还提出了PCA-FC模块,实践证明该模块在保证ByteCover2模型性能不变甚至提高的前提下可将向量尺寸压缩至ByteCover1的八分之一。

Bytecover模型结构与训练流程

多任务学习提高音乐检索能力:通常在翻唱识别领域存在两种训练范式,分别是多分类学习和度量学习。前者将每个曲目视为一个独立类别,在特征层后加上全连接层,并通过交叉熵等分类损失对模型进行训练,训练完成后则去掉全连接层,使用特征层的输出作为歌曲的表征;后者则直接在特征层之上,使用triplet loss等度量学习损失训练网络。

总体来看两种训练范式各有优劣,团队通过实验发现,分类损失往往能提高模型对同曲目不同风格版本的检索能力,细致设计的度量学习损失则能提高翻唱网络对相似风格不同曲目音乐的区分能力。因此ByteCover系列模型对这两种学习范式进行了结合,并通过引入BNNeck模块,提高了两种损失的兼容性。

ResNet网络与IBN正则化方法(ResNet & Instance-Batch Normalization):为了简化音乐特征提取的流程,加快特征提取速度,团队使用CQT频谱图作为模型的输入,而不使用在同期其他翻唱识别方法中常用的cremaPCP或其他更为复杂的特征,但此设计会天然地在输入特征层面上损害模型对音频频移的鲁棒性。

所以在选择卷积神经网络做了音乐表征提取网络,希望能利用卷积网络的平移不变性来实现模型对频移的不变性。实验证明,CQT谱+普通ResNet的组合就已经在效率和性能上超过CremaPCP+CNN的设计。

深入探究,团队引入了Instance-Batch Normalization来从网络隐表示的层面进一步学习和风格无关的音乐特征,即特征图上不同通道间的均值方差等统计量与输入的风格化特征相关。IN通过对特征图的通道维度做的归一化处理,一定程度上实现了在隐藏表征层面上去除风格化信息,从而提高翻唱识别模型对音色变化的鲁棒性。

特征降维模块(PCA-FC):通过测算,团队发现工业级别的翻唱系统大部分耗时集中在特征检索阶段,而这一阶段的时间消耗基本和曲库的大小以及特征向量的尺寸线性相关。曲库中歌曲的数目会随着业务的增长而不断增加,因此降低特征向量尺寸成为优化检索系统整体耗时的必由之路,而同期其他翻唱向量特征降维的工作往往采用一个全连接层来将高维向量投影到维度更低的空间。

实验结果发现,单纯使用全连接层进行降维会明显降低系统的检索能力,团队认为这种现象不仅是因为更小的尺寸限制了向量的表征能力,性能的损失也来自于随机初始化的全连接层对特征各向同性的破坏。随后对数据可视化之后我们可以发现,降维后特征分布在一个锥形空间,表现出明显的各向异性,此种性质不利于使用余弦距离为度量的向量检索。

因此团队尝试使用PCA对特征向量进行降维操作并随后用PCA的变换矩阵初始化一个全连接层,把该层和特征提取网络连接进来并联合训练,并将模块称作PCA-FC。 实验结果显示, PCA-FC能显著提升降维模型的检索性能,在保持检索性能不变的前提下向量尺寸可以被压缩八倍。

结果展示:一直以来Da-Tacos是作为评估翻唱识别的基准测试数据集,在该数据集上采用1536维的ByteCover2模型取得了远超其他方案的SoTA性能,全类平均正确率指标(mAP)达到79.1%;而ByteCover系列以外的最好方法Re-MOVE的该项指标只有52.5%,更加值得被提及的一点,128维的ByteCover2模型甚至超过了2048维的ByteCover1和Re-MOVE方法。

对比结果

此外,ByteCover1系统还参加了2020国际音频检索评测大赛(MIREX),过程中大幅刷新了翻唱识别赛道历年最好记录,mAP指标达到84%,是同年参加该竞赛的其他方案性能的14倍。

除了ByteCover2,此次,字节跳动火山语音团队还有多篇论文被 ICASSP 2022收录,内容涵盖智能音乐、音频合成、音频理解、超脑等多个方向:

2

智能音乐

  • HTS-AT:一种用于声音分类和检测的分层标记语义音频Transformer模型

HTS-AT: A HIERARCHICAL TOKEN-SEMANTIC AUDIO TRANSFORMER FOR SOUND CLASSIFICATION AND DETECTION

文章主要介绍了HTS-AT,这是一种新颖的基于Transformer的声音事件检测模型。针对音频任务的特性,该结构能有效提高音频频谱信息在深度Transformer网络中的流动效率,提高了模型对声音事件的判别能力,并且通过降低输出特征图的大小,显著降低了模型地计算量与内存消耗。此外HTS-AT还引入了Token Semantic模块,使模型具备预测声音时间起始与终止点的能力,并且无需使用额外有标注数据进行训练。

综合以上技术,HTS-AT在标准数据集AudioSet上的mAP指标达到0.471, 是当前的该数据集上的最佳水平,并且参数与计算量都小于之前的最佳方法;另外在声音事件定位任务上,HTS-AT无需额外标注数据,即达到有监督定位模型的性能水平。

 HTS-AT模型的结构

在音乐识别场景中,声音事件检测模型会挑选包含音乐的片段送入音乐检索系统,以此来提高整个系统的效率与准确性。

  • S3T:针对音乐分类基于Swin Transformer的自监督预训练

S3T: SELF-SUPERVISED PRE-TRAINING WITH SWIN TRANSFORMER FOR MUSIC CLASSIFICATION

该篇文章提出了一种创新的、基于层级式Transformer的自监督音乐预训练算法S3T。S3T使用了大规模音乐预训练配合少量标签数据微调的范式,充分利用大量无标签的音乐数据,通过挖掘时域和频域的信息,学习具有较强泛化性的通用音乐表征。S3T在多个下游任务上均取得很好效果,特别是仅使用10%的标签数据进行微调效果便能超过使用以往全量标签数据训练的模型,大幅降低了人工数据标注的成本。

S3T模型结构与训练流程

音乐自监督学习无需大量人工标签便可利用大量音乐数据充分挖掘其自身的表征,且拥有较强的通用性。本文提出的音乐表征自监督学习,为音乐理解构筑了基础。S3T目前已经应用在音乐标签、音乐指纹等场景,微调后的S3T可以为音乐打上风格、语种、情绪等标签,可靠的音乐标签可以进一步服务音乐推荐系统,使其精准地向来自不同地区的用户推送合适的音乐。

3

音频合成

  • 基于服装风格迁移实现场景感知下的人物视频生成

Towards Using Clothes Style Transfer for Scenario-aware Person Video Generation

该方向致力于解决视频中人物个性化穿搭和背景场景自由的选择问题。创新上,设计了多个解耦encoder学习人物不同的属性(身份,衣服和姿态),通过共享decoder融合多层面信息。

不同于图片任务,视频需要学习帧之间的变化,所以设计了帧间判别器(Inner-frame Discriminator)大幅度提升了稳定性。具体来说,在模型生成的结果上应用掩码(mask),人物可切换到任意场景上。工作在公开数据集TEDXPeople,相对baseline系统(CVPR2021)视频中衣服个性化的多项客观指标均有显著改善,可以达到SOTA效果:SSIM +0.047, PSNR +4.6,  FID(越小越好) -0.4, FVD(越小越好) -0.543。

场景感知的服装风格迁移模型框架

在数字人多模态生成的场景和业务中,数字人主播衣服的个性化穿搭和场景自由的选择,为用户提供了自主可控的个性化能力,可大幅增加数字人生态的多样性。

4

音频理解

  • 基于细粒度语境知识选择的端到端(语境)语音识别提升方法

IMPROVING END-TO-END CONTEXTUAL SPEECH RECOGNITION WITH FINE-GRAINED CONTEXTUAL KNOWLEDGE SELECTION

该工作在一种被称为协同解码(Collaborative Decoding, ColDec)的语音识别定制化/个性化方法的基础上,提出了细粒度语境知识选择机制(Fine-grained Contextual Knowledge Selection),来进一步增强该方法在大热词列表和较多干扰热词情境下的语音识别定制化性能。在先前工作中,一种被称为协同解码(Collaborative Decoding)的语音识别定制化技术有效地提升了定制化识别性能。

本文针对其在大热词列表和较多干扰热词情境下的性能衰减问题,提出了细粒度语境知识选择机制,进一步增强了协同解码技术在定制化场景下的能力。在公开数据集 Librispeech 上,本文方法在基础 CIF 语音识别模型的 test-clean 2.12% 的 WER 基础上,进一步为 WER 带来了约 5% 的相对下降;在内部 16w 小时工业级ASR数据集训练的语音识别模型的基础上,本文方法在真实会议测试集上为 CER 带来了最高约 16% 的相对下降。

a. 协同解码    b.细粒度语境知识选择

应用场景方面,该方法可被用于语音识别定制化,例如在智能语音助手和在线视频会议等应用场景中,许多同背景相关的关键短语、个性化信息、热词等内容都较难识别。此外在移动端智能语音助手的应用场景下,联系人列表中的联系人姓名,频繁出没的地点位置等个性化信息;在线会议场景下,参会人员的姓名,会议主题相关的专业术语等,针对性地提升这些定制化和个性化文本内容的语音识别性能,在实际应用场景中有重要意义。

  • 非自回归Transformer自动语音识别的最小词误差训练

MINIMUM WORD ERROR TRAINING FOR NON-AUTOREGRESSIVE TRANSFORMER-BASED CODE-SWITCHING ASR

这篇论文由字节跳动和南洋理工大学(NTU)共同完成。近年来由于基于非自回归Transformer(NAT)的自动语音识别(ASR)框架的以下优点,分别是“当前的输出与历史的输出无关”以及“其推理速度非常快”,其在业界日益受到重视。

对此,团队对于其在语码转换语音识别任务(CSSR)上的性能有所期待。另外据不完全了解,似乎并没有出现将最小词错率(MWER)准则应用于NAT模型的先例,所以该工作在一定程度上填补了此项空白,且在SEAME语码转换数据集上得到了验证。

本文的贡献主要在以下两个方面:1、我们在语码转换的场景下,提出了多种CTC掩蔽的方式训练NAT模型;2、我们在MWER训练准则下,提出了多种N-best假设的生成方法。

发现及结论分别是:1、无论在单语言还是跨语言的场景下,上下文相关的场景信息非常重要,而NAT没有历史信息,NAT模型相比自回归的Transformer(AT)得到了一致性更差的结果;2、严重受限于N-best假设的生成方法,在NAT模型上进行基于N-best的MWER训练只得到了细微的提升,所以如何生成更丰富的N-best有待进一步研究。

  • 使用梯度掩码改进端到端语音识别的伪标签训练

IMPROVING PSEUDO-LABEL TRAINING FOR END-TO-END SPEECH RECOGNITION USING GRADIENT MASK

一直以来,打伪标签在自监督学习中都是最重要的方法,最近在语音识别领域也展现出极好的效果,但是自监督学习对伪标签的质量极其敏感,主要是因为伪标签中的错误或者噪声常常会导致模型训练的不稳定并最终收敛到非最佳的状态,特别是对于e2e的模型比如RNNT。

对此该论文提出了Gradient-mask的方法来应对以上问题。此方法在训练过程中抹去了encoder中可见input的对应梯度,从而鼓励模型从不可见的部分进行推测,并且能有效降低模型对corrupted label的overfit。

应用场景方面,此方法可以有效应对模型overfit到corrupted label并提升模型训练的效果,例如半监督自学习中,因为domain不match等原因导致pseudo-label质量过差,以及已知一部分数据标注质量过差的问题。

  • ICASSP 2022多方会议转录挑战赛的火山语音系统

THE VOLCSPEECH SYSTEM FOR THE ICASSP 2022 MULTI-CHANNEL MULTI-PARTY MEETING TRANSCRIPTION CHALLENGE

会议场景是语音识别和说话人日志技术应用中最有价值和挑战的场景之一,会议场景包含了丰富的说话风格和复杂的声学条件,需要考虑重叠语音、未知数量说话人、远场信号、噪音、混响等挑战。

ICASSP 2022多通道多方会议转录挑战(M2MeT),提供了120小时真实记录的中文会议数据,包含8通道麦克风远场数据和对应耳机麦克风采集的近场数据。M2MeT挑战赛包括多说话人语音识别和说话人日志两个赛道,团队在限定训练数据子赛道上分别获得第二名和第四名。

针对多说话人语音识别赛道,团队提出一种神经网络前端模块和语音识别模块端到端联合训练的方法,输入8通道音频输出多说话人识别文本,除此之外加入了丰富的8通道数据仿真,在测试集上和官方基线相比CER相对下降32.6%。

在说话人日志赛道中,结合前端信号处理技术,团队提出一种融合声源定位信息的说话人日志方法,提高识别准确率;同时针对竞赛数据中存在的说话人重叠问题,提出一种多通道融合算法,减少重叠部分的说话人漏检,最后采用修改的DOVER-Lap算法对多套系统进行融合,最终在测试集上的DER(说话人日志错误率)相比官方基线相对下降53.7%。该技术可以被用在会议室多通道麦克风场景下,生成包含说话人信息的多说话人语音转录结果。

5

超脑方向

  • 基于稀疏共享子网络的跨语言语音表征学习

LANGUAGE ADAPTIVE CROSS-LINGUAL SPEECH REPRESENTATION LEARNING WITH SPARSE SHARING SUB-NETWORKS

该工作提出了一种基于稀疏共享结构的多语言语音表征学习方法,即从模型中划分出多个稀疏子网络来分别对不同语言进行建模,进而实现语言自适应训练,每个语言的子网络都通过裁剪不重要的参数进行提取。

基于此,文中探索了一种基于彩票假设(Lottery Ticket Hypothesis)的提取方法以及另一种基于一阶泰勒展开的快速提取方法。在下游多语言语音识别任务上,所提出的方法可以大幅降低基线XLSR模型的错误率,并超过Gating Network、Adapter等其他自适应训练方法。

基于稀疏共享结构的多语言预训练流程

在国际化背景下,为了满足不同语言的字幕、审核和翻译等需求,需要针对各个语言去搭建语音识别系统。多语言语音识别的目标是用单一模型去支持多个语言的语音识别,可以有效的减轻部署和维护的成本,并能在一些低资源场景下提升识别效果,具有非常重要的意义。

关于字节跳动火山语音团队

字节跳动火山语音团队,原字节跳动 AI Lab Speech & Audio 智能语音与音频团队,致力于提供音频理解、音频合成、对话交互、音乐检索和智能教学等多种AI能力与方案。团队专注研发行业领先的 AI 智能语音技术,不断探索AI 与业务场景的高效结合。

伴随字节跳动的快速发展,团队的语音识别和语音合成覆盖了多种语言和方言,已有多篇论文入选各类AI 顶级会议,未来希望继续发展70+语言和20+方言,用于满足内容创作与交流平台的需求。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP
一年一度的国际知名会议2021论文评选结果已经相继揭晓,我们的论文《Large-scale singer recognition using deep metric learning: an experimental study》成功被国际神经网络联合大会 (International Joint Conference on Neural Networks,简称IJCNN)收录,《Learning Audio Embeddings with User Listening Data for Content-
QQ音乐技术团队
2021/04/26
5.2K0
基于 Milvus 的音频检索系统
人可以通过听觉感知位置、运动、音调、音量、旋律并获取信息。日常生活中,音频是一种重要的多媒体数据,我们会收听电台节目、欣赏在线音乐等。
Zilliz RDS
2021/03/22
1.5K0
基于 Milvus 的音频检索系统
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
近日,国际语音及信号处理领域顶级会议 ICASSP2023 在希腊成功举办。大会邀请了全球范围内各大研究机构、专家学者以及等谷歌、苹果华为、Meta AI、等知名企业近 4000 人共襄盛会,探讨技术、产业发展趋势,交流最新成果。
机器之心
2023/08/07
5870
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
番茄小说AI的演技登上全网热搜,让火山语音出了名
机器之心报道 作者:泽南 研究员大战「硬演 AI」的故事。 AI 整的活,永远出乎人类的预料。最近,一个网络小说阅读 APP 因为有 bug 登上了热搜,b 站上也出现了不少搞笑视频,一些还有百万播放量。 引发人们广泛讨论的「番茄小说」是抖音旗下的阅读 APP,和其他很多同类应用一样带有听书功能,AI 算法生成的语音可以让你直接去听任何文字版小说,同时去做别的事。 番茄小说的不同之处在于——相对大多数 APP,它的语音合成 AI 「更聪明一点」:能够把文字读出不同音色和语气,如果文字是「哈哈哈……」,AI
机器之心
2022/06/02
1.5K0
番茄小说AI的演技登上全网热搜,让火山语音出了名
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
AI科技评论按:Interspeech 会议是全球最大的综合性语音信号处理领域的科技盛会,首次参加的腾讯 AI Lab共有8篇论文入选,居国内企业前列。这些论文有哪些值得一提的亮点?一起看看这篇由腾讯 AI Lab供稿的总结文章。 另外,以上事件在雷锋网旗下学术频道 AI 科技评论数据库产品「AI 影响因子」中有相应加分。
AI科技评论
2018/09/21
1.1K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
近日,国际声学、语音与信号处理领域顶级会议ICASSP举办的 2022 ADD挑战赛落下帷幕,贝壳人工智能技术中心语音团队从全球百余支队伍中脱颖而出,在“语音攻防对抗”赛道“生成”和“检测”两项任务中均斩获桂冠。 ICASSP(International Conference on Acoustics, Speech and Signal Processing)是由IEEE主办的信号处理及其应用方面的顶级会议,在全球具有广泛而权威的学术影响力。其中,语音深度合成鉴别挑战赛(The First Audio D
AI科技评论
2022/04/06
7250
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
精英人才培养计划是一项校企联合人才培养项目,入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间,学生将获得3个月以上到访腾讯开展科研访问的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程,定期举办线上线下交流活动,全面提升学生综合素质。入选学生还将获得线上实名社群平台“十分精英圈”的在线访问权限,结识志同道合的科研伙伴,获取业界信息及资源。 今年共有10大方向,81个子课题 申报截止日期:2019年1
腾讯高校合作
2019/01/08
2.1K0
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
2019年度腾讯“犀牛鸟精英人才培养计划”开放申请中,该项目是一项面向学生的校企联合人才培养项目,为期一年。入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养,并获得3个月以上带薪到访腾讯开展科研的机会,基于真实产业问题及海量数据,验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程,全面提升学生综合素质。 今年共有10大方向,81个子课题 申报截止日期:2019年1月28日 同学们,抓紧时间申报哦 下面让我们一起来看看第六个方向吧 语音技术
腾讯高校合作
2019/01/22
1K0
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
机器之心发布 机器之心编辑部 在今年的音乐科技顶会 ISMIR 2021(International Society for Music Information Retrieval)上,字节跳动海外技术团队有 7 篇论文入选,涵盖了音乐分类、音乐标签、音源分离、音乐结构分析等多个技术方向。 如今抖音已经成为音乐宣发的一个重要渠道。一支支音乐先在抖音上以短视频 BGM 火起来,再扩散到各大音乐平台上。抖音神曲甚至成了很多音乐平台的一个重要分类。 有人说神曲能火是因为歌词和旋律简单,听得多了就印在脑子里。但是
机器之心
2023/03/29
6290
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021
语音转换(VC)是指在保证一句话内容不变的基础上,将原始语音中说话人音色迁移到目标说话人音色。语音转换在电影配音、角色模仿以及复刻人物音色等方面都有重要的应用。
机器之心
2021/06/08
1.1K0
大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读
AI 科技评论按:为期 5 天的 ICASSP 2018,已于当地时间 4 月 20 日在加拿大卡尔加里(Calgary)正式落下帷幕。ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由 IEEE 主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。今年 ICASSP 的大会主题是「Signal Processing and Artificial Intelligence: Challenges and Opportunities」,共收到论文投稿 2830 篇,最终接受论文 1406 篇。其中,思必驰-上海交大智能人机交互联合实验室最终发表论文 14 篇,创国内之最。
AI科技评论
2018/07/27
1.1K0
大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读
音视频技术开发周刊 | 247
每周一期,纵览音视频技术领域的干货。 新闻投稿:contribute@livevideostack.com。 QoS和QoE初学者指南 本篇文章从宏观角度向大家介绍QoS和QoE。我会先从它们的定义开始,然后讨论它们之间的关联。接着,我们再来简单了解公司如何衡量和使用QoS和QoE。 视频修复:无监督流对齐的序列对序列学习方法S2SVR(ICML 2022) 本文将 Seq2Seq 的架构引入到了视频超分中,其次针对光流不准的问题,之前的文章选择使用DCN进行替代,本篇论文『Unsupervised F
LiveVideoStack
2022/05/30
8170
音视频技术开发周刊 | 247
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息 ---- 一直以来,火山语音团队都为时下风靡的视频平台提供基于语音识别技术的智能视频字幕解决方案,简单来说就是可以自动将视频中的语音和歌词转化成文字,来辅助视频创作的功能。但伴随平台用户的快速增长以及对语言种类更加丰富多样的要求,传统采用有监督学习技术来解决的办法日渐遭遇瓶颈,这让团队着实犯了难。 众所周知,传统的有监督学习会对人工标注的有监督数据产生严重依赖,尤其在大语种的持续优化以及小语
LiveVideoStack
2023/04/04
7640
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
金融/语音/音频处理学术速递[11.8]
Update!H5支持摘要折叠,体验更佳!点击阅读原文访问arxivdaily.com,涵盖CS|物理|数学|经济|统计|金融|生物|电气领域,更有搜索、收藏等功能! q-fin金融,共计3篇 cs.
公众号-arXiv每日学术速递
2021/11/17
2970
2022内推 | 字节跳动校招 + 社招,包括NLP、CV和ASR和研究员等
每天给你送来NLP技术干货! ---- 语音算法工程师 - AI Lab 北京·校招·正式·职位 职位描述 团队介绍:字节跳动AI Lab专注于人工智能领域的前沿技术研究,涵盖了计算机视觉、语音&音频处理、机器学习等多技术研究领域,同时致力于将研究成果落地,为公司现有的产品和业务提供技术支持和服务。  1、在音频(包括语音,音乐,声音,口语评测场景等)、机器学习、多模态融合等方向搭建技术并开展前沿研究。我们希望通过前沿人工智能技术来提升甚至重新定义音频内容的理解、分发以及自动创作工作;  2、构建大规模机
zenRRan
2022/03/21
1.2K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
金融/语音/音频处理学术速递[12.9]
【1】 La mujer a través de los personajes femeninos en el cine de temática financiera -- Women through female characters in financial topics films 标题:La Mujer a Través de Los Persajes Femeninos en el Motion de temática Financiera--从金融题材电影中的女性角色看女性 链接:https://arxiv.org/abs/2112.04366
公众号-arXiv每日学术速递
2021/12/09
2660
Interspeech 20周年,ASR和SD相关论文提前看
INTERSPEECH 是语音科学和技术领域最大、最全面的国际学术会议。INTERSPEECH 2019 将在奥地利第二大城市格拉茨(Graz)举办。在 INTERSPEECH 会议期间,来自全球学术界和产业界的研究人员齐聚一堂,讨论语音领域的新技术,包括语音合成、语音识别、语音增强这些细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。恰逢 INTERSPEECH 20 周年,主办方透露在会议日程上将会出现一些别出心裁的设计,即将参会的同行们可以期待一下。
机器之心
2019/09/17
9840
Interspeech 20周年,ASR和SD相关论文提前看
动态多尺度卷积网络结构,清华、快手联合提出语种识别新方法
论文链接:https://www.researchgate.net/publication/353652910_Dynamic_Multi-scale_Convolution_for_Dialect_Identification
机器之心
2021/09/06
9220
被误解的「中文版Sora」背后,字节跳动有哪些技术?
这几年,视频生成领域的技术迭代持续加速,很多科技公司也公布了相关技术进展和落地成果。在此之前,Pika、Runway 都曾推出过类似产品,但 Sora 放出的 Demo,显然以一己之力抬高了视频生成领域的标准。
机器之心
2024/03/18
1490
被误解的「中文版Sora」背后,字节跳动有哪些技术?
推荐阅读
音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP
5.2K0
基于 Milvus 的音频检索系统
1.5K0
基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 2023
5870
番茄小说AI的演技登上全网热搜,让火山语音出了名
1.5K0
腾讯AI Lab 8篇论文入选,从0到1解读语音交互能力 | InterSpeech 2018
1.1K0
夺得两项第一、三篇论文被收录丨贝壳AI团队亮相顶级国际会议ICASSP 2022
7250
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
2.1K0
2019腾讯犀牛鸟精英人才培养计划课题介绍(六)—语音技术
1K0
抖音「神曲」那么多,字节跳动是如何玩转亿级曲库的?
6290
一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021
1.1K0
大会 | 思必驰-上海交大实验室14篇ICASSP 2018入选论文解读
1.1K0
音视频技术开发周刊 | 247
8170
基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说
7640
金融/语音/音频处理学术速递[11.8]
2970
2022内推 | 字节跳动校招 + 社招,包括NLP、CV和ASR和研究员等
1.2K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
金融/语音/音频处理学术速递[12.9]
2660
Interspeech 20周年,ASR和SD相关论文提前看
9840
动态多尺度卷积网络结构,清华、快手联合提出语种识别新方法
9220
被误解的「中文版Sora」背后,字节跳动有哪些技术?
1490
相关推荐
音乐识别探索之路|音色识别亮相IJCNN,UAE惊艳ICASSP
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档