天琴座是北天银河中最灿烂的星座之一,传说这把“天琴”属于古希腊音乐天才俄尔普斯,每每“拨动”它的琴弦,美妙的音乐便会流淌出来,飘散于世间的各个角落,令人们陶醉其中。腾讯音乐旗下的天琴实验室正如这把精妙绝伦的天琴一样,同样为人们带来了完美、流畅的音乐。近些年来,天琴实验室一直致力于音频技术的创新和研发,他们已经推出了听歌识曲、哼唱识别、翻唱识别、智能字幕、智能修音、臻品音质、DMEE等音频创新功能和产品。目前的研究方向包括歌曲识别、MIR音乐音频理解、音频合成和处理、歌声ASR与歌词时间戳技术、录唱音质音效等。
背靠QQ音乐和全民K歌两大app,天琴实验室有着庞大的用户群体,拥有最齐全的曲库音视频文件、歌曲歌词数据、歌手数据、曲谱数据、歌曲版权等等,团队目前申请的专利数达到300篇以上,获得公司级技术突破奖与业务突破奖、优秀团队奖等十多项,参与国际比赛与国际论文十多项,目前团队正在持续发展壮大,开拓全新的更具备突破性的音乐技术能力领域。
近日,LiveVideoStack采访到了腾讯音乐天琴实验室的音频技术负责人赵伟峰,请他来跟大家聊聊天琴实验室在音频技术上所取得的各类创新、与高校开展的研究合作、天琴所获得的多项技术专利以及他对音频技术发展的未来展望。另外,他还向我们讲述了自己的音频研发之路,并介绍了他自己比较满意的工作成果。对于想要学习音频技术的年轻人,他也给出了自己的独家建议。
赵伟峰 腾讯音乐天琴实验室 音频技术负责人
赵伟峰,腾讯音乐天琴实验室音频技术负责人,T12级专家工程师,十余年音频行业从业经验。毕业于宁波大学通信专业,2012年加入腾讯QQ音乐后一直负责音频研发工作。目前负责歌曲识别算法、K歌录唱算法、长音频字幕和朗读算法等3项核心技术,以及其他内外部合作的音频算法研发。带领团队获得国家专利奖、深圳市科技专利奖、公司级重大技术突破奖等多种奖项。先后牵头和中国科技大学、西北工业大学、清华大学等高校成功完成专项技术合作。并在“听见听不见的声音”歌单等公益项目中践行科技向善。
文 / 赵伟峰
策划、编辑 / Alex
LiveVideoStack:赵老师,您好。欢迎您来到LiveVideoStack,在正式开始之前,您能否向大家简单介绍一下腾讯音乐天琴实验室?
赵伟峰:天琴二字来自天琴座,寓意悬挂于北天的七弦琴,名字融合了音乐、科技、神话三重含义,可见公司对实验室是有着极高的期望。天琴实验室有非常多的明星产品,包括QQ音乐的听歌识曲、哼唱识别、翻唱识别、智能字幕、公益歌单、臻品音质、DMEE,还有全民K歌的智能修音、歌声合成、多维评分,另外还有歌声ASR、智能音频品鉴、MIRlab等中台系统建设。在视频上有Music XR Maker、视频指纹,以及其他40多项多媒体垂直方向上的技术研究,服务于各个产品和业务。天琴实验室团队成员由来自清华、中科院、港中文、爱丁堡、新加坡国立大学等国内外知名高校的硕博士组成。除了落地产品,天琴实验室正积极探索多媒体和人工智能技术方向上更多更前沿的技术,承载着腾讯音乐通往音乐元宇宙未来的希冀。
音频之路
LiveVideoStack:您是如何对音乐以及音频产生兴趣的?又是如何走上音频技术之路的?
赵伟峰:我读研期间从事的是音频方面的研究,一方面是我自觉资质愚钝,所以就对自己说笨鸟就朝着一个方向飞,就一直选择在垂直领域上持续投入研究下去;另一方面,因为我很早就看电子书,但一直觉得文字的信息传递有比较大的局限性,以后一定是有声、图文、视频等多媒体信息的时代,所以当时就坚定地想投身在多媒体这一方向上。此外,以前行业里面说的音频其实是语音信号,英文叫speech,很多人说的音频其实是这个方向。但是我个人觉得相对于语音信号,乐音信号,包括英文表示的music和singing voice等更有趣味和未来,而这方面空间也很大。而乐音的技术发展就在QQ音乐,所以当时听说QQ音乐有岗位的时候,毫不犹豫买了机票背着全身家当飞来了深圳,这一路走来就是十年了。
LiveVideoStack:在您过去所做的音频相关的工作中,哪些工作最令您满意?
赵伟峰:有几个点我觉得可以提一下。
第一,最早编码了QQ音乐的笛音传歌,通过声波传歌曲,虽然现在下线了,但是我觉得还挺新颖好玩,当时也有很多公司纷纷开始模仿。
第二,全民K歌的唱歌评分算法和调音台系统最初版本代码。和客户端同事一起完成核心录唱系统,见证了一个产品从无到有做成功,并成为腾讯名品堂产品。
第三,QQ音乐的听歌识曲和哼唱识别的优化,现在我们有专门请团队帮忙做季度评测报告,对比多年前,效果提升很明显。特别是翻唱识别的上线,以及加入歌声ASR对哼唱等创新性的优化,在我们夯实产品基础体验的同时,加入技术创新实现了技术领先和用户口碑。现在微信摇一摇和酷我音乐,小米Lite等都在使用我们的技术内核。
第四,在长音频战略开始时,快速完成篇章朗读的技术布局,实现中英粤等多语言的篇章合成,节省成本的前提下还实现了营收。
另外还有和联合团队一起构建了QQ音乐和全民K歌的转码平台、音质检测系统、歌曲入库标准等一系列平台级的基建、标准化流程和文档,这些系统和标准稳定运行至今,保障了两个平台的音质核心体验。
LiveVideoStack:如果有年轻人想学习音频技术,您会给他/她什么样的建议?
赵伟峰:每个人都有他们自身的特点,结合自身特点,条条大路通罗马。
如果是我的话,我给自己的建议是:
首先,系统地对音频所有细分领域做一个盘点,了解学术界,扩大理论学习,做到心中有数。
其次,将各个大公司的音频技术做一个盘点和功能试用,了解工业界,做到有实践。
再次就是针对自己感兴趣的点,看最新论文,多钻研、多交流、多动手编码实现,特别要重视技术指标,因为大的框架大部分人都能复现,主要看指标的差异。
最后一个其实我经常提到,练好基本功,在计算机基础和代码能力上多投入一些。研究员本身仍然是程序员,代码能力要过硬。
天琴之美
LiveVideoStack:2022年至今,天琴在音频技术上取得了哪些突破?克服了哪些技术障碍?
赵伟峰:1、我们开发了一套盗歌识别技术,能够对于一些盗歌的公司或者个人的歌曲进行精准识别,然后歌曲下架、追责等。
2、我们开发了一套智能音频品鉴技术,能够对QQ音乐曲库歌曲多维度评价,用于歌曲推荐,同时能够用于全民K歌,挖掘优质用户作品和优质歌手,用于推荐和识别有明星潜质的用户。
3、全民K歌智能修音进行了技术优化,同时首次实现了外放可以修音的能力。
4、全民K歌上线了个性化歌声合成,能够3分钟实现合成,不会唱的歌、唱上去有难度的歌都可以用合成实现,而且还可以用合成来修音。
5、我们上线了QQ音乐的DMEE、臻品音质、音量平衡等能力,实现音质音效升级。
6、长音频的核心技术篇章合成,实现了中、英、粤三种语言技术能力,也实现了情感可控、情感迁移等比较难的技术突破。
LiveVideoStack:天琴实验室与国内许多高校合作,这种合作能带来哪些价值?怎么实现学校、学生和企业多赢?
赵伟峰:我们现在和中科大、西北工业大学、清华大学等多个学校有合作,另外还有包括复旦大学、港中文等很多高校在持续接触中。
这种合作高校可以带给企业更前沿的研究,针对某一个关键技术实现突破,良好的合作也能给企业带来更好的影响力和雇主品牌形象。
企业可以给高校带来更多的工业界需求,更多的idea,促进工业界和学术界接轨,实现良性循环。
LiveVideoStack:据我们了解,天琴实验室有很多专利,您能简单介绍一下吗?另外,除了专利,还有其他影响力建设吗?
赵伟峰:腾讯音乐一向重视专利的申请,我个人大概写了100多篇专利申请,天琴实验室每年大概有60+专利立项,这些年持续有300+专利在国内外申请,另外在2021年和2022年分别获得两项深圳市科技专利奖,并在2022年获得国家专利奖。
除了专利方面,我们还提倡大家发顶会论文、公众号分享、外部交流、高校合作、国际比赛、公开数据集、行业标准等影响力建设。在过去几年我们完成了3项行业标准立项,1项行业标准发布。当然还有科技向善,我们的《听见“听不见”的声音公益歌单》项目、“心跳节拍”等都得到了很多有影响力的媒体转载和传播,赢得了不错的口碑,未来我们会继续在科技向善方面做更多的尝试和投入,持续实现音乐向美,音乐向善。
展望未来
LiveVideoStack:前段时间,我们采访了“MP3之父”Karlheinz Brandenburg教授,其中教授也谈了他对AI音频codec的看法,Brandenburg教授似乎不太看好这类codec,并认为它需要依赖于所学习的内容,有一定的局限性。您如何看待AI音频codec的发展?
赵伟峰:我没有读过教授的原文,所以不太清楚前后背景和核心观点,我接下来一定好好拜读一下,一定会收获非常多。这里我说一些浅薄的想法吧。codec在传统DSP时代有过很辉煌的历史,有很多划时代意义的codec被开发出来,到现在仍然是音乐使用的主流格式,对我们的研究和生活产生了重大影响。我们调研过目前的AI codec,仍然主要是在低码率下的压缩。对于有损压缩来说,不管传统codec还是AI codec,本质上都是提取一小部分数据,最终能够将全部数据有损恢复出来。现在的AI codec也已经开始尝试在语音上和游戏上尝试和验证可行性。我理解教授说的局限性,仍然是在效果、运行速率等。另外我理解在无损codec上网络也是有一些局限的。不过随着技术的发展,一切都是有可能的。
LiveVideoStack:您如何看待近一年来元宇宙概念的爆火?您认为音频将在元宇宙中发挥什么样的作用?
赵伟峰:我们非常积极地拥抱元宇宙,投入元宇宙的研究和落地。QQ音乐的音乐视界、全民K歌的TMELAND都在做元宇宙的尝试,我们还有很多与元宇宙相结合的技术在持续研究中,音乐元宇宙,我们会在和音乐相结合的场景下做更多元宇宙技术的探索。元宇宙的音频本身和传统音频一脉相承。语音上的编解码、3A、ASR、TTS,音乐上的多轨编码、MIR、音效、检索、识别、合成等会仍然通用。不过未来可能会在空间音频、声源定位、人机交互等三个重要技术上有更高的指标要求和延伸出更多的应用场景。
LiveVideoStack:最后,还请您向大家介绍一下,在LiveVideoStackCon2022北京站的天琴技术专场上,来自腾讯音乐天琴实验室的技术专家将会为观众带来哪些技术分享?
赵伟峰:我们将主要分享四部分内容:
第一部分,介绍QQ音乐听歌识曲、哼唱识别、翻唱识别,以及音色识别等歌曲识别相关的技术。
第二部分,全民K歌的唱歌评分以及智能音频品鉴,如何从海量的用户作品中筛选出优质作品呈现出来,打造一条平民走向明星的路。
第三部分,QQ音乐的银河音效,会重点介绍空间环绕音效、音效制作工具等,并带来更多我们在音效上的一些新思路。
第四部分和虚拟人相关,围绕高精度的AI驱动模型还原真人歌舞表演等介绍我们的Music XR Maker系统的最新进展。
这四部分内容是我们在当前的众多工作中精挑细选出来的,包含了QQ音乐和全民K歌,包括了前端功能,也涵盖了作品内容,包括了当前落地,也涵盖了探索研究,欢迎大家来现场或者线上一起交流,希望对大家有帮助。我们还有很多的技术在研究和落地,欢迎大家多使用QQ音乐和全民K歌体验,也欢迎大家关注天琴实验室公众号来和我们做技术的交流和探讨,互相学习。
*封面图来自Unsplash,by Hanny Naibaho
▼扫描下图二维码或点击阅读原文▼
了解大会更多信息
本文分享自 LiveVideoStack 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!