前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >只需1分钟,这个网站用AI分离歌曲的人声、伴奏和乐器声

只需1分钟,这个网站用AI分离歌曲的人声、伴奏和乐器声

作者头像
AI科技大本营
发布于 2020-02-20 12:30:06
发布于 2020-02-20 12:30:06
8.2K0
举报

整理 | Just

出品 | AI科技大本营(ID:rgznai100)

疫情期间,在家待着闲来无事,一些技术人员就喜欢以技术的方式找点乐子,顺带赚钱最好了。

将歌曲中的人声和乐器声分离是一件让想使用音乐伴奏的人头疼的事情,传统的音乐制作软件使用门槛较高,处理起来不光费时而且效果不一定好。

团子DanGo.ai(https://dango.ai/)——微博网友@无吔学生近期利用AI技术做的这个能分离音频轨道的网站火了。

在音乐分离这一领域,实际上已经有一些免费的AI工具。比如,由法国音乐流媒体服务公司Deezer为研究目的而开发的Spleeter开源工具,只需要提供一个音频文件,然后Spleeter就会将它分成两个、四个或五个独立的音轨,非常有用。

团子DanGo.ai就是基于Spleeter开源工具做的。利用AI技术并通过上千首歌曲数据的训练,用户只需要上传歌曲,等待1分钟,目前就可以提取歌曲中的伴奏、人声、钢琴、贝斯、鼓点等多音轨压缩文件,效果要好于Au或者GoldWave之类的传统音频处理软件。

@无吔学生表示,这是他秃了一个月头的成果。

据网站作者介绍。团子主要由基于MIT协议的开源项目Spleeter制作的,同时在其之上增加了一些功能魔改使效率与音质得到提升。团子基于深度神经网络(DNN)实现的音轨分离所诞生的人工智能,它使用Python/Tensorflow开发。

那么,团子 DanGo.ai 与传统的音乐分离软件有什么不同?

一般而言,传统音乐分离软件所谓的“消音”一般是简单的带阻滤波,用人话说就是把人声所在的频率直接暴力擦除,这就会导致消音后的歌曲变得特别“糊”——表现为鼓点、某些乐器的消失。作者解释,这是因为人声会和某些相同频率的乐器重叠,单纯的抠除这个频率,不光会消除人声,也会消除在这个频率里的乐器。而根据歌曲的不同,人声/和声所在的频率也并非固定,这就导致提取出的伴奏不但效果糟糕,而且仍然带着部分残余的人声。

“当然,也有一些人发现,歌曲中的人声录音一般是单声道的,而歌曲的乐器未必是这样。于是人们也尝试使用左右声道“相减”(如Au中的中置声道提取器)来提取伴奏或人声。但是提取的效果基本仍然很差,因为无法保证乐器不是多声道的,也无法保证人声是否被混音师加了后期处理效果器而变成多声道,所以它并不适合多数歌曲(尤其是现代音乐)。”

作者称,团子DanGo.ai 则不用考虑上述让人心智损伤的事情。该软件用了大量的音乐数据进行训练,“我们可以把团子想象成一个大脑——我们让它听了非常多的歌曲用来“训练”它。现在它非常懂得歌曲,理解歌曲中各个乐器的存在,也能谨慎细心的剥离开人声和伴奏,从而最大程度的保留各个音轨的质量。”

目前,用户可用团子 DanGo.ai 网站试听5首分离的多音轨歌曲。当然,如果你想要更多高质量的生成歌曲还需付费,付费歌曲会保留30天的歌曲文件让用户下载。

最后给出作者的制作网站的一个demo视频,可以听出歌曲不同多音轨的效果,你感受下?

(*本文由AI科技大本营整理,转载请微信联系1092722531)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-02-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
神器!人工智能分离歌曲中的人声和背景音乐
之前分享过将视频转GIF如何将视频轻松转换为 GIF 和文字转语音 如何轻松的将文字转语音 ,今天分享几个神器,可以分离音频中的人声和背景音乐。
苏生不惑
2020/09/10
6.7K0
这款开源神器将人声伴奏完美分离,厉害了!
在剪辑视频的过程中,你是否遇到过这样的困难:想使用原视频中单独的一段人声,但原视频所带有的背景音乐又会大大降低视听效果。
永恒君
2022/12/06
3.4K0
这款开源神器将人声伴奏完美分离,厉害了!
字节跳动这项研究火了:基于残差UNet架构 ,一键分离伴奏和人声
机器之心报道 编辑:陈萍 字节跳动的这项研究,可以完美将混合音频分离成单个源任务。 音乐源分离 (MSS) 是将混合音频分离成单个源的任务,例如人声、鼓、伴奏等。MSS 是音乐信息检索 (MIR) 的重要内容,因为它可用于多个下游 MIR 任务,包括旋律提取、音高估计、音乐转录 、音乐混音等。MSS 也有可以直接应用的程序,例如卡拉 OK 和音乐混音。 基于深度神经网络的方法已成功应用于音乐源分离。这些方法通常用于学习从混合声谱(spectrogram)到一组源声谱的映射,所有声谱图都只有幅度。但是,这种方
机器之心
2023/03/29
9040
字节跳动这项研究火了:基于残差UNet架构 ,一键分离伴奏和人声
如何用卷积神经网络从歌曲中提取纯人声?这里有教程+代码
安妮 编译整理自 Madebyollin博客 量子位 报道 | 公众号 QbitAI 你应该对阿卡贝拉(Acapella)不陌生吧。这种无伴奏合唱的纯音乐起源于中世纪的教会音乐,虽曾一度濒临灭绝,但在今天人们又开始怀念起这种纯人声合唱。 这阵猝不及防“Acapella热”仿佛唤起人们对这种原始音乐形式的渴望。很多音乐人发现将纯人声清唱用来混音听觉效果很好,但无奈纯人声资源目前很难寻找。因此,音乐论坛中尝尝出现“一曲难求”的景象。 幸运的是,坐落于华盛顿大学的程序猿Ollin Boer Bohan(T
量子位
2018/03/30
1.9K0
如何用卷积神经网络从歌曲中提取纯人声?这里有教程+代码
国内首款AI音乐大模型一曲封神!核心技术业内首公开,爆改霉霉周杰伦效果惊艳
这不,就在上周,国内首款AI音乐生成大模型「天工SkyMusic」也正式开启内测了!
新智元
2024/04/12
2150
国内首款AI音乐大模型一曲封神!核心技术业内首公开,爆改霉霉周杰伦效果惊艳
人工智能AI库Spleeter免费人声和背景音乐分离实践(Python3.10)
    Spleeter的模型源来自最大的音乐网站Deezer,底层基于深度学习框架Tensorflow,它可以通过模型识别出素材中的背景音乐素材,从而判断出哪些是背景音乐,哪些是外部人声。
用户9127725
2023/04/27
1.8K0
音频格式的汇总及压缩比较
数字音源,也就是数字音频格式,最早指的是CD,CD经过压缩之后,又衍生出多种适于在随身听上播放的格式,这些压缩过的格式,我们可以分为两大类:有损压缩的和无损压缩的。这里所说的压缩,是指把PCM编码的或者是WAV格式的音频流经过特殊的压缩处理,转换成其他格式,从而达到减小文件体积的效果。有损/无损,是指经过压缩过后,新文件所保留的声音信号相对于原来的PCM/WAV格式的信号是否有所削减。
ZONGLYN
2019/08/08
10.8K0
与人工智能一起创作原来这么简单!AI开启无限可能 #Pollinations.ai 平台
‍社区长期关注运用人工智能技术生成多种信息形式的实战运用,产出了许多丰富有趣的项目。近期产出有音频音乐智能生成、文本转图像、文本转视频智能生成等等相关项目与推文。
mixlab
2022/05/25
2.9K0
与人工智能一起创作原来这么简单!AI开启无限可能 #Pollinations.ai 平台
音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno
3 月 26 日,国内「All in AGI 与 AIGC」的科技公司 —— 昆仑万维,发布了最新音乐大模型 Mureka V6 和 O1,给全球音乐圈带来了不小的震撼。
机器之心
2025/03/27
1430
音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno
Algoriddim djay Pro Ai Mac(DJ混音软件)激活版
Algoriddim djay Pro Ai是一款非常专业的DJ软件,它为用户提供了用于执行DJ的完整工具包,其独特的现代界面围绕与iTunes和Spotify的高级集成而构建,可让您立即访问数百万首曲目。原始的音质和强大的功能集为您提供了无限的创作灵活性,为专业DJ人员而设计。
Mac知识分享
2022/08/17
5140
KDD 2018 | 中科大、苏州大学与微软的合作论文获最佳学生论文奖
上周日,第24届 ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING(知识发现和数据挖掘会议,以下简称 KDD)在伦敦正式召开。KDD 是数据挖掘领域的顶级学术会议,全球的华人学者在这一研究领域有着举足轻重的角色,近几年国内也在不断孕育出实力强劲的研究团队。
AI科技大本营
2018/09/28
6900
KDD 2018 | 中科大、苏州大学与微软的合作论文获最佳学生论文奖
抛开元宇宙,我们来聊聊音视频技术的未来
其中一人认为,奔跑的马在跃起的瞬间,四蹄是腾空的。而另一人则认为,马奔跑时,始终有一个蹄子是着地的。
鲜枣课堂
2022/02/11
4070
抛开元宇宙,我们来聊聊音视频技术的未来
Algoriddim djay Pro Ai Mac(DJ混音软件)4.0.7
Algoriddim djay Pro Ai是一款非常专业的DJ软件,它为用户提供了用于执行DJ的完整工具包,其独特的现代界面围绕与iTunes和Spotify的高级集成而构建,可让您立即访问数百万首曲目。原始的音质和强大的功能集为您提供了无限的创作灵活性,为专业DJ人员而设计。
Mac小小
2022/08/26
3960
奇声(IQDubbing)-- 面向影视剧的AI配音技术
 点击上方“LiveVideoStack”关注我们 ▲扫描图中二维码或点击阅读原文▲ 了解音视频技术大会更多信息   //   编者按:随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。LiveVideoStackCon 2022
LiveVideoStack
2023/04/04
1.8K0
奇声(IQDubbing)-- 面向影视剧的AI配音技术
QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰
音效渲染是音频或音乐播放器最为重要的后处理模块之一。LiveVideoStackCon 2022 北京站邀请到腾讯音乐银河音效开发负责人——闫震海,为大家介绍银河音效在QQ音乐播放器中的创新应用,包括空间环绕效果和音效制作工具等内容。 文/闫震海 编辑/LiveVideoStack 大家好!很高兴和大家一起分享交流关于QQ音乐银河音效的一些技术实践。 相信大家对音效处理都不陌生。它已经被广泛应用在各种音频信号、音乐信号的渲染场景中。本次分享重点是音乐重放场景,如何利用音效对最终听到的感觉进行补偿和修饰。
LiveVideoStack
2023/05/05
1.7K0
QQ音乐银河音效技术实践——音乐重放效果的补偿与修饰
AI“贝多芬”诞生了?
音乐是艺术,音乐也是一门生意。如今,音乐这门生意越发引起商业巨头的关注。曾经,各音乐平台比的是曲目数量,艺人进驻数量,后来则更看重独家版权。现在,以深度神经网络为代表的AI技术逐渐逼近落地,放眼全球,音乐平台的AI大战一触即发。
AiTechYun
2019/10/15
6720
AI“贝多芬”诞生了?
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
作者 | James Vincent 等 编译 | 夕颜、Monanfei 出品 | AI科技大本营(ID:rgznai100)
AI科技大本营
2019/06/20
8950
Facebook频谱图模型生成比尔·盖茨声音,性能完胜WaveNet、MAESTRO
孙燕姿的饭碗,也被AI盯上了
大数据文摘转载自深燃 作者 | 邹帅 编辑 | 黎明 孙燕姿可能都没想到,自己的“代表作”会加上一个《漠河舞厅》。 替孙燕姿唱歌的,是AI孙燕姿。最近,一批B站UP主用AI技术合成了孙燕姿版的《发如雪》《半岛铁盒》《红豆》,和其他港台歌手“梦幻联动”,还让孙燕姿唱起了更新的歌,《水星记》《漠河舞厅》等等,很多孙燕姿的粉丝都表示“绝对想不到孙燕姿会唱这种类型的歌。” 以假乱真,AI孙燕姿的唱功、音色均不在孙燕姿本人之下。这背后的技术原理也很简单,把孙燕姿的声音喂给AI,训练出特定的数据集,再给AI一首其他歌手
大数据文摘
2023/05/22
3890
孙燕姿的饭碗,也被AI盯上了
FL Studio21水果软件有哪些新的功能优化?
首先是FL Studio(以下简称FL)的逻辑和其它宿主软件都不太一样,FL的逻辑就与众不同。FL的逻辑也可以分为三部分:通道机架、混音台和播放列表。在Live里每个发送轨都可以插入一个乐器以及若干个效果器。你有200个发送轨,你就可以插入200个乐器,和200*n个效果器。但是FL不是这样。在FL里,通道机架挂载乐器,乐器需要在通道机架上链接至混音台,才能在混音台上挂载效果器,否则该乐器将直接被发送到混音台的Master轨道,也就是主轨。这样一看好像也没问题,但是当工程大起来的时候,FL的短板就会明显起来。首先是FL的混音轨道只有125个,一旦需要添加效果器的乐器/采样增多,混音轨道就很可能不够用。其次FL中每个混音轨道只有10个插槽,也就是说,在不借助第三方效果器链插件的情况下,只能放置至多10个效果器,这对于一些需要探索极限搞音色设计的用户来说是难以接受的(例如Skybreak喜欢一个音色砸10个Disperser上去233)。
用户7442547
2023/01/31
1.1K0
人声分离攻破“鸡尾酒会”效应,将为语音识别带来哪些新可能?丨科技云·视角
时隔65年,在近日Google Research软件工程师Inbar Mosseri和Oran Lang发表的论文《Looking to Listen at the Cocktail Party》中,采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道,这一突破为语音识别不仅带来了更多新可能,同时也成为该领域一个划时代的分水岭。
科技云报道
2022/04/14
1.4K0
人声分离攻破“鸡尾酒会”效应,将为语音识别带来哪些新可能?丨科技云·视角
推荐阅读
相关推荐
神器!人工智能分离歌曲中的人声和背景音乐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档