首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

#音频

断层第一!谷歌推出最强“六边形战士”Gemini 2.5 Pro模型

用户11203141

它支持100万token的上下文长度(谷歌称即将推出200万token),能够处理海量复杂信息,包括文本、音频、图像、视频,甚至完整的代码存储库。

4910

微调篇「数据集构建」保姆级教程来了!

Datawhale

ModelScope: https://modelscope.cn/datasets

13810

这AI绝对偷了格莱美奖杯!直接把LLaMA喂成乐坛顶流:开源版Suno来了!

机器之心

还有这首 AI 新编版《世界赠与我的》!模仿王菲空灵仙嗓也太到位了吧,完全不一样的旋律,一样的嘎嘎好听,宁静中带一点哀伤的意境拿捏得简直了!

5710

音乐界迎来自己的DeepSeek!全球首个音乐推理大模型Mureka O1上线,超越Suno

机器之心

3 月 26 日,国内「All in AGI 与 AIGC」的科技公司 —— 昆仑万维,发布了最新音乐大模型 Mureka V6 和 O1,给全球音乐圈带来了不...

9410

OpenAI语音智能体诞生,怼脸实拍语气狂到飞起!API降到每分钟0.3美分

新智元

在GPT-4o和GPT-4o-mini架构之上,新的音频模型在专门的以音频为中心的数据集上进行了大量预训练。

7610

首次,6人7天真人秀!南洋理工等发布第一视角AI生活管家数据EgoLife

新智元

EgoGPT能够同时处理来自摄像头的视频画面和麦克风的音频输入,从而「看」和「听」用户所经历的一切。研究人员为此引入了音频编码器(使用Whisper模型)并训练...

9700

肝了4天,我用ChatTTS和LLM让deeplearning.ai课程说上流畅中文

AgenticAI

虽然看起来比较简单,但实际生成的音频和字幕大部分都无法匹配。需要处理诸如空字幕、开始前后加入静音片段。最主要的问题是合成的音频长度和字幕不匹配,这意味视频和音频...

9010

【电路】阻抗的基本概念

LuckiBit

阻抗(Impedance)是交流电路中电压与电流之间关系的一种度量,通常用符号 Z 表示,其单位为欧姆(Ω)。它是电阻(Resistance, R)、电感(In...

8910

声音比真人还像真人的Maya,背后模型开源了!跨越语音恐怖谷

机器之心

该模型拥有 10 亿参数规模,并且采用了 Apache 2.0 许可证,这意味着它可以在几乎没有限制的情况下用于商业用途。CSM-1B 可以从文本和音频输入中生...

10010

10秒生成4分钟音乐,8GB显存就能跑!已登Hugging Face趋势榜一

新智元

DiffRhythm由两个顺序训练的模型组成:1) 变分自编码器 (VAE),学习音频波形的紧凑潜在表示,使得分钟级长音频建模成为可能;2) DiT 建模 VA...

11500

图解NumPy包一文就够了(2025版)

生信技能树

关于python学习的环境搭建,推荐:vscode + jupter + 服务器,可以随便搜一个教程安装一下~这里不再描述。

16410

一条神奇的指令,DeepSeek直接文生图

SQL数据库开发

最近又发现一条神奇的提示词指令,借助Markdown的image标签可以直接在DeepSeek当前窗口得到我们想要的图片。

17010

腾讯混元视频生成再升级,发布图生视频、音频与动作驱动等能力

腾讯开源

腾讯混元发布图生视频模型并对外开源,同时上线对口型与动作驱动等玩法,并支持生成背景音效及2K高质量视频。

29910

专业级视频字幕工具,完全开源还能离线用!

程序员 NEO

作为一名视频创作者,我深知处理视频文件的痛点。从提取音频到生成字幕,再到最终的视频合成,每一步都可能遇到技术障碍。正是这些日常开发中的真实需求,促使我开发了这个...

8100

OpenAI颠覆世界:GPT-4o免费发布,实时语音视频交互引领科幻时代

用户11203141

在性能方面,GPT-4o在英文文本和编程代码处理上与GPT-4 Turbo相当,但在非英文文本处理上有显著提升,API响应更快,成本也减少了50%。它在视觉和音...

6000

如何简单的使用MediaPlayer播放音频(整活)

奶油话梅糖

首先要准备音频文件并在res文件夹内新建“raw”文件夹。然后放入音频即可 我这里准备的是练习时长两年半的个人练习生(

6510
领券
首页
学习
活动
专区
圈层
工具