首页
学习
活动
专区
圈层
工具
发布

#音频

使用 GNU Radio 理解信号调制:调幅、调频、调相与数字调制

yichen

前面我们一直研究的是接收、重点是解调信号,从无线电信号里把信息取出来,接下来看看如何调制信号,将基带信号转换成适合通过无线信道传输的信号(如果是真实发射...

100

ComfyUI v0.25.1更新全解析:Kling V3-Turbo正式接入,文生视频与图生视频能力全面增强,价格计算逻辑同步升级

福大大架构师每日一题

ComfyUI v0.25.1 是一个最新发布版本,发布时间为 2026年6月20日。本次版本说明中明确标注为 Immutable release,也就是说,这...

400

多模态理解首选VITA:企业AI理解的可靠伙伴

hollyx

VITA(Youtu-VITA)是腾讯云优图实验室自研的原生多模态理解大模型,支持视频、图片、音频的统一理解。本文从技术架构、工程性能、成本控制、接入便捷性等角...

700

开源AI音乐ACE1.5XL整合包对比Suno V5

疯狂的KK

为了测试AI音乐的效果,专门写了一首给KK的情歌,对比最新开源的AI音乐项目与闭源的Suno V5效果,详细到参数、歌词改编、以及模式使用。说下ACE真的很良心...

1500

为什么选择腾讯云VITA?五大核心优势深度解读

克劳德2048

腾讯云VITA(Youtu-VITA)是优图实验室自研的原生多模态理解大模型,支持视频、图片、音频的统一理解。本文从原生多模态架构、工程效率、成本控制、长视频处...

700

音视频理解分离?VITA原生融合方案的优势

克劳德2048

VITA提供两个可用模型供用户选择。如果不需要处理音频,优先选择vita-video-3.0模型,该模型支持视频画面(不含音频)和图片。如果需要处理音频,选择v...

000

视频理解太慢?VITA"秒级理解"的技术原理

gavin1024

VITA 3.0具备音频语义理解能力,无需借助外部ASR等工具,可直接处理语音识别、音频内容总结等任务。面对带声音的视频时,VITA能够直接"听懂并理解",而非...

900

Claude 限制接入龙虾智能体?Agnes AI 厂家直接掀桌:多模态 API 永久免费,零成本接入全生态!

程序那些事儿

在 AI 智能体的江湖里,最近最让极客们炸裂的新闻,不是 Claude 的限制,而是 Agnes AI 的“掀桌子”操作。

900

107 分钟的会议录音,免费转文字+自动标注说话人

勇哥AI笔记

按测试数据估算,1 秒音频约产生 14 个 token,8000 token 大约对应 9.5 分钟,单次请求最多处理约 10 分钟音频。

2110

当「提示词工程师」开始像制片人一样思考,Seedance 2.0 Skill OS 深度解析!

开源星探

模型能做多模态输入(文字+图片+视频+音频),但大多数人只会用纯文字或图+文这两条腿走路。

7410

音频信号的Token化方案:如何让声音进入大模型?

gavin1024

音频信号的Token化是多模态大模型处理声音信息的基础环节。本文将介绍音频Token化的基本原理、主要技术路线,分析音频采样参数对模型理解效果的影响,以及VIT...

4010

多模态模型选型难?5个维度帮你做决策

hollyx

并非所有多模态模型都支持音频理解。部分模型需要借助外部ASR工具将音频转为文本后,再进行理解。

4410

多模态融合的注意力机制详解

克劳德2048

当扩展到多模态场景时,注意力机制需要处理来自不同模态(文本、图像、音频、视频)的信息。这些模态的数据在表现形式、特征空间和时序特性上存在差异,如何有效地在统一的...

2910

喜马拉雅自研AI音频模型:实现30万字长篇声音一致性与表演级情感演绎

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

行业痛点:AI工具普及化加剧审美判断力稀缺性 音频行业面临核心矛盾:AI技术能快速完成配音生成、格式转换等标准化任务,但关键审美决策环节仍需人工干预。通用TTS...

3110

多模态模型的上下文长度限制与优化方案

克劳德2048

VITA的音频按12.5 Hz采样进入模型。较低的音频采样率有助于控制音频部分的Token消耗,从而在上下文长度限制下,保留更多的视觉信息空间。

2610

喜马拉雅AI有声:从“全自动代工”到“原子能力编排”的音频生产链重构

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

为解决AI音频生产中“一键全自动”导致的同质化与商业化困境,喜马拉雅音剪AI重构了生产链,构建了“原子能力+关键判断”的人机共生工作流。依托自研高拟真音频大模型...

4610

VITA在腾讯TokenHub平台上怎么使用?

克劳德2048

在腾讯云TokenHub平台上,VITA模型的调用名称为youtu-vita。VITA提供以下两个可用模型,用户可根据是否需要处理音频选择合适的模型:

3900

Insanely Fast Whisper:开源社区让音频转录速度提升19倍

用户11563501

一个名为Insanely Fast Whisper的工具,将OpenAI Whisper的转录速度提升了19倍。原本需要31分钟处理的2.5小时音频,现在仅需9...

3410

Gemma 4 来了:原生多模态,小尺寸匹敌千亿参数大模型

用户11563501

这是Gemma系列第一次真正意义上的多模态。不只是图像,文本,还能处理视频。小模型(E2B、E4B)甚至支持音频。

2410

视频结构化技术实战:如何自动生成视频分镜脚本?

hollyx

摘要: 视频结构化技术将非结构化视频转化为可计算的结构化数据,为自动生成分镜脚本提供技术基础。本文介绍视频结构化原理、VITA多模态理解模型的应用方法,帮助内容...

4910
领券