首页
学习
活动
专区
圈层
工具
发布

#音频

LLM多模态融合技术:从理论到实践

安全风信子

作者:HOS(安全风信子) 日期:2025-12-30 来源:GitHub 摘要: 本文深入探讨了2025年大语言模型(LLM)多模态融合技术的最新进展,...

200

AudioDock: NAS和服务器最好的音频播放软件!

萌萌哒草头将军

前几天介绍了我开发 AudioDock 项目的一些问题。好多小伙伴很感兴趣这个项目。

2500

AI自己当导演?KlingAvatar 2.0“联合推理”黑科技:让数字人不仅会演,更懂剧本!新SOTA!

AI生成未来

图1 KlingAvatar 2.0生成生动、保持身份的数字人类,具备精准的摄像头控制、丰富的情感表达、高质量的动作以及精准的面部-唇部和音频同步。它实现了音频...

1600

AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

机器之心

近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的...

2100

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

机器之心

近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。

2800

从「会表演」到「更会演」:KlingAvatar2.0让数字人拥有生动灵魂

机器之心

在传统的多角色视频中,一个常见的问题是 "张冠李戴"—— 明明是给 A 角色的音频,结果 B 角色的嘴也在动。这种混乱让观众瞬间出戏,破坏了整个视频的沉浸感。K...

2500

【C语言】EasyX图形库——实现游戏音效(详解)(要游戏音效的看过来!!!)

zore

首先,去EasyX的官网下载与安装 链接:https://easyx.cn/

5010

用AI“大变活人”,快来为你的生意启用虚拟代言人

www.tangshuang.net

腾讯 | 前端开发工程师 (已认证)

本篇内容较长,本来可以作为一篇付费内容,但是作为爱分享的人,希望和小伙伴们,一起见证用AI改变我们的生意模式。请提前收藏,分享转发,慢慢阅读。

8610

Book Voice:击穿有声故事创作的最后一关

www.tangshuang.net

腾讯 | 前端开发工程师 (已认证)

我们常见的语音合成工具都是丢进去一段文本,然后输出音频,虽然简单,但是存在诸多不足,主要有如下缺点:

9310

AM调幅接收器工作原理(调谐、解调、重采样)

yichen

继续学习《Practical SDR: Getting Started with Software-Defined Radio》,通过上一篇了解过信号处...

10910

信号处理基础(频率、增益、滤波)

yichen

继续学习《Practical SDR: Getting Started with Software-Defined Radio》,上篇文章通过 GNU ...

10410

使用 GNU Radio 解调原始 AM 无线信号

yichen

本文将构建一个 AM 接收器,实现从 AM 信号中解调出音频信号,类似收音机的效果,但却是从之前保存的 AM 信号文件中解析,不使用 SDR 设备空口实...

10010

港科大等提出音频驱动多人视频生成新范式 AnyTalker,解锁任意数量角色间的自然互动!

AI生成未来

文章链接:https://arxiv.org/abs/2511.23475 开源链接:https://github.com/HKUST-C4G/AnyTalk...

8610

LiveKit v1.9.3 更新详解:视频层分配优化、音频策略调整与延迟监控增强

福大大架构师每日一题

在最新发布的 LiveKit v1.9.3 版本中,官方带来了多项功能新增、修复及优化调整,涵盖视频流分配策略、音频编码默认设置、延迟与抖动监控等多个方面。本篇...

16110

Unity教学 项目1 2D赛车小游戏

90后小陈老师

https://www.bilibili.com/video/BV1wT9rYZEKe?spm_id_from=333.788.videopod.section...

11510

LiveKit v1.9.2 发布:功能增强与多项优化修复详解

福大大架构师每日一题

本次 LiveKit v1.9.2 更新在功能扩展、性能优化以及稳定性方面都有显著提升,尤其是在音频分层传输支持、加密数据包类型引入、RPC API 完善以及节...

16210

mediamtx v1.15.2 更新详解:功能优化与问题修复

福大大架构师每日一题

mediamtx v1.15.2 已于 2025 年 10 月 14 日 发布,本次更新在功能、性能优化以及问题修复方面带来了多项改进,同时也更新了部分依赖库并...

15210

RustDesk 1.4.2 版本发布:新增增量文件传输与光标显示功能

福大大架构师每日一题

RustDesk 团队于2025年9月15日发布了1.4.2版本,这款开源的远程桌面客户端软件再次带来了一系列功能增强和问题修复。

17710

【大模型的底层逻辑】

贺公子之数据科学与艺术

大模型(如GPT、BERT等)的底层逻辑基于深度学习技术,核心是Transformer架构。其核心思想是通过大规模数据训练,学习语言或任务的通用表示,并利用自注...

10310

【接入多模态模型API的关键点】

贺公子之数据科学与艺术

多模态模型(如OpenAI的CLIP、GPT-4V,Google的Gemini等)能够处理文本、图像、音频等多种输入形式。接入时需注意以下关键点:

15710
领券