首页
学习
活动
专区
圈层
工具
发布

#语音

别再内耗了!快把那个“爱碎碎念”的MindBack当成你的第二大脑

程序那些事儿

在这个连写个朋友圈都要字斟句酌、反复分组的年代,我们似乎弄丢了 “记录” 最原始的快乐。

1100

inFin你的随身无限语音AI笔记

程序那些事儿

1400

腾讯AI语音IM场景落地实践:山东云盟文化传媒的延迟、成本与玩法优化

IT资讯研究所

腾讯科技 | 研究员 (已认证)

山东云盟文化传媒有限公司在语音IM场景中面临四方面理想与现实的差距:需保障流畅体验却受延迟、卡顿、音质差困扰;追求服务稳定但存在稳定性不足问题;期望玩法创新却受...

3600

腾讯云TRTC与AI技术提升语音IM体验,破解行业共性难题

IT前沿资讯站

腾讯科技(深圳)有限公司 | 数据分析 (已认证)

应对高并发场景下的实时音质与延迟挑战 直播及社交平台面临网络条件差异大、自建服务不稳定导致的延迟、卡顿与音质下降问题,直接影响用户参与度和留存率。传统RTMP架...

7510

传亚马逊将重返智能手机市场!

芯智讯

报道指出,这款手机将以AI和语音为核心,虽然Alexa将是主要功能之一,但不一定会成为手机的主要操作系统。亚马逊可能会考虑与Android系统合作,并希望通过语...

8410

2.4K Star!小米最新开源!覆盖600+语种的语音克隆TTS,40倍实时合成速度!

开源星探

自从 ChatTTS 引爆中文 TTS 后,各种开源模型层出不穷,但大多都集中在中文或少数几个主流语言上。

41010

今天 GitHub Trending 值得关注的内容:Claude Code、语音 AI 和 Agent 框架为什么一起冲高?

山行AI

中文摘要:微软开源的前沿语音 AI 项目,主打开放式语音能力,是今天语音方向最突出的代表项目。

14410

今天 GitHub Trending 变天了:AI Agent、Claude Code 和语音 AI 为何一起冲上最前排?

山行AI

微软开源的前沿语音 AI 项目,主打开放式语音能力,是当天语音方向最有代表性的项目之一。

64410

传奇 VC 预言 AI 产品:下一个ChatGPT,不在ChatGPT

不二小段

当所有人的目光都聚焦在 OpenAI、Google 的模型参数和能力边界时,一位传奇投资人将视角拉回到了最本质的地方——人。

11110

吴恩达对话 LangChain 创始人:AI Agent 不必追求完全自主,「乐高」式搭建工作流才是当下主流

不二小段

「AI Agent」无疑是当下最炙手可热的技术风口。但究竟什么样的 Agent 才算成功?是追求极致的自主复杂系统,还是有更切实际的路径?

14210

一个非程序员的AI产品开发全流程,从想法到上线——附完整提示词模板【一万六千字,建议直接听语音】

袁锐钦

每个问题都能想到一点,每个问题又都想不清楚。发了一个小时呆,关了电脑,第二天又重复。

36910

开源语音 AI:3 秒克隆声音,支持 9 种语言 — Voxtral TTS

技术人生黄勇

整个 pipeline 就是三步:语音 → 文字 → LLM 推理 → 文字 → 语音,配合 Mistral Forge 定制平台,企业可以构建从语音输入到语音...

19410

我的 OpenClaw 可以开口说话|NoizAI 技能安装使用教程

技术人生黄勇

安装配置完成后,ArcClaw 可以直接发送原生飞书语音消息——不是文件附件,而是点击就能播放的语音气泡。

27620

酒店行业体验革命:构建“AI调度中台+私域数据”双引擎驱动业务增长

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

面对同质化竞争与数字化转型需求,酒店行业正寻求提升客户体验与运营效率的新路径。本文介绍了奥莱维与腾讯云联合打造的解决方案,通过构建融合大模型等AI技术的“AI调...

10010

腾讯AI语音IM解决方案助力山东云盟文化传媒突破场景瓶颈

IT资讯研究所

腾讯科技 | 研究员 (已认证)

山东云盟文化传媒在语音IM场景面临延迟卡顿音质差、服务不稳定、玩法单一、成本高的四大瓶颈。腾讯提供“技术+产品+服务”整合方案,核心依托腾讯云TRTC及即时通信...

12610

腾讯云音视频对话式AI解决方案概要

IT资讯研究所

腾讯科技 | 研究员 (已认证)

技术定义:基于TRTC(实时音视频)技术的对话式AI解决方案,整合STT(语音转文字)、智能打断、模型通道、AI降噪引擎等功能,支持客户自有或定制LLM(大语言...

21430

打车这事本来挺简单的,需要AI吗?

春哥大魔王

滴滴在首页给了一个AI叫车入口,支持语音/文字输入复杂需求。官方说法是“去往每一种生活”,听起来挺宏大。

11510

腾讯智绘影音:AI驱动端到端音视频架构演进与业务增长

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

在多模态大模型涌现的趋势下,人机交互正从打字文本交互(GUI)向更低门槛、更直观的语音交互(LUI)演进,Voice Agent成为下一代实时对话的核心方向。然...

14710

OpenVINO2025轻松搞定四种生成式大模型部署

OpenCV学堂

这个语音是我通过TTS模型生成的一段语音片段,然后Whisper会自动识别并给我翻译为文字,显示如下:

13810

腾讯云音视频TweTalk AI对话软硬一体化方案概要

IT资讯研究所

腾讯科技 | 研究员 (已认证)

腾讯云音视频TweTalk是专为智能硬件打造的AI对话软硬一体化方案,聚焦语音智能体与实时音视频通信两大核心。其云端支持语音对话、多模态视觉推理、情绪识别、TT...

21720
领券