首页
学习
活动
专区
圈层
工具
发布
首页标签语音识别

#语音识别

专业智能高效的语音处理服务

设备端语音处理技术解析

用户11764306

设备端自动语音识别(ASR)模型接收语音信号,输出按概率排序的识别假设集合。这些假设以网格形式表示——一个包含识别单词及单词间转移概率的图结构。

2000

语音技术跨学科研究新趋势

用户11764306

循环训练语音合成和语音识别模型,以及通过语言理解改善语音韵律,仅仅是语音相关领域交叉融合的几个例子。

1000

ICASSP 2022语音识别技术突破与创新

用户11764306

本周,IEEE国际声学、语音与信号处理会议(ICASSP)以虚拟形式拉开帷幕,两周后(5月22-27日)将在新加坡举行线下会议。ICASSP是IEEE信号处理学...

2700

无需重新训练即可为语音识别器添加新词

用户11764306

近年来,自动语音识别已转向全神经网络模型。连接时序分类损失函数因其无需依赖先前上下文即可进行预测而成为ASR(特别是端到端ASR)的有吸引力的选择,从而产生具有...

4000

语音识别技术实战:从iOS到GPT的优化之路

qife122

更新: Evan告诉我Whisper已经解决了语音识别问题。他有一个封装程序可以从麦克风录音并在此处打印转录内容。Whisper非常令人印象深刻,唯一的注意事项...

7310

混元之力・腾讯混元 AIGC 多模态应用--面对面实时翻译小程序

AI大眼萌

东方航空 | 项目经理 (已认证)

腾讯混元大模型,2025 年已扩展至 万亿级参数,国内率先采用 MoE(混合专家)结构,在文本、语音、图像、3D 等多模态任务全面领先。

2.3K20

Alexa对话式AI技术进展全解析

用户11764306

准确的远场自动语音识别(ASR)是与AI系统自然交互的关键。在Interspeech 2020会议上展示了12篇论文,包括使用循环神经网络转换器(RNN-T)架...

13310

语音识别与合成的融合技术解析

用户11764306

随着今年Interspeech会议的临近,"生成式AI"已成为机器学习界和大众媒体的热门词汇,通常指合成文本或图像的模型。文本转语音(TTS)模型作为Inter...

9910

无需重新训练即可更新语音识别词汇

用户11764306

近年来,自动语音识别已全面转向全神经网络模型。连接时序分类损失函数因其无需依赖上文语境即可进行预测的特性,成为端到端语音识别的理想选择,这种预测机制可构建推理延...

8610

设备端语音处理技术解析:更低延迟与带宽优化

用户11764306

云端语音处理栈的各个组件(自动语音识别、轻声检测、说话人识别)运行在独立的服务器节点上,而设备端这些功能必须共享硬件资源。

11800

合成语音训练语音识别器的技术突破

用户11764306

近年来,大多数商业自动语音识别系统开始从混合系统转向端到端神经网络模型。端到端模型直接将声学信号作为输入并输出文本,在性能和灵活性方面具有优势,但需要比混合系统...

13910

语音识别技术前沿:自监督学习与声学表征新突破

用户11764306

二十年前,自动语音识别技术主要集中于小规模封闭词汇识别,例如连接数字识别系统。如今,深度学习模型已成为主流,数百万用户通过语音助手或手机转录软件将语音转换为文本...

16910

Whisper 语音转文字免费软件超详细下载安装教程!Whisper v0.2 安装使用一步到位

it超人

1。 免费开源的语音转文字神器:Whisper v0.2 是一款免费开源的语音转文字软件,隶属于 Whisper 系列工具,意味着用户无需支付任何费用,就能畅享...

25200

相关产品

  • 语音识别

    专业智能高效的语音处理服务

活跃用户

  • gavin1024

    1.5K 文章79.7K 回答0 关注
  • 技术流浪者

    江湖人称“山哥”,在数字化、人工智能、电商和金融等领域积累了丰富的平台架构设计经验
    1 文章5 回答0 关注
领券