腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
JavaScript:检测画布中的形状
、
、
、
我发现了一个名为的应用程序,为了学习的目的,我想创建我自己的网络版本的应用程序。如果找到该模式,则停止视频记录并执行一些操作。理想情况下,它应该像QR码一样工作--即使检测到小的QR码,它也不应该依赖于旋转和缩放。我应该训练自己的Tensorflow数据集并使用tensorflow.js吗?还是
浏览 0
提问于2019-12-16
得票数 1
1
回答
Pocketsphinx -
音频
预处理是否必要/推荐?
、
、
、
、
我正在使用pocketsphinx进行语音
识别
,使用西班牙语声学模型和JSGF语法,到目前为止效果还不错。然而,我得到了错误的
音频
识别
结果,至少在我的耳朵看来是完全可以理解的(没有太多的背景噪声,采样频率和根据声学模型参数的比特
深度
等)。此外,这些没有正确
识别
的
音频
似乎与正确
识别
的
音频
没有太大区别(事实上,对我来说,它们听起来几乎是一样的)。 所以,我猜
音频
中有一些东西使它更难
识别
,也许是一些噪声频率或其他需要过滤的
浏览 3
提问于2016-06-20
得票数 0
3
回答
如何将
音频
数据输入
深度
学习算法?
、
、
、
、
我是
深度
学习的新手,我的目标是使用GAN (生成对抗网络)来
识别
情感语音。我只知道图像是大多数
深度
学习算法的输入,比如GAN。但我很好奇,除了使用光谱图的图像作为输入之外,
音频
数据如何成为它的输入。
浏览 98
提问于2019-10-10
得票数 2
1
回答
动态时间翘曲中避免堆叠溢出的技术
、
、
、
、
我编写了一个动态时间翘曲字
识别
系统,发现我可以处理的最大
音频
文件的最大递归
深度
达到1秒的样本。克服这一问题的常见技术是什么? 这是我引用的代码。
浏览 1
提问于2014-12-05
得票数 1
回答已采纳
1
回答
字母语音
识别
的最佳
音频
分类算法?
、
、
、
、
,2,3,4,5,6,7,8字母表/B/1,2,3,4,5,6,7,8字母表/C/1,2,3,4,5,6,7,8 ...现在我想对这个数据集进行分类(监督学习),然后当我给训练好的算法一个字母的样本(
音频
浏览 0
提问于2016-11-02
得票数 1
2
回答
如何对输入到神经网络的
音频
数据进行预处理
、
、
、
、
我目前正在开发一个关键字
识别
系统,它使用
深度
神经网络
识别
从0到9的数字。我有一个说数字的人的数据集(即TIDIGITS数据集,在德州仪器公司收集),但是数据不准备输入神经网络,因为不是所有的
音频
数据都具有相同的
音频
长度,加上一些文件包含几个顺序说出的数字,如“一、二、三”。单独准备
音频
文件将耗费大量时间。 提前谢谢你!
浏览 0
提问于2018-04-29
得票数 3
2
回答
用于Mac的FFMPEG录制输出
音频
我正在尝试使用ffmpeg录制屏幕以及mac上的传入
音频
,但在输入设备列表中,没有“扬声器”。有没有办法获得输出
音频
?
浏览 2
提问于2016-02-24
得票数 6
1
回答
使用Kinect录制RGB视频
、
、
、
、
我正试着用我的Kinect传感器录制一段视频(rgb+audio,无红外线或
深度
),我该如何解决这个问题?附注: 我尝试逐个保存RGB图像并将其合并为视频,但这种方法会导致低帧率和同步问题(与
音频
流)。
浏览 1
提问于2013-04-21
得票数 0
回答已采纳
2
回答
用于
音频
的卷积神经网络
、
、
、
、
我想扩展相同的CNN,同时从视频(图像+
音频
)中提取多模态特征。我读过几篇关于这个主题的论文(多模特征提取/表示),但是没有人解释过
音频
是如何输入到网络中的。如果有人能了解
音频
是如何分解的,然后再用卷积神经网络来表示,我会非常感激。我也会感谢你的想法,关于多模式同步,联合申述,以及什么是正确的方式训练一个CNN与多模数据。编辑:我
浏览 3
提问于2014-03-18
得票数 34
回答已采纳
1
回答
javascript
音频
API -分析
音频
文件以检测准确的声音,用于唇同步。
、
、
、
我见过像这样的东西,它使用来显示波形数据,还有许多其他工具能够分析JavaScript中
音频
文件的准确声音点。如果是这样的话,应该可以使用这种分析功能来使用JavaScript进行实时唇同步,也就是说,让一个动画角色在用户说话的同时说话,方法是简单地使用
音频
上下文,并阅读数据--指出如何找到正确的声音。因此,更具体的问题是:我想得到像这样的东西的最终结果,除了使用JavaScript,而且是实时的。不一定要精确,但要尽可能接近。
浏览 2
提问于2020-03-05
得票数 6
2
回答
Microsoft语音平台.采样率和位
深度
、
、
、
如果
音频
的采样率和比特
深度
与系统的训练数据相匹配,
识别
效果最好。 那么,是否有人知道Microsoft语音平台(如果这很重要的话,最新的)使用的采样率和/或位
深度
(和/或立体声/单声道)?
浏览 7
提问于2013-08-09
得票数 0
回答已采纳
1
回答
用于神经网络应用的python模块是什么?
、
我正在寻找一个easy来使用 python模块,我可以使用它来创建和训练一个用于模式
识别
的神经元网络(或者更准确地说,我有几个包含口语或口语短语的短
音频
文件,我想使用机器学习/
深度
学习算法来训练网络,以便它能够
识别
出哪个单词
浏览 0
提问于2021-01-24
得票数 1
4
回答
火狐不会使用.WAV <audio>标签播放HTML5文件吗?
、
、
、
蹩脚的执行脚本就在这里:但是,当我使用HTML5
音频
标记为火狐中的
音频
文件创建播放器时
浏览 2
提问于2012-05-01
得票数 8
回答已采纳
1
回答
基于语音ASR的机器学习
、
将语音转换为文本的自动语音
识别
技术已经有了很多的研究。这些工具正在使用
深度
学习来做到这一点。 我发现它的工作方式是基于英语的。如果是单词" Phonics“的
音频
,它们将是Foniks,但最接近的英文单词是Phonics。 Google API可以为我们提供ASR,为我们提供最终结果。
浏览 15
提问于2019-02-21
得票数 0
回答已采纳
1
回答
语音
识别
可以在ML.NET中完成吗?
、
我们可以将此框架用于语音
识别
吗?如果你想在ML.NET中进行语音
识别
,你应该知道的所有事情是什么?
浏览 78
提问于2019-02-25
得票数 4
回答已采纳
1
回答
语音
音频
分析、性别分割/
识别
有谁知道一个图书馆,程序,项目等,试图确定有多少发言者活跃在一个
音频
文件,标签每个发言者,标签其性别,等等? 到目前为止,我发现了以下情况:
浏览 4
提问于2016-04-15
得票数 2
2
回答
如何知道mp3文件的位
深度
?
、
、
MP3文件头文件只包含采样率和比特率,因此解码器无法从头文件中计算出位
深度
。也许它只能通过比特率来猜测?但是比特率在帧与帧之间是变化的。
浏览 0
提问于2014-12-26
得票数 9
1
回答
决定音乐文件大小
、
、
我正在用sdl做一些编程。在此之前,我得到了一个音乐文件,其中属性如下。audio sample rate = 8bitaudio sample rate = 8khz长度是26秒,我想知道它是如何结束为206Kb的,因为如果我取8 8KHz * 8bit *26秒,就不会达到206Kb?然后我的音乐块alen给我这个尺寸是3435760?
浏览 0
提问于2013-10-10
得票数 0
1
回答
有没有办法使用librosa设置
音频
文件的样本大小(以字节为单位)?
、
、
、
在AudioSegment from from pydub import AudioSegment中,有一个函数set_sample_width。从医生那里:
浏览 0
提问于2020-07-01
得票数 0
回答已采纳
1
回答
如何在不获取麦克风权限的情况下重启webkitSpeechRecognition?
如果我停止
识别
并重新启动,它会再次要求麦克风许可。它是否有任何想法暂停
识别
,并在发言结束后继续?
浏览 7
提问于2019-04-20
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
科研人员建立基于小波谱图和深度卷积网络的音频场景识别新框架
清华-得意团队获音频情感识别竞赛冠军
10大音频处理任务,助你开启深度学习之路
深度学习应用 - 语音识别篇
怎么将音频转换成文字?可以识别音频为文字的软件有哪些
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券