只对数字(1到10000之间)进行语音识别的API或SDK？

文章/答案/技术大牛

发布

2回答

、、

我需要一个专门的解决方案优化，以检测1和1000之间的数字要在智能手机上使用。最好的解决方案是让这个SDK离线工作。有什么想法吗？我没有发现任何配置与谷歌语音或亚马逊转录，以允许“数字只”

浏览 36提问于2019-04-05得票数 3

1回答

Kaldi是否返回任何识别可信度参数，类似于Google语音到文本API？

、、、、

我在处理一项语音识别任务。到目前为止，我一直在使用Google语音识别API (在Python中)，取得了很好的效果。API返回一个以及转录的文本的每一个块。如文档中所述，置信度是介于0到1之间的一个数字，但对于Google的API是如何导出这个数字的，我没有找到更深层次的解释，所以我假设它来自于进行识别的神经网络。下一步我想要做的是制作我自己的(离线)自动语音识

浏览 4提问于2019-10-15得票数 3

回答已采纳

1回答

YouTube的自动字幕比产生了更好的效果(模型:视频，UseEnhanced: true)。这怎么可能？

、、、、

这里我的谷歌语音设置给AI发短信以下是语音到文本AI：的输出文件这是视频链接：这是提供给Google：的视频的音频文件。

浏览 5提问于2020-10-12得票数 4

1回答

Azure PullAudioInputStream没有准确地与Twilio语音一起工作

、、、

回调类从队列中选择块并上传到Azure服务器进行转录。wave_format = speechsdk.audio.AudioStreamFormat(samples_per_second=8000, bits_per_sample=8, channels=1)

浏览 3提问于2020-10-12得票数 0

2回答

从音频识别数字

、

我对这个问题很感兴趣，有没有关于从音频中识别数字的研究？例如，有电话记录，你需要知道电话号码。

浏览 0提问于2019-09-27得票数 1

回答已采纳

1回答

如何使用google convert将语音转换为基于印度口音的文本

、、、、

我正在尝试使用google could APIs转换语音到文本，像这样的gcloud ml speech recognize-long-running当我使用--language-code='en-US，这段代码，我能够转换完美，文本是基于音频的US，口音或UK。如何通过google could API转换这个印度口音，我需要做哪些改变。谢谢桑迪普。

浏览 11提问于2021-07-09得票数 0

2回答

基于WebRTC、Node.js和语音识别引擎的实时语音识别

、、、

允许在web浏览器中进行实时语音识别的web应用程序(如)。节点

浏览 6提问于2014-06-01得票数 11

回答已采纳

4回答

在基于sip的软电话中使用DTMF的目的是什么？

、

在一些基于sip的软电话中使用DTMF来处理有效载荷类型。但是我并不清楚使用DTMF的过程和重要性。像和这样的开源软电话使用DTMF。谁能解释一下这个问题，或者给我指出一个我能找到足够好的解释的地方。

浏览 11提问于2012-02-16得票数 3

回答已采纳

1回答

我是Cosmos DB的新手，我尝试对cosmos db集合(documentdb api) duo c#-sdk进行一些性能测量。我试着用一个简单的秒表来做这件事。但是，当我使用以下代码片段进行查询时，我总是得到14ms到33ms之间的波动测量数据。如果我查询一条关于一个或10000个数据的记录，它是独立的；如果我查询一个分区键值、另一个索引值或未索引值，并且EnableScaninQuery处于活动状态，它也是独立的。我预计收集<

浏览 1提问于2017-08-11得票数 1

1回答

集合到下一个显著数

、

我正在进行绘图功能，需要定义放置轴标签的位置。在计算每个标签之间的增量时，我希望避免标签在142,284等，而宁愿在150,300等。在0到1之间:整到第一个decimalbetween 1到10:整整或.5在11到20之间:整整到5在101到200之间的倍数:乘

浏览 3提问于2019-11-04得票数 0

回答已采纳

2回答

面向盲人的JavaScript语音到文本

、、、、

我正在开发一个网站，我想帮助盲人使用它的声音，所以我将使用：语音到文本，允许用户使用自己的声音选择一个。我已经有了一些文本到语音的JavaScript库(比如)，但是现在我需要一个很好的语音对文本库。有一些解决方案(比如)，但它们使用JavaScript或Flash，我只想依赖于JavaScript，以避免插件。我正在使用语音和Google Chrome来尝试HTML5 5的语音输入，它很好

浏览 4提问于2012-06-28得票数 20

3回答

改进语音识别，C#

、、

我使用System.Speech库来识别语音，但它的识别能力通常非常不同。

浏览 0提问于2011-03-31得票数 6

回答已采纳

1回答

印度语语音搜索

、、、、

例如，我想检查"Edhu“"Adhu”"Yethu“在语音上是否平等，在泰米尔语中它们的意思都是一样的。但是，使用英语脚本来书写印度语的人使用不同的拼写来创造这个单词。但我不知道如何将它返回的数字转换为等式。我试用了Soundex，Soundex的代码不一样，当单词的第一个字母变了。但它能够找出相似的发声部分。我不明白它是怎么工作的。

浏览 5提问于2015-06-15得票数 23

回答已采纳

1回答

语言学习平台中的语音识别与人工智能

、、、

我们热衷于创造一些沉浸式的东西(虚拟3D世界)，通过它，学习者可以体验到“真实”的互动。部分原因是我们真的希望他们能够在环境中说话(对于游戏来说，NPC能够回应/注册学习者的话语)。

浏览 0提问于2013-03-11得票数 1

回答已采纳

1回答

每秒100或更少的请求(对于非缓存的页面)是否是Rails所能期望的？

、、

前言:请不要就过早优化或其他相关问题展开讨论。我只是想了解使用rails的单个服务器可以获得什么样的性能。这是在一个ec2 m1.大型实例上进行的：4 EC2 Compute Units (2 virtual cores with 2 EC2 Compute Units each)64-bit platformAPI name: m1.large 该页面是一个非常简单的操

浏览 2提问于2011-11-16得票数 6

回答已采纳

2回答

在为play商店签名kivy应用程序时出错

、、、

然后，我使用以下命令对我的apk进行签名和压缩。keystore文件前-密钥工具-genkey -v -keystore myapp.keystore -alias my别名-keyalg RSA -keysize 2048 -validity 10000-digestalg SHA1 -keystore myapp.keystore myapp-0.1-arm64-v8a-release unsign.apk my别名 zipalign -v 4 myapp来自apksigner的错误:错误: MIN_SIG_SCHEME_FOR_TAR

浏览 5提问于2021-02-01得票数 0

1回答

模板类型之间的模板类转换，但也是专门化的

、

基本上我想要完成这个color<int> c1(255,234,122,14);当它这样做时，c1中的数字除以255，使0与

浏览 2提问于2015-03-22得票数 2

回答已采纳

2回答

如何获得IBM服务的身份验证令牌？

、

接口需要以下命令var wsURI = 'wss://stream.watsonplatform.net/speech-to-text/api/v1/recognize' + '?curl -X GET --user "apikey:{apikey}" "https://stream.watsonplatform.net/authoriz

浏览 0提问于2018-12-07得票数 2

回答已采纳

1回答

实时统计？

、、、

我认为使用前端框架(目前在backbone和ember之间)会很好，但问题是，我的“统计服务器”所能提供的功能非常有限，所以很遗憾，像socket.io这样的解决方案不在框架中。但是，我考虑使用一个非常简单的API来返回JSON统计数据： "Bob":{ "turnover":10000, }然后，我可以让框架每隔一到两秒钟轮询一次

浏览 0提问于2013-03-11得票数 0

1回答

汇编中的纯高位乘法？

、、

要实现0到1之间的实数，通常使用ANSI浮点数或双精度数。但是，在0和1之间的固定精度数字(十进制模1)可以有效地实现为32位整数或16位字，它们像普通整数/字一样相加，但它们以“错误的方式”相乘，这意味着当您将X乘以Y时，您将保留乘积的高位。同样，-1和1之间的有符号数字也可以用这种方式实现，只需多加一位和一个移位。如何在C中实现固定精度的mod <

浏览 2提问于2012-05-07得票数 5

回答已采纳

点击加载更多