腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(1640)
视频
沙龙
1
回答
实施音视频时,本地是否有接口获取
音频
数据?
实时音视频
场景:当实时音视频时需要获取
音频
数据来
转化
文字
,目前无法获取
音频
数据,录音mic也只有一个,有没有解决方案?
浏览 325
提问于2019-02-28
1
回答
Google语音识别时间戳
google-cloud-platform
、
speech-recognition
我有一个
音频
文件,而且我有那个
音频
文件的准确记录。我希望能够在这个特定的
文字
记录中得到每个单词的时间戳。 我不想要不准确的
演讲
的时间戳。
浏览 3
提问于2020-04-25
得票数 1
1
回答
AVSpeechSynthesizer和AirPlay -
音频
设备睡眠?
ios
、
swift
、
airplay
、
avspeechsynthesizer
如果我使用AVSpeechSynthesizer来讲一些
文字
,它在设备上工作的很好,但是一旦我使用了AirPlay,
演讲
的开始就会被切断,除非刚才刚刚说了什么。
音频
设备似乎要睡觉了。
浏览 5
提问于2016-01-29
得票数 0
回答已采纳
1
回答
使用python在
音频
中查找语音的速度和音调
python
、
audio
、
ffmpeg
、
sox
给定一个
音频
,我想计算一下
演讲
的速度。也就是说,它有多快或多慢。 我指的是:和
浏览 2
提问于2018-01-12
得票数 1
0
回答
向量数据库背后有哪些核心技术?打造一款向量数据库主要的门槛是什么?
存储
、
数据
、
索引
、
音频
、
向量数据库
Embedding技术:利用Embedding技术将高维度的数据(例如
文字
、图片、
音频
)映射到低维度空间,即把图片、
音频
和
文字
转化
为向量来表示,将这些向量存储起来就构成向量数据库。
浏览 480
提问于2023-08-14
1
回答
使用google语音到文本API的强制对齐?
google-cloud-platform
、
speech-recognition
、
speech-to-text
、
google-speech-api
我正在处理一些录制的
音频
文件,我确实有所说内容的
文字
记录。问题是我使用的是阿拉伯语(埃及语),所以精确度不是很高。我需要做的是将包含正确文本的文本提供给api,然后强制将语音与文本对齐。换句话说,获取
演讲
文本中每个单词的时间戳。那么有没有办法做到这一点呢?
浏览 8
提问于2019-12-22
得票数 2
2
回答
如何与索克斯录音?
sound
、
pulseaudio
、
audio-recording
、
text-to-speech
、
sox
我想录几段
文字
到
演讲
。现在我用管乐器播放,这样就可以播放了。我用来播放tts的命令是play -q -。我试过使用
音频
记录和arecord -f cd -t raw | lame -x -r - out.mp3,这是我在网上找到的,但我只听到静态的声音。使用rec命令,我什么也听不见。
浏览 0
提问于2015-08-28
得票数 2
4
回答
文字
演讲
: NullPointerException
android
、
nullpointerexception
、
speech-recognition
、
speech-to-text
请看下面的代码 import android.app.Activity; import android.content.Intent; im
浏览 2
提问于2013-11-13
得票数 0
回答已采纳
1
回答
用言语在书中搜索
search
、
speech-recognition
、
speech
、
speech-to-text
我有这本书的文本和
音频
内容。用户将从一个随机页面开始阅读,程序应该与用户同步,并显示正在阅读的书的部分。这似乎是无用的程序,但请容忍我..另一种方法是将
演讲
稿转换为文本,并在书中搜索文本。问题是,这本书的语言是一种罕见的,没有语言模型可用。此外,该脚本不使用拉丁
文字
符,这使得编程困难(至少对我来说)。 有谁能推荐的解决方案吗?从
音频
文件中提取特征并与“实时”提取的特征(从麦克风)进行比较是否有效?什么特征?
浏览 5
提问于2013-09-04
得票数 0
回答已采纳
1
回答
为什么拥抱声语音识别模型比单词或字符输出更多的概率?
python
、
speech-recognition
、
huggingface-transformers
我用把西班牙语的
演讲
翻译成
文字
。 在转录一个
音频
之后,我得到了一个概率输出。然而,这个列表中元素的数量远远大于每个转录中的单词总数或字符总数。因此,每个概率代表什么?
浏览 11
提问于2022-07-26
得票数 0
2
回答
音频
播放开始时不开始
pulseaudio
、
alsa
、
text-to-speech
当我运行一个
音频
文件,如mpg321或aplay或sox,甚至在TTS的(文本发言)
音频
只有正确输出从我第二次复制
音频
文件.我猜是因为
音频
引擎或类似的东西延迟了0.5到2秒。然后跳过一秒或两秒钟的
音频
。如果我运行相同的
音频
两次或三次等,从第二次它运行良好,但只有当我很快.Raspberry P
浏览 0
提问于2015-02-13
得票数 2
回答已采纳
2
回答
当应用程序处于后台模式时,文本到语音功能?
ios
、
objective-c
、
text-to-speech
、
background-mode
声音根据在UITextField中写的
文字
播放。然而,当应用程序处于后台模式时,
音频
就会停止播放。如何继续在后台模式下播放声音?类似于
音频
播放器可以在后台播放一首歌曲。我使用以下代码对文本进行
演讲
:#import "Google_TTS_BySham.h" #import <AVFoundation/AVFoundation.h
浏览 0
提问于2015-02-04
得票数 4
回答已采纳
1
回答
如何使用语音搜索打开相机?
java
、
android
、
android-studio
我知道如何把
演讲
变成
文字
,但我还是很难打开相机。我怎样才能让它首先回应它,然后
转化
为文本?
浏览 2
提问于2016-12-28
得票数 1
回答已采纳
1
回答
等待
文字
到
演讲
c#
、
.net
、
xamarin
、
xamarin.forms
、
async-await
为了理解它是如何工作的,我正在尝试使用Task,所以在我的玩具项目中,我只想开始一段
文字
到
演讲
,并打印时间。
浏览 1
提问于2018-10-09
得票数 1
回答已采纳
5
回答
寻找VoIP服务提供者
web-services
、
api
、
service
、
voip
、
telephony
我需要的是: 有什么建议吗?
浏览 6
提问于2009-05-27
得票数 3
回答已采纳
1
回答
如何使用websocket将
音频
发送到Microsoft转换器
ios
、
objective-c
、
websocket
、
speech-recognition
、
microsoft-translator
我已经把
文字
翻译成
文字
,文本转换成
文字
,我没有把
演讲
翻译成
文字
。请帮助我如何使用websocket发送
音频
。我是创建
音频
像下面的方法,但我不知道我如何发送它。AVAudioSession *audioSession = [AVAudioSession sharedIn
浏览 0
提问于2016-09-27
得票数 1
回答已采纳
1
回答
扬声器分发给包含讨论的
音频
文件
audio
我正在寻找一个程序或网络服务,可以输出扬声器分发给一个
音频
文件,其中包含不同对话者之间的讨论。发言者分布的例子:
演讲
者2有20%的发言时间例如,uberconference.com给出了以下摘要(但它不能将
音频
文件作为输入:它只是基于扬声器源
浏览 0
提问于2019-04-08
得票数 1
2
回答
如何根据不同的扬声器分离
音频
文件
c++
、
c
、
linux
、
audio
、
speech
我有一堆关于电话交谈的
音频
文件。我想试着将一个
音频
文件一分为二,每个文件只包含一个
演讲
者的
演讲
。也许我需要使用语音二值化。但是我该怎么做呢?有人能给我一些线索吗?谢谢。
浏览 2
提问于2012-10-19
得票数 7
回答已采纳
1
回答
如何使用TIMIT数据集进行语音识别
speech-recognition
、
labeling
我们正在做一个
演讲
到
文字
的项目。我们在这个领域很新,如果你能帮助我们,我们将非常感激。我们的目标是使用MFCC从
音频
数据集中提取特征,使用CNN模型估计每个特征的可能性,然后使用HMM模型将
音频
数据转换为文本。除了标签之外,所有这些步骤对我们来说都是明确的。当我们对数据进行预处理时,我们将
音频
数据分成更小的时间帧,每个帧大约45 we长,每帧之间有10 we的间隔。 我将使用TIMIT数据集。我对数据集的标注完全感到困惑。
浏览 5
提问于2021-09-18
得票数 0
回答已采纳
1
回答
基于Alexa语音到Python的AI模型
alexa
、
alexa-skill
、
alexa-voice-service
我有一个python文件,它接受语音输入,运行张量流模型,并识别它是儿童还是成人说话。我是否可以使用Alexa对语音进行采样,并使用与我的python文件输入相同的语音
浏览 19
提问于2020-08-07
得票数 0
点击加载更多
相关
资讯
音频文件转化为文字
如何把音频转化为文字?这里教你音频转文字怎么操作?
怎样将音频转化为文字?下面教你音频转文字怎么弄
音频如何转化文字?这些方法值得使用
如何将音频文件转化为文字?音频转文字的方法分享
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券