演讲音频转化文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

实施音视频时，本地是否有接口获取音频数据？

实时音视频

场景：当实时音视频时需要获取音频数据来转化文字，目前无法获取音频数据，录音mic也只有一个，有没有解决方案？

浏览 325提问于2019-02-28

1回答

Google语音识别时间戳

google-cloud-platform、speech-recognition

我有一个音频文件，而且我有那个音频文件的准确记录。我希望能够在这个特定的文字记录中得到每个单词的时间戳。我不想要不准确的演讲的时间戳。

浏览 3提问于2020-04-25得票数 1

1回答

AVSpeechSynthesizer和AirPlay -音频设备睡眠？

ios、swift、airplay、avspeechsynthesizer

如果我使用AVSpeechSynthesizer来讲一些文字，它在设备上工作的很好，但是一旦我使用了AirPlay，演讲的开始就会被切断，除非刚才刚刚说了什么。音频设备似乎要睡觉了。

浏览 5提问于2016-01-29得票数 0

回答已采纳

1回答

使用python在音频中查找语音的速度和音调

python、audio、ffmpeg、sox

给定一个音频，我想计算一下演讲的速度。也就是说，它有多快或多慢。我指的是：和

浏览 2提问于2018-01-12得票数 1

0回答

向量数据库背后有哪些核心技术？打造一款向量数据库主要的门槛是什么？

存储、数据、索引、音频、向量数据库

Embedding技术：利用Embedding技术将高维度的数据（例如文字、图片、音频）映射到低维度空间，即把图片、音频和文字转化为向量来表示，将这些向量存储起来就构成向量数据库。

浏览 480提问于2023-08-14

1回答

使用google语音到文本API的强制对齐？

google-cloud-platform、speech-recognition、speech-to-text、google-speech-api

我正在处理一些录制的音频文件，我确实有所说内容的文字记录。问题是我使用的是阿拉伯语(埃及语)，所以精确度不是很高。我需要做的是将包含正确文本的文本提供给api，然后强制将语音与文本对齐。换句话说，获取演讲文本中每个单词的时间戳。那么有没有办法做到这一点呢？

浏览 8提问于2019-12-22得票数 2

2回答

如何与索克斯录音？

sound、pulseaudio、audio-recording、text-to-speech、sox

我想录几段文字到演讲。现在我用管乐器播放，这样就可以播放了。我用来播放tts的命令是play -q -。我试过使用音频记录和arecord -f cd -t raw | lame -x -r - out.mp3，这是我在网上找到的，但我只听到静态的声音。使用rec命令，我什么也听不见。

浏览 0提问于2015-08-28得票数 2

4回答

文字演讲: NullPointerException

android、nullpointerexception、speech-recognition、speech-to-text

请看下面的代码 import android.app.Activity; import android.content.Intent; im

浏览 2提问于2013-11-13得票数 0

回答已采纳

1回答

用言语在书中搜索

search、speech-recognition、speech、speech-to-text

我有这本书的文本和音频内容。用户将从一个随机页面开始阅读，程序应该与用户同步，并显示正在阅读的书的部分。这似乎是无用的程序，但请容忍我..另一种方法是将演讲稿转换为文本，并在书中搜索文本。问题是，这本书的语言是一种罕见的，没有语言模型可用。此外，该脚本不使用拉丁文字符，这使得编程困难(至少对我来说)。有谁能推荐的解决方案吗？从音频文件中提取特征并与“实时”提取的特征(从麦克风)进行比较是否有效？什么特征？

浏览 5提问于2013-09-04得票数 0

回答已采纳

1回答

为什么拥抱声语音识别模型比单词或字符输出更多的概率？

python、speech-recognition、huggingface-transformers

我用把西班牙语的演讲翻译成文字。在转录一个音频之后，我得到了一个概率输出。然而，这个列表中元素的数量远远大于每个转录中的单词总数或字符总数。因此，每个概率代表什么？

浏览 11提问于2022-07-26得票数 0

2回答

音频播放开始时不开始

pulseaudio、alsa、text-to-speech

当我运行一个音频文件，如mpg321或aplay或sox，甚至在TTS的(文本发言)音频只有正确输出从我第二次复制音频文件.我猜是因为音频引擎或类似的东西延迟了0.5到2秒。然后跳过一秒或两秒钟的音频。如果我运行相同的音频两次或三次等，从第二次它运行良好，但只有当我很快.Raspberry P

浏览 0提问于2015-02-13得票数 2

回答已采纳

2回答

当应用程序处于后台模式时，文本到语音功能？

ios、objective-c、text-to-speech、background-mode

声音根据在UITextField中写的文字播放。然而，当应用程序处于后台模式时，音频就会停止播放。如何继续在后台模式下播放声音？类似于音频播放器可以在后台播放一首歌曲。我使用以下代码对文本进行演讲：#import "Google_TTS_BySham.h" #import <AVFoundation/AVFoundation.h

浏览 0提问于2015-02-04得票数 4

回答已采纳

1回答

如何使用语音搜索打开相机？

java、android、android-studio

我知道如何把演讲变成文字，但我还是很难打开相机。我怎样才能让它首先回应它，然后转化为文本？

浏览 2提问于2016-12-28得票数 1

回答已采纳

1回答

等待文字到演讲

c#、.net、xamarin、xamarin.forms、async-await

为了理解它是如何工作的，我正在尝试使用Task，所以在我的玩具项目中，我只想开始一段文字到演讲，并打印时间。

浏览 1提问于2018-10-09得票数 1

回答已采纳

5回答

寻找VoIP服务提供者

web-services、api、service、voip、telephony

我需要的是：有什么建议吗？

浏览 6提问于2009-05-27得票数 3

回答已采纳

1回答

如何使用websocket将音频发送到Microsoft转换器

ios、objective-c、websocket、speech-recognition、microsoft-translator

我已经把文字翻译成文字，文本转换成文字，我没有把演讲翻译成文字。请帮助我如何使用websocket发送音频。我是创建音频像下面的方法，但我不知道我如何发送它。AVAudioSession *audioSession = [AVAudioSession sharedIn

浏览 0提问于2016-09-27得票数 1

回答已采纳

1回答

扬声器分发给包含讨论的音频文件

audio

我正在寻找一个程序或网络服务，可以输出扬声器分发给一个音频文件，其中包含不同对话者之间的讨论。发言者分布的例子：演讲者2有20%的发言时间例如，uberconference.com给出了以下摘要(但它不能将音频文件作为输入:它只是基于扬声器源

浏览 0提问于2019-04-08得票数 1

2回答

如何根据不同的扬声器分离音频文件

c++、c、linux、audio、speech

我有一堆关于电话交谈的音频文件。我想试着将一个音频文件一分为二，每个文件只包含一个演讲者的演讲。也许我需要使用语音二值化。但是我该怎么做呢？有人能给我一些线索吗？谢谢。

浏览 2提问于2012-10-19得票数 7

回答已采纳

1回答

如何使用TIMIT数据集进行语音识别

speech-recognition、labeling

我们正在做一个演讲到文字的项目。我们在这个领域很新，如果你能帮助我们，我们将非常感激。我们的目标是使用MFCC从音频数据集中提取特征，使用CNN模型估计每个特征的可能性，然后使用HMM模型将音频数据转换为文本。除了标签之外，所有这些步骤对我们来说都是明确的。当我们对数据进行预处理时，我们将音频数据分成更小的时间帧，每个帧大约45 we长，每帧之间有10 we的间隔。我将使用TIMIT数据集。我对数据集的标注完全感到困惑。

浏览 5提问于2021-09-18得票数 0

回答已采纳

1回答