如何从扬声器输出将语音实时转换为文本

文章/答案/技术大牛

发布

0回答

我正在尝试从麦克风和扬声器输出的语音的实时转换。目前，我正在尝试将两个扬声器的通话记录到一个wav文件中，并将其发送到Cognitive SDK进行转换。有没有办法使用认知sdk转换扬声器设备的输出。链接到任何样本都会很有帮助。

浏览 4提问于2018-07-15得票数 0

1回答

将扬声器注释(例如id，name)添加到云语音到文本api中，并将其包含在云语音到文本api生成的输出json中。

Google云平台的云语音到文本api将多个扬声器音频转换为文本。它返回一个JSON输出，其中包括谁在什么时候说了什么。但说话人识别(WHO)是匿名的。是否有一种方法来注释或给出有关扬声器的输入(例如id、name)，并将其包含在api生成的输出JSON中？

浏览 1提问于2021-01-12得票数 0

1回答

如何在python中接收音频输入并将其转换为文本字符串

、、、

我想我的问题从标题上说得很清楚例如，如果我使用麦克风并说“你好”，python程序将返回" Hellow“作为文本值。

浏览 4提问于2017-05-26得票数 0

回答已采纳

2回答

语音到文字Java应用程序的实时字幕可能吗？

、、

这是将Google语音转换为文本API：能

浏览 11提问于2022-04-12得票数 -4

回答已采纳

1回答

将音频流保存到mp3文件(iOS)

、、、、

我有一个将文本转换为语音的AVSpeechSynthesizer，但是我遇到了一个问题。我不知道如何将它生成的音频文件保存到音乐文件中，这是我非常希望能够做到的！因此，我的问题是，如何保存AVSpeechSynthesizer输出，如果这是不可能的，我可以使用AVFoundation、CoreMedia或其他公共API来捕获扬声器的输出，但在它发布之前？

浏览 0提问于2013-09-25得票数 5

回答已采纳

1回答

VOX文件到文本，这有可能吗？

、

目前，语音脚本以.VOX格式存在--而且.它们不是“写出来的”/文档。是的，有大量的应用程序/程序可以实时地对文本进行语音处理，但我希望能够将录音“上传/转储”到程序中，并获取文本。

浏览 1提问于2014-05-19得票数 1

回答已采纳

1回答

Azure转录JSON文件的VTT输出

、

我抬头发现了这个- 我计划编写一个脚本，将转录的JSON转换为VTT，但是如果已经有了，或者我可以请求作为输出格式的东西，这将是非常有帮助的

浏览 9提问于2022-11-10得票数 0

1回答

说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录

、、、、

我想做一个语音到文本分析的项目，我想要1)说话人识别，2)说话人二元化，3)语音到文本。在扬声器二元化中，如果我理解正确，它将能够“区分”用户，但它如何识别，除非我不注册他们？

浏览 0提问于2020-01-20得票数 0

1回答

在Google语音文本中添加转录本以提高识别能力。

、、、、

为了让他们不了解布道，我制作了一个应用程序，实时发送翻译到电报。这是很好的，但识别往往不够准确。在Google中，是否可以添加带有转录的音频文件，以便能够了解说话人的输出？我们总是同一个说话者，所以如果我能让谷歌‘了解’扬声器，我认为准确性可以更高。或者有人有另外的想法如何提高准确性？我确实尝试了语音适应性增强()，但这并没有多大帮助。

浏览 10提问于2022-05-16得票数 4

1回答

从webRTC到文本实时翻译Twilio音频流？

、、、、

我需要从电话号码获取twilio voip音频信号，并在不断开呼叫的情况下实时将音频转换为文本，以便采取特定的操作。1.调用语音-> 2.转换为文本#实时-> 3.检测语音端-> 4.获取最终字符串我调查了translator.js，有什么建议吗？

浏览 20提问于2016-08-22得票数 1

1回答

iOS上麦克风输入的语音活动检测

、、、、

我正在开发一个iOS应用程序，它执行基于语音的人工智能；也就是说，它的目的是从麦克风获取语音输入，将其转换为文本，发送给AI代理，然后通过扬声器输出返回的文本。我已经做好了所有的工作，只是使用一个按钮来开始和停止录制语音(SpeechKit用于语音识别，API.AI用于AI，亚马逊的Polly用于输出)。这个应用程序是在一个非正统的环境下开发的，用户将无法访问屏幕(但他们将有一个高

浏览 51提问于2017-08-06得票数 9

1回答

Android语音文本查询

、

在语音输入是如何工作的背景下，语音输入将流到服务器上，服务器上的语音将被转换为文本，最后文本将被发送回我们的应用程序。但我的问题是是否有可能，我们可以得到实时的文本，就像如果用户说你好，然后应用程序将立即得到你好。我已经检查过了，我们可以在onActivityResult中得到文本。你能告诉我，我们是否有可能实时收到短信，而不是在停止讲话之后。

浏览 0提问于2019-02-05得票数 1

1回答

将文本转换为语音- TTS设置为振铃器音量

、、

如何控制TTS音量？我不想使用AudioManager，因为audiomanager无法通过按下Galaxy选项卡上的音量按钮进行设置(我认为这是振铃器音量)。那么，如何将TTS扬声器更改为振铃器音量？谢谢。

浏览 2提问于2012-04-09得票数 0

回答已采纳

1回答

如何使用谷歌翻译/谷歌云获取印地语语音

、、、

我觉得奇怪的是google cloud text to speech不提供印地语， 1)为什么我们不能使用谷歌云访问印地语语音，而可以使用谷歌翻译？ 2)如何解决让印地语语音</em

浏览 9提问于2019-01-07得票数 3

0回答

如何将Watson text to speech的输出路由/管道到本地扬声器vs终端

、、

到目前为止，除了将声音输出到运行Node JS的Raspberry PI上的扬声器之外，我已经能够使一切正常工作。我正在连接到文本到语音服务。我似乎从Watson服务得到了响应，但它显示在Pi终端上，而不是转到USB扬声器。在文本显示的末尾，它显示它正被发送到硬件设备0:0，这是错误的。所以我的问题是:是否有一个使用https:接口的参数，使您能够控制将语音路由到哪个硬件声音设备，或者所有这些都必须在本地控制，在我

浏览 8提问于2017-06-09得票数 0

2回答

.NET:如何将mp3或wav文件转换为.flac

、、、

我需要在c#中编写一个实用程序，使用谷歌语音Api将语音从音频文件转换为文本。据我所知，谷歌只接受这个接口的.flac格式。不幸的是，我有.wav和.mp3音频文件。所以我试着找出是否有办法在.NET中将mp3转换为flac。我查看了NAudio，但它似乎不能处理flac文件。

浏览 0提问于2013-07-14得票数 6

回答已采纳

1回答

iOS:静音右声道音量

、

我正在尝试将除我控制的音频流之外的所有音频的右声道设为静音。我正在使用许多播放音频的库，包括用于文本到语音转换的OpenEars，我希望所有这些库都只播放左边的耳机扬声器，而播放右边的扬声器。我知道如何播放合适的扬声器，创建一个音频单元流，但是我没有为其他库创建音频流。有没有办法改变默认的音频通道？或者，有没有可能创建一个努力或混音器，应用于所有输出的音频，使正确的声道静音？

浏览 1提问于2012-11-13得票数 8

1回答

C# -沃森-文字API演讲

、、、、

我正在尝试在C# windows应用程序中创建一个windows应用程序，该应用程序应该使用IBM服务来执行语音到文本的转换。如何实现IBM语音到text服务，该服务应该倾听用户的声音并编写输出文本。我搜索了许多文章，在所有这些例子中，.wav (音频)文件被作为输入传递，输出文本被写入。我试图执行这个演讲，以更实时地文本，而不是传递一个现有的或存储的音频(.wav)文件。以便应用程序能够识别语音

浏览 4提问于2017-06-15得票数 0

8回答

用于语音检测和识别的开放源代码

、、

大部分内容似乎分为三类--按总长度、最长第一项排列顺序:沉默、语音广播和音乐。我计划将所有磁带转换成数字格式，然后再查找录音。最明显的方法是在我做其他事情的时候，把它们都放进后台。

浏览 31提问于2011-04-22得票数 25

1回答

在CMU sphnix4 1.0 beta6中使用语言模型

、、、、

我是Java应用程序开发方面的新手，我正在尝试创建一个将语音转换为文本应用程序的示例，以便转换实时语音。我试着使用Sphnix4-5prealpha，发现它与麦克风()有问题。我不确定helloNGram对我来说是正确的，即使这是正确的，我也不知道如何继续下去。我无法从helloNGram中找到任何前进的途径。有谁能帮我做两件事吗？我应该从哪个例子开始？什么是高层次的步骤，以实现通用英语演讲对文本的应用，具有很

浏览 3提问于2015-09-20得票数 0

点击加载更多