怎么识别音频的文字

识别音频的文字是一种将音频文件中的语音内容转换为可读文本的技术。这项技术被广泛应用于语音识别、语音转写、语音搜索等领域。下面是关于如何识别音频的文字的完善且全面的答案：

概念：

音频文字识别（Automatic Speech Recognition，ASR）是一种将音频信号转换为文本的技术。它利用语音处理和自然语言处理的方法，将音频中的语音内容转化为可读的文字。

分类：

音频文字识别可以分为在线识别和离线识别两种方式。

在线识别：音频实时传输到云端进行识别，实时性较高，适用于实时语音转写、语音助手等场景。
离线识别：音频先存储在本地设备中，然后通过批量上传或者离线处理的方式进行识别，适用于对实时性要求不高的场景。

优势：

提高工作效率：将音频转换为文字，可以方便地进行编辑、搜索和存档，提高工作效率。
便捷的信息获取：通过文字形式呈现音频内容，用户可以快速获取所需信息，无需逐字听取。
多语言支持：音频文字识别技术可以支持多种语言的识别，满足不同语种用户的需求。

应用场景：

语音转写：将会议记录、讲座内容等音频转换为文字，方便查阅和整理。
语音搜索：通过语音输入关键词，快速搜索相关信息。
语音助手：将语音指令转换为文字，实现语音控制设备或应用程序。
语音翻译：将外语音频实时转换为本地语言文字，实现实时翻译。

推荐的腾讯云相关产品：

腾讯云提供了一系列音频文字识别相关的产品和服务，包括：

语音识别（ASR）：提供在线和离线两种识别方式，支持多种语言，具备高准确率和低延迟的特点。产品介绍链接：语音识别
语音合成（TTS）：将文字转换为自然流畅的语音，支持多种语言和声音风格。产品介绍链接：语音合成
语音唤醒（Wake-up）：实现语音唤醒功能，用于激活语音助手或设备。产品介绍链接：语音唤醒

通过使用腾讯云的音频文字识别产品，用户可以快速、准确地将音频转换为文字，满足各种语音处理需求。

请注意，以上答案仅供参考，具体产品选择和推荐建议还需根据实际需求和情况进行评估。

页面内容是否对你有帮助？

有帮助

没帮助

蔚蓝语翻译:如何激活识别只有当语音被检测到？

、、、、

我目前正在开发一个实时翻译网络应用程序，允许多个参与者使用，并以多种语言分享他们的转录。我不想被告知参加会议的人数x会议的持续时间。因此，问题是：，当检测到语音时，我如何才能激活识别？这样的话，我只会为目前说话的人付钱。我尝试使用来自的事件，但只有当识别器当前正在识别时(使用recognizeOnceAsync()或startContinuousRecognitionAsync())，此事件才会触发。，在Speech中有什么参数可以用来实现我想要的吗？如果没有，我的选择是什么？这可能是可能的观看音频dB水平，并激活连续识别相应，但我认为我会遇到一些问题，如果我尝试这样做。例句:一旦音频

浏览 5提问于2021-02-08得票数 1

2回答

关键词是否影响布鲁斯沃森语音识别？

、、

沃森的语音识别器支持作为参数的关键字列表，但我试图弄清楚这些关键字是否真的会影响识别。例如，如果您正在给Watson一个音频剪辑，其中包含可能无法正确识别的正确名称，那么将这些名称作为关键字提交会增加Watson正确识别它们的可能性吗？关键词与识别本身相互作用吗？

浏览 2提问于2016-04-12得票数 0

回答已采纳

2回答

转换从混音到线性影响音频质量？

、、、、

我想改变音频编码从穆劳到线性，以便使用线性语音识别模型从谷歌。我使用的是一个电话通道，所以音频是用mulaw编码的，8位，8000 in。当我使用Google模型时，识别一些简短的单字->存在一些问题--基本上它们根本不被识别-> API没有返回--我想知道更改线性或Flac的编码是一个好的实践吗？我已经做到了，但我不能真正衡量这种改善的程度。

浏览 11提问于2022-01-03得票数 0

1回答

如何使用Auriotouch对麦克风的音频输入进行静音，只识别设备内部的音频

、、

我已经在我的应用程序中使用了auriotouch代码，当我录制音频时，它会显示音频波形。因此，在记录声音时，麦克风识别音频输入，然后波会相应地对麦克风接收到的任何声音起作用。到目前为止还不错。但是现在，当我点击播放按钮播放我刚才录制的声音时，麦克风的输入应该关闭，这样波只能根据我以前录制的音频工作，即使我在播放先前录制的音频时，波也不应该起作用。因此，它更像是静音麦克风的输入，以避免识别外部音频和只识别设备的内部音频。这是怎么做到的？

浏览 4提问于2013-05-02得票数 1

1回答

如何在Skype中使用合成语音进行呼叫

、、、

我的目标是在Skype通话中使用合成语音。这可以用于一种场景，例如同时举行两次会议(一次本地会议，一次远程会议)，而不能大声发言(在本地会议中)。我目前的尝试是使用PulseAudio音量控制(pavucontrol)将一些耳机的监视器音频设置为Skype的输入，这是PulseAudio音量控制作为一个记录程序来识别的。然后我可以用节日一般的合成声音。这是可行的，但在远程会议产生的声音，然后立即返回给我，进入耳机的监视器音频流，然后返回到Skype作为输入！所以，这是个回声问题。我需要更直接的东西。我怎么能把合成声音的声音直接输入Skype呢？

浏览 0提问于2014-09-02得票数 2

回答已采纳

1回答

谷歌语音识别是如何工作的？

我知道音频指纹识别音频文件，这是很棒的，但我真正想知道的是Google是如何制作语音识别API的，它们是如何获取音频和返回的单词的。我写了一个宝石来指纹wav音频文件并对它们进行比较，但是如果我用指纹将我的声音与充满指纹的数据库进行比较，可能要花费很长时间。谷歌是怎么做到的？用途：我真的很喜欢语音识别，我想要一个地方开始编码，但我不知道从哪里开始。DragonVoice是语音识别软件的另一个例子，所有这些软件都非常快。我想知道从音频记录到转换成文本的服务器流。

浏览 5提问于2014-02-27得票数 0

回答已采纳

1回答

使用Watson对文本进行连续语音处理

、、、

我以前一直在使用IBM语音文本服务来转录已预先录制的完整音频文件。然而，我现在尝试在使用说话人识别功能的同时进行实时转录。这意味着我不能单独发送每个短文件(以大约30秒块记录音频)，因为必须维护扬声器的上下文。我如何在仍然使用Python的情况下做到这一点？

浏览 2提问于2018-02-28得票数 1

1回答

来自系统音频的C#语音识别(扬声器声音)

、

我见过来自输入设备的语音识别(显然)，也见过来自文件的语音识别()。然而，我想知道是否有可能在系统音频上实时运行语音识别。系统音频是指从扬声器中发出的声音。对于那些听力有障碍的人来说，这将是一个很好的工具，因为他们正在观看YouTube视频，C#应用程序可以转录正在说的话。我该怎么做呢？

浏览 2提问于2011-12-08得票数 0

回答已采纳

1回答

google云语音api:同步识别和异步识别有什么区别？

、

我是GCP的新手。当我阅读google的文档时，它说：“异步识别(REST和gRPC)向语音api发送音频数据，并启动一个长时间运行的操作。使用此操作，您可以定期轮询识别结果。”但“长跑行动”究竟是甚麽意思呢？同步和异步识别的过程有什么区别？我在网上搜索了一下，并找到了一个关于这个问题的答案：，但我仍然不明白这个想法。有人能更具体地解释一下吗？我将非常感谢你的回答：)

浏览 2提问于2018-01-07得票数 2

回答已采纳

1回答

我怎么使用腾讯云文字识别？

这个云功能针对程序员？我作为终端用户，怎么能快速进行图片文字识别？

浏览 600提问于2020-04-23

1回答

如何收集和准备用于语音识别的数据？

、

据我所知，大多数语音识别实现都依赖于二进制文件，这些文件包含他们试图“识别”的语言的声学模型。那么人们是如何编译这些模型的呢？一个人可以手动抄写大量的演讲，但这需要大量的时间。即便如此，当给出一个包含某些语音的音频文件，并在文本文件中对其进行完整的转录时，单个单词的发音仍然需要以某种方式分开。要匹配音频的哪一部分对应于文本，仍然需要语音识别。这是怎么收集起来的？如果一个人交出了价值数千小时的音频文件及其全部转录(不考虑人工转录的问题)，那么如何在一个单词结束和另一个单词开始的正确间隔内分割音频？制作这些声学模型的软件是否已经具备了语音识别的能力？

浏览 6提问于2015-08-03得票数 2

回答已采纳

1回答

腾讯云智能语音，错误126，后台识别服务器音频分片等待超时，请从seq=0重传，请问怎么解决？

腾讯云智能语音，经常出现错误126，后台识别服务器音频分片等待超时，请从seq=0重传，请问怎么解决？重启后又能正常识别

浏览 247提问于2021-03-16

1回答

创建facebook可识别的链接

、、

我有个问题，我不知道该怎么解释。如果我在soundcloud上发布音频文件(例如)这个网站给了我一个链接。Facebook识别出了这个链接，并向我显示了一个播放按钮，我可以直接在页面上收听，而不必转到soundcloud。另外，在soundcloud上，我上传了一张图片，facebook会显示我的图片。有人能解释一下我该怎么做吗？我有一个服务器，我想不时地发布一些音频文件(从我的服务器链接)到facebook。我希望facebook能识别我的链接，这样每个访问我页面的人都能听到音频文件。非常感谢你的回答。

浏览 4提问于2013-01-27得票数 1

回答已采纳

1回答

当内容通过Ajax加载时，音频播放器没有加载，MediaElement.js没有应用

、、、

当我使用ajax加载内容时，它不会将MediaElements.js应用于我的音频播放器，因此音频不会显示。我认为这是因为MediaElement.js加载了wp- for ()，这个新的音频随后被添加到DOM中，并且它不为MediaElement.js所识别。当地的视频也是如此。我怎么解决这个问题？

浏览 0提问于2016-01-20得票数 1

1回答

为什么我不能在安卓上播放AudioRecord录制的音频呢？

、、

我需要在android上录制一段后来想加密的音频。所以我使用AudioRecord类，因为它直接使用字节在较低的级别工作音频。我找到了一段与short一起工作的代码，然后将其转换成字节，这就是我想要的。但一旦我创造了音频，我不能播放它与任何音频播放器在电话。我应该怎么做才能让手机识别为一个有效的音频文件？

浏览 5提问于2019-06-13得票数 0

回答已采纳

1回答

.3gp或wav格式录音音频文件的语音识别

、、、

可能重复：我正在开发一个Android应用程序，它可以将音频记录到文件中，然后使用语音识别从录制的语音中获取文本。是否有用于这类任务的语音识别库？我怎么开始呢？

浏览 1提问于2012-12-30得票数 7

1回答

SDL不知道Iphone音频设备？

、、

感谢您阅读我的问题。我将SDL用于视频流Iphone App。我像这样初始化SDL。 if(SDL_Init(SDL_INIT_VIDEO | SDL_INIT_AUDIO | SDL_INIT_TIMER)) { fprintf(stderr, "Could not initialize SDL - %s\n", SDL_GetError()); exit(1); } 但我总是收到相同的错误信息。 Could not initialize SDL - No available audio device 我使用SDL-1.3.0-5605。 SDL似乎无法识

浏览 0提问于2011-10-30得票数 0

回答已采纳

2回答

当通过Ajax加载内容时，WORDPRESS音频播放器没有加载，MediaElement.js没有应用

、、、

我正在创作一个wordpress主题。当我使用ajax加载内容时，它不会将MediaElements.js应用于我的音频播放器，因此音频不会显示。我认为这是因为MediaElement.js加载了wp- for ()，这个新的音频随后被添加到DOM中，并且它不为MediaElement.js所识别。当地的视频也是如此。我怎么解决这个问题？

浏览 17提问于2016-01-20得票数 2

回答已采纳

1回答

如何区分音频URL和视频URL？

、、、

我有一些用于播放内容的URL，但我必须识别给定的URL是否包含视频或音频。我该怎么做呢？

浏览 0提问于2010-11-11得票数 0

回答已采纳

1回答

Watson在识别“音频/wav”时忽略不活动超时

、、、、

我尝试使用Watson Speech to Text服务实现语音识别。我用"MediaStreamRecorder“库用javascript写了一些代码。我通过Websocket发送数据，得到这个问题:如果我使用"content-type"：“音频/wav”，Watson只识别第一个blob，并将inactivity_timeout设置为默认值，而我将其设置为2秒。我使用以下代码打开websocket： initWebSocket(startRecordingCallback) { var that = this; that.websocket = n

浏览 1提问于2016-08-16得票数 2

1回答

用spech_recognition写系统音频

、、、、

我正在尝试使用pythonspeech_recognition从系统音频获取一个输入，然后将其打印为输出。不幸的是，我在设备列表上遇到了一些问题。事实上，speech_recognition似乎只识别麦克风作为输入设备。我的想法如下:我非常缓慢地记录重要视频中心的笔记，所以我希望让Python为我写下它们，这样我就可以赶上丢失的片段了。你觉得有可能吗？多么? 到目前为止，这是我的代码： import pyaudio import speech_recognition as sr r=sr.Recognizer() r.energy_threshold=4000 for index, na

浏览 5提问于2021-03-21得票数 0

1回答

如何在swift中制作音频播放器？

、

我做了音频播放器。我实现了播放列表和播放音频背景的功能。我需要识别在后台播放的音频。首先创建音频播放器对象，如下所示： var mp3Player:AVAudioPlayer?=AVAudioPlayer() var firstLoad=true var playingType_Index=0 var speedType_Index=0 当我点击列表中的音频时，我会将点击的音频放入我的selectedAudio let audios=[ [ "image":UIImage.fontAwesomeIconWithName(.Headphones, tex

浏览 3提问于2016-08-11得票数 0

1回答

ACRCloud音乐识别SDK的不可读离线数据库文件

、、、、

请帮帮忙，我正在使用ACRCloud的音乐识别iOS SDK在电影院，如沙扎姆离线识别。上传音频文件并下载脱机DB文件后，我得到了以下错误： {“status”:{“msg”:”init error: Offline DB files are unreadable!”,”version”:1.0”,”code”:2001}} 我怎么能解决这个问题，我是初学者

浏览 5提问于2015-12-01得票数 0

回答已采纳

3回答

基于音频流Python的Google流语音识别

、、、

我搜索了Google的所有可用文档，但我找不到Python中的音频流上的流式语音识别示例。目前，我在Django中使用Python的语音识别来获取用户的音频，然后收听音频。然后，我可以保存该文件并运行google speech recognition，或者直接从创建的音频实例运行。有人能指导我如何对音频流执行流语音识别吗？

浏览 13提问于2017-05-21得票数 10

2回答

在Python2.7.5中使用os.path.getsize()获取文件大小

、、

我是python的新手。我正在尝试使用os.path.getsize()来获取文件大小。但是，如果文件名不是英语，而是中文、Gemany或法语等，Python将无法识别它，并且不会返回文件的大小。你能帮我搬一下吗？如何让Python识别文件名并返回这类文件的大小？例如:文件名为:Показателиестественногоимиграционногоприростадо2030г.doc Path=“C：\xxxx\Показателиестественногоимиграционногоприростадо2030г.doc” 我想用“os.path.getsize(path)” 但是它

浏览 2提问于2013-07-02得票数 0

2回答

MS SpeechRecognitionEngine录制基础音频

我正在使用微软的System.Speech SpeechRecognitionEngine进行口述，我需要能够记录所有正在处理的音频，同时对其执行语音识别。现在，我可以很好地进行语音识别，并且可以获得所识别内容的音频。但是，我需要能够同时保存音频流，以便以后可以使用语音识别中的元数据从整个音频流中获取附加信息。这样做的适当方法是什么？

浏览 0提问于2013-08-02得票数 3

1回答

SpeechRecognitionEngine口语和录音不匹配

、、

我正在使用SpeechRecognitionEngine来识别用户正在使用的信息。该方法将在客户端的计算机上运行，它工作得很好，几乎可以像我想要的那样识别文本。所以我很高兴。但是，我希望能够对我的服务器上的wave文件进行一些处理。现在，我正在本地机器上进行测试，当我在识别器上使用SetInputToWaveFile方法时，并将相同的音频剪辑传回(最初由引擎记录的音频剪辑)，它不会给出任何接近原始匹配(或交替)的内容。例如:用户说话，识别器返回短语：“你好，你今天怎么样”与10个候补。Wave文件被保存，然后通过使用SetInputToWaveFile (或SetInputToAudioS

浏览 5提问于2013-10-21得票数 1

回答已采纳

1回答

ORC图片识别使用PHP的SDK 返回不了图片内的文字？

使用PHP的SDK识别图片内的文字，怎么返回不了图片内的文字呢？ [图片]

浏览 437提问于2018-02-27

1回答

Ubuntu 12.04的GT-100老板

我希望使用BOSS GT-100在Ubuntu12.04中录制一些声音。当我通过usb连接这个设备并打开它时，我在lsusb中看到它，但是它似乎不被识别为一个音频设备。我遵循了以下说明：Linux上的头GT-100，但它仍然没有被识别。我该怎么办？

浏览 0提问于2012-07-13得票数 2

1回答

缺少反斜杠？- JScript或VBScript

、、

正在尝试编写下面给出的windows语音识别macro.Code。执行时，播放器返回"D:MusikMedia\Song1.mp3 not found“。也就是说，消除了反斜杠。我尝试在oShell.run中给出带有参数本身的路径，但返回了相同的错误。但是，正如您所看到的，音频文件名称前面的斜杠被保留下来。文件名中也保留了空格，尽管我不知道它是否与路径相同。不管怎样，我能让它正常工作吗？或者你能告诉我在VBScript中是怎么做的吗？此外，还有一个奇怪的问题，如果程序安装在system32文件夹上，或者安装在驱动器(而不是驱动器内的文件夹)上，比如D:\KMPlayer.exe或E:

浏览 2提问于2011-10-30得票数 0

回答已采纳

2回答

如何获取.wav文件格式的numpy数组输出

、、

我是Python的新手，我正在尝试训练我的音频语音识别模型。我想读取一个.wav文件，并将该.wav文件的输出放入Numpy数组中。我该怎么做呢？

浏览 2提问于2019-01-14得票数 0

1回答

Speech Recognizer return只监听音频的开头

、

我正在使用Python的SpeechRecognition从音频文件中提取文本。我的问题是，它只在剪辑的很短的几秒钟内起作用。这是我的代码： import speech_recognition as spr AUDIO_FILE = "file.wav" recognizer = spr.Recognizer() with spr.AudioFile(AUDIO_FILE) as source: recognizer.adjust_for_ambient_noise(source, duration=0.2) audio = recognizer.r

浏览 10提问于2020-12-20得票数 0

1回答

如何将mfcc向量与标注标签相结合，传递给神经网络

、、、、

使用librosa，我为音频文件创建了mfcc，如下所示： import librosa y, sr = librosa.load('myfile.wav') print y print sr mfcc=librosa.feature.mfcc(y=y, sr=sr) 我还有一个文本文件，它包含与音频对应的手动注解、停止、标记，如下所示： 0.0 2.0 sound1 2.04.0 sound2 4.0 . 6.0沉默 6.08.0 sound1 问:如何将由librosa生成的mfcc与文本文件中的注释结合起来。最终的目标是，我想将mfcc与标签相结合，并传递。一

浏览 0提问于2018-01-22得票数 4

回答已采纳

1回答

如何提取与给定音频剪辑对应的视频部分？

、、、、

我有一个视频剪辑，还有一个音频剪辑。如何将视频剪辑剪裁到音频剪辑中提取的部分？我认为解决办法将包括： <03:05,09:55>);Trim 自动识别视频剪辑中音频剪辑的一对起始位置和结束位置(例如，将视频从识别的起始位置识别到识别的端点(这很容易)。

浏览 5提问于2012-01-19得票数 4

1回答

Google语音API流媒体音频超过1分钟

、、、

我希望能够从电话音频流中提取出一个人的声音。电话音频被路由到我的服务器，然后创建一个流识别请求。我怎么知道一个词是作为一个完整的话语的一部分而存在的，还是一个正在被转录的话语的一部分？我应该比较单词之间的时间戳吗？即使在流电话音频中有一段时间没有语音，API会继续返回临时结果吗？我如何才能超过1分钟的流媒体音频限制？

浏览 1提问于2018-09-04得票数 0

回答已采纳

1回答

在android中连接蓝牙耳机后，如何在内置麦克风和耳机麦克风之间切换音频输入？

、、、

我正在使用一个语音识别应用程序。在蓝牙耳机成功连接到我的android设备后，我想在内置麦克风和耳机麦克风之间自由切换音频输入，该怎么做？

浏览 10提问于2017-03-14得票数 0

1回答

使用Sphinx4将话语保存到音频文件

、

我正在使用Sphinx4执行带有语法的语音识别，但出于另一个目的，我想将其保存为用户在没有语法的情况下所说的音频文件。基本上，用户说了些什么，当它处于静默状态时，就会创建一个音频文件，我想知道是否可以重用Sphinx4系统来执行此操作。如果是，我该怎么做？

浏览 6提问于2014-04-19得票数 1

1回答

Pocketsphinx -音频预处理是否必要/推荐？

、、、、

我正在使用pocketsphinx进行语音识别，使用西班牙语声学模型和JSGF语法，到目前为止效果还不错。然而，我得到了错误的音频识别结果，至少在我的耳朵看来是完全可以理解的(没有太多的背景噪声，采样频率和根据声学模型参数的比特深度等)。此外，这些没有正确识别的音频似乎与正确识别的音频没有太大区别(事实上，对我来说，它们听起来几乎是一样的)。所以，我猜音频中有一些东西使它更难识别，也许是一些噪声频率或其他需要过滤的东西？(背景噪声、语音的“流行”声音、人声频带以外的频率等) 简而言之，您是否知道pocketsphinx是否已经做了这样的事情，如果没有，您是否知道可以应用于音频文件的最佳实

浏览 3提问于2016-06-20得票数 0

1回答

android语音输入识别器中的音频预处理

、、

我正在做一些基本的命令识别，并使用Google Search Input API。然而，我想自己捕获音频，预处理音频(去噪，提高振幅等)，发送这些修改后的音频到识别器并获得结果。有可能吗？我知道你可以通过onBufferReceived方法同时使用SpeechRecognizer和RecognitionListener来获取音频。然而，我想做的是预处理而不是后处理。有没有什么变通方法/破解方法来将处理后的数据提供给google识别器？

浏览 0提问于2012-05-13得票数 0

回答已采纳

1回答

快速-如何将保存的音频文件会话转换为文本？

、、、、

我负责语音识别。我使用IOS框架解决文本到语音和语音到文本的问题。但是现在我想把保存下来的音频文件对话转换成文本。我怎么才能解决这个问题？谢谢你的回复。

浏览 0提问于2018-03-23得票数 8

回答已采纳

2回答

Rails:如何在active_admin中显示has_many关系中的名称而不是ID或地址？

、

这些天我使用active_admin来管理我的数据。我有一个音频模型和一个问题模型。音频有很多问题，问题属于音频。我使用active_admin来制造问题。但在问题的新页面中，有一个下拉列表显示了如下内容： #<Audio:0xb4116084> 有了这个地址，我几乎不能识别我想要哪个文件。我想在Audio的下拉列表中显示的是Audio的标题，它是Audio模型的一列。我只想在新页面中更改此列，而其他列保持不变。我该怎么办？谢谢!

浏览 0提问于2013-07-06得票数 2

回答已采纳

2回答

无网际声带触发识别

、、、、

手持设备上的语音识别通常由按下按钮来触发。我该怎么做才能触发语音识别呢？我的基于Raspberry PI的设备故意没有任何用户能够手动交互的东西--只有一个麦克风挂在墙上。我正在尝试实现一种方法，让它理解一个简单的触发器命令，该命令将启动一系列操作。简而言之，每当.sh脚本“听到”音频触发器时，我就想运行它。我不想让它理解任何其他东西，只是一个触发器--没有必要从触发器本身解码的意思--比如脚本或参数的名称。一个非常简单的函数--“听触发器->执行.sh脚本” 我探索了不同的选择：不断地将音频流发送到google语音识别服务--这不是一个好主意--浪费了太多的流量和资源。让

浏览 4提问于2013-02-07得票数 3

回答已采纳

1回答

音频接口驱动程序与Ubuntu不兼容。突然停止工作

在Ubuntu运行了过去一天之后，我重新启动了我的计算机。我刚刚重新启动，现在没有音频了，它也不再识别我的扬声器了我有一个Behringer404 10，音频驱动程序不在Ubuntu或Linux中，它们只在windows 10中工作。我不知道怎么解决这个问题当我安装Ubuntu时，我单击了安装第三方软件选项。然后，当我配置Ubuntu时，我执行了自动删除命令，我想知道它是否删除了音频驱动程序我是Ubuntu和LInux的新手

浏览 0提问于2021-08-13得票数 0

3回答

使用元数据唯一标识文件

、、、、

Hello需要知道如何识别设备存储中的音频文件，问题如下：我正在开发一个音乐播放器，并将一些回放数据存储在数据库中，这些数据分别附加到每个音频文件中，应用程序不时检查用户音频库中的更改(在sdcard或内部内存中)，并在数据库中插入新歌(如果有的话)，问题是我无法识别数据库是否已经存在，因为我无法获得公共标识符。我试图在存储中使用音乐路径，但在某些情况下，音乐名称禁止在sqlite中使用阻止我使用的字符，所以问题是：如何识别音频文件？ EDIT1: 我想我的问题不是很清楚，我想要的是一种单独识别每个音频文件的方法，例如使用文件中的一些元数据，这些元数据是它特有的，不能被重复，比如文件的创建

浏览 1提问于2018-05-06得票数 2

1回答

使用Skype调用的MemoryStream在C#中使用SAPI5.4或MS Speech SDK v11进行语音识别

、、、

我正在尝试让SAPI5.4(也是MS Speech Platform Skype )对来自v11呼叫的音频执行连续语音识别。我可以使用SKYPE4COMLib获取从Skype传入的音频，并通过发出ALTER CALL指令将其推送到TCP端口。您可以将Skype音频定向到文件或TCP套接字。文件运行正常，但我想让它实时运行recognition，所以使用TCP套接字。然后，我构建了一个TCP侦听器来收集传入的数据(音频原始格式)，并将字节数组作为MemoryStream传递给SAPI。我已经设置SAPI，以期望在16位，16 the，单声道，PCM格式的原始音频。然而，识别事件永远不会发生？

浏览 2提问于2012-09-10得票数 5

3回答

是否有可能将实时数据发送到Bing语音识别？

、、、

我正在编写一个应用程序，它应该接收音频，并将它发送到Bing识别API以获取文本。我使用了服务库，它与wav文件一起工作。因此，我编写了自己的流类，以接收来自麦克风或网络(RTP)的音频，并将其发送到识别API。当我在音频流前面添加一个WAV头时，它会工作几秒钟。调试表明，识别api读取表单流的速度比由音频源填充的速度快(16k采样，16位，mono)。因此，我的问题是:是否有一种方法来使用实时(连续)音频流的识别api？我知道有一个例子的麦克风客户端，但它只适用于麦克风，我需要它的不同来源。

浏览 1提问于2016-12-12得票数 4

回答已采纳

1回答

Python SpeechRecognition不能听完整的音频吗？

、、、

我只是想简单地使用python SpeechRecognition从音频文件中获取文字记录。似乎无论我设置什么pause_threshold，或者持续时间或其他什么，它总是给我相同的精确输出，大约80秒音频中的30秒，然后它就会中断。 import speech_recognition as sr import moviepy.editor as mp clip = mp.VideoFileClip(r"recording2.webm") clip.audio.write_audiofile(r"converted.wav") r = sr.Recog

浏览 48提问于2021-11-09得票数 0

1回答

设置Microsoft Bing语音识别中的问题

、、、

我正在尝试使用微软的必应语音识别服务库。必须在带有参数的cmd中给出以下命令。但是我不知道我应该以何种格式输入这个命令。我哪儿都找不到。有人能帮我吗？我应该指定一个现有的音频WAV文件吗？应该给出这条路吗？什么是“音频场所”？使用以下参数运行SpeechClientSample.exe： Arg[0]：指定输入音频WAV文件。 Arg[1]：指定音频区域设置。 Arg[2]：指定识别模式：ShortPhrase模式的缩写，LongDictation模式的Long。 Arg[3]：指定要访问语音识别服务的订阅密钥。见。

浏览 0提问于2017-11-23得票数 0

1回答

能否向Azure说话人识别API发送实时数据？

、、、、

我正在写一个与声音有关的项目。我正在开发一个功能来实时区分人们的声音。我使用Microsoft说话人识别API来区分人们的声音。根据API指南，我必须上传一个WAV文件来接收音频并区分声音中的用户。然而，我需要使用实时音频流来区分用户的声音. 因此，我的问题是:如何使用实时音频流来实现说话人识别？我可以使用Azure扬声器识别API获得实时音频，它只需要WAV文件？或者，除了这个API，还有其他的方法吗？

浏览 4提问于2018-01-14得票数 1

1回答

ROS pocketsphinx + gstreamer将话语录制为wav文件

、、

我在一个对话系统上工作，我需要得到两个ASR结果以及相应的音频文件作为输入。我在Ubuntu14.04上使用ROS indigo，并编辑recognizer.py ()，以便接收来自ASR的文本和每个可识别话语的音频文件。我将gst管道更改为： self.launch_config += " ! audioconvert ! audioresample ! tee name=t ! queue ! audioresample " \ + '! vader name=vad auto-threshold=true

浏览 2提问于2015-03-03得票数 1