基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

git clone firc-dataset

发布于 2025-07-21 12:23:32

1.3K0

【框架地址】

https://github.com/modelscope/FunASR

【简单介绍】

FunASR是一个功能全面的语音识别工具包，支持多种预训练模型的推理和微调，提供高精度和高效能的语音识别服务。结合PyAudio库，可以实现电脑本地麦克风实时语音识别项目。

该项目首先通过PyAudio库捕获麦克风输入的音频数据，PyAudio是一个跨平台的音频I/O库，可以方便地访问麦克风等音频设备。捕获的音频数据经过预处理，包括降噪、去除回声等，以提高识别准确率。

随后，使用FunASR中的实时语音识别模型（如Paraformer-zh-streaming）对预处理后的音频数据进行处理。这些模型能够实时地将音频数据转换为文本信息，支持中文等多语言识别。

在识别过程中，FunASR还提供了语音端点检测（VAD）功能，自动检测语音片段的开始和结束，以提高识别效率。同时，还可以添加标点恢复（PR）功能，为识别结果添加标点符号，提升可读性。

最终，识别结果会实时显示在界面上，用户可以通过界面实时查看和编辑识别结果。整个项目流程简洁高效，为实时语音识别应用提供了有力支持。

【测试环境】

anaconda3+python3.9

torch==2.0.1+cu117

funasr==1.1.4

modelscope==1.16.1

PyAudio ==0.2.14

【调用代码】

from FunasrManager import *
fm = FunasrManager()
fm.start()
while True:
    time.sleep(0.2)

【视频演示】

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现_哔哩哔哩_bilibili

【源码下载】

https://download.csdn.net/download/FL1623863129/89593855

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2024-12-17，如有侵权请联系 cloudcommunity@tencent.com 删除

语音识别

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐