
所有链路已经跑通,下面看下对话的效果,全成本地对话,可定制性很高,角色扮演,问问题,打发无聊时间,模仿女朋友对话都可以。教程和整合包已经制作完成,需要的可以留言【我也要一个女朋友】,详细的教程和报错排查,我们可以看情况建群交流。
本项目是一个基于本地大模型和语音合成模型的实时语音通话助手。它提供了一个仿“电话通话”的沉浸式 Web 界面,支持实时语音识别、大模型角色扮演对话以及高质量的语音回复。
## 1. 环境准备
### 硬件要求
-**GPU**: 推荐 NVIDIA 显卡,显存 8GB 以上(CosyVoice 默认启用 FP16 优化,5090 等高端显卡效果更佳)。
-**系统**: Windows 10/11 (推荐) 或 Linux。
-**麦克风**: 能够正常录音的设备。
### 第一步:启动后端服务
双击运行 **`start.bat`**。
* 等待控制台显示 `Uvicorn running on http://0.0.0.0:9880`,表示语音服务启动成功。
* *首次启动可能需要加载模型,耗时稍长。*
### 第二步:启动前端界面
双击运行 **`start_web_ui.bat`**。
* 系统会自动打开默认浏览器访问 `http://localhost:5500/index.html`。
* **推荐使用 Microsoft Edge 浏览器**以获得最稳定的语音识别体验。
### 第三步:开始通话
1. 在网页上,点击底部的绿色 **电话图标**。
2. 浏览器弹出麦克风权限请求时,点击 **“允许”**。
3. 看到状态变为 **“正在语音通话 - 我在听...”** 时,对着麦克风说话即可。
4. 系统会自动识别语音 -> 思考 -> 播放语音回复。