首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >使用Gemini 3 pro30分钟开发了一个实时对话御姐 没事骂我好几句

使用Gemini 3 pro30分钟开发了一个实时对话御姐 没事骂我好几句

作者头像
疯狂的KK
发布2025-12-24 15:14:36
发布2025-12-24 15:14:36
190
举报
文章被收录于专栏:Java项目实战Java项目实战

所有链路已经跑通,下面看下对话的效果,全成本地对话,可定制性很高,角色扮演,问问题,打发无聊时间,模仿女朋友对话都可以。教程和整合包已经制作完成,需要的可以留言【我也要一个女朋友】,详细的教程和报错排查,我们可以看情况建群交流。

本项目是一个基于本地大模型和语音合成模型的实时语音通话助手。它提供了一个仿“电话通话”的沉浸式 Web 界面,支持实时语音识别、大模型角色扮演对话以及高质量的语音回复。

## 1. 环境准备

### 硬件要求

-**GPU**: 推荐 NVIDIA 显卡,显存 8GB 以上(CosyVoice 默认启用 FP16 优化,5090 等高端显卡效果更佳)。

-**系统**: Windows 10/11 (推荐) 或 Linux。

-**麦克风**: 能够正常录音的设备。

### 第一步:启动后端服务

双击运行 **`start.bat`**

* 等待控制台显示 `Uvicorn running on http://0.0.0.0:9880`,表示语音服务启动成功。

* *首次启动可能需要加载模型,耗时稍长。*

### 第二步:启动前端界面

双击运行 **`start_web_ui.bat`**

* 系统会自动打开默认浏览器访问 `http://localhost:5500/index.html`。

* **推荐使用 Microsoft Edge 浏览器**以获得最稳定的语音识别体验。

### 第三步:开始通话

1. 在网页上,点击底部的绿色 **电话图标**

2. 浏览器弹出麦克风权限请求时,点击 **“允许”**

3. 看到状态变为 **“正在语音通话 - 我在听...”** 时,对着麦克风说话即可。

4. 系统会自动识别语音 -> 思考 -> 播放语音回复。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 赵KK日常技术记录 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档