首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >OpenAI再开源:用语音开站会的Realtime Demo

OpenAI再开源:用语音开站会的Realtime Demo

作者头像
Ai学习的老章
发布2026-05-14 18:36:31
发布2026-05-14 18:36:31
1000
举报

大家好,我是 Ai 学习的老章

OpenAI 又开源了一个项目,叫 openai-realtime-meeting-assistant

第一眼看到这个名字我以为又是个会议纪要工具,点进去发现完全不是

这是个用语音操作 Kanban 看板的 demo——一群人开会,对着麦克风说话,看板上的卡片自己动

OpenAI 用它来演示 Realtime API + WebRTC + function calling 怎么组合出一个多人语音 Agent

Kanban 截图
Kanban 截图

它到底是什么

技术栈很硬核:

  • 后端:Go 语言
  • WebRTC:Pion WebRTC 库
  • 音频编解码:Opus
  • WebSocket:Gorilla
  • AI 接入:OpenAI Realtime API(WebRTC 集成方式)
  • 触发 Kanban 更新:function calling

工作流是这样的:

  1. 多个用户加入同一个 WebRTC 房间
  2. 服务器把所有参与者的音频混合(mix)
  3. 混合后的音频实时送给 OpenAI Realtime peer
  4. 模型听懂之后通过 function call 修改看板
  5. 看板变化广播给房间所有人

一句话:站会语音指挥

⚠️ 项目自己也明说了:没有内置鉴权,谁能访问 URL 谁就能进会议室——还是个 demo,别拿去生产

怎么跑起来

前置条件:Go 1.24 以上 + Opus 库(用 pkg-config 找)

代码语言:javascript
复制
# 1. 拿到 API Key
export OPENAI_API_KEY=<your_api_key>

# 2. 克隆
git clone https://github.com/openai/openai-realtime-meeting-assistant.git

# 3. macOS 装依赖
brew install opus pkg-config

# 4. 跑
go run .

默认监听 http://localhost:3000,要换端口:

代码语言:javascript
复制
go run . -addr :8080

注意它不读 .env 文件,只读环境变量

Realtime Meeting 流程
Realtime Meeting 流程

演示流程

启动后,看板里会预置一些 WebRTC 相关的卡片

打开浏览器,点 Join room,允许摄像头麦克风,然后对着麦克风说人话就行

官方给的几个示例:

  • "I started the ICE restart handling ticket"(我开始做 ICE 重启了)
  • "The DTLS cleanup work is blocked on a transport shutdown issue"(DTLS 清理被卡住了)
  • "We shipped the RTP HEVC packetizer"(HEVC 打包器发版了)
  • "Create a ticket to add subscription controls for simulcast forwarding"(建一个新卡片)
  • "Add the bandwidth tag to the simulcast card"(给卡片加标签)
  • "Delete the packet retransmission buffer ticket"(删卡片)

讲完之后看板自动更新,房间里所有人同步看到

⚠️ 戴耳机或者把音量调小——背景音会被算进会议混音里,可能被当成新指令

为什么这个 demo 值得看

老实说,Kanban 不是重点,重点是它示范了三件事:

第一,Realtime API 真的能多人用

之前 Realtime 的 demo 基本是一对一,这个项目把多个参与者的音频在服务器端 mix 成一路再喂给模型,给「会议场景接入大模型」铺了路

第二,function calling 在 Realtime 里也能用

不是只能聊天,是真的可以让语音流触发结构化的 action——这是 Voice Agent 的核心模式

第三,Go + WebRTC + Realtime 全栈代码全开源

很多想做语音 Agent 的同学卡在 WebRTC 那一层,这个 repo 直接把 Pion + Opus + Realtime 的胶水代码给你了,照着改就能做行业版

适合谁

  • 想做会议机器人的:把 Kanban 换成你的业务对象,加个鉴权就能上
  • 想做语音操控工具的:参考 function call 的接法
  • 想学WebRTC 实战的:这是少见的「混音 + 转发 + AI 接入」全栈示例

不适合谁:

  • 想拿来直接当产品的(没鉴权)
  • 想要一键部署的(要自己装 Go、Opus、配 Key)
  • 想要中文/多语种特化的(demo 没做语言路由)

总结

OpenAI 这次开源比起放新模型更像放教材——把多人语音 + Realtime + function calling 这条链路完整跑通,给开发者一个能改、能学、能拆的样板

对想入局语音 Agent 的人来说,这玩意儿值 100 个抽象文档

项目地址:github.com/openai/openai-realtime-meeting-assistant

#OpenAI #开源 #Realtime #WebRTC #语音Agent

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 它到底是什么
  • 怎么跑起来
  • 演示流程
  • 为什么这个 demo 值得看
  • 适合谁
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档