OpenAI再开源：用语音开站会的Realtime Demo

Ai学习的老章

发布于 2026-05-14 18:36:31

1000

文章被收录于专栏：机器学习与统计学机器学习与统计学

大家好，我是 Ai 学习的老章

OpenAI 又开源了一个项目，叫 openai-realtime-meeting-assistant

第一眼看到这个名字我以为又是个会议纪要工具，点进去发现完全不是

这是个用语音操作 Kanban 看板的 demo——一群人开会，对着麦克风说话，看板上的卡片自己动

OpenAI 用它来演示 Realtime API + WebRTC + function calling 怎么组合出一个多人语音 Agent

它到底是什么

技术栈很硬核：

后端：Go 语言
WebRTC：Pion WebRTC 库
音频编解码：Opus
WebSocket：Gorilla
AI 接入：OpenAI Realtime API（WebRTC 集成方式）
触发 Kanban 更新：function calling

工作流是这样的：

多个用户加入同一个 WebRTC 房间
服务器把所有参与者的音频混合（mix）
混合后的音频实时送给 OpenAI Realtime peer
模型听懂之后通过 function call 修改看板
看板变化广播给房间所有人

一句话：站会语音指挥

⚠️ 项目自己也明说了：没有内置鉴权，谁能访问 URL 谁就能进会议室——还是个 demo，别拿去生产

怎么跑起来

前置条件：Go 1.24 以上 + Opus 库（用 pkg-config 找）

# 1. 拿到 API Key
export OPENAI_API_KEY=<your_api_key>

# 2. 克隆
git clone https://github.com/openai/openai-realtime-meeting-assistant.git

# 3. macOS 装依赖
brew install opus pkg-config

# 4. 跑
go run .

默认监听 http://localhost:3000，要换端口：

go run . -addr :8080

注意它不读 .env 文件，只读环境变量

演示流程

启动后，看板里会预置一些 WebRTC 相关的卡片

打开浏览器，点 Join room，允许摄像头麦克风，然后对着麦克风说人话就行

官方给的几个示例：

"I started the ICE restart handling ticket"（我开始做 ICE 重启了）
"The DTLS cleanup work is blocked on a transport shutdown issue"（DTLS 清理被卡住了）
"We shipped the RTP HEVC packetizer"（HEVC 打包器发版了）
"Create a ticket to add subscription controls for simulcast forwarding"（建一个新卡片）
"Add the bandwidth tag to the simulcast card"（给卡片加标签）
"Delete the packet retransmission buffer ticket"（删卡片）

讲完之后看板自动更新，房间里所有人同步看到

⚠️ 戴耳机或者把音量调小——背景音会被算进会议混音里，可能被当成新指令

为什么这个 demo 值得看

老实说，Kanban 不是重点，重点是它示范了三件事：

第一，Realtime API 真的能多人用

之前 Realtime 的 demo 基本是一对一，这个项目把多个参与者的音频在服务器端 mix 成一路再喂给模型，给「会议场景接入大模型」铺了路

第二，function calling 在 Realtime 里也能用

不是只能聊天，是真的可以让语音流触发结构化的 action——这是 Voice Agent 的核心模式

第三，Go + WebRTC + Realtime 全栈代码全开源

很多想做语音 Agent 的同学卡在 WebRTC 那一层，这个 repo 直接把 Pion + Opus + Realtime 的胶水代码给你了，照着改就能做行业版

适合谁

想做会议机器人的：把 Kanban 换成你的业务对象，加个鉴权就能上
想做语音操控工具的：参考 function call 的接法
想学WebRTC 实战的：这是少见的「混音 + 转发 + AI 接入」全栈示例

不适合谁：

想拿来直接当产品的（没鉴权）
想要一键部署的（要自己装 Go、Opus、配 Key）
想要中文/多语种特化的（demo 没做语言路由）

总结

OpenAI 这次开源比起放新模型更像放教材——把多人语音 + Realtime + function calling 这条链路完整跑通，给开发者一个能改、能学、能拆的样板

对想入局语音 Agent 的人来说，这玩意儿值 100 个抽象文档

项目地址：github.com/openai/openai-realtime-meeting-assistant

#OpenAI #开源 #Realtime #WebRTC #语音Agent

制作不易，如果这篇文章觉得对你有用，可否点个关注。给我个三连击：点赞、转发和在看。若可以再给我加个🌟，谢谢你看我的文章，我们下篇再见！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

模型

本文分享自机器学习与统计学微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度