
大家好,我是 Ai 学习的老章
OpenAI 又开源了一个项目,叫 openai-realtime-meeting-assistant
第一眼看到这个名字我以为又是个会议纪要工具,点进去发现完全不是
这是个用语音操作 Kanban 看板的 demo——一群人开会,对着麦克风说话,看板上的卡片自己动
OpenAI 用它来演示 Realtime API + WebRTC + function calling 怎么组合出一个多人语音 Agent

技术栈很硬核:
工作流是这样的:
一句话:站会语音指挥
⚠️ 项目自己也明说了:没有内置鉴权,谁能访问 URL 谁就能进会议室——还是个 demo,别拿去生产
前置条件:Go 1.24 以上 + Opus 库(用 pkg-config 找)
# 1. 拿到 API Key
export OPENAI_API_KEY=<your_api_key>
# 2. 克隆
git clone https://github.com/openai/openai-realtime-meeting-assistant.git
# 3. macOS 装依赖
brew install opus pkg-config
# 4. 跑
go run .
默认监听 http://localhost:3000,要换端口:
go run . -addr :8080
注意它不读 .env 文件,只读环境变量

启动后,看板里会预置一些 WebRTC 相关的卡片
打开浏览器,点 Join room,允许摄像头麦克风,然后对着麦克风说人话就行
官方给的几个示例:
讲完之后看板自动更新,房间里所有人同步看到
⚠️ 戴耳机或者把音量调小——背景音会被算进会议混音里,可能被当成新指令
老实说,Kanban 不是重点,重点是它示范了三件事:
第一,Realtime API 真的能多人用
之前 Realtime 的 demo 基本是一对一,这个项目把多个参与者的音频在服务器端 mix 成一路再喂给模型,给「会议场景接入大模型」铺了路
第二,function calling 在 Realtime 里也能用
不是只能聊天,是真的可以让语音流触发结构化的 action——这是 Voice Agent 的核心模式
第三,Go + WebRTC + Realtime 全栈代码全开源
很多想做语音 Agent 的同学卡在 WebRTC 那一层,这个 repo 直接把 Pion + Opus + Realtime 的胶水代码给你了,照着改就能做行业版
不适合谁:
OpenAI 这次开源比起放新模型更像放教材——把多人语音 + Realtime + function calling 这条链路完整跑通,给开发者一个能改、能学、能拆的样板
对想入局语音 Agent 的人来说,这玩意儿值 100 个抽象文档
项目地址:github.com/openai/openai-realtime-meeting-assistant
#OpenAI #开源 #Realtime #WebRTC #语音Agent
制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!