首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >面壁智能CEO、TVP李大海:告别“对讲机模式”,我们把AI交互从头做了一遍

面壁智能CEO、TVP李大海:告别“对讲机模式”,我们把AI交互从头做了一遍

作者头像
小腾资讯君
发布2026-02-07 13:28:32
发布2026-02-07 13:28:32
1960
举报

2月4日,面壁智能发布新一代全模态大模型MiniCPM-o 4.5,并已在GitHub、Hugging Face 等平台开源。

MiniCPM-o 4.5仍延续了面壁智能在端侧布局上“小而精”的基因,模型规模上参数量控制在9B,适合端侧部署和端云协同使用。

面壁智能CEO李大海表示:“MiniCPM-o 4.5很像一个持续感知环境的智能助手,是行业首个全双工全模态大模型”。简单来说,当这个模型在回答用户问题时,它的“眼睛”和“耳朵”并没有关闭,可以持续接收来自摄像头的画面、麦克风的声音,以及文字输入。一旦环境中出现了重要变化,模型能够立即感知并做出反应。

近两年,随着多模态与实时交互成为大模型演进中的重要方向,语音、视觉与文本融合逐步成熟,大模型开始被要求在更复杂、更连续的场景中运行,“全双工”能力也由此进入产业视野。

目前市面上已经出现了不少支持实时语音交互的AI产品,但这类产品大多采用的是工程化方案:通过VAD(语音活动检测)等外部工具来判断用户是否停止说话,一旦检测到语音活动结束,系统才开始处理并生成回复。虽然整体体验已比传统“一问一答”流畅不少。但在实际运行中,AI在输出内容时往往处于“专注说话”的状态,视觉和听觉输入并未持续参与判断。

MiniCPM-o 4.5强调的是“原生全双工能力”。模型在架构层面被设计为在输出的同时持续感知输入,视觉与听觉通道始终保持开启状态,可以在和用户交互的时候实现“边看边听边说”。

在当前算力条件以及网络时延、稳定性和隐私等现实约束下,这类“原生全双工能力”更倾向于通过端侧或端云协同方式实现,更适合端侧的使用场景。李大海说:“这种全模态需要低延迟、强伴随和全天候感知,端侧既能在断网环境稳定运行,又能最大限度保护个人隐私;同时,它也是多模态走向更类人、个人化智能的必由路径”。

在大模型发布的同时,面壁智能也披露了其首款AI硬件产品松果派(Pinea Pi)的相关规划。

松果派是一款面向端侧场景的AI原生智能开发板,用于端侧多模态模型与智能硬件应用的开发与验证。按照规划,松果派将优先支持离线多模态个人知识助理、具身智能以及编程与教学等场景,覆盖从模型运行到应用开发的完整流程。面壁智能表示,松果派预计年中正式量产上市。

从开源模型到硬件的同步推进,这种“软硬结合”的策略,也为面壁智能搭建了一个从算法到应用的快速验证通道。

那么,全新大模型依托的“全双工交互”在底层设计上究竟有哪些不同?还能给哪些场景带来实质改变?在云端模型已经足够强大和竞争激烈的今天,面壁智能押注的端侧AI还有多大的想象空间?围绕这些问题,面壁智能CEO李大海给出了进一步的解读。

以下为面壁智能CEO李大海的QA问答内容,在不改变原意的情况下有所优化:

01  

“原生全双工全模态”的难点与挑战

问:MiniCPM-o 4.5依托的“原生全双工”技术,相较于市面上常见的实时交互,有哪些核心差异?

李大海:市面上很多模型依赖外部VAD工具来判断何时说话,但这种方式在嘈杂或多人场景下容易误判,还必须等待固定的静默时长,带来不必要的延迟。

面壁智能的做法是让主模型基于语义自行判断是否进入说话状态,从底层实现真正的全双工交互:边听边看边理解,随时可打断、随时可接话,减少误触发与等待,让对话更自然、更低延迟。

这里的性能提升集中体现在交互机制、多模态感知能力以及端侧适配性三个方面:

首先,采用了实时流式全模态交互,支持全双工通信。模型在用户说话的同时,就开始处理和回应,不必等待完整的语音输入结束,降低了对话延迟。

其次,感知能力增强,除了识别人声以外,MiniCPM-o 4.5还可以分辨门铃、家电提示音等环境声音,并根据这些信息做出反应。在运行时可以同时处理视觉、音频等多种输入,在特定情况下会主动提醒用户。

在语音生成方面,通过端到端架构改进了语音输出的音色、韵律和稳定性。支持在推理时引入参考音频来控制输出的语音特征。

由于原生全双工和持续感知对响应时延、稳定性以及隐私处理提出了更高要求,在实际落地过程中,这类能力往往需要由端侧或端云协同来分担部分实时感知与快速判断,而不完全依赖云端实现。

问:全双工能力对模型架构提出了哪些新要求和挑战?

李大海:这里需要将文本、语音和视觉等多种能力融合到同一个模型中,本身难度很高。不同模态的学习方式差异较大,如果处理不当,容易出现某一能力提升、另一能力受损的情况,尤其在端到端训练中,更难保持整体稳定。

团队在训练过程中更精细地控制不同阶段的学习重点,避免单一模态数据主导模型训练。最终,模型的文本能力不仅没有因多模态融合而下降,反而有所提升,语音和视觉能力也保持在较为稳定的水平。

问:这种全双工的全模态能力对端侧算力提出了很高的要求,在保持多通道并行处理的同时,如何控制算力消耗?

李大海:在推理层面,我们针对端侧场景,对推理框架进行了较大幅度的工程优化。基于llama.cpp-omni,我们重构并扩展了对全模态机制的支持,将原本依赖Python的推理路径,转为更贴近硬件的本地实现,从而显著降低推理开销,提高多模态并行处理时的效率和稳定性。

问:在实时语音交互中,延迟往往直接影响用户体验。面壁智能推出的全双工技术如何解决低延时的问题?

李大海:主要通过“三个方面”:

首先是原生全双工机制,模型无需依赖外部工具判断语音是否结束,可在用户尚未完全说完时提前开始理解与生成,从而减少等待时间。

其次是架构层面的优化,通过“大主干模型 + 轻量级语音生成模块”的设计,避免由完整9B模型直接生成高频语音token,降低计算开销并提升生成效率。

最后是在系统层面,对推理框架、交互链路以及生产环境中的网络与模型配置进行整体优化,以保障在真实场景下的稳定性和实时响应能力。

问:MiniCPM-o 4.5模型在原生训练中可支持约一分钟左右窗口的上下文,这其中还有哪些难点需要解决?

李大海:如果要实现真正的全天候陪伴,还需要在两方面继续突破:一是基础设施支持更长原生上下文与更稳定推理,二是模型机制本身进一步增强长期记忆与连续交互能力。

02

“原生全双工全模态”的应用场景

问:MiniCPM-o 4.5主要适用于哪些场景,能否举几个具体场景的例子

李大海:我们把MiniCPM-o 4.5当成一个全模态基础模型来做,在研发阶段优先关注的是整体能力提升与泛化能力。基模不是为了某一个单一场景训一个模型,而是通过技术驱动把模型能力做强,从而一次性打开一批场景。

比如一些个人助手与伴随式服务场景,模型能够在较长时间内保持在线运行,支持连续交互和上下文理解。

还有在一些具身机器人应用中,模型作为感知与决策模块的一部分,识别环境中的多类声音信息,为更自然的人机交互提供支持。在具身智能的发展中,目前硬件体系方面已相对成熟,而“大脑”能力仍是主要瓶颈。一旦突破将带来产业级跃迁,这也是我们要重点投入的方向。

在智能座舱场景中,模型可在驾驶过程中协助感知周围环境,支持位置查找等操作,降低驾驶者分心的风险。手机潜力巨大,但约束最强,全模态节奏更慢。

问:MiniCPM-o 4.5主从技术演示到真正的商业化落地,中间还有哪些鸿沟需要跨越?

李大海:2025年可以算是“端侧AI”的元年,而2026年我们有望看到智能硬件的爆发。但从技术突破到规模化应用,中间仍需要多方面的成熟与协同。

一方面是端侧算力的持续提升。以汽车智能座舱为例,芯片算力正在从8295平台 (指高通面向智能座舱的车载计算平台)约40TOPS,提升到即将推出的8397平台约320TOPS,接近10倍增长。这类底层能力的进步一直在稳定发生,只是对普通用户而言不太直观。

另一方面是场景理解与产品化能力。真正的落地不仅是模型能跑,还需要深入理解用户需求,把技术打磨成稳定、可持续使用的产品形态。

总体来看,全双工等关键技术能力已经取得突破,但要实现大规模商业化,还需要在模型稳定性、上下文能力、基础设施优化以及产品体验等多个维度持续投入。这是一个需要技术、产品和生态长期协同推进的系统工程,而非一蹴而就。

问:OpenAI、谷歌等巨头也在做多模态和实时交互,面壁智能的差异化战略在哪里?面壁智能面对这样的竞争局势,有哪些自身优势?

李大海:从战略层面来说,主要在做三个方面:

首先,大模型的迭代非常快,没有大模型是处于“长期保鲜期”的。我们在持续提升大模型知识密度、不断推出更强的模型。

第二,商业化与生态同步推进。我们一边迭代模型、一边做落地,在云端和端侧都已有真实运行的产品,把技术优势转化为客户关系与品牌认知。

第三,Infra层面的极致化与产品化沉淀。在端侧受限算力、功耗、内存的条件下,把性能做到极致本身就是高门槛;同时,我们已在汽车等场景形成系统化的产品与智能体框架,通过这些场景合作进一步拉长领先窗口。

对于面壁智能本身来说,我们的优势体现在三个方面:

第一是人才优势。我们吸引的是具备创业精神、愿意挑战前沿问题的人才,并且拥有非常顶尖的科学家团队,已发表多篇 Nature 相关论文。这说明创业公司并不天然弱于大厂,关键在理念、起点和长期学术积累。

第二是决策速度与创新能力。面壁在云端取得阶段性成果后,仍能果断转向端侧,并持续深耕两年多,正是这一优势的体现。

第三是战略定力。AI是一个产业级机会,其中的诱惑很多,但我们选择聚焦一个方向长期投入。持续的技术积累与客户合作,已逐步构建起技术、产品、品牌和生态的综合优势。

从商业策略上看,我们不会与大厂打阵地战,这不是创业公司的最优选择。端侧市场本身是一片蓝海,即使在同一领域,客户需求也高度多样,空间足够大,能够容纳多家创业公司各自发展、形成差异化优势。

问:在不同应用场景下,大模型的“伴随态”策略是如何设计的,尤其是在与终端厂商的合作模式方面?

李大海: 面壁不仅提供模型能力,还会同步参与产品化设计,思考模型在具体场景中如何长期、稳定地发挥价值。最终交付的不是单一模型,而是可落地的整体解决方案。目前在汽车和手机等终端场景,我们都在按照这一模式与厂商深度协作。

问:目前哪种场景更容易落地?

李大海: 我们现在重点在推的就是手机和汽车两个方向。汽车领域会落地得更快一些。不管是手机还是汽车,我们都是在探索新一代的功能交互方式的升级。

在汽车上,我们现在在推各种各样的智能体,比如出行管理等功能。这些功能背后实际上是面壁的多模态模型能力,以及端侧模型与系统结合在一起的能力。

03

面壁智能的下一步

问: MiniCPM-o系列下一步的演进方向是什么?

李大海:接下来一两年,我们会快速见证模型的专业能力越来越强,它与世界的交互能力越来越强。也就是说,它作为一个智能体,会具备更强的自主学习能力。结合摩尔定律和密度法则,我们可以在未来三到五年见证,越来越多的智能终端上会具备更强的智能能力。

问:OpenClaw最近很火,如何看待这类探索?会影响面壁智能未来的技术路线选择吗?

李大海:OpenClaw的价值在于,让更多人看到“终端成为一个高度独立、具备生产力的智能体”的可能性。这一点本身非常有意义。但从能力形态上看,它更多仍停留在虚拟世界和工具世界的层面,例如围绕操作系统与软件工具的任务执行等。

面壁选择的路径不同:我们希望通过全模态端侧模型,让终端真正感知和理解现实世界,并在现实环境中自主行动。因此,这类项目不会改变我们的主线方向,就是给终端配置“大脑”,让它与现实世界互动,这是我们长期坚定的方向。

问:今年面壁智能重点投入的技术路线是什么?

李大海:我们会继续提升端侧多模态模型的能力,包括世界模型和计算机使用能力。

我们还会继续投入持续学习(CL)。2025年,行业已经形成共识:模型需要在推理过程中持续学习。我认为这个方向在端侧会更有价值,因为端侧模型与具体行业和真实场景的结合更紧密,持续学习的实际意义也更大。我们肯定会在这个方向上做创新,但要真正落地还需要时间。

问:松果派硬件的推出,在面壁智能的整体战略中扮演什么角色?未来有哪些规划?

李大海:我们推出松果派,是希望通过软硬一体的解决方案,让更多人能够更快地感受到模型能力,并把这些能力更高效地应用到不同场景中。

松果派本身也是在践行我们一直强调的“端侧原生模型”理念。过去我们发布的模型虽然是为端侧设计的,但缺少提前适配好的硬件,开发者往往还需要投入大量精力去完成适配工作。这一次,我们在发布模型的同时,就选定并完成了硬件适配,让开发者可以直接使用、快速上手。

松果派只是一个起点。我们希望未来能有更多硬件厂商和芯片厂商加入,使得我们后续发布的模型,能够在更多主流端侧芯片上实现高质量、低成本的适配。

问: 接下来面壁智能在合作与落地层面有哪些规划?

李大海:我们的方向不会改变,会越来越深入。比如在汽车这一核心场景中,我们的愿景是,让未来的每一台汽车都成为一个私有的、以车主为中心、具备安全保障的智能助理,就像专门为用户服务的 Jarvis(贾维斯,电影《钢铁侠》中的AI助手)。

当然,我们的应用场景不局限于智能座舱,会面向更广泛的端侧智能形态。

问:在端侧多模态、持续学习等能力逐步成熟的背景下,你如何判断未来AI硬件的主流形态?

李大海:从现实条件看,手机凭借性能、生态和普及度优势,在未来几年仍将是最重要的AI硬件载体。同时,可穿戴设备(如智能眼镜)等新形态正在加速发展,专用型AI设备也在不断探索中。

但我并不认为未来会由单一形态主导市场。更可能出现的是多种硬件形态长期并存:各自服务于不同场景与需求。这种多样化演进,更符合真实世界复杂、分层的使用方式。

问:在端侧AI即将迎来应用爆发之前,你认为哪些能力和环节还需要继续突破?

李大海:从去年下半年开始,大模型在文本和编程等领域的可用性已经非常成熟,例如在编码(coding)场景中已经成为高频工具。

但在非文本AI领域,包括感知、行动、多模态交互等方面,我们认为仍未达到理想状态。这正是我们重点投入的方向,也是真正能够推动端侧AI走向成熟应用的关键环节。我们非常期待在未来一两年内,看到这些能力从“展示型”走向“规模化可用”。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01  
  • “原生全双工全模态”的难点与挑战
  • 02
  • “原生全双工全模态”的应用场景
  • 03
  • 面壁智能的下一步
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档