中国智能座舱市场已经在关键拐点。
国内智能座舱渗透率突破73%,远超全球58%的平均水平。新能源乘用车渗透率接近90%,且每年以约11个百分点的速度增加。目前,智能座舱单车价值量或将达到传统座舱的3-5倍。
在此背景下,座舱语音交互的交锋时刻也已经到来。
Minimax发布人格化语音,最新语音模型“Speech-02”在国际权威语音评测榜单上超越了OpenAI和ElevenLabs,成为行业的焦点。
GPT-4.1发布,三个版本均支持高达 100 万 tokens 的上下文窗口,相比 GPT-4o 的 12.8 万 tokens 实现大幅提升。
据 Gartner 预测,2026 年 90% 的 GenAI 将嵌入对话式 AI 产品中以实现智能化。
技术进步不断刷新市场竞争格局,也对行业提出了新的挑战。
语音交互的“拟人化”需求日益凸显,用户不再满足于简单的语音指令执行,而是希望语音助手能够像人类一样理解和回应。同时,响应时长也成为关键指标,用户期望语音助手能够在瞬间做出反应,就像与真人对话一样自然流畅。
行业不得不正视一个事实,语音交互的竞争,本质是“人性化能力”的军备竞赛。
01
端侧模型逐渐成为趋势
去年起,语音交互开始进入AI时代,回望来之路,语音技术发展历经三个阶段:早期探索(20世纪90年代至2017年),以统计学习起步,2003年引入深度学习;Transformer架构阶段(2017年至2020年),2017年提出Transformer架构,2018年BERT和GPT-1等预训练模型出现;大规模预训练模型阶段(2020年至今),2020年OpenAI发布GPT-3,此后GPT-4等更先进模型不断涌现,具备多模态处理能力。
在大模型时代,使用LLMs取代意图识别、对话管理、对话生成等多个模块,让人机对话系统变得简单且更加强大。
目前,大语言模型在智能座舱中的应用方式主要有两种:云端运行和车端运行,这两种方式也各有优劣。
云端运行:便捷与风险并存
云端运行的大语言模型通过车载无线模块将语音数据传输到云端进行处理,再将结果返回车内。这种方式的优点是实现相对简单,汽车制造商可以选择自建云端服务器或租用云服务,从而减少车载系统的资源需求,降低车辆成本。
然而,云端运行也存在明显的缺点。在网络信号不佳或带宽受限的情况下,语音助手的响应速度会大幅下降,甚至可能出现无响应的情况。此外,云端处理用户语音数据还存在隐私和安全风险,这可能引发用户的担忧。
另外,云端大模型对于用户数据而言,更难沉淀。
车端运行:高性能与高成本的平衡
车端运行的大语言模型则利用车载中央计算平台的算力,在本地完成语音识别和语义理解。这种方式的优势在于减少了对网络的依赖,避免了因网络问题导致的延迟或中断,同时更好地保护了用户隐私。
然而,车端运行对车载计算平台的算力要求较高,需要高配置的计算芯片和高效的算法优化。此外,模型的更新和维护成本也较高,需要通过OTA技术进行定期升级。
尽管大语言模型的性能令人印象深刻,但将其部署在车端并非易事。以LLaMA模型为例,其推理过程包括输入数据、分词处理、词嵌入、位置编码、Transformer推理、自回归生成和输出处理等多个步骤。这些步骤需要强大的计算能力和存储空间支持。
例如,参数规模为7B的LLaMA模型,即使采用int4精度,也需要3.5GB的存储空间。如果要实现每秒30个Token的推理速度,DDR带宽需求将达到131GB/s。这不仅对车载芯片的性能提出了极高要求,也对系统的整体设计提出了挑战。
智能的本质不是大和小、端和云的差别,而是高知识密度和低知识密度的差别,端侧是最能体现并应用高知识密度的场景之一。
中国工业互联网研究院在今年年初发布的《人工智能大模型年度发展趋势报告》称,端侧大模型成为AI行业的新增长引擎。随着大模型压缩和量化技术的不断提升,知识密度持续增大,终端搭载的模型能力值逐步增强。
在这样的行业背景下,基于基座模型裁剪与端侧深度优化技术,艾拉比子公司艾博连推出新一代端侧语音大模型,实现语音交互全面AI升级,为智能座舱语音交互带来了新的解决方案。
02
艾博连领先的预处理流程和强大的TTS架构
艾博连端侧语音大模型基于基座模型裁剪开发,提供全场景稳定服务,确保在弱网和无网场景下的100%可用。基于端侧独有的数据沉淀,该模型可支持千人千面的个性化定制。
对于端侧较高成本的问题,艾博连将传统的三段式语音处理简化为两段式,并结合超拟人的TTS系统,艾博连显著降低了维护成本。
从关键指标来看,能够处理复杂的指令,如多意图模糊指令、组合指令以及连续对话。其识别率目标为99%,Token生成速度达到每秒100个,首次响应时间小于800毫秒,以用户感知不到的延迟,即刻响应。
数字的背后,艾博连拥有一套领先的预处理流程和强大的TTS架构。
预处理流水线最大的亮点在于三步一体、逐层解耦。
首先通过 SFT 微调的LLM,对人工标注语料学习停顿规律,在原始文本中智能插入停顿标签以更好地建模口语韵律;
随后在扩充至分词词典支撑下,将连续书写的文字流精准切分,为领域专有词提供稳健支持;
最后利用音素-声调注释库,结合规则+Transformer 混合式 G2P,把每个词映射成 IPA 音素序列。
该流水线不仅输出结构化的「音素-声调」序列,大幅降低后续声学模型学习难度,也为其他低资源音调语言提供了可复用的文本前端范式。
艾博连端侧语音大模型的另一大亮点是其超拟人化的TTS系统。
TTS 模型集成了「多源特征 × 声调感知 × 零样本克隆」的组合设计:
首先利用多语种预训练模型提取时长、音高、能量等强鲁棒特征,并以风格编码器压缩说话人/情感信息,为后续零样本克隆奠定基础;
其次,通过 Phoneme-Tone BERT 在音素序列中显式融入五声调,精准捕捉语义-韵律关联;
最后以 GAN 解码器直接从音素与预测特征合成波形,联合时域、频域与感知损失实现高保真、低延迟合成。
整体采取「先独立训练预测器,再与解码器联合微调」的策略,兼顾稳定性与音质,使模型达到 SOTA 表现并支持零样本声音克隆。
此外,该模型还支持超过100种国家语言,能够满足全球用户的需求。无论是中文、英文、日文、韩文,还是小语种如泰语、越南语等,艾博连的语音助手都能流畅地进行对话。这种多语言支持能力,为跨国车企提供了巨大的优势,能够快速推出适应不同市场的产品。
艾博连科技专注于智能座舱领域,已经与头部车企、一线Tier 1、头部大模型厂商以及互联网公司建立了业务合作。通过模块化接口,艾博连降低了车企的技术接入门槛,助力合作伙伴快速构建差异化竞争力。
我们认为,汽车的智能终端,移动属性决定端侧大模型是当下的生存必需,而不是技术选项。
ABUP