毫末首次揭秘 MANA 五大模型效果,感知架构迎来跨代升级
1 月 5 日,自动驾驶创企毫末智行在 HAOMO AI DAY 上,发布了技术、产品最新成果,并展望了 2023 年全球自动驾驶发展趋势。
“过去三年是毫末穿越创业生死线的关键期,但三年只是创业漫长旅程的开端。”毫末智行董事长张凯回顾表示。
毫末在乘用车领域产品高速迭代的背后,是毫末打造的产品能力迭代铁三角:即场景化用户体验设计、人工智能技术、技术工程化能力。基于此,MANA 已形成了数据智能驱动体系,它包含六大闭环:用户需求闭环、研发效能闭环、产品自完善闭环、数据积累闭环、数据价值闭环、业务工程化闭环。
用户需求闭环中,毫末已建立 5 大维度、264 类核心用户需求,日常可以从大量核心场景数据中提取核心问题;研发效能闭环则通过仿真工具提升研发效能。目前毫末仿真在研发中覆盖率超过 70%,研发效能较两年前提升 8 倍;产品自完善闭环,让毫末的产品自完善闭环率超过 70%,助力客户成功实现 7 次 OTA 在线升级;数据积累闭环中,毫末通过自研自动化数据采集、自动化数据标注工具,在 2022 年底数据成本降低 98%;数据价值闭环,全新车型复用开发只需 4 个月时间即达到量产落地状态,全新车型匹配标定 2 个月内匹配完成;业务工程化闭环,可以做到智驾产品 100%一次性过线率。
张凯在现场讲到,毫末数据智能驱动体系的六大闭环能力,助力客户的智能汽车快速规模化量产,为用户释放价值,使智能汽车的智能驾驶系统从用户尝鲜阶段过渡到用户依赖阶段。
“2023 年,智能驾驶下半场的竞争将进入加速期,高阶智能驾驶产品商业应用将迎来大规模落地。”基于这一基础判断,张凯从行业、技术、产品、人才等方面对 2023 年自动驾驶行业发展做出十大预测。
行业层面,2023 年自动驾驶将全面进入 3.0 时代;高级别智能驾驶将成为中端车型标配;全新一代芯片、传感器进入市场,自动驾驶生态呈现更丰富多样性。技术层面,大模型在数据合成、知识提取等方面的能力将助力自动驾驶迭代速度实现量级提升;自动驾驶系统比拼将由功能竞争转变为通勤效率竞争;超算中心会成为自动驾驶企业的入门配置。产品层面,城市导航辅助驾驶进入重感知阶段,大规模量产交付大幕拉开;智能驾驶的用户体验将从尝鲜转变为用户依赖;末端物流自动配送车整体成本降至 10 万元以内,将进一步改善生产关系。人才领域,张凯判断 AI 自动驾驶领域激烈的人才竞争将会延续到 2023 年。
张凯宣布了毫末 2023 年发展规划,毫末打响“2023 年四大战役”。最重头的是“智能驾驶装机量王者之战”,毫末将完成多平台、数十款车型、数十个项目的异步并行开发,通过智能驾驶流程化开发和标准化交付,进一步推进未来搭载毫末辅助驾驶产品的乘用车达百万量级的目标;其次是“MANA 大模型巅峰之战”,毫末将在智算中心助推下,将大模型的应用落地进行到底;第三场战役是“城市 NOH 百城大战”,毫末城市 NOH 将有序落地到国内 100 个城市,引领城市导航辅助驾驶的大规模量产落地;最后是“末端物流自动配送商业之战”,毫末将继续坚持 5S 合作服务模式,助力合作伙伴快速实现产品和解决方案落地,加速无人配送行业应用进程。
毫末智行宣布智算中心“雪湖·绿洲”(MANA OASIS)正式成立。MANA OASIS 是中国自动驾驶行业最大智算中心,由毫末智行与火山引擎联合打造,每秒浮点运算达 67 亿亿次,存储带宽每秒 2T,通信带宽每秒 800G。
毫末智行 CEO 顾维灏表示,“MANA OASIS 让毫末拥有了超级计算能力,数据、算力充沛,毫末的技术产品能力将更加强大。在‘MANA OASIS’加持下,毫末将冲刺进入自动驾驶 3.0 时代。”
火山引擎总裁谭待表示,“我们很荣幸与毫末智行一道在智算中心领域达成深度合作,共同推动自动驾驶智能训练平台跨越式发展,加速自动驾驶技术敏捷迭代和商业化落地。”
数据驱动是自动驾驶发展的方向与趋势,海量的产品数据、超大规模的数据训练、大模型的应用等,都对算力提出了更庞大的需求。基于火山引擎丰富的大数据积累和底层技术,MANA OASIS 实现的计算、存储、通讯能力,让数据更快速转化成知识,以实现将本增效的目的。
在数据管理能力方面,为充分发挥智算中心价值,让 GPU 持续饱和运行,毫末历经两年研发,建立了全套面向大规模训练的 Data Engine,实现了百 P 数据筛选速度提升 10 倍、百亿小文件随机读写延迟小于 500 微秒。在算力优化方面,毫末与火山引擎合作,部署了 Lego 高性能算子库、ByteCCL 通信优化能力、以及大模型训练框架。软硬一体,把算力优化到极致。在训练效率方面,基于 Sparse MoE,通过跨机共享,轻松完成千亿参数大模型训练,且百万个 Clips(毫末视频最小标注单位)训练成本只需百卡周级别,训练成本降低 100 倍。
MANA OASIS 基础能力展示
在 MANA OASIS 的加持下,毫末 MANA 五大模型全新升级:其中,视觉自监督大模型,实现 4D Clip 的自动标注;3D 重建大模型,用更低成本解决数据分布问题,提升感知效果;多模态互监督大模型,则可以完成通用障碍物的识别;动态环境大模型则进一步使用重感知技术,降低对高精地图依赖;人驾自监督认知大模型让毫末的驾驶策略更加拟人化,安全及顺畅。
首先,视频自监督大模型,让毫末 4D Clip 标注实现 100%自动化,人工标注成本降低 98%。为了更低成本、更高效地获取更多高价值数据,需要解决从离散帧自动化扩充到 Clips 形态的问题。毫末首先利用海量 videoclip,通过视频自监督方式,预训练出一个大模型,用少量人工标注好的 Clip 数据进行 Finetune(微调),训练检测跟踪模型,使得模型具备自动标注的能力;然后,将已经标注好的千万级单帧数据所对应的原始视频提取出来组织成 Clip,其中 10%是标注帧,90%是未标注帧,再将这些 Clip 输入到模型,完成对 90%未标注帧的自动标注,进而实现所有单帧标注向 Clip 标注的 100%的自动转化,同时降低 98%的 Clip 标注成本。毫末视频自监督大模型的泛化性效果极佳,即使是在一些非常困难的场景,例如严重遮挡的骑行者,远处的小目标,恶劣的天气和光照,都能准确地完成自动标注。
视觉自监督大模型,可以完成 4D Clip 的自动标注
其次,3D 重建大模型,让毫末实现了数据“无中生有”,获得海量 corner case(长尾场景)不再是难事。面对“完全从真实数据中积累的 corner case 困难且昂贵”的行业难题,毫末将爆火的三维重建 NeRF 技术应用在自动驾驶场景重建和数据生成中,它通过改变视角、光照、纹理材质的方法,生成高真实感数据,实现以低成本获取 normal case,生成各种高成本 corner case。3D 重建大模型生成的数据,不仅比传统的人工显式建模再渲染纹理的方法效果更好、成本更低,增加 NeRF 生成的数据后,还可将感知的错误率降低 30%以上。
3D 重建大模型,用更低成本解决数据分布问题,提升感知效果
第三,多模态互监督大模型,让车辆长出“火眼金睛”,精准识别异形障碍物。在成功实现车道线和常见障碍物的精准检测后,针对城市多种异形障碍物的稳定检测问题,毫末正在思考和探索更加通用的解决方案。多模态互监督大模型引入了激光雷达作为视觉监督信号,直接使用视频数据来推理场景的通用结构表达。通用结构的检测,可以很好地补充已有的语义障碍物检测,有效提升自动驾驶系统在城市复杂工况下的通过率。
多模态互监督大模型
第四,动态环境大模型,可以精准预测道路的拓扑关系,让车辆始终行驶在正确的车道中。在重感知技术路线下,毫末为了将对高精地图的依赖度降到最低,面临着“道路拓扑结构实时推断”的挑战。为此,毫末在 BEV(鸟瞰图)的 feature map(特征图)基础上,以标精地图作为引导信息,使用自回归编解码网络,将 BEV 特征,解码为结构化的拓扑点序列,实现车道拓扑预测,让毫末的感知能力,能像人类一样在标准地图的导航提示下就可以实现对道路拓扑结构的实时推断。毫末认为,解决了路口问题实际就解决了大部分城市 NOH 问题,目前在保定、北京,毫末对于 85%的路口拓扑推断准确率高达 95%。即便是非常复杂、非常不规则的路口,毫末也能准确预测。
动态环境大模型
第五,人驾自监督认知大模型,掌握高水平司机的开车技法,让驾驶决策更聪明。在探索“使用大量人驾数据,直接训练模型做出拟人化决策”方面,毫末为了让模型能够学习到高水平司机的优秀开车方法,全新引入了用户真实的接管数据,同时用 RLHF(从人类反馈中强化学习)思路先训练一个 reward model(奖励模型)来挑选出更好的驾驶决策。通过这种方式,使毫末在掉头、环岛等公认的困难场景中,通过率提升 30%以上。这与 AGI 领域爆火的 ChatGPT 的思路相同,通过人类行为反馈来选出最优答案。
人驾自监督认知大模型
MANA 五大模型全面提升了毫末感知和认知层面系统化的底层技术能力。“在五大模型助力下,MANA 最新的车端感知架构,从过去分散的多个下游任务集成到了一起,形成一个更加端到端的架构,包括通用障碍物识别、局部路网、行为预测等任务,毫末车端感知架构实现了跨代升级。”顾维灏表示。这也意味着毫末的感知能力更强,产品力更强,向全无人驾驶加速迈进。
现场顾维灏正式公布了毫末辅助驾驶产品 HPilot 的发展计划:预计到 2024 年上半年,毫末将完成 HPilot 落地中国 100 个城市的计划,实现点点互达。到 2025 年,更大规模全场景的 NOH 将更快落地,全面迈入全无人驾驶时代。
顾维灏表示,毫末城市 NOH 的领先性表现在:重感知技术路线领先,大模型的技术应用领先,用户闭环数据建设领先。
领取专属 10元无门槛券
私享最新 技术干货