作者 | 李忠良
今天,Apple 公司通过一篇名为《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文,正式官宣了其在多模态大模型(Multimodal Large Language Models,简称 MLLMs)领域的研究成果。该研究集中于开发具有 30B 参数规模的高性能 MLLMs,论文由多位作者联合撰写,已在 arXiv 平台发布。
论文链接:https://arxiv.org/abs/2403.09611
论文表明,研究团队通过深入和全面的剖析图像编码器、视觉 - 语言连接器以及各种预训练数据选择,发现了几个关键的设计经验。例如,他们展示了在大规模多模态预训练中使用精心混合的图像 - 文字对、交错的图像 - 文本和纯文本数据是实现多个基准测试中最先进(SOTA)的少量样本结果的关键。
此外,他们还展示了图像编码器、图像分辨率和图像标记数量对性能有重大影响,而视觉 - 语言连接器的设计相对而言影响较小。
通过扩大展示的配方,他们构建了 MM1 系列多模态模型,包括密集模型和专家混合(MoE)变体,这些模型在预训练指标中实现了 SOTA,并且在监督微调后在一系列既定的多模态基准测试中表现出竞争力。得益于大规模预训练,MM1 具有吸引人的特性,如增强的上下文学习能力和多图像推理能力,使其能够通过少量样本提示进行思维链推理。
该论文为业界详细展示了他们的实验方法:
● 架构方面:研究团队考察了多种预训练图像编码器,并探究了不同方式下,这些编码器与语言模型(LLMs)的整合策略。
● 数据处理:分析了多种数据类型及其在模型训练中的相对重要性,以确定它们的混合权重。
● 训练策略:详细讨论了多模态大型语言模型(MLLM)的训练过程,包括超参数设置以及模型的哪些部分应当在何时进行训练。
通过在这些关键领域进行的实证实验和简化,苹果公司成功评估了不同配置下模型的性能,最终确定了最优的模型与数据配置方案。
最终确定 MM1 多模态预训练的配方如下:
● 图像编码器:考虑到图像分辨率的重要性,APPLE 使用了一个在 DFN-5B 上用 CLIP 目标预训练的 ViT-H 模型,分辨率为 378x378px。
● 视觉 - 语言连接器:由于视觉令牌的数量最重要,APPLE 使用了一个具有 144 个令牌的 VL 连接器。实际的架构似乎影响较小,APPLE 选择了 C-Abstractor。
● 数据:为了保持零样本和少量样本的性能,APPLE 使用了以下精心混合的数据:45% 交错的图像 - 文本文档、45% 图像 - 文本对文档和 10% 纯文本文档。
苹果公司的大模型战略部署
苹果公司在人工智能领域的探索和投资一直是科技界关注的焦点。去年,苹果公司 AI 大模型开发团队的核心成员向外界曝光,揭示了他们在人工智能大模型领域的雄心和努力。
在 Arthur Van Hoff、John Giannandre、Ruoming Pang 等技术大佬的领导下,苹果公司成功开发了 Ajax GPT 模型,其训练参数数量超过 2000 亿。据报道,当时苹果公司计划将其 AI 大模型的研发预算提高到每天数百万美元。
今年,苹果公司明显提升了对生成式人工智能(GenAI)的关注和投资。特别是在 2024 年的苹果股东大会上,苹果的首席执行官蒂姆·库克宣布,公司预计在 GenAI 领域取得显著成就。此外,随着苹果决定终止持续了十年的汽车制造项目,原本参与该项目的一些团队成员已经开始转向 GenAI 研究。
大模型时代的到来,标志着人工智能技术的一个新纪元。
随着 MM1 模型的公布,苹果在多模态人工智能领域的研究成果显著,这不仅展示了其在技术创新上的实力,也为未来的应用开发奠定了坚实的基础。苹果公司对于生成式人工智能(GenAI)的深度投入,特别是在多模态大模型的开发上,不仅是对当前技术趋势的响应,更是对未来智能应用场景的前瞻。
通过整合视觉和语言的处理能力,MM1 模型有望在多个领域中发挥重要作用,包括但不限于增强现实(AR)、虚拟助手、内容创作、教育和娱乐等。
此外,苹果公司在多模态大模型研究中的进展,也可能为其产品线带来创新的变革。例如,Siri 的功能可以通过整合 MM1 模型得到极大的扩展和提升,使其不仅能处理语音指令,还能理解和生成图像内容,为用户提供更加丰富和直观的交互体验。同时,这也为苹果在智能家居、教育技术和娱乐领域的产品提供了新的可能性,使其能够提供更加智能和多元化的服务。
在这个竞争激烈的领域中,众多参与者纷纷展示其实力,究竟谁能够脱颖而出,成为行业的领导者,值得我们持续关注。
领取专属 10元无门槛券
私享最新 技术干货