近期,苹果的研究团队推出了一款名为MM1.5的新一代多模态大语言模型(MLLM),该模型旨在提升图像文本理解、视觉定位以及多图像推理等能力。
MM1.5在前代MM1的基础上,采用数据驱动的方法对整个训练周期的数据混合进行了系统性的探索。
研究中包括使用高质量的OCR数据和合成的图像描述来进行持续预训练,并且针对监督微调阶段设计了优化的视觉指令调整数据混合。
MM1.5系列模型的参数规模从十亿到三十亿不等,涵盖了密集型模型与专家混合模型(MoE)两种变体。
研究显示,即使是在较小规模(如十亿和三十亿参数)的情况下,通过精心策划的数据管理和训练策略也能获得良好的性能表现。
此外,苹果还推出了两个专门版本:MM1.5-Video用于视频理解,而MM1.5-UI则专注于移动用户界面的理解。
通过大量的实证研究和消融实验,研究人员提供了关于训练过程和决策的详细见解,为未来MLLM的发展提供了宝贵的指导。
在探索合成图像描述数据量的影响方面,苹果的研究发现,当合成描述的数量从一百四十万增加到七百万时,模型的表现得到了一致性的提升。
这些合成描述的加入比例从零到完全包含,都显示出对持续预训练的积极影响。
此外,尽管苹果内部使用的合成描述器仅基于三亿参数的模型,但其效果仍然优于使用三十四亿参数模型生成的LLaVA-Recap描述。
这表明,合成描述的质量、分布甚至是风格和长度都是实现增益的关键因素。
对于监督微调阶段的数据选择,苹果进行了详细的消融分析,以了解不同类别的数据如何影响最终模型的性能。
特别地,苹果研究了每一类数据对其他能力的支持作用,并通过广泛的消融实验识别出权衡与协同效应,从而构建了一个能够平衡多种能力表现的混合数据集。
在高分辨率图像编码方面,苹果采用了流行的任意分辨率方法,将图像动态分割成子图。
这种方法不仅提高了处理高分辨率图像的能力,同时也为MM1.5在知识密集型基准测试中的表现和整体多模态理解能力带来了提升。
MM1.5通过一系列创新的方法和深入的研究,展示了在多模态大语言模型领域内的进步和发展方向。
未来的研究将继续探索如何更有效地利用和优化数据,以进一步提高模型的性能和实用性。
领取专属 10元无门槛券
私享最新 技术干货