首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

苹果终于推出AI模型MM1!该模型是文本和图像生成的多模态模型

苹果公司终于推出了期待已久的多模态AI模型MM1,苹果公司扬帆起航,携带着MM1—一款集文本与图像生成于一身的多模态AI神器,正式加入了人工智能的领域。在经历了无数猜想与期待后,苹果研究团队精心打造了MM1这个家族,它不仅能诵读文字,还能绘制画面,无所不能。根据上周发布的一份研究报告,这是一个跨越视觉与文本界限的大型多模态语言模型家族。

多样化数据对AI性能的影响

苹果的研究实验室深入挖掘,通过精心设计的实验,解剖了建造高效多模态语言模型的秘密。他们发现,在这个视觉与文字交织的世界中,图像分辨率和视觉编码器的能力对模型性能影响最大,而具体如何结合视觉和文本数据的方法影响较小。

在这场技术的探索中,他们还揭示了多样化数据的重要性:混搭的图文文档助力少量样本学习,有标注的图片提升了模型的零样本能力,纯文本数据则巩固了语言理解的基石。

MM1家族:从亿级参数到前沿性能的跨越

MM1的大规模多模态预训练赋予了它超凡脱俗的能力,从数数到执行OCR,从日常物品的常识到基础数学运算,无所不能。

苹果团队基于这些发现,创造了从三亿到三十亿参数范围内的MM1模型家族,涵盖了密集型与混合专家型变体。在扩展训练的助力下,MM1在多个多模态基准测试中,展示了前所未有的能力。经过更深层次的调优与专门设计的一百万示例数据集的训练后,MM1在12个多模态任务上展现了强大的竞争力,从视觉问题回答到图像描述无所不能。特别值得一提的是,MM1展现了在多图像推理与少样本学习方面的关键能力,这都得益于团队在多模态预训练方面的深入研究。

研究人员希望他们的见解能够得到加速进展,据有关报道,苹果公司正在计划将谷歌的Gemini 生成人工智能模型集成到即将推出的 iPhone 软件中。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OU0tCOaDE90oAWyWfu3Y6IBA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券