前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1

Yann LeCun团队发布以视觉为中心方法设计的开源多模态大模型 Cambrian-1

作者头像
deephub
发布2024-07-01 15:01:56
1090
发布2024-07-01 15:01:56
举报
文章被收录于专栏:DeepHub IMBADeepHub IMBA

纽约大学的谢赛宁教授和Yann LeCun团队最近发布了一种开源的多模态大型语言模型(MLLM),名为“Cambrian-1”。这一研究重点探讨了视觉表征学习对于理解语言的重要性,并提出了一种以视觉为中心的方法来设计多模态模型。该团队全面开源了模型权重、代码、数据集以及详细的指令微调和评估方法,这一举措在学术界和工业界均引起了广泛关注。

寒武纪1号的开发是基于一种认识,即视觉感知的提高对于动物(包括人类)的演化至关重要。同样,在AI领域,强化视觉表征的能力被认为能够显著增强模型处理复杂任务的能力。谢赛宁教授和LeCun教授的团队通过将现代多模态学习理论与视觉表征研究相结合,推出了这一新的多模态语言模型。

Cambrian-1的设计围绕五个关键方面:视觉表征、连接器设计、指令微调数据、指令调优配方和基准测试。其中,视觉表征探索了不同的视觉编码器及其组合,连接器设计引入了一种新的动态空间感知连接器,这种连接器可以将多个模型的视觉特征与LLM集成在一起。

此外,该团队还介绍了一个全新的以视觉为中心的基准测试CV-Bench,用于评估视觉表征的效果。这一基准测试通过VQA(视觉问答)格式,更好地指导未来视觉表征的开发。

论文的一作Shengbang Tong是马毅教授以前在伯克利带的学生,目前在NYU读博士一年级。他表示,这个模型是在过去几个月借助谷歌的TPU训练的,显示了从业界到学术界的无缝合作的可能性。

这项研究的实施不仅提高了视觉表征的能力,还推动了多模态学习的研究前沿。这种新的多模态大语言模型在处理视觉和语言的交互任务中表现出了卓越的性能,可能会成为未来AI研究的一个重要方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DeepHub IMBA 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档