如果有一个 AI 模型,能够同时理解视频和语言,那么它会有多么强大?
如果有一个 AI 模型,能够处理超过一百万个字的上下文,甚至能够回答关于一个小时的视频的问题,那么它会有多么智能?
今天我要给大家介绍一个非常有趣的项目,它叫做 Large World Model (LWM),中文可以翻译为大世界模型。
它是一个能够理解和生成语言、图像和视频的多模态自回归模型,它可以在超长的视频和语言序列上进行学习和推理,展现出令人惊叹的能力。目前在github上已收到3.2k星
LLM是什么?
LWM 是一个由 UC Berkeley 的 Hao Liu、Wilson Yan、Matei Zaharia 和 Pieter Abbeel 等人开发的项目,它的目标是训练一个能够同时理解人类的文本知识和物理世界的AI模型,从而为人类提供更广泛的 AI 助手。
LWM是一个通用的大上下文多模态自回归模型,核心思想是利用视频序列作为一种丰富的信息源,结合语言文本,构建一个能够跨越多种媒体形式的统一表示,从而实现语言、图像和视频的理解和生成。
LLM效果展示!
官方给出一个例子,当输入视频,同时让GPT-4V、Gemini Pro Vision、Video-LlaVA和LWM来回答问题:“穿霸王龙衣服的人骑什么车?”。除了LWM回答摩托车,其他的都回答错误了。
LWM还可以理解图片,并且可以回答关于图片的问题。下图左边是提问:“如果你是一个摄影师,想要捕捉这个地点的精髓,你会选择一天中的什么时间和天气条件?描述你选择的原因。”然后下面是LWM的回答。
右侧是提问:“描述这个照片”,AI回答了人脸扭曲为狗脸,说明理解了图片原本的意思。
LLM有哪些特点?
最大的上下文:LWM 在超长的视频和语言序列上进行训练,达到了 100 万个 token 的上下文窗口,创造了新的记录,同时在困难的检索任务和长视频理解任务上取得了优异的表现。
能够理解视频:LWM 提出了一些有效的方法来克服视觉-语言训练的难点,包括使用掩码序列打包来混合不同长度的序列,使用损失加权来平衡语言和视觉的贡献,以及使用模型生成的 QA 数据集来进行长序列聊天。
高度优化的实现:LWM 使用了 RingAttention 技术来可扩展地训练长序列,使用了掩码序列打包和其他关键特性来训练百万级别的多模态序列。
完全开源的模型家族:LWM 开源了一系列的 70 亿参数的模型,能够处理超过 100 万个 token 的长文本文档(LWM-Text, LWM-Text-Chat)和视频(LWM, LWM-Chat)。
官方开源地址:
https://github.com/LargeWorldModel/LWM?tab=readme-ov-file
领取专属 10元无门槛券
私享最新 技术干货