过去几年,大模型让 AI 懂“文字”、看“图片”,但你有没有想过:它能看懂视频,然后和你“聊聊刚才发生了什么”吗?
最近一篇论文《VideoChat: Chat-Centric Video Understanding》提出了一个全新的思路:让 AI 以“聊天”的方式理解视频内容。也就是说,你可以像和朋友一样问 AI:“他刚刚为什么停下来?”、“他把水杯放在哪儿了?”——AI 不但听得懂,还能基于视频给出合理解释。
而这篇论文提出的模型结构,就能够让AI实现视频理解。
当前视频理解模型多聚焦于单任务(如分类、检测)或将视频内容“文本化”处理,缺乏通用、对话式理解能力。论文中提到,他们希望构建一个“聊天式”的视频理解系统,使得用户可以通过自然语言对视频内容进行提问,并获得全面、上下文相关的回答。
论文提出了 VideoChat,一个端到端系统,核心组件包含了三个:
视频编码模型,将原始视频转化为时空视觉特征(Spatio-temporal Visual Features)。论文中使用类似 TimeSformer、ViViT、VideoMAE 这样的预训练 Transformer 视频模型。
这是整个系统的创新核心,作用是把视觉特征“翻译”为语言模型能理解的输入。将视频编码器输出的 [T x N x D]
特征进行映射,压缩为若干语义视觉 token [K x D']
,其中 K
是固定数量的 token,用于输入 LLM。使用 可学习的投影层(Projection Layer) 或多层感知机(MLP)完成映射。
将映射后的视频特征 token 插入到语言 prompt 的合适位置,这些 token 类似于“视觉提示词”,帮助 LLM 理解视频上下文。
在多模态系统中,直接将视频特征喂给大语言模型通常会存在两大问题:
因此,作者采用了“先对齐,再理解”的分阶段策略,使得训练既高效又效果稳定。
阶段一对视频-语言基础对齐进行微调;阶段二通过指令数据进一步强化系统对话能力。
论文的实验部分主要围绕以下三个核心目标展开
VideoChat-Embed 通过识别和服装风格(和服)判断视频背景是日本文化场景,并准确数出画面中人数,还给出“搭配轻松的日本音乐”推荐。
在一段篮球+舞蹈混合视频中,VideoChat‑Embed 精确捕捉“先打篮球、后跳舞”,并能指出“相机从近景切换到远景”。同时,VideoChat‑Text 在瑜伽视频中不仅识别出关键动作,还能回答“摔倒的可能性低,因为采取了安全措施”
在多轮对话能力展示中,能保持上下文一致性,连贯回答提问中的“前因”“后果”“意图”;
VideoChat 的出现,为“看视频”这一传统计算机视觉任务注入了“聊天”式的交互思维,将被动的信息提取转变为主动的、情境化的对话体验。通过巧妙地将时空视觉特征映射为语义 Token,并与大语言模型(LLM)深度协同,VideoChat 不仅能回答静态的画面内容,更能理解动作的前因后果、场景的因果逻辑以及用户的多轮追问,实现了对视频的真正“会话式理解”。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。