别光看图了，AI 现在能“看视频聊天”了！

原创

算法一只狗

发布于 2025-07-17 17:05:16

2500

过去几年，大模型让 AI 懂“文字”、看“图片”，但你有没有想过：它能看懂视频，然后和你“聊聊刚才发生了什么”吗？

最近一篇论文《VideoChat: Chat-Centric Video Understanding》提出了一个全新的思路：让 AI 以“聊天”的方式理解视频内容。也就是说，你可以像和朋友一样问 AI：“他刚刚为什么停下来？”、“他把水杯放在哪儿了？”——AI 不但听得懂，还能基于视频给出合理解释。

而这篇论文提出的模型结构，就能够让AI实现视频理解。

1.背景与动机

当前视频理解模型多聚焦于单任务（如分类、检测）或将视频内容“文本化”处理，缺乏通用、对话式理解能力。论文中提到，他们希望构建一个“聊天式”的视频理解系统，使得用户可以通过自然语言对视频内容进行提问，并获得全面、上下文相关的回答。

2. 系统架构

论文提出了 VideoChat，一个端到端系统，核心组件包含了三个：

视频基础模型（Video Foundation Models）：用以提取视频的时空特征，保持视觉信息完整性。

视频编码模型，将原始视频转化为时空视觉特征（Spatio-temporal Visual Features）。论文中使用类似 TimeSformer、ViViT、VideoMAE 这样的预训练 Transformer 视频模型。

大型语言模型（LLM）：负责处理自然语言提问，并生成对话式回答。

桥接模块（Bridge Module）：连接视频和语言模型，实现视觉信息到语言表征的转换，使得语言模型能够理解视频内容。

这是整个系统的创新核心，作用是把视觉特征“翻译”为语言模型能理解的输入。将视频编码器输出的 [T x N x D] 特征进行映射，压缩为若干语义视觉 token [K x D']，其中 K 是固定数量的 token，用于输入 LLM。使用 可学习的投影层（Projection Layer） 或多层感知机（MLP）完成映射。

将映射后的视频特征 token 插入到语言 prompt 的合适位置，这些 token 类似于“视觉提示词”，帮助 LLM 理解视频上下文。

3. 数据与训练策略

在多模态系统中，直接将视频特征喂给大语言模型通常会存在两大问题：

语言模型对视频信息不敏感：它不是为了理解视频而训练的；
端到端训练成本高昂：如联合训练 Video Encoder + LLM 会占用极大显存与计算资源。

因此，作者采用了“先对齐，再理解”的分阶段策略，使得训练既高效又效果稳定。

大规模视觉文本对齐数据：如 CC12M、COCO Caption、WebVid 等，用于初步对齐视频帧与文本。
自建指令数据集：共约18,000条，包含详细的视频描述与对话，重点突出时空推理与因果关系理解。
两阶段轻量训练：在与训练阶段，使用了两阶段的模型微调

阶段一对视频－语言基础对齐进行微调；阶段二通过指令数据进一步强化系统对话能力。

4. 性能展示

论文的实验部分主要围绕以下三个核心目标展开

评估 VideoChat 在 开放式视频问答中的表现；
验证其对 时序推理、因果理解、多轮对话等复杂任务的能力；
展示 VideoChat 在 多模态系统融合中的有效性（Video Encoder + LLM）。

VideoChat-Embed 通过识别和服装风格（和服）判断视频背景是日本文化场景，并准确数出画面中人数，还给出“搭配轻松的日本音乐”推荐。

在一段篮球+舞蹈混合视频中，VideoChat‑Embed 精确捕捉“先打篮球、后跳舞”，并能指出“相机从近景切换到远景”。同时，VideoChat‑Text 在瑜伽视频中不仅识别出关键动作，还能回答“摔倒的可能性低，因为采取了安全措施”

在多轮对话能力展示中，能保持上下文一致性，连贯回答提问中的“前因”“后果”“意图”；

5.写在最后

VideoChat 的出现，为“看视频”这一传统计算机视觉任务注入了“聊天”式的交互思维，将被动的信息提取转变为主动的、情境化的对话体验。通过巧妙地将时空视觉特征映射为语义 Token，并与大语言模型（LLM）深度协同，VideoChat 不仅能回答静态的画面内容，更能理解动作的前因后果、场景的因果逻辑以及用户的多轮追问，实现了对视频的真正“会话式理解”。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

腾讯技术创作特训营S14#补给站