首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >别光看图了,AI 现在能“看视频聊天”了!

别光看图了,AI 现在能“看视频聊天”了!

原创
作者头像
算法一只狗
发布2025-07-17 17:05:16
发布2025-07-17 17:05:16
2500
举报
文章被收录于专栏:算法一只狗算法一只狗

过去几年,大模型让 AI 懂“文字”、看“图片”,但你有没有想过:它能看懂视频,然后和你“聊聊刚才发生了什么”吗?

最近一篇论文《VideoChat: Chat-Centric Video Understanding》提出了一个全新的思路:让 AI 以“聊天”的方式理解视频内容。也就是说,你可以像和朋友一样问 AI:“他刚刚为什么停下来?”、“他把水杯放在哪儿了?”——AI 不但听得懂,还能基于视频给出合理解释。

而这篇论文提出的模型结构,就能够让AI实现视频理解。

1.背景与动机

当前视频理解模型多聚焦于单任务(如分类、检测)或将视频内容“文本化”处理,缺乏通用、对话式理解能力。论文中提到,他们希望构建一个“聊天式”的视频理解系统,使得用户可以通过自然语言对视频内容进行提问,并获得全面、上下文相关的回答。

2. 系统架构

论文提出了 VideoChat,一个端到端系统,核心组件包含了三个:

  • 视频基础模型(Video Foundation Models):用以提取视频的时空特征,保持视觉信息完整性。

视频编码模型,将原始视频转化为时空视觉特征(Spatio-temporal Visual Features)。论文中使用类似 TimeSformerViViTVideoMAE 这样的预训练 Transformer 视频模型。

  • 大型语言模型(LLM):负责处理自然语言提问,并生成对话式回答。

  • 桥接模块(Bridge Module):连接视频和语言模型,实现视觉信息到语言表征的转换,使得语言模型能够理解视频内容。

这是整个系统的创新核心,作用是把视觉特征“翻译”为语言模型能理解的输入。将视频编码器输出的 [T x N x D] 特征进行映射,压缩为若干语义视觉 token [K x D'],其中 K 是固定数量的 token,用于输入 LLM。使用 可学习的投影层(Projection Layer) 或多层感知机(MLP)完成映射。

将映射后的视频特征 token 插入到语言 prompt 的合适位置,这些 token 类似于“视觉提示词”,帮助 LLM 理解视频上下文。

3. 数据与训练策略

在多模态系统中,直接将视频特征喂给大语言模型通常会存在两大问题:

  • 语言模型对视频信息不敏感:它不是为了理解视频而训练的;
  • 端到端训练成本高昂:如联合训练 Video Encoder + LLM 会占用极大显存与计算资源。

因此,作者采用了“先对齐,再理解”的分阶段策略,使得训练既高效又效果稳定。

  • 大规模视觉文本对齐数据:如 CC12M、COCO Caption、WebVid 等,用于初步对齐视频帧与文本。
  • 自建指令数据集:共约18,000条,包含详细的视频描述与对话,重点突出时空推理与因果关系理解。
  • 两阶段轻量训练:在与训练阶段,使用了两阶段的模型微调

阶段一对视频-语言基础对齐进行微调;阶段二通过指令数据进一步强化系统对话能力。

4. 性能展示

论文的实验部分主要围绕以下三个核心目标展开

  • 评估 VideoChat 在 开放式视频问答中的表现;
  • 验证其对 时序推理、因果理解、多轮对话等复杂任务的能力;
  • 展示 VideoChat 在 多模态系统融合中的有效性(Video Encoder + LLM)。

VideoChat-Embed 通过识别和服装风格(和服)判断视频背景是日本文化场景,并准确数出画面中人数,还给出“搭配轻松的日本音乐”推荐。

在一段篮球+舞蹈混合视频中,VideoChat‑Embed 精确捕捉“先打篮球、后跳舞”,并能指出“相机从近景切换到远景”。同时,VideoChat‑Text 在瑜伽视频中不仅识别出关键动作,还能回答“摔倒的可能性低,因为采取了安全措施”

在多轮对话能力展示中,能保持上下文一致性,连贯回答提问中的“前因”“后果”“意图”;

5.写在最后

VideoChat 的出现,为“看视频”这一传统计算机视觉任务注入了“聊天”式的交互思维,将被动的信息提取转变为主动的、情境化的对话体验。通过巧妙地将时空视觉特征映射为语义 Token,并与大语言模型(LLM)深度协同,VideoChat 不仅能回答静态的画面内容,更能理解动作的前因后果、场景的因果逻辑以及用户的多轮追问,实现了对视频的真正“会话式理解”。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.背景与动机
  • 2. 系统架构
  • 3. 数据与训练策略
  • 4. 性能展示
  • 5.写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档