有人训练AI看电影了!
让AI能够处理3小时以上的长视频,电影解说们感觉到压力没?!
今天,我要介绍的开源AI模型是LLaMA-VID!
如何才能让AI看懂电影?现在面临什么问题?
为了让AI能够理解电影,我们需要使用一些特殊的模型,称为视觉语言模型(Vision Language Models,VLMs)。VLMs是一种结合了计算机视觉和自然语言处理的深度学习模型,它们可以同时学习到图像和文本之间的关系,并利用这些关系来生成或理解文本。例如,我们可以使用VLMs来生成图像描述、图像问答、图像摘要等内容。
然而,在使用VLMs时,我们会遇到一个挑战:如何有效地表示长时间的视频或图像。
因为VLMs通常需要处理大量的视觉特征(Visual Features),而这些特征会随着时间增加而变得过于复杂和冗余。如果我们只使用单个视觉特征来表示每一帧或每一张图像,那么我们就会浪费大量的计算资源,并且可能会损失一些重要的信息。
因此,在使用VLMs时,我们需要找到一种方法来减少视觉特征的数量,并保留最关键的信息。
LLaMA-VID如何处理的?
LLaMA-VID如何解决的问题:
用两个Token来表示每一帧或每一张图像!一个上下文标记(Context Token)和一个内容标记(Content Token)
上下文标记是根据用户输入来编码整个图像或视频中最相关或最重要的部分;内容标记则是捕捉每一帧或每一张图像中具体存在或发生过的事物。通过这样做,我们就可以有效地减少长时间视频或图像中过多无关紧要信息,并且保留最核心有意义信息。
LLaMA-VID能做到什么?
LLaMA-VID目前能够处理三种形式:单图片,短视频,长视频。
下图介绍了LLaMA-VID查看塞尔达图片、查看疯狂动物城短片、观看阿凡达电影,并回答相关问题。
下图是观看泰坦尼克电影、星际穿越电影、阿甘正传电影。然后生成简介并回答相关问题。
LLaMA-VID,LLaMA-VID 在多个视频榜单上评分都不错,实现了 SOTA。
LLaMA-VID如何使用?
LLaMA-VID已开源,可以去官网下载体验(具体安装步骤见网站)
代码地址:
https://github.com/dvlab-research/LLaMA-VID
论文地址:
https://arxiv.org/pdf/2311.17043.pdf
领取专属 10元无门槛券
私享最新 技术干货