导读:
图像推理是人工智能领域的一个重要方向,它涉及到对图像中的目标、属性、关系等进行分析和推断。
图像推理的一个常见任务是图像分割,即将图像划分为若干个区域,每个区域对应一个目标或一个语义类别。
图像分割可以帮助我们更好地理解图像的内容,也可以为其他任务提供有用的信息,例如目标检测、场景理解、图像编辑等。
然而,图像分割并不是一个简单的任务,它面临着多种挑战,图像中的目标可能有多种形状、大小、姿态、遮挡等变化,导致分割边界的不确定性。
为了解决这些挑战,我们需要一种能够充分利用多种信息源,包括图像、文本、用户反馈等,进行像素级推理和理解的方法。这就是 PixelLM 的目标。
什么是 PixelLM?
PixelLM 是一个基于大型多模态模型(LMM)的像素级推理和理解的方法。可以提供对图像上具体某个位置的详细描述,并精确指出其位置!
它主要有两大突出特色:
像素级词汇对齐(精准描述图中内容,并指出具体位置)
根据文字提示描述图片中特定部分,或生成特定位置的描述
官方介绍,视频中准确描述了猫咪在干嘛。
鼠标在图片上划过,根据划过的路径像素点,AI会给出对应的描述。下图就是对划过区域进行精准的描述。达到这个效果,需要进行像素级别的对齐。
还能进行分割图片并且描述
项目目前还未开源,只有论文,没有代码
项目地址:
https://jerryxu.net/PixelLLM/
论文地址:
https://arxiv.org/pdf/2312.09237.pdf
领取专属 10元无门槛券
私享最新 技术干货