Otter是一种基于OpenFlamingo平台的先进视觉语言模型(VLM),旨在改善与视觉内容的交互方式。作为雄心勃勃的Otter项目的一部分,微软推出了名为MTMIC-IT的大规模多模态指导性视觉文本数据集。该数据集包含令人惊叹的2万对带有答案的链接多模态指令,其中包括来自图像和视频的8万条独特指令。该数据集经过精心策划,以模拟自然对话,涵盖图像和视频描述、图像比较、问答和场景理解等多个领域。
MIMIC-IT数据集在训练Otter模型方面起着至关重要的作用,该模型专注于理解视觉场景、推理和逻辑结论。每个指令-响应对都伴随着多模态上下文信息,以创建对话上下文,使模型能够掌握感知、推理和规划的微妙差别。为了扩展注释过程,Microsoft采用了名为Syphus的自动注释管道,将人类专业知识与GPT的功能相结合,以确保数据集的质量和多样性。
使用MIMIC-IT数据集,微软训练了基于OpenFlamingo平台的大规模Otter模型。经过广泛评估,Otter在多模态感知、推理和上下文学习方面展现出卓越的能力。人工评估表明,它能够有效地与我们意图保持一致,成为解释和执行复杂任务的宝贵工具。
Otter v0.2扩展了对视频输入的支持,使其能够处理帧和多个图像作为上下文示例。MIMIC-IT数据集的发布以及指令-响应收集管道、基准测试和Otter模型代表了多模态语言处理领域的重要里程碑。通过向研究人员和开发人员提供这些资源,微软旨在促进创新和协作,并将Otter和OpenFlamingo集成到定制的训练和推理管道中。
MIMIC-IT数据集包含丰富的现实生活场景,使得视觉语言模型(VLM)能够理解常见场景、推理上下文并智能区分观察结果。这为开发面向自我中心的视觉助理模型打开了可能性,例如回答类似“嘿,你认为我把钥匙留在桌子上了吗?”的问题。MIMIC-IT不仅限于英语,还支持多种语言,包括中文、韩语、日语、德语、法语、西班牙语和阿拉伯语。这种多语言支持使得更多全球受众能够从人工智能带来的便利和进步中受益。
为了确保生成高质量的指令-响应对,Microsoft引入了Syphus,这是一个自动化管道,其中包含系统消息、视觉注释和上下文示例作为ChatGPT的提示。这确保了跨多种语言生成的指令-响应对的可靠性和准确性。
领取专属 10元无门槛券
私享最新 技术干货