首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏CreateAMind

    机器视觉问答开源项目介绍

    keras中文doc之三 结尾给出了一个非常简单的vqa视觉问答的程序demo,我们今天看一个复杂的tensorflow版本的VQA。

    92620发布于 2018-07-20
  • 来自专栏我爱计算机视觉

    Github:视觉问答最新资源汇总

    近日,52CV群友jokieleung对视觉问答技术涉及到的近几年相关论文和代码进行了总结,并放到了Github上,对于想了解、跟踪该方向的朋友,非常值得参考。 分享网址: https://github.com/jokieleung/awesome-visual-question-answering 何为视觉问答Visual Question Answering 视觉问答,是一种涉及计算机视觉和自然语言处理的学习任务。 简单来说,VQA就是给定的图片进行问答。 VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。 综上所述,VQA是一项涉及了计算机视觉(CV)和自然语言处理(NLP)两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

    81530发布于 2019-12-27
  • 来自专栏活动

    智能问答视觉问答系统在客户服务中的创新

    项目介绍和发展智能问答系统是一种结合了自然语言处理(NLP)和计算机视觉(CV)技术的人工智能系统,能够理解和回答用户提出的问题,其中视觉问答系统则通过分析图像内容来回答问题。 视觉问答系统则结合了计算机视觉和自然语言处理,使得系统能够根据图像内容回答问题,逐渐成为智能客服和虚拟助手领域的研究热点。II. 智能问答系统部署过程1. 模型选择与训练3.1选择模型架构在构建视觉问答系统时,需要选择适合任务需求的模型架构。 3.2数据预处理在训练视觉问答模型之前,需要对图像和问题数据进行预处理,使其能够被模型接受。 实际示例和代码解释下面以一个视觉问答系统的示例来说明部署过程和代码实现。

    49810编辑于 2024-04-28
  • 来自专栏大数据智能实战

    基于tensorflow的视觉问答系统构建

    视觉问答(Visual Question Answering,VQA),是多模态数据挖掘的前沿应用之一,里面涉及计算机视觉和自然语言处理的学习任务。 现有视觉问答的模型基本上都是基于LSTM来实现,其输入一部分是问答的词向量,一部分是图片的CNN特征。 因此常见的如采用VGG模型所产生的特征,而问答的词向量则采用常见的word2vec.

    1.6K70发布于 2018-01-09
  • 来自专栏AI科技评论

    西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

    视觉问答模型的偏置现象 为了应对上述问题,学界涌现了大量关于鲁棒视觉问答的研究,特别是关注偏置消除和鲁棒性评估。 2、鲁棒视觉问答: 数据集、方法与挑战 视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。 首先,本文从分布内和分布外的角度概述了数据集的构建过程,并介绍了这些数据集所采用的评估指标;其次,本文对现有鲁棒视觉问答模型进行分类,并总结了各个模型的流程、鲁棒性、技术特征等;此外,本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性 但视觉语言模型在鲁棒视觉问答方面的表现缺乏研究,因此论文梳理了视觉语言模型应用于鲁棒视觉问答任务时的设置与性能表现,将视觉语言模型分为单流(single-stream)和(dual-stream)两类, 视觉语言模型分类 主流视觉语言模型在鲁棒视觉问答任务上的表现 现状分析与未来研究 论文从数据集质量、评估指标有效性等多个方面对鲁棒视觉问答的现状进行深入探讨,提出目前鲁棒视觉问答领域存在数据集中的答案标注缺乏一致性

    55310编辑于 2024-05-06
  • 来自专栏3D视觉从入门到精通

    3D视觉技术的6个问答

    前言 自从加入学习圈「3D视觉技术」以来,与小伙伴们一起讨论交流了近200多个学术问题,每每遇到一些令我难以回答的问题,我都会为自己学识有限而深感焦虑。 今从中挑选六个3D视觉技术的问答,但愿也能让更多小伙伴受益,一起学习,多多交流,更进一步~ 六个问答 问答1: 我们一般用的镜头是定焦镜头,那么我们在镜头上调焦,让模糊的的图像变清晰,这是什么过程? 以上回答不知道能不能帮助到你理解问题,欢迎再继续交流~ 问答2: 棋盘格和圆形标定板,哪个标定精度高? 问答3: pcl里面的ppf点对特征的代码,参数调了一上午没效果。输出变换矩阵一直是单位阵…请问有这方面经验吗? 1)基于三维视觉的物体位姿估计的算法评估(综述)2017 在“Recovering 6D Object Pose: Multi-modal Analyses on Challenges”中:2018 在

    61810发布于 2020-12-11
  • 来自专栏专知

    【论文推荐】最新7篇视觉问答(VQA)相关论文—解释、读写记忆网络、逆视觉问答视觉推理、可解释性、注意力机制、计数

    【导读】专知内容组整理了最近七篇视觉问答(Visual Question Answering)相关文章,为大家进行介绍,欢迎查看! 1.VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions(VQA-E:解释、阐述并增强你对视觉问题的回答 www.zhuanzhi.ai/document/bce2b92d8c8684b5308fbf6b7b39f25f 3.iVQA: Inverse Visual Question Answering(iVQA:逆视觉问题回答 92ea4a9253cf26e085bbee1374040be6 4.A dataset and architecture for visual reasoning with a working memory(具有工作记忆的视觉推理的数据集和架构 document/ccf862349b06541be2dc5312a84fc2db 7.Interpretable Counting for Visual Question Answering(可解释计数的视觉问题回答

    3.2K60发布于 2018-04-08
  • 来自专栏DrugOne

    AAAI 2020 | 视觉问答方法中引入再注意机制

    一些现有的方法旨在获得与问题相关的关键视觉信息,并广泛应用了视觉注意力机制,根据统一的问题表示学习有意义的区域或对象以提高模型性能。 最后,作者通过实验证明该方法与最先进的视觉问答方法相比表现得更好。 2 模型 图1说明了文章中提出的方法的整体结构。它以“图像—问题”作为输入,并通过将问题与相关图像对象相关联来预测准确答案。 3 实验 3.1 实验数据和基准模型 为证明所提出的视觉问答方法的有效性,作者将该文章中的方法与最先进的方法进行比较,在对比实验中,使用VQA v2数据集评价已有的方法的表现。 4 总结 作者提出了一种再注意模型来解决视觉问题回答的问题。作者任认为问题和答案都有助于描述视觉内容,所以可以利用答案表示法指导视觉注意力学习。 在训练模型时,作者计算注意力一致性损失以评估仅通过问题获得的视觉注意力与通过重新注意获得的视觉注意力之间的差异。

    46190发布于 2021-02-02
  • 来自专栏机器之心

    学界 | 视觉问答全景概述:从数据集到技术方法

    选自arXiv 机器之心编译 参与:Jane W,吴攀 印度理工学院 Akshay Kumar Gupta 近日发布了一篇论文,对视觉问答方面的数据集和技术进行了盘点和比较。 视觉问答(visual question answering/ VQA)是结合自然语言处理和计算机视觉技术的一种新兴任务。 本文是一份视觉问答技术研究情况的调查,我们在文中列举了一些用于解决这个任务的数据集和模型。调查的第一部分详细介绍了用于 VQA 的不同数据集,并比较了各数据集的特点。 视觉问答任务具有重要性和吸引力,因为它结合了计算机视觉和自然语言处理领域。计算机视觉技术用来理解图像,NLP 技术用来理解问题。此外,两者必须结合起来才能有效地回答图像情境中的问题。 本调查详细介绍了用于解决视觉问答任务的数据集和模型,并对这些模型在各数据集上运行的效果进行了比较。

    99450发布于 2018-05-07
  • 来自专栏深度学习自然语言处理

    NIPS22 | 重新审视区域视觉特征在基于知识的视觉问答中的作用

    现有的研究主要集中在提高外部知识的融入,而本文则侧重于提高以对象为中心的视觉表示的利用,不仅利用了详细的对象区域信息进行知识检索,而且将对象区域的视觉表征融合到最终的答案预测模型中。 主要贡献 作者系统地探讨了如何更好地利用视觉特征进行知识检索,实验表明,与基于整体图像和基于滑动窗口提取视觉特征的方法相比,基于对象区域的方法性能最好。 将对象区域视觉表征、检索到的外部知识和隐性知识整合到基于Transformer的问答模型中,可以有效利用这三个信息源解决基于知识的VQA问题。 Vision-Language Models 视觉语言预训练模型通常首先在大规模的图像-文本数据集上预训练,然后对模型进行微调,以解决特定的视觉语言任务。 Object-centric Region Features,为CLIP视觉编码器,输出[CLS] token的编码作为最终的区域提议的视觉编码。

    1.2K10编辑于 2022-09-28
  • 来自专栏自然语言处理(NLP)论文速递

    「自然语言处理(NLP)」---亚马逊QA(含源码) && 视觉问答QAA

    引言 继续两篇文章分享,第一篇主要是卡耐基梅陇大学针对亚马逊平台上问题重复回答的痛点,提出了基于评论的QA模型任务,即利用先前对某一产品的问答,QA系统自动总结出一个答案给客户。 基于设计此类系统的可能性,我们引入了基于评审的社区问答任务:给定一组产品评审和一个关于特定产品的问题,生成一个信息丰富的自然语言答案。 数据集方面,依据[McAuleyandYang,2016],为自动社区问答创建了一个新的资源数据集,在问答(QA)和产品评论数据集的基础上,我们进行了额外的精选和注释。 Contributor : Australian National University(澳大利亚国立大学) Paper: arxiv.org/pdf/1908.0328 Code: None 文章摘要 视觉问题回答 由此产生的多模态表示定义了一个中间特征空间,用于捕获视觉和语义特征之间的相互作用,这有助于选择性地聚焦图像内容。在本文中,我们提出了一个与问题无关的注意机制,它与现有的依赖于问题的注意机制相辅相成。

    1.1K40发布于 2019-08-21
  • 来自专栏DrugOne

    DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

    为了解决上述问题,中山大学杨跃东教授的团队提出了一种端到端的深度学习框架DrugVQA,该框架利用二维成对距离图来表示蛋白质,因此DPI任务可以转换为经典的视觉问答(VQA)问题。 4、结论 本文提出了一种新颖的端到端深度学习框架,利用视觉问答(VQA)模型以预测药物-蛋白质相互作用。在DPI研究中,这是第一次使用自注意力卷积和递归结构同时从蛋白质2D距离图和分子语言中提取特征。

    1K71发布于 2021-01-29
  • 来自专栏AIGC 先锋科技

    从文本到图像:AutoBench-V利用LVLMs实现高效视觉问答评估 !

    大型视觉语言模型(LVLMs)已成为推进视觉和语言信息融合的重要工具,为各种复杂应用和任务提供了便利。 当接收到评估能力时,AutoBench-V利用文本到图像模型生成相关图像样本,然后利用LVLMs协调视觉问答(VQA)任务,从而高效灵活地完成评估过程。 随着LLM能力的增长,研究行人开始探索将视觉信息理解能力整合到LLM中,催生了大型视觉语言模型的。 这是相关图像和适当视觉问答(VQA)任务生成的基础,以准确评估LVLMs在这些特定方面的性能。其次,生成的图像和VQA任务应与评估目标相关且准确反映评估目标。 为了确保描述与对应图像一致,采用自验证机制,利用视觉问答技术。此外,实现了一个错误控制机制,以防止对生成问题和参考答案产生负面影响。

    18610编辑于 2024-11-29
  • 来自专栏LhWorld哥陪你聊算法

    【自然语言处理】--视觉问答(Visual Question Answering,VQA)从初始到应用

    一、前述 视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。 简单来说,VQA就是给定的图片进行问答。 VQA系统需要将图片和问题作为输入,结合这两部分信息,产生一条人类语言作为输出。 综上所述,VQA是一项涉及了计算机视觉(CV)和自然语言处理(NLP)两大领域的学习任务。它的主要目标就是让计算机根据输入的图片和问题输出一个符合自然语言规则且内容合理的答案。

    1.9K30发布于 2018-09-13
  • 来自专栏人工智能极简应用

    【人工智能】Transformers之Pipeline(二十八):视觉问答(visual-question-answering)

    共计覆盖32万个模型 今天介绍多模态的第六篇,也是本专栏的最后一篇:视觉问答(visual-question-answering),在huggingface库内可以使用的视觉问答(visual-question-answering 二、视觉问答(visual-question-answering) 2.1 概述 视觉问答(visual-question-answering)是根据图像回答开放式问题的任务。 2.4 pipeline实战 基于pipeline的视觉问答(visual-question-answering)任务,采用dandelin/vilt-b32-finetuned-vqa对图片进行视觉问答 2.5 模型排名 在huggingface上,我们将视觉问答(visual-question-answering)模型按下载量从高到低排序,共计427个模型中,文中的ViLT模型排名第三。 ​​​​​​​ ,读者可以基于pipeline使用文中的2行代码极简的使用多模态中的视觉问答(visual-question-answering)模型。

    35310编辑于 2024-12-11
  • 来自专栏人工智能头条

    一文详解计算机视觉的广泛应用:网络压缩、视觉问答、可视化、风格迁移等

    视觉问答(visual question answering) 给定一张图像和一个关于该图像内容的文字问题,视觉问答旨在从若干候选文字回答中选出正确的答案。 视觉问答也是视觉和自然语言处理两个领域的交叉任务。 基本思路 使用CNN从图像中提取图像特征,用RNN从文字问题中提取文本特征,之后设法融合视觉和文本特征,最后通过全连接层进行分类。 直接的融合方案是将视觉和文本特征拼成一个向量、或者让视觉和文本特征向量逐元素相加或相乘。 注意力机制 和“看图说话”相似,使用注意力机制也会提升视觉问答的性能。 DAN将视觉和文本的注意力结果映射到一个相同的空间,并据此同时产生下一步的视觉和文本注意力。 双线性融合 通过视觉特征向量和文本特征向量的外积,可以捕获这两个模态特征各维之间的交互关系。 为避免显式计算高维双线性汇合结果,细粒度识别中的精简双线性汇合思想也可用于视觉问答。例如,MFB采用了低秩近似思路,并同时使用了视觉和文本注意力机制。

    91151发布于 2018-06-05
  • 来自专栏ATYUN订阅号

    【学术】一文带你了解深度学习中新衍生的技术——视觉问答(VQA)

    然而,随着深度学习(DL)的出现,我们在视觉问答(VQA)方面已经取得了巨大的研究进展,这样的系统能够回答这些问题,并带来了有希望的结果。 这些都是在基于文本的问答中的常见问题,在自然语言处理中是一个很好的研究问题。看下面的这个句子: 在巴黎总共有多少座桥? 自然语言处理问答系统通常会: 对问题进行分类:这是一个“有多少”的问题,因此回答必须是一个数字。 提取的计数对象:桥。 提取必须执行计数的上下文:在本例中是巴黎这座城市。 这显然是一个多学科的人工智能研究问题,涉及到计算机视觉、自然语言处理和知识表示(KR)等领域。 例如,在Kafle和Kanan在2016年写的一篇叫做《对视觉问答的答案类型做预测》(Answer-Type Prediction for Visual Question Answering )的论文中

    1.2K50发布于 2018-03-27
  • 来自专栏机器之心

    华人一作统一「视觉-语言」理解与生成:一键生成图像标注,完成视觉问答,Demo可玩

    视觉 - 语言预训练 (Vision-Language Pre-training,VLP) 提高了许多视觉 - 语言任务的性能。 他的主要研究兴趣在于自监督学习、半监督学习、弱监督学习、迁移学习以及视觉与语言。 相较于将预训练目标检测器用于视觉特征提取的方法,使用 ViT 在计算上更友好,并且已被最近很多方法所采用。 与 SOTA 模型进行比较 该研究将 BLIP 与 VLP 模型在视觉 - 语言下游任务上进行了比较。如表 5 所示,与现有方法相比,BLIP 实现了性能改进。 视觉问答 (VQA) 要求模型在给定图像和问题的情况下预测答案。该研究没有将 VQA 制定为多答案分类任务,而是遵循 Li 等人研究将其视为一个答案生成任务,它支持开放式 VQA。

    60010编辑于 2022-02-23
  • 来自专栏目标检测和深度学习

    全球最全计算机视觉资料(6:问答|边缘检测|姿态估计|图像生成)

    目标检测和深度学习 Visual Question Answering Kushal Kafle, and Christopher Kanan. An Analysis of Visual Question Answering Algorithms. arXiv:1703.09684, 2017. [https://arxiv.org/abs/1703.09684] Hyeonseob Nam, Jung-Woo Ha, Jeonghee Kim, Dual Attention Networks for

    53620发布于 2018-07-20
  • 来自专栏技术汇总专栏

    面向视觉问答的AI Agent跨模态推理模型设计与实验分析

    面向视觉问答的AI Agent跨模态推理模型设计与实验分析引言在人工智能的发展中,跨模态推理(Cross-modal Reasoning)成为实现多模态智能体(AI Agent)的核心能力之一。 ViLT (Vision-and-Language Transformer):简化视觉编码过程,直接在Transformer中融合图像与文本。BLIP / BLIP-2:支持跨模态问答和图文生成。 2.4 行动层AI Agent不仅要进行回答,还需要基于跨模态推理做出决策,如:回答图文问题(VQA)多模态信息检索生成跨模态描述三、应用场景3.1 视觉问答(Visual Question Answering 八、进阶实战:跨模态问答(VQA)在这里,我们扩展前文的CLIP实验,构建一个简化版的视觉问答系统。流程:输入图片 + 文本问题,输出答案。 回答: playing with a ball这里我们利用 BLIP模型 实现了跨模态推理,AI Agent能够基于视觉与语言输入完成问答任务。

    32800编辑于 2025-08-25
领券