暂无搜索历史
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe ...
人工智能技术的迅速发展已经引发了一系列社会、经济和文化变革。在众多领域中,这项技术已经成为了创新和增长的关键驱动力。然而,随着人工智能技术的广泛应用,作者也必须...
到目前为止,大多数模型优化的努力都集中在降低推理成本上,而对模型训练成本的重视较少,因为这些成本只需承担一次。虽然优化重复使用的推理过程至关重要,但由于训练优化...
近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答...
预训练基础模型[1]用于自然语言和自然图像在历史上一直是计算密集型的,通常仅限于拥有大量资源的组织。然而,近期参数高效微调(PEFT)技术的进步,包括低秩适应(...
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维...
这些挑战将阻碍它们将视觉-语言模型(VLMs)适应于下游任务的能力。受到这一关键观察的启发,作者提出了一种新颖的方法,称为NODE-Adapter,该方法利用神...
大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力...
异常检测(AD),识别不规则或显著偏离正常性的实例,在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中,"不规则性"通常由以下因素引起:高 Leve...
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率...
图像文本数据在各个领域的数量激增以及视觉语言建模的进步为生成式预训练领域的研究开辟了道路。这个创新时代以GPT-4(Achiam等人,2023)和Gemini(...
预训练的视觉-语言模型(VLMs),例如CLIP [26]和ALIGN [15],在各种下游任务中已经取得了卓越的零样本性能。这些模型在大规模图像-文本数据集上...
code: https://github.com/Chongjie-Si/Subspace-Tuning
视觉领域的基础模型( 如 BiT ,ViT ,Swin,Florence )因其在一众任务中的革命性表现而最近受到了广泛关注。特别是像ViT-Large(61....
深度模型已经在解决各种单独的机器学习任务上取得了卓越的性能。然而,在实际应用中,训练数据通常是顺序接收的,而不是一次性全部可用。因此,为深度模型装备在动态环境中...
近期在视觉语言模型(VLMs)方面取得了进展,这些模型经过大规模的网络图像文本对预训练,已经在各种分类任务中表现出显著的成功。VLMs被训练以将图像与相关的文本...
每种模态都有自己的视角来反映特定的数据特征。整合多模态数据使模型能够在宏观、微观和分子层面上获得关于受试者状况的各种洞察,从而实现准确全面的疾病诊断。例如,各种...
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉...
视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市