暂无搜索历史
大语言模型(LLMs)的快速发展推动了视频理解研究范式的转变,从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两...
图像生成技术的快速民主化和进步强调了归属模型验证视觉内容真实性的必要性。这些模型是2024年。本文件的版权归其作者所有。
人们日常与物体进行交互。在三维空间中重建人-物交互(HOI)对于许多应用至关重要,从机器人到混合现实。然而,仅从单张图像中完成这一任务具有挑战性,原因在于深度模...
大语言模型(LLMs)通过思考然后响应的范式展示了增强的性能,在这个范式中,模型在最终回应之前会生成内部思考(即,系统2思考)。然而,现有的研究缺乏对思考模式如...
视频修复指的是对视频中静态或动态的局部区域进行修改的过程,确保修复后的视频在空间和时间维度上展现出平滑自然的过渡。
从单张图像创建具有灵活视角的3D场景,在直接获取3D数据成本高或不切实际的应用领域(如考古保护和自主导航)中具有变革性潜力。然而,这一任务本质上仍然存在困难:单...
对抗性攻击一直威胁着AI系统的鲁棒性,特别是在大规模视觉-语言模型(LVLMs)领域。这些模型在融合视觉与语言理解的任务上表现出色,例如图像字幕生成[36]、视...
在人工智能(AI)的迅猛发展背景下,本研究旨在探讨人工智能领域的最新进展及其在各个行业的应用。通过对相关文献的回顾和分析,本文将概述当前AI技术的发展趋势,并展...
Transformer [53] 架构对计算机视觉领域产生了深远的影响,它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行,但 Tran...
医学图像分割对于提取结构细节以辅助诊断和治疗至关重要。深度学习通过多样化的网络架构显著推动了这一领域的发展,尤其是从UNet [1] 开始的U型编码器-解码器设...
大语言模型(LLMs)在ChatGPT等代表性的里程碑推动下取得了显著进展。它们能够以零样本的方式生成类似人类的对话,这标志着人机交互方式的根本转变。此外,最新...
半导体制造是一个复杂且多面的过程,其中缺陷可能是由于工艺不当或设备问题引起的。为了实现实时监控,会捕捉SEM图像并基于缺陷的外观对其进行分类,从而帮助缺陷检测和...
命名实体识别(NER)是信息抽取(IE)领域的一项基础任务,旨在识别表示特定类型实体的跨度。它是关系抽取(Miwa和Bansal,2016年)、知识图谱构建(X...
推理在塑造有效的决策过程和指导人工智能系统中的问题解决策略方面发挥着核心作用。对于大语言模型(LLMs)而言,实现推理的最有效方法是通过思维链,该方法逐个生成所...
近年来,生成逼真的人类运动视频受到了广泛关注,特别是在生成式人工智能的进步之后。与图像生成相比,视频生成面临更大的挑战,因为它不仅需要高质量的视觉效果,还需要帧...
图像恢复旨在从退化或损坏的输入中恢复清晰且高质量的图像。这是计算机视觉中的一个长期问题,包括了一系列子问题,如超分辨率、图像去噪和去模糊。随着现代深度学习模型,...
最近,故事化视频生成(SVG)作为一种任务,旨在创建长、多动作、多场景视频,这些视频始终以输入文本脚本中描述的故事为主题。SVG在媒体和娱乐领域的多样化内容创作...
雾霾是一种常见的自然现象,会显著降低场景中的能见度,导致许多计算机视觉算法,如目标检测[1]、[2]和图像识别[3],出现严重的性能下降。为了缓解这一问题,已经...
视觉-语言模型,如CLIP,在庞大的网络规模文本-图像数据集上进行预训练,已在各种下游图像分类任务中展现出令人印象深刻的零样本能力和图像-文本对齐能力。针对少量...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市