首页
学习
活动
专区
工具
TVP
发布

AIGC 先锋科技

专栏成员
100
文章
12243
阅读量
20
订阅数
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
浙大提出 PD-TPE | 用于3D视觉定位任务,特征提取和上下文感知,刷新 SOTA !
AIGC 先锋科技
2024-07-31
150
利用大型语言模型和扩散模型大规模生成视觉最小变化数据,提升VLMs的细粒度理解能力 !
细粒度地理解目标、属性及其关系对于视觉-语言模型(VLMs)有效泛化到新的、未见过的场景和构图至关重要。以往的研究如ARO [40] 和 Sugarcrepe [8],强调了VLMs在这一领域的不足,主要关注于理解两个非常相似的标题之间的细粒度差异——一个人工编写的标题和自动生成的硬负例2标题,其中硬负例标题与原标题仅在目标、属性或两个目标之间的关系上有所不同。虽然可以通过基于规则的方法合成标题的硬负例,但为图像合成这样的硬负例则非常具有挑战性。
AIGC 先锋科技
2024-07-31
450
OpenSU3D 利用2D基础模型,构建实例级3D场景表示,超越当前所有3D场景理解水平!
人工智能技术的迅速发展已经引发了一系列社会、经济和文化变革。在众多领域中,这项技术已经成为了创新和增长的关键驱动力。然而,随着人工智能技术的广泛应用,作者也必须面对一系列挑战和问题。本文将探讨人工智能技术在社会、经济和文化领域中的应用及其所面临的挑战,并提出了相应的解决方案。
AIGC 先锋科技
2024-07-31
310
HLO:通过 Hadamard 低秩量化快速高效地反向传播,解决了大型多模态模型在理解长视频时所面临的调整!
到目前为止,大多数模型优化的努力都集中在降低推理成本上,而对模型训练成本的重视较少,因为这些成本只需承担一次。虽然优化重复使用的推理过程至关重要,但由于训练优化必须满足更具挑战性的条件,因此相对而言被忽视了。在推理优化中,人们可以很容易地估计优化引起的质量损失,并通过额外的训练来减轻,例如量化感知训练(QAT)[1; 2; 3]或知识蒸馏[4; 5; 6]。相比之下,训练优化的性能下降难以衡量且难以恢复。训练优化必须在显著降低成本的同时,尽量减少训练过程中的扰动。
AIGC 先锋科技
2024-07-31
340
浙江大学提出 Prompt-Aware 视觉与语言的桥梁,提示感知Adapter在多模态LLMs中的角色 !
近期大型语言模型(LLM)的进展显著提高了它们在各类自然语言处理任务中的性能。这些模型能够进行语言理解和逻辑推理,使它们能够处理复杂的语言功能,如总结文本、回答问题、处理对话以及撰写新的文章或论文。然而,LLM本质上受到无法处理视觉信息的限制。这导致了多模态大型语言模型(MLLM)的发展,它们在LLM的基础上集成了视觉处理能力。
AIGC 先锋科技
2024-07-31
380
斯坦福提出 ExPLoRA 高效扩展预训练 Transformer 在无监督领域的突破 !
预训练基础模型[1]用于自然语言和自然图像在历史上一直是计算密集型的,通常仅限于拥有大量资源的组织。然而,近期参数高效微调(PEFT)技术的进步,包括低秩适应(LoRA)等,激发了极大的兴趣。这些方法旨在基于这样的假设:对预训练模型的必要权重更新具有“低内在秩”,或者通过利用矩阵结构可以实现有效更新,使用模型可训练权重的很小一部分(0.1%-10%)将基础模型适应于下游监督学习任务。
AIGC 先锋科技
2024-07-31
260
当 LLMs 步入3D世界,通过多模态大语言模型对3D任务的调查和元分析 !
大型语言模型的出现标志着自然语言处理领域的一个变革性时代,使机器能够以前所未有的方式理解、生成和与人类语言互动。然而,作者周围的现实世界本质上是三维的,理解三维空间环境对于涉及在这些三维空间内进行感知、导航和交互的许多现实世界应用至关重要。随着近期的发展,LLM的应用已经远远超出了文本领域。将LLM与3D数据结合为计算模型理解和与物理世界互动提供了独特的机会,从而在包括自主系统、增强现实、机器人导航和机器人操作在内的多个领域引发创新。
AIGC 先锋科技
2024-07-31
280
NODE-Adapter:神经常微分方程助力更优视觉-语言推理!
这些挑战将阻碍它们将视觉-语言模型(VLMs)适应于下游任务的能力。受到这一关键观察的启发,作者提出了一种新颖的方法,称为NODE-Adapter,该方法利用神经常微分方程进行更优的视觉-语言推理。 为了充分利用视觉和文本模态,并更有效、更准确地估计类别原型,作者将方法分为两个阶段:跨模态原型构建和利用神经常微分方程进行跨模态原型优化。具体来说,作者利用VLM将手工制作的提示编码为文本特征,将少样本支持图像编码为视觉特征。 然后,作者分别通过对文本特征和视觉特征取平均来估计文本原型和视觉原型,并将文本原型和视觉原型自适应地结合构建跨模态原型。 为了减轻原型偏差,作者将原型优化过程建模为一个初值问题,使用神经常微分方程来估计连续梯度流。 作者广泛的实验结果,包括少样本分类、域泛化和人-物交互视觉推理,证明了提出的方法显著优于现有的最先进方法。
AIGC 先锋科技
2024-07-31
380
Youtu Lab, 腾讯, SJTU, BAAI, ECNU 联合调查高效的多模态大型语言模型报告!
大规模预训练是人工智能领域的一种领先方法,通用型模型(如大型语言模型和多模态模型)已经在许多任务中超过了专业深度学习模型的表现。大型语言模型(LLM)的卓越能力激发了人们将它们与其他基于模态的模型融合以增强多模态能力的努力。这一概念得到了诸如OpenAI的GPT-4V[1]和谷歌的Gemini[2]等专有模型显著成功的进一步支持。因此,多模态大型语言模型(MLLM)应运而生,包括mPLUG-Owl系列[3, 4],InternVL[5],EMU[6],LLaVA[7],InstructBLIP[8],MiniGPT-v2[9]和MiniGPT-4[10]。这些模型通过有效利用每种模态的预训练知识,避免了从零开始训练的计算成本。MLLM继承了LLM的认知能力,展示了许多出色的特性,如强大的语言生成能力和迁移学习能力。此外,通过与其他基于模态的模型建立强烈的表征联系和对齐,MLLM可以处理来自多种模态的输入,显著拓宽了它们的应用范围。
AIGC 先锋科技
2024-07-31
260
基于新型 Transformer ,通过比较 Query 图像与参考形状进行异常检测的研究!
异常检测(AD),识别不规则或显著偏离正常性的实例,在多个领域中都是一个积极研究的课题。在标准的视觉AD基准测试中,"不规则性"通常由以下因素引起:高 Level (或语义)变化,如出现未见过的类别目标;物体上的缺陷,如划痕、凹痕;颜色、形状、大小的低 Level 变化;或像素级噪声[16]。标准的做法是学习表示,同时还有能够对常规实例集合内的变化鲁棒,同时又能对引起不规则性的因素敏感的分类器。然而,当不规则性是任意的,并且取决于实例的上下文和/或个体特征,而这些可能事先不知道或未被观察到时,这种范式表现得很差。例如,在像"椅子"这样包含视觉上非常多样实例的物体类别中,三条腿可能意味着缺少一条腿,因此对于某个椅子实例来说是异常,而对于另一个实例则是正常的。这里的AD取决于椅子实例最初是否被设计为有三条腿。
AIGC 先锋科技
2024-07-31
390
中山大学 & 华为诺亚实验室提出 HiRes-LLaVA 框架,解决切片的高分辨率LVLM引起的输入碎片化问题 !
近期在大型视觉-语言模型(LVLMs)方面的进展显著提高了视觉-语言任务的能力,促进了理解、推理和交互的改进。早期的LVLMs[34; 82; 44]以低分辨率处理图像,通常是,这限制了它们捕捉详细视觉信息的能力。这种局限性常常导致对图像中物体及其上下文关系的识别不准确[17; 41]。
AIGC 先锋科技
2024-07-31
420
MiniGPT-Med | 多模态模型在医疗报告生成与疾病检测中取得突破性进展 !
图像文本数据在各个领域的数量激增以及视觉语言建模的进步为生成式预训练领域的研究开辟了道路。这个创新时代以GPT-4(Achiam等人,2023)和Gemini(团队等人,2023)等多模态模型的涌现为标志。这些进步意味着作者在处理和理解复杂数据方面的能力向前跃进了一步。尽管取得了这些进展,但在医疗领域采用多模态大型语言模型(LLM)仍然有限。医疗领域对数据复杂性、敏感性和特定性的独特要求凸显了需要量身定制的办法来发挥LLM在转变医疗研究和实践中的潜力。已经推出了许多为医疗应用设计的模型,但它们通常针对特定任务表现出高度的专门化。这种专业化限制了它们的适应性,尤其是在执行多样化的医疗应用时。例如,像Med-Flamingo 和 XrayGPT(Thawkar等人,2023)这样的模型主要是为医疗报告生成和医疗视觉问题回答等任务而定制的。然而,它们在需要视觉定位技能的关键领域(医疗领域的至关重要组成部分)如疾病检测方面缺乏能力。为了弥补这一不足,作者推出了MiniGPT-Med,一个能够熟练处理定位和非定位任务的统一模型。作者推出了MiniGPT-Med,这是一个为医疗领域的各种任务而设计的多功能模型,包括但不限于医疗报告生成、医疗视觉问题回答和疾病识别。MiniGPT-Med建立在大型语言模型(LLM)的架构之上,这些模型已经展示了出色的生成能力和广泛的语文学,包括医学知识。借鉴LLM在广泛的视觉语言应用中的成功,如最近的Zhu等人(2023年);Chen等人(2023年);Li等人(2024年)的研究所示,作者的模型采用了类似于 MiniGPT-v2 的设计,使用LLaMA-2语言模型作为通用接口。此外,作者融入了不同的任务标识符,以提高模型准确执行各种医疗视觉语言技能的能力。通过广泛的实验,作者证明了作者的模型在医疗视觉语言任务范围内表现出强大的性能,包括医疗报告生成、医疗视觉问题回答和疾病检测。作者将作者的模型与专业化和通用化 Baseline 模型进行了基准测试,结果显示作者的方法在所有评估任务中取得了强大的成果。值得注意的是,在医疗报告生成领域,作者的模型达到了最先进的表现,BERT-Sim上超过最佳 Baseline 模型19%,CheXbert-Sim上超过5.2%。这表明作者的模型在多样化的医疗视觉语言任务上具有强大的生成能力。
AIGC 先锋科技
2024-07-20
1320
哈工大提出 CoCoLe: 从视觉概念到语言提示,VLMs 微调技术在少样本设置中的突破 !
预训练的视觉-语言模型(VLMs),例如CLIP [26]和ALIGN [15],在各种下游任务中已经取得了卓越的零样本性能。这些模型在大规模图像-文本数据集上通过对比优化目标进行训练,有效地将不同模态对齐并嵌入到一个共享的向量空间中。尽管它们的性能令人印象深刻,但由于其庞大的体积,将这些模型适应到多样化的下游任务仍然具有挑战性。因此,近期的研究集中在了通过在保持基础模型不变的同时调整附加参数来改进预训练VLMs的下游任务适应能力。例如,提示调优方法,如CoOp [42]和ProGrad [43],用可学习的提示替代手动提示以获得特定任务的知识,而基于 Adapter 的方法直接在VLMs顶部利用额外的模块,如Clip-adapter [9]和Tip-adapter [38]。这些方法在有限标注数据下取得了显著进展。
AIGC 先锋科技
2024-07-20
740
上交大高效微调全面分析|站在分解理论的肩上,见远高效微调算法,洞察底层逻辑!
code: https://github.com/Chongjie-Si/Subspace-Tuning
AIGC 先锋科技
2024-07-20
690
自动多步蒸馏(AMD) | 突破大规模视觉模型压缩的效能界限 !
视觉领域的基础模型( 如 BiT ,ViT ,Swin,Florence )因其在一众任务中的革命性表现而最近受到了广泛关注。特别是像ViT-Large(61.6 G FLOPS)和 Swin-Large (103.9 G FLOPS)这样的基于 Transformer 架构的模型,它们代表了一类通用的视觉基础模型,并取得了前所未有的成功,相比于卷积神经网络(CNNs)如ResNet18 (1.8 G FLOPS),它们的操作要复杂得多。然而,随着模型规模的不断扩大以提高性能,它们固有的高复杂度成为了在低功耗处理器和移动设备上部署的瓶颈,这些设备通常计算能力有限。
AIGC 先锋科技
2024-07-20
840
PRM 与 HRM 双剑合璧 | 增量式 Vision Transformer 的参数有效跨任务提示 !
深度模型已经在解决各种单独的机器学习任务上取得了卓越的性能。然而,在实际应用中,训练数据通常是顺序接收的,而不是一次性全部可用。因此,为深度模型装备在动态环境中学习的能力是深度学习(DL)的一个长期目标。增量学习(IL)涉及跨不同任务动态学习深度模型,并且经常遭受对先前学习任务性能下降的问题,这被称为灾难性遗忘(CF)。最近,基于排练的方法可以通过在固定内存缓冲区中保留一些旧任务的代表性样本(即示例)有效地减轻IL中的遗忘。然而,在严格保护隐私和内存严重受限的情况下,这些方法无法奏效,因为旧任务的样本不可用,且内存缓冲区有限。在本文中,作者专注于无需示例和内存严重受限的增量学习(RFMCIL)的策略,该策略无需示例并且在内存严重受限的情况下训练深度模型。
AIGC 先锋科技
2024-07-20
720
南大 & 上海 Ai Lab AWT 框架 | 革新视觉-语言模型的零样本与少样本学习能力,提升语义相关性挖掘 !
近期在视觉语言模型(VLMs)方面取得了进展,这些模型经过大规模的网络图像文本对预训练,已经在各种分类任务中表现出显著的成功。VLMs被训练以将图像与相关的文本描述相联系。在标准协议(图1(a))中,原始图像和类别名称被投射到一个联合视觉语言嵌入空间中,选择距离图像表示最近的类别作为预测结果。
AIGC 先锋科技
2024-07-20
800
港中文 和 上海 AI Lab提出 GTP-4o 异构图技术突破多模态学习难题 !
每种模态都有自己的视角来反映特定的数据特征。整合多模态数据使模型能够在宏观、微观和分子层面上获得关于受试者状况的各种洞察,从而实现准确全面的疾病诊断。例如,各种成像技术的多模态融合显著提高了在内镜场景中胃肠道病变的检测和表征。同样,将基因信息与病理图像结合可以提高癌症分级的预测准确性。相关任务,如生存预测(旨在预测重大事件如死亡或疾病复发的时间间隔),也可以从这种多模态融合中受益[7]。此外,由病理图像中的细胞核分割构建的细胞图显示提供了更细粒度的微观信息[70]。视觉语言模型在生物医学图像和文本学习方面的最新进展也激发了一系列工作[78],其中诊断文本通常包含抽象的语义信息[10]。这些进展为扩展生物医学多模态模型的容量边界至全模态表示,以处理更广泛的临床模态提供了潜力。
AIGC 先锋科技
2024-07-20
750
字节提出 MammothModa | 超越 LLaVA,集成视觉能力的多模态大型语言模型 !
近期,多模态大型语言模型(MLLMs)因其能够理解和生成受视觉输入影响的语言而受到了广泛关注。这些模型融合了视觉和文本数据,使得应用范围涵盖了图像字幕生成、视觉问答和视频分析等众多领域。尽管取得了进展,但许多MLLM在有效结合高分辨率和长时程视觉输入与复杂的语言理解方面,同时保持简洁和高效性方面仍面临挑战。
AIGC 先锋科技
2024-07-11
1270
告别单一视角:DA4LG在多视图设置下的惊艳表现 !
视觉语言定位旨在识别由自然语言描述的视觉内容中的区域或目标[7, 21]。它作为当前具身代理连接符号概念与可感知现实世界的重要桥梁,使得代理的智能可以从感知决策发展到认知决策[16, 5]。例如,代理可以根据来自大型语言模型的计划器提供的一系列原始指令,包括对目标目标的详细描述,来制作一杯咖啡。在这一过程中,视觉语言定位在将每步指令与物理观察到的目标连接起来方面发挥着关键作用[3, 36]。因此,与3D目标的视觉语言定位是使代理能够与真实世界互动的不可或缺手段。有限的、高质量的视觉-语言配对数据阻碍了视觉语言定位技术的发展,尤其是3D视觉语言定位。为了解决这个问题,现有工作尝试[9, 28, 38, 42]使用多视角感知或外部先验,这需要额外的数据成本以及由于在固定设置中预训练的特征编码器引起的现有领域差距。在本文中,作者从领域适应的角度对语言定位任务进行了探索,受到了大型语言模型参数高效调整的领域适应的启发。
AIGC 先锋科技
2024-07-10
960
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档