前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >每日学术速递9.5

每日学术速递9.5

作者头像
AiCharm
发布2023-09-06 16:42:21
3910
发布2023-09-06 16:42:21
举报
文章被收录于专栏:AiCharm

1.AnomalyGPT: Detecting Industrial Anomalies using Large Vision-Language Models

标题:AnomalyGPT:使用大型视觉语言模型检测工业异常

作者:Zhaopeng Gu, Bingke Zhu, Guibo Zhu, Yingying Chen, Ming Tang, Jinqiao Wang

文章链接:https://arxiv.org/abs/2308.15366

项目代码:https://github.com/CASIA-IVA-Lab/AnomalyGPT

摘要:

MiniGPT-4和LLaVA等大型视觉语言模型(LVLM)已经展示了理解图像的能力,并在各种视觉任务中取得了出色的性能。尽管由于大量的训练数据集,它们识别常见对象的能力很强,但它们缺乏特定的领域知识,并且对对象内的局部细节的理解较弱,这阻碍了它们在工业异常检测(IAD)任务中的有效性。另一方面,大多数现有的IAD方法仅提供异常分数,并且需要手动设置阈值来区分正常样本和异常样本,这限制了其实际实施。在本文中,我们探索利用 LVLM 来解决 IAD 问题,并提出 AnomalyGPT,一种基于 LVLM 的新型 IAD 方法。我们通过模拟异常图像并为每个图像生成相应的文本描述来生成训练数据。我们还采用图像解码器来提供细粒度语义,并设计一个提示学习器来使用提示嵌入来微调 LVLM。我们的 AnomalyGPT 消除了手动阈值调整的需要,从而直接评估异常的存在和位置。此外,AnomalyGPT 支持多轮对话,并展现出令人印象深刻的少样本上下文学习能力。仅通过一次正常拍摄,AnomalyGPT 在 MVTec-AD 数据集上就实现了最先进的性能,准确率为 86.1%,图像级 AUC 为 94.1%,像素级 AUC 为 95.3%。代码可从此 https URL 获取。

2.Emergence of Segmentation with Minimalistic White-Box Transformers

标题:简约白盒Transformer分段的出现

作者:Yaodong Yu, Tianzhe Chu, Shengbang Tong, Ziyang Wu, Druv Pai, Sam Buchanan, Yi Ma

文章链接:https://arxiv.org/abs/2308.16271

项目代码:https://github.com/Ma-Lab-Berkeley/CRATE

摘要:

最近证明,用于视觉任务的类似 Transformer 的模型对于分割和检测等广泛的下游应用是有效的。之前的研究表明,分割属性出现在使用 DINO 等自监督方法训练的视觉变换器 (ViT) 中,但在监督分类任务训练的视觉变换器 (ViT) 中却没有出现。在这项研究中,我们探讨了基于变压器的模型中的分割是否仅仅由于复杂的自监督学习机制而出现,或者是否可以通过模型架构的正确设计在更广泛的条件下实现相同的出现。通过大量的实验结果,我们证明,当采用称为 CRATE 的类似白盒变压器的架构时,其设计明确地建模并追求数据分布中的低维结构,整体和部分级别的分段属性已经出现具有简约的监督训练方法。分层细粒度分析表明,涌现的属性强烈证实了白盒网络设计的数学函数。我们的结果提出了一条设计白盒基础模型的途径,该模型同时具有高性能和数学上完全可解释的特性。。

3.Language-Conditioned Path Planning

标题:语言条件路径规划

作者:Amber Xie, Youngwoon Lee, Pieter Abbeel, Stephen James

文章链接:https://arxiv.org/abs/2304.05977

项目代码:https://amberxie88.github.io/lapp/

摘要:

接触是机器人操纵的核心。有时,这是需要的(例如操纵和抓握),有时,它是有害的(例如避开障碍物时)。然而,传统的路径规划算法仅关注无碰撞路径,限制了它们在接触丰富的任务中的适用性。为了解决这个限制,我们提出了语言条件路径规划领域,其中接触意识被纳入路径规划问题中。作为该领域的第一步,我们提出了语言条件碰撞函数(LACO),这是一种仅使用单视图图像、语言提示和机器人配置来学习碰撞函数的新颖方法。LACO 可预测机器人与环境之间的碰撞,从而实现灵活的有条件路径规划,无需手动对象注释、点云数据或地面实况对象网格。在模拟和现实世界中,我们证明 LACO 可以促进复杂、细致的路径规划,允许与安全碰撞的对象进行交互,而不是禁止任何碰撞。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-09-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档