Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >长尾分布数据_厚尾分布

长尾分布数据_厚尾分布

作者头像
全栈程序员站长
发布于 2022-11-01 05:03:55
发布于 2022-11-01 05:03:55
9410
举报

大家好,又见面了,我是你们的朋友全栈君。

长尾分布数据1

1. 什么是长尾分布数据

长尾分布数据是一种偏态分布,是指几个类别(亦叫头类)包含大量的样本,而大多数类别(亦叫尾类)只有非常少量的样本。

类似这样的数据集会使得深度学习网络在头部类中表现良好,在尾部类中效率不高,整体的识别精度显著下降。

2. 解决办法

大多数研究者通过不平衡学习策略来解决长尾识别问题,主要分为两类:数据级方法和算法级方法。

数据级方法

数据水平的策略包括尾部类过采样,头部类欠采样,以及其他新的抽样方法。所以解决手段主要着力于如何对数据进行抽样。这种方法存在的问题是,过采样会导致过拟合,欠采样会导致头部类大量有效信息丢失。

算法级方法

  • 通过成本敏感算法来调整类别权重,一定程度缓解长尾分布不平衡问题,提高了尾类识别精度,但降低了头类精度。
  • 将头部数据中学习到的知识迁移到尾类,这种迁移学习的缺点是在头尾类特征相差特别大的时候,效果不好。如头类是动物,尾类是植物。
  • 层次学习方法,将长尾识别问题转为层次化超类学习问题。知识的迁移是受限的,只能从超类转移到它的直接子类。如尾类哈士奇的识别过程中,首先将其识别为头类的动物类,再归类为一只哈士奇狗。这个过程中,动物的知识不会转移到植物类。即,对头部类的知识迁移进行了限制,限制的方式是父子类层次关联。

Reference

  1. Q. Chen, Q. Liu和E. Lin, 《A knowledge-guide hierarchical learning method for long-tailed image classification》, Neurocomputing, 卷 459, 页 408–418, 10月 2021, doi: 10.1016/j.neucom.2021.07.008. ↩︎

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/204018.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年10月23日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
样本不平衡 | NUS颜水成等发布首篇《深度长尾学习》综述
每天给你送来NLP技术干货! ---- 作者丨专知 编辑丨极市平台 导读 本文对深度长尾学习的最新进展进行了综述。具体地说,我们将已有的深度长尾学习研究分为三类(即类重平衡、信息增强和模块改进),并根据这三类对这些方法进行了详细的回顾。 论文链接:https://arxiv.org/abs/2110.04596‍ 摘要 深度长尾学习是视觉识别中最具挑战性的问题之一,其目标是从大量遵循长尾类分布的图像中训练出性能良好的深度模型。在过去的十年中,深度学习已经成为一种学习高质量图像表示的强大的识别模型,并导致
zenRRan
2022/08/26
7920
样本不平衡 | NUS颜水成等发布首篇《深度长尾学习》综述
妙啊!类别不平衡上的半监督学习
分享一篇中稿CVPR 2021的工作,CReST: A Class-Rebalancing Self-Training Framework for Imbalanced Semi-Supervised Learning[1]
NewBeeNLP
2021/07/27
2.1K0
FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation
最近的长尾实例分割方法在训练数据很少的稀有目标类上仍然很困难。我们提出了一种简单而有效的方法,即特征增强和采样自适应(FASA),该方法通过增强特征空间来解决数据稀缺问题,特别是对于稀有类。特征增强(FA)和特征采样组件都适用于实际训练状态——FA由过去迭代中观察到的真实样本的特征均值和方差决定,我们以自适应损失的方式对生成的虚拟特征进行采样,以避免过度拟合。FASA不需要任何精心设计的损失,并消除了类间迁移学习的需要,因为类间迁移通常涉及大量成本和手动定义的头/尾班组。我们展示了FASA是一种快速、通用的方法,可以很容易地插入到标准或长尾分割框架中,具有一致的性能增益和很少的附加成本。
狼啸风云
2023/10/07
3940
FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation
学界 | 如何同时处理庞大、稀有、开放类别的视觉识别?伯克利 AI 研究院提出了开放长尾识别方法
AI 科技评论按:在计算机视觉领域,图像分类其实是一个最基本的问题,然后一旦遇到极端长尾、开放式的数据集时,即便是最基本的图像识别任务,也难以很好地实现。伯克利 AI 研究院基于对某段相关的经历的思考提出了「开放长尾识别」(OLTR)方法,据介绍,该方法可同时处理庞大、稀有、开放类别的视觉识别,是目前视觉识别系统评价中更全面、更真实的一种检验标准,它可以被进一步扩展到检测、分割和强化学习上。这一成果也在伯克利 AI 研究院上进行了发表,雷锋网 AI 科技评论编译如下。
AI研习社
2019/06/14
8890
学界 | 如何同时处理庞大、稀有、开放类别的视觉识别?伯克利 AI 研究院提出了开放长尾识别方法
Google提出面向长尾分布的logit的调整新方法
标题:Long-Tail Learning via Logit Adjustment
BBuf
2022/09/28
1.3K0
Google提出面向长尾分布的logit的调整新方法
CIKM2022: LTE4G:图神经网络中的长尾专家
LTE4G: Long-Tail Experts for Graph Neural Networks
Houye
2023/03/01
5890
CIKM2022: LTE4G:图神经网络中的长尾专家
不平衡之钥: 重采样法何其多
在《不平衡问题: 深度神经网络训练之殇》一文中,笔者已对缓解不平衡问题的方法进行梳理。限于篇幅原因,介绍比较笼统。事实上,针对重采样方法有很多研究,包括类别平衡重采样和Scheme-oriented sampling。
枫桦
2022/08/02
1K0
不平衡之钥: 重采样法何其多
《ELF》即插即用!解决长尾问题!GT&UIUC联合提出基于Early-Exiting的网络框架,涨点并加速!
自然世界中的数据通常遵循长尾分布,大多数样本中只占据少数几个类。这种长尾分布导致分类器倾向于过拟合多数类(majority class)。为了解决这一问题,以前的解决方案通常采用类别平衡的策略,如数据重采样 和损失函数重加权 。
CV君
2021/12/31
8740
《ELF》即插即用!解决长尾问题!GT&UIUC联合提出基于Early-Exiting的网络框架,涨点并加速!
GIT:斯坦福大学提出应对复杂变换的不变性提升方法 | ICLR 2022
论文对长尾数据集中的复杂变换不变性进行了研究,发现不变性在很大程度上取决于类别的图片数量,实际上分类器并不能将从大类中学习到的不变性转移到小类中。为此,论文提出了GIT生成模型,从数据集中学习到类无关
VincentLee
2022/07/18
6740
GIT:斯坦福大学提出应对复杂变换的不变性提升方法 | ICLR 2022
Seesaw Loss:一种面向长尾目标检测的平衡损失函数
链接:https://zhuanlan.zhihu.com/p/339126633
CV君
2021/01/05
1.5K0
Seesaw Loss:一种面向长尾目标检测的平衡损失函数
不平衡之钥: 重加权法知几何
在《不平衡问题: 深度神经网络训练之殇》一文中,笔者已对缓解不平衡问题的方法进行梳理。限于篇幅原因,介绍比较笼统。在《不平衡之钥: 重采样法何其多》一文中,梳理了缓解不平衡问题的各种重采样方法。
枫桦
2022/08/02
9550
不平衡之钥: 重加权法知几何
AAAI2021 | 长尾识别中的trick大礼包
近年来,基于深度学习的方法在长尾分布(类别不平衡)数据上取得了极大进展。除了这些复杂的方法外,训练过程中的那些简单“技巧”(比如数据分布、损失函数的调整)同样起着不小的贡献。然而,不同的“技巧”之间可能存在“冲突”。如果采用了不合理的“技巧”进行长尾相关的任务,这就很可能导致较差的识别精度。不幸的是,关于这些“技巧”并无科学系统的手册供参考。
AIWalker
2021/01/05
1.3K0
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
论文: Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification
VincentLee
2024/09/13
2070
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
ECCV 2020 | 针对长尾分布问题的特征空间增广
题目:Feature Space Augmentation for Long-Tailed Data
Amusi
2020/11/11
1.3K0
ECCV 2020 | 针对长尾分布问题的特征空间增广
特征空间增强|劫富济贫:对长尾数据进行特征空间增强(ECCV20)
我们在做分类任务时,很多时候类别都是不平衡的,甚至不平衡的程度还很严重,例如作者对几个数据集做了统计(Fig.2):
beyondGuo
2022/01/18
1K0
特征空间增强|劫富济贫:对长尾数据进行特征空间增强(ECCV20)
NeurIPS 2020 | 商汤提出BALMS:用于长尾视觉识别的新网络
在NeurIPS 2020上,商汤新加坡团队提出的Balanced-Meta Softmax (BALMS), 针对真实世界中常见的长尾数据分布提出了新的视觉识别方案。在优化目标方面,BALMS 提出一种新的损失函数,Balanced Softmax,来修正长尾设定下因训练与测试标签分布不同而导致的偏差。在优化过程方面,BALMS提出 Meta Sampler来自动学习最优采样率以配合Balanced Softmax,避免过平衡问题。BALMS在长尾图像分类与长尾实例分割的共四个数据集上取得SOTA表现。这项研究也被收录为ECCV LVIS workshop的spotlight。
Amusi
2020/11/30
9170
NeurIPS 2020 | 商汤提出BALMS:用于长尾视觉识别的新网络
旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
作者 | 旷视研究院 出品 | AI科技大本营(ID:rgznai100) 导读:本文是旷视 CVPR 2020 论文系列解读文章,也是 CVPR 2020 Oral展示论文之一,它揭示了再平衡方法解决长尾问题的本质及不足:虽然增强了分类器性能,却在一定程度上损害了模型的表征能力。针对其不足,本文提出了一种针对长尾问题的新型网络框架——双边分支网络(BBN),以兼顾表征学习和分类器学习。通过该方法,旷视研究院在细粒度识别领域权威赛事 FGVC 2019 中,获得 iNaturalist Challenge 赛道的世界冠军。该网络框架的代码已开源。
AI科技大本营
2020/04/14
1.1K0
旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
卷积神经网络长尾数据集识别的技巧包
对长尾数据集的tricks进行了分析和探索,并结合一种新的数据增强方法和两阶段的训练策略,取得了非常好的效果。
AiCharm
2023/05/15
7940
卷积神经网络长尾数据集识别的技巧包
Focal Loss升级 | E-Focal Loss让Focal Loss动态化,类别极端不平衡也可以轻松解决
长尾目标检测是一项具有挑战性的任务,近年来越来越受到关注。在长尾场景中,数据通常带有一个Zipfian分布(例如LVIS),其中有几个头类包含大量的实例,并主导了训练过程。相比之下,大量的尾类缺乏实例,因此表现不佳。长尾目标检测的常用解决方案是数据重采样、解耦训练和损失重加权。尽管在缓解长尾不平衡问题方面取得了成功,但几乎所有的长尾物体检测器都是基于R-CNN推广的两阶段方法开发的。在实践中,一阶段检测器比两阶段检测器更适合于现实场景,因为它们计算效率高且易于部署。然而,在这方面还没有相关的工作。
集智书童公众号
2022/02/10
1.6K0
Focal Loss升级 | E-Focal Loss让Focal Loss动态化,类别极端不平衡也可以轻松解决
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
语义分割[1]使得机器能够以像素 Level 识别图像,这在实际应用中令人印象深刻。由于社区的持续努力,语义分割技术已经取得了显著进步,并发展出了新的能力,例如,领域适应[2, 3],半监督[4, 5],弱监督[6, 7],小样本[8, 9]和零样本语义分割。
AIGC 先锋科技
2024/07/08
3730
长尾语义分割的挑战与解决方案,基于  Transformer 的 Query匹配在LTSS中的应用 !
推荐阅读
样本不平衡 | NUS颜水成等发布首篇《深度长尾学习》综述
7920
妙啊!类别不平衡上的半监督学习
2.1K0
FASA: Feature Augmentation and Sampling Adaptationfor Long-Tailed Instance Segmentation
3940
学界 | 如何同时处理庞大、稀有、开放类别的视觉识别?伯克利 AI 研究院提出了开放长尾识别方法
8890
Google提出面向长尾分布的logit的调整新方法
1.3K0
CIKM2022: LTE4G:图神经网络中的长尾专家
5890
不平衡之钥: 重采样法何其多
1K0
《ELF》即插即用!解决长尾问题!GT&UIUC联合提出基于Early-Exiting的网络框架,涨点并加速!
8740
GIT:斯坦福大学提出应对复杂变换的不变性提升方法 | ICLR 2022
6740
Seesaw Loss:一种面向长尾目标检测的平衡损失函数
1.5K0
不平衡之钥: 重加权法知几何
9550
AAAI2021 | 长尾识别中的trick大礼包
1.3K0
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
2070
ECCV 2020 | 针对长尾分布问题的特征空间增广
1.3K0
特征空间增强|劫富济贫:对长尾数据进行特征空间增强(ECCV20)
1K0
NeurIPS 2020 | 商汤提出BALMS:用于长尾视觉识别的新网络
9170
旷视提双边分支网络BBN:攻坚长尾分布的现实世界任务 | CVPR 2020 Oral
1.1K0
卷积神经网络长尾数据集识别的技巧包
7940
Focal Loss升级 | E-Focal Loss让Focal Loss动态化,类别极端不平衡也可以轻松解决
1.6K0
长尾语义分割的挑战与解决方案,基于 Transformer 的 Query匹配在LTSS中的应用 !
3730
相关推荐
样本不平衡 | NUS颜水成等发布首篇《深度长尾学习》综述
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档