Loading [MathJax]/jax/output/CommonHTML/fonts/TeX/AMS-Regular.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >长尾分布的多标签文本分类平衡方法

长尾分布的多标签文本分类平衡方法

作者头像
mathor
发布于 2021-11-22 02:22:27
发布于 2021-11-22 02:22:27
3.5K0
举报
文章被收录于专栏:mathormathor

长尾分布各位肯定并不陌生,指的是少数几个类别却有大量样本,而大部分类别都只有少量样本的情况,如下图所示

代码语言:txt
AI代码解释
复制
   长尾分布:少数类别的样本数量非常多,多数类别的样本数目非常少       

通常我们讨论长尾分布或者是文本分类的时候只考虑单标签,即一个样本只对应一个标签,但实际上多标签在实际应用中也非常常见,例如个人爱好的集合一共有6个元素:运动、旅游、读书、工作、睡觉、美食,一般情况下,一个人的爱好有这其中的一个或多个,这就是典型的多标签分类任务

EMNLP2021上有一篇名为Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution的论文详细探讨了各种平衡损失函数对于多标签分类问题的效果,从最初的BCE Loss到Focal Loss等,感觉这篇文章更像是平衡损失函数的综述。源码在Roche/BalancedLossNLP

Loss Functions

在NLP领域,二值化交叉熵损失(Binary Cross Entropy Loss)常被用来处理多标签文本分类问题,给定一个含有N 个样本的训练集(x1,y1),...,(xN,yN) ,其中yk=[yk1,...,ykC]{0,1}CC 是类别数量,假设模型对于某个样本的输出为 ,则BCE损失的定义如下:

代码语言:txt
AI代码解释
复制
                                               `$\mathcal{L}_{\text{BCE}} = \begin{cases}-\log (p_i^k)\quad &\text{if } y_i^k =1\\-\log (1-p^k_i)\quad &\text{otherwise} \end{cases}$` 

其中, ,对于多标签分类问题来说我们需要将模型的输出值压缩到0,1之间,所以需要用到sigmoid函数

原本单标签问题,真实值 相当于一个onehot向量,而对于多标签来说,真实值 相当于一个onehot向量中多了一些1,例如0,1,0,1,表示该样本同时是第1类和第3类

这种朴素的BCE非常容易收到标签不平衡的影响,因为头部样本比较多,可能所有头部样本的损失总和为100,尾部所有样本的损失加起来都不超过10。下面,我们介绍三种替代方法解决多标签文本分类中长尾数据的类别不均衡问题。这些平衡方法主要思想是重新加权BCE,使罕见的样本-标签对得到合理的"关注"

Focal Loss (FL)

通过在BCE上乘一个可调整的聚焦参数 ,Focal Loss将更高的损失权重放在"难分类"的样本上,这些样本对其真实值的预测概率很低。对于多标签分类任务,Focal Loss定义如下:

代码语言:txt
AI代码解释
复制
                                              `$\mathcal{L}_{\text{FL}} = \begin{cases} -(1-p_i^k)^\gamma \log (p_i^k)\quad &\text{if } y_i^k =1\\ -(p_i^k)^\gamma \log (1-p_i^k)\quad &\text{otherwise} \end{cases}$` 

实际上论文关于Focal Loss的介绍只有这么多,如果想了解Focal Loss更详细的参数介绍,可以看我的这篇文章Focal Loss详解

Class-balanced focal loss (CB)

通过估计有效样本数,CB Loss进一步重新加权Focal Loss以捕捉数据的边际递减效应,减少了头部样本的冗余信息。对于多标签任务,我们首先计算出每种类别的频率 ,那么对于每个类别来说,都有其平衡项

其中, 控制着有效样本数量的增长速度,损失函数变为

代码语言:txt
AI代码解释
复制
                                                            `$ \mathcal{L}_{\text{CB}} = \begin{cases} -r_{\text{CB}} (1-p_i^k)^\gamma \log (p_i^k) \quad &\text{if } y_i^k =1\\ -r_{\text{CB}} (p_i^k)^\gamma \log (1-p_i^k) \quad &\text{otherwise} \end{cases}$` 
Distribution-balanced loss (DB)

通过整合再平衡权重以及头部样本容忍正则化(negative tolerant regularization, NTR),Distribution-balanced Loss首先减少了标签共现的冗余信息(这在多标签分类的情况下是很关键的),然后对"容易分类的"样本(头部样本)分配较低的权重

首先,为了重新平衡权重,在单标签的情况下,一个样本可以通过采样概率 来加权,但是在多标签的情况下,如果采用同样的策略,一个具有多标签的样本会被过度采样,概率是 。因此,我们需要结合两者重新平衡权重

我们可以将上述权重变得更光滑一些(有界)

此时, 的值域为 。rebalanced-FL (R-FL) 损失函数为

代码语言:txt
AI代码解释
复制
                                             `$\mathcal{L}_{\text{R-FL}} = \begin{cases} -\hat{r}_{\text{DB}} (1-p_i^k)\log (p^k_i) \quad &\text{if } y_i^k =1\\  -\hat{r}_{\text{DB}} (p_i^k)\log (1-p^k_i) \quad &\text{otherwise} \end{cases}$` 

然后,NTR对同一标签头部和尾部样本进行不同的处理,引入一个比例因子 和一个内在的特定类别偏差 以降低尾部类别的阈值,避免过度抑制

代码语言:txt
AI代码解释
复制
                                          `$ \mathcal{L}_{\text{NTR-FL}} = \begin{cases} - (1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\  -\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases} $`

对于尾部样本来说, ;对于头部样本来说, 可以在训练开始时最小化损失函数来估计,其比例系数为 ,类别先验信息 ,则

最终,通过整合再平衡权重以及NTR,Distribution-balanced Loss为

代码语言:txt
AI代码解释
复制
                                           `$\mathcal{L}_{\text{{DB}}} = \begin{cases} - \hat{r}_{\text{DB}}(1-q_i^k)\log (q^k_i) \quad &\text{if } y_i^k =1\\  -\hat{r}_{\text{DB}}\frac{1}{\lambda} (q_i^k)\log (1-q^k_i) \quad &\text{otherwise} \end{cases} $`

Result

作者实验的两个数据集如下

使用的模型为SVM,对比不同损失函数的效果

个人总结

这篇论文,创新了但又没创新,所有的损失函数都是别人提出来的,自己的工作只是在多标签数据集上跑了一遍做了个对比。最后,纯爱战士表示很淦

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家,研究领域为自然语言处理的生物医学应用。
AI科技评论
2021/11/17
7140
Generalized Focal Loss:Focal loss魔改以及预测框概率分布,保涨点 | NeurIPS 2020
论文: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
VincentLee
2021/07/28
1.4K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
论文地址:https://aclanthology.org/2022.acl-short.75.pdf
小爷毛毛_卓寿杰
2022/11/30
1.5K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
本文涉及到大量超链接可能被微信吃掉,建议在我们的文档网站查看原始文章:https://start.oneflow.org/oneflow-yolo-doc/source_code_interpretation/utils/loss_py.html
BBuf
2022/12/29
5.3K0
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
不平衡之钥: 重加权法知几何
在《不平衡问题: 深度神经网络训练之殇》一文中,笔者已对缓解不平衡问题的方法进行梳理。限于篇幅原因,介绍比较笼统。在《不平衡之钥: 重采样法何其多》一文中,梳理了缓解不平衡问题的各种重采样方法。
枫桦
2022/08/02
9540
不平衡之钥: 重加权法知几何
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
论文: Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
VincentLee
2024/03/29
1890
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
本文针对点击率CTR预估提出新方法GMT,推荐系统的性能通常受到不活跃行为和系统曝光的影响,导致提取的特征没有包含足够的信息。本文提出基于邻域交互的CTR预测方法,通过异构信息网络HIN挖掘目标用户-商品对的局部邻域来预测他们的链接。并且,考虑节点之间的四种拓扑交互来增强局部邻域表征。
秋枫学习笔记
2022/09/19
4430
针对长尾分布的Eql损失
论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition
孔西皮
2023/10/18
6580
文本分类还停留在BERT?对偶对比学习框架也太强了
论文标题:Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation
致Great
2022/02/12
1.1K0
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
随着大规模数据集预训练模型的广泛应用,迁移学习已成为计算机视觉任务中的关键技术。但是,从大量的预训练模型库中为特定下游任务选择最优的预训练模型仍然是一个挑战。现有的方法主要依赖于编码的静态特征与任务标签之间的统计相关性来测量预训练模型的可迁移性,但它们忽略了微调过程中潜在的表示动力学的影响,导致结果不可靠,尤其是对于自监督模型。在本文中,我们从潜在能量的角度提出了一种新颖的方法——PED,来解决这些挑战。我们将迁移学习动力视为降低系统潜在能量的过程,并直接对影响微调动力学的相互作用力进行物理学建模。通过在物理驱动模型中捕获动态表示的运动来降低潜在能量,我们可以获得增强和更稳定的观测结果来估计可迁移性。在10个下游任务和12个自监督模型上的实验结果表明,我们的方法可以顺利集成到现有的优秀技术中,增强它们的性能,这揭示了它在模型选择任务中的有效性和发掘迁移学习机制的潜力。我们的代码将在https://github.com/lixiaotong97/PED上开源。
BBuf
2023/09/08
6180
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇六:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
汀丶人工智能
2023/04/20
4.9K0
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
论文: Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification
VincentLee
2024/09/13
2040
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
CVPR2022:计算机视觉中长尾数据平衡对比学习
现实中的数据通常存在长尾分布,其中一些类别占据数据集的大部分,而大多数稀有样本包含的数量有限,使用交叉熵的分类模型难以很好的分类尾部数据。在这篇论文中,作者专注不平衡数据的表示学习。通过作者的理论分析,发现对于长尾数据,它无法形成理想的几何结构(在下文中解释该结构)。为了纠正 SCL(Supervised Contrastive Learning,有监督对比学习) 的优化行为并进一步提高长尾视觉识别的性能,作者提出了一种新的BCL(Balanced Contrastive Learning,平衡对比学习)损失。
BBuf
2022/09/28
2.5K0
CVPR2022:计算机视觉中长尾数据平衡对比学习
ICLR2020 | 解决长尾分布的解耦学习方法
长尾分布数据集是目前训练模型的一个很大的挑战,模型在这类数据集上通常会在 head-classes (即数量较多的类别)上overfitting,而在tail-classes(即数量较少的类别)上under-fitting。解决imbalanced的问题常用的方法有:1)re-sampling dataset;2)re-weighting loss function; 3)把head-classes的特征迁移给tail-classes等。
marsggbo
2022/05/11
1.6K0
ICLR2020 | 解决长尾分布的解耦学习方法
广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题
摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss和GHM Loss三种加权Loss函数;最后讲了下其他解决样本不均衡的策略,可以通过调节阈值修改正负样本比例和利用半监督或自监督学习解决样本不均衡问题。需要说明下上面解决样本不均衡问题的策略不仅仅适用于文本分类任务,还可以扩展到其他的机器学习任务中。对于希望解决样本不均衡问题的小伙伴可能有所帮助。
guichen1013
2021/01/08
9720
【机器学习-监督学习】双线性模型
  从本文开始,我们介绍参数化模型中的非线性模型。在前几篇文章中,我们介绍了线性回归与逻辑斯谛回归模型。这两个模型都有一个共同的特征:包含线性预测因子
Francek Chen
2025/01/22
1240
【机器学习-监督学习】双线性模型
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
论文标题:《Object Detection for Aerial Images With Feature Enhancement and Soft Label Assignment》
Justlovesmile
2022/11/01
1.7K0
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
Focal Loss和Balanced CE(样本比例不均衡问题)
当越不可能的事件或者相关程度越高的事件(今天中午总统吃什么,与我们相关程度低,信息量小;但是对于想应聘总统厨师的人来说,这件事的信息量就很大)发生了,我们获取到的信息量就越大,反之信息量越小。
用户8871522
2022/03/31
1.8K0
Focal Loss和Balanced CE(样本比例不均衡问题)
Github|类别不平衡学习资源(上)
今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源
kbsc13
2020/05/27
1.1K0
AI/机器学习常用公式的LaTex代码汇总
在写AI/机器学习相关的论文或者博客的时候经常需要用到LaTex的公式,然而作为资深“伸手党”的我在网上搜索的时候,居然没有找到相关现成资源@-@
blmoistawinde
2020/05/26
3.5K0
推荐阅读
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
7140
Generalized Focal Loss:Focal loss魔改以及预测框概率分布,保涨点 | NeurIPS 2020
1.4K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
1.5K0
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
5.3K0
不平衡之钥: 重加权法知几何
9540
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
1890
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
4430
针对长尾分布的Eql损失
6580
文本分类还停留在BERT?对偶对比学习框架也太强了
1.1K0
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
6180
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
4.9K0
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
2040
CVPR2022:计算机视觉中长尾数据平衡对比学习
2.5K0
ICLR2020 | 解决长尾分布的解耦学习方法
1.6K0
广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题
9720
【机器学习-监督学习】双线性模型
1240
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
1.7K0
Focal Loss和Balanced CE(样本比例不均衡问题)
1.8K0
Github|类别不平衡学习资源(上)
1.1K0
AI/机器学习常用公式的LaTex代码汇总
3.5K0
相关推荐
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档