Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >$\mathcal{Y}$-Tuning: 通过对标签表征进行微调的深度学习新范式

$\mathcal{Y}$-Tuning: 通过对标签表征进行微调的深度学习新范式

作者头像
mathor
发布于 2021-12-14 05:46:41
发布于 2021-12-14 05:46:41
7390
举报
文章被收录于专栏:mathormathor

ACL2022有一篇名为《Y-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning》的投稿,从标题上就吸引了我的注意,不同于Fine-Tuning、Adapter-Tuning、Prompt-Tuning,这篇文章的创新之处在于,不调整输入文本特征与大规模预训练模型的参数,仅通过学习标签的特征,以往很少见到论文去学习标签的特征。虽然最终效果可能仍无法与微调相比,但它在节省计算成本方面有很大的优势,并有可能通过后续研究进一步提高性能

Preliminaries of Tuning PTMs

对于NLP任务来说,通常都含有输入文本xX以及标签yY,其中X的特征空间是离散的(例如One-hot)。以情感分析(Sentiment Analysis, SA)任务为例,输入句子

x=I love this movie

标签集Y={postive,negative}中的标签y=postive为真实标签

定义ϕ:XZ为输入句子到高维稠密向量空间的映射,f:ZY为改向量空间到标签空间的映射。给定训练集D,我们可以定义损失函数为:Y×YR+,并且可以通过以下方法找到最佳的fϕ

通常来说,即便分类器很简单,但只要有一个好的特征提取器,下游任务中的表现就不会差

上面的内容删减自原论文,论文中的描述有些抽象,说白了实际上可以看作是BERT,就是为了满足不同的下游任务,而接在BERT后面的一些层,例如文本分类后面接的就是一个Linear层

$\mathcal{Y}$-Tuning

我们定义是一个有标签的训练样本,是在大规模语料上训练好的预训练模型,并且在接下来始终固定的参数不更新。传统做法是微调特征提取器的参数,使其接近真实标签。-Tuning的做法是固定的参数,转而微调标签提取器的参数,并且我们使用Cross Attention将的特征进行融合,如下图所示

PTMs代表φ

损失函数为Triplet Loss,形式如下:

其中,是一个边界超参数,用于控制正负样本间的距离。在训练过程中,给定训练集,我们可以通过如下方式找到最佳的模型参数

在推理阶段,我们可以使用如下方式获得预测值:

An Implementation of $\mathcal{Y}$-Tuning

论文图中的模型架构主要由三个部分组成:

  1. 用于提取文本特征的,这个部分一般是Encoder类模型,例如BERT等
  2. 用于提取标签特征的,这个部分一般采用Transformer的Decoder结构,因为需要有Cross-Attention的部分对标签特征和文本特征进行交互
  3. 用于预测类别的标签指针(Label Pointer),这个部分比较简单,用一个平均或者最大池化将高维向量转为低维向量即可
Label Embedding

给定一个标签集,我们首先将标签映射为一个或多个连续的向量。当然,除了标签外,我们还需要将任务相关的信息映射为向量,例如情感分析任务,我们会在最前面添加一个SA标志

这其实有点像mBART,在做机器翻译的时候将该语言对应的标志(例如ZH、JP、EN等)添加到句子前面

因此,初始的标签特征为

其中,表示任务相关的embedding,表示第个类别的embedding,分别表示样本数量以及标签的表征的维度。实际上每个标签都可以用多个向量来表示,作者也做了一个对比实验,研究每个标签用多个向量来表示会对结果产生什么影响

有很多方法将标签映射为一个向量,例如从Vocabulary、均匀分布、token embedding中采样等

Self-Attention and Cross-Attention

我们首先使用self-attenion加强不同标签间的信息交互

其中,,如果在self-attention中,;如果在cross-attention中,代表输入句子的长度,代表标签输入的长度

在cross-attention中

其中,是输入句子通过PTMs后的高维向量

Label Pointer

所有计算完成之后,我们会得到输出向量

其中,是任务相关的描述特征,是类别为的标签特征。Triplet Loss的定义如下:

其中,代表正确标签对应的索引

Model Analysis

假设我们有一个层的预训练模型,它的复杂度为,其中是输入句子长度;一个有着长度为的连续型Prompt,它的复杂度为;对于-tuning来说,self-attention与cross-attention的复杂度分别为以及,其中为标签集的大小。因为在-tuning中我们是固定预训练模型参数不训练的,因此预训练模型的部分不会占用计算资源(尤其是反向传播过程)

Result

从实验结果上来看,效果算是「很有竞争力」,我们当然不能拿它与传统的FineTune相比,毕竟可训练的参数少了那么多,训练所需的算力也不是一个数量级的

个人总结

本文提出的-Tuning思路非常有意思,传统思路是对输入句子进行学习,使其输出向量靠近标签的分布;而这篇文章正好相反,对标签进行学习。让我有些意外的点是,损失函数并不是传统的CrossEntropyLoss,因为在我看来就直接将输出向量转换维度之后与真实标签进行对比就好了。但是论文使用的损失函数是Triplet Loss,不知道为什么作者为什么要这样做

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
作者简介:黄毅,本文一作,目前为罗氏集团的数据科学家,研究领域为自然语言处理的生物医学应用。
AI科技评论
2021/11/17
7140
Generalized Focal Loss:Focal loss魔改以及预测框概率分布,保涨点 | NeurIPS 2020
论文: Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection
VincentLee
2021/07/28
1.4K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
论文地址:https://aclanthology.org/2022.acl-short.75.pdf
小爷毛毛_卓寿杰
2022/11/30
1.5K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
本文涉及到大量超链接可能被微信吃掉,建议在我们的文档网站查看原始文章:https://start.oneflow.org/oneflow-yolo-doc/source_code_interpretation/utils/loss_py.html
BBuf
2022/12/29
5.3K0
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
不平衡之钥: 重加权法知几何
在《不平衡问题: 深度神经网络训练之殇》一文中,笔者已对缓解不平衡问题的方法进行梳理。限于篇幅原因,介绍比较笼统。在《不平衡之钥: 重采样法何其多》一文中,梳理了缓解不平衡问题的各种重采样方法。
枫桦
2022/08/02
9540
不平衡之钥: 重加权法知几何
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
论文: Contrastive Learning based Hybrid Networks for Long-Tailed Image Classification
VincentLee
2024/03/29
1890
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
本文针对点击率CTR预估提出新方法GMT,推荐系统的性能通常受到不活跃行为和系统曝光的影响,导致提取的特征没有包含足够的信息。本文提出基于邻域交互的CTR预测方法,通过异构信息网络HIN挖掘目标用户-商品对的局部邻域来预测他们的链接。并且,考虑节点之间的四种拓扑交互来增强局部邻域表征。
秋枫学习笔记
2022/09/19
4430
针对长尾分布的Eql损失
论文: The Equalization Losses: Gradient-Driven Training for Long-tailed Object Recognition
孔西皮
2023/10/18
6580
文本分类还停留在BERT?对偶对比学习框架也太强了
论文标题:Dual Contrastive Learning: Text Classification via Label-Aware Data Augmentation
致Great
2022/02/12
1.1K0
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
随着大规模数据集预训练模型的广泛应用,迁移学习已成为计算机视觉任务中的关键技术。但是,从大量的预训练模型库中为特定下游任务选择最优的预训练模型仍然是一个挑战。现有的方法主要依赖于编码的静态特征与任务标签之间的统计相关性来测量预训练模型的可迁移性,但它们忽略了微调过程中潜在的表示动力学的影响,导致结果不可靠,尤其是对于自监督模型。在本文中,我们从潜在能量的角度提出了一种新颖的方法——PED,来解决这些挑战。我们将迁移学习动力视为降低系统潜在能量的过程,并直接对影响微调动力学的相互作用力进行物理学建模。通过在物理驱动模型中捕获动态表示的运动来降低潜在能量,我们可以获得增强和更稳定的观测结果来估计可迁移性。在10个下游任务和12个自监督模型上的实验结果表明,我们的方法可以顺利集成到现有的优秀技术中,增强它们的性能,这揭示了它在模型选择任务中的有效性和发掘迁移学习机制的潜力。我们的代码将在https://github.com/lixiaotong97/PED上开源。
BBuf
2023/09/08
6180
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
深度学习基础入门篇六:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
汀丶人工智能
2023/04/20
4.9K0
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
论文: Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification
VincentLee
2024/09/13
2040
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
CVPR2022:计算机视觉中长尾数据平衡对比学习
现实中的数据通常存在长尾分布,其中一些类别占据数据集的大部分,而大多数稀有样本包含的数量有限,使用交叉熵的分类模型难以很好的分类尾部数据。在这篇论文中,作者专注不平衡数据的表示学习。通过作者的理论分析,发现对于长尾数据,它无法形成理想的几何结构(在下文中解释该结构)。为了纠正 SCL(Supervised Contrastive Learning,有监督对比学习) 的优化行为并进一步提高长尾视觉识别的性能,作者提出了一种新的BCL(Balanced Contrastive Learning,平衡对比学习)损失。
BBuf
2022/09/28
2.5K0
CVPR2022:计算机视觉中长尾数据平衡对比学习
ICLR2020 | 解决长尾分布的解耦学习方法
长尾分布数据集是目前训练模型的一个很大的挑战,模型在这类数据集上通常会在 head-classes (即数量较多的类别)上overfitting,而在tail-classes(即数量较少的类别)上under-fitting。解决imbalanced的问题常用的方法有:1)re-sampling dataset;2)re-weighting loss function; 3)把head-classes的特征迁移给tail-classes等。
marsggbo
2022/05/11
1.6K0
ICLR2020 | 解决长尾分布的解耦学习方法
广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题
摘要:本篇主要从理论到实践解决文本分类中的样本不均衡问题。首先讲了下什么是样本不均衡现象以及可能带来的问题;然后重点从数据层面和模型层面讲解样本不均衡问题的解决策略。数据层面主要通过欠采样和过采样的方式来人为调节正负样本比例,模型层面主要是通过加权Loss,包括基于类别Loss、Focal Loss和GHM Loss三种加权Loss函数;最后讲了下其他解决样本不均衡的策略,可以通过调节阈值修改正负样本比例和利用半监督或自监督学习解决样本不均衡问题。需要说明下上面解决样本不均衡问题的策略不仅仅适用于文本分类任务,还可以扩展到其他的机器学习任务中。对于希望解决样本不均衡问题的小伙伴可能有所帮助。
guichen1013
2021/01/08
9720
【机器学习-监督学习】双线性模型
  从本文开始,我们介绍参数化模型中的非线性模型。在前几篇文章中,我们介绍了线性回归与逻辑斯谛回归模型。这两个模型都有一个共同的特征:包含线性预测因子
Francek Chen
2025/01/22
1240
【机器学习-监督学习】双线性模型
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
论文标题:《Object Detection for Aerial Images With Feature Enhancement and Soft Label Assignment》
Justlovesmile
2022/11/01
1.7K0
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
Focal Loss和Balanced CE(样本比例不均衡问题)
当越不可能的事件或者相关程度越高的事件(今天中午总统吃什么,与我们相关程度低,信息量小;但是对于想应聘总统厨师的人来说,这件事的信息量就很大)发生了,我们获取到的信息量就越大,反之信息量越小。
用户8871522
2022/03/31
1.8K0
Focal Loss和Balanced CE(样本比例不均衡问题)
Github|类别不平衡学习资源(上)
今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文、代码、框架、库等资源
kbsc13
2020/05/27
1.1K0
AI/机器学习常用公式的LaTex代码汇总
在写AI/机器学习相关的论文或者博客的时候经常需要用到LaTex的公式,然而作为资深“伸手党”的我在网上搜索的时候,居然没有找到相关现成资源@-@
blmoistawinde
2020/05/26
3.5K0
推荐阅读
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
7140
Generalized Focal Loss:Focal loss魔改以及预测框概率分布,保涨点 | NeurIPS 2020
1.4K0
【ACL 2022】用于多标签文本分类的对比学习增强最近邻机制
1.5K0
《YOLOv5全面解析教程》​十二,Loss 计算详细解析
5.3K0
不平衡之钥: 重加权法知几何
9540
Hybrid-PSC:基于对比学习的混合网络,解决长尾图片分类 | CVPR 2021
1890
SIGIR'22「腾讯」GMT:邻域感知的Masked Transformer进行点击率预测
4430
针对长尾分布的Eql损失
6580
文本分类还停留在BERT?对偶对比学习框架也太强了
1.1K0
“北大-鹏城-腾讯”新视角:从势能的角度探讨模型的可迁移性-ICCV2023开源
6180
深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。
4.9K0
CPRFL:基于CLIP的新方案,破解长尾多标签分类难题 | ACM MM'24
2040
CVPR2022:计算机视觉中长尾数据平衡对比学习
2.5K0
ICLR2020 | 解决长尾分布的解耦学习方法
1.6K0
广告行业中那些趣事系列:从理论到实践解决文本分类中的样本不均衡问题
9720
【机器学习-监督学习】双线性模型
1240
旋转目标检测 | FSDet,解决旋转特征不对齐与正负样本不均衡
1.7K0
Focal Loss和Balanced CE(样本比例不均衡问题)
1.8K0
Github|类别不平衡学习资源(上)
1.1K0
AI/机器学习常用公式的LaTex代码汇总
3.5K0
相关推荐
EMNLP 2021 | 罗氏和博阿齐奇大学研究合作团队提出:多标签文本分类中长尾分布的平衡策略
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档