Loading [MathJax]/jax/output/CommonHTML/jax.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >$\mathcal{Y}$-Tuning: 通过对标签表征进行微调的深度学习新范式

$\mathcal{Y}$-Tuning: 通过对标签表征进行微调的深度学习新范式

作者头像
mathor
发布于 2021-12-14 05:46:41
发布于 2021-12-14 05:46:41
7390
举报
文章被收录于专栏:mathormathor

ACL2022有一篇名为《-Tuning: An Efficient Tuning Paradigm for Large-Scale Pre-Trained Models via Label Representation Learning》的投稿,从标题上就吸引了我的注意,不同于Fine-Tuning、Adapter-Tuning、Prompt-Tuning,这篇文章的创新之处在于,不调整输入文本特征与大规模预训练模型的参数,仅通过学习标签的特征,以往很少见到论文去学习标签的特征。虽然最终效果可能仍无法与微调相比,但它在节省计算成本方面有很大的优势,并有可能通过后续研究进一步提高性能

Preliminaries of Tuning PTMs

对于NLP任务来说,通常都含有输入文本以及标签,其中的特征空间是离散的(例如One-hot)。以情感分析(Sentiment Analysis, SA)任务为例,输入句子

标签集中的标签为真实标签

定义为输入句子到高维稠密向量空间的映射,为改向量空间到标签空间的映射。给定训练集,我们可以定义损失函数为,并且可以通过以下方法找到最佳的

通常来说,即便分类器很简单,但只要有一个好的特征提取器,下游任务中的表现就不会差

上面的内容删减自原论文,论文中的描述有些抽象,说白了实际上可以看作是BERT,就是为了满足不同的下游任务,而接在BERT后面的一些层,例如文本分类后面接的就是一个Linear层

$\mathcal{Y}$-Tuning

我们定义是一个有标签的训练样本,是在大规模语料上训练好的预训练模型,并且在接下来始终固定的参数不更新。传统做法是微调特征提取器的参数,使其接近真实标签。-Tuning的做法是固定的参数,转而微调标签提取器的参数,并且我们使用Cross Attention将的特征进行融合,如下图所示

PTMs代表φ

损失函数为Triplet Loss,形式如下:

其中,是一个边界超参数,用于控制正负样本间的距离。在训练过程中,给定训练集,我们可以通过如下方式找到最佳的模型参数

在推理阶段,我们可以使用如下方式获得预测值:

An Implementation of $\mathcal{Y}$-Tuning

论文图中的模型架构主要由三个部分组成:

  1. 用于提取文本特征的,这个部分一般是Encoder类模型,例如BERT等
  2. 用于提取标签特征的,这个部分一般采用Transformer的Decoder结构,因为需要有Cross-Attention的部分对标签特征和文本特征进行交互
  3. 用于预测类别的标签指针(Label Pointer),这个部分比较简单,用一个平均或者最大池化将高维向量转为低维向量即可
Label Embedding

给定一个标签集,我们首先将标签映射为一个或多个连续的向量。当然,除了标签外,我们还需要将任务相关的信息映射为向量,例如情感分析任务,我们会在最前面添加一个SA标志

这其实有点像mBART,在做机器翻译的时候将该语言对应的标志(例如ZH、JP、EN等)添加到句子前面

因此,初始的标签特征为

其中,表示任务相关的embedding,表示第个类别的embedding,分别表示样本数量以及标签的表征的维度。实际上每个标签都可以用多个向量来表示,作者也做了一个对比实验,研究每个标签用多个向量来表示会对结果产生什么影响

有很多方法将标签映射为一个向量,例如从Vocabulary、均匀分布、token embedding中采样等

Self-Attention and Cross-Attention

我们首先使用self-attenion加强不同标签间的信息交互

其中,,如果在self-attention中,;如果在cross-attention中,代表输入句子的长度,代表标签输入的长度

在cross-attention中

其中,是输入句子通过PTMs后的高维向量

Label Pointer

所有计算完成之后,我们会得到输出向量

其中,是任务相关的描述特征,是类别为的标签特征。Triplet Loss的定义如下:

其中,代表正确标签对应的索引

Model Analysis

假设我们有一个层的预训练模型,它的复杂度为,其中是输入句子长度;一个有着长度为的连续型Prompt,它的复杂度为;对于-tuning来说,self-attention与cross-attention的复杂度分别为以及,其中为标签集的大小。因为在-tuning中我们是固定预训练模型参数不训练的,因此预训练模型的部分不会占用计算资源(尤其是反向传播过程)

Result

从实验结果上来看,效果算是「很有竞争力」,我们当然不能拿它与传统的FineTune相比,毕竟可训练的参数少了那么多,训练所需的算力也不是一个数量级的

个人总结

本文提出的-Tuning思路非常有意思,传统思路是对输入句子进行学习,使其输出向量靠近标签的分布;而这篇文章正好相反,对标签进行学习。让我有些意外的点是,损失函数并不是传统的CrossEntropyLoss,因为在我看来就直接将输出向量转换维度之后与真实标签进行对比就好了。但是论文使用的损失函数是Triplet Loss,不知道为什么作者为什么要这样做

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
RecSys'22|CARCA:交叉注意力感知上下文和属性进行推荐
本文将用户的上下文信息和商品的属性结合起来考虑,提出上下文和属性感知推荐模型 (CARCA) ,该模型可以通过多头自注意力块将上下文特征和商品属性结合起来。现有的大部分序列推荐方法是采用序列中最近的商品表征和目标商品计算点击来计算评分,而CARCA利用交叉注意力记住计算所有序列商品和目标商品来预测他们的最终分数。利用交叉注意力,计算旧商品和最近商品之间的相关性以及它们对决定接下来推荐哪个项目的影响。
秋枫学习笔记
2022/09/19
6870
【论文阅读】GETNext:Trajectory Flow Map Enhanced Transformer for Next POI Recommendation
authors:: Song Yang, Jiamou Liu, Kaiqi Zhao container:: Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval year:: 2022 DOI:: 10.1145/3477495.3531983 rating:: ⭐⭐️⭐️ share:: false comment:: 论文的主干网络仍然是 Transformer,通过构建 POI 之间的转移权重图(trajectory flow map)并通过 GCN 进行 POI Embedding;最后,又同时预测 POI、时间、类别,加强了损失函数。
EmoryHuang
2022/10/31
7990
【论文阅读】GETNext:Trajectory Flow Map Enhanced Transformer for Next POI Recommendation
Vision Transformer(ViT)
Transformer[1]是Google在2017年提出的一种Seq2Seq结构的语言模型,在Transformer中首次使用Self-Atttention机制完全代替了基于RNN的模型结构,使得模型可以并行化训练,同时解决了在基于RNN模型中出现了长距离依赖问题,因为在Self-Attention中能够对全局的信息建模。
felixzhao
2023/02/26
1.3K0
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
元学习可以被定义为一种序列到序列的问题, 在现存的方法中,元学习器的瓶颈是如何去吸收同化利用过去的经验。 注意力机制可以允许在历史中精准摘取某段具体的信息。
汀丶人工智能
2023/10/11
7960
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
基于梯度的NLP对抗攻击方法
Facebook提出了一种NLP通用的攻击方法,而且可以通过梯度优化,论文发表在EMNLP2021,名为Gradient-based Adversarial Attacks against Text Transformers,源码在facebookresearch/text-adversarial-attack
mathor
2021/11/15
1.1K0
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
  机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并可以将总结出来的规律推广应用到未观测样本上。   机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法。
Qomolangma
2024/07/30
6640
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
CVPR2023 | PVDM:在投影潜在空间中的视频概率扩散模型
深度生成模型的最新进展表明,它们有望在各个领域合成高质量、逼真的样本,例如图像、音频、3D 场景 、自然语言等。作为下一步,一些作品已经积极关注更具挑战性的视频合成任务。与其他领域的成功相比,由于视频的高维性和复杂性,在高分辨率帧中包含复杂的时空动态,因此生成质量与真实世界的视频相去甚远。
用户1324186
2023/12/28
5550
CVPR2023 | PVDM:在投影潜在空间中的视频概率扩散模型
多语言DPR:知识蒸馏+Soft Prompt解码
cross-lingual language models (XLMs)来自Facebook提出的将语言模型拓展为多语言的方法,详情可以见:XLM解读[1] 或原文 Cross-lingual Language Model Pretraining[2].
NewBeeNLP
2023/12/13
3700
多语言DPR:知识蒸馏+Soft Prompt解码
什么特征进行交互才是有效的?
本文主要针对推荐系统中的特征交互而提出的相关方法,如果将所有可能的特征都进行交互,那消耗是很大的,本文提出HIRS用于直接生成有益特征交互。生成的特征交互的数量可以指定为远小于所有可能的交互的数量,因此模型运行时间更短。
秋枫学习笔记
2022/09/19
8830
Virtual Data Augmentation: 虚拟数据扩增技术
听说过数据扩增(Data Augmentation),也听说过虚拟对抗训练(Virtual Adversarial Traning),但是我没想到会有人将其结合,谓之虚拟数据扩增(Virtual Data Augmentation)。这篇文章主要讲解EMNLP2021上的一篇论文Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models,该论文提出了一种鲁棒且通用的数据扩增方法,论文源码在https://github.com/RUCAIBox/VDA
mathor
2021/11/15
7360
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
意图识别(intent detection)是面向任务对话系统的核心模块,其标注数据较少,所以研究怎样用少量数据训练出一个优秀的意图分类器(few-shot intent detection)有着很高的实用价值。
澜舟科技
2022/06/23
1.3K0
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
【深度学习基础】线性神经网络 | 线性回归
回归(regression)是能为一个或多个自变量与因变量之间关系建模的一类方法。在自然科学和社会科学领域,回归经常用来表示输入和输出之间的关系。
Francek Chen
2025/01/22
2170
【深度学习基础】线性神经网络 | 线性回归
【现代深度学习技术】循环神经网络04:循环神经网络
是隐状态(hidden state),也称为隐藏变量(hidden variable),它存储了到时间步
Francek Chen
2025/04/20
1510
【现代深度学习技术】循环神经网络04:循环神经网络
CIKM'21会话推荐:自监督图协同训练缓解数据稀疏问题
title:Self-Supervised Graph Co-Training for Session-based Recommendation
秋枫学习笔记
2022/09/19
5190
CIKM'21 「腾讯」对比学习+课程学习进行序列行为增广
本文作者提出的Contrastive Curriculum Learning(CCL)方法,主要包含两方面,分别解决上述问题:
秋枫学习笔记
2022/09/19
4900
HCCF:超图携手对比学习
预备知识:超图:https://zhuanlan.zhihu.com/p/361471954
秋枫学习笔记
2022/09/19
7080
NER的过去、现在和未来综述-现在
命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
百川AI
2021/10/25
2.9K0
NER的过去、现在和未来综述-现在
KDD'22 | 自监督超图Transformer构建推荐系统
现有基于 GNN 的推荐系统的思想是递归地执行沿用户-商品交互边传递消息,从而得到相应的embedding。尽管它们很有效,但大多数当前的推荐模型都依赖于充足且高质量的训练数据,因此学习的表征可以很好地捕捉用户偏好。许多实际推荐场景中的用户行为数据通常是嘈杂的并且呈现出偏态分布,这可能导致基于 GNN 的模型中的表征性能欠佳。本文提出了 SHT,自监督超图Transformer框架 (SHT),它通过以显式方式探索全局协作关系来增强用户表征。具体来说,利用图协同过滤范式使用超图Transformer来维持用户和商品之间的全局协作效果。利用提炼的全局上下文,提出了一种跨视图生成自监督学习组件,用于在用户-商品交互图上进行数据增强,以增强推荐系统的鲁棒性。
秋枫学习笔记
2022/09/19
1.2K0
【深度学习基础】线性神经网络 | softmax回归
深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。 【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/PyTorch_deep_learning。
Francek Chen
2025/01/22
1060
【深度学习基础】线性神经网络 | softmax回归
【深度学习基础】多层感知机 | 前向传播、反向传播和计算图
PyTorch深度学习 深度学习 (DL, Deep Learning) 特指基于深层神经网络模型和方法的机器学习。它是在统计机器学习、人工神经网络等算法模型基础上,结合当代大数据和大算力的发展而发展出来的。深度学习最重要的技术特征是具有自动提取特征的能力。神经网络算法、算力和数据是开展深度学习的三要素。深度学习在计算机视觉、自然语言处理、多模态数据分析、科学探索等领域都取得了很多成果。本专栏介绍基于PyTorch的深度学习算法实现。 【GitCode】专栏资源保存在我的GitCode仓库:https://gitcode.com/Morse_Chen/PyTorch_deep_learning。
Francek Chen
2025/01/24
2440
【深度学习基础】多层感知机 | 前向传播、反向传播和计算图
推荐阅读
相关推荐
RecSys'22|CARCA:交叉注意力感知上下文和属性进行推荐
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档