Loading [MathJax]/extensions/TeX/AMSmath.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >跨语言对比学习

跨语言对比学习

作者头像
mathor
发布于 2021-11-17 03:42:51
发布于 2021-11-17 03:42:51
6200
举报
文章被收录于专栏:mathormathor

猿辅导在EMNLP2021上的一篇论文Aligning Cross-lingual Sentence Representations with Dual Momentum Contrast提出基于双Momentum网络的对比学习方法。对比学习最近非常火,尤其是以SimCES为首所提出的利用Dropout作为正样本的无监督学习方法。猿辅导的这篇论文和SimCES却不一样,它主要是从网络整体架构入手,基于Momentum网络提出了一种有监督的跨语言句子相似度计算方法

Dual Momentum Contrast

Momentum本意是动量,但是直接翻译过来感觉有些别扭,因此这里就直接用英文表述了。这里简要概述一下Momentum网络结构,如下图所示,它由两个Encoder组成,这两个Encoder网络的结构相同,参数不同

对于图像任务来说,代表一张图片,代表多张图片集合(包括图片),其中中除了以外的图片,对于来说都是负样本。经过encoder网络后的向量,为经过Momentum encoder网络后的多个向量

回到原论文,给定一个跨语言平行句子集,对于每种语言的句子,分别用特定语言的BERT模型去编码,提取最后一行所有token输出均值的正则化作为句向量

这里有一个很巧妙的点在于,两个经过正则化后的向量进行点积的结果,就是这两个向量的余弦相似度,因为正则化帮我们对每个向量除以了分母的平方和

论文设计的网络结构图如下所示,其中表示"stop gradient",即不反向传播;是来自两个不同语言的句子

每一种语言的BERT都有一个参数为的Momentum encoder,可以理解为原BERT的复制,只不过复制的是结构而不是参数,这些Momentum encoder不通过反向传播更新参数,他们的参数更新公式为

每种语言都有两个存储队列(Memory queues),用于存储最近几批中由相应Momentum encoder编码的个向量。在每个优化步骤中,最老的那批向量会被替换为当前batch的向量。Momentum系数,通常大家设置的值非常接近1(例如0.999)。一般设置的非常大(

是一个超参数,至于它的作用可以看我的这篇文章:Contrastive Loss中参数τ的理解。实际上式(2)是一个的Softmax分类,其中,的平行语料即正样本为,所有的负样本都在存储队列中

对称地,我们可以定义,因此最终我们的目标是

训练结束后,我们直接丢弃Momentum encoders,只保留两个BERT分别提取两种语言句子的向量

虽然作者提出的方法以及后续实验都是基于跨语言的,但实际上针对同语言也是适用的,例如给定一个同语言的句子对,设句子是由句子翻译得到的,如果模型训练得比较好,那么对于句子的向量表示应该有

两边同时点乘

后者是跨语言的句子相似度,这正是我们模型所明确优化的

个人总结

实验效果非常好,大幅超越了BERT-Whitening以及BERT-flow,不过这里我就懒得放结果图了,因为我没有在论文中看到他们的源码地址

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
XLNet详解
2018 年,谷歌发布了基于双向 Transformer 的大规模预训练语言模型BERT,刷新了 11 项 NLP 任务的最优性能记录,为 NLP 领域带来了极大的惊喜。很快,BERT 就在圈内普及开来,也陆续出现了很多与它相关的新工作
mathor
2020/08/11
1.2K0
XLNet详解
基于梯度的NLP对抗攻击方法
Facebook提出了一种NLP通用的攻击方法,而且可以通过梯度优化,论文发表在EMNLP2021,名为Gradient-based Adversarial Attacks against Text Transformers,源码在facebookresearch/text-adversarial-attack
mathor
2021/11/15
1.1K0
KDD'22 | 超图上也能学习因果效应?
本文结合超图和因果推断,专注于超图上的个干预效果 (ITE) 估计问题,旨在估计干预(例如,戴面罩)会对结果(例如,COVID-19 感染)产生多大的因果影响。现有的 ITE 估计工作要么假设一个人的结果不应该受到其他人的干预分配的影响(即没有干扰),或者假设干扰只存在于普通图中的连接个体之间。这些假设在现实世界的超图上可能是不现实的,其中高阶干扰会由于组交互的存在而影响最终的 ITE 估计。本文研究了高阶干扰建模,并提出了一种由超图神经网络驱动的新因果学习框架。
秋枫学习笔记
2023/01/30
5430
【机器学习-监督学习】双线性模型
  从本文开始,我们介绍参数化模型中的非线性模型。在前几篇文章中,我们介绍了线性回归与逻辑斯谛回归模型。这两个模型都有一个共同的特征:包含线性预测因子
Francek Chen
2025/01/22
1240
【机器学习-监督学习】双线性模型
ControlRec:对齐LLM和推荐系统之间的语义差异
标题:ControlRec: Bridging the Semantic Gap between Language Model and Personalized Recommendation 地址:https://arxiv.org/pdf/2311.16441.pdf 学校,公司:中国科学院大学,美团
秋枫学习笔记
2023/12/04
7470
ControlRec:对齐LLM和推荐系统之间的语义差异
机器学习概念:梯度下降
机器学习中大部分都是优化问题,大多数的优化问题都可以使用梯度下降/上升法处理,所以,搞清楚梯度算法就非常重要
YingJoy_
2018/03/24
1.7K2
机器学习概念:梯度下降
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
意图识别(intent detection)是面向任务对话系统的核心模块,其标注数据较少,所以研究怎样用少量数据训练出一个优秀的意图分类器(few-shot intent detection)有着很高的实用价值。
澜舟科技
2022/06/23
1.3K0
NLP 论文领读|改善意图识别的语义表示:有监督预训练中的各向同性正则化方法
ICCV 2023 | 在离散潜在空间中以优先级为中心的人体运动生成
由于固有的模态差异和文本与动作模态之间的复杂映射,生成高质量的动作并不是一件简单的事情。尽管目前已经取得了一些进展,但仍然存在两个主要问题未得到解决:
用户1324186
2023/09/09
5750
ICCV 2023 | 在离散潜在空间中以优先级为中心的人体运动生成
【机器学习-监督学习】逻辑斯谛回归
  在介绍了机器学习中相关的基本概念和技巧后,本章我们继续讲解参数化模型中的线性模型。有了前文的基础,我们可以先来对KNN算法和线性回归进行比较,进一步回答“什么是参数化模型”这一问题。对于机器学习算法来说,其目标通常可以抽象为得到某个从输入空间到输出空间的映射
Francek Chen
2025/01/22
1550
【机器学习-监督学习】逻辑斯谛回归
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
在正式讨论 Transformer-XL 之前,我们先来看看经典的 Transformer(后文称 Vanilla Transformer)是如何处理数据和训练评估模型的,如图 1 所示。
汀丶人工智能
2023/10/11
1K0
深度学习进阶篇-预训练模型[2]:Transformer-XL、Longformer、GPT原理、模型结构、应用场景、改进技巧等详细讲解
Virtual Data Augmentation: 虚拟数据扩增技术
听说过数据扩增(Data Augmentation),也听说过虚拟对抗训练(Virtual Adversarial Traning),但是我没想到会有人将其结合,谓之虚拟数据扩增(Virtual Data Augmentation)。这篇文章主要讲解EMNLP2021上的一篇论文Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models,该论文提出了一种鲁棒且通用的数据扩增方法,论文源码在https://github.com/RUCAIBox/VDA
mathor
2021/11/15
7360
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
元学习可以被定义为一种序列到序列的问题, 在现存的方法中,元学习器的瓶颈是如何去吸收同化利用过去的经验。 注意力机制可以允许在历史中精准摘取某段具体的信息。
汀丶人工智能
2023/10/11
7960
深度学习应用篇-元学习[15]:基于度量的元学习:SNAIL、RN、PN、MN
【深度学习】机器学习概述(二)优化算法之梯度下降法(批量BGD、随机SGD、小批量)
机器学习:通过算法使得机器能从大量数据中学习规律从而对新的样本做决策。   机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并可以将总结出来的规律推广应用到未观测样本上。
Qomolangma
2024/07/30
2210
【深度学习】机器学习概述(二)优化算法之梯度下降法(批量BGD、随机SGD、小批量)
当胶囊网络遇到序列推荐
预备知识:胶囊网络https://zhuanlan.zhihu.com/p/264910554
秋枫学习笔记
2022/09/19
1.1K0
Deep Learning
深度学习笔记 感知机 定义 image.png 其中, sign(x)=1 if x≥0 else 0 几何解释: w⋅x+b 是特征空间的超平面, 把特征空间划分成两部分. 损失函数 错误分类点总数, 但不是连续可导, 不容易优化 image.png 错误分类点到超平面的距离. 对于给定 x0x_0x​0​​ 到超平面的距离是 image.png 其中 ∣w∣ 是 L2范式. 那么有损失函数 image.png 其中 MMM 是错误分类点的集合 学习方法 随机梯度下降法 sto
刘笑江
2018/05/28
1K0
【机器学习-无监督学习】概率图模型
  本文讨论无监督学习中的数据分布建模问题。当我们需要在一个数据集上完成某个任务时,数据集中的样本分布显然是最基本的要素。面对不同的数据分布,我们可能针对同一任务采用完全不同的算法。例如,如果样本有明显的线性相关关系,我们就可以考虑用基于线性模型的算法解决问题;如果样本呈高斯分布,我们可能会使用高斯分布的各种性质来简化任务的要求。上一篇文章介绍的数据降维算法,也是为了在数据分布不明显的前提下,尽可能提取出数据的关键特征。因此,如何建模数据集中样本关于其各个特征的分布,就成了一个相当关键的问题。
Francek Chen
2025/01/22
990
【机器学习-无监督学习】概率图模型
深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,Dropout,Drop Connect】等
在深度学习领域,模型往往需要接收和处理大量的数据,然而在特定的某个时刻,往往只有少部分的某些数据是重要的,这种情况就非常适合Attention机制发光发热。
汀丶人工智能
2023/04/22
1.2K0
深度学习基础入门篇[六(1)]:模型调优:注意力机制[多头注意力、自注意力],正则化【L1、L2,Dropout,Drop Connect】等
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
  机器学习是从有限的观测数据中学习(或“猜测”)出具有一般性的规律,并可以将总结出来的规律推广应用到未观测样本上。   机器学习方法可以粗略地分为三个基本要素:模型、学习准则、优化算法。
Qomolangma
2024/07/30
6640
【深度学习】机器学习概述(一)机器学习三要素——模型、学习准则、优化算法
CIKM'21 「腾讯」对比学习+课程学习进行序列行为增广
本文作者提出的Contrastive Curriculum Learning(CCL)方法,主要包含两方面,分别解决上述问题:
秋枫学习笔记
2022/09/19
4900
WWW'24 | Helen:利用频率Hessian特征值正则化优化CTR模型
本文发现特征频率与特征emb的最高特征值之间存在正相关性,这种相关性凸显了参数空间中损失的不平衡分布,使得传统的优化器很难发现有效泛化的平坦的最小值,而导致将模型优化到次优状态。针对此发现且受启发于Sharpness-Aware Minimization(SAM)方法,基于频率维度的Hessian特征值正则化设计了用于CTR预估模型的优化器Helen
秋枫学习笔记
2024/04/24
2600
WWW'24 | Helen:利用频率Hessian特征值正则化优化CTR模型
推荐阅读
相关推荐
XLNet详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档