Loading [MathJax]/jax/output/CommonHTML/autoload/mtable.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >文本数据扩增时,哪些单词(不)应该被选择?

文本数据扩增时,哪些单词(不)应该被选择?

作者头像
mathor
发布于 2021-12-21 08:19:42
发布于 2021-12-21 08:19:42
1.1K0
举报
文章被收录于专栏:mathormathor

文本扩增(Text Augmentation)现在大部分人都在用,因为它可以帮助提升文本分类的效果,具体来说常用的方法包括但不限于:替换、删除、增加。一般来说文本扩增都会使得最终的性能更好,少部分情况下会更差。你或许可能想过是因为诸如删除、替换等方法将句子中一些重要的词给抹去了,但是到底句子中那些词是重要的词呢?哪些词可以进行扩增,哪些词最好不要扩增?

ACL2022有一篇名为《Roles of Words: What Should (n’t) Be Augmented in Text Augmentation on Text Classification Tasks?》的投稿研究了这个问题,并且给出了指导方法。首先作者对FD News数据集进行训练,最终在测试集上的准确率为98.92%,这说明模型对数据集的拟合程度非常好。接着作者手动输入几个测试样本,如下所示

因为单词"basketball"和"athletes"经常出现在"sport"类的训练样本中,所以模型能非常准确的将其预测为"sport"类;然而从第2和4个样本来看,模型的表现并不像我们想象的那么好。由于"Based on"和"team"在训练集中经常与类别为"sport"的句子共同出现,模型被这种数据集进行训练后,自然会带有一点「偏见」;从最后一个例子来看,模型无法正确识别出与体育相关的专业词汇:三分(three-pointer)

上面这个例子启发我们从「统计相关性」「语义相似性」两个角度看待句子中的每个词。具体来说,我们可以从这两个角度给每个词分配一种「角色」,总共有4种角色:

  1. Common Class-indicating words (CC-words):统计相关性与语义相似性
  2. Specific Class-indicating words (SC-words):统计相关性与语义相似性
  3. Intermediate Class-indicating words (IC-words):统计相关性与语义相似性
  4. Class-irrelevant words/Other words (O-words):统计相关性与语义相似性

Statistical Correlation & Semantic Similarity

作者采用weighted log-likelihood ratio (WLLR) 衡量句子中的每个词与类别之间的统计相关性,WLLR分数的计算公式如下:

其中,是一个单词;是一个类别;代表所有类别。越大,词与类别之间的统计相关性越高

为了衡量两个词的语义相似度,最直接的办法是计算两个向量的余弦相似度,但是这里作者并没有使用比较复杂的BERT-based模型提取单词的向量,因为需要比较大的计算资源,作者直接使用简单的Word2Vec方法得到一个单词的向量。预先相似度的计算公式如下:

其中,代表类别,分别代表词和类别的向量表示

一般来说类别都是有文本描述的,例如"体育"、"电脑"等,我们直接使用其描述当作

计算完给定句子中所有词的统计相关性与余弦相似性之后,我们设定一个阈值以区分高(低)WLLR分数,同样也要区分高(低)余弦分数

$$ \begin{aligned} W_{CC} &= \{w\mid w\in C_h \cap S_h\}\\ W_{SC} &= \{w\mid w\in C_l \cap S_h\}\\ W_{IC} &= \{w\mid w\in C_h \cap S_l\}\\ W_{O} &= \{w\mid w\in C_l \cap S_l\} \end{aligned} $$

其中,分别表示CC-words, SC-words, IC-words以及O-words。一个真实的抽取样例如下

Results

作者实验时使用的阈值为两个指标的中位数。首先是删除实验

从结果来看,删除CC-words对性能的损失影响非常大;删除SC-words和IC-words带来的积极影响比较多。实际上第一条结论我们很容易想到,因为CC-words与标签同时具有高相关性与高语义相似性,将它删除肯定会大幅降低模型判断的准确率。但是后一条结论有些不符合我的猜想,我一开始认为删除O-words会更好,因为O-words与标签并不怎么相关,删除它也无伤大雅。但事实是删除SC-words和IC-words效果更好,论文里的解释是,因为SC-words与标签的统计相关性比较低、语义相似性比较高,删除这些词可以强迫模型更关注CC-words。IC-words与标签的统计相关性比较高、语义相似性比较低,论文解释说,IC-words通常是一些带有噪声以及bias的数据,删除它们可以帮助模型避免学到关于该类别的不正确特征

同理,作者也做了插入、替换、交换的数据扩增方法,这里就不一一列出结果了,感兴趣的读者自行阅读原论文即可。下面贴一张表,是作者对四种数据扩增方法使用的一个总结

个人总结

这篇论文提出了一种有选择性的文本扩增方法。具体来说,论文设定了四种角色,并且将每个单词分配为一个角色,面对不同的扩增手段,对不同角色的单词进行操作。这样可以有效地避免信息损失,并且生成高质量的文本数据

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
文本数据的机器学习自动分类方法(上)
【编者按】:随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类、组织和管理,已经成为一个具有重要用途的研究课题。而在这些数据中,文本数据又是数量最大的一类。以统计理论为基础,利用机器学习算法对已知的训练数据做统计分析从而获得规律,再运用规律对未知数据做预测分析,已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章,为您详细阐述机器学习文本分类的基本方法与处理流程。 本文为第一部分,着重介绍文本预处理以及特征抽取的方法。第二部分将会着重介绍特征向量
小莹莹
2018/04/23
2K0
文本数据的机器学习自动分类方法(上)
文本数据的特征提取都有哪些方法?
介绍了一些传统但是被验证是非常有用的,现在都还在用的策略,用来对非结构化的文本数据提取特征。
double
2019/10/08
6K0
文本数据的特征提取都有哪些方法?
NLP之——Word2Vec详解
2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是,word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。很多人以为word2vec指的是一个算法或模型,这也是一种谬误。接下来,本文将从统计语言模型出发,尽可能详细地介绍word2vec工具背后的算法模型的来龙去脉。
10JQKA
2018/07/25
1.2K0
NLP之——Word2Vec详解
Virtual Data Augmentation: 虚拟数据扩增技术
听说过数据扩增(Data Augmentation),也听说过虚拟对抗训练(Virtual Adversarial Traning),但是我没想到会有人将其结合,谓之虚拟数据扩增(Virtual Data Augmentation)。这篇文章主要讲解EMNLP2021上的一篇论文Virtual Data Augmentation: A Robust and General Framework for Fine-tuning Pre-trained Models,该论文提出了一种鲁棒且通用的数据扩增方法,论文源码在https://github.com/RUCAIBox/VDA
mathor
2021/11/15
7360
NLP教程(2) | GloVe及词向量的训练与评估
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/01
1.1K0
NLP教程(2) | GloVe及词向量的训练与评估
Word2vec理论基础——词向量
我们希望原始文本信息能够得到保留,例如国王和女王之间的关系和男人与女人之间的关系应是特别接近的,法国和巴黎之间关系与德国和巴黎的关系也是接近的。
Hsinyan
2022/06/19
5240
Word2vec理论基础——词向量
顶刊TPAMI 2021 | 换个损失函数就能实现数据扩增?
本文主要介绍我们刚刚被IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI)录用的一篇文章:Regularizing Deep Networks with Semantic Data Augmentation。
Amusi
2021/01/28
7430
顶刊TPAMI 2021 | 换个损失函数就能实现数据扩增?
授人以渔:分享我的文本分类经验总结
在我们做一个项目或业务之前,需要了解为什么要做它,比如为什么要做文本分类?项目开发需要,还是文本类数据值得挖掘。
对白
2022/04/01
4870
授人以渔:分享我的文本分类经验总结
【干货笔记】CS224n-2019 学习笔记 Lecture 01 Introduction and Word Vectors
人类之所以比类人猿更“聪明”,是因为我们有语言,因此是一个人机网络,其中人类语言作为网络语言。人类语言具有 信息功能 和 社会功能 。
zenRRan
2020/02/18
6510
LLD: 内部数据指导的标签去噪方法
很多数据集中的标签都存在错误,即便它们是由人来标注的,错误标签的存在会给模型训练带来某些负面影响。目前缓解这种影响有诸如删除错误标签、降低其权重等方法。ACL2022有一篇名为《A Light Label Denoising Method with the Internal Data Guidance》的投稿提出了一种基于样本内部指导的方法解决这个问题
mathor
2021/12/13
1.1K0
LLD: 内部数据指导的标签去噪方法
文本挖掘模型:本特征提取
文本挖掘模型结构示意图 1. 分词 分词实例: 提高人民生活水平:提高、高人、人民、民生、生活、活水、水平 分词基本方法: 最大匹配法、最大概率法分词、最短路径分词方法
机器学习AI算法工程
2018/03/12
1.5K0
文本挖掘模型:本特征提取
深度学习在文本分类中的应用
近期阅读了一些深度学习在文本分类中的应用相关论文(论文笔记),同时也参加了CCF 大数据与计算智能大赛(BDCI)2017的一个文本分类问题的比赛:让AI当法官,并取得了最终评测第四名的成绩(比赛的具体思路和代码参见github项目repo)。因此,本文总结了文本分类相关的深度学习模型、优化思路以及今后可以进行的一些工作。欢迎转载 1. 文本分类任务介绍 文本分类是自然语言处理的一个基本任务,试图推断出给定的文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛。如: 垃圾邮件分类:二分类问
llhthinker
2018/01/24
3.2K0
【NLP实战】手把手带你RCNN文本分类
之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?
yuquanle
2020/03/13
1.4K0
【NLP CS224N笔记】Lecture 2 - Word Vector Representations: word2vec
那么在计算机中是如何获取一个word的meaning的呢?常见的解决办法是使用像WordNet之类的数据集,它包含了同义词(synonym)组和上位词(hypernyms)组。这种表示方法属于Discrete representation
marsggbo
2019/01/02
5650
文本数据处理的终极指南-[NLP入门]
简介 实现任何程度或者级别的人工智能所必需的最大突破之一就是拥有可以处理文本数据的机器。值得庆幸的是,全世界文本数据的数量在最近几年已经实现指数级增长。这也迫切需要人们从文本数据中挖掘新知识、新观点。
用户1332428
2018/03/30
1.4K0
文本数据处理的终极指南-[NLP入门]
【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-b
authors:: Zhilun Zhou, Yu Liu, Jingtao Ding, Depeng Jin, Yong Li container:: Proceedings of the ACM web conference 2023 year:: 2023 DOI:: 10.1145/3543507.3583239 rating:: ⭐⭐⭐⭐ share:: true comment:: 基于LBSN构建知识图谱,分别学习全局知识和领域分层知识
EmoryHuang
2023/05/18
4490
【论文阅读】Hierarchical knowledge graph learning enabled socioeconomic indicator prediction in location-b
NLP教程(1)-词向量、SVD分解与Word2Vec
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/04/29
1.2K0
NLP教程(1)-词向量、SVD分解与Word2Vec
如何对非结构化文本数据进行特征工程操作?这里有妙招!
文本数据通常是由表示单词、句子,或者段落的文本流组成。由于文本数据非结构化(并不是整齐的格式化的数据表格)的特征和充满噪声的本质,很难直接将机器学习方法应用在原始文本数据中。在本文中,我们将通过实践的方法,探索从文本数据提取出有意义的特征的一些普遍且有效的策略,提取出的特征极易用来构建机器学习或深度学习模型。 研究动机 想要构建性能优良的机器学习模型,特征工程必不可少。有时候,可能只需要一个优秀的特征,你就能赢得 Kaggle 挑战赛的胜利!对于非结构化的文本数据来说,特征工程更加重要,因为我们需要将文
AI研习社
2018/03/16
2.3K0
如何对非结构化文本数据进行特征工程操作?这里有妙招!
NER的过去、现在和未来综述-过去
命名实体识别(NER, Named Entity Recognition),是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
百川AI
2021/10/25
2K0
NER的过去、现在和未来综述-过去
斯坦福NLP课程 | 第2讲 - 词向量进阶
教程地址:http://www.showmeai.tech/tutorials/36
ShowMeAI
2022/05/01
6170
斯坦福NLP课程 | 第2讲 - 词向量进阶
推荐阅读
相关推荐
文本数据的机器学习自动分类方法(上)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档