Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

融合自训练和自监督方法,让文本丝般顺滑!|EMNLP 2020

作者头像
AI科技评论
发布于 2020-10-27 03:03:26
发布于 2020-10-27 03:03:26
1.4K0
举报
文章被收录于专栏:AI科技评论AI科技评论

原创作者:王少磊

文本顺滑(Disfluency Detection)的目的是删除自动语音识别(ASR)结果中的不顺滑的词,从而得到更自然和通顺的句子。

目前大部分在文本顺滑(Disfluency Detection)任务上的工作都严重依赖人工标注数据。

本文介绍一篇被EMNLP 2020录取的工作,在本工作中,作者首次尝试用无监督的方法来解决文本顺滑问题。

作者通过结合自训练(self-training)和自监督(self-supervised)两种方法,在不采用任何有标注训练数据的情况下,取得了跟目前最好的有监督方法接近的效果。

论文名称:

《Combining Self-Training and Self-Supervised Learningfor Unsupervised Disfluency Detection》

论文作者:王少磊,王重元,车万翔,刘挺

论文链接:http://ir.hit.edu.cn/~slwang/emnlp2020.pdf

以下是论文一作王少磊对本文的亲自解读。

1 任务简介及动机

自动语音识别(ASR)得到的文本中,往往含有大量的不流畅现象。这些不流畅现象会对后面的自然语言理解系统(如句法分析,机器翻译等)造成严重的干扰,因为这些系统往往是在比较流畅的文本上训练的。

不流畅现象主要分为两部分,一部分是ASR系统本身识别错误造成的,另一部分是speaker话中自带的。

NLP领域主要关注的是speaker话中自带的不流畅现象,ASR识别错误则属于语音识别研究的范畴。

顺滑(disfluency detection)任务的目的就是要识别出speaker话中自带的不流畅现象。

图1 顺滑示例

Speaker话中自带的不流畅现象主要分为两大类,分别为Filler类型和Edit类型。

以英文为例,Filler类型主要包括“uh”、“oh”等语气词,以及“so”、“well”等话语标记语。

Filler类型的一个特点是其对应的不流畅部分属于一个封闭的短语集合,因此,利用简单的规则或者机器学习模型就可以很好地识别Filler类型。Edit类型主要包括重复,以及被后面的短语所纠正的部分。

图1是一个英文顺滑任务的示例。在例句中,“um”,“I mean”属于Filler类型,“to Boston”则属于Edit类型,其被后面的“to Denver”所纠正。

Edit类型是顺滑任务中最难处理的类型,因为Edit类型的短语长度不固定,出现的位置比较灵活,甚至会出现嵌套的结构。因此,顺滑相关的研究主要集中在Edit类型的处理上(后面的内容默认处理的是Edit类型)。

对于顺滑任务,目前主要用到的语料是English Switchboard数据,在中文上还没有公开的语料。

目前大部分在文本顺滑任务上的工作都严重依赖人工标注数据。为了减少对有标注数据的依赖,我们发表在AAAI2020上的工作“Multi-Task Self-Supervised Learning for Disfluency Detection”尝试用自监督学习的方法来处理文本顺滑任务。

自监督学习方法能有效减少对有标注数据的依赖,但是其性能还需要依赖于有标注数据。

在本工作中,我们尝试融合自训练和自监督两种学习方法,探索无监督的文本顺滑方法。实验结果表明,我们的方法在不使用有标注数据进行训练的情况下,取得了非常不错的性能。

2 方法介绍

图2 方法整体框架

如图2所示,模型输入主要包含用于自监督学习的新闻领域数据和用于自训练的ASR输出结果。

我们首先在新闻数据上,利用简单的随机添加或者删除词组的方式构造了大规模的伪数据,并基于这些伪数据训练了一个句法判别器,用于判断给定的句子是否符合语法。

这个句法判别器主要用于自训练阶段筛选带有高质量伪标签的数据。之后,同样在新闻数据上,我们利用随机添加的方式构造了另外一组大规模伪数据,并利用这些伪数据来初始化自训练阶段的teacher模型。

训练好初始化的teacher模型后,我们用teacher模型对ASR输出结果打标签,判断输出结果中的每个词是否是冗余(非顺滑)的。

我们假定,一旦句子中的冗余成分被teacher模型正确识别后,那么删除这些冗余词之后剩下的句子是语法完整的。

基于这个假设,我们用之前训练好的句法判别器来帮助筛选句子,一旦句法判别器认为删除冗余成分(模型自动识别结果)后的句子是符合语法的,那么我们认为模型所预测的标签是正确的,并将该句抽取出来用作下一轮的训练。这个过程将被不断地循环,直到在开发集上的性能停止增长。

2.1 构造伪数据

我们构造了两类伪数据,是在正常句子(取自新闻语料)基础上随机增加一些词,是在正常句子基础上随机删除一些词。

对于类型,我们主要采用两种方式添加扰动:

  • Repetition(k):从第k个词的位置开始随机选取1到6个词进行重复操作。
  • Inserting(k):在第k个位置之前随机插入1到6个词(从新闻语料中选取的m-gram)
  • 对于一个正常的句子,我们一般随机选取1到3个位置,然后随机选取一种方式添加扰动。需要注意的是,添加扰动后的句子也有一定几率是正常的句子(比如在名词之前随机添加了一些形容词),这样可能会带来额外的噪声。 我们在构造数据的时候并没有针对这种情况进行特殊处理,因为在数据量足够大的时候,这些噪声带来的影响应该会非常小。

对于类型,我们一般随机选取1到3个位置,然后针对每个位置,随机删除掉1到6个词。

需要注意的是,在我们的实验过程当中,一个句子一般只被用来构造一种类型的非顺滑句子,以防止模型学习到一些统计性规律(比如中间长度的句子一般是顺滑的)。

2.2 模型细节

在输入层和中间表示层,我们采用与BERT(Devlin et al.,2019)类似的transformer结构。

我们发现在参数初始化的时候,ELECTRA模型相对于BERT等模型,在同样的参数规模情况下,性能表现更好,所以我们的实验都是基于ELECTRA Base来初始化的。

3 实验结果及分析

3.1 实验设置

我们主要在English Switchboard(SWBD)数据集上测试我们方法的性能。

为了验证我们模型的稳定性,我们也在另外三个测试集CallHome、SCOTUS、FCIC上做了测试。

我们用了500万数据来训练语法判别器,200万数据来初始化teacher模型。

3.2 实验结果

表1列出了我们方法在SWBD开发集上的性能。我们的方法相对于初始化的teacher模型,F1提高了17个点左右。这个结果也表明,在不利用有标注数据的情况下,单纯地利用自监督方法还不能取得很好的性能。

表2列出了跟之前方法对比的结果,从中可以看出,我们方法取得了非常不错的效果,尤其是其超过大规模预训练兴起之前的所有有监督方法。

表1 SWBD开发集上的结果,第一部分(第1到5行)表示有监督方法

表2 与之前最好方法的对比

3.3 跨领域实验

我们同时在另外的三个测试集上做了测试。

这一步我们是直接拿以上在SWBD无标注数据上训练的模型,对另外的三个测试集进行测试。

从表3可以看出,我们的模型取得了非常不错的效果,甚至已经超过了有监督的基于ELECTRA-Base进行finetune的模型。

表3 跨领域数据的结果(“Pattern-match”表示目前最好的跨领域的方法)

3.4 消融实验

这一块我们主要验证引入句法判别器的重要性。

从表4可以看出,句法判别器的引入带了了性能上的非常大的提升。

在本工作中,我们尝试融合自训练和自监督两种学习方法,探索无监督的文本顺滑方法。实验结果表明,我们的方法取得了非常不错的性能。

表4 消融实验 (“Teacher”表示初始化的teacher模型,“No-select”表示不用语法判别器进行筛选)

参考文献

[Devlin et al.2019] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of NAACL.

[Lou and Johnson2017] Paria Jamshid Lou and Mark Johnson. 2017. Disfluency detection using a noisy channel model and a deep neural language model. Proceedings of ACL.

[Wang et al.2017] Shaolei Wang, Wanxiang Che, Yue Zhang, Meishan Zhang, and Ting Liu. 2017. Transition-based disfluency detection using lstms. In Proceedings of EMNLP, pages 2785–2794.

[Wu et al.2015] Shuangzhi Wu, Dongdong Zhang, Ming Zhou, and Tiejun Zhao. 2015. Efficient disfluency detection with transition-based parsing. In Proceedings of the 53rd Annual Meeting of the Association for Computa- tional Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers), pages 495–503. Association for Computational Linguistics.

[Zayats et al.2016] Vicky Zayats, Mari Ostendorf, and Hannaneh Hajishirzi. 2016. Disfluency detection using a bidirectional lstm. arXiv preprint arXiv:1604.03209.

[Wang et al.2020] Shaolei Wang, Wanxiang Che, Qi Liu, Pengda Qin, Ting Liu, and William Yang Wang. 2019. Multi-task self-supervised learning for disfluency detection. arXiv preprint arXiv:1908.05378.

[Bach and Huang, 2019] Nguyen Bach and Fei Huang. 2019. Noisy bilstm-based models for disfluency detection. Proc. Interspeech 2019, pages 4230–4234.

[Lou and Johnson, 2020]] Paria Jamshid Lou and Mark Johnson. 2020. Improving disfluency detection by self-training a self-attentive model. arXiv, pages arXiv–2004.


NeurIPS 2020论文接收列表已出,欢迎大家投稿让更多的人了解你们的工作~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AAAI 2020「自然语言处理(NLP)」【哈尔滨工业大学】多任务自监督学习的文本顺滑
各位小伙伴,最近全国各地陆续发现新型冠状病毒感染的肺炎疫情,又赶上春节,大家出门请注意戴口罩,做好防护~~
ShuYini
2020/02/20
1.5K0
AAAI 2020「自然语言处理(NLP)」【哈尔滨工业大学】多任务自监督学习的文本顺滑
NLP的12种后BERT预训练方法
论文:A Robustly Optimized BERT Pretraining Approach.
zenRRan
2020/02/24
1.3K0
学界 | 联合学习离散句法结构和连续词表征的无监督方法
数据标注是监督学习方法应用于许多问题的主要瓶颈。因此,直接从无标签数据中学习的无监督方法显得越来越重要。对于与无监督句法分析相关的任务来说,离散生成模型近年来占据着主导地位,如词性标注(POS)归纳(Blunsom and Cohn, 2011; Stratos et al., 2016)和无监督依存分析(Klein and Manning, 2004; Cohen and Smith, 2009; Pate and Johnson, 2016)。尽管类似的模型在一系列无监督任务中取得了成功,但它们大多忽略了有监督自然语言处理应用中显而易见的连续词表示的作用(He et al., 2017; Peters et al., 2018)。本文着眼于利用并显式地表征句法结构的无监督模型中的连续词嵌入。
机器之心
2018/10/22
6330
学界 | 联合学习离散句法结构和连续词表征的无监督方法
自然语言处理学术速递[7.19]
【1】 Exploiting Rich Syntax for Better Knowledge Base Question Answering 标题:利用丰富的语法更好地回答知识库问题
公众号-arXiv每日学术速递
2021/07/27
6070
文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?
在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。
AI科技评论
2020/06/19
3.2K0
文本增强、半监督学习,谁才是 NLP 少样本困境问题更优的解决方案?
【NLP】综述 | 跨语言自然语言处理笔记
跨语言自然语言处理是当下研究的热点。其中,跨语言词向量(Cross-lingual Word Embedding)可以帮助比较词语在不同语言下的含义,同时也为模型在不同语言之间进行迁移提供了桥梁。[Ruder et al., 2017] 详细描述了跨语言词向量学习方法和分类体系,将跨语言词向量按照对齐方式分为了基于词对齐、基于句子对齐、基于文档对齐的方法。其中基于词对齐的方法是所有方法的核心和基础。在基于词对齐的方法中,又有基于平行语料的方法,基于无监督的方法等。近些年,无监督方法成为研究热点。本文主要记录一些跨语言词向量的相关论文。
zenRRan
2019/12/10
2.2K0
【NLP】综述 | 跨语言自然语言处理笔记
小样本学习及其在美团场景中的应用
美团的各个业务有着丰富的NLP场景,而这些场景中模型的构建需要很多的标注资源,成本很高。小样本学习致力于在数据资源稀少的情况下训练出比较好的模型。本文从主动学习、数据增强、半监督学习、领域迁移、集成学习&自训练几个方向介绍了现有的一些方法,并在美团场景进行了实验,效果上也取得了一定的提升。希望能对从事相关研究的同学有所帮助或者启发。
美团技术团队
2021/08/26
1.5K0
EMNLP 2018 详尽参会见闻
AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,也许会有新的收获呢。
AI科技评论
2018/12/07
8670
EMNLP 2018 详尽参会见闻
从自监督学习主流方法、最新工作进展,看未来前景研究方向
本文作者来自东北大学,他通过整理自监督学习的一系列工作,把主流方法分成三大类,方便大家更全面的了解自监督学习的定义、方法、用途。
AI科技评论
2020/08/10
1.7K0
从自监督学习主流方法、最新工作进展,看未来前景研究方向
OpenAI 研究员:数据不足时,如何实现监督学习
作者丨Lilian Weng 编译丨丛末 编辑丨陈彩娴 现实应用中,数据易得,而有标签的数据少有。 一般而言,当监督学习任务面临标签数据不足问题时,可以考虑以下四种解决办法: 1.预训练+微调:首先在一个大规模无监督数据语料库上对一个强大的任务无关模型进行预训练(例如通过自监督学习在自由文本上对语言模型进行预训练,或者在无标签图像上对视觉模型进行预训练),之后再使用一小组标签样本在下游任务上对该模型进行微调。 2.半监督学习:同时从标签样本和无标签样本中学习,研究者使用该方法在视觉任务上进行了大量研究。
AI科技评论
2022/07/19
1K0
OpenAI 研究员:数据不足时,如何实现监督学习
【EMNLP2020】超越MLM,微软打造全新预训练任务
句子表示在很多任务中都是重要的一环。尤其是在大数据量的场景下,很多场景都需要召回+排序两个步骤,如果第一个环节没有召回候选结果,那最后的排序模型再怎么优秀也没法给出正确答案。
zenRRan
2020/10/26
8800
【EMNLP2020】超越MLM,微软打造全新预训练任务
美团获得小样本学习榜单FewCLUE第一!Prompt Learning+自训练实战
总第515篇 2022年 第032篇 近日,美团搜索与NLP部NLP中心语义理解团队的小样本学习模型FSL++在中文小样本语言理解权威评测基准FewCLUE榜单登顶,在自然语言推理(OCNLI)单任务中取得第一,并在极少数样本(一个类别仅100余个)的条件下,在新闻分类(TNEWS)、科学文献学科分类(CSLDCP)任务上超过了人类识别精确度。 1 概述 2 方法介绍 2.1 增强预训练 2.2 模型结构 2.3 数据增强 2.4 集成学习&自训练 3 实验结果 3.1 数据集介绍 3.2 实验对比 4
美团技术团队
2022/06/13
1.3K0
美团获得小样本学习榜单FewCLUE第一!Prompt Learning+自训练实战
金融/语音/音频处理学术速递[12.9]
【1】 La mujer a través de los personajes femeninos en el cine de temática financiera -- Women through female characters in financial topics films 标题:La Mujer a Través de Los Persajes Femeninos en el Motion de temática Financiera--从金融题材电影中的女性角色看女性 链接:https://arxiv.org/abs/2112.04366
公众号-arXiv每日学术速递
2021/12/09
2740
从想法到实干,2018年13项NLP绝美新研究
前一段时间,Sebastian Ruder 介绍了他心中 10 个最有影响力的想法,并且每一个都提供了具体论文与核心思想。正如 Ruder 所说,他的清单必然是主观的,主要涵盖了迁移学习和泛化相关的想法。其中有的想法在过去一年非常受关注,大家围绕这些完美的观点展开了很多研究工作与实践。而有的想法并不是当前趋势,不过它们有可能在未来变得流行。因此,机器之心在 Ruder 介绍的基础上,重点关注今年的前沿趋势,并推荐一些真正好用的 NLP 新工具。
机器之心
2019/01/02
5830
超赞!EMNLP2023 | 分享10篇关于「中文 自然语言处理」的论文
这两天被EMNLP2023国际顶会的消息刷屏了,世界各地的大佬齐聚新加坡,带来了一场NLP盛宴。今年EMNLP2023 的投稿论文数量将近5000篇,长论文接收率为23.3%,短论文接收率为14%,整体接收率为21.3%。
ShuYini
2023/12/12
1.2K0
超赞!EMNLP2023  | 分享10篇关于「中文 自然语言处理」的论文
深度 | 当前最好的词句嵌入技术概览:从无监督学习转向监督、多任务学习
选自Medium 作者:Thomas Wolf 机器之心编译 参与:Geek AI、刘晓坤 本文是一篇对于当今最先进的通用词/句嵌入技术的简介,包括对比基线: FastText、词袋模型(Bag-of-Words);以及最先进的模型:ELMo、Skip-Thoughts、Quick-Thoughts、InferSent、MILA 研究组和微软研究院提出的通用句子表征,以及谷歌的通用句子编码器。 词语和句子的嵌入已经成为了任何基于深度学习的自然语言处理系统必备的组成部分。 它们将词语和句子编码成稠密的定长向量
机器之心
2018/06/08
8980
近期有哪些值得读的QA论文?
■ 论文 | Making Neural QA as Simple as Possible but not Simpler
zenRRan
2018/07/25
8020
近期有哪些值得读的QA论文?
金融/语音/音频处理学术速递[9.1]
Update!H5支持摘要折叠,体验更佳!点击阅读原文访问arxivdaily.com,涵盖CS|物理|数学|经济|统计|金融|生物|电气领域,更有搜索、收藏等功能! q-fin金融,共计4篇 cs.
公众号-arXiv每日学术速递
2021/09/16
5520
基于一致性的半监督语义分割方法:刷新多项SOTA,还有更好泛化性
机器之心专栏 机器之心编辑部 在本工作中,来自阿德莱德大学、乌鲁姆大学的研究者针对当前一致性学习出现的三个问题做了针对性的处理, 使得经典的 teacher-student 架构 (A.K.A Mean-Teacher) 在半监督图像切割任务上得到了显著的提升。 该研究已被计算机视觉顶会 CVPR 2022 大会接收,论文标题为《Perturbed and Strict Mean Teachers for Semi-supervised Semantic Segmentation》: 文章地址:https
机器之心
2022/08/25
3790
基于一致性的半监督语义分割方法:刷新多项SOTA,还有更好泛化性
一文概述 2018 年深度学习 NLP 十大创新思路
AI 科技评论按:Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家,目前供职于一家做 NLP 相关服务的爱尔兰公司 AYLIEN,同时,他也是一位活跃的博客作者,发表了多篇机器学习、NLP 和深度学习相关的文章。最近,他基于十几篇经典论文盘点了 2018 年 NLP 领域十个令人激动并具有影响力的想法,并将文章发布在 Facebook 上。AI 科技评论编译如下:
AI研习社
2019/01/09
4290
推荐阅读
相关推荐
AAAI 2020「自然语言处理(NLP)」【哈尔滨工业大学】多任务自监督学习的文本顺滑
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档