链接:https://blog.csdn.net/choose_c/article/details/96690798
1.NAACL 2019
An Effective Label Noise Model for DNN Text Classification
https://arxiv.org/abs/1903.07507v1
由于人类注释的大型数据集存在标签错误,因此能够在标签噪声存在的情况下训练深层神经网络至关重要。标签噪声下的图像分类模型训练受到了广泛的关注,而文本分类模型训练则没有。在本文中,我们提出了一种训练深网络的方法,它具有鲁棒性来标记噪声。该方法引入了一个非线性处理层(噪声模型),将标签噪声的统计数据建模为卷积神经网络(CNN)结构。噪声模型和CNN权重是从噪声训练数据中共同学习的,这可以防止模型过度拟合错误的标签。通过对多个文本分类数据集的大量实验,我们发现这种方法使CNN能够更好地学习句子表达,甚至对极端的标签噪音也很有鲁棒性。我们发现,适当的初始化和规范化的噪声模型是至关重要的。此外,通过对比以大批量为重点来降低标签噪声的图像分类结果,我们发现改变批量大小对分类性能没有太大的影响。
2.AAAI 2019
Modeling Local Dependence in Natural Language with Multi-Channel Recurrent Neural Networks
https://arxiv.org/pdf/1811.05121.pdf
递归神经网络(RNN)在自然语言任务处理中得到了广泛的应用,并取得了巨大的成功。传统的RNN通常在一个句子中对每一个符号都进行统一和平等的处理。然而,这可能会错过一个句子丰富的语义结构信息,这对理解自然语言很有帮助。由于诸如单词依赖模式等语义结构没有参数化,因此捕获和利用结构信息是一个挑战。本文提出了一种改进的RNN变体——多通道RNN(MC-RNN),用于动态捕获和利用局部语义结构信息。具体来说,mc-rnn包含多个通道,每个通道一次代表一个局部依赖模式。根据语义信息,引入注意机制,将这些模式在每个步骤中进行组合。然后通过自适应选择信道间最合适的连接结构参数化结构信息。这样,mc-rnn就能很好地捕捉到句子中不同的局部结构和依赖模式。为了验证MC-RNN的有效性,我们对典型的自然语言处理任务进行了广泛的实验,包括神经机器翻译、抽象摘要和语言建模。这些任务的实验结果都表明,MC-RNN比现有的顶级系统有了显著的改进。
3.AAAI 2019
Jointly Learning to Label Sentences and Tokens
https://arxiv.org/pdf/1811.05949.pdf
主要内容:在端到端系统中学习构建文本表示可能很困难,因为自然语言是高度合成的并且特定于任务的注释数据集的大小通常受到限制。直接监督语言合成的方法可以让我们根据现有的知识来指导模型,使其规则化,以实现更健壮和可解释的表示。在本文中,我们研究了如何使用不同粒度的目标来学习更好的语言表示,并提出了一种联合学习标记句子和token的体系结构。每一级的预测都是通过注意机制结合在一起的,token级标签也可以作为构成句子级表示的明确监督。我们的实验表明,通过学习在多个层次上共同执行这些任务,该模型在句子分类和序列标记方面都取得了实质性的改进。
解决问题:结合不同粒度(句子和词)的监督目标,以便更好地学习整体语言表达和组合函数。
4.AAAI2019
A Unified Model for Opinion Target Extraction and Target Sentiment Prediction
https://arxiv.org/pdf/1811.05082.pdf
基于目标的情绪分析包括观点目标提取和目标情绪分类。然而,现有的大多数作品通常只研究这两个子任务中的一个子任务,这妨碍了它们的实际应用。本文旨在以端到端的方式解决基于目标的情绪分析的完整任务,并提出了一种新的统一模型,该模型采用了统一的标记方案。我们的框架包括两个叠加的递归神经网络:上一个预测统一的标签,以产生基于主要目标的情绪分析的最终输出结果;下一个预测辅助目标边界,以指导上一个网络,以提高主要任务的性能。为了探讨任务间的依赖性,我们建议明确地模拟从目标边界到目标情感极性的约束转换。我们还建议通过一个门机制来保持意见目标中的情绪一致性,该机制模拟当前词和前一词的特征之间的关系。我们在三个基准数据集上进行了广泛的实验,并且我们的框架始终取得了优异的结果。
解决问题:模型针对基于目标情感分析(TBSA)任务,使用堆叠的LSTM将目标观点提取和情绪分类两个任务进行统一。
5.NAACL2019
Integrating Semantic Knowledge to Tackle Zero-shot Text Classification
https://arxiv.org/pdf/1903.12626.pdf
训练数据不足甚至不可用,是包括文本分类在内的许多分类任务的一大挑战。因此,在学习阶段识别从未见过的类的文本文档,即所谓的zero-shot文本分类,是很困难的,并且只有有限的以前的工作解决了这个问题。本文提出了一个结合数据增强和特征增强的两阶段框架来解决这一问题。将四种语义知识(嵌入词、类描述、类层次结构和一般知识图)整合到该框架中,有效地处理未知类的实例。实验结果表明,在zero-shot场景下对真实文本进行分类时,每一个阶段和两个阶段的组合都达到了与基线和最近方法相比的最佳总体精度。
解决问题:使用数据增强和特征增强两个框架解决文本分类中的few-shot甚至是zero-shot问题。
6.NAACL2019
Mitigating Uncertainty in Document Classification
https://www.aclweb.org/anthology/N19-1316
分类器预测的不确定度测量在医疗诊断等应用中尤为重要,这些应用需要确保有限的人力资源能够集中于机器学习模型返回的最不确定的预测。然而,很少有现有的不确定性模型试图提高人力资源参与文本分类任务时的总体预测精度。在本文提出了一种新的基于神经网络的不确定度测量模型。我们还设计了一种基于特征表示的度量学习方法,该方法可以提高基于dropout的不确定性方法在精确预测试验中预测方差较小的性能。对实际数据集的大量实验表明,与现有的方法相比,我们的方法在整体预测精度上可以取得相当大的提高。特别是,我们的模型将精度从0.78提高到0.92,其中30%最不确定的预测在“20新闻组”数据中移交给人类专家。
解决问题:缓解文本分类中的不确定性问题。
7.NAACL2019
Rethinking Complex Neural Network Architectures for Document Classification
https://www.aclweb.org/anthology/N19-1408
近年来,神经网络模型在许多NLP任务中变得越来越复杂,使得训练和部署变得更加困难。最近的一些论文质疑了这种体系结构的必要性,发现执行良好、简单的模型非常有效。我们表明,这也是文档分类的情况:在对几种最新神经模型的大规模可再现性研究中,我们发现,具有适当正则化的简单bilstm结构在四个标准基准数据集上产生准确度和f1,它们要么具有竞争力,要么超过了最新技术水平。令人惊讶的是,我们的简单模型能够在没有注意机制的情况下实现这些结果。尽管这些从语言建模中借鉴的规范化技术并不新颖,但据我们所知,我们是第一个将它们应用于这种环境的人。我们的工作为文档分类提供了一个开源平台,为以后的工作奠定了基础。
解决问题:文章通过重新思考文档中复杂模型的必要性,提出简单的bilstm模型通过良好的正则等参数设置也能达到有竞争力的效果。
8.NAACL2019
Text Classification with Few Examples using Controlled Generalization
https://www.aclweb.org/anthology/N19-1319
文本分类的训练数据在实践中经常受到限制,特别是对于具有许多输出类或涉及许多相关分类问题的应用程序。这意味着分类器必须从有限的证据中进行归纳,但归纳的方式和程度取决于任务。目前的实践主要依靠预先训练过的单词嵌入来将训练中看不到的单词映射到类似的已看到的单词。不幸的是,这将许多意义的组成部分转化为高度受限的能力。我们的替代方案从从从未标记的解析语料库派生的稀疏的预训练表示开始;根据可用的训练数据,我们选择提供相关归纳的特性。这会产生特定于任务的语义向量;这里,我们表明,与现有的最先进的方法相比,通过这些向量的前馈网络在低数据情况下尤其有效。通过将该网络与卷积神经网络进一步配对,我们可以在低数据情况下保持这一优势,并在使用完整的训练集时保持竞争力。
解决问题:从大型外部语料提取有效特征,用于少数据任务中。
9.NAACL2019
Weakly-Supervised Hierarchical Text Classification
https://arxiv.org/pdf/1812.11270.pdf
分层文本分类旨在将文本文档分类为给定的层次结构,是许多实际应用中的重要任务。最近,深度神经模型由于其表现力和对特征工程的最低要求而在文本分类中越来越受欢迎。然而,将深度神经网络应用于分层文本分类仍然具有挑战性,因为它们严重依赖于大量训练数据,同时不能在分层设置中容易地确定适当级别的文档。在本文中,我们提出了一种用于分层文本分类的弱监督神经方法。我们的方法不需要大量的训练数据,但只需要易于提供的弱监督信号,例如一些与课程相关的文档或关键词。我们的方法有效地利用这种弱监督信号生成用于模型预训练的伪文档,然后对真实的未标记数据进行自我训练以迭代地细化模型。在训练过程中,我们的模型具有分层神经结构,模仿给定的层次结构,并能够确定具有阻塞机制的文档的适当级别。来自不同领域的三个数据集的实验证明了我们的方法与一组全面的基线相比的功效
解决问题:使用弱监督方法进行层级文本分了任务。