首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AAAI 2020论文解读:关注实体以更好地理解文本

2.背景及相关工作 2.1预训练模型 预训练模型在为下游任务提供上下文嵌入方面取得了飞速的发展,在诸如word2vec或Glove之类的传统固定矢量词嵌入上建立了新的技术水平。...通过引入新的预训练和优化策略,XLNet和RoBERTa模型比BERT有了进一步改善。 预训练模型中的语言结构前面提到的预训练模型没有考虑任何语言结构,因为预训练目标是预测下一个随机掩盖的单词或句子。...他们还表明,这种语法的自注意力可以与ELMo嵌入结合使用,从而在仅具有ELMo和自注意力但没有辅助监督的情况下进一步提高基线的性能。本文旨在研究语义结构的语言知识能否以类似的方式注入。...3.2模型 本文旨在测试语义结构的语言知识是否可以通过监督下的self-attention注入到现有模型中,以及该模型在LAMBADA任务上的性能是否可以与大规模预训练模型(如GPT-2)相匹配。...可以看出BIDAF基线已经表现出与GPT-2之前的最佳结果相似的性能。添加COREFALL辅助监督可以不断提高准确性,但与不使用ELMo嵌入相比,使用ELMo嵌入的COREFALL得到了更大的改进。

77510

【论文】AAAI 2020论文解读:关注实体以更好地理解文本

2.背景及相关工作 2.1预训练模型 预训练模型在为下游任务提供上下文嵌入方面取得了飞速的发展,在诸如word2vec或Glove之类的传统固定矢量词嵌入上建立了新的技术水平。...通过引入新的预训练和优化策略,XLNet和RoBERTa模型比BERT有了进一步改善。 预训练模型中的语言结构前面提到的预训练模型没有考虑任何语言结构,因为预训练目标是预测下一个随机掩盖的单词或句子。...他们还表明,这种语法的自注意力可以与ELMo嵌入结合使用,从而在仅具有ELMo和自注意力但没有辅助监督的情况下进一步提高基线的性能。本文旨在研究语义结构的语言知识能否以类似的方式注入。 ?...3.2模型 本文旨在测试语义结构的语言知识是否可以通过监督下的self-attention注入到现有模型中,以及该模型在LAMBADA任务上的性能是否可以与大规模预训练模型(如GPT-2)相匹配。...可以看出BIDAF基线已经表现出与GPT-2之前的最佳结果相似的性能。添加COREFALL辅助监督可以不断提高准确性,但与不使用ELMo嵌入相比,使用ELMo嵌入的COREFALL得到了更大的改进。

72430
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    NAACL 2018 | 最佳论文:艾伦人工智能研究所提出新型深度语境化词表征

    它们应该完美建模单词使用方面的复杂特征(如句法和语义),以及单词使用在不同语言环境下的变化(即建模一词多义)。...最后,对 ELMo 和 CoVe 的分析结果显示深层表征优于仅从 LSTM 顶层获取的表征。本研究中训练的模型和代码已公开,研究者期望 ELMo 为其他 NLP 问题提供类似的帮助。 3....这种设定允许我们进行半监督学习,在学习中,biLM 进行大规模的预训练且能够轻易整合进大量现有神经 NLP 架构。 3.2 ELMo ELMo 是 biLM 中间层表征的任务特定组合。...我们的词向量是深度双向语言模型(biLM)内部状态的函数,在一个大型文本语料库中预训练而成。...此外,我们的分析还表明,揭示预训练网络的深层内部状态至关重要,可以允许下游模型综合不同类型的半监督信号。 本文为机器之心编译,转载请联系本公众号获得授权。

    48500

    当知识图谱遇上预训练语言模型

    在2013年,学者们就提出了词嵌入模型Word2Vec和Glove。 这些模型都是利用词的上下文获得每个单词的词嵌入向量。一个单词表达成词向量后,很容易找出语义相近的其他词汇。...这是因为它们尽管上下文环境不同,但是在用语言模型训练的时候,不论什么上下文的句子,经过 Word2Vec,都是预测相同的单词 Bank,而同一个单词占的是同一行的参数空间,这导致两种不同的上下文信息都会编码到相同的嵌入空间...ELMo 提供了一种更为简洁优雅的解决方案。 ELMo 的本质思想是:事先用语言模型学好一个单词的向量,此时多义词无法区分,不过这没关系。...此外,知识图谱中丰富的结构化知识还有助于支持一些知识驱动的下游任务,如关系抽取、实体分类等。...首先,KEPLER基于Wikipedia和Wikidata数据集,将每个实体与对应的维基百科描述相链接,并为每个实体获得其对应的文本描述信息。

    59210

    8种优秀预训练模型大盘点,NLP应用so easy!

    你可以在下面的文章中更深入地了解word embedding、它的不同类型以及如何在数据集中使用它们。...ELMo是一种用向量和嵌入表示单词的新方法。这些ELMo 词嵌入(word embedding)帮助我们在多个NLP任务上实现最先进的结果,如下图所示: ?...让我们花点时间来了解一下ELMo是如何工作的。回想一下我们之前讨论过的双向语言模型。从这篇文章中我们能够得到提示,“ELMo单词向量是在双层双向语言模型(biLM)的基础上进行计算的。...ELMo单词表示考虑计算词嵌入(word embedding)的完整输入语句。因此,“read”这单词在不同的上下文中具有不同的ELMo向量。...这与旧版的词嵌入(word embedding)大不相同,旧版中无论在什么样的上下文中使用单词“read”,分配给该单词的向量是相同的。

    1.1K30

    干货 | 文本嵌入的经典模型与最新进展

    最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。...ELMo对上下文语境了解很多 在ELMo 中,每个单词被赋予一个表示,它是它们所属的整个语料库句子的函数。...ELMo的 特点: ELMo 的输入是字母而不是单词。因此,他们可以利用子字词单元来计算有意义的表示,即使对于词典外的词(如 FastText 这个词)也是如此。...Skip-Thought 论文中有一个有趣的见解是词汇扩展方案:Kiros 等人在训练过程中,通过在 RNN 词嵌入空间和一个更大的词嵌入(如word2vec)之间进行线性变换,来处理未见过的单词。...Conneau等人的「自然语言推理数据中通用句子表示的监督学习」 除了通常的寻找最佳神经网络模型的探索之外,InferSent 的成功还提出了以下问题: 什么样的监督训练任务能获得更好泛化到下游任务中的句子嵌入

    1.9K30

    文本嵌入的经典模型与最新进展

    最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。...ELMo对上下文语境了解很多 在ELMo 中,每个单词被赋予一个表示,它是它们所属的整个语料库句子的函数。...ELMo的 特点: ELMo 的输入是字母而不是单词。因此,他们可以利用子字词单元来计算有意义的表示,即使对于词典外的词(如 FastText 这个词)也是如此。...Skip-Thought 论文中有一个有趣的见解是词汇扩展方案:Kiros 等人在训练过程中,通过在 RNN 词嵌入空间和一个更大的词嵌入(如word2vec)之间进行线性变换,来处理未见过的单词。...Conneau等人的「自然语言推理数据中通用句子表示的监督学习」 除了通常的寻找最佳神经网络模型的探索之外,InferSent 的成功还提出了以下问题: 什么样的监督训练任务能获得更好泛化到下游任务中的句子嵌入

    57810

    NLP总结文:时下最好的通用词和句子嵌入方法

    最常用的模型是word2vec和GloVe,它们都是基于分布假设的无监督方法(在相同上下文中的单词往往具有相似的含义)。...FastText向量训练速度超快,可在157种语言的Wikipedia和Crawl训练中使用。他们是一个很好的基线。 深度语境化的单词表示(ELMo)最近通过提升数量在词汇嵌入方面提高了水平。...在ELMo中,每个单词被赋予一个表示,它是它们所属的整个语料库句子的函数。...ELMo的特点: ELMo的输入是特征(characters )而不是单词。因此,他们可以利用子字词单元来计算有意义的表示,即使对于词典外的词(如FastText)也是如此。...Skip-Thought论文中有一个有趣的见解是词汇扩展方案:Kiros等人在训练过程中,通过在RNN单词嵌入空间和一个更大的单词嵌入(如word2vec)之间进行线性变换,来处理未见过的单词。

    1.3K20

    请收下这份 NLP 热门词汇解读

    预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法主要有三个:ELMo,OpenAI GPT 和 BERT。...相较于传统的使用词嵌入(Word embedding)对词语进行表示,得到每个词唯一固定的词向量,ELMo 利用预训练好的双向语言模型,根据具体输入从该语言模型中可以得到在文本中该词语的表示。...,但如何在没有源翻译的情况下训练机器翻译模型,即无监督训练,成为了目前热门的研究话题。...系统首先为每种语言中的每个单词训练词嵌入,训练词嵌入通过上下文来预测给定单词周围的单词。...不同语言的词嵌入具有相似的邻域结构,因此可以通过对抗训练等方法让系统学习旋转变换一种语言的词嵌入,以匹配另一种语言的词嵌入。 基于这些信息,就可以得到一个相对准确的双语词典,并基本可以实现逐字翻译。

    60430

    文本嵌入的经典模型与最新进展(下载PDF)

    最常用的模型是 word2vec 和 GloVe,它们都是基于分布假设的无监督学习方法(在相同上下文中的单词往往具有相似的含义)。...ELMo对上下文语境了解很多 在ELMo 中,每个单词被赋予一个表示,它是它们所属的整个语料库句子的函数。...ELMo的 特点: ELMo 的输入是字母而不是单词。因此,他们可以利用子字词单元来计算有意义的表示,即使对于词典外的词(如 FastText 这个词)也是如此。...Skip-Thought 论文中有一个有趣的见解是词汇扩展方案:Kiros 等人在训练过程中,通过在 RNN 词嵌入空间和一个更大的词嵌入(如word2vec)之间进行线性变换,来处理未见过的单词。...Conneau等人的「自然语言推理数据中通用句子表示的监督学习」 除了通常的寻找最佳神经网络模型的探索之外,InferSent 的成功还提出了以下问题: 什么样的监督训练任务能获得更好泛化到下游任务中的句子嵌入

    73530

    请收好这份NLP热门词汇解读:预训练、Transformer、无监督机器翻译

    预训练的方法在自然语言处理的分类和标记任务中,都被证明拥有更好的效果。目前,热门的预训练方法主要有三个:ELMo,OpenAI GPT和BERT。...相较于传统的使用词嵌入(Word embedding)对词语进行表示,得到每个词唯一固定的词向量,ELMo 利用预训练好的双向语言模型,根据具体输入从该语言模型中可以得到在文本中该词语的表示。...ELMo和OpenAI GPT这两种预训练语言表示方法都是使用单向的语言模型来学习语言表示,而Google在提出的BERT则实现了双向学习,并得到了更好的训练效果。...系统首先为每种语言中的每个单词训练词嵌入,训练词嵌入通过上下文来预测给定单词周围的单词。...不同语言的词嵌入具有相似的邻域结构,因此可以通过对抗训练等方法让系统学习旋转变换一种语言的词嵌入,以匹配另一种语言的词嵌入。基于这些信息,就可以得到一个相对准确的双语词典,并基本可以实现逐字翻译。

    64220

    【AI大模型】ELMo模型介绍:深度理解语言模型的嵌入艺术

    因为研究团队利用新的语言模型训练一个上下文相关的预训练模型, 成为ELMo, 并在6个NLP任务上获得提升....最上层绿色标记的词向量表征模块. 2.2 Embedding模块 ELMo最底层的词嵌入采用CNN对字符级进行编码, 本质就是获得一个静态的词嵌入向量作为网络的底层输入. 2.3 两部分的双层LSTM模块...ELMo的做法是我们只预训练一个Language Model, 而word embedding是通过输入的句子实时给出的, 这样单词的嵌入向量就包含了上下文的信息, 也就彻底改变了Word2Vec和GloVe...第二阶段: 在做下游任务时, 从预训练网络中提取对应单词的网络各层的word embedding作为新特征补充到下游任务中. 第一阶段: 语言模型预训练....第二阶段: 下游任务的调整. 比如我们的下游任务是QA问题. 对于问句X, 可以先将句子X作为预训练好的ELMo网络的输入, 这样X中每个单词在ELMo中都能获得3个对应的embedding向量.

    20610

    解密 BERT

    其次,BERT是在大量的未标注文本上预训练得到,包括整个Wikipedia(有25亿单词)和图书语料库(8亿单词)。 预训练这一步对BERT来讲是至关重要的。...——谷歌AI Word2Vec和GloVe 预训练模型从大量未标注文本数据中学习语言表示的思想来源于词嵌入,如Word2Vec and GloVe。 词嵌入改变了进行NLP任务的方式。...ELMo与ULMFiT ? ELMo是对语言多义性问题提出的解决方案——针对那些在不同上下文中具有不同含义的单词。...从训练浅层前馈网络(Word2vec)开始,我们逐步过渡到使用复杂的双向LSTM结构来训练词嵌入。 这意味着同一单词根据其所在的上下文可以具有多个ELMO嵌入。...这是我们提出的NLP迁移学习黄金公式: NLP迁移学习 = 预训练 + 微调 在ULMFIT之后,许多NLP任务根据上述公式进行训练,并获得了新的基准。

    3.5K41

    聊聊Embedding(嵌入向量)

    具体可参考:深入浅出理解word2vec模型 (理论与源码分析) 预训练流程 预训练模型(如ELMo、BERT等)的一般流程如图所示,其中微调是一个重要环节: ELMo word2vec实现了从独热编码到...与静态的词嵌入不同,ELMo除提供临时词嵌入之外,还提供生成这些词嵌入的预训练模型,所以在实际使用时,EMLo可以基于预训练模型,根据实际上下文场景动态调整单词的Word Embedding表示,这样经过调整后的...ELMo整体模型结构如下: ELMo的优点: 实现从单纯的词嵌入(Word Embedding)到情景词嵌入(Contextualized Word Embedding)的转变; 实现预训练模型从静态到动态的转变...BERT BERT预训练模型很好的解决了并发以及大规模训练语料库下的性能问题。BERT的整体架构如图所示,它采用了Transformer中的Encoder部分。...GPT GPT预训练的方式和传统的语言模型一样,通过上文,预测下一个单词。它使用了Transformer的Decoder部分。

    1.5K10

    图解 2018 年领先的两大 NLP 模型:BERT 和 ELMo

    它使用针对特定任务的双向 LSTM 来创建嵌入。 ? ELMo 为 NLP 中的预训练提供了重要的一步。...ELMo 通过训练预测单词序列中的下一个单词来获得语言理解能力——这项任务被称为语言建模。这很方便,因为我们有大量的文本数据,这样的模型可以从这些数据中学习,不需要标签。 ?...ELMo 预训练的一个步骤 我们可以看到每个展开的 LSTM 步骤的隐藏状态从 ELMo 的头部后面突出来。这些在预训练结束后的嵌入过程中会派上用场。...ULM-Fit:NLP 中的迁移学习 ULM-FiT 引入了一些方法来有效地利用模型在预训练期间学到的知识——不仅是嵌入,也不仅是语境化嵌入。...BERT 用于特征提取 fine-tuning 方法并不是使用 BERT 的唯一方法。就像 ELMo 一样,你可以使用经过预训练的 BERT 来创建语境化的单词嵌入。

    1K11

    图解2018年领先的两大NLP模型:BERT和ELMo

    它使用针对特定任务的双向LSTM来创建嵌入。 ELMo为NLP中的预训练提供了重要的一步。ELMo LSTM在大型数据集上进行训练,然后我们可以将其用作所处理语言的其他模型中的组件使用。...ELMo的秘诀是什么ELMo通过训练预测单词序列中的下一个单词来获得语言理解能力——这项任务被称为语言建模。这很方便,因为我们有大量的文本数据,这样的模型可以从这些数据中学习,不需要标签。...ELMo预训练的一个步骤 我们可以看到每个展开的LSTM步骤的隐藏状态从ELMo的头部后面突出来。这些在预训练结束后的嵌入过程中会派上用场。...ULM-FiT:NLP中的迁移学习 ULM-FiT引入了一些方法来有效地利用模型在预训练期间学到的知识——不仅是嵌入,也不仅是语境化嵌入。...就像ELMo一样,你可以使用经过预训练的BERT来创建语境化的单词嵌入。

    1.3K20

    NLP领域的ImageNet时代到来:词嵌入「已死」,语言模型当立

    在大多数训练数据有限的任务中,这种方法帮助提高了两到三个百分点。尽管这些预训练的词嵌入颇具影响力,但它们也有局限:它们仅包含模型第一层的先验知识——网络的其余部分还需要从头开始训练。 ?...但是在最近几个月,我们也获得了一些实验性证明:语言模型的词嵌入(ELMo)、普遍语言模型精调(ULMiT)和 OpenAI Transformer 已经实验性地证明了语言模型能用于预训练任务,正如上图所示的...在如下所示的 ELMo 等很多情况中,使用预训练语言模型作为核心的算法在广泛研究的基准上,要比当前最优的结果高 10% 到 20%。...有两个主要的范式,一是是否将预训练语言模型作为固定的特征提取器,并将其表征作为特征整合到随机初始化的模型(正如 ELMo 所做的)中;二是是否微调完整的语言模型(如 ULMFiT 所做的)。...鉴于 ELMo、ULMFiT 和 OpenAI 令人印象深刻的实验结果,这种发展似乎只是一个时间问题,预训练的词嵌入将逐渐落伍,取而代之的是每个 NLP 从业者工具箱里的预训练语言模型。

    72030

    干货 | 史上最详尽的NLP预处理模型汇总

    所以,使用预训练模型处理NLP任务是目前非常热门的研究方向,本文将重点介绍八个预训练的NLP模型以及每个模型的相关资源。 一、为什么要使用预训练模型?...先前的研究者已经为我们设计了一个基准模型,我们可以很方便地在自己的NLP数据集上使用该预训练模型,而不是从头开始构建模型来解决类似的NLP问题。...Word Embeddings格式通常尝试使用字典将单词映射到向量。 在本节中,我们将介绍两个最先进的NLP单词嵌入。我还提供了项目链接,这样您就可以实际了解每个主题。...具体来看,ELMo是一种在向量和Embeddings中表示单词的新方法,这些ELMo Embeddings有助于我们在多个NLP任务上获得最棒的结果,如下所示: 让我们来了解一下ELMo的工作原理: 回想一下我们之前讨论过的双向语言模型...在StanfordNLP中打包的所有预训练的NLP模型都是基于PyTorch构建的,我们可以在自己的注释数据上进行训练和评估。

    1.3K40

    解密 BERT

    其次,BERT是在大量的未标注文本上预训练得到,包括整个Wikipedia(有25亿单词)和图书语料库(8亿单词)。 预训练这一步对BERT来讲是至关重要的。...——谷歌AI Word2Vec和GloVe 预训练模型从大量未标注文本数据中学习语言表示的思想来源于词嵌入,如Word2Vec and GloVe。 词嵌入改变了进行NLP任务的方式。...ELMo与ULMFiT ? ELMo是对语言多义性问题提出的解决方案——针对那些在不同上下文中具有不同含义的单词。...从训练浅层前馈网络(Word2vec)开始,我们逐步过渡到使用复杂的双向LSTM结构来训练词嵌入。 这意味着同一单词根据其所在的上下文可以具有多个ELMO嵌入。...这是我们提出的NLP迁移学习黄金公式: NLP迁移学习 = 预训练 + 微调 在ULMFIT之后,许多NLP任务根据上述公式进行训练,并获得了新的基准。

    1.2K10

    【NLP专栏】图解 BERT 预训练模型!

    因此,我们可以下载由 Word2Vec 和 GloVe 预训练好的单词列表,及其词嵌入。下面是单词 "stick" 的 Glove 词嵌入向量的例子(词嵌入向量长度是 200)。 ?...它使用在特定任务上经过训练的双向 LSTM 来创建这些词嵌入。 ? ELMo 在语境化的预训练这条道路上迈出了重要的一步。...ELMo 通过训练,预测单词序列中的下一个词,从而获得了语言理解能力,这项任务被称为语言建模。要实现 ELMo 很方便,因为我们有大量文本数据,模型可以从这些数据中学习,而不需要额外的标签。 ?...在上图中,我们可以看到 ELMo 头部上方展示了 LSTM 的每一步的隐藏层状态向量。在这个预训练过程完成后,这些隐藏层状态在词嵌入过程中派上用场。 ?...就像 ELMo 一样,你可以使用预训练的 BERT 来创建语境化的词嵌入。然后你可以把这些词嵌入用到你现有的模型中。

    1.7K51
    领券