Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >NLP: Text Neural Network (Part5: BERT)

NLP: Text Neural Network (Part5: BERT)

作者头像
JiahuiZhu1998
修改于 2023-06-20 09:07:25
修改于 2023-06-20 09:07:25
1790
举报

预训练

Frozen

先对Model进行预训练,Model之后被用作训练别的任务,保持参数不动

Fine-Tuning

先对Model进行预训练,Model之后被用作训练别的任务,通过训练对模型微调

Elmo (基于Context的Embedding)

解决了一个word的多语义问题

Elmo第一阶段进行预训练,第二阶段提取每一层的word embeddings 作为新特征补充到运行New Task时

BERT

BERT 也是 预训练 + Fine-Tuning

BERT 预训练分为3个部分 Embedding,Masked LM,Next Sentence Prediction

Embedding

BERT Embedding = Token Embeddings + Segment Embeddings + Position Embeddings
BERT Embedding = Token Embeddings + Segment Embeddings + Position Embeddings
  • Token Embedding 是词向量 (CLS标志用于之后的分类任务)
  • Segment Embeddings 用于区分 Sentence A 和 Sentence B
  • Position Embeddings 位置编码 (和 Transformer 中的不一样)

Masked LM

使用 Mask覆盖一个Sentence中 15%的words;例如 my dog is hairy → my dog is [MASK]

0%是采用[mask],my dog is hairy → my dog is [MASK]

10%是随机取一个词来代替mask的词,my dog is hairy -> my dog is apple

10%保持不变,my dog is hairy -> my dog is hairy

Next Sentence Prediction

选择 A的 Next Sentence which is B

50%的B是A在document中的下一句;另外50%是随机拿取的

GPT

GPT 表示 Generative Pre-Training,生成式预训练,也采用两阶段;第一阶段预训练,第二阶段Fine-tuning

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
BERT预训练模型的演进过程!(附代码)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
mantch
2019/09/29
1.6K0
BERT预训练模型的演进过程!(附代码)
NLP新秀:BERT的优雅解读
恰逢春节假期,研究了一下BERT。作为2018年自然语言处理领域的新秀,BERT做到了过去几年NLP重大进展的集大成,一出场就技惊四座碾压竞争对手,刷新了11项NLP测试的最高纪录,甚至超越了人类的表现,相信会是未来NLP研究和工业应用最主流的语言模型之一。本文尝试由浅入深,为各位看客带来优雅的BERT解读。
腾讯技术工程官方号
2019/02/18
8.8K0
NLP新秀:BERT的优雅解读
BERT模型解析
Bidirectional Encoder Representation from Transformers(BERT)[1],即双向Transformer的Encoder表示,是2018年提出的一种基于上下文的预训练模型,通过大量语料学习到每个词的一般性embedding形式,学习到与上下文无关的语义向量表示,以此实现对多义词的建模。与预训练语言模型ELMo[2]以及GPT[3]的关系如下图所示:
felixzhao
2022/09/27
2.2K0
BERT模型解析
NLP之从word2vec到ELMO GPT再到BERT与attention transformer过程笔记与详解
在NLP自然语言处理学习或者发展过程中,在13年word2vec word embedding后,人们发现一个单词通过Word Embedding表示,很容易找到语义相近的单词,但单一词向量表示,不可避免一词多义问题。于是迎来Google的ELMO transformer BERT等动态表征模型,BERT模型更是刷新了GLUE benchmark的11项测试任务最高记录。
大鹅
2021/02/21
3.4K0
【论文阅读】BERT:Pre-training of deep bidirectional transformers for language understanding
authors:: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova container:: Proceedings of the 2019 conference of the north American chapter of the association for computational linguistics: Human language technologies, volume 1 (long and short papers) year:: 2019 DOI:: 10.18653/v1/N19-1423 rating:: ⭐⭐⭐⭐⭐ share:: false comment:: 经典bert的模型
EmoryHuang
2022/10/31
1.9K0
【论文阅读】BERT:Pre-training of deep bidirectional transformers for language understanding
关于BERT,面试官们都怎么问
BERT 来自 Google 的论文Pre-training of Deep Bidirectional Transformers for Language Understanding[1],BERT 是“Bidirectional Encoder Representations from Transformers”的首字母缩写,整体是一个自编码语言模型(Autoencoder LM),并且其设计了两个任务来预训练该模型。
NewBeeNLP
2020/08/26
4.1K0
关于BERT,面试官们都怎么问
BERT论文解读
BERT的设计是通过在所有层中对左右上下文进行联合调节,来预先训练来自未标记文本的深层双向表示。
AI粉嫩特工队
2019/10/10
1.2K0
BERT论文解读
BERT详解(附带ELMo、GPT介绍)
BERT全称为Bidirectional Encoder Representation from Transformer,是Google以无监督的方式利用大量无标注文本「炼成」的语言模型,其架构为Transformer中的Encoder(BERT=Encoder of Transformer)
mathor
2020/07/22
7.7K0
BERT详解(附带ELMo、GPT介绍)
【Pre-Training】BERT:一切过往,皆为序章
今天我们学习的是谷歌的同学 2018 年的论文《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,目前引用量超 3800 次。
yuquanle
2020/04/20
1.4K0
【Pre-Training】BERT:一切过往,皆为序章
【论文笔记】NLP 预训练模型综述
Pre-trained Models for Natural Language Processing: A Survey 花了一上午看完的综述,强烈推荐每个 NLPer 都读一读,很长一段时间内都能当做工具书来用(下一个 break-through 来临前)。
zenRRan
2020/05/18
8710
【论文笔记】NLP 预训练模型综述
广告行业中那些趣事系列3:NLP中的巨星BERT
摘要:上一篇广告行业中那些趣事系列2:BERT实战NLP文本分类任务(附github源码)通过项目实战讲解了如何使用BERT模型来完成文本分类任务。本篇则从理论的角度讲解BERT模型的前世今生。BERT虽然在模型创新的角度来说并不是非常出色,但它是近几年NLP领域杰出成果的集大成者。BERT大火最重要的原因是效果好,通用性强两大优点。可以说BERT的出现是NLP领域里具有里程碑意义的大事件。本篇主要讲解NLP里面的Word Embedding预训练技术的演化史,从最初的Word2Vec到ELMO、GPT,再到今天的巨星BERT诞生,还会讲解如何改造BERT模型去对接上游任务以及BERT模型本身的创新点。
数据拾光者
2022/05/05
3540
广告行业中那些趣事系列3:NLP中的巨星BERT
从Word Embedding到Bert模型——自然语言处理预训练技术发展史
作者简介:张俊林,中国中文信息学会理事,目前在新浪微博 AI Lab 担任资深算法专家。在此之前,张俊林曾经在阿里巴巴任资深技术专家,以及在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎:核心技术详解》(该书荣获全国第十二届输出版优秀图书奖)、《大数据日知录:架构与算法》的作者。
zenRRan
2018/12/17
1.4K0
BERT - 用于语言理解的深度双向预训练转换器
最近被 Google 的 BERT (Bidirectional Encoder Representations from Transfoemers)模型给刷屏了。该模型破了 NLP 界的 11 项纪录,所以这两周特意挑选这篇论文来满足好奇心。第一作者还在 Reddit 上进行了解答,具体可以戳:这里。为了方便学习,我翻译了这篇解读(只包含正文):BERT 论文 - 第一作者的 Reddit 解读说明翻译
caoqi95
2019/03/28
1.3K0
BERT - 用于语言理解的深度双向预训练转换器
NLP-BERT 谷歌自然语言处理模型:BERT-基于pytorch
从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。从之前AI2的 ELMo,到 OpenAI的fine-tune transformer,再到Google的这个BERT,全都是对预训练的语言模型的应用。 BERT这个模型与其它两个不同的是 它在训练双向语言模型时以减小的概率把少量的词替成了Mask或者另一个随机的词。我个人感觉这个目的在于使模型被迫增加对上下文的记忆。至于这个概率,我猜是Jacob拍脑袋随便设的。 增加了一个预测下一句的loss。这个看起来就比较新奇了。 BERT模型具有以下两个特点: 第一,是这个模型非常的深,12层,并不宽(wide),中间层只有1024,而之前的Transformer模型中间层有2048。这似乎又印证了计算机图像处理的一个观点——深而窄 比 浅而宽 的模型更好。 第二,MLM(Masked Language Model),同时利用左侧和右侧的词语,这个在ELMo上已经出现了,绝对不是原创。其次,对于Mask(遮挡)在语言模型上的应用,已经被Ziang Xie提出了(我很有幸的也参与到了这篇论文中):[1703.02573] Data Noising as Smoothing in Neural Network Language Models。
机器学习AI算法工程
2019/10/28
7920
NLP-BERT 谷歌自然语言处理模型:BERT-基于pytorch
通俗讲解从Transformer到BERT模型!
在学会 Transformer 和 Bert 之前,我们需要理解Attention和Self-Attention机制。Attention的本质是要找到输入的feature的权重分布,这个feature在某一个维度有一个长度的概念,如果我们输入一个长为 n 的 feature,那么 Attention 就要学习一个长为 n 的分布权重,这个权重是由相似度计算出来的,最后返回的得分就将会是权重与feature的加权和。
Datawhale
2020/08/28
1.9K0
通俗讲解从Transformer到BERT模型!
nlp模型-bert从入门到精通(一)
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
学到老
2019/10/25
1.4K0
NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!
谷歌AI团队新发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类!并且还在11种不同NLP测试中创出最佳成绩,包括将GLUE基准推至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7% (绝对改进率5.6%)等。
新智元
2018/10/24
1.3K0
NLP历史突破!谷歌BERT模型狂破11项纪录,全面超越人类!
NLP大魔王 · BERT 全解读
BERT(Bidirectional Encoder Representations from Transformers)来自谷歌人工智能语言研究人员发表的论文
NewBeeNLP
2022/04/14
8030
NLP大魔王 · BERT 全解读
BERT模型介绍
BERT(Bidirectional Encoder Representations from Transformers)是Google在2018年提出的一种预训练语言模型,它在自然语言处理(NLP)领域引起了广泛的关注和应用。BERT的核心思想是通过双向Transformer编码器(双向的编码器部分
@小森
2024/12/25
2.4K0
BERT模型介绍
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)
 机器之心专栏 本专栏由机器之心SOTA!模型资源站出品,每周日于机器之心公众号持续更新。 本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务,并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA!模型资源站(sota.jiqizhixin.com)即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。 本文将分 2 期进行连载,共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。 第 1 期:Seq2Seq(RNN)、Seq2Seq(LSTM)、Seq2Seq+
机器之心
2023/03/29
1.2K0
GPT、BERT、XLM、GPT-2、BART…你都掌握了吗?一文总结文本生成必备经典模型(二)
相关推荐
BERT预训练模型的演进过程!(附代码)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档