Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >BERT的逆袭:揭秘如何在无需额外训练下释放语言模型的生成能力

BERT的逆袭:揭秘如何在无需额外训练下释放语言模型的生成能力

作者头像
zenRRan
发布于 2024-06-18 09:00:44
发布于 2024-06-18 09:00:44
1940
举报

论文:BERTs are Generative In-Context Learners链接:https://arxiv.org/pdf/2406.04823

1. 这篇文章想解决什么问题?

文章探讨了掩码语言模型(MLMs,例如BERT和DeBERTa)在上下文学习(in-context learning)方面的能力,挑战了普遍观点,即这种能力在这些模型中不会“显现”。作者意图证明,即使没有额外的训练,MLMs也能够展现出与著名的GPT-3相当的生成能力。

2. 论文用什么方法解决什么问题?

  • 论文提出了一种简单的推理技术,使得DeBERTa能够在没有任何额外训练的情况下作为生成模型运行。
  • 通过修改输入令牌序列的方式,使得预训练的掩码语言模型能够用于文本生成和文本排名任务,而不需要进行额外的训练或微调。
  • 论文还探讨了掩码语言模型和因果语言模型在不同任务类别上的表现差异,并提出了混合训练方法的潜力。

3. 论文做了哪些实验?

  • 作者使用DeBERTa模型,并将其与GPT-3进行了比较分析,涵盖了多种自然语言处理(NLP)任务,包括语言理解、语言建模、机器翻译和问答。
  • 实验包括了对不同规模的DeBERTa模型(从0.1B到1.4B参数)在单次(1-shot)学习情况下的表现进行了评估。
  • 还包括了“针堆中找针”(needle in a haystack)的测试,以评估模型对长序列的泛化能力。

4. 论文或者方法有哪些局限性,未来工作是什么?

  • 局限性包括:
    • MLMs在实际应用中由于不能缓存中间自注意力的键和值向量,因此在时间复杂度和内存复杂度上存在限制。
    • 在机器翻译任务中,DeBERTa的表现不如GPT-3,部分原因可能是由于其训练语料库相对较小且干净,缺乏多语言数据。
    • 在闭卷问答任务中,MLMs的表现较差,这可能与它们在训练期间能够从丰富的上下文中检索世界知识有关,而不需要将知识存储在学到的权重中。
  • 未来工作可能包括:
    • 通过在更大和更多样化的文本语料库上预训练、增加模型参数数量和使用更长的上下文长度来提高DeBERTa的结果。
    • 探索将因果语言建模与掩码语言建模的优势结合起来的混合模型,以实现更好的上下文学习能力。

> kimi+人工共同完成。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
解读Toolformer
【引子】读论文Toolformer: Language Models Can Teach Themselves to Use Tools,https://arxiv.org/pdf/2302.04761.pdf,再阅读了几篇关于Toolformer的网络热文,于是“无知者无畏”,开始自不量力地试图解读Toolformer。
半吊子全栈工匠
2023/09/02
1K0
解读Toolformer
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
 语言模型有时很难理解比较复杂的上下文,它们可能无法准确遵循指令并难以对文档进行推理,从而导致模型在上下文学习中表现出很大的差异。为此,本文作者提出一种新的方法:上下文预训练(IN-CONTEXT PRETRAINING),其中语言模型在一系列相关文档上进行预训练,从而引导模型进行跨文档边界阅读和推理。
ShuYini
2023/10/24
2950
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
2023年!自然语言处理(NLP)10 大预训练模型
语言模型是构建NLP应用程序的关键。现在人们普遍相信基于预训练模型来构建NLP语言模型是切实有效的方法。随着疫情阴霾的散去,相信NLP技术会继续渗透到众多行业中。在此过程中,肯定有很多同学会用到或者学习NLP预训练模型,为此作者整理了目前2023年NLP的十大预训练模型及论文,模型效果不分先后。
ShuYini
2023/03/06
6.8K1
2023年!自然语言处理(NLP)10 大预训练模型
LLM大语言模型原理、发展历程、训练方法、应用场景和未来趋势
LLM,全称Large Language Model,即大型语言模型。LLM是一种强大的人工智能算法,它通过训练大量文本数据,学习语言的语法、语义和上下文信息,从而能够对自然语言文本进行建模。这种模型在自然语言处理(NLP)领域具有广泛的应用,包括文本生成、文本分类、机器翻译、情感分析等。本文将详细介绍LLM大语言模型的原理、发展历程、训练方法、应用场景和未来趋势。
正在走向自律
2024/12/18
1.8K0
LLM大语言模型原理、发展历程、训练方法、应用场景和未来趋势
大语言模型技术原理
在今天这个时代,人们的工作和生活已经离不开数据访问,而几乎所有平台背后的数据存储和查询都离不开数据库。SQL作为一种数据库的查询和处理语言历史悠久,最早由IBM于上世纪70年代初研究关系数据模型时提出,后续发展为一种广泛使用的数据库标准访问接口。
NineData
2023/05/30
1.8K0
大语言模型技术原理
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
在 2017-2019 年之间,随着 Transformer 模型的提出,计算资源与大规模语料库不断出现,自然语言处理领域发生了翻天覆地的变化,传统的全监督学习的范式逐渐达到了瓶颈,很难在传统的训练方式上取得大幅度提升。这时大规模预训练模型的如 Bert、RoBERTa 等模型的出现使得研究方向转向了以预训练模型为基础 + 下游任务 Fine-tune 的范式。
汀丶人工智能
2023/07/20
3.2K0
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
万字长文——这次彻底了解LLM大语言模型
自然语言处理领域正在经历着一场又一场的革命,各类技术层出不穷,不断的改变我们对文本的理解方式和文本生成方式。类似与蝴蝶效应,这场革命不仅提高了机器翻译、文本摘要、文本分类等任务的性能,还在各行各业引发了巨大的变革。越来越 多的行业AI化、智能化。在本小节,将介绍一些语言模型中的核心概念,为更好的理解大语言模型做铺垫。
聪明鱼
2023/12/07
6.4K2
GPT大模型的涌现能力的概述
一个一直以来的共识是,模型的规模越大,模型在下游任务上的能力越多、越强。随着最近的新的模型的提出,大规模的语言模型出现了很多超乎研究者意料的能力。我们针对这些在小模型上没有出现,但是在大模型上出现的不可预测的能力——“涌现能力”做了一些归纳和总结,分别简要介绍了涌现能力的定义、常见的激发手段和具体的分类和任务。
算法进阶
2023/08/28
8330
GPT大模型的涌现能力的概述
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(上)
自从图灵测试在20世纪50年代提出以来,人类一直在探索机器掌握语言智能的方法。语言本质上是一个由语法规则控制的复杂、精细的人类表达系统。开发能够理解和掌握语言的能力强大的人工智能(AI)算法是一个重大挑战。作为一种主要方法,语言建模在过去二十年中已经被广泛研究,从统计语言模型发展到神经语言模型。最近,通过在大规模语料库上预训练Transformer模型,提出了预训练语言模型(PLMs),在解决各种自然语言处理(NLP)任务方面表现出强大的能力。由于研究人员发现模型扩展可以提高模型容量,他们进一步通过将参数规模增加到更大的尺寸来研究扩展效果。有趣的是,当参数规模超过一定水平时,这些扩大的语言模型不仅可以实现显著的性能提升,而且还表现出一些特殊的能力(例如上下文学习),这些能力在小规模语言模型(例如BERT)中不存在。为了区分不同参数规模的语言模型,研究界为具有显著规模(例如包含数十亿或数百亿个参数)的PLMs创造了大型语言模型(LLM)这个术语。最近,学术界和工业界对LLMs的研究取得了很大进展,其中一个显著的进展是ChatGPT的推出(一种基于LLMs开发的强大AI聊天机器人),引起了社会的广泛关注。LLMs的技术进化对整个AI社区产生了重要影响,这将革命性地改变我们开发和使用AI算法的方式。考虑到这种快速的技术进步,在本次调查中,我们通过介绍背景、关键发现和主流技术,回顾了LLMs的最新进展。特别是,我们关注LLMs的四个主要方面,即预训练、适应调整、利用和容量评估。此外,我们还总结了开发LLMs的可用资源,并讨论了未来方向的剩余问题。本次调查提供了LLMs文献的最新综述,可供研究人员和工程师使用。
jhonye
2023/05/29
1.7K0
进一步改进GPT和BERT:使用Transformer的语言模型
作者:Chenguang Wang、Mu Li、Alexander J. Smola
机器之心
2019/05/14
1.2K0
进一步改进GPT和BERT:使用Transformer的语言模型
为什么所有公开的对 GPT-3 的复现都失败了?复现和使用 GPT-3/ChatGPT,你所应该知道的
英文原版作者:杨靖锋,现任亚马逊科学家,本科毕业于北大,硕士毕业于佐治亚理工学院,师从 Stanford 杨笛一教授。 感谢靳弘业对第一版稿件的建议,感谢陈三星,符尧的讨论和建议。 本文转载自夕小瑶的卖萌屋 文|杨靖锋 译|杨昊桐,王骁 修订 源|机器之心 英文原版:https://jingfengyang.github.io/gpt 推特原文:https://twitter.com/JingfengY/status/1625003999387881472 这一推文写于 2023 年 2 月 12 日,其中
AI科技评论
2023/02/28
1.2K0
为什么所有公开的对 GPT-3 的复现都失败了?复现和使用 GPT-3/ChatGPT,你所应该知道的
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
在自然语言处理问题中,可从互联网上下载大量无标注数据,而针对具体问题的有标注数据却非常少,GPT 是一种半监督学习方法,它致力于用大量无标注数据让模型学习 “常识”,以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练 Fine-tune 之前,用无标签数据预训练模型 Pretrain,并保证两种训练具有同样的网络结构。 GPT 底层也基于 Transformer 模型,与针对翻译任务的 Transformer 模型不同的是:它只使用了多个 Deocder 层。
汀丶人工智能
2023/07/18
3.7K0
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
揭秘微信如何训练大模型:低调的WeLM|官网上次更新还是一年前
“ 通过介绍微信打造的大型中文预训练语言模型WeLM的设计思路、数据集、模型结构、训练方式、多样化的评估结果等方面,全面解析这一模型的技术原理和应用价值。”
技术人生黄勇
2024/07/19
1320
揭秘微信如何训练大模型:低调的WeLM|官网上次更新还是一年前
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
多模态模型结合了多种数据类型,如图像、文本、音频等。传统的语言模型(LLMs)主要针对文本数据进行训练和应用,但在理解其他数据类型方面存在局限性。纯文本语言模型,如GPT-3、BERT和RoBERTa,在文本生成和编码等任务上表现出色,但在理解和处理其他数据类型方面存在不足。
集智书童公众号
2023/11/29
1.7K0
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
预训练、微调和上下文学习
最近语言模型在自然语言理解和生成方面取得了显著进展。这些模型通过预训练、微调和上下文学习的组合来学习。在本文中将深入研究这三种主要方法,了解它们之间的差异,并探讨它们如何有助于语言模型的学习过程。
deephub
2023/08/30
5950
预训练、微调和上下文学习
【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练
本次论文分享内容主要包括以下内容:鲁棒优化Bert模型(RoBERTa)、自回归预训练模型(XLNet)、无监督多任务学习语言模型、生成预训练语言理解、深层上下文单词表示、键值记忆网络、大规模问答系统训练等 。
ShuYini
2021/12/08
7200
【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练
Bert类模型也具备指令遵循能力吗?
BERT模型,依托Transformer架构及其大规模预训练,为自然语言处理领域带来了深远的影响。BERT模型架构包含多层双向Transformer编码器,通过这种结构,BERT及其家族成员,如RoBERTa、ELECTRA、DeBERTa和XLM-R,能够深入学习并理解语言的上下文,尤其在自然语言理解任务上表现卓越。
zenRRan
2024/04/30
2420
Bert类模型也具备指令遵循能力吗?
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
机器之心报道 机器之心编辑部 为什么仿佛一夜之间,自然语言处理(NLP)领域就突然突飞猛进,摸到了通用人工智能的门槛?如今的大语言模型(LLM)发展到了什么程度?未来短时间内,AGI 的发展路线又将如何? 自 20 世纪 50 年代图灵测试提出以来,人们始终在探索机器处理语言智能的能力。语言本质上是一个错综复杂的人类表达系统,受到语法规则的约束。因此,开发能够理解和精通语言的强大 AI 算法面临着巨大挑战。过去二十年,语言建模方法被广泛用于语言理解和生成,包括统计语言模型和神经语言模型。 近些年,研究人员通
机器之心
2023/04/06
1.4K0
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
大规模预训练语言模型(LLM)如 GPT-3 是在大规模的互联网文本数据上训练,以给定的前缀来预测生成下一个 token(Next token prediction)。通过预测词的训练目标、大规模数据集以及超高参数量的模型相结合,产生了性能极强的 LLM,它可以 “理解” 任何文本输入,并在其基础上进行“写作”,除此以外,GPT-3 的论文发现,大规模的训练数据会产生一种有趣的新兴行为,称为 In-Context Learning(又称上下文学习,语境学习, ICL),他并不需要调整模型参数,仅用几条下游任务的示例就可以取得极佳的结果。
汀丶人工智能
2023/07/19
6.9K0
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来
作者 | 李航 编译 | 李梅、黄楠 编辑 | 陈彩娴 从俄国数学家 Andrey Markov (安德烈·马尔可夫)提出著名的「马尔科夫链」以来,语言建模的研究已经有了 100 多年的历史。近年来,自然语言处理(NLP)发生了革命性的变化。2001年,Yoshua Bengio 用神经网络进行参数化的神经语言模型,开启了语言建模的新时代。其后,预训练语言模型如 BERT 和 GPT 的出现再次将 NLP 提高到一个新的水平。 最近,字节跳动 AI Lab 的总监李航博士在《ACM通讯》(The Commu
AI科技评论
2022/07/12
1.2K0
字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来
推荐阅读
解读Toolformer
1K0
MetaAI & 华盛顿 | 提出跨文档的语言建模,7B模型性能提高5%,RC任务提高15%
2950
2023年!自然语言处理(NLP)10 大预训练模型
6.8K1
LLM大语言模型原理、发展历程、训练方法、应用场景和未来趋势
1.8K0
大语言模型技术原理
1.8K0
大语言模型的预训练[6]:思维链(Chain-of-thought,CoT)定义原理详解、Zero-shot CoT、Few-shot CoT 以及在LLM上应
3.2K0
万字长文——这次彻底了解LLM大语言模型
6.4K2
GPT大模型的涌现能力的概述
8330
基于AIGC的写作尝试:A Survey of Large Language Models(论文翻译)(上)
1.7K0
进一步改进GPT和BERT:使用Transformer的语言模型
1.2K0
为什么所有公开的对 GPT-3 的复现都失败了?复现和使用 GPT-3/ChatGPT,你所应该知道的
1.2K0
大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解
3.7K0
揭秘微信如何训练大模型:低调的WeLM|官网上次更新还是一年前
1320
一文综述,未来已来 | 视觉和大语言模型的未来是什么?必然结连理实现多模态大模型
1.7K0
预训练、微调和上下文学习
5950
【NLP论文速递&&源码】Bert模型优化、自回归预训练、键值记忆网络、大规模问答系统训练
7200
Bert类模型也具备指令遵循能力吗?
2420
大型语言模型综述全新出炉:从T5到GPT-4最全盘点,国内20余位研究者联合撰写
1.4K0
大语言模型的预训练[5]:语境学习、上下文学习In-Context Learning:精调LLM、Prompt设计和打分函数设计以及ICL底层机制等原理详解
6.9K0
字节跳动 AI Lab 总监李航:语言模型的过去、现在和未来
1.2K0
相关推荐
解读Toolformer
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档