首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

BERT, RoBERTa, DistilBERT, XLNet的用法对比

导读:BERT, RoBERTa, DistilBERT, XLNet到底哪家强?在不同的研究领域和应用场景如何选择成了大难题。凡事莫慌,这篇文章帮你理清思路。...XLNet和RoBERTa改善了性能,而DistilBERT提高了推理速度。下表对它们进行了比较: ?...DistilBERT学习了BERT的蒸馏(近似)版本,保留了95%的性能,但只使用了一半的参数。 具体来说,它没有标记类型和池化层的嵌入,只保留了谷歌BERT中一半的层。...DistilBERT使用了一种叫做蒸馏的技术,它与谷歌的BERT(也就是由较小的神经网络构成大型神经网络)相似。 这个原理是,一旦要训练一个大型神经网络,就可以使用较小的网络来预估其完整的输出分布。...原文作者:SuleimanKhan 原文链接:https://towardsdatascience.com/bert-roberta-distilbert-xlnet-which-one-to-use-

1.1K20

使用DistilBERT 蒸馏类 BERT 模型的代码实现

本文为你详细介绍DistilBERT,并给出完整的代码实现。 机器学习模型已经变得越来越大,即使使用经过训练的模型当硬件不符合模型对它应该运行的期望时,推理的时间和内存成本也会飙升。...我们在以前的文章中介绍过 DistilBERT [1] 如何引入一种简单而有效的蒸馏技术,该技术可以轻松应用于任何类似 BERT 的模型,但没有给出任何的代码实现,在本篇文章中我们将进入细节,并给出完整的代码实现...pass visualize_children(roberta) 这样获得了如下输出: 看起来 RoBERTa 模型的结构与其他类似 BERT 的模型一样,如下所示: 复制教师模型的权重 要以 DistilBERT...自定义损失函数 作为对 DistilBERT 训练过程的回顾,先看一下下图: 请把注意力转向上面写着“损失”的红色大盒子。但是在详细介绍里面是什么之前,需要知道如何收集我们要喂给它的东西。...对于 DistilBERT,可以阅读原始论文 [1]。对于 RoBERTa,Hugging Face 上已经存在类似 DistilBERT 的蒸馏版本。

48340
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    使用DistilBERT 蒸馏类 BERT 模型的代码实现

    我们在以前的文章中介绍过 DistilBERT [1] 如何引入一种简单而有效的蒸馏技术,该技术可以轻松应用于任何类似 BERT 的模型,但没有给出任何的代码实现,在本篇文章中我们将进入细节,并给出完整的代码实现...pass visualize_children(roberta) 这样获得了如下输出 看起来 RoBERTa 模型的结构与其他类似 BERT 的模型一样,如下所示: 复制教师模型的权重 要以 DistilBERT...自定义损失函数 作为对 DistilBERT 训练过程的回顾,先看一下下图: 请把注意力转向上面写着“损失”的红色大盒子。但在详细介绍里面是什么之前,需要知道如何收集我们要喂给它的东西。...对于 DistilBERT,可以阅读原始论文 [1]。对于 RoBERTa,Hugging Face 上已经存在类似 DistilBERT 的蒸馏版本。.../4814577c59f4f38fcc89729ce4ba21e6 引用 [1] Victor SANH, Lysandre DEBUT, Julien CHAUMOND, Thomas WOLF, DistilBERT

    59730

    用 BERT 精简版 DistilBERT+TF.js,提升问答系统 2 倍性能

    不同时期的 NLP 模型及其参数数量 为创建 DistilBERT,我们向 BERT 应用了知识蒸馏技术,因而模型得名 DistilBERT。知识蒸馏是一种压缩技术,由 Hinton 等人提出。...我们利用在 SQuAD 1.1 上微调过的 BERT-cased 模型作为教师,配合知识蒸馏损失便可实现 DistilBERT 的微调。...这样,就会得到很多教师与学生的对应关系:首先由 BERT-cased 教授 DistilBERT-cased,然后由 SQuAD-finetuned BERT-cased 版本“再教一次”,以获得 DistilBERT-cased-finetuned-squad...的 Keras 文件 (.h5),其中包含 DistilBERT-cased-squad 模型的权重。...然后,我们便可将模型保存为 SavedModel 格式: tf.saved_model.save(distilbert, 'distilbert_cased_savedmodel', signatures

    1.2K30

    可视化教程开启BERT之旅

    进一步地,这个模型实际上由两个模型组成: DistilBERT 处理输入的句子,并将它从句子中提取的一些信息传递给下一个模型。...对于 DistilBERT 模型,我们使用该模型预训练的参数即可,这个模型没有被用来做句子分类任务的训练和微调。...transformers 库提供了一个 DistilBERT 的实现和预训练模型。 ? 教程概述 首先使用预训练的 distilBERT 模型为2000个句子生成句向量。 ?...DistilBERT 中的流程 输入的句向量流经 DistilBERT 的过程和 BERT 一样。输出也是每个token 用一个768维的向量表示。 ?...DistilBERT 处理部分 现在我们从token 矩阵中创建了一个输入的张量,别传递给 DistilBERT input_ids = torch.tensor(np.array(padded))

    1.1K30

    小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    模型性能:DistilBERT 测试 研究者在 GLUE 基准的开发集上对比了 DistilBERT 和两个基线模型的性能,基线模型分别是 BERT base(DistilBERT 的教师模型)和来自纽约大学的强大非...至于推断性能,DistilBERT 的推断速度比 BERT 快 60%,规模也比后者小;DistilBERT 的推断速度比 ELMo+BiLSTM 快 120%,规模也比后者小很多。...下游任务:蒸馏和迁移学习 研究者进一步研究了在高效推断约束下,DistilBERT 在下游任务上的应用。研究者对紧凑的预训练语言模型 DistilBERT 进行微调,用于分类任务。...然后使用同样的超参数训练 DistilBERT。...少即是多:小模型也能出奇迹 Hugging Face 对 DistilBERT 的潜力非常看好。DistilBERT 只是个开始,它也提出了许多问题:使用知识蒸馏技术,我们可以把大模型压缩到什么程度?

    82920

    小版BERT也能出奇迹:最火的预训练语言库探索小巧之路

    模型性能:DistilBERT 测试 研究者在 GLUE 基准的开发集上对比了 DistilBERT 和两个基线模型的性能,基线模型分别是 BERT base(DistilBERT 的教师模型)和来自纽约大学的强大非...至于推断性能,DistilBERT 的推断速度比 BERT 快 60%,规模也比后者小;DistilBERT 的推断速度比 ELMo+BiLSTM 快 120%,规模也比后者小很多。...下游任务:蒸馏和迁移学习 研究者进一步研究了在高效推断约束下,DistilBERT 在下游任务上的应用。研究者对紧凑的预训练语言模型 DistilBERT 进行微调,用于分类任务。...然后使用同样的超参数训练 DistilBERT。...少即是多:小模型也能出奇迹 Hugging Face 对 DistilBERT 的潜力非常看好。DistilBERT 只是个开始,它也提出了许多问题:使用知识蒸馏技术,我们可以把大模型压缩到什么程度?

    1.1K21

    【NLP】初次BERT使用者的可视化指南

    DistilBERT处理这个句子,并将从中提取的一些信息传递给下一个模型。DistilBERT 是 BERT 的小版本,由HuggingFace的团队开发并开源。...我们将首先使用训练好的 distilBERT 来生成 2000 个句子的嵌入。 ? 在这一步之后,我们将不再接触 distilBERT。这些都是我从这里学到的。...DistilBERT 的数据流 通过 DistilBERT 传递输入向量的工作方式与 BERT 一样。输出将是每个输入 token 的向量。每个向量由 768 个数字(浮点数)组成。 ?..., ppb.DistilBertTokenizer, 'distilbert-base-uncased') ## Want BERT instead of distilBERT?...使用 DistilBERT 处理 现在,我们从填充后的 token 矩阵中创建了一个输入张量,并将其发送给 DistilBERT

    1.1K10

    华为刘群团队构造两阶段知识蒸馏模型TinyBERT,模型压缩7.5倍,推理时间快9.4倍

    在CoLA数据集上,tinyBert不用数据增强(No DA)的结果低于table2中DistilBERT的结果;在MRPC数据集上,则结果相当。...DistilBERT 从 Hinton 开始,蒸馏的方法逐渐被应用到了不同的神经网络中,当然你可能也听过 HuggingFace 提出的 DistilBERT,这是一种对 BERT 的蒸馏。...DistilBERT 的作者还使用了最新 RoBERTa 论文中的一些训练技巧,这些技巧表明 BERT 的训练方式对其最终性能至关重要。...DistilBERT 与 BERT 相比具有出人意料的结果:作者保留了 95%以上的性能,但参数却减少了 40%。...其他蒸馏方法 除了 DistilBERT 和 TinyBERT 外,还有其他一些为大家所熟知的蒸馏方法。

    3.1K40
    领券