bert预训练模型_bert预训练模型下载_在预训练的bert模型中冻结图层 - 腾讯云开发者社区

、、、、

我正在尝试使用预训练的维基模型来比较Glove，Fasttext，Bert，Elmo在两个单词之间的相似度。Glove和Fasttext有预训练的模型，可以很容易地与python中的gensim word2vec一起使用。Elmo和Bert有这样的模型吗？

浏览 74提问于2019-09-15得票数 1

1回答

bert中的反向传播

、、

我想知道，当人们说预训练的bert模型时，是否只训练了最终的分类神经网络或通过反向传播和分类神经网络，transformer内部是否有任何更新

浏览 121提问于2021-02-04得票数 1

回答已采纳

2回答

用于命名实体识别的PyTorch Huggingface NLP

、、、、

直到最后一次(11月至2月)，我一直在使用库，并获得了一个F分数 of 0.81为我的命名实体识别任务，通过微调模型。tokenized_texts], maxlen=MAX_LEN, dtype="long", truncating="post", padding="post") 完整的代码在这个中可用。为了避免

浏览 0提问于2019-02-25得票数 5

2回答

在poolingLayer -nlp中加载BERT嵌入模型时出现"Param nlp不存在“错误

、

我的NLP管道使用来自johnsnowlabs的预训练的BERT嵌入模型"bert_base_uncased“。但是当加载这个下载的模型时，我得到了以下异常。

浏览 32提问于2021-04-02得票数 1

回答已采纳

1回答

我想对一个预先训练好的BERT模型进行微调。但是，我的任务使用特定领域内的数据(比如生物医学数据)。此外，我的数据也是一种不同于英语的语言(比如荷兰语)。现在，我可以微调荷兰bert-base-荷兰案例预训练模型。然而，我该如何对生物医学BERT模型进行微调，比如BioBERT，它属于正确的领域，但语言错误？如果我在没有对模型进行任何更改的情况下进行微调，我担心模型不会很好地学习任务，因为它是在完全

浏览 4提问于2021-01-28得票数 2

1回答

HuggingFace变压器如何在添加额外的keras层后冻结变压器

、、、、

我想在预训练的BERT模型的最后一层之后添加一个回归层。所以它应该是这样的：output = output[1]但我不知道如何冻结BERT模型，只训练回归层。

浏览 32提问于2021-05-13得票数 0

2回答

在小型定制语料库上预训练语言模型

、、、、

我很好奇是否可以在文本生成中使用迁移学习，并对特定类型的文本进行再培训/预训练。例如，有一个经过预先训练的BERT模型和一个小型的医学语料库(或任何“类型”)文本，就可以生成一个能够生成医学文本的语言模型。假设你没有大量的“医学文本”，这就是为什么你必须使用转移学习。我把它说成是一条管道，我把它描述为：从我的新文本中获取新的标记，并将它们添加到现有的经过预先培训的语言模型中(例如，vanilla <em

浏览 5提问于2020-04-24得票数 7

1回答

为什么BERT模型必须保持10%的掩码标记不变？

、、

我正在读BERT模型论文。在预训练BERT模型的掩蔽语言模型任务中，本文表示模型将随机选择15%的令牌。我认为模型只需要替换为掩码或其他单词就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测掩码令牌，还是预测15%的整个随机令牌？

浏览 151提问于2020-09-23得票数 2

回答已采纳

1回答

如何在训练过程中保持模型固定？

、、、、

我正在尝试实现一个模型，该模型使用来自不同数据集的多个预训练BERT模型的编码，并使用完全连接层获得组合表示。在这方面，我希望BERT模型应该保持固定，只有完全连接的层应该得到训练。PS:我不想把每个BERT模型的输入编码都去掉，然后把它们当作输入。

浏览 29提问于2020-04-28得票数 0

回答已采纳

1回答

通过TF-hub导入后冻结BERT层并对其进行训练？

、

我想通过tf-hub函数hub.module(bert_url，trainable = True)导入BERT预训练模型，并将其用于文本分类任务。我计划使用一个大型语料库来微调BERT的权重，以及几个输入为BERT输出的密集层。然后我想冻结BERT的层，只训练BERT之后的致密层。我怎样才能有效地做到这一点呢？

浏览 25提问于2020-03-29得票数 0

1回答

在bert上训练新数据集

、、、、

我是新来伯特的我有一个amazon评论数据集，我想要根据评论预测星级我知道我可以使用预先训练好的bert模型，如here所示但我想在我自己的数据集上训练bert模型。我是否可以在任何数据集的预训练模型上应用这种“微调”，以获得更准确的结果，或者我是否必须做一些其他事情来从头开始训练模型如果我确实想从头开始训练一个模型，我应该从哪里开始呢？

浏览 61提问于2021-10-03得票数 0

1回答

通过Huggingface转换器更新BERT模型

、、、、

我正在尝试使用内部语料库更新预训练的BERT模型。我看过Huggingface的transformer文档，你会发现我有点困惑，below.My的目标是使用余弦距离计算句子之间的简单相似度，但我需要为我的特定用例更新预先训练的模型。我试图“重新训练”或更新模型，我假设special_token_1和special_token_2表示来自我的“内部”数据或语料库的“新句子”。这是正确的吗？总而言之，我喜欢已经预训练的<

浏览 53提问于2019-10-30得票数 9

1回答

Tensorflow Transformer解码器输出未给出预期结果

、、、

我已经使用tensorflow设计了一个转换器模型。该模型的目标是生成一个文本序列，理想情况下是一个问题，然后是一个给定输入句子的答案。<~>A man is walking past a brick wall由于某些原因，即使在将模型训练到100个时期之后，我也没有得到想要的输出。我非常确定网络正在从训练中学习，考虑到输出的构建方式，这是非常有希望的，但这里的主要问题是问题答案是由不在源句中的单词组成的。有没有办法指示

浏览 2提问于2020-01-28得票数 0

1回答

使用领域文本预训练BERT/RoBERTa语言模型，估计需要多长时间？哪个更快？

、、

我想使用领域语料库(情感相关文本)预训练BERT和RoBERTa传销。使用50k~100k单词需要多长时间。由于RoBERTa没有经过训练来预测下一个句子的目标，比BERT少一个训练目标，并且具有更大的小批量和学习率，我假设RoBERTa会快得多？

浏览 28提问于2020-02-09得票数 1

回答已采纳

1回答

在JupyterNotebook中下载的模型位于何处？

、、、、

当我运行这个命令时，我可以看到我下载了模型。那么，这些下载的模型/数据/令牌器存储在我的机器中的什么地方？谢谢！

浏览 12提问于2020-12-27得票数 0

1回答

使用谷歌云平台TPU v3对BERT进行预培训

、、、

我们正在尝试使用我们准备的语料库对BERT进行预训练。在本教程()的帮助下，我尝试使用云壳使用TPU v3对BERT进行预训练，但云壳的使用限制为每周60小时，这不允许我们有效地执行非常耗时的计算，如BERT预训练。如果我们想在谷歌云平台上使用TPU v3对BERT进行不间断的预训练，最好的方法是什么？如果可能的话，如果你能提供一个具体的流程，那将是非常有帮助的。

浏览 4提问于2021-11-09得票数 0

1回答

如何为领域特定的表征学习任务训练bert模型？

、、、

我正在尝试为一些特定类型的文本生成良好的句子嵌入，使用句子转换模型测试相似度，而使用kmeans进行聚类并不能给出好的结果。有什么需要改进的想法吗？我正在考虑在我的数据集上训练任何句子转换器模型(它们只是句子，但没有任何标签)。如何特别针对ny数据重新训练现有模型以生成更好的嵌入。谢谢。

浏览 5提问于2020-12-08得票数 0

1回答

BERT和GPT2的主要区别是什么？

、

我读了很多文章，人们都说BERT对NLU有好处，而GPT对NLG有好处。但它们在结构上的关键区别在于是否在自我注意中添加了掩膜，并以不同的方式训练了模型。那么我能否得出这样的结论：“BERT的预训练参数对NLU有好处”，“GPT2的预训练参数对NLG有好处”？或者，这两者之间还有什么其他关键的区别，使人们得出我在开始时提到的结论？

浏览 8提问于2021-03-29得票数 0

3回答