使用transformers tokenizer over batch与per item相比，是否有显著的速度提升？

使用transformers tokenizer over batch与per item相比，可以显著提升速度。

Transformers tokenizer是自然语言处理中常用的工具，用于将文本数据转换为模型可接受的输入格式。在处理大规模数据时，使用tokenizer over batch可以将多个文本样本一起处理，而不是逐个处理每个样本（per item）。

使用tokenizer over batch的主要优势是并行处理能力。当处理多个样本时，tokenizer可以同时对它们进行编码，从而减少了处理时间。相比之下，per item方式需要逐个处理每个样本，无法充分利用计算资源。

使用tokenizer over batch还可以减少内存占用。由于同时处理多个样本，内存使用效率更高，可以减少数据加载和存储的开销。

应用场景包括但不限于：

大规模文本数据处理：当需要处理大量文本数据时，使用tokenizer over batch可以提高处理效率，加快模型训练或推理速度。
机器翻译：在进行机器翻译任务时，需要同时处理源语言和目标语言的句子，使用tokenizer over batch可以提高翻译速度。
文本分类：当需要对大量文本进行分类时，使用tokenizer over batch可以加快分类速度，提高模型的实时性。

对于腾讯云相关产品，推荐使用的是腾讯云的自然语言处理（NLP）相关服务，如腾讯云智能文本分析（https://cloud.tencent.com/product/nlp）和腾讯云机器翻译（https://cloud.tencent.com/product/tmt）等。这些产品提供了丰富的自然语言处理功能和API，可以与transformers tokenizer over batch结合使用，实现高效的文本处理和分析。

页面内容是否对你有帮助？

有帮助

没帮助

拥抱面上的GPT2 (移相器变压器) RuntimeError: grad只能为标量输出隐式创建

、、、、

我正在尝试用我的自定义数据集微调gpt2。我用拥抱式变压器的文档创建了一个基本的例子。我收到了上述错误。我知道它的意思：(基本上它是在非标量张量上向后调用)，但是由于我几乎只使用API调用，所以我不知道如何解决这个问题。有什么建议吗？ from pathlib import Path from absl import flags, app import IPython import torch from transformers import GPT2LMHeadModel, Trainer, TrainingArguments from data_reader import GetData

浏览 5提问于2020-09-16得票数 2

回答已采纳

1回答

RuntimeError:输入、输出和索引必须在当前设备上。(fill_mask(“随机文本<mask>。”)

、、、、

我得到"RuntimeError:输入、输出和索引必须在当前设备上“。当我运行这条线时。Fill_mask(“汽车。”) 我在Colab上运行它。我的代码： from transformers import BertTokenizer, BertForMaskedLM from pathlib import Path from tokenizers import ByteLevelBPETokenizer from transformers import BertTokenizer, BertForMaskedLM paths = [str(x) for x in Path(

浏览 21提问于2021-05-12得票数 0

回答已采纳

1回答

RuntimeError:索引3处的输入张量具有无效的形状[2，2，16,128，64]，但期望[2，4，16,128，64]

、、、、

运行时错误，同时使用库在SageMaker - 实例中完成预先训练的SageMaker模型。 finetuning_gpt2_script.py包含以下内容，图书馆： from transformers import Trainer, TrainingArguments from transformers import EarlyStoppingCallback from transformers import GPT2LMHeadModel, GPT2Tokenizer from transformers import TextDataset,DataCollatorForLanguage

浏览 8提问于2021-01-21得票数 0

2回答

PipelineException:没有在输入中找到mask_token ([掩码])

、、、、

当我运行这一行时，我得到了这个错误"PipelineException: mask_token (掩码)在输入中没有“。Fill_mask(“汽车”) 我正在科拉布上运行。我的守则： from transformers import BertTokenizer, BertForMaskedLM from pathlib import Path from tokenizers import ByteLevelBPETokenizer from transformers import BertTokenizer, BertForMaskedLM paths = [str(x) for

浏览 4提问于2021-05-12得票数 3

回答已采纳

1回答

Huggingface BERT NER示例Batch_Size错误

、、、

我正在尝试使用huggingface指南(https://huggingface.co/transformers/custom_datasets.html#ft-trainer)中的BERT和pytorch实现NER示例。读取数据很好，但是当我想要开始训练时，我得到了错误 Expected input batch_size (16) to match target batch_size (4000) 当我尝试更改输入batch_size时，目标batch_size始终是输入batch_size*250。如果有人能看一下下面的代码并发现我的错误，我将不胜感激。 from pathlib imp

浏览 114提问于2021-01-16得票数 0

1回答

在PyTorch中Bert预训练模型推理的正常速度

、、、

我正在Huggingface中测试Bert base和Bert蒸馏模型，速度为4个场景，batch_size = 1： 1) bert-base-uncased: 154ms per request 2) bert-base-uncased with quantifization: 94ms per request 3) distilbert-base-uncased: 86ms per request 4) distilbert-base-uncased with quantifization: 69ms per request 我使用IMDB文本作为实验数据并设置max_length=51

浏览 69提问于2021-05-26得票数 1

回答已采纳

1回答

BERT预训练MLM + NSP

、、

我想为传销+ NSP任务预先训练BERT。当我运行下面的代码时，抛出了一个错误： RuntimeError:张量a (882)的大小必须与非单一维数为1 1%|▊| 3/561 00:02<06:13，1.49it/s的张量b (512)的大小匹配这看起来像是一个截断问题。但是为什么呢？我只是使用了库。如果有人能开导我，我会很高兴。谢谢你的预支。 The code I run: from transformers import BertTokenizer from transformers import BertConfig, BertForPreTraining from tran

浏览 99提问于2021-11-26得票数 0

1回答

在HuggingFace Trainer类中设置`remove_unused_columns=False`导致错误

、、、

我正在使用HuggingFace Trainer类训练一个模型。下面的代码做了一个很好的工作： !pip install datasets !pip install transformers from datasets import load_dataset from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer, AutoTokenizer dataset = load_dataset('glue', 'mnli') model = A

浏览 398提问于2021-07-28得票数 0

回答已采纳

2回答

用于下一句预测的BERT

、、、

我试图使用我自己的数据集对Bert模型进行微调，以进行下一句预测，但它不起作用。谁能告诉我我的数据集应该是什么结构，以及如何使用拥抱面孔训练器()进行微调？ def train(bert_model,bert_tokenizer,path,eval_path=None): out_dir = "/content/drive/My Drive/next_sentence/" training_args = TrainingArguments(output_dir=out_dir, ove

浏览 6提问于2021-04-04得票数 0

1回答

如何在使用自定义数据集进行微调之后检查confusion_matrix？

、、、、

在数据科学堆栈交换上，也有同样的问题。背景我想检查一个confusion_matrix，包括精度，召回，和f1分数，如下面的微调后使用自定义数据集。微调过程和任务是上的。在完成与培训师的微调之后，在这种情况下，我如何检查confusion_matrix？ confusion_matrix的图像，包括精度、召回和f1-得分：例如输出图像。 predictions = np.argmax(trainer.test(test_x), axis=1) # Confusion matrix and classification report. print(classification_repo

浏览 1提问于2021-08-07得票数 4

回答已采纳

1回答

如何使用Huggingface流数据集而不使用torchdata的IterableWrapper？

、、、、

给一个带有datasets.iterable_dataset.IterableDataset的stream=True，例如。 train_data = load_dataset("csv", data_files="../input/tatoeba/tatoeba-sentpairs.tsv", streaming=True, delimiter="\t", split="train") 并试图在Trainer对象中使用它。 # instantiate trainer trainer = Se

浏览 96提问于2022-10-30得票数 0

回答已采纳

3回答

如何使用DistilBERT Huggingface NLP模型对新数据进行情感分析？

、、、、

我正在使用DistilBERT对我的数据集进行情感分析。数据集包含文本和每一行的标签，用于标识文本是正面的还是负面的电影评论(例如:1=正面，0=负面)。下面是huggingface文档()中的代码 #This dataset can be explored in the Hugging Face model hub (IMDb), and can be alternatively downloaded with the Datasets library with load_dataset("imdb"). wget http://ai.stanford.edu/~ama

浏览 51提问于2021-10-24得票数 2

1回答

基于AutoModelForSequenceClassification的集面多类分类

、、、、

我试图使用Hugginface的AutoModelForSequenceClassification API进行多类分类，但对其配置感到困惑。我的数据集是一个热编码的，问题类型是多类的(每次一个标签)。我试过的是： from transformers import AutoModelForSequenceClassification model = AutoModelForSequenceClassification.from_pretrained("bert-base-uncased",

浏览 11提问于2022-06-02得票数 0

1回答

如何与拥抱面板的训练器api并行运行端到端的分布式数据示例(最好是在单个节点、多个gpus上)？

、、、、

我广泛地浏览了互联网，拥抱了face的讨论论坛&回购，但没有找到如何正确处理与HF并行的ddp/分布式数据的最终例子(链接在末尾)。这就是我所需要的，能够端到端地运行它：，，我们是否将hf模型封装在DDP中？(脚本需要知道如何在某个地方同步一些东西，否则只需从命令行启动torch.distributed )，，我们是否将args更改为训练器或训练器？将优化器封装在任何分布式培训器中(比如樱桃？)cherry是一种类似python -m torch.distributed.launch --nproc_per_node=2 distributed_maml.pyhow的，我们做的是通

浏览 59提问于2022-08-17得票数 -1

1回答

训练MBART模型时的CUDA误差

、、、

from transformers import MBart50TokenizerFast from transformers import MBartForConditionalGeneration tokenizer = MBart50TokenizerFast.from_pretrained("facebook/mbart-large-50-many-to-many-mmt",src_lang="", tgt_lang="") model = MBartForConditionalGeneration.from_pretrained(

浏览 8提问于2022-10-14得票数 2

1回答

如何在不出现内存错误的情况下从大型文本文件构建数据集？

、、、、

我有一个大于7.02 GB的文本文件。我已经基于这个文本文件构建了一个标记器。我想构建一个数据集，如下所示： from transformers import LineByLineTextDataset dataset = LineByLineTextDataset( tokenizer=tokenizer, file_path="data.txt", block_size=128,) 由于我的数据量非常大，所以发生了内存错误。源代码如下： with open(file_path, encoding="utf-8") as f:

浏览 1提问于2021-02-21得票数 1

1回答

KeyError: 337在使用放火枪训练拥抱面部模型时

、、、

我正在使用Hugging face models使用pytorch.训练一个简单的二进制分类模型伯特PyTorch HuggingFace. 以下是代码： import transformers from transformers import TFAutoModel, AutoTokenizer from tokenizers import Tokenizer, models, pre_tokenizers, decoders, processors from transformers import AutoTokenizer from transformers import Ada

浏览 5提问于2021-12-14得票数 0

2回答

如何在将转换器数据集传递给培训师时使用切片？

、、

参考 (来自Huggingface )，如果我运行 tokenized_datasets["train"][:8] dtype是dict而不是Dataset，切片将返回一些数据。如果我在这里传递切片，我会得到一个关键错误，我认为这与我不再传递数据集有关。 from transformers import Trainer trainer = Trainer( model, training_args, train_dataset=tokenized_datasets["train"][:8], eval_dataset=token

浏览 7提问于2021-12-23得票数 0

1回答

如何从Huggingface的管道方法中获得损失，以完善模型？

、、、

我正试图在QA的拥抱面上使用。它的代码在链接中： from transformers import AutoModelForQuestionAnswering, AutoTokenizer, pipeline model_name = "deepset/roberta-base-squad2" # a) Get predictions nlp = pipeline('question-answering', model=model_name, tokenizer=model_name) QA_input = { 'question':

浏览 9提问于2022-10-02得票数 1

1回答

为什么model.fit在没有明确的属性和标签分离的情况下工作，而相同的方法不适用于model.evaluate？

、、、、

我正在为IMDB构建DistillBERT模型，其中的文本被分为正反两类。在我的代码中，我首先标记了“文本”数据- from datasets import load_dataset imdb = load_dataset("imdb") from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased") def preprocess_function(examples): return tokenize

浏览 4提问于2022-07-20得票数 1

回答已采纳

1回答

BertLMDataBunch.from_raw_corpus UnicodeDecodeError：'utf-8‘编解码器无法解码位置49中的字节0xe9 :无效的连续字节

、、

我在使用fast-bert库对Camembert进行微调时遇到了问题，在创建LMDataBunch时收到以下错误消息。有人知道怎么解决这个问题吗？谢谢 Ps记录器使用logging.getLogger()初始化 databunch_lm = BertLMDataBunch.from_raw_corpus( data_dir=DATA_PATH, text_list=all_texts, tokenizer='camembert-base',

浏览 10提问于2020-07-05得票数 0

1回答

HuggingFace培训师()不能向wandb报告

、、

我正在尝试将参数为report_to的训练器设置为wandb，请参阅配置的： training_args = TrainingArguments( output_dir="test_trainer", evaluation_strategy="steps", learning_rate=config.learning_rate, num_train_epochs=config.epochs, weight_decay=config.weight_decay, logging_dir=config.logging_d

浏览 34提问于2022-08-05得票数 0

回答已采纳

1回答

在带有optuna的huggingface上的Hyperparam搜索失败，出现wandb错误

、、、

我正在使用这个简单的脚本，使用示例博客帖子。然而，由于wandb，它失败了。将wandb设为离线也是没有用的。 from datasets import load_dataset, load_metric from transformers import (AutoModelForSequenceClassification, AutoTokenizer, Trainer, TrainingArguments) import wandb wandb.init() tokenizer = AutoTokenizer.from_pretr

浏览 157提问于2021-07-23得票数 0

回答已采纳

1回答

带有Dataloader的TypeError

、、、、

我使用了一个非常大的数据集来测试我的模型。为了使测试样本更快，我想构建一个数据加载器。但我错了。我两天都解决不了。这是我的代码： PRE_TRAINED_MODEL_NAME = 'bert-base-cased' tokenizer = BertTokenizer.from_pretrained(PRE_TRAINED_MODEL_NAME) class GPReviewDataset(Dataset): def __init__(self, Paragraph, target, tokenizer, max_len): self.Paragra

浏览 7提问于2022-06-16得票数 0

回答已采纳

1回答

使用训练器API进行预训练时的ValueError

、、、、

我试图微调/预训练一个现有的伯特模型，通过在transformers库中使用训练器API进行情感分析。我的培训数据集看起来如下： Text Sentiment This was good place 1 This was bad place 0 我的目标是能够将情绪分为积极的或消极的。这是我的密码： from datasets import load_dataset from datasets import load_dataset_builder import dat

浏览 1提问于2021-12-07得票数 1

2回答

如何将标记器输出转换为Huggingface Transformers中Trainer所需的train_dataset？

、

我尝试使用huggingface transformers的文档进行标记化。 from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained('bert-base-cased') encoded_input = tokenizer(batch_of_sequences) 预训练的标记器给出了包含以下三个关键字的字典输出： encoded_input = { 'input_ids': [[],[],[]], 'token_type_ids': [[]

浏览 107提问于2020-08-21得票数 3

1回答

当微调HuggingFace NLI模型( RoBERTa/BART)时，损失是“nan”。

、、、、

我正在使用的变压器库，我试图微调一个经过预先训练的NLI模型(ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli)，该模型包含大约276.000个假设--前提对。我正在按照docs 和的指示进行微调。我的印象是，微调工作(它进行培训并保存检查点)，但trainer.train()和trainer.evaluate()返回"nan“以弥补损失。我尝试过的：我试着使用ynie/roberta-large-snli_mnli_fever_anli_R1_R2_R3-nli和facebook/bart-large-mnli来确保它没

浏览 11提问于2020-12-16得票数 0

1回答

用Tensorflow处理Huggingface模型时的怪异行为

、、、、

我正在尝试微调一个Huggingface模型，使用Tensorflow (在ColabPro上启用GPU )来分析tweets的情绪。我一步一步地在Huggingface网站上完成了指南，但我正在经历一段奇怪的训练时间。我尝试过的所有伯特模型都会发生这种情况。我有两个不同大小的数据集(10k和250万)，由推文组成，我需要将其归类为有积极情绪或消极情绪。通过这段代码，我对数据集执行标记化： # perform tokenization of the dataset from transformers import AutoTokenizer tokenizer = AutoTokenize

浏览 7提问于2022-05-06得票数 0

1回答

当尝试执行HuggingFace教程时，错误的张量类型(pytorch)

、、、

我最近一直试图从拥抱中获得变压器库的经验。由于我是一个绝对的菜鸟，当涉及到使用Pytorch (以及一般的深度学习)时，我开始介绍可以找到的介绍。下面是安装依赖项的代码： #!pip install transformers !pip install transformers[sentencepiece] # includes transformers dependencies !pip install datasets # datasets from huggingface hub !pip install tqdm 下面是他们建议用于微调BERT的MNPR数据集的代码(在胶水基准测试中使

浏览 4提问于2021-07-09得票数 0

回答已采纳

1回答

拥抱脸教练只做了三个时代，无论是TrainingArguments

、

我是机器学习方面的新手，我面临一个问题，我想增加训练的时代，但是.train()只能完成3个阶段。我做错了什么？这是我的数据集： DatasetDict({ train: Dataset({ features：‘text’，‘label’，num_rows：> 85021 })测试:数据集({特征：‘text’，‘label’，num_rows: 15004 > }) } 及其特性： > {‘label’: ClassLabel(num_classes=20, names=[‘01. AGRI’, ‘02. ALIM’, > ‘03. CHEMFER’, ‘04. A

浏览 5提问于2022-06-19得票数 1

回答已采纳

1回答

Bert令牌器不使用张量格式(tensorflow)

、

这可能是一个愚蠢的问题，但我新使用tf。我有下面的代码，但是令牌程序不会使用张量内的字符串。 import tensorflow as tf docs = tf.data.Dataset.from_tensor_slices([['hagamos que esto funcione.'], ["por fin funciona!"]]) from transformers import AutoTokenizer, DataCollatorWithPadding import numpy as np checkpoint = "dccuchile/

浏览 25提问于2022-05-04得票数 0

2回答

T5Tokenizer需要SentencePiece库，但在您的环境中找不到它。

、

我正在尝试探索这是密码 !pip install transformers from transformers import T5Tokenizer, T5ForConditionalGeneration qa_input = """question: What is the capital of Syria? context: The name "Syria" historically referred to a wider region, broadly synonymous with the Levant, and known in Arabi

浏览 57提问于2020-12-25得票数 4

1回答

如何使用Pytorch更改模型中的自关注层数和多头关注头数？

、、、、

我正在研究讽刺数据集和我的模型，如下所示：我首先对输入文本进行标记化： PRETRAINED_MODEL_NAME = "roberta-base" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(PRETRAINED_MODEL_NAME) import torch from torch.utils.data import Dataset, DataLoader MAX_LEN = 100 然后我为我的数据集定义了类： class SentimentData

浏览 24提问于2021-11-25得票数 0

1回答

在翻译文本时是否有解决方案来修复变压器中的错误？

import torch from transformers import PegasusForConditionalGeneration, PegasusTokenizer model_name = 'tuner007/pegasus_paraphrase' torch_device = 'cuda' if torch.cuda.is_available() else 'cpu' tokenizer = PegasusTokenizer.from_pretrained(model_name) model = PegasusForConditi

浏览 2提问于2021-10-26得票数 1

回答已采纳

1回答

TypeError: forward()得到一个意外的关键字参数'input_ids‘

、、

我用头训练了伯特模特。我使用的是一个经过精细调整的Roberta模型，它是无偏的，有毒的--罗伯塔接受了关于吉格锯数据的培训：使用pytorch 创建数据 tokenizer = tr.RobertaTokenizer.from_pretrained("/home/pc/unbiased_toxic_roberta") train_encodings = tokenizer(train_texts, truncation=True, padding=True, max_length=512, return_tensors="pt") class SED

浏览 61提问于2022-01-07得票数 0

1回答

具有LM头部的GPT2Model和GPT2Model具有不同的注意重量维度

>>> from transformers import GPT2Tokenizer, GPT2Model >>> model = GPT2Model.from_pretrained("gpt2",output_attentions=True) >>> tokenizer = GPT2Tokenizer.from_pretrained("gpt2") >>> text = "a,b,c" >>> inputs = tokenizer.encode_plus(

浏览 36提问于2020-03-11得票数 0

1回答

DataGenerator生成超出界限的索引

、、

我试着微调伯特模型。为此，我使用DataGeneartor class BertSemanticDataGenerator(tf.keras.utils.Sequence): """Generates batches of data.""" def __init__( self, sentence_pairs, labels, batch_size=batch_size, shuffle=True, include_targets=True,

浏览 6提问于2022-03-26得票数 1

1回答

如何从不带IO标签的拥抱脸模型中提取完整的实体名称？

、、

我使用的模型来自拥抱脸，特别是Davlan/distilbert-base-multilingual-cased-ner-hrl。但是，我无法从结果中提取完整的实体名称。如果运行以下代码： from transformers import AutoTokenizer, AutoModelForTokenClassification from transformers import pipeline tokenizer = AutoTokenizer.from_pretrained("Davlan/distilbert-base-multilingual-cased-ner-hrl&

浏览 17提问于2022-07-19得票数 2

回答已采纳

1回答

huggingface transformer问题答案置信度得分

、

我们如何从huggingface transformer问题答案的示例代码中获取答案置信度分数？我看到流水线确实返回了分数，但下面的核心也可以返回置信度分数。 from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering import tensorflow as tf tokenizer = AutoTokenizer.from_pretrained("bert-large-uncased-whole-word-masking-finetuned-squad") model = TFAutoM

浏览 33提问于2021-10-04得票数 1

1回答

在Bert序列分类中如何使用大于零的批次大小

、

如何使用Bert模型进行序列分类： from transformers import BertTokenizer, BertForSequenceClassification import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForSequenceClassification.from_pretrained('bert-base-uncased') input_ids = torch.tensor(tokenizer.encode(&

浏览 2提问于2020-02-11得票数 2

回答已采纳

1回答

使用HuggingFace微调用于摘要的T5时出现关键错误

、、

我正在尝试微调T5转换器以进行摘要，但我收到了一条关键的错误消息： KeyError: 'Indexing with integers (to access backend Encoding for a given batch index) is not available when using Python based tokenizers' 我使用的代码基本上是这样的： model_name = '...' tokenizer = T5Tokenizer.from_pretrained(model_name) model = T5ForConditional

浏览 0提问于2021-05-25得票数 1

1回答

Bert变压器在机器转换时出现“尺寸错误”

、、

我越来越绝望，因为我不知道这里的问题是什么。我想把一串句子从德语翻译成英语。这是我的代码： from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-de-en") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-de-en") batch = tokenizer( li

浏览 64提问于2021-08-17得票数 2

回答已采纳

1回答

每次使用BERT运行下一个句子预测代码时获得随机输出

、、、、

基于下面提供的代码，我试图在自定义数据集中运行NSP (下一个句子预测)。每一次训练后，模型的损失都是不同的，模型每次都给出不同的精度。我错过了什么或者做错了什么？ pip install transformers[torch] from transformers import BertTokenizer, BertForNextSentencePrediction import torch tokenizer = BertTokenizer.from_pretrained('bert-base-uncased') model = BertForNextSentence

浏览 3提问于2022-06-03得票数 0

回答已采纳

2回答

令牌器的batch_encode_plus方法问题

、、、、

在令牌器的batch_encode_plus方法中，我遇到了一个奇怪的问题。我最近从转换器版本3.3.0切换到了4.5.1。(我正在为NER创建数据库)。我有两个句子，我需要编码，我有一个情况，句子已经标记，但由于这两个句子的长度不同，所以我需要pad [PAD]较短的句子，以获得我的一批统一长度。下面是我用3.3.0版本的变压器做的代码 from transformers import AutoTokenizer pretrained_model_name = 'distilbert-base-cased' tokenizer = AutoTokenizer.from_

浏览 14提问于2021-06-24得票数 0

回答已采纳

1回答

AttributeError：“列表”对象没有属性“大小”拥抱面板变压器

、、

我试着用“拥抱脸”把东西从英语转换成印地语。这是代码片段 from transformers import AutoTokenizer, AutoModelForSeq2SeqLM tokenizer = AutoTokenizer.from_pretrained("Helsinki-NLP/opus-mt-en-hi") model = AutoModelForSeq2SeqLM.from_pretrained("Helsinki-NLP/opus-mt-en-hi") text = "Hello my friends! How are you d

浏览 6提问于2021-03-14得票数 1

回答已采纳

1回答

训练新的AutoTokenizer拥抱面

、、、、

获取此错误: AttributeError：'GPT2Tokenizer‘对象没有属性'train_new_from_iterator’ 非常类似于拥抱面部文档。我更改了输入，仅此而已(不应该影响它)。它曾经起过作用。两小时后又回来了，它没有.什么都没有改变什么都没有。文档声明train_new_from_iterator只适用于“快速”令牌器，默认情况下，AutoTokenizer应该选择一个“快速”令牌器。我最好的猜测是，这件事有点麻烦。我也尝试降级变压器和重新安装，但没有成功。df只是一列文本。 from transformers import AutoToken

浏览 4提问于2022-04-22得票数 1

1回答

计算变压器结果的最佳方法是什么？

、、

下面是for拥抱面部变压器的简单示例： from transformers import AutoTokenizer, AutoModelForTokenClassification from transformers import pipeline tokenizer = AutoTokenizer.from_pretrained("dslim/bert-large-NER") model = AutoModelForTokenClassification.from_pretrained("dslim/bert-large-NER") nlp = pipe

浏览 5提问于2021-11-06得票数 0

回答已采纳

4回答

微调DistilBertForSequenceClassification:不是学习，为什么损失不会改变？重量没有更新？

、、、、

我对PyTorch和Huggingface变压器还比较陌生，并在这款上试验了DistillBertForSequenceClassification。 from transformers import DistilBertForSequenceClassification import torch.optim as optim import torch.nn as nn from transformers import get_linear_schedule_with_warmup n_epochs = 5 # or whatever batch_size = 32 # or whateve

浏览 10提问于2020-08-02得票数 3

1回答

当使用Huggingface TFTrainer类对模型进行微调时，如何指定损失函数？

、、、

我遵循了下面给出的基本示例，来自： from transformers import TFBertForSequenceClassification, TFTrainer, TFTrainingArguments model = TFBertForSequenceClassification.from_pretrained("bert-large-uncased") training_args = TFTrainingArguments( output_dir='./results', # output directory

浏览 28提问于2021-02-21得票数 2

1回答

运行run_seq2seq.py转换器培训脚本时出错

、、、、

我正在尝试训练一个seq2seq模型。我在Colab中运行了示例代码： !git clone https://github.com/huggingface/transformers !git clone https://github.com/huggingface/datasets !pip install transformers !pip install datasets !python transformers/examples/seq2seq/run_seq2seq.py \ --model_name_or_path t5-small \ --do_train \

浏览 72提问于2021-03-11得票数 2

回答已采纳