原文链接:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/megatron_gpt2
MegatronGPT2 模型是由 Mohammad Shoeybi、Mostofa Patwary、Raul Puri、Patrick LeGresley、Jared Casper 和 Bryan Catanzaro 在使用模型并行训练多十亿参数语言模型的 Megatron-LM中提出的。
论文摘要如下:
最近在语言建模方面的工作表明,训练大型 Transformer 模型可以推动自然语言处理应用的最新技术。然而,非常大的模型可能由于内存限制而难以训练。在这项工作中,我们提出了训练非常大的 Transformer 模型的技术,并实现了一种简单高效的层内模型并行方法,使得可以训练具有数十亿参数的 Transformer 模型。我们的方法不需要新的编译器或库更改,与管道模型并行性正交且互补,并且可以通过在原生 PyTorch 中插入几个通信操作来完全实现。我们通过使用 512 个 GPU 收敛基于 Transformer 的模型,达到了 83 亿参数。与维持 39 TeraFLOPs 的强单 GPU 基线相比,我们在整个应用程序中保持了 15.1 PetaFLOPs,其扩展效率为 76%,这是峰值 FLOPs 的 30%。为了证明大型语言模型可以进一步推动最新技术(SOTA),我们训练了一个 83 亿参数的 Transformer 语言模型,类似于 GPT-2,以及一个 39 亿参数的类似 BERT 的模型。我们展示了在 BERT 类似模型中对层归一化的放置要特别注意,这对于随着模型规模增长而实现性能提升至关重要。使用 GPT-2 模型,我们在 WikiText103(10.8,与 15.8 的 SOTA 困惑度相比)和 LAMBADA(66.5%,与 63.2%的 SOTA 准确率相比)数据集上取得了 SOTA 结果。我们的 BERT 模型在 RACE 数据集上取得了 SOTA 结果(90.9%,与 89.4%的 SOTA 准确率相比)。
这个模型是由jdemouth贡献的。原始代码可以在这里找到。该存储库包含了 Megatron 语言模型的多 GPU 和多节点实现。特别是,它包含了使用“张量并行”和“管道并行”技术的混合模型并行方法。
我们提供了预训练的GPT2-345M检查点,用于评估或微调下游任务。
要访问这些检查点,首先注册并设置 NVIDIA GPU 云(NGC)注册表 CLI。有关下载模型的更多文档,请参阅NGC 文档。
或者,您可以直接下载检查点:
wget --content-disposition https://api.ngc.nvidia.com/v2/models/nvidia/megatron_lm_345m/versions/v0.0/zip -O
megatron_gpt2_345m_v0_0.zip一旦您从 NVIDIA GPU 云(NGC)获得了检查点,您需要将其转换为 Hugging Face Transformers GPT2 实现可以轻松加载的格式。
以下命令允许您进行转换。我们假设文件夹models/megatron_gpt2包含megatron_gpt2_345m_v0_0.zip,并且该命令是从该文件夹运行的:
python3 $PATH_TO_TRANSFORMERS/models/megatron_gpt2/convert_megatron_gpt2_checkpoint.py megatron_gpt2_345m_v0_0.zipMegatronGPT2 架构与 OpenAI GPT-2 相同。有关配置类和其参数的信息,请参考 GPT-2 文档。
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/mistral
Mistral-7B-v0.1 是 Mistral AI 的第一个大型语言模型(LLM)。
Mistral-7B-v0.1 是基于解码器的 LM,具有以下架构选择:
我们还提供了一个经过指导微调的模型:Mistral-7B-Instruct-v0.1,可用于基于聊天的推理。
有关更多详细信息,请阅读我们的发布博客文章
Mistral-7B-v0.1和Mistral-7B-Instruct-v0.1均采用 Apache 2.0 许可证。
Mistral-7B-v0.1和Mistral-7B-Instruct-v0.1可以在Huggingface Hub上找到
这些准备好使用的检查点可以通过 HuggingFace Hub 下载并使用:
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto
>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
>>> prompt = "My favourite condiment is"
>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)
>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"The expected output"Mistral-7B-v0.1和Mistral-7B-Instruct-v0.1的原始权重可以从以下网址下载:
模型名称 | 检查点 |
|---|---|
Mistral-7B-v0.1 | 原始检查点 |
Mistral-7B-Instruct-v0.1 | 原始检查点 |
要在 HuggingFace 中使用这些原始检查点,您可以使用convert_mistral_weights_to_hf.py脚本将它们转换为 HuggingFace 格式:
python src/transformers/models/mistral/convert_mistral_weights_to_hf.py \
--input_dir /path/to/downloaded/mistral/weights --model_size 7B --output_dir /output/path然后,您可以从output/path加载转换后的模型:
from transformers import MistralForCausalLM, LlamaTokenizer
tokenizer = LlamaTokenizer.from_pretrained("/output/path")
model = MistralForCausalLM.from_pretrained("/output/path")首先,请确保安装最新版本的 Flash Attention 2 以包含滑动窗口注意力功能。
pip install -U flash-attn --no-build-isolation还要确保您拥有与 Flash-Attention 2 兼容的硬件。在flash-attn存储库的官方文档中了解更多信息。还要确保以半精度(例如torch.float16)加载您的模型。
要加载和运行使用 Flash Attention 2 的模型,请参考下面的代码片段:
>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto
>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1", torch_dtype=torch.float16, attn_implementation="flash_attention_2")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
>>> prompt = "My favourite condiment is"
>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)
>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"The expected output"下面是一个预期的加速图,比较了在 transformers 中使用mistralai/Mistral-7B-v0.1检查点和模型的 Flash Attention 2 版本之间的纯推理时间。

当前实现支持滑动窗口注意力机制和内存高效的缓存管理。要启用滑动窗口注意力,请确保具有与滑动窗口注意力兼容的flash-attn版本(>=2.3.0)。
Flash Attention-2 模型还使用了更高效的内存缓存切片机制-根据 Mistral 模型的官方实现建议,使用滚动缓存机制,我们保持缓存大小固定(self.config.sliding_window),仅支持padding_side="left"的批量生成,并使用当前标记的绝对位置来计算位置嵌入。
Albert Jiang,Alexandre Sablayrolles,Arthur Mensch,Chris Bamford,Devendra Singh Chaplot,Diego de las Casas,Florian Bressand,Gianna Lengyel,Guillaume Lample,Lélio Renard Lavaud,Lucile Saulnier,Marie-Anne Lachaux,Pierre Stock,Teven Le Scao,Thibaut Lavril,Thomas Wang,Timothée Lacroix,William El Sayed。
class transformers.MistralConfig( vocab_size = 32000 hidden_size = 4096 intermediate_size = 14336 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = 8 hidden_act = 'silu' max_position_embeddings = 131072 initializer_range = 0.02 rms_norm_eps = 1e-06 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 10000.0 sliding_window = 4096 attention_dropout = 0.0 **kwargs )参数
vocab_size (int, optional, 默认为 32000) — Mistral 模型的词汇量。定义了在调用 MistralModel 时可以由inputs_ids表示的不同标记数量。
hidden_size (int, optional, 默认为 4096) — 隐藏表示的维度。
intermediate_size (int, optional, 默认为 14336) — MLP 表示的维度。
num_hidden_layers (int, optional, 默认为 32) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, optional, 默认为 32) — Transformer 编码器中每个注意力层的注意力头数。
num_key_value_heads (int, optional, 默认为 8) — 这是应该用于实现分组查询注意力的 key_value 头数。如果num_key_value_heads=num_attention_heads,模型将使用多头注意力(MHA),如果num_key_value_heads=1,模型将使用多查询注意力(MQA),否则使用 GQA。将多头检查点转换为 GQA 检查点时,应通过对该组中所有原始头部进行均值池化来构建每个组键和值头。有关更多详细信息,请查看此论文。如果未指定,将默认为8。
hidden_act (str 或 function, optional, 默认为"silu") — 解码器中的非线性激活函数(函数或字符串)。
max_position_embeddings (int, optional, 默认为4096*32) — 该模型可能被使用的最大序列长度。Mistral 的滑动窗口注意力允许最多 4096*32 个标记的序列。
initializer_range (float, optional, 默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
rms_norm_eps (float, optional, 默认为 1e-06) — rms 归一化层使用的 epsilon。
use_cache (bool, optional, 默认为True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在config.is_decoder=True时相关。
pad_token_id (int, optional) — 填充标记的 id。
bos_token_id (int, optional, 默认为 1) — “序列开始”标记的 id。
eos_token_id (int, optional, 默认为 2) — “序列结束”标记的 id。
tie_word_embeddings (bool, optional, 默认为False) — 模型的输入和输出词嵌入是否应该被绑定。
rope_theta (float, optional, 默认为 10000.0) — RoPE 嵌入的基本周期。
sliding_window (int, optional, 默认为 4096) — 滑动窗口注意力窗口大小。如果未指定,将默认为4096。
attention_dropout (float, optional, 默认为 0.0) — 注意力概率的 dropout 比率。
这是用于存储 MistralModel 配置的配置类。它用于根据指定的参数实例化 Mistral 模型,定义模型架构。使用默认值实例化配置将产生类似于 Mistral-7B-v0.1 或 Mistral-7B-Instruct-v0.1 的配置。
mistralai/Mistral-7B-v0.1 mistralai/Mistral-7B-Instruct-v0.1
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
>>> from transformers import MistralModel, MistralConfig
>>> # Initializing a Mistral 7B style configuration
>>> configuration = MistralConfig()
>>> # Initializing a model from the Mistral 7B style configuration
>>> model = MistralModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configclass transformers.MistralModel( config: MistralConfig )参数
config(MistralConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。配置 - MistralConfig裸露的 Mistral 模型输出原始的隐藏状态,没有特定的头部。这个模型继承自 PreTrainedModel。检查超类文档以获取库为其所有模型实现的通用方法(如下载或保存,调整输入嵌入,修剪头等)。
这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。
由config.num_hidden_layers层组成的 Transformer 解码器。每一层都是一个MistralDecoderLayer。
forward( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)- 词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
输入 ID 是什么?
attention_mask(形状为(batch_size, sequence_length)的torch.Tensor,可选)- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:
注意力掩码是什么?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用past_key_values,则可选择仅输入最后的decoder_input_ids(请参阅past_key_values)。
如果要更改填充行为,应阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图表 1。
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)- 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。
位置 ID 是什么?
past_key_values(Cache或tuple(tuple(torch.FloatTensor)),可选)- 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在先前解码阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。
允许两种格式:
config.n_layers的元组的元组(每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量)。这也被称为传统的缓存格式。
模型将输出与输入相同的缓存格式。如果没有传递past_key_values,则将返回传统的缓存格式。
如果使用了past_key_values,用户可以选择仅输入最后的input_ids(即那些没有将它们的过去键值状态提供给此模型的)的形状为(batch_size, 1)的张量,而不是形状为(batch_size, sequence_length)的所有input_ids。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)- 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
use_cache(bool,可选)- 如果设置为True,将返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。
output_attentions(bool,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states(bool,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
return_dict(bool,可选)- 是否返回一个 ModelOutput 而不是一个普通的元组。
MistralModel 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
class transformers.MistralForCausalLM( config )forward( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.CausalLMOutputWithPast or tuple(torch.FloatTensor)参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)- 输入序列标记在词汇表中的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
输入 ID 是什么?
attention_mask(形状为(batch_size, sequence_length)的torch.Tensor,可选)- 避免在填充标记索引上执行注意力的掩码。选择在[0, 1]中的掩码值:
注意力掩码是什么?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用了past_key_values,可以选择仅输入最后的decoder_input_ids(参见past_key_values)。
如果您想要更改填充行为,您应该阅读modeling_opt._prepare_decoder_attention_mask并根据您的需求进行修改。有关默认策略的更多信息,请参见论文中的图表 1。
not masked,
masked。
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.n_positions - 1]中选择。
什么是位置 ID?
past_key_values(Cache或tuple(tuple(torch.FloatTensor)),可选)— 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在先前解码阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。
允许两种格式:
config.n_layers的tuple(torch.FloatTensor)的元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也被称为传统缓存格式。
模型将输出与输入相同的缓存格式。如果没有传递past_key_values,则将返回传统的缓存格式。
如果使用past_key_values,用户可以选择仅输入形状为(batch_size, 1)的最后一个input_ids(那些没有将其过去的键值状态提供给此模型的输入)而不是形状为(batch_size, sequence_length)的所有input_ids。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)— 可选地,您可以选择直接传递嵌入表示而不是传递input_ids。如果您希望更多地控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。
use_cache(bool,可选)— 如果设置为True,将返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states。
return_dict(bool,可选)— 是否返回 ModelOutput 而不是普通元组。
参数 — 标签(形状为(batch_size, sequence_length)的torch.LongTensor,可选):用于计算掩码语言建模损失的标签。索引应该在[0, ..., config.vocab_size]或-100(参见input_ids文档字符串)。将索引设置为-100的标记将被忽略(掩码),损失仅计算具有标签在[0, ..., config.vocab_size]中的标记。
返回
transformers.modeling_outputs.CausalLMOutputWithPast 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.CausalLMOutputWithPast 或一个torch.FloatTensor的元组(如果传递了return_dict=False或config.return_dict=False,或者取决于配置(MistralConfig)和输入)。
loss(形状为(1,)的torch.FloatTensor,可选,当提供labels时返回)— 语言建模损失(用于下一个标记预测)。
logits (torch.FloatTensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头部的预测分数(SoftMax 之前每个词汇标记的分数)。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有两个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块中的键和值),可用于加速顺序解码(查看past_key_values输入)。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组。
模型在每一层的输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
自注意力头中的注意力权重经过注意力 softmax 后,用于计算自注意力头中的加权平均值。
MistralForCausalLM 的前向方法覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MistralForCausalLM
>>> model = MistralForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.1")
>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")
>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."class transformers.MistralForSequenceClassification( config )参数
config (MistralConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。Mistral 模型 transformer,在顶部带有序列分类头部(线性层)。
MistralForSequenceClassification 使用最后一个标记进行分类,就像其他因果模型(例如 GPT-2)一样。
由于它对最后一个标记进行分类,因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id,则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id,则会简单地取每行批次中的最后一个值。当传递inputs_embeds而不是input_ids时,无法猜测填充标记,因此会执行相同操作(取每行批次中的最后一个值)。
该模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
该模型也是 PyTorch torch.nn.Module 的子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)— 输入序列标记在词汇表中的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.Tensor,可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]之间:
masked的标记,
masked的标记。
什么是注意力掩码?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用past_key_values,可以选择只输入最后的decoder_input_ids(参见past_key_values)。
如果要更改填充行为,您应该阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息,请参见论文中的图表 1。
masked,
masked。
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。
什么是位置 ID?
past_key_values(Cache或tuple(tuple(torch.FloatTensor)),可选)— 预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。这通常包括模型在先前解码阶段返回的past_key_values,当use_cache=True或config.use_cache=True时。
有两种格式允许:
tuple(torch.FloatTensor)的长度为config.n_layers,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。这也被称为传统的缓存格式。
模型将输出与输入相同的缓存格式。如果没有传递past_key_values,则将返回传统的缓存格式。
如果使用past_key_values,用户可以选择只输入最后的input_ids(那些没有将它们的过去键值状态提供给该模型的)的形状为(batch_size, 1),而不是形状为(batch_size, sequence_length)的所有input_ids。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
use_cache(bool,可选)— 如果设置为True,将返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在 [0, ..., config.num_labels - 1] 中。如果 config.num_labels == 1,则计算回归损失(均方损失),如果 config.num_labels > 1,则计算分类损失(交叉熵)。
MistralForSequenceClassification 的前向方法,覆盖了 __call__ 特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用 Module 实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/mixtral
Mixtral-8x7B 是 Mistral AI 的第二个大型语言模型(LLM)。
Mixtral 模型由Mistral AI团队提出。
它在Mixtral of Experts 博文中介绍如下:
今天,团队很自豪地发布了 Mixtral 8x7B,这是一个高质量的稀疏专家混合模型(SMoE),具有开放权重。根据 Apache 2.0 许可。Mixtral 在大多数基准测试中表现优于 Llama 2 70B,推理速度快 6 倍。它是具有宽松许可的最强开放权重模型,也是在成本/性能权衡方面最好的模型。特别是,它在大多数标准基准测试中与 GPT3.5 相匹配或优于它。
提示:
这个模型由Younes Belkada和Arthur Zucker贡献。原始代码可以在这里找到。
Mixtral-45B 是一个基于解码器的 LM,具有以下架构选择:
以下实现细节与 Mistral AI 的第一个模型 mistral 共享:
他们还提供了一个经过 fine-tuned 的指导模型:mistralai/Mixtral-8x7B-v0.1,可用于基于聊天的推理。
有关更多详细信息,请阅读我们的发布博客文章
Mixtral-8x7B在 Apache 2.0 许可下发布。
Mixtral-8x7B可以在Huggingface Hub上找到
这些现成的检查点可以通过 HuggingFace Hub 下载和使用:
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto
>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> prompt = "My favourite condiment is"
>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)
>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"The expected output"要在 HuggingFace 中使用原始检查点,可以使用convert_mixtral_weights_to_hf.py脚本将其转换为 HuggingFace 格式:
python src/transformers/models/mixtral/convert_mixtral_weights_to_hf.py \
--input_dir /path/to/downloaded/mistral/weights --output_dir /output/path然后可以从output/path加载转换后的模型:
from transformers import MixtralForCausalLM, LlamaTokenizer
tokenizer = LlamaTokenizer.from_pretrained("/output/path")
model = MixtralForCausalLM.from_pretrained("/output/path")首先,请确保安装最新版本的 Flash Attention 2 以包括滑动窗口注意力功能。
pip install -U flash-attn --no-build-isolation还要确保您的硬件与 Flash-Attention 2 兼容。在flash-attn存储库的官方文档中了解更多信息。还要确保以半精度(例如torch.float16)加载您的模型。
要加载和运行使用 Flash Attention 2 的模型,请参考下面的代码片段:
>>> import torch
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> device = "cuda" # the device to load the model onto
>>> model = AutoModelForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1", torch_dtype=torch.float16, attn_implementation="flash_attention_2")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> prompt = "My favourite condiment is"
>>> model_inputs = tokenizer([prompt], return_tensors="pt").to(device)
>>> model.to(device)
>>> generated_ids = model.generate(**model_inputs, max_new_tokens=100, do_sample=True)
>>> tokenizer.batch_decode(generated_ids)[0]
"The expected output"下面是一个预期的加速度图,比较了 transformers 中使用mistralai/Mixtral-8x7B-v0.1检查点和模型的 Flash Attention 2 版本之间的纯推理时间。

当前实现支持滑动窗口注意力机制和内存高效的缓存管理。要启用滑动窗口注意力,只需确保具有与滑动窗口注意力兼容的flash-attn版本(>=2.3.0)。
Flash Attention-2 模型还使用了一种更节省内存的缓存切片机制 - 正如 Mistral 模型的官方实现建议的那样,我们保持缓存大小固定(self.config.sliding_window),仅支持padding_side="left"的批量生成,并使用当前标记的绝对位置来计算位置嵌入。
Albert Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lélio Renard Lavaud, Lucile Saulnier, Marie-Anne Lachaux, Pierre Stock, Teven Le Scao, Thibaut Lavril, Thomas Wang, Timothée Lacroix, William El Sayed。
class transformers.MixtralConfig( vocab_size = 32000 hidden_size = 4096 intermediate_size = 14336 num_hidden_layers = 32 num_attention_heads = 32 num_key_value_heads = 8 hidden_act = 'silu' max_position_embeddings = 131072 initializer_range = 0.02 rms_norm_eps = 1e-05 use_cache = True pad_token_id = None bos_token_id = 1 eos_token_id = 2 tie_word_embeddings = False rope_theta = 1000000.0 sliding_window = None attention_dropout = 0.0 num_experts_per_tok = 2 num_local_experts = 8 output_router_logits = False router_aux_loss_coef = 0.001 **kwargs )参数
vocab_size (int, 可选,默认为 32000) — Mixtral 模型的词汇量。定义了在调用 MixtralModel 时可以表示的不同标记的数量。
hidden_size (int, 可选,默认为 4096) — 隐藏表示的维度。
intermediate_size (int, 可选,默认为 14336) — MLP 表示的维度。
num_hidden_layers (int, 可选,默认为 32) — Transformer 编码器中的隐藏层数。
num_attention_heads (int, 可选,默认为 32) — Transformer 编码器中每个注意力层的注意力头数。
num_key_value_heads (int, 可选,默认为 8) — 这是应该用于实现分组查询注意力的 key_value 头的数量。如果num_key_value_heads=num_attention_heads,模型将使用多头注意力(MHA),如果num_key_value_heads=1,模型将使用多查询注意力(MQA),否则将使用 GQA。将多头检查点转换为 GQA 检查点时,应通过对该组中所有原始头进行均值池化来构建每个组键和值头。有关更多详细信息,请查看此论文。如果未指定,将默认为8。
hidden_act (str或function,可选,默认为"silu") — 解码器中的非线性激活函数(函数或字符串)。
max_position_embeddings (int, 可选,默认为4096*32) — 该模型可能会使用的最大序列长度。Mixtral 的滑动窗口注意力允许最多 4096*32 个标记的序列。
initializer_range (float, 可选,默认为 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
rms_norm_eps (float, 可选,默认为 1e-05) — rms 归一化层使用的 epsilon。
use_cache (bool, 可选,默认为True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。仅在config.is_decoder=True时相关。
pad_token_id (int, 可选) — 填充标记的 id。
bos_token_id (int, 可选,默认为 1) — “序列开始”标记的 id。
eos_token_id (int, 可选,默认为 2) — “序列结束”标记的 id。
tie_word_embeddings (bool, 可选,默认为False) — 模型的输入和输出词嵌入是否应该被绑定。
rope_theta (float, 可选,默认为 1000000.0) — RoPE 嵌入的基本周期。
sliding_window (int, 可选) — 滑动窗口注意力窗口大小。如果未指定,将默认为4096。
attention_dropout(float,可选,默认为 0.0)— 注意力概率的 dropout 比率。
num_experts_per_tok(int,可选,默认为 2)— 每个标记的根专家数,也可以解释为top-p路由参数
num_local_experts(int,可选,默认为 8)— 每个稀疏 MLP 层的专家数。
output_router_logits(bool,可选,默认为False)— 是否应该由模型返回路由器 logits。启用此选项还将允许模型输出辅助损失。有关更多详细信息,请参见此处
router_aux_loss_coef(float,可选,默认为 0.001)— 总损失的辅助损失因子。
这是用于存储 MixtralModel 配置的配置类。它用于根据指定的参数实例化一个 Mixtral 模型,定义模型架构。使用默认值实例化配置将产生类似于 Mixtral-7B-v0.1 或 Mixtral-7B-Instruct-v0.1 的配置。
mixtralai/Mixtral-8x7B mixtralai/Mixtral-7B-Instruct-v0.1
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
>>> from transformers import MixtralModel, MixtralConfig
>>> # Initializing a Mixtral 7B style configuration
>>> configuration = MixtralConfig()
>>> # Initializing a model from the Mixtral 7B style configuration
>>> model = MixtralModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configclass transformers.MixtralModel( config: MixtralConfig )参数
config(MixtralConfig)— 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。配置 — MixtralConfig裸 Mixtral 模型输出原始隐藏状态,没有特定的头部。此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
由config.num_hidden_layers层组成的 Transformer 解码器。每一层都是一个MixtralDecoderLayer
forward( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None output_router_logits: Optional = None return_dict: Optional = None )参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)— 词汇表中输入序列标记的索引。默认情况下将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask (torch.Tensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:
masked的标记。
masked的标记,值为 0。
什么是注意力掩码?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用了past_key_values,则可以选择仅输入最后的decoder_input_ids(请参见past_key_values)。
如果要更改填充行为,您应该阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图表 1。
masked,
masked。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。
什么是位置 ID?
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码(请参见past_key_values输入)。
如果使用了past_key_values,用户可以选择仅输入形状为(batch_size, 1)的最后的decoder_input_ids(这些没有将其过去的键值状态提供给此模型的)而不是形状为(batch_size, sequence_length)的所有decoder_input_ids。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
use_cache (bool, optional) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(请参见past_key_values)。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states。
output_router_logits (bool, optional) — 是否返回所有路由器的 logits。它们对于计算路由器损失很有用,在推断期间不应返回。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
混合模型的前向方法,覆盖了__call__特殊方法。
尽管前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
class transformers.MixtralForCausalLM( config )forward( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None output_router_logits: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MoeCausalLMOutputWithPast or tuple(torch.FloatTensor)参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)— 词汇表中输入序列标记的索引。默认情况下,如果提供,将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.Tensor,可选)— 用于避免在填充标记索引上执行注意力的蒙版。蒙版值选择在[0, 1]中:
masked掩盖的标记。
什么是注意力蒙版?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用了past_key_values,则可选择仅输入最后的decoder_input_ids(参见past_key_values)。
如果要更改填充行为,您应该阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图表 1。
masked。
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.n_positions - 1]。
什么是位置 ID?
past_key_values(tuple(tuple(torch.FloatTensor)),可选,当传递use_cache=True或config.use_cache=True时返回)— 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量)和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值)可用于(参见past_key_values输入)加速顺序解码。
如果使用了past_key_values,用户可以选择仅输入最后的decoder_input_ids(即那些没有将其过去键值状态提供给此模型的输入)的形状为(batch_size, 1),而不是所有形状为(batch_size, sequence_length)的decoder_input_ids。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。
use_cache(bool,可选)— 如果设置为True,将返回past_key_values键值状态,并可用于加速解码(请参阅past_key_values)。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
output_router_logits (bool, optional) — 是否返回所有路由器的 logits。它们对计算路由器损失很有用,在推理过程中不应返回。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
参数 — labels (torch.LongTensor,形状为(batch_size, sequence_length),optional):用于计算掩码语言建模损失的标签。索引应该在[0, ..., config.vocab_size]范围内,或者为-100(参见input_ids文档字符串)。索引设置为-100的标记将被忽略(掩码),损失仅计算具有标签在[0, ..., config.vocab_size]范围内的标记。
返回
transformers.modeling_outputs.MoeCausalLMOutputWithPast或tuple(torch.FloatTensor)
一个transformers.modeling_outputs.MoeCausalLMOutputWithPast或一个torch.FloatTensor元组(如果传入return_dict=False或者当config.return_dict=False时),包括根据配置(MixtralConfig)和输入不同元素。
loss (torch.FloatTensor,形状为(1,),optional,当提供labels时返回) — 语言建模损失(用于下一个标记预测)。
logits (torch.FloatTensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
aux_loss (torch.FloatTensor,optional,当提供labels时返回) — 稀疏模块的辅助损失。
router_logits (tuple(torch.FloatTensor),optional,当传入output_router_probs=True和config.add_router_probs=True或者当config.output_router_probs=True时返回) — 形状为(batch_size, sequence_length, num_experts)的torch.FloatTensor元组(每层一个)。
由 MoE 路由器计算的原始路由器 logtis(经过 softmax),这些术语用于计算专家混合模型的辅助损失。
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传入use_cache=True或者当config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块中的键和值),可用于加速顺序解码(参见past_key_values输入)。
hidden_states (tuple(torch.FloatTensor), optional, 当传入output_hidden_states=True或者当config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入的输出,如果模型有嵌入层,+ 一个用于每一层的输出)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor),optional,当传入output_attentions=True或者当config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
混合因子因果 LM 的前向方法,覆盖__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例而不是这个,因为前者负责运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MixtralForCausalLM
>>> model = MixtralForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> tokenizer = AutoTokenizer.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
>>> prompt = "Hey, are you conscious? Can you talk to me?"
>>> inputs = tokenizer(prompt, return_tensors="pt")
>>> # Generate
>>> generate_ids = model.generate(inputs.input_ids, max_length=30)
>>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
"Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."类 transformers.MixtralForSequenceClassification( config )参数
config(MixtralConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。在顶部有一个序列分类头的 Mixtral 模型变压器(线性层)。
MixtralForSequenceClassification 使用最后一个标记进行分类,就像其他因果模型(例如 GPT-2)一样。
由于它在最后一个标记上进行分类,因此需要知道最后一个标记的位置。如果在配置中定义了pad_token_id,则会找到每行中不是填充标记的最后一个标记。如果未定义pad_token_id,则会简单地获取批次中每行的最后一个值。当传递inputs_embeds而不是input_ids时,它无法猜测填充标记,因此会执行相同操作(获取批次中每行的最后一个值)。
此模型继承自 PreTrainedModel。查看超类文档以了解库实现的通用方法,例如下载或保存模型,调整输入嵌入大小,修剪头等。
此模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
前向( input_ids: LongTensor = None attention_mask: Optional = None position_ids: Optional = None past_key_values: Optional = None inputs_embeds: Optional = None labels: Optional = None use_cache: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None )参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)- 词汇表中输入序列标记的索引。默认情况下,如果提供填充,则将忽略填充。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.Tensor,可选)- 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:
未屏蔽的标记,
被屏蔽的标记为 0。
什么是注意力掩码?
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
如果使用了past_key_values,则只需输入最后的decoder_input_ids(请参阅past_key_values)。
如果要更改填充行为,您应该阅读modeling_opt._prepare_decoder_attention_mask并根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图表 1。
屏蔽,
屏蔽。
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围在[0, config.n_positions - 1]之间。
什么是位置 ID?
past_key_values (tuple(tuple(torch.FloatTensor)), optional, 当传递use_cache=True或config.use_cache=True时返回) — 长度为config.n_layers的tuple(torch.FloatTensor)元组,每个元组有 2 个形状为(batch_size, num_heads, sequence_length, embed_size_per_head)的张量和 2 个额外的形状为(batch_size, num_heads, encoder_sequence_length, embed_size_per_head)的张量。
包含预先计算的隐藏状态(自注意力块和交叉注意力块中的键和值),可用于加速顺序解码。
如果使用了past_key_values,用户可以选择仅输入最后的decoder_input_ids(即那些没有将它们的过去键值状态提供给此模型的输入)的形状为(batch_size, 1),而不是所有decoder_input_ids的形状为(batch_size, sequence_length)。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
use_cache (bool, optional) — 如果设置为True,则返回past_key_values键值状态,并可用于加速解码(参见past_key_values)。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的hidden_states。
output_router_logits (bool, optional) — 是否返回所有路由器的逻辑。它们对于计算路由器损失很有用,在推断期间不应返回。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
labels (torch.LongTensor of shape (batch_size,), optional) — 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。
MixtralForSequenceClassification 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
原始文本:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/mluke
mLUKE 模型是由 Ryokan Ri、Ikuya Yamada 和 Yoshimasa Tsuruoka 在《mLUKE: 多语言预训练语言模型中实体表示的力量》中提出的。它是基于 XLM-RoBERTa 训练的LUKE 模型的多语言扩展。
它基于 XLM-RoBERTa 并添加了实体嵌入,有助于提高在涉及实体推理的各种下游任务上的性能,如命名实体识别、抽取式问答、关系分类、填空式知识补全。
论文摘要如下:
最近的研究表明,多语言预训练语言模型可以通过来自维基百科实体的跨语言对齐信息有效改进。然而,现有方法仅在预训练中利用实体信息,并未明确在下游任务中使用实体。在这项研究中,我们探讨了利用实体表示进行下游跨语言任务的有效性。我们使用包含实体表示的 24 种语言训练了一个多语言语言模型,并展示该模型在各种跨语言转移任务中始终优于基于单词的预训练模型。我们还分析了模型,关键见解是将实体表示合并到输入中使我们能够提取更多与语言无关的特征。我们还使用 mLAMA 数据集对模型进行了多语言填空提示任务的评估。我们展示基于实体的提示比仅使用单词表示更有可能引出正确的事实知识。
可以直接将 mLUKE 的权重插入 LUKE 模型中,如下所示:
from transformers import LukeModel
model = LukeModel.from_pretrained("studio-ousia/mluke-base")请注意,mLUKE 有自己的分词器,MLukeTokenizer。您可以按以下方式初始化它:
from transformers import MLukeTokenizer
tokenizer = MLukeTokenizer.from_pretrained("studio-ousia/mluke-base")由于 mLUKE 的架构等同于 LUKE,因此可以参考 LUKE 的文档页面获取所有提示、代码示例和笔记本。
class transformers.MLukeTokenizer( vocab_file entity_vocab_file bos_token = '<s>' eos_token = '</s>' sep_token = '</s>' cls_token = '<s>' unk_token = '<unk>' pad_token = '<pad>' mask_token = '<mask>' task = None max_entity_length = 32 max_mention_length = 30 entity_token_1 = '<ent>' entity_token_2 = '<ent2>' entity_unk_token = '[UNK]' entity_pad_token = '[PAD]' entity_mask_token = '[MASK]' entity_mask2_token = '[MASK2]' sp_model_kwargs: Optional = None **kwargs )参数
vocab_file (str) — 词汇文件的路径。
entity_vocab_file (str) — 实体词汇文件的路径。
bos_token (str, optional, defaults to "<s>") — 在预训练期间使用的序列开头标记。可以用作序列分类器标记。
在使用特殊标记构建序列时,这不是用于序列开头的标记。用于开头的标记是cls_token。
eos_token (str, optional, defaults to "</s>") — 序列结束标记。
在使用特殊标记构建序列时,这不是用于序列结尾的标记。用于结尾的标记是sep_token。
sep_token (str, optional, defaults to "</s>") — 分隔符标记,用于从多个序列构建序列,例如用于序列分类的两个序列或用于文本和问题的问答。它也用作使用特殊标记构建的序列的最后一个标记。
cls_token (str, optional, defaults to "<s>") — 用于进行序列分类(对整个序列进行分类而不是每个标记的分类)时使用的分类器标记。当使用特殊标记构建序列时,它是序列的第一个标记。
unk_token (str, optional, defaults to "<unk>") — 未知标记。词汇表中不存在的标记无法转换为 ID,而是设置为此标记。
pad_token (str, 可选, 默认为 "<pad>") — 用于填充的标记,例如在批处理不同长度的序列时。
mask_token (str, 可选, 默认为 "<mask>") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
task (str, 可选) — 您要准备序列的任务。其中之一是 "entity_classification"、"entity_pair_classification" 或 "entity_span_classification"。如果指定此参数,则将根据给定的实体跨度自动创建实体序列。
max_entity_length (int, 可选, 默认为 32) — entity_ids 的最大长度。
max_mention_length (int, 可选, 默认为 30) — 实体跨度内的标记的最大数量。
entity_token_1 (str, 可选, 默认为 <ent>) — 用于表示单词标记序列中实体跨度的特殊标记。仅当 task 设置为 "entity_classification" 或 "entity_pair_classification" 时才使用此标记。
entity_token_2 (str, 可选, 默认为 <ent2>) — 用于表示单词标记序列中实体跨度的特殊标记。仅当 task 设置为 "entity_pair_classification" 时才使用此标记。
additional_special_tokens (List[str], 可选, 默认为 ["<s>NOTUSED", "</s>NOTUSED"]) — 标记器使用的其他特殊标记。
sp_model_kwargs (dict, 可选) — 将传递给 SentencePieceProcessor.__init__() 方法。SentencePiece 的 Python 包装器可用于设置:
enable_sampling: 启用子词正则化。
nbest_size: 用于 unigram 的抽样参数。对于 BPE-Dropout 无效。
nbest_size = {0,1}: 不执行抽样。
nbest_size > 1: 从 nbest_size 结果中进行抽样。
nbest_size < 0: 假设 nbest_size 为无限,并使用前向过滤和后向抽样算法从所有假设(格)中进行抽样。
alpha: unigram 抽样的平滑参数,以及 BPE-dropout 合并操作的丢失概率。
sp_model (SentencePieceProcessor) — 用于每次转换(字符串、标记和 ID)的SentencePiece处理器。
改编自 XLMRobertaTokenizer 和 LukeTokenizer。基于SentencePiece。
此标记器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
__call__( text: Union text_pair: Union = None entity_spans: Union = None entity_spans_pair: Union = None entities: Union = None entities_pair: Union = None add_special_tokens: bool = True padding: Union = False truncation: Union = None max_length: Optional = None max_entity_length: Optional = None stride: int = 0 is_split_into_words: Optional = False pad_to_multiple_of: Optional = None return_tensors: Union = None return_token_type_ids: Optional = None return_attention_mask: Optional = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs ) → export const metadata = 'undefined';BatchEncoding参数
text (str, List[str], List[List[str]]) — 要编码的序列或批次序列。每个序列必须是一个字符串。请注意,此标记器不支持基于预标记字符串的标记化。
text_pair (str, List[str], List[List[str]]) — 要编码的序列或批次序列。每个序列必须是一个字符串。请注意,此标记器不支持基于预标记字符串的标记化。
entity_spans (List[Tuple[int, int]], List[List[Tuple[int, int]]], optional) — 要编码的实体跨度序列或批次。每个序列由元组组成,每个元组包含两个整数,表示实体的基于字符的起始和结束位置。如果在构造函数中将task参数指定为"entity_classification"或"entity_pair_classification",则每个序列的长度必须分别为 1 或 2。如果指定了entities,则每个序列的长度必须等于entities的每个序列的长度。
entity_spans_pair (List[Tuple[int, int]], List[List[Tuple[int, int]]], optional) — 要编码的实体跨度序列或批次。每个序列由元组组成,每个元组包含两个整数,表示实体的基于字符的起始和结束位置。如果在构造函数中指定了task参数,则忽略此参数。如果指定了entities_pair,则每个序列的长度必须等于entities_pair的每个序列的长度。
entities (List[str], List[List[str]], optional) — 要编码的实体序列或批次。每个序列由表示实体的字符串组成,即特殊实体(例如[MASK])或维基百科的实体标题(例如洛杉矶)。如果在构造函数中指定了task参数,则忽略此参数。每个序列的长度必须等于entity_spans的每个序列的长度。如果未指定此参数而指定了entity_spans,则实体序列或实体序列批次将通过填充[MASK]实体自动构建。
entities_pair (List[str], List[List[str]], optional) — 要编码的实体序列或批次。每个序列由表示实体的字符串组成,即特殊实体(例如[MASK])或维基百科的实体标题(例如洛杉矶)。如果在构造函数中指定了task参数,则忽略此参数。每个序列的长度必须等于entity_spans_pair的每个序列的长度。如果未指定此参数而指定了entity_spans_pair,则实体序列或实体序列批次将通过填充[MASK]实体自动构建。
max_entity_length (int, optional) — entity_ids的最大长度。
add_special_tokens (bool, optional, defaults to True) — 在编码序列时是否添加特殊标记。这将使用底层的PretrainedTokenizerBase.build_inputs_with_special_tokens函数,该函数定义了自动添加到输入 id 的标记。如果要自动添加bos或eos标记,则这很有用。
padding (bool, str or PaddingStrategy, optional, defaults to False) — 激活和控制填充。接受以下值:
True 或 'longest':填充到批次中最长的序列(如果只提供了单个序列,则不填充)。
'max_length':填充到指定的最大长度,该长度由参数max_length指定,或者如果未提供该参数,则填充到模型的最大可接受输入长度。
False 或 'do_not_pad'(默认):无填充(即可以输出长度不同的序列批次)。
truncation (bool, str or TruncationStrategy, optional, defaults to False) — 激活和控制截断。接受以下值:
True 或 'longest_first':截断到指定的最大长度,该长度由参数max_length指定,或者如果未提供该参数,则截断到模型的最大可接受输入长度。这将逐标记截断,如果提供了一对序列(或一批对),则从最长序列中删除一个标记。
'only_first': 截断到由参数max_length指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一批对),则仅截断第一个序列。
'only_second': 截断到由参数max_length指定的最大长度,或者如果未提供该参数,则截断到模型可接受的最大输入长度。如果提供一对序列(或一批对),则仅截断第二个序列。
False 或'do_not_truncate'(默认):无截断(即,可以输出长度大于模型最大可接受输入大小的批次)。
max_length (int, optional) — 控制截断/填充参数之一使用的最大长度。
如果未设置或设置为None,则将使用预定义的模型最大长度(如果截断/填充参数需要最大长度)。如果模型没有特定的最大输入长度(如 XLNet),则将禁用截断/填充到最大长度。
stride (int, optional, 默认为 0) — 如果与max_length一起设置为一个数字,则当return_overflowing_tokens=True时返回的溢出标记将包含截断序列末尾的一些标记,以提供截断和溢出序列之间的一些重叠。此参数的值定义重叠标记的数量。
is_split_into_words (bool, optional, 默认为False) — 输入是否已经预分词(例如,分成单词)。如果设置为True,分词器会假定输入已经分成单词(例如,通过在空格上分割),然后对其进行分词。这对于 NER 或标记分类很有用。
pad_to_multiple_of (int, optional) — 如果设置,将填充序列到提供的值的倍数。需要激活padding。这对于启用 NVIDIA 硬件上的 Tensor Cores 特别有用,计算能力>= 7.5(Volta)。
return_tensors (str 或 TensorType, optional) — 如果设置,将返回张量而不是 Python 整数列表。可接受的值为:
'tf': 返回 TensorFlow tf.constant 对象。
'pt': 返回 PyTorch torch.Tensor 对象。
'np': 返回 Numpy np.ndarray 对象。
return_token_type_ids (bool, optional) — 是否返回标记类型 ID。如果保持默认设置,将根据特定分词器的默认设置返回标记类型 ID,由return_outputs属性定义。
什么是标记类型 ID?
return_attention_mask (bool, optional) — 是否返回注意力遮罩。如果保持默认设置,将根据特定分词器的默认设置返回注意力遮罩,由return_outputs属性定义。
什么是注意力遮罩?
return_overflowing_tokens (bool, optional, 默认为False) — 是否返回溢出的标记序列。如果提供一对输入 ID 序列(或一批对),并且truncation_strategy = longest_first或True,则会引发错误,而不是返回溢出的标记。
return_special_tokens_mask (bool, optional, 默认为False) — 是否返回特殊标记遮罩信息。
return_offsets_mapping (bool, optional, 默认为False) — 是否返回每个标记的(char_start, char_end)。
仅适用于继承自 PreTrainedTokenizerFast 的快速分词器,如果使用 Python 的分词器,此方法将引发NotImplementedError。
return_length (bool, optional, 默认为False) — 是否返回编码输入的长度。
verbose (bool, 可选, 默认为 True) — 是否打印更多信息和警告。**kwargs — 传递给 self.tokenize() 方法
返回
BatchEncoding
一个包含以下字段的 BatchEncoding:
input_ids — 模型要输入的标记 id 列表。
什么是输入 id?
token_type_ids — 要输入模型的标记类型 id 列表(当 return_token_type_ids=True 或者 self.model_input_names 中包含 token_type_ids 时)。
什么是标记类型 id?
attention_mask — 指定哪些标记应该被模型关注的索引列表(当 return_attention_mask=True 或者 self.model_input_names 中包含 attention_mask 时)。
什么是注意力掩码?
entity_ids — 要输入模型的实体 id 列表。
什么是输入 id?
entity_position_ids — 输入序列中实体的位置列表,要输入模型。
entity_token_type_ids — 要输入模型的实体标记类型 id 列表(当 return_token_type_ids=True 或者 self.model_input_names 中包含 entity_token_type_ids 时)。
什么是标记类型 id?
entity_attention_mask — 指定模型应该关注哪些实体的索引列表(当 return_attention_mask=True 或者 self.model_input_names 中包含 entity_attention_mask 时)。
什么是注意力掩码?
entity_start_positions — 单词标记序列中实体的开始位置列表(当 task="entity_span_classification" 时)。
entity_end_positions — 单词标记序列中实体的结束位置列表(当 task="entity_span_classification" 时)。
overflowing_tokens — 溢出标记序列的列表(当指定了 max_length 并且 return_overflowing_tokens=True 时)。
num_truncated_tokens — 被截断的标记数量(当指定了 max_length 并且 return_overflowing_tokens=True 时)。
special_tokens_mask — 包含 0 和 1 的列表,其中 1 指定添加的特殊标记,0 指定常规序列标记(当 add_special_tokens=True 和 return_special_tokens_mask=True 时)。
length — 输入的长度(当 return_length=True 时)
用于对一个或多个序列或一个或多个序列对进行标记化和准备模型的主要方法,具体取决于您要为其准备的任务。
save_vocabulary( save_directory: str filename_prefix: Optional = None )原文链接:
huggingface.co/docs/transformers/v4.37.2/en/model_doc/mobilebert
MobileBERT 模型是由 Zhiqing Sun、Hongkun Yu、Xiaodan Song、Renjie Liu、Yiming Yang 和 Denny Zhou 在MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices中提出的。它是基于 BERT 模型的双向 transformer,使用了几种方法进行压缩和加速。
论文摘要如下:
最近,自然语言处理(NLP)通过使用具有数亿参数的巨大预训练模型取得了巨大成功。然而,这些模型存在着庞大的模型大小和高延迟的问题,因此无法部署到资源有限的移动设备上。在本文中,我们提出了 MobileBERT 来压缩和加速流行的 BERT 模型。与原始的 BERT 一样,MobileBERT 是任务不可知的,也就是说,它可以通过简单的微调通用地应用于各种下游 NLP 任务。基本上,MobileBERT 是 BERT_LARGE 的精简版本,同时配备了瓶颈结构和精心设计的自注意力和前馈网络之间的平衡。为了训练 MobileBERT,我们首先训练一个特别设计的教师模型,即一个包含倒置瓶颈的 BERT_LARGE 模型。然后,我们从这个教师模型向 MobileBERT 进行知识转移。实证研究表明,MobileBERT 比 BERT_BASE 小 4.3 倍,速度快 5.5 倍,同时在知名基准测试上取得了竞争性的结果。在 GLUE 的自然语言推理任务中,MobileBERT 获得了 77.7 的 GLUE 分数(比 BERT_BASE 低 0.6),在 Pixel 4 手机上的延迟为 62 毫秒。在 SQuAD v1.1/v2.0 问答任务中,MobileBERT 获得了 90.0/79.2 的开发 F1 分数(比 BERT_BASE 高 1.5/2.1)。
class transformers.MobileBertConfig( vocab_size = 30522 hidden_size = 512 num_hidden_layers = 24 num_attention_heads = 4 intermediate_size = 512 hidden_act = 'relu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 embedding_size = 128 trigram_input = True use_bottleneck = True intra_bottleneck_size = 128 use_bottleneck_attention = False key_query_shared_bottleneck = True num_feedforward_networks = 4 normalization_type = 'no_norm' classifier_activation = True classifier_dropout = None **kwargs )参数
vocab_size (int, 可选, 默认为 30522) — MobileBERT 模型的词汇量。定义了在调用 MobileBertModel 或 TFMobileBertModel 时可以表示的不同标记数量。
hidden_size (int, 可选, 默认为 512) — 编码器层和池化层的维度。
num_hidden_layers (int, 可选, 默认为 24) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, 可选, 默认为 4) — Transformer 编码器中每个注意力层的注意力头数。
intermediate_size (int, optional, defaults to 512) — Transformer 编码器中“中间”(通常称为前馈)层的维度。
hidden_act (str or function, optional, defaults to "relu") — 编码器和池化器中的非线性激活函数(函数或字符串)。如果是字符串,支持"gelu"、"relu"、"silu"和"gelu_new"。
hidden_dropout_prob (float, optional, defaults to 0.0) — 嵌入层、编码器和池化器中所有全连接层的 dropout 概率。
attention_probs_dropout_prob (float, optional, defaults to 0.1) — 注意力概率的 dropout 比率。
max_position_embeddings (int, optional, defaults to 512) — 此模型可能使用的最大序列长度。通常将其设置为较大的值以防万一(例如,512 或 1024 或 2048)。
type_vocab_size (int, optional, defaults to 2) — 在调用 MobileBertModel 或 TFMobileBertModel 时传递的token_type_ids的词汇表大小。
initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。
pad_token_id (int, optional, defaults to 0) — 用作填充的词嵌入中的标记 ID。
embedding_size (int, optional, defaults to 128) — 词嵌入向量的维度。
trigram_input (bool, optional, defaults to True) — 使用三元组卷积作为输入。
use_bottleneck (bool, optional, defaults to True) — 是否在 BERT 中使用瓶颈。
intra_bottleneck_size (int, optional, defaults to 128) — 瓶颈层输出的大小。
use_bottleneck_attention (bool, optional, defaults to False) — 是否使用来自瓶颈变换的注意力输入。
key_query_shared_bottleneck (bool, optional, defaults to True) — 是否在瓶颈中使用相同的查询和键的线性变换。
num_feedforward_networks (int, optional, defaults to 4) — 一个块中的 FFN 数量。
normalization_type (str, optional, defaults to "no_norm") — MobileBERT 中的归一化类型。
classifier_dropout (float, optional) — 分类头部的 dropout 比率。
这是用于存储 MobileBertModel 或 TFMobileBertModel 配置的类。根据指定的参数实例化一个 MobileBERT 模型,定义模型架构。使用默认值实例化配置将产生类似于 MobileBERT google/mobilebert-uncased 架构的配置。
配置对象继承自 PretrainedConfig,可用于控制模型输出。阅读 PretrainedConfig 的文档以获取更多信息。
Examples:
>>> from transformers import MobileBertConfig, MobileBertModel
>>> # Initializing a MobileBERT configuration
>>> configuration = MobileBertConfig()
>>> # Initializing a model (with random weights) from the configuration above
>>> model = MobileBertModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.configAttributes: pretrained_config_archive_map (Dict[str, str]): 包含所有可用预训练检查点的字典。
class transformers.MobileBertTokenizer( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )Parameters
vocab_file (str) — 包含词汇表的文件。
do_lower_case (bool, 可选, 默认为 True) — 在标记化时是否将输入转换为小写。
do_basic_tokenize (bool, 可选, 默认为 True) — 在 WordPiece 之前是否进行基本标记化。
never_split (Iterable, 可选) — 在标记化过程中永远不会被拆分的标记集合。仅在 do_basic_tokenize=True 时有效。
unk_token (str, 可选, 默认为 "[UNK]") — 未知标记。词汇表中不存在的标记无法转换为 ID,而是设置为此标记。
sep_token (str, 可选, 默认为 "[SEP]") — 分隔符标记,在从多个序列构建序列时使用,例如用于序列分类的两个序列或用于文本和问题的问题回答。它还用作使用特殊标记构建的序列的最后一个标记。
pad_token (str, 可选, 默认为 "[PAD]") — 用于填充的标记,例如在批处理不同长度的序列时使用。
cls_token (str, 可选, 默认为 "[CLS]") — 分类器标记,用于进行序列分类(对整个序列进行分类,而不是对每个标记进行分类)。在构建带有特殊标记的序列时,它是序列的第一个标记。
mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。
tokenize_chinese_chars (bool, 可选, 默认为 True) — 是否对中文字符进行标记化。
这可能应该在日语中停用(请参阅此 问题)。
strip_accents (bool, 可选) — 是否去除所有重音符号。如果未指定此选项,则将由 lowercase 的值确定(与原始 MobileBERT 中的情况相同)。
构建一个 MobileBERT 标记生成器。基于 WordPiece。
此标记生成器继承自 PreTrainedTokenizer,其中包含大多数主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]参数
token_ids_0 (List[int]) — 将添加特殊标记的 ID 列表。
token_ids_1 (List[int], 可选) — 第二个序列对的 ID 列表。
返回
List[int]
具有适当特殊标记的 输入 ID 列表。
通过连接和添加特殊标记从序列或序列对构建用于序列分类任务的模型输入。MobileBERT 序列的格式如下:
[CLS] X [SEP]
[CLS] A [SEP] B [SEP]
convert_tokens_to_string( tokens )将标记(字符串)序列转换为单个字符串。
create_token_type_ids_from_sequences( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]参数
token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], 可选) — 第二个序列对的 ID 列表。
返回
List[int]
根据给定序列的 标记类型 ID 列表。
从传递的两个序列创建一个用于序列对分类任务的掩码。MobileBERT 序列
序列对掩码的格式如下:
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence | second sequence |如果 token_ids_1 为 None,则此方法仅返回掩码的第一部分(0)。
get_special_tokens_mask( token_ids_0: List token_ids_1: Optional = None already_has_special_tokens: bool = False ) → export const metadata = 'undefined';List[int]参数
token_ids_0(List[int])— ID 列表。
token_ids_1(List[int],可选)— 序列对的第二个 ID 列表。
already_has_special_tokens(bool,可选,默认为False)— token 列表是否已经使用特殊 token 格式化为模型。
返回值
List[int]
一个整数列表,范围为[0, 1]:1 表示特殊 token,0 表示序列 token。
从没有添加特殊 token 的 token 列表中检索序列 ID。在使用分词器prepare_for_model方法添加特殊 token 时调用此方法。
class transformers.MobileBertTokenizerFast( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )参数
vocab_file(str)— 包含词汇表的文件。
do_lower_case(bool,可选,默认为True)— 在分词时是否将输入转换为小写。
unk_token(str,可选,默认为"[UNK]")— 未知 token。词汇表中不存在的 token 无法转换为 ID,而是设置为此 token。
sep_token(str,可选,默认为"[SEP]")— 分隔符 token,用于从多个序列构建序列,例如用于序列分类的两个序列或用于文本和问题的问题回答。它还用作使用特殊 token 构建的序列的最后一个 token。
pad_token(str,可选,默认为"[PAD]")— 用于填充的 token,例如在批处理不同长度的序列时使用。
cls_token(str,可选,默认为"[CLS]")— 在进行序列分类(整个序列而不是每个 token 分类)时使用的分类器 token。构建带有特殊 token 的序列时,它是序列的第一个 token。
mask_token(str,可选,默认为"[MASK]")— 用于掩盖值的 token。在使用掩盖语言建模训练此模型时使用的 token。这是模型将尝试预测的 token。
clean_text(bool,可选,默认为True)— 在分词之前是否清理文本,通过删除任何控制字符并将所有空格替换为经典空格。
tokenize_chinese_chars(bool,可选,默认为True)— 是否对中文字符进行分词。这对于日语可能需要停用(参见此问题)。
strip_accents(bool,可选)— 是否去除所有重音符号。如果未指定此选项,则将由lowercase的值确定(与原始 MobileBERT 相同)。
wordpieces_prefix(str,可选,默认为"##")— 子词的前缀。
构建一个“快速”MobileBERT 分词器(由 HuggingFace 的tokenizers库支持)。基于 WordPiece。
此分词器继承自 PreTrainedTokenizerFast,其中包含大部分主要方法。用户应参考此超类以获取有关这些方法的更多信息。
build_inputs_with_special_tokens( token_ids_0 token_ids_1 = None ) → export const metadata = 'undefined';List[int]参数
token_ids_0(List[int])— 将添加特殊 token 的 ID 列表。
token_ids_1(List[int],可选)— 序列对的第二个 ID 列表。
返回值
List[int]
具有适当特殊 token 的 input IDs 列表。
通过连接和添加特殊标记从序列或序列对构建用于序列分类任务的模型输入。MobileBERT 序列具有以下格式:
[CLS] X [SEP]
[CLS] A [SEP] B [SEP]
create_token_type_ids_from_sequences( token_ids_0: List token_ids_1: Optional = None ) → export const metadata = 'undefined';List[int]参数
token_ids_0 (List[int]) — ID 列表。
token_ids_1 (List[int], optional) — 序列对的可选第二个 ID 列表。
返回
List[int]
根据给定序列的 token 类型 ID 列表。
从传递的两个序列创建一个用于序列对分类任务的掩码。MobileBERT 序列
序列对掩码具有以下格式:
0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1
| first sequence | second sequence |如果token_ids_1为None,则此方法仅返回掩码的第一部分(0)。
class transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput( loss: Optional = None prediction_logits: FloatTensor = None seq_relationship_logits: FloatTensor = None hidden_states: Optional = None attentions: Optional = None )参数
loss (optional, 当提供labels时返回,torch.FloatTensor,形状为(1,)) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。
prediction_logits (torch.FloatTensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
seq_relationship_logits (torch.FloatTensor,形状为(batch_size, 2)) — 下一个序列预测(分类)头的预测分数(SoftMax 之前的 True/False 延续分数)。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出的隐藏状态加上初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每个层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertForPreTraining 的输出类型。
class transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput( loss: tf.Tensor | None = None prediction_logits: tf.Tensor = None seq_relationship_logits: tf.Tensor = None hidden_states: Tuple[tf.Tensor] | None = None attentions: Tuple[tf.Tensor] | None = None )参数
prediction_logits (tf.Tensor,形状为(batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
seq_relationship_logits (tf.Tensor,形状为(batch_size, 2)) — 下一个序列预测(分类)头的预测分数(SoftMax 之前的 True/False 延续分数)。
hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
在自注意力头中用于计算加权平均值的注意力 softmax 后的注意力权重。
TFMobileBertForPreTraining 的输出类型。
PytorchHide Pytorch 内容
class transformers.MobileBertModel( config add_pooling_layer = True )参数
config (MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert Model 是一个裸的 transformer 模型,输出原始的隐藏状态,没有特定的头部。
这个模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None output_hidden_states: Optional = None output_attentions: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.BaseModelOutputWithPooling or tuple(torch.FloatTensor)参数
input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。
什么是输入 ID?
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]之间:
什么是注意力掩码?
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 指示输入的第一部分和第二部分的段标记索引。索引选择在[0, 1]之间:
什么是标记类型 ID?
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中的特定头部失效的掩码。掩码值选择在[0, 1]之间:
inputs_embeds (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将很有用,而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或torch.FloatTensor元组
一个 transformers.modeling_outputs.BaseModelOutputWithPooling 或一个torch.FloatTensor元组(如果传递return_dict=False或config.return_dict=False)包含各种元素,取决于配置(MobileBertConfig)和输入。
last_hidden_state (torch.FloatTensor,形状为(batch_size, sequence_length, hidden_size)) — 模型最后一层的输出的隐藏状态序列。
pooler_output (torch.FloatTensor,形状为(batch_size, hidden_size)) — 序列第一个标记(分类标记)的最后一层隐藏状态,在通过用于辅助预训练任务的层进一步处理后。例如,对于 BERT 系列模型,这将返回经过线性层和 tanh 激活函数处理后的分类标记。线性层的权重是从预训练期间的下一个句子预测(分类)目标中训练的。
hidden_states (tuple(torch.FloatTensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出 + 每个层的输出)的形状为(batch_size, sequence_length, hidden_size)。
模型在每个层的输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — torch.FloatTensor元组(每个层一个)的形状为(batch_size, num_heads, sequence_length, sequence_length)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertModel 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertModel
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertModel.from_pretrained("google/mobilebert-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_stateclass transformers.MobileBertForPreTraining( config )参数
config(MobileBertConfig](/docs/transformers/v4.37.2/en/main_classes/model#transformers.PreTrainedModel.from_pretrained)方法以加载模型权重。MobileBert 模型在预训练期间在顶部有两个头部:一个“掩码语言建模”头部和一个“下一个句子预测(分类)”头部。
该模型继承自 PreTrainedModel。查看超类文档,了解库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
该模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
前进( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None next_sentence_label: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput or tuple(torch.FloatTensor)参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)-词汇表中输入序列令牌的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.FloatTensor,可选)-避免对填充令牌索引执行注意力的掩码。掩码值在[0, 1]中选择:
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)-段令牌索引,指示输入的第一部分和第二部分。索引在[0, 1]中选择:
什么是令牌类型 ID?
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)-每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)-用于使自注意力模块的选定头部失效的掩码。掩码值在[0, 1]中选择:
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)-可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。
output_attentions(bool,可选)-是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states(bool,可选)-是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
return_dict(bool,可选)-是否返回 ModelOutput 而不是普通元组。
标签 (torch.LongTensor 的形状为 (batch_size, sequence_length),可选) — 用于计算掩码语言建模损失的标签。索引应在 [-100, 0, ..., config.vocab_size] 内(参见 input_ids 文档字符串)。索引设置为 -100 的标记将被忽略(掩码),损失仅计算具有标签在 [0, ..., config.vocab_size] 内的标记。
next_sentence_label (torch.LongTensor 的形状为 (batch_size,),可选) — 用于计算下一个序列预测(分类)损失的标签。输入应为一个序列对(参见 input_ids 文档字符串)。索引应在 [0, 1] 内:
返回
transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput 或 tuple(torch.FloatTensor)
一个 transformers.models.mobilebert.modeling_mobilebert.MobileBertForPreTrainingOutput 或一个 torch.FloatTensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时)包含各种元素,取决于配置(MobileBertConfig)和输入。
loss (可选,当提供了 labels 时返回,形状为 (1,) 的 torch.FloatTensor) — 总损失,作为掩码语言建模损失和下一个序列预测(分类)损失的总和。
prediction_logits (torch.FloatTensor 的形状为 (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
seq_relationship_logits (torch.FloatTensor 的形状为 (batch_size, 2)) — 下一个序列预测(分类)头的预测分数(SoftMax 之前的 True/False 连续性分数)。
hidden_states (tuple(torch.FloatTensor),可选,当传递了 output_hidden_states=True 或当 config.output_hidden_states=True 时返回) — 形状为 (batch_size, sequence_length, hidden_size) 的 torch.FloatTensor 元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出状态加上初始嵌入输出。
attentions (tuple(torch.FloatTensor),可选,当传递了 output_attentions=True 或当 config.output_attentions=True 时返回) — 形状为 (batch_size, num_heads, sequence_length, sequence_length) 的 torch.FloatTensor 元组(每个层一个)。
注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
MobileBertForPreTraining 前向方法,覆盖了 __call__ 特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用 Module 实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForPreTraining
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForPreTraining.from_pretrained("google/mobilebert-uncased")
>>> input_ids = torch.tensor(tokenizer.encode("Hello, my dog is cute", add_special_tokens=True)).unsqueeze(0)
>>> # Batch size 1
>>> outputs = model(input_ids)
>>> prediction_logits = outputs.prediction_logits
>>> seq_relationship_logits = outputs.seq_relationship_logitsclass transformers.MobileBertForMaskedLM( config )参数
config (MobileBertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained() 方法以加载模型权重。MobileBert 模型,顶部带有language modeling头。
此模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MaskedLMOutput or tuple(torch.FloatTensor)参数
input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]:
masked的标记,
masked的标记。
什么是注意力掩码?
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 指示输入的第一部分和第二部分的段标记索引。索引选择在[0, 1]内:
什么是标记类型 ID?
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]:
masked,
masked。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您希望更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通的元组。
labels (torch.LongTensor of shape (batch_size, sequence_length), optional) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]内(参见input_ids文档字符串)。索引设置为-100的标记将被忽略(masked),损失仅计算具有标签在[0, ..., config.vocab_size]内的标记。
返回
transformers.modeling_outputs.MaskedLMOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MaskedLMOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或者config.return_dict=False)包含各种元素,具体取决于配置(MobileBertConfig)和输入。
loss (torch.FloatTensor of shape (1,), optional, returned when labels is provided) — 掩码语言建模(MLM)损失。
logits (torch.FloatTensor of shape (batch_size, sequence_length, config.vocab_size)) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
hidden_states (tuple(torch.FloatTensor), optional, returned when output_hidden_states=True is passed or when config.output_hidden_states=True) — Tuple of torch.FloatTensor (one for the output of the embeddings, if the model has an embedding layer, + one for the output of each layer) of shape (batch_size, sequence_length, hidden_size)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, returned when output_attentions=True is passed or when config.output_attentions=True) — Tuple of torch.FloatTensor (one for each layer) of shape (batch_size, num_heads, sequence_length, sequence_length)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertForMaskedLM 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForMaskedLM
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForMaskedLM.from_pretrained("google/mobilebert-uncased")
>>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> # retrieve index of [MASK]
>>> mask_token_index = (inputs.input_ids == tokenizer.mask_token_id)[0].nonzero(as_tuple=True)[0]
>>> predicted_token_id = logits[0, mask_token_index].argmax(axis=-1)
>>> tokenizer.decode(predicted_token_id)
'paris'
>>> labels = tokenizer("The capital of France is Paris.", return_tensors="pt")["input_ids"]
>>> # mask labels of non-[MASK] tokens
>>> labels = torch.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)
>>> outputs = model(**inputs, labels=labels)
>>> round(outputs.loss.item(), 2)
0.57class transformers.MobileBertForNextSentencePrediction( config )参数
config (MobileBertConfig) — 模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型顶部带有下一个句子预测(分类)头。
这个模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存,调整输入嵌入大小,修剪头等)。
这个模型也是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None **kwargs ) → export const metadata = 'undefined';transformers.modeling_outputs.NextSentencePredictorOutput or tuple(torch.FloatTensor)参数
input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.FloatTensor,可选)— 用于避免在填充令牌索引上执行注意力的掩码。掩码值在[0, 1]中选择:
masked的令牌,
masked的令牌。
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 段令牌索引,指示输入的第一部分和第二部分。索引在[0, 1]中选择:
什么是令牌类型 ID?
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值在[0, 1]中选择:
masked,
masked。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)— 可选地,您可以选择直接传递嵌入表示而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这是有用的。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
return_dict(bool,可选)— 是否返回一个 ModelOutput 而不是一个普通元组。
labels(形状为(batch_size,)的torch.LongTensor,可选)— 用于计算下一个序列预测(分类)损失的标签。输入应该是一个序列对(参见input_ids文档字符串)。索引应在[0, 1]内。
返回
transformers.modeling_outputs.NextSentencePredictorOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.NextSentencePredictorOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或当config.return_dict=False时)包括根据配置(MobileBertConfig)和输入的不同元素。
loss(形状为(1,)的torch.FloatTensor,可选,当提供next_sentence_label时返回)— 下一个序列预测(分类)损失。
logits(形状为(batch_size, 2)的torch.FloatTensor)— 下一个序列预测(分类)头部的预测分数(SoftMax 之前的 True/False 继续得分)。
hidden_states(tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回)-形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每层的输出)。
模型在每一层输出的隐藏状态加上可选的初始嵌入输出。
attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回)-形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertForNextSentencePrediction 前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在之后调用Module实例,而不是在此处调用,因为前者负责运行前处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForNextSentencePrediction
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForNextSentencePrediction.from_pretrained("google/mobilebert-uncased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> next_sentence = "The sky is blue due to the shorter wavelength of blue light."
>>> encoding = tokenizer(prompt, next_sentence, return_tensors="pt")
>>> outputs = model(**encoding, labels=torch.LongTensor([1]))
>>> loss = outputs.loss
>>> logits = outputs.logitsclass transformers.MobileBertForSequenceClassification( config )参数
config(MobileBertConfig)-模型配置类,包含模型的所有参数。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型变换器,顶部带有序列分类/回归头(池化输出之上的线性层),例如用于 GLUE 任务。
此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存,调整输入嵌入大小,修剪头等)。
此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.SequenceClassifierOutput or tuple(torch.FloatTensor)参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)-词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的torch.FloatTensor,可选)-用于避免在填充标记索引上执行注意力的掩码。掩码值选在[0, 1]中:
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)-段标记索引,指示输入的第一部分和第二部分。索引选在[0, 1]中:
什么是 token type IDs?
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是 position IDs?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)— 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]之间:
not masked,
masked。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)— 可选地,可以直接传递嵌入表示而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。
return_dict(bool,可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。
labels(形状为(batch_size,)的torch.LongTensor,可选)— 用于计算序列分类/回归损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1,则计算分类损失(交叉熵)。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.SequenceClassifierOutput 或者一个torch.FloatTensor的元组(如果传递了return_dict=False或者当config.return_dict=False时),包括不同的元素,取决于配置(MobileBertConfig)和输入。
loss(形状为(1,)的torch.FloatTensor,可选,当提供labels时返回)— 分类(如果 config.num_labels==1 则为回归)损失。
logits(形状为(batch_size, config.num_labels)的torch.FloatTensor)— 分类(如果 config.num_labels==1 则为回归)得分(SoftMax 之前)。
hidden_states(元组(torch.FloatTensor),可选,当传递output_hidden_states=True或者当config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出,+ 每层的输出)。
每层模型的输出处的隐藏状态加上可选的初始嵌入输出。
attentions(元组(torch.FloatTensor),可选,当传递output_attentions=True或者当config.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
在自注意力头中用于计算加权平均值的注意力 softmax 之后的注意力权重。
MobileBertForSequenceClassification 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行前处理和后处理步骤,而后者会默默地忽略它们。
单标签分类示例:
>>> import torch
>>> from transformers import AutoTokenizer, MobileBertForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("lordtt13/emo-mobilebert")
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_class_id = logits.argmax().item()
>>> model.config.id2label[predicted_class_id]
'others'
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert", num_labels=num_labels)
>>> labels = torch.tensor([1])
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
4.72多标签分类示例:
>>> import torch
>>> from transformers import AutoTokenizer, MobileBertForSequenceClassification
>>> tokenizer = AutoTokenizer.from_pretrained("lordtt13/emo-mobilebert")
>>> model = MobileBertForSequenceClassification.from_pretrained("lordtt13/emo-mobilebert", problem_type="multi_label_classification")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="pt")
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_class_ids = torch.arange(0, logits.shape[-1])[torch.sigmoid(logits).squeeze(dim=0) > 0.5]
>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = MobileBertForSequenceClassification.from_pretrained(
... "lordtt13/emo-mobilebert", num_labels=num_labels, problem_type="multi_label_classification"
... )
>>> labels = torch.sum(
... torch.nn.functional.one_hot(predicted_class_ids[None, :].clone(), num_classes=num_labels), dim=1
... ).to(torch.float)
>>> loss = model(**inputs, labels=labels).lossclass transformers.MobileBertForMultipleChoice( config )参数
config (MobileBertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型,顶部带有一个多选分类头(池化输出上的线性层和 softmax),例如用于 RocStories/SWAG 任务。
此模型继承自 PreTrainedModel。查看超类文档以获取库实现的所有模型的通用方法(例如下载或保存、调整输入嵌入、修剪头部等)。
此模型还是一个 PyTorch torch.nn.Module子类。将其用作常规的 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有内容。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.MultipleChoiceModelOutput or tuple(torch.FloatTensor)参数
input_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。查看 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()获取详细信息。
什么是输入 ID?
attention_mask (torch.FloatTensor of shape (batch_size, num_choices, sequence_length), optional) — 用于避免在填充标记索引上执行注意力的掩码。掩码值在 [0, 1] 中选择:
什么是注意力掩码?
token_type_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length), optional) — 段标记索引,用于指示输入的第一部分和第二部分。索引在 [0, 1] 中选择:
什么是标记类型 ID?
position_ids (torch.LongTensor of shape (batch_size, num_choices, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。在范围 [0, config.max_position_embeddings - 1] 中选择。
什么是位置 ID?
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值在 [0, 1] 中选择:
inputs_embeds (torch.FloatTensor,形状为(batch_size, num_choices, sequence_length, hidden_size),optional) — 可选地,您可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的hidden_states。
return_dict (bool, optional) — 是否返回一个 ModelOutput 而不是一个普通元组。
labels (torch.LongTensor,形状为(batch_size,),optional) — 用于计算多项选择分类损失的标签。索引应在[0, ..., num_choices-1]范围内,其中num_choices是输入张量的第二维度的大小。(参见上面的input_ids)
返回
transformers.modeling_outputs.MultipleChoiceModelOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.MultipleChoiceModelOutput 或一个torch.FloatTensor元组(如果传递return_dict=False或config.return_dict=False)包含各种元素,具体取决于配置(MobileBertConfig)和输入。
loss (torch.FloatTensor,形状为*(1,)*,optional,当提供labels时返回) — 分类损失。
logits (torch.FloatTensor,形状为(batch_size, num_choices)) — num_choices是输入张量的第二维度。(参见上面的input_ids)。
SoftMax 之前的分类分数。
hidden_states (tuple(torch.FloatTensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出加上每层的输出)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions (tuple(torch.FloatTensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
自注意力头中用于计算加权平均值的注意力 softmax 后的注意力权重。
MobileBertForMultipleChoice 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForMultipleChoice
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = MobileBertForMultipleChoice.from_pretrained("google/mobilebert-uncased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> labels = torch.tensor(0).unsqueeze(0) # choice0 is correct (according to Wikipedia ;)), batch size 1
>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="pt", padding=True)
>>> outputs = model(**{k: v.unsqueeze(0) for k, v in encoding.items()}, labels=labels) # batch size is 1
>>> # the linear classifier still needs to be trained
>>> loss = outputs.loss
>>> logits = outputs.logitsclass transformers.MobileBertForTokenClassification( config )参数
config(MobileBertConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型在顶部带有一个令牌分类头(隐藏状态输出的顶部线性层),例如用于命名实体识别(NER)任务。
该模型继承自 PreTrainedModel。检查超类文档以获取库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
该模型还是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取有关一般用法和行为的所有相关信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None labels: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.TokenClassifierOutput or tuple(torch.FloatTensor)参数
input_ids(形状为(batch_size, sequence_length)的torch.LongTensor)- 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode()和 PreTrainedTokenizer.call()。
输入 ID 是什么?
attention_mask(形状为(batch_size, sequence_length)的torch.FloatTensor,可选)- 用于避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择:
掩盖的标记,
掩盖的标记。
注意力掩码是什么?
token_type_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)- 段标记索引,指示输入的第一部分和第二部分。索引在[0, 1]中选择:
令牌类型 ID 是什么?
position_ids(形状为(batch_size, sequence_length)的torch.LongTensor,可选)- 每个输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
位置 ID 是什么?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的torch.FloatTensor,可选)- 用于使自注意力模块中选择的头部失效的掩码。掩码值在[0, 1]中选择:
掩盖,
掩盖。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor,可选)- 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。
output_attentions(bool,可选)- 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回的张量下的attentions。
output_hidden_states(bool,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回的张量下的hidden_states。
return_dict(bool,可选)- 是否返回 ModelOutput 而不是普通元组。
labels(形状为(batch_size, sequence_length)的torch.LongTensor,可选) — 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。
返回
transformers.modeling_outputs.TokenClassifierOutput 或tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.TokenClassifierOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或config.return_dict=False时)包含各种元素,取决于配置(MobileBertConfig)和输入。
loss(形状为(1,)的torch.FloatTensor,可选,当提供labels时返回) — 分类损失。
logits(形状为(batch_size, sequence_length, config.num_labels)的torch.FloatTensor) — 分类分数(SoftMax 之前)。
hidden_states(tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(一个用于嵌入的输出,如果模型有一个嵌入层,+ 一个用于每一层的输出)。
模型在每一层输出的隐藏状态加上可选的初始嵌入输出。
attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertForTokenClassification 的前向方法,覆盖__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在之后调用Module实例,而不是在此处调用,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForTokenClassification
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("mrm8488/mobilebert-finetuned-ner")
>>> model = MobileBertForTokenClassification.from_pretrained("mrm8488/mobilebert-finetuned-ner")
>>> inputs = tokenizer(
... "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="pt"
... )
>>> with torch.no_grad():
... logits = model(**inputs).logits
>>> predicted_token_class_ids = logits.argmax(-1)
>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t.item()] for t in predicted_token_class_ids[0]]
>>> predicted_tokens_classes
['I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'I-LOC', 'O', 'I-LOC', 'I-LOC']
>>> labels = predicted_token_class_ids
>>> loss = model(**inputs, labels=labels).loss
>>> round(loss.item(), 2)
0.03transformers.MobileBertForQuestionAnswering类
( config )参数
config(MobileBertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型,顶部带有用于提取式问答任务(如 SQuAD)的跨度分类头(在隐藏状态输出的线性层上计算span start logits和span end logits)。
此模型继承自 PreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型也是 PyTorch torch.nn.Module子类。将其用作常规 PyTorch 模块,并参考 PyTorch 文档以获取与一般用法和行为相关的所有信息。
forward( input_ids: Optional = None attention_mask: Optional = None token_type_ids: Optional = None position_ids: Optional = None head_mask: Optional = None inputs_embeds: Optional = None start_positions: Optional = None end_positions: Optional = None output_attentions: Optional = None output_hidden_states: Optional = None return_dict: Optional = None ) → export const metadata = 'undefined';transformers.modeling_outputs.QuestionAnsweringModelOutput or tuple(torch.FloatTensor)参数
input_ids (torch.LongTensor of shape (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
输入 ID 是什么?
attention_mask (torch.FloatTensor of shape (batch_size, sequence_length), optional) — 避免在填充标记索引上执行注意力的掩码。掩码值选择在 [0, 1]:
masked 的标记,
masked 的标记。
注意力掩码是什么?
token_type_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 段标记索引,指示输入的第一部分和第二部分。索引选择在 [0, 1]:
令牌类型 ID 是什么?
position_ids (torch.LongTensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为 [0, config.max_position_embeddings - 1]。
位置 ID 是什么?
head_mask (torch.FloatTensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块的选定头部无效的掩码。掩码值选择在 [0, 1]:
masked,
masked。
inputs_embeds (torch.FloatTensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您想要更多控制如何将 input_ids 索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量中的 attentions。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量中的 hidden_states。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。
start_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算标记范围的开始位置(索引)的标签,以计算标记分类损失。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内计算损失。
end_positions (torch.LongTensor of shape (batch_size,), optional) — 用于计算标记分类损失的标记范围结束位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内计算损失。
返回
transformers.modeling_outputs.QuestionAnsweringModelOutput 或 tuple(torch.FloatTensor)
一个 transformers.modeling_outputs.QuestionAnsweringModelOutput 或一个torch.FloatTensor元组(如果传递了return_dict=False或config.return_dict=False时)包括根据配置(MobileBertConfig)和输入的各种元素。
loss(形状为(1,)的torch.FloatTensor,可选,当提供labels时返回) — 总跨度提取损失是起始位置和结束位置的交叉熵之和。
start_logits(形状为(batch_size, sequence_length)的torch.FloatTensor) — 跨度起始得分(SoftMax 之前)。
end_logits(形状为(batch_size, sequence_length)的torch.FloatTensor) — 跨度结束得分(SoftMax 之前)。
hidden_states(tuple(torch.FloatTensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的torch.FloatTensor元组(如果模型有嵌入层,则为嵌入的输出+每一层的输出)。
模型在每一层输出的隐藏状态以及可选的初始嵌入输出。
attentions(tuple(torch.FloatTensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的torch.FloatTensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
MobileBertForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。
尽管前向传递的步骤需要在此函数内定义,但应该在之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, MobileBertForQuestionAnswering
>>> import torch
>>> tokenizer = AutoTokenizer.from_pretrained("csarron/mobilebert-uncased-squad-v2")
>>> model = MobileBertForQuestionAnswering.from_pretrained("csarron/mobilebert-uncased-squad-v2")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="pt")
>>> with torch.no_grad():
... outputs = model(**inputs)
>>> answer_start_index = outputs.start_logits.argmax()
>>> answer_end_index = outputs.end_logits.argmax()
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens, skip_special_tokens=True)
'a nice puppet'
>>> # target is "nice puppet"
>>> target_start_index = torch.tensor([12])
>>> target_end_index = torch.tensor([13])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = outputs.loss
>>> round(loss.item(), 2)
3.98TensorFlow 隐藏 TensorFlow 内容
class transformers.TFMobileBertModel( config *inputs **kwargs )参数
config(MobileBertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。裸 MobileBert 模型变压器输出原始隐藏状态,没有特定的头部。
这个模型继承自 TFPreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
这个模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于这种支持,当使用 model.fit() 等方法时,应该可以“正常工作” - 只需以 model.fit() 支持的任何格式传递输入和标签即可!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 Keras Functional API 创建自己的层或模型时,有三种可能性可用于收集第一个位置参数中的所有输入张量:
input_ids 的张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用 子类化 创建模型和层时,您无需担心任何这些,因为您可以像将输入传递给任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling or tuple(tf.Tensor)参数
input_ids (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length)) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 用于避免在填充标记索引上执行注意力的掩码。 选择在 [0, 1] 范围内的掩码值:
什么是注意力掩码?
token_type_ids (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 段标记索引,指示输入的第一部分和第二部分。 索引选择在 [0, 1]:
什么是令牌类型 ID?
position_ids (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 每个输入序列标记在位置嵌入中的位置索引。 选择范围为 [0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask (Numpy array 或 tf.Tensor,形状为 (num_heads,) 或 (num_layers, num_heads),可选) — 用于使自注意力模块的选定头部无效的掩码。 选择在 [0, 1] 范围内的掩码值:
inputs_embeds (tf.Tensor,形状为 (batch_size, sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递 input_ids。如果您想要更多控制如何将 input_ids 索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。
output_attentions (bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回的张量下的 attentions。此参数仅在急切模式下可用,在图模式下将使用配置中的值。
output_hidden_states(bool,可选)- 是否返回所有层的隐藏状态。有关更多详细信息,请查看返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
return_dict(bool,可选)- 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。
training(bool,可选,默认为False)- 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。
返回
transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False时)包含根据配置(MobileBertConfig)和输入的不同元素。
last_hidden_state(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor)- 模型最后一层的隐藏状态序列。
pooler_output(形状为(batch_size, hidden_size)的tf.Tensor)- 序列的第一个标记(分类标记)的最后一层隐藏状态,进一步由线性层和 Tanh 激活函数处理。线性层的权重是在预训练期间从下一个句子预测(分类)目标中训练的。
这个输出通常不是输入的语义内容的好摘要,你通常最好对整个输入序列的隐藏状态进行平均或池化。
hidden_states(tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回)- 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每层的输出)。
模型在每一层输出处的隐藏状态加上初始嵌入输出。
attentions(tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回)- 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
自注意力头中的注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertModel 前向方法,覆盖__call__特殊方法。
虽然前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertModel
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertModel.from_pretrained("google/mobilebert-uncased")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> outputs = model(inputs)
>>> last_hidden_states = outputs.last_hidden_stateclass transformers.TFMobileBertForPreTraining( config *inputs **kwargs )参数
config(MobileBertConfig)- 模型的所有参数的模型配置类。使用配置文件初始化不会加载与模型相关的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型在预训练期间在顶部有两个头部:一个掩码语言建模头部和一个下一个句子预测(分类)头部。
此模型继承自 TFPreTrainedModel。查看超类文档,了解库为所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
此模型还是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于有了这种支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签即可!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctionalAPI 创建自己的层或模型时,有三种可能性可用于收集所有输入张量在第一个位置参数中:
input_ids的张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,在使用子类化创建模型和层时,您无需担心这些内容,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None next_sentence_label: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy 数组或tf.Tensor)- 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的Numpy 数组或tf.Tensor,可选)- 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:
未被屏蔽的标记,
被屏蔽的标记。
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的Numpy 数组或tf.Tensor,可选)- 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]中:
什么是标记类型 ID?
position_ids(形状为(batch_size, sequence_length)的Numpy 数组或tf.Tensor,可选)- 输入序列标记在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的Numpy 数组或tf.Tensor,可选) — 用于使自注意力模块中选择的头部失效的掩码。在[0, 1]中选择的掩码值:
masked,
masked。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor,可选) — 可选地,可以直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。
output_attentions(bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅在急切模式下使用,在图模式中将使用配置中的值。
output_hidden_states(bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式中将使用配置中的值。
return_dict(bool,可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式中该值将始终设置为 True。
training(bool,可选,默认为False) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
返回
transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput 或tuple(tf.Tensor)
transformers.models.mobilebert.modeling_tf_mobilebert.TFMobileBertForPreTrainingOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False)包含各种元素,这取决于配置(MobileBertConfig)和输入。
prediction_logits(形状为(batch_size, sequence_length, config.vocab_size)的tf.Tensor) — 语言建模头的预测分数(SoftMax 之前每个词汇标记的分数)。
seq_relationship_logits(形状为(batch_size, 2)的tf.Tensor) — 下一个序列预测(分类)头的预测分数(SoftMax 之前的 True/False 连续分数)。
hidden_states(tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
每个层输出的模型的隐藏状态加上初始嵌入输出。
attentions(tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForPreTraining 前向方法,覆盖__call__特殊方法。
尽管前向传递的配方需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者则默默地忽略它们。
示例:
>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFMobileBertForPreTraining
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForPreTraining.from_pretrained("google/mobilebert-uncased")
>>> input_ids = tf.constant(tokenizer.encode("Hello, my dog is cute"))[None, :] # Batch size 1
>>> outputs = model(input_ids)
>>> prediction_scores, seq_relationship_scores = outputs[:2]class transformers.TFMobileBertForMaskedLM( config *inputs **kwargs )参数
config(MobileBertConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型顶部带有语言建模头。
该模型继承自 TFPreTrainedModel。查看超类文档以获取库为其所有模型实现的通用方法(例如下载或保存、调整输入嵌入、修剪头等)。
该模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于有此支持,因此在使用model.fit()等方法时,您应该可以“轻松使用” - 只需以model.fit()支持的任何格式传递输入和标签即可!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctionalAPI 创建自己的层或模型时,有三种可能性可用于收集所有输入张量的第一个位置参数:
input_ids的张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFMaskedLMOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor)- 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)- 用于避免在填充标记索引上执行注意力的掩码。选择的掩码值为[0, 1]:
未被掩盖的标记。
被掩盖的标记。
什么是注意力掩码?
token_type_ids(Numpy 数组或形状为(batch_size, sequence_length)的tf.Tensor,可选) — 段令牌索引,指示输入的第一部分和第二部分。索引在[0, 1]中选择:
令牌类型 ID 是什么?
position_ids(Numpy 数组或形状为(batch_size, sequence_length)的tf.Tensor,可选) — 每个输入序列令牌在位置嵌入中的位置索引。在范围[0, config.max_position_embeddings - 1]中选择。
什么是位置 ID?](…/glossary#position-ids)
head_mask(Numpy 数组或形状为(num_heads,)或(num_layers, num_heads)的tf.Tensor,可选) — 用于使自注意力模块的选定头部无效的掩码。选择的掩码值在[0, 1]中:
掩码,
掩码。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这很有用。
output_attentions(bool,可选) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅可在急切模式下使用,在图模式中将使用配置中的值。
output_hidden_states(bool,可选) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅可在急切模式下使用,在图模式中将使用配置中的值。
return_dict(bool,可选) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式中该值将始终设置为 True。
training(bool,可选,默认为False) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
labels(形状为(batch_size, sequence_length)的tf.Tensor,可选) — 用于计算掩码语言建模损失的标签。索引应在[-100, 0, ..., config.vocab_size]中(请参阅input_ids文档字符串)索引设置为-100的令牌将被忽略(掩码),损失仅计算具有标签的令牌
返回
transformers.modeling_tf_outputs.TFMaskedLMOutput 或tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFMaskedLMOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False)包含各种元素,取决于配置(MobileBertConfig)和输入。
loss(形状为(n,)的tf.Tensor,可选,其中 n 是非掩码标签的数量,当提供labels时返回) — 掩码语言建模(MLM)损失。
logits(形状为(batch_size, sequence_length, config.vocab_size)的tf.Tensor) — 语言建模头的预测分数(SoftMax 之前每个词汇令牌的分数)。
hidden_states(tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
每个层输出的模型的隐藏状态加上初始嵌入输出。
attentions(tuple(tf.Tensor),可选,当传递output_attentions=True或当config.output_attentions=True时返回) - 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForMaskedLM 的前向方法覆盖了__call__特殊方法。
尽管前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForMaskedLM
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForMaskedLM.from_pretrained("google/mobilebert-uncased")
>>> inputs = tokenizer("The capital of France is [MASK].", return_tensors="tf")
>>> logits = model(**inputs).logits
>>> # retrieve index of [MASK]
>>> mask_token_index = tf.where((inputs.input_ids == tokenizer.mask_token_id)[0])
>>> selected_logits = tf.gather_nd(logits[0], indices=mask_token_index)
>>> predicted_token_id = tf.math.argmax(selected_logits, axis=-1)
>>> tokenizer.decode(predicted_token_id)
'paris'>>> labels = tokenizer("The capital of France is Paris.", return_tensors="tf")["input_ids"]
>>> # mask labels of non-[MASK] tokens
>>> labels = tf.where(inputs.input_ids == tokenizer.mask_token_id, labels, -100)
>>> outputs = model(**inputs, labels=labels)
>>> round(float(outputs.loss), 2)
0.57class transformers.TFMobileBertForNextSentencePrediction( config *inputs **kwargs )参数
config(MobileBertConfig) - 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型,顶部带有下一个句子预测(分类)头。
这个模型继承自 TFPreTrainedModel。查看超类文档以了解库实现的通用方法,适用于所有模型(例如下载或保存,调整输入嵌入大小,修剪头等)。
这个模型也是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有信息。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:
input_ids的单个张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心任何这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None next_sentence_label: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFNextSentencePredictorOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy 数组或tf.Tensor) - 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。 有关详细信息,请参见 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 用于避免在填充标记索引上执行注意力的掩码。 掩码值选在 [0, 1]:
masked 的标记,
masked 的标记。
什么是注意力掩码?
token_type_ids (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 指示输入的第一部分和第二部分的段标记索引。 索引在 [0, 1] 中选择:
什么是标记类型 ID?
position_ids (Numpy array 或 tf.Tensor,形状为 (batch_size, sequence_length),可选) — 每个输入序列标记在位置嵌入中的位置索引。 选择范围为 [0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask (Numpy array 或 tf.Tensor,形状为 (num_heads,) 或 (num_layers, num_heads),可选) — 用于使自注意力模块中选择的头部失效的掩码。 掩码值选在 [0, 1]:
masked,
masked。
inputs_embeds (tf.Tensor,形状为 (batch_size, sequence_length, hidden_size),可选) — 可选地,您可以选择直接传递嵌入表示而不是传递 input_ids。 如果您想要更多控制如何将 input_ids 索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
output_attentions (bool,可选) — 是否返回所有注意力层的注意力张量。 有关更多详细信息,请参见返回张量下的 attentions。 此参数仅在急切模式下使用,在图模式中将使用配置中的值。
output_hidden_states (bool,可选) — 是否返回所有层的隐藏状态。 有关更多详细信息,请参见返回张量下的 hidden_states。 此参数仅在急切模式下使用,在图模式中将使用配置中的值。
return_dict (bool,可选) — 是否返回一个 ModelOutput 而不是一个普通元组。 此参数可以在急切模式下使用,在图模式中该值将始终设置为 True。
training (bool,可选,默认为 False) — 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。
返回
transformers.modeling_tf_outputs.TFNextSentencePredictorOutput 或 tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFNextSentencePredictorOutput 或一个 tf.Tensor 元组(如果传递了 return_dict=False 或当 config.return_dict=False 时)包含根据配置(MobileBertConfig)和输入而异的各种元素。
loss (tf.Tensor,形状为 (n,),可选,其中 n 是非 masked 标签的数量,当提供 next_sentence_label 时返回) — 下一个句子预测损失。
logits(形状为(batch_size, 2)的tf.Tensor) - 下一个序列预测(分类)头的预测分数(SoftMax 之前的 True/False 继续得分)。
hidden_states(tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) - 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出处的隐藏状态以及初始嵌入输出。
attentions(tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) - 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
在注意力 softmax 之后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForNextSentencePrediction 的前向方法,覆盖了__call__特殊方法。
尽管前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> import tensorflow as tf
>>> from transformers import AutoTokenizer, TFMobileBertForNextSentencePrediction
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForNextSentencePrediction.from_pretrained("google/mobilebert-uncased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> next_sentence = "The sky is blue due to the shorter wavelength of blue light."
>>> encoding = tokenizer(prompt, next_sentence, return_tensors="tf")
>>> logits = model(encoding["input_ids"], token_type_ids=encoding["token_type_ids"])[0]TFMobileBertForSequenceClassification 类
( config *inputs **kwargs )参数
config(MobileBertConfig) - 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型变换器,顶部带有序列分类/回归头(池化输出之上的线性层),例如用于 GLUE 任务。
此模型继承自 TFPreTrainedModel。查看超类文档,了解库为其所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
此模型还是一个tf.keras.Model子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于这种支持,当使用诸如model.fit()之类的方法时,您应该可以“轻松地”使用 - 只需以model.fit()支持的任何格式传递您的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可以用来收集第一个位置参数中的所有输入张量:
input_ids的单个张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心这些内容,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFSequenceClassifierOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor)— 词汇表中输入序列令牌的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参见 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 用于避免在填充令牌索引上执行注意力的掩码。掩码值选在[0, 1]之间:
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 段标记索引,指示输入的第一部分和第二部分。索引选在[0, 1]之间:
什么是令牌类型 ID?
position_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 每个输入序列令牌在位置嵌入中的位置索引。选在范围[0, config.max_position_embeddings - 1]内。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor,可选)— 用于使自注意力模块的选定头部失效的掩码。掩码值选在[0, 1]之间:
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,这将非常有用,而不是使用模型的内部嵌入查找矩阵。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回的张量下的attentions。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回的张量下的hidden_states。此参数仅可在急切模式下使用,在图模式下将使用配置中的值。
return_dict(bool,可选)— 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式下该值将始终设置为 True。
training(bool,可选,默认为False)— 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
labels (形状为(batch_size,)的tf.Tensor,*可选*) — 用于计算序列分类/回归损失的标签。索引应在[0, …, config.num_labels - 1]范围内。如果config.num_labels == 1,则计算回归损失(均方损失),如果config.num_labels > 1`,则计算分类损失(交叉熵)。
返回
transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False)包含各种元素,具体取决于配置(MobileBertConfig)和输入。
loss (形状为(batch_size, )的tf.Tensor,*可选*,当提供labels时返回) — 分类(如果config.num_labels==1`则为回归)损失。
logits (形状为(batch_size, config.num_labels)的tf.Tensor) — 分类(如果config.num_labels==1`则为回归)分数(SoftMax 之前)。
hidden_states (tuple(tf.Tensor), 可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出处的隐藏状态以及初始嵌入输出。
attentions (tuple(tf.Tensor), 可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每个层一个)。
注意力权重在注意力 softmax 之后,用于计算自注意力头中的加权平均值。
TFMobileBertForSequenceClassification 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForSequenceClassification
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/emo-mobilebert")
>>> model = TFMobileBertForSequenceClassification.from_pretrained("vumichien/emo-mobilebert")
>>> inputs = tokenizer("Hello, my dog is cute", return_tensors="tf")
>>> logits = model(**inputs).logits
>>> predicted_class_id = int(tf.math.argmax(logits, axis=-1)[0])
>>> model.config.id2label[predicted_class_id]
'others'>>> # To train a model on `num_labels` classes, you can pass `num_labels=num_labels` to `.from_pretrained(...)`
>>> num_labels = len(model.config.id2label)
>>> model = TFMobileBertForSequenceClassification.from_pretrained("vumichien/emo-mobilebert", num_labels=num_labels)
>>> labels = tf.constant(1)
>>> loss = model(**inputs, labels=labels).loss
>>> round(float(loss), 2)
4.72class transformers.TFMobileBertForMultipleChoice( config *inputs **kwargs )参数
config(MobileBertConfig) — 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型,顶部带有一个多选分类头(池化输出上方的线性层和 softmax),例如用于 RocStories/SWAG 任务。
该模型继承自 TFPreTrainedModel。检查超类文档以获取库实现的通用方法(例如下载或保存,调整输入嵌入大小,修剪头等)。
该模型还是tf.keras.Model的子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有信息。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,当使用model.fit()等方法时,应该可以“正常工作” - 只需以model.fit()支持的任何格式传递输入和标签即可!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可以用来收集所有输入张量在第一个位置参数中:
input_ids的张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask]) 或 model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心这些问题,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, num_choices, sequence_length)的Numpy数组或tf.Tensor) — 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, num_choices, sequence_length)的Numpy数组或tf.Tensor,可选) — 用于避免在填充标记索引上执行注意力的掩码。掩码值选定在[0, 1]之间:
未被掩码的标记,
被掩码的标记。
什么是注意力掩码?
token_type_ids(形状为(batch_size, num_choices, sequence_length)的Numpy数组或tf.Tensor,可选) — 段标记索引,指示输入的第一部分和第二部分。索引选定在[0, 1]之间:
什么是标记类型 ID?
position_ids(形状为(batch_size, num_choices, sequence_length)的Numpy数组或tf.Tensor,可选) — 每个输入序列标记在位置嵌入中的位置索引。选定范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor,可选) — 用于使自注意力模块中的选定头部失效的掩码。掩码值选定在[0, 1]之间:
未被掩码,
被掩码。
inputs_embeds(形状为(batch_size, num_choices, sequence_length, hidden_size)的tf.Tensor,可选) — 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权,以便将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,则这很有用。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参见返回张量下的attentions。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参见返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
return_dict(bool,可选)— 是否返回一个 ModelOutput 而不是一个普通元组。此参数可以在急切模式下使用,在图模式下该值将始终设置为 True。
training(bool,可选,默认为False)— 是否在训练模式下使用模型(一些模块如 dropout 模块在训练和评估之间有不同的行为)。
labels(形状为(batch_size,)的tf.Tensor,可选)— 用于计算多项选择分类损失的标签。索引应在[0, ..., num_choices]范围内,其中num_choices是输入张量的第二维度的大小。(参见上面的input_ids)
返回
transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput 或者tuple(tf.Tensor)
一个 transformers.modeling_tf_outputs.TFMultipleChoiceModelOutput 或者一个tf.Tensor元组(如果传递了return_dict=False或者当config.return_dict=False时)包括根据配置(MobileBertConfig)和输入的各种元素。
loss(形状为*(batch_size, )*的tf.Tensor,可选,当提供labels时返回)— 分类损失。
logits(形状为(batch_size, num_choices)的tf.Tensor)— num_choices是输入张量的第二维度。(参见上面的input_ids)。
分类分数(SoftMax 之前)。
hidden_states(tuple(tf.Tensor),可选,当传递output_hidden_states=True或者当config.output_hidden_states=True时返回)— 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出,一个用于每个层的输出)。
模型在每个层的输出的隐藏状态加上初始嵌入输出。
attentions(tuple(tf.Tensor),可选,当传递output_attentions=True或者当config.output_attentions=True时返回)— 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForMultipleChoice 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的方法需要在此函数内定义,但应该在此之后调用Module实例而不是这个,因为前者负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForMultipleChoice
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("google/mobilebert-uncased")
>>> model = TFMobileBertForMultipleChoice.from_pretrained("google/mobilebert-uncased")
>>> prompt = "In Italy, pizza served in formal settings, such as at a restaurant, is presented unsliced."
>>> choice0 = "It is eaten with a fork and a knife."
>>> choice1 = "It is eaten while held in the hand."
>>> encoding = tokenizer([prompt, prompt], [choice0, choice1], return_tensors="tf", padding=True)
>>> inputs = {k: tf.expand_dims(v, 0) for k, v in encoding.items()}
>>> outputs = model(inputs) # batch size is 1
>>> # the linear classifier still needs to be trained
>>> logits = outputs.logitsclass transformers.TFMobileBertForTokenClassification( config *inputs **kwargs )参数
config(MobileBertConfig) — 包含模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型在顶部带有一个标记分类头(隐藏状态输出的线性层),例如用于命名实体识别(NER)任务。
这个模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(例如下载或保存,调整输入嵌入大小,修剪头等)。
这个模型也是一个tf.keras.Model的子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取与一般用法和行为相关的所有内容。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。由于这种支持,在使用model.fit()等方法时,应该可以“正常工作” - 只需传递model.fit()支持的任何格式的输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 Keras Functional API 创建自己的层或模型时,有三种可能性可以用来收集所有输入张量在第一个位置参数中:
input_ids的张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您无需担心这些,因为您可以像对待任何其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFTokenClassifierOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy array或tf.Tensor) — 输入序列标记在词汇表中的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的Numpy array或tf.Tensor,可选) — 避免在填充标记索引上执行注意力的掩码。掩码值在[0, 1]中选择:
masked的标记为 1,
masked的标记为 0。
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的Numpy array或tf.Tensor,可选) — 段标记索引,用于指示输入的第一部分和第二部分。索引在[0, 1]中选择:
什么是标记类型 ID?
position_ids (Numpy array or tf.Tensor of shape (batch_size, sequence_length), optional) — 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask (Numpy array or tf.Tensor of shape (num_heads,) or (num_layers, num_heads), optional) — 用于使自注意力模块中选择的头部失效的掩码。掩码值选择在[0, 1]中:
inputs_embeds (tf.Tensor of shape (batch_size, sequence_length, hidden_size), optional) — 可选,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制权来将input_ids索引转换为相关向量,而不是使用模型的内部嵌入查找矩阵,这将非常有用。
output_attentions (bool, optional) — 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅在急切模式下使用,在图模式中将使用配置中的值。
output_hidden_states (bool, optional) — 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式中将使用配置中的值。
return_dict (bool, optional) — 是否返回 ModelOutput 而不是普通元组。此参数可在急切模式下使用,在图模式中该值将始终设置为 True。
training (bool, optional, 默认为False) — 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间具有不同的行为)。
labels (tf.Tensor of shape (batch_size, sequence_length), optional) — 用于计算标记分类损失的标签。索引应在[0, ..., config.num_labels - 1]范围内。
返回
transformers.modeling_tf_outputs.TFTokenClassifierOutput 或 tuple(tf.Tensor)
transformers.modeling_tf_outputs.TFTokenClassifierOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False,则返回)包含根据配置(MobileBertConfig)和输入的各种元素。
loss (tf.Tensor of shape (n,), optional, 其中 n 是未掩盖标签的数量,当提供labels时返回) — 分类损失。
logits (tf.Tensor of shape (batch_size, sequence_length, config.num_labels)) — 分类分数(SoftMax 之前)。
hidden_states (tuple(tf.Tensor), optional, 当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入的输出 + 一个用于每个层的输出)。
模型在每个层的输出隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor), optional, 当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每个层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForTokenClassification 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是在此处调用,因为前者会负责运行预处理和后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForTokenClassification
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/mobilebert-finetuned-ner")
>>> model = TFMobileBertForTokenClassification.from_pretrained("vumichien/mobilebert-finetuned-ner")
>>> inputs = tokenizer(
... "HuggingFace is a company based in Paris and New York", add_special_tokens=False, return_tensors="tf"
... )
>>> logits = model(**inputs).logits
>>> predicted_token_class_ids = tf.math.argmax(logits, axis=-1)
>>> # Note that tokens are classified rather then input words which means that
>>> # there might be more predicted token classes than words.
>>> # Multiple token classes might account for the same word
>>> predicted_tokens_classes = [model.config.id2label[t] for t in predicted_token_class_ids[0].numpy().tolist()]
>>> predicted_tokens_classes
['I-ORG', 'I-ORG', 'O', 'O', 'O', 'O', 'O', 'I-LOC', 'O', 'I-LOC', 'I-LOC']>>> labels = predicted_token_class_ids
>>> loss = tf.math.reduce_mean(model(**inputs, labels=labels).loss)
>>> round(float(loss), 2)
0.03class transformers.TFMobileBertForQuestionAnswering( config *inputs **kwargs )参数
config(MobileBertConfig)- 具有模型所有参数的模型配置类。使用配置文件初始化不会加载与模型关联的权重,只会加载配置。查看 from_pretrained()方法以加载模型权重。MobileBert 模型,顶部带有用于提取问答任务的跨度分类头,如 SQuAD(在隐藏状态输出的顶部进行线性层计算span start logits和span end logits)。
这个模型继承自 TFPreTrainedModel。查看超类文档以获取库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。
这个模型也是一个tf.keras.Model的子类。将其用作常规的 TF 2.0 Keras 模型,并参考 TF 2.0 文档以获取有关一般用法和行为的所有相关信息。
transformers中的 TensorFlow 模型和层接受两种格式的输入:
支持第二种格式的原因是,当将输入传递给模型和层时,Keras 方法更喜欢这种格式。由于这种支持,当使用model.fit()等方法时,应该“只需工作” - 只需以model.fit()支持的任何格式传递输入和标签!但是,如果您想在 Keras 方法之外使用第二种格式,比如在使用 Keras Functional API 创建自己的层或模型时,有三种可能性可以用来收集所有输入张量放在第一个位置参数中:
input_ids的单个张量,没有其他内容:model(input_ids)
model([input_ids, attention_mask])或model([input_ids, attention_mask, token_type_ids])
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
请注意,当使用子类化创建模型和层时,您不需要担心这些问题,因为您可以像对其他 Python 函数一样传递输入!
call( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None start_positions: np.ndarray | tf.Tensor | None = None end_positions: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → export const metadata = 'undefined';transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput or tuple(tf.Tensor)参数
input_ids(形状为(batch_size, sequence_length)的Numpy array或tf.Tensor)- 词汇表中输入序列标记的索引。
可以使用 AutoTokenizer 获取索引。有关详细信息,请参阅 PreTrainedTokenizer.call()和 PreTrainedTokenizer.encode()。
什么是输入 ID?
attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 用于避免在填充标记索引上执行注意力的掩码。掩码值选择在[0, 1]中:
掩盖的标记,
掩盖的标记。
什么是注意力掩码?
token_type_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]中:
什么是标记类型 ID?
position_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor,可选)— 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]中:
掩盖,
掩盖。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这是有用的。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
return_dict(bool,可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。这个参数可以在急切模式下使用,在图模式下该值将始终设置为 True。
training(bool,可选,默认为False)— 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间有不同的行为)。
start_positions(形状为(batch_size,)的tf.Tensor,可选)— 用于计算标记跨度的开始位置(索引)的标签,以计算标记分类损失。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。
end_positions(形状为(batch_size,)的tf.Tensor,可选)— 用于计算标记分类损失的标记跨度的结束位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。
返回
transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或tuple(tf.Tensor)
transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False)包含根据配置(MobileBertConfig)和输入的不同元素。
loss (tf.Tensor,形状为(batch_size, ),可选,当提供start_positions和end_positions时返回) — 总跨度抽取损失是起始位置和结束位置的交叉熵之和。
start_logits (tf.Tensor,形状为(batch_size, sequence_length)) — 跨度起始得分(SoftMax 之前)。
end_logits (tf.Tensor,形状为(batch_size, sequence_length)) — 跨度结束得分(SoftMax 之前)。
hidden_states (tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入输出,一个用于每一层的输出)。
模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForQuestionAnswering
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/mobilebert-uncased-squad-v2")
>>> model = TFMobileBertForQuestionAnswering.from_pretrained("vumichien/mobilebert-uncased-squad-v2")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)
>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens)
'a nice puppet'>>> # target is "nice puppet"
>>> target_start_index = tf.constant([12])
>>> target_end_index = tf.constant([13])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = tf.math.reduce_mean(outputs.loss)
>>> round(float(loss), 2)
3.98(batch_size, sequence_length)的Numpy数组或tf.Tensor,*可选*)— 段标记索引,指示输入的第一部分和第二部分。索引选择在[0, 1]`中:
+ 0 对应于一个*句子 A*的标记,
+ 1 对应于一个*句子 B*的标记。
什么是标记类型 ID?position_ids(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)— 每个输入序列标记在位置嵌入中的位置索引。选择范围为[0, config.max_position_embeddings - 1]。
什么是位置 ID?
head_mask(形状为(num_heads,)或(num_layers, num_heads)的Numpy数组或tf.Tensor,可选)— 用于使自注意力模块的选定头部无效的掩码。掩码值选择在[0, 1]中:
掩盖,
掩盖。
inputs_embeds(形状为(batch_size, sequence_length, hidden_size)的tf.Tensor,可选)— 可选地,您可以选择直接传递嵌入表示,而不是传递input_ids。如果您想要更多控制如何将input_ids索引转换为相关向量,而不是模型的内部嵌入查找矩阵,则这是有用的。
output_attentions(bool,可选)— 是否返回所有注意力层的注意力张量。有关更多详细信息,请参阅返回张量下的attentions。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
output_hidden_states(bool,可选)— 是否返回所有层的隐藏状态。有关更多详细信息,请参阅返回张量下的hidden_states。此参数仅在急切模式下使用,在图模式下将使用配置中的值。
return_dict(bool,可选)— 是否返回一个 ModelOutput 而不是一个普通的元组。这个参数可以在急切模式下使用,在图模式下该值将始终设置为 True。
training(bool,可选,默认为False)— 是否在训练模式下使用模型(一些模块,如 dropout 模块,在训练和评估之间有不同的行为)。
start_positions(形状为(batch_size,)的tf.Tensor,可选)— 用于计算标记跨度的开始位置(索引)的标签,以计算标记分类损失。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。
end_positions(形状为(batch_size,)的tf.Tensor,可选)— 用于计算标记分类损失的标记跨度的结束位置(索引)的标签。位置被夹紧到序列的长度(sequence_length)。序列外的位置不会被考虑在内以计算损失。
返回
transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或tuple(tf.Tensor)
transformers.modeling_tf_outputs.TFQuestionAnsweringModelOutput 或一个tf.Tensor元组(如果传递return_dict=False或config.return_dict=False)包含根据配置(MobileBertConfig)和输入的不同元素。
loss (tf.Tensor,形状为(batch_size, ),可选,当提供start_positions和end_positions时返回) — 总跨度抽取损失是起始位置和结束位置的交叉熵之和。
start_logits (tf.Tensor,形状为(batch_size, sequence_length)) — 跨度起始得分(SoftMax 之前)。
end_logits (tf.Tensor,形状为(batch_size, sequence_length)) — 跨度结束得分(SoftMax 之前)。
hidden_states (tuple(tf.Tensor),可选,当传递output_hidden_states=True或config.output_hidden_states=True时返回) — 形状为(batch_size, sequence_length, hidden_size)的tf.Tensor元组(一个用于嵌入输出,一个用于每一层的输出)。
模型在每一层输出的隐藏状态加上初始嵌入输出。
attentions (tuple(tf.Tensor),可选,当传递output_attentions=True或config.output_attentions=True时返回) — 形状为(batch_size, num_heads, sequence_length, sequence_length)的tf.Tensor元组(每层一个)。
注意力 softmax 后的注意力权重,用于计算自注意力头中的加权平均值。
TFMobileBertForQuestionAnswering 的前向方法,覆盖了__call__特殊方法。
虽然前向传递的步骤需要在此函数内定义,但应该在此之后调用Module实例,而不是这个,因为前者会处理运行前后处理步骤,而后者会默默地忽略它们。
示例:
>>> from transformers import AutoTokenizer, TFMobileBertForQuestionAnswering
>>> import tensorflow as tf
>>> tokenizer = AutoTokenizer.from_pretrained("vumichien/mobilebert-uncased-squad-v2")
>>> model = TFMobileBertForQuestionAnswering.from_pretrained("vumichien/mobilebert-uncased-squad-v2")
>>> question, text = "Who was Jim Henson?", "Jim Henson was a nice puppet"
>>> inputs = tokenizer(question, text, return_tensors="tf")
>>> outputs = model(**inputs)
>>> answer_start_index = int(tf.math.argmax(outputs.start_logits, axis=-1)[0])
>>> answer_end_index = int(tf.math.argmax(outputs.end_logits, axis=-1)[0])
>>> predict_answer_tokens = inputs.input_ids[0, answer_start_index : answer_end_index + 1]
>>> tokenizer.decode(predict_answer_tokens)
'a nice puppet'>>> # target is "nice puppet"
>>> target_start_index = tf.constant([12])
>>> target_end_index = tf.constant([13])
>>> outputs = model(**inputs, start_positions=target_start_index, end_positions=target_end_index)
>>> loss = tf.math.reduce_mean(outputs.loss)
>>> round(float(loss), 2)
3.98