bert 获取词向量

BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer架构的预训练语言模型，它能够获取上下文相关的词向量表示。BERT模型通过在大规模语料库上进行无监督学习，学习到丰富的语言知识，从而可以用于各种自然语言处理任务。

基础概念

Transformer架构：BERT基于Transformer编码器部分构建，使用自注意力机制来捕捉文本中的长距离依赖关系。
双向训练：与传统的单向语言模型不同，BERT能够同时考虑单词左侧和右侧的上下文信息。
预训练任务：BERT通过两个预训练任务来学习语言表示：掩码语言模型（Masked Language Model, MLM）和下一句预测（Next Sentence Prediction, NSP）。

优势

上下文感知：BERT能够理解单词在不同上下文中的含义。
迁移学习：预训练的BERT模型可以在多种NLP任务上进行微调，通常只需少量标注数据就能达到很好的效果。
性能卓越：在多个NLP基准测试中，BERT取得了显著的性能提升。

类型

基础BERT模型：如bert-base-uncased和bert-large-uncased。
特定领域或语言的BERT模型：针对特定任务或语言进行了优化。

应用场景

文本分类：情感分析、主题分类等。
命名实体识别（NER）：识别文本中的实体及其类型。
问答系统：根据问题从文本中提取答案。
机器翻译：提高翻译质量。

获取词向量的方法

使用BERT模型获取词向量通常涉及以下步骤：

加载预训练模型：使用如Hugging Face的Transformers库加载BERT模型。
文本预处理：将文本分割成tokens，并转换为模型可接受的格式。
获取嵌入向量：通过模型传递tokens，获取每个token的上下文相关嵌入向量。

示例代码

以下是一个使用Python和Transformers库获取BERT词向量的简单示例：

from transformers import BertTokenizer, BertModel
import torch

# 加载预训练的BERT模型和分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 输入文本
text = "Hello, my dog is cute"

# 对文本进行分词并转换为模型输入格式
inputs = tokenizer(text, return_tensors='pt', truncation=True, padding=True)

# 获取BERT模型的输出
outputs = model(**inputs)

# 获取词向量（最后一层的隐藏状态）
last_hidden_states = outputs.last_hidden_state

print(last_hidden_states)