前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >AI新手村:Huggingface

AI新手村:Huggingface

原创
作者头像
dsy
发布于 2025-04-11 03:08:24
发布于 2025-04-11 03:08:24
10200
代码可运行
举报
运行总次数:0
代码可运行

HuggingFace

Hugging Face 最早作为 NLP 模型的社区中心,成立于 2016 年,但随着 LLM 的大火,主流的 LLM 模型的预训练模型和相关工具都可以在这个平台上找到,此外,上面也有很多计算机视觉(Computer Vision)和音频相关的模型。

Hugging Face 被视为AI 模型界的 GitHub 。Hugging Face有 3 大核心 Library,分别是 Transformer(对Transformer模型的封装使其更易使用)、Tokenizes(将文本句子拆分成模型可以理解的最小子块)、Dataset(读取外部数据的工具)。

下图是 Hugging Face 的首页,主要常用的功能如图标识的模型和数据集的功能。

Datasets 页面
Datasets 页面

数据的加载

Hugging Face 的 Datasets 页面有丰富的数据集,包括文本、音频、图片,也提供了直观的可视化页面。

huggingface 首页
huggingface 首页

使用的数据集的方式也很简单,使用load_dataset直接加载我们需要的数据集即可,如果想使用我们自定义的数据集使用函数load_dataset也是可以的。

代码语言:Python
AI代码解释
复制
from datasets import load_dataset

ds = load_dataset("clapAI/MultiLingualSentiment")

from datasets import load_dataset
# 读入训练数据和测试数据
data_files = {"train": "./day014/datas/train_data.json", "test": "./day014/datas/test_data.json"}
dataset = load_dataset("json", data_files = data_files)
print(dataset)
# 查看第一条训练数据
print(dataset['train'][0])

模型的使用

以文本分类(情感分析)的任务为例,我们可以通过函数 pipline只需要指定 task 名字就可以调用模型,模型默认使用的是 distilbert/distilbert-base-uncased-finetuned-sst-2-english,你也可以通过参数model指定特定的模型。

代码语言:Python
AI代码解释
复制
from transformers import pipeline

# 使用默认模型
# pipe = pipeline("text-classification")     

# 指定特定的模型,模型可以通过 Models 页面查找(因为默认的模型使用英文数据做训练数据,我换了一个支持多语言的模型)
pipe = pipeline("text-classification", model="lxyuan/distilbert-base-multilingual-cased-sentiments-student")     

string_arr = [
         "从前从前有个人爱你很久,但偏偏风渐渐把距离吹得好远,好不容易又能再多爱一天,但故事的最后你好像还是说了拜拜。",
        "我一路向北,离开有你的季节,你说你好累,已无法再爱上谁。风在山路吹,过往的画面全都是不对,细数惭愧,我伤你几回。",
        "我很开心"]
   
results = pipe(string_arr)

print(results)
# 输出结果
# [{'label': 'positive', 'score': 0.5694631338119507}, {'label': 'negative', 'score': 0.9576570987701416}, {'label': 'positive', 'score': 0.9572104811668396}]

第一次运行上面程序的时候,模型会自动下载,默认路径是 /HOME/.cache/huggingface/hub。

除了使用 pipline 函数,还可以通过接口的方式使用模型,不过需要提前准备好在网站申请的 token。使用接口的方式调用模型,模型本身不会下载到本地,算是比使用 pipline 方式方便的一点。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
from utils.common_config import config
import requests
def generate_embedding(text: str) -> list[float]:
    embedding_url = "https://api-inference.huggingface.co/models/lxyuan/distilbert-base-multilingual-cased-sentiments-student"
    response = requests.post(
        embedding_url,
        headers={"Authorization": f"Bearer {config.hg_token}"},
        json={"inputs": text})

    if response.status_code != 200:
        raise ValueError(f"Request failed with status code {response.status_code}: {response.text}")

    return response.json()

string_arr = [
         "从前从前有个人爱你很久,但偏偏风渐渐把距离吹得好远,好不容易又能再多爱一天,但故事的最后你好像还是说了拜拜。",
        "我一路向北,离开有你的季节,你说你好累,已无法再爱上谁。风在山路吹,过往的画面全都是不对,细数惭愧,我伤你几回。",
        "我很开心"]
a = generate_embedding(string_arr)
print(a)

# 输出结果
# [[{'label': 'positive', 'score': 0.5694631934165955}, {'label': 'neutral', 'score': 0.2743554711341858}, {'label': 'negative', 'score': 0.15618135035037994}], [{'label': 'negative', 'score': 0.9576572179794312}, {'label': 'neutral', 'score': 0.0352189838886261}, {'label': 'positive', 'score': 0.007123854476958513}], [{'label': 'positive', 'score': 0.9572104811668396}, {'label': 'neutral', 'score': 0.03854822367429733}, {'label': 'negative', 'score': 0.004241317044943571}]]

模型的微调

如果觉得模型本身效果不好,我们还可以使用微调(Fine-Tuning)的方式,使用自定义的数据训练,调整模型参数。

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
from datasets import load_dataset
# 读入训练数据和测试数据
import os
data_files = {
    "train": os.path.join(os.path.dirname(__file__), "datas/train_data.json"),
    "test": os.path.join(os.path.dirname(__file__), "datas/test_data.json")
}
dataset = load_dataset("json", data_files = data_files)
print(dataset)
# 查看第一条训练数据
print(dataset['train'][0])

from transformers import DistilBertTokenizer, DistilBertForSequenceClassification
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = DistilBertTokenizer.from_pretrained('lxyuan/distilbert-base-multilingual-cased-sentiments-student')
model = (
    DistilBertForSequenceClassification.from_pretrained(
        'lxyuan/distilbert-base-multilingual-cased-sentiments-student',
        num_labels = 3,
        id2label = {0: "negative", 1: "neutral", 2: "positive"},
        label2id = {"negative": 0, "neutral": 1, "positive": 2},
        # ignore_mismatched_sizes=True
    ).to(device)
)
model_name = "sentiment_model"


from transformers import DataCollatorWithPadding
from sklearn.metrics import accuracy_score

def preprocess_function(example):
  return tokenizer(example['text'], truncation = True, padding = True)

train_dataset = dataset["train"].map(preprocess_function, batched = True)
test_dataset = dataset["test"].map(preprocess_function, batched = True)

data_collator = DataCollatorWithPadding(tokenizer = tokenizer)

def compute_metrics(pred):
  labels = pred.label_ids
  predictions = pred.predictions.argmax(-1)
  accuracy = accuracy_score(labels, predictions)
  return {"accuracy": accuracy}

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
  output_dir = model_name,
  eval_strategy = "epoch",
  learning_rate = 2e-5,
  per_device_train_batch_size = 4,
  per_device_eval_batch_size = 4,
  num_train_epochs = 60,
  weight_decay = 0.01,
)

trainer = Trainer(
  model = model,
  args = training_args,
  train_dataset = train_dataset,
  eval_dataset = test_dataset,
  tokenizer = tokenizer,
  data_collator = data_collator,
  compute_metrics = compute_metrics,
)

trainer.train()

train_results = trainer.evaluate(eval_dataset = train_dataset)
train_accuracy = train_results.get('eval_accuracy')
print(f"Training Accuracy: {train_accuracy}")

test_results = trainer.evaluate(eval_dataset = test_dataset)
test_accuracy = test_results.get('eval_accuracy')
print(f"Testing Accuracy: {test_accuracy}")

训练完成后,我们可以使用新的模型,看一下效果,由于本地训练的数据比较少,新模型的最终效果不是很好。

代码语言:sql
AI代码解释
复制
from transformers import pipeline
classifier = pipeline(task = 'sentiment-analysis', model = "/Users/shaoyang/.cache/huggingface/hub/sentiment_model/checkpoint-120")
a = classifier(["从前从前有个人爱你很久,但偏偏风渐渐把距离吹得好远,好不容易又能再多爱一天,但故事的最后你好像还是说了拜拜。",
                              "我很开心"])

print(a)
# [{'label': 'negative', 'score': 0.532397449016571}, {'label': 'neutral', 'score': 0.9187697768211365}]

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Huggingface🤗NLP笔记7:使用Trainer API来微调模型
不得不说,这个Huggingface很贴心,这里的warning写的很清楚。这里我们使用的是带ForSequenceClassification这个Head的模型,但是我们的bert-baed-cased虽然它本身也有自身的Head,但跟我们这里的二分类任务不匹配,所以可以看到,它的Head被移除了,使用了一个随机初始化的ForSequenceClassificationHead。
beyondGuo
2021/10/08
8.7K0
Transformers 4.37 中文文档(一)
下表表示库中对这些模型的当前支持,它们是否有 Python 分词器(称为“slow”)。由🤗 Tokenizers 库支持的“fast”分词器,它们是否在 Jax(通过 Flax)、PyTorch 和/或 TensorFlow 中有支持。
ApacheCN_飞龙
2024/06/26
1.2K0
Transformers 4.37 中文文档(一)
Transformers 4.37 中文文档(四)
www.youtube-nocookie.com/embed/KWwzcmG98Ds
ApacheCN_飞龙
2024/06/26
4030
Transformers 4.37 中文文档(四)
Transformers 4.37 中文文档(三)
www.youtube-nocookie.com/embed/ajPx5LwJD-I
ApacheCN_飞龙
2024/06/26
2440
Transformers 4.37 中文文档(二)
除了🤗 Transformers 的 notebooks 之外,还有示例脚本演示如何使用PyTorch、TensorFlow或JAX/Flax训练模型的方法。
ApacheCN_飞龙
2024/06/26
6890
Transformers 4.37 中文文档(二)
5分钟NLP:使用 HuggingFace 微调BERT 并使用 TensorBoard 可视化
上篇文章我们已经介绍了Hugging Face的主要类,在本文中将介绍如何使用Hugging Face进行BERT的微调进行评论的分类。其中包含:AutoTokenizer、AutoModel、Trainer、TensorBoard、数据集和指标的使用方法。
deephub
2022/04/14
1.4K0
5分钟NLP:使用 HuggingFace 微调BERT 并使用 TensorBoard 可视化
transformers快速上手:实体识别和词性标注
大家好,我是多多,最近在学习整理预训练模型和transformers。这是本系列的第3篇。文字和代码较多,建议点赞、在看、收藏食用。
AI部落联盟
2021/05/11
2.9K0
transformers快速上手:实体识别和词性标注
使用 Transformers 在你自己的数据集上训练文本分类模型
最近实在是有点忙,没啥时间写博客了。趁着周末水一文,把最近用 huggingface transformers 训练文本分类模型时遇到的一个小问题说下。
Alan Lee
2021/12/07
2.5K0
探秘Transformers:用Hugging Face预训练模型实现命名实体识别!
命名实体识别(NER)是自然语言处理中的一项关键任务,旨在从文本中识别并提取出具有特定意义的实体,如人名、地名、组织机构名等。通过NER,计算机可以更好地理解文本,帮助我们从海量文本数据中快速获取有用信息,是许多NLP应用的基础,如信息提取、问答系统等。
Tom2Code
2024/03/02
1.4K0
探秘Transformers:用Hugging Face预训练模型实现命名实体识别!
在低配置电脑上使用TinyBERT训练并部署产品编号提取模型
虽然 TinyBERT 相比于 BERT 较小,但训练和推理过程中仍然依赖于计算资源。如果你的计算机没有 GPU,可以考虑使用 Google Colab 或 AWS 等云平台来提供 GPU 计算资源。
IT蜗壳-Tango
2025/03/22
1340
聊聊预训练模型的微调
翻译自:Fine-tuning a model with the Trainer API
Ryan_OVO
2023/10/19
5330
基于深度学习的NER(命名实体识别)教程 —— 识别文本中的编号
命名实体识别(Named Entity Recognition, NER)是自然语言处理(NLP)任务之一,用于识别文本中的特定类别的实体,如人名、地名、组织名、日期、编号等。
IT蜗壳-Tango
2025/03/18
1260
从零预训练一个自己的大模型(完整代码)
(2)复制安装包下载链接,在Linux中安装。 Miniconda镜像(清华源):miniconda清华源
用户2225445
2025/03/15
2390
从零预训练一个自己的大模型(完整代码)
应用实践:Paddle分类模型大集成者[PaddleHub、Finetune、prompt]
相关文章: [Paddlenlp之UIE模型实战实体抽取任务【打车数据、快递单】](https://blog.csdn.net/sinat_39620217/article/details/12582
汀丶人工智能
2022/11/11
3830
Transformer 模型实用介绍:BERT
在 NLP 中,Transformer 模型架构是一场革命,极大地增强了理解和生成文本信息的能力。
数据科学工厂
2023/08/10
5870
Transformer 模型实用介绍:BERT
使用huggingface全家桶(transformers, datasets)实现一条龙BERT训练(trainer)和预测(pipeline)
huggingface的transformers在我写下本文时已有39.5k star,可能是目前最流行的深度学习库了,而这家机构又提供了datasets这个库,帮助快速获取和处理数据。这一套全家桶使得整个使用BERT类模型机器学习流程变得前所未有的简单。
blmoistawinde
2021/01/21
5.5K0
基于腾讯云HAI + DeepSeek 开发企业知识库
自从年后大家都开始关注deepseek,我们公司年后特别忙,上面的老板及其他部门都提出了需求。 之前各个部门对AI模型都不了解,经过网上铺天盖地的新闻后,大家都知道AI比较厉害,所以都提出来部门的想法看如何把deepseek引入到部门中,原因大家想必都知道,就是提高大家的工作效率,节省人力。
七条猫
2025/03/08
3022
基于腾讯云HAI + DeepSeek 开发企业知识库
nlp-with-transformers系列-02-从头构建文本分类器
文本分类是 NLP 中最常见的任务之一, 它可用于广泛的应用或者开发成程序,例如将用户反馈文本标记为某种类别,或者根据客户文本语言自动归类。另外向我们平时见到的邮件垃圾过滤器也是文本分类最熟悉的应用场景之一。
致Great
2023/08/25
1.4K0
nlp-with-transformers系列-02-从头构建文本分类器
使用Huggingface创建大语言模型RLHF训练流程的完整教程
ChatGPT已经成为家喻户晓的名字,而大语言模型在ChatGPT刺激下也得到了快速发展,这使得我们可以基于这些技术来改进我们的业务。
deephub
2023/12/05
1.9K0
使用Huggingface创建大语言模型RLHF训练流程的完整教程
使用LORA微调RoBERTa
模型微调是指在一个已经训练好的模型的基础上,针对特定任务或者特定数据集进行再次训练以提高性能的过程。微调可以在使其适应特定任务时产生显着的结果。
deephub
2024/02/21
4480
使用LORA微调RoBERTa
推荐阅读
相关推荐
Huggingface🤗NLP笔记7:使用Trainer API来微调模型
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验