文档中心>高性能应用服务 HAI>应用指南>ChatGLM3 6B>在 HAI 环境中部署自定义项目

在 HAI 环境中部署自定义项目

最近更新时间:2024-07-18 11:54:51

我的收藏

操作场景

腾讯云高性能应用服务 HAI 是为开发者量身打造的澎湃算力平台。无需复杂配置,便可享受即开即用的 GPU 云服务体验。HAI 的 ChatGLM3-6B 应用,预装了支持 ChatGLM3-6B 模型运行的全部环境依赖。
如果您想部署自定义的代码项目,您可参考如下的部署实例,利用 腾讯云高性能应用服务 HAI 的预装环境,无需进行复杂环境配置,实现即开即用的灵活部署。

部署示例

本次将通过简单的示例代码,用transfomers库加载预装的 ChatGLM3-6B 模型并进行文本生成,体验将 ChatGLM3-6B 集成到您自己的代码工作流。

步骤1:释放显存

2. 算力管理页中选择算力连接 > JupyterLab



3. 进入 JupyterLab ,打开终端,参见 手动中断与重启 Gradio WebUI 服务,中断 Gradio WebUI 以释放显存。




步骤2:部署实例代码

1. 在终端输入python,进入 python 命令行。



2. transformers库导入AutoModelForCausalLMAutoTokenizer模块。
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
3. 导入本地预装的 ChatGLM3-6B 模型和模型分词器,模型路径为/root/chatglm3-6b-model
>>> model = AutoModelForCausalLM.from_pretrained("/root/chatglm3-6b-model", device_map="auto", trust_remote_code=True).to("cuda")
>>> tokenizer = AutoTokenizer.from_pretrained("/root/chatglm3-6b-model", padding_side="left", trust_remote_code=True)
4. 设置输入的文本,并获取文本生成的结果。
>>> model_inputs = tokenizer(["A list of colors: red, blue"], return_tensors="pt").to("cuda")
>>> generated_ids = model.generate(**model_inputs)
>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
得到的如下输出。



到此为止,您已经体验了利用大语言模型进行代码开发的一个简单完整流程!利用腾讯云高性能应用服务 HAI 的预装环境,实现即开即用,开发和部署灵活简单。