前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!

中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!

作者头像
Python兴趣圈
发布于 2023-12-30 06:29:10
发布于 2023-12-30 06:29:10
57300
代码可运行
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年
运行总次数:0
代码可运行

项目简介

YAYI 2 是中科闻歌研发的新一代开源大语言模型,中文名:雅意,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。

开源地址:https://github.com/wenge-research/YAYI2

YAYI2-30B是其模型规模,是基于 Transformer 的大语言模型。拥有300亿参数规模,基于国产化算力支持,数据语料安全可控,模型架构全自主研发。在媒体宣传、舆情感知、政务治理、金融分析等场景具有强大的应用能力。具有语种覆盖多、垂直领域深、开源开放的特点。

中科闻歌 此次开源计划是希望促进中文预训练大模型开源社区的发展,并积极为此做出贡献,共同构建雅意大模型生态。

预训练数据

雅意2.0 在预训练阶段,采用了互联网数据来训练模型的语言能力,还添加了通用精选数据和领域数据,以增强模型的专业技能。

同时其还构建了一套全方位提升数据质量的数据处理流水线,包括标准化、启发式清洗、多级去重、毒性过滤四个模块。共收集 240TB 原始数据,预处理后仅剩 10.6TB 高质量数据。

分词器

  • • YAYI 2 采用 Byte-Pair Encoding(BPE)作为分词算法,使用 500GB 高质量多语种语料进行训练,包括汉语、英语、法语、俄语等十余种常用语言,词表大小为 81920。
  • • 对数字进行逐位拆分,以便进行数学相关推理;同时,在词表中手动添加了大量HTML标识符和常见标点符号,以提高分词的准确性。同时还预设了200个保留位,以便未来可能的应用。
  • • 采样了单条长度为 1万 Tokens 的数据形成评价数据集,涵盖中文、英文和一些常见小语种,并计算了模型的压缩比。
  • • 压缩比越低通常表示分词器具有更高效率的性能。

环境安装

1、克隆本仓库内容到本地环境

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
git clone https://github.com/wenge-research/YAYI2.git
cd YAYI2

2、创建 conda 虚拟环境

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
conda create --name yayi_inference_env python=3.8
conda activate yayi_inference_env

本项目需要 Python 3.8 或更高版本。

3、安装依赖

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install transformers==4.33.1
pip install torch==2.0.1
pip install sentencepiece==0.1.99
pip install accelerate==0.25.0

4、模型推理

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
>>> from transformers import AutoModelForCausalLM, AutoTokenizer
>>> tokenizer = AutoTokenizer.from_pretrained("wenge-research/yayi2-30b", trust_remote_code=True)
>>> model = AutoModelForCausalLM.from_pretrained("wenge-research/yayi2-30b", device_map="auto", trust_remote_code=True)
>>> inputs = tokenizer('The winter in Beijing is', return_tensors='pt')
>>> inputs = inputs.to('cuda')
>>> pred = model.generate(
        **inputs, 
        max_new_tokens=256, 
        eos_token_id=tokenizer.eos_token_id, 
        do_sample=True,
        repetition_penalty=1.2,
        temperature=0.4, 
        top_k=100, 
        top_p=0.8
        )
>>> print(tokenizer.decode(pred.cpu()[0], skip_special_tokens=True))

总结

雅意大模型 应用于多个垂直领域行业,如政务、舆情、财税、教育、中医药、金融等都有它的身影。同时也衍生出了一系列家族AI产品,比如企业级AI助手、数据标注平台、知识库AI助手、绘画创作平台、AI机器人等。

相信国产模型的生态开源开放,能对多语种、多领域、多行业的应用场景提供一大助力。

写到最后

感谢您的一路陪伴,用代码构建世界,一起探索充满未知且奇妙的魔幻旅程。如果您对Python编程技巧、好玩实用的开源项目、行业新知趣事和各类技术干货等充满兴趣,那么不要错过未来我为大家奉上的精彩内容!点击关注,让您的探索学习之旅更加丰富多彩,我们一同成长,一同前行!🚀💻📚

求一键三连:点赞、转发、在看

如果本文对您有帮助,也请帮忙点个 赞👍 + 在看 哈!❤️

在看你就赞赞我!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python兴趣圈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
DeepSeek 模型:架构创新与实际应用详解
DeepSeek 模型是近年来在自然语言处理(NLP)领域备受瞩目的开源大规模语言模型系列。其最新版本 DeepSeek-V3 采用了混合专家(Mixture-of-Experts,MoE)架构,拥有 6710 亿个参数,每个词元(token)激活 370 亿个参数。该模型在多项基准测试中表现出色,性能媲美 GPT-4 和 Claude 等领先的闭源模型。以下将详细介绍 DeepSeek 模型的架构、用途,并通过具体案例和源代码展示其应用。
编程小妖女
2025/01/16
5.7K0
DeepSeek 模型:架构创新与实际应用详解
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
在模型训练过程中,数据及数据处理是最为重要的工作之一。在当前模型训练流程趋于成熟的情况下,数据集的好坏,是决定了该次训练能否成功的最关键因素。
汀丶人工智能
2024/05/26
4.5K0
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
机器学习|从0开发大模型之Tokenizer训练
继续写《从0开发大模型》系列文章,本文主要介绍从头快速训练一个Tokenizer。
用户1904552
2025/02/27
2470
机器学习|从0开发大模型之Tokenizer训练
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
Janus-Pro是DeepSeek最新开源的多模态模型,是一种新颖的自回归框架,统一了多模态理解和生成。通过将视觉编码解耦为独立的路径,同时仍然使用单一的、统一的变压器架构进行处理,该框架解决了先前方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成中的角色冲突,还增强了框架的灵活性。Janus-Pro 超过了以前的统一模型,并且匹配或超过了特定任务模型的性能。
AI浩
2025/02/08
2.6K1
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
丹摩平台 | 轻松玩转Llama3.1:从安装到全面掌控的对比指南
开源LLM生态系统的活力不减,涌现出许多引人注目的模型,如LLaMA和Alpaca,以及国内的ChatGLM、BaiChuan和InternLM(书生·浦语)。这些模型为开发者提供了在本地环境中进行部署和定制的可能性,使我们能打造具有独特价值的应用。
用户11316056
2024/11/21
3020
丹摩平台 | 轻松玩转Llama3.1:从安装到全面掌控的对比指南
【AI大模型】Transformers大模型库(六):torch.cuda.OutOfMemoryError: CUDA out of memory解决
这里的Transformers指的是huggingface开发的大模型库,为huggingface上数以万计的预训练大模型提供预测、训练等服务。
LDG_AGI
2024/08/13
1.8K0
【AI大模型】Transformers大模型库(六):torch.cuda.OutOfMemoryError: CUDA out of memory解决
丹摩征文活动|实现Llama3.1大模型的本地部署
Llama3.1是Meta 公司发布的最新开源大型语言模型,相较于之前的版本,它在规模和功能上实现了显著提升,尤其是最大的 4050亿参数版本,成为开源社区中非常强大的竞争者,能够在许多场景下与封闭模型如 OpenAI 的 GPT-4 相媲美。以下是 Llama3.1的一些主要特性:
Yui_
2025/06/02
970
丹摩征文活动|实现Llama3.1大模型的本地部署
使用Python实现深度学习模型:语言翻译与多语种处理
语言翻译和多语种处理是自然语言处理(NLP)中的重要任务,广泛应用于跨语言交流、国际化应用和多语言内容管理等领域。通过使用Python和深度学习技术,我们可以构建一个简单的语言翻译与多语种处理系统。本文将介绍如何使用Python实现这些功能,并提供详细的代码示例。
Echo_Wish
2024/07/22
2480
使用Python实现深度学习模型:语言翻译与多语种处理
LLaMA 3.1 模型在DAMODEL平台的部署与实战:打造智能聊天机器人
LLama3.1 是 Meta(Facebook 母公司)发布的系列大语言模型之一,属于 LLaMA(Large Language Model Meta AI)模型系列。LLaMA 模型的目标是通过更高效的设计在保持模型性能的前提下,显著降低其计算和资源需求。LLaMA 3.1 是该系列的最新版本,继承了前面版本,如 LLaMA 1 和 LLaMA 2的许多技术优势,并对模型架构、训练数据和推理能力进行了改进。
易辰君
2024/11/07
1830
LLaMA 3.1 模型在DAMODEL平台的部署与实战:打造智能聊天机器人
0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练
在MMLU、GSM8K、HUMAN-EVAL等各项基准测评估中,孟子3-13B都表现出了不错的性能。
量子位
2024/04/01
1650
0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练
谷歌Gemma介绍、微调、量化和推理
谷歌的最新的Gemma模型是第一个使用与Gemini模型相同的研究和技术构建的开源LLM。这个系列的模型目前有两种尺寸,2B和7B,并且提供了聊天的基本版和指令版。
deephub
2024/03/01
2.1K0
谷歌Gemma介绍、微调、量化和推理
【AI大模型】基于ChatGLM-6b从零开始本地部署语言模型,步骤详细无坑版
ChatGLM-6B 是的一种自然语言处理模型,属于大型生成语言模型系列的一部分。"6B"在这里指的是模型大约拥有60亿个参数,这些参数帮助模型理解和生成语言。ChatGLM-6B 特别设计用于对话任务,能够理解和生成自然、流畅的对话文本。 这个模型通过大量的文本数据进行训练,学习如何预测和生成语言中的下一个词,从而能够参与到各种对话场景中。它可以用于多种应用,比如聊天机器人、自动回复系统和其他需要语言理解的技术中,ChatGLM-6B 的能力取决于它的训练数据和具体的实现方式,通常能够处理复杂的语言任务,提供有用和合理的回复。
大数据小禅
2024/05/25
1.1K1
【AI大模型】基于ChatGLM-6b从零开始本地部署语言模型,步骤详细无坑版
AI模型:开源大语言模型bloom学习
chatgpt已经成为了当下热门,github首页的trending排行榜上天天都有它的相关项目,但背后隐藏的却是openai公司提供的api收费服务。作为一名开源爱好者,我非常不喜欢知识付费或者服务收费的理念,所以便有决心写下此系列,让一般大众们可以不付费的玩转当下比较新的开源大语言模型bloom及其问答系列模型bloomz。
Freedom123
2024/03/29
4730
AI模型:开源大语言模型bloom学习
怎么让英文大语言模型支持中文?(三)进行指令微调
这里是最后一部分了:怎么让英文大语言模型支持中文?(三)对预训练模型进行指令微调。
西西嘛呦
2023/07/10
1.1K0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
之前陆续写了Qwen1.5、Qwen2.0、GLM-4等国产开源大模型的原理、训练及推理相关的文章,每一篇都拿到了热榜第一,但其中训练部分均基于Llama-factory框架,对于工程师而言,最喜欢的就是刨根问底,使用中间层的训练框架,还是少一些“安全感”。今天我们抛开中间框架,深入底层,一步一步带大家微调一个大模型。
LDG_AGI
2024/08/13
1.8K0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼
---- 新智元报道   编辑:好困 Aeneas 【新智元导读】复旦NLP团队首次上线MOSS两个月后,他们遵照承诺,真的把MOSS开源了。同时,MOSS也成为了国内首个搭载插件系统的开源对话语言模型。 国内首个类ChatGPT模型MOSS,开源了! 这次,复旦团队的模型不仅更加成熟,而且还增加了「搜索引擎、计算器、解方程、文生图」等插件功能,既可在线体验,也支持本地部署—— 在FP16精度下单张A100/A800或两张3090显卡就能运行,而在INT4/8精度下只需一张3090即可。(但还没放出)
新智元
2023/05/09
4980
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼
Deepseek 实战全攻略,领航科技应用的深度探索之旅
想玩转 Deepseek?这攻略别错过!先带你了解它的基本原理,教你搭建运行环境。接着给出自然语言处理、智能客服等应用场景的实操方法与代码。还分享模型微调、优化技巧,结合案例加深理解,让你全面掌握,探索科技新可能!
羑悻的小杀马特.
2025/02/26
2470
如何用DeepSeek优化代码生成?实战案例分析
明确的需求描述可以帮助DeepSeek更好地理解意图。例如,以下是一个清晰的需求:
江南清风起
2025/04/06
2690
【Datawhale AI 夏令营】Intel LLM Hackathon 天池挑战赛 本地环境搭建
IT蜗壳-Tango
2024/07/15
3370
解锁AI Agent潜能:LLaMA3-1-8B-Instruct WebDemo部署实战(20/30)
在当今这个信息呈爆炸式增长的时代,AI Agent 宛如一位智能领航员,稳稳伫立在时代浪潮的前沿。它能自主感知环境变化,凭借自身的 “智慧” 做出精准决策,进而采取高效行动,致力于达成既定目标。从日常生活中的智能语音助手,到商业领域里的智能决策系统,AI Agent 的身影无处不在,已然成为推动各行业智能化转型的核心力量。
正在走向自律
2025/01/25
1360
解锁AI Agent潜能:LLaMA3-1-8B-Instruct WebDemo部署实战(20/30)
推荐阅读
DeepSeek 模型:架构创新与实际应用详解
5.7K0
LLM 大模型学习必知必会系列(五):数据预处理(Tokenizer分词器)、模板(Template)设计以及LLM技术选型
4.5K0
机器学习|从0开发大模型之Tokenizer训练
2470
【多模态大模型实战】 搭建DeepSeek Janus-Pro 7B 多模态模型,以及推理微调,推理后的模型融合
2.6K1
丹摩平台 | 轻松玩转Llama3.1:从安装到全面掌控的对比指南
3020
【AI大模型】Transformers大模型库(六):torch.cuda.OutOfMemoryError: CUDA out of memory解决
1.8K0
丹摩征文活动|实现Llama3.1大模型的本地部署
970
使用Python实现深度学习模型:语言翻译与多语种处理
2480
LLaMA 3.1 模型在DAMODEL平台的部署与实战:打造智能聊天机器人
1830
0门槛免费商用!孟子3-13B大模型正式开源,万亿token数据训练
1650
谷歌Gemma介绍、微调、量化和推理
2.1K0
【AI大模型】基于ChatGLM-6b从零开始本地部署语言模型,步骤详细无坑版
1.1K1
AI模型:开源大语言模型bloom学习
4730
怎么让英文大语言模型支持中文?(三)进行指令微调
1.1K0
【机器学习】QLoRA:基于PEFT亲手量化微调Qwen2大模型
1.8K0
复旦开源首个「中国版ChatGPT」MOSS!全新插件系统,能上网,会鸡兔同笼
4980
Deepseek 实战全攻略,领航科技应用的深度探索之旅
2470
如何用DeepSeek优化代码生成?实战案例分析
2690
【Datawhale AI 夏令营】Intel LLM Hackathon 天池挑战赛 本地环境搭建
3370
解锁AI Agent潜能:LLaMA3-1-8B-Instruct WebDemo部署实战(20/30)
1360
相关推荐
DeepSeek 模型:架构创新与实际应用详解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验