Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >以中文为中心!复旦 & 北大 | 从头训练中文大模型:CT-LLM

以中文为中心!复旦 & 北大 | 从头训练中文大模型:CT-LLM

作者头像
ShuYini
发布于 2024-04-12 12:59:54
发布于 2024-04-12 12:59:54
9800
举报

引言

当前,绝大多数大模型(LLMs)基本上都是以英文语料库训练得到的,然后经过SFT来匹配不同的语种。然而,今天给大家分享的这篇文章旨在从头开始训练中文大模型,在训练过程中「主要纳入中文文本数据」,最终作者得到了一个2B规模的中文Tiny LLM(CT-LLM)。结果表明,该模型在中文任务上表现出色,且通过SFT也能很好的支持英文。

https://arxiv.org/pdf/2404.04167.pdf

背景介绍

随着人工智能的快速发展,当前大模型(LLMs)已然成为了自然语言处理的基石,它们在理解、文本生成、推理等方面展现出了杰出的能力。然而,当前的主流模型大都基于英文数据集训练得到了,并以设定了很多评估基准,尽管有研究表明,大模型在多语言上面具有一定的泛化能力,但对于英文的重视会掩盖语言固有的多样性,这也将会限制LLM的使用和创新性发展。目前,关于非英语大模型的探索仍然是一个未知的领域

「泛化不确定性」 随着对于精通双语或多语功能的模型的需求日益增长,特别是能够适应中文语言应用的模型。为满足这种需求,人们已经采取了多种策略来增强LLMs的多语言能力,特别强调在预训练阶段加入更高比例的中文Token,或者采用监督式微调(SFT)等技术来激活大模型的中文语言功能。ChatGLM是一个早期的例子,它在预训练阶段采用了中文和英文Token的等量分布,最终形成了一个精通双语的模型。尽管如此,以中文为基础训练的LLM进行多语言泛化仍然具有不确定性。

「中文数据集缺乏」 预训练数据对于开发语言模型至关重要,它为模型学习和理解人类语言提供了基础。尽管大量的英语数据显著推动了英语大型语言模型(LLMs)的发展,但中文预训练数据的情况却呈现出巨大潜力与显著缺乏的对比。尽管中文互联网上有大量的数据可用,但中文预训练数据集相对较少,这引起了对多样性和质量的担忧。总之,现有的预训练数据集要么在数量上缺乏,要么在质量上有所妥协,这强调了探索以中文为中心的大模型预训练的重要性。这样的探索对于理解当代中文语言数据的特点和中文语言的识别应用至关重要。

基于以上考虑,「本文作者挑战以英语为中心的主流模型训练范式,考虑以中文为基础的预训练模型是否可以激活对其它语言的能力」。以中文为中心的方法如果成功,可能会显著推动语言技术的民主化,为创造反映全球语言多样性的包容性模型提供洞见。

CT-LLM预训练

CT-LLM(Chinese Tiny LLM)的预训练是非常重要的一步,它为模型提供了理解和处理中文文本的基础。

「数据准备」 作者收集了1254.68亿个token,其中包括840.48亿个中文token、314.88亿个英文token和99.3亿个代码token。这些数据来源于多样化的渠道,如Common Crawl的网络文档、学术论文、百科全书和书籍等。通过精心设计的启发式规则,对数据进行了过滤和去重,以确保数据集的质量和多样性。数据处理过程如下所示:

「模型架构」 CT-LLM的架构基于Transformer解码器,模型的关键参数设置如下所示:

为了提高模型的性能,作者采用了多头注意力机制,并引入了RoPE(Rotary Positional Embeddings)嵌入来替代绝对位置嵌入,同时在各层之间共享嵌入,以减少模型大小。此外,模型使用了SwiGLU激活函数和RMSNorm归一化处理,这些都是为了优化模型的训练和性能。

「预训练」 模型在4096个token的上下文长度上进行训练,这有助于模型捕捉长距离依赖关系。为了有效地处理大量的数据,CT-LLM使用了baichuan2分词器进行数据token化,该分词器利用SentencePiece的字节对编码(BPE)方法,并特别设计了对数字的编码方式,以增强对数值数据的处理能力。

CT-LLM微调

微调过程不仅增强了模型的语言理解能力,还通过直接从人类偏好中学习,提高了模型的实用性和安全性。

「监督微调」 为了进行监督式微调,研究者们使用了包括中文和英文数据的多种数据集。中文数据集包括CQIA、OL-CC以及从COIG-PC中采样的高质量数据。英文数据则来自OpenHermesPreferences数据集。

除此之外,根据中文数据的体量,英文数据的比例进行了调整,比例设置为1:1、2:1、4:1和8:1,同时还有只包含中文数据和只包含英文数据的配置。这样的多样性比例旨在模拟不同语言环境下的实际应用场景。

「DPO」 采用了直接偏好优化(DPO)技术,通过比较响应对的排名直接从人类偏好中学习。偏好数据集包括公开可用的数据集和LLM生成的合成数据。为了构建更高质量的偏好数据集,研究者们采用了alpaca-gpt4生成的"chosen"响应和baichuan-6B生成的"reject"响应。数据集总共包含183k个中文对和46k个英文对。

实验结果

如下图所示,CT-LLM与其他类似规模的基线模型进行了性能比较。CT-LLM在多数任务上展现出了竞争力,尤其是在中文任务上的表现尤为突出,这表明了模型在处理中文文本方面的有效性和适应性。

CT-LLM在CHC-Bench基准测试中的表现如下图所示。模型在社会理解和写作方面表现出色,这反映了其在处理与中国文化相关的语境时的强大能力。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
深入了解Deepseek模型的最佳三篇论文
DeepSeek-R1:通过强化学习提升大型语言模型的推理能力。 2025年1月发布,提出了一种使用强化学习而非监督学习的方法,显著提升了语言模型在数学和逻辑推理任务中的表现,开辟了新的研究方向。
致Great
2025/02/09
1.7K0
深入了解Deepseek模型的最佳三篇论文
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
本文尝试梳理一个完整的多模态LLM的训练流程。包括模型结构选择、数据预处理、模型预训练、指令微调、对齐、融合多模态以及链接外部系统等环节。
zenRRan
2023/08/22
7.7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3.5K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
医疗服务对每个人的福祉至关重要,在保障人类生命和健康方面发挥关键作用,并在改善人们整体健康状况方面具有决定性价值。然而,医疗保健领域面临几个关键挑战。一个重要问题是不同地区医疗服务质量的巨大差异,限制了患者获得持续、高质量医疗保健的途径。这种区域差异因医疗专业行人显著短缺和分布不均而加剧。熟练医疗行人的短缺尤其严重,尤其是在资源有限的偏远地区和基层卫生保健设施。这些挑战严重影响医疗服务的获得性和公平性。解决这些问题需要技术创新,例如应用人工智能(AI),以提高护理交付的效率和质量。通过集成像大型语言模型这样的AI技术,医疗系统有可能弥合这些差距,为服务不足的地区提供更一致、可靠、便捷的医疗服务。
AIGC 先锋科技
2024/11/25
1.5K0
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
复旦&北大&上海交大开源 Chinese-Tiny-LLM/ | 以中文为中心的大语言模型 !
在语言智能新兴领域,大型语言模型(LLM)已成为自然语言处理(NLP)的基石,展示了在理解和生成人类语言方面的卓越能力。这些模型主要在英语数据集上进行训练,显著推进了计算语言学的发展,并在各种任务上设定了新的基准。然而,对英语的这种强调掩盖了人类语言的固有多样性,限制了LLM适用性和创新的范围。从最初就融入非英语语言的复杂性及细微差别的LLM的发展,仍然是一个相对未探索的领域。
AIGC 先锋科技
2024/07/08
5190
复旦&北大&上海交大开源 Chinese-Tiny-LLM/ |  以中文为中心的大语言模型 !
大模型(LLMs)算法工程师相关的面试题和参考答案
需要注意的是,复读机问题是大型语言模型面临的一个挑战,解决这个问题是一个复杂的任务,需要综合考虑数据、训练目标、模型架构和生成策略等多个因素。目前,研究人员和工程师们正在不断努力改进和优化大型语言模型,以提高其生成文本的多样性和创造性。
机器学习AI算法工程
2023/11/13
7.9K0
大模型(LLMs)算法工程师相关的面试题和参考答案
【LLM训练系列03】关于大模型训练常见概念讲解
随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调等方法也在不断更新。下面笔者根据资料整理一些关于大模型训练常见概念解释。
致Great
2024/12/20
1.2K0
【LLM训练系列03】关于大模型训练常见概念讲解
一篇关于LLM指令微调的综述
指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。其本质是指在由(INSTRUCTION, OUTPUT)对组成的数据集上以监督的方式进一步训练LLM的过程,它弥合了LLM的下一个词预测目标与用户让LLM遵循人类指令的目标之间的差距。这篇文章对现有研究进行了系统的回顾、包括IT的一般方法、IT数据集的构建、IT模型的训练、以及不同模式,领域和应用的应用。
zenRRan
2023/09/11
7.4K0
一篇关于LLM指令微调的综述
分享最新10篇大模型论文,涉及应用、多模态、推理增强、剪枝等热点话题!
好久没有给大家梳理文章了,今天分享8篇有关大模型(LLMs)的最新研究进展,其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。全部论文获取方式,后台回复:20240414
ShuYini
2024/05/06
3.8K0
分享最新10篇大模型论文,涉及应用、多模态、推理增强、剪枝等热点话题!
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
大型语言模型 (LLMs) 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更好地服务特定领域,减少下游任务的训练与推理成本。
机器之心
2023/10/29
1.4K0
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响
摘要:虽然大型语言模型(LLM)通常采用微调来解锁其下游应用程序的功能,但我们对不同微调方法的归纳偏差(特别是缩放属性)的理解仍然有限。为了填补这一空白,我们进行了系统的实验,研究不同的缩放因子,包括LLM模型大小,预训练数据大小,新的微调参数大小和微调数据大小,是否以及如何影响微调性能。我们考虑两种类型的微调-全模型调整(FMT)和参数有效的调整(PET,包括即时调整和LoRA),并探讨其缩放行为的数据有限的制度,其中LLM模型的大小大大超过微调的数据大小。基于1B到16 B两组预训练的双语LLM,以及在双语机器翻译和多语种摘要基准测试上的实验,我们发现:1)LLM微调遵循基于幂的乘法联合缩放律,即微调数据大小与彼此缩放因子之间的比例关系; 2)LLM微调从LLM模型缩放中获得的收益大于预训练数据缩放,PET参数缩放通常无效;以及3)最优微调方法是高度任务和微调数据相关的。我们希望我们的研究结果可以帮助理解,选择和发展LLM微调方法。
zenRRan
2024/03/02
6710
每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
1.3K0
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
从零详细地梳理一个完整的 LLM 训练流程
在这篇文章中,我们将尽可能详细地梳理一个完整的 LLM 训练流程。包括模型预训练(Pretrain)、Tokenizer 训练、指令微调(Instruction Tuning)等环节。
zenRRan
2023/08/22
6.7K0
从零详细地梳理一个完整的 LLM 训练流程
复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集
随着远程医疗的兴起,在线问诊、咨询越发成为患者寻求便捷高效的医疗支持的首选项。近来大语言模型(LLM)展示出强大的自然语言交互能力,为健康医疗助手走进人们的生活带来了希望。
机器之心
2023/09/08
2.8K0
复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
这篇论文试图解决的问题是如何自动构建高质量的训练数据,以增强大型语言模型(LLMs)遵循复杂自然语言指令的能力。具体来说,论文指出了以下几个关键问题:
zenRRan
2024/07/04
6790
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
1.1K0
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过 700 star。
机器之心
2025/05/02
1770
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
反思RLHF,如何更加高效训练有偏好的LLM
当前 LLM 蓬勃发展,各种模型和方法层出不穷,但总体看来,但是朝着以下3点目标前进:
ShuYini
2023/11/20
1.5K0
反思RLHF,如何更加高效训练有偏好的LLM
大模型前沿进展:涉及推理、应用、多模态等热点话题!
紧跟技术发展趋势,快速了解NLP领域最新动态。好久没有给大家梳理文章了,今天作者结合最近一周的研究动态,梳理了8篇有关大模型(LLMs)的最新研究进展,其中涉及涉及大模型推理、应用、方法论、多模态、剪枝等热门研究方向。
ShuYini
2024/04/19
9700
大模型前沿进展:涉及推理、应用、多模态等热点话题!
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
摘要:本文研究了在机器翻译(MT)任务中增强大型语言模型(LLM)翻译能力的策略。本文提出了一种新颖的范式,包括三个阶段:使用大量单语数据进行二次预训练,使用跨行文本格式文档进行持续预训练,以及利用源语言一致性指导进行监督微调。以往对 LLM 的研究主要集中在各种监督微调(SFT)策略上,但其效果有限。传统的机器翻译方法依赖于大量的平行双语数据,而我们的范例则强调了使用较小的高质量双语数据集的重要性。我们认为,重点应放在预训练过程中增强 LLM 的跨语言对齐能力,而不是在 SFT 过程中仅仅依赖大量双语数据。使用 Llama2 模型进行的实验结果,尤其是单语增强后的中文-Llama2,证明了 LLMs 翻译能力的提高。我们的方法的重大贡献在于第二阶段:该阶段只需不到 1B 的训练数据,因此我们的方法非常高效。此外,在第三阶段,我们观察到设置与源语言一致的指令有利于监督微调过程。实验结果表明,我们的方法超越了之前的工作,与 NLLB-54B 和 GPT3.5-text-davinci-003 等模型相比,尽管参数数量只有 7B 或 13B,但却取得了卓越的性能。这一成就确立了我们的方法在机器翻译领域的先驱地位。
zenRRan
2024/04/11
1.4K0
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
推荐阅读
深入了解Deepseek模型的最佳三篇论文
1.7K0
从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统
7.7K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3.5K0
MEDGO:一个中文医疗大语言模型,已在在上海东方医院落地 !
1.5K0
复旦&北大&上海交大开源 Chinese-Tiny-LLM/ | 以中文为中心的大语言模型 !
5190
大模型(LLMs)算法工程师相关的面试题和参考答案
7.9K0
【LLM训练系列03】关于大模型训练常见概念讲解
1.2K0
一篇关于LLM指令微调的综述
7.4K0
分享最新10篇大模型论文,涉及应用、多模态、推理增强、剪枝等热点话题!
3.8K0
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
1.4K0
每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响
6710
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
1.3K0
从零详细地梳理一个完整的 LLM 训练流程
6.7K0
复旦大学团队发布中文医疗健康个人助手,同时开源47万高质量数据集
2.8K0
阿里千问团队提出AutoIF,让LLMs学会自我指导,简单有效,性能显著
6790
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
1.1K0
后训练时代如何延续Scaling Law?这是你该读的LLM后训练综述
1770
反思RLHF,如何更加高效训练有偏好的LLM
1.5K0
大模型前沿进展:涉及推理、应用、多模态等热点话题!
9700
每日论文速递 | 华为提出一个提高LLM翻译能力的新训练范式
1.4K0
相关推荐
深入了解Deepseek模型的最佳三篇论文
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档