搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏第一专栏
LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】
如下情感分类，续写情感极性： 5.2、高效微调高效微调：在缩减训练参数量和GPU显存占用，同时使训练后的模型具有与全量微调相当的性能。全量微调：微调全部参数需要相当高的算力。其它高效微调方式微调适配器（Adapter）分别对 Transformer 层中的自注意力模块与多层感知（MLP）模块，在其与其之后的残差连接之间添加适配器层（Adapter layer）作为可训练参数前缀微调（ Prefix Tuning）前缀微调是指在输入序列前缀添加连续可微的软提示作为可训练参数。 5.3、模型上下文窗口扩展上下文窗口：在自然语言处理中，LLM（Large Language Model，大型语言模型）的上下文窗口指的是模型在处理文本时所考虑的文本片段或单词的范围。 LLaMA 模型上进行有监督微调得到 Alpaca 模型，所使用的指令数据集的示例 5.5、开源指令数据集开源数据指令集
69940编辑于 2023-09-26
来自专栏LLM应用开发实践笔记
LLM模型微调关键技术分享
是否希望深入探索 LLaMA 模型的微调技术，进一步优化参数和使用不同微调方式？现在笔者会带你领略大模型训练与微调进阶之路，拓展您的技术边界！对于微调方式，将分别以 Lora 方式、Ptuning 方式为例，进行演示讲解，还会讲解合并 LoRA 参数与原始参数的方法、Fsdp 与 Deepspeed 的全参数微调技巧等内容。基于大模型的内在低秩特性，增加旁路矩阵来模拟全模型参数微调，LoRA 通过简单有效的方案来达成轻量微调的目的，可以将现在的各种大模型通过轻量微调变成各个不同领域的专业模型。五. 结语文章中介绍了微调的部分核心知识，限于文章的篇幅关于训练（微调）-LLaMA 代码结构、工具配置-Accelerate、工具配置-Deepspeed、工具配置-FSDP、训练（微调）-全参数微调、训练（微调）-LoRA 微调、训练（微调）-Ptuning 微调、结果评估的详细的讲解和代码实操，会在我们的课程中进行详细的阐述。
64410编辑于 2024-03-15
来自专栏自然语言处理
【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐
指令微调的局限性指令微调对于训练llm的能力至关重要，而模型的有用性在很大程度上取决于我们从小指令数据集中获得最大信息的能力。在本文中，我们提出在微调正向传递的过程中，在训练数据的嵌入向量中添加随机噪声，论文实验显示这个简单的技巧可以提高指令微调的效果，通常有很大的优势，而不需要额外的计算或数据开销。当像LLaMA-2-7B这样的原始LLM被噪声嵌入所微调时，AlpacaEval从29.8%提高到64.7%（图1），令人印象深刻地提高了约35个百分点。 NEFTune可以实现在会话任务上惊人的性能跳跃，同时在事实问题回答基线上保持性能，这种技术似乎是LLM微调的免费午餐。结论 NEFTune的成功指出了算法和正则化器在LLM训练中的重要性被忽视。与多年来一直在研究正则化和过拟合的计算机视觉社区不同，LLM社区倾向于使用标准化的训练循环，而不是泛化。
57010编辑于 2024-01-10
来自专栏计算机工具
LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态
LLM前言：推理加速、模型微调/对齐、开源LLM、Agent、多模态推理加速推理加速是AI技术中的关键环节，能让AI模型在实际应用中更智能、更高效。推理加速技术主要通过算法优化和硬件加速来实现。模型微调/对齐模型微调：在已有的预训练模型基础上，通过针对特定任务或行业需求做局部调整，以提升模型在特定领域或任务中的适用性和完成度。微调方法包括全参数微调（FFT）、参数高效微调（PeFT）等。其中，LoRA微调是参数高效微调的一种流行方法，能提升参数调整效度，高效切换任务、减少推理延迟，并降低微调成本。模型对齐：确保模型的行为、输出与人类的期望、目标和价值观保持一致的过程。开源LLM 开源LLM（大型语言模型）是指公开源代码的大型语言模型，允许开发者自由使用、修改和分发。开源LLM的出现降低了AI技术的门槛，促进了AI技术的创新和发展。
39510编辑于 2024-12-14
来自专栏云云众生s
通过结合RAG和微调来改进LLM输出
因此，RAG 和微调是我们唯一的选择。要了解差异，请考虑将 LLM 的训练视为学生备考。RAG 就像参加开卷考试。LLM 可以使用任何检索机制（例如网络浏览或数据库查询）访问相关信息。微调就像参加闭卷考试。LLM 需要在微调过程中记忆新知识，并且它根据其记忆回答问题。下表总结了这两种规范方法的优缺点。如前所述，微调面临的挑战之一是创建训练数据集。但是，一旦我们为 RAG 准备了文档，我们就可以直接将它们用于微调。我们还通过利用 LLM 来改写现有文档来合成更多数据。下图显示了合并 RAG 和微调模型的整体工作流程。对于给定的用户问题，微调后的 LLM 会推测性地生成一个初始答案。然后使用此响应来获取相关文档。最后，LLM 创建一个结合检索到的文档和原始用户问题的答案。添加微调模型极大地提高了检索的准确性和最终答案的质量。
72410编辑于 2024-05-02
来自专栏自然语言处理
【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
先说一些观点，假如我们在微调一个大模型，单次实验微调所用的指令微调数据集应该选取“质量高、多样性”,在训练资源充足的情况可以加入数量更多，长度更大的数据集。可以基于多个质量比较高的数据，做一份格式统一的多样性数据用来做sft，一次性微调完比较好，多次微调效果可能会折扣。或者有继续微调比较合适的方案也可以，不损失之前模型的效果（或者损失比较小），目前可以尝试Lora或者Qlora的方式微调底座模型，然后将训练好的Lora权重合并到原始模型，这样可以减轻多次微调对模型的影响 2 常见指令微调模板通过观测一些排行榜靠前和主流指令微调数据集，笔者总结一些常见的指令微调的Prompt：常见的是stanford_alpaca中模板 PROMPT_DICT = { "prompt_input 从指令微调数据集处理工作上，个人认为可以从以下方式进行：（1）事先准备多种高质量的指令微调数据集，每个数据集尽量保持差异性。那高质量如何定义呢？
2.3K20编辑于 2023-08-26
来自专栏深度学习自然语言处理
每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响
基于1B到16 B两组预训练的双语LLM，以及在双语机器翻译和多语种摘要基准测试上的实验，我们发现：1）LLM微调遵循基于幂的乘法联合缩放律，即微调数据大小与彼此缩放因子之间的比例关系; 2）LLM微调从 LLM模型缩放中获得的收益大于预训练数据缩放，PET参数缩放通常无效;以及3）最优微调方法是高度任务和微调数据相关的。微调对模型泛化能力的影响：研究微调是否会影响LLM在相关任务上的零样本（zero-shot）泛化能力。通过这些研究，论文旨在为理解、选择和发展LLM微调方法提供见解。 Q2: 有哪些相关研究？ A：相关研究主要集中在以下几个领域： LLM微调（LLM Finetuning）：研究者们探索了在大型预训练模型上进行微调的方法，以提高特定任务的性能。分析和比较：研究者们分析了LLM模型缩放、预训练数据缩放和PET参数缩放对微调性能的影响。他们发现LLM模型缩放对微调的益处大于预训练数据缩放，而PET参数缩放通常效果不佳。
94610编辑于 2024-03-02
来自专栏深度学习自然语言处理
一篇关于LLM指令微调的综述
深度学习自然语言处理原创作者：cola 指令微调(IT)是提高大型语言模型(LLM)能力和可控性的关键技术。指令微调的LLMs 这个小节将详细介绍通过指令微调训练的广泛使用的LLM模型。 GPT-4-LLM GPT-4-LLM(7B)是在GPT-4生成的指令数据集上通过微调LLaMA(7B)训练的语言模型。GPT-4-LLM使用LLaMA初始化，然后对构造的指令数据集进行监督微调。 Zhou等人(2023)[2]假设预训练的LLM只需要学习与用户交互的风格或格式，并提出了LIMA，该LIMA通过仅在1,000个精心挑选的训练示例上对LLM进行微调来实现强大的性能。 Proprietary LLMs Imitation LLM模仿是一种从更强大的模型收集输出的方法，并使用这些输出对开源LLM进行微调。通过这种方式，开源LLM可以获得与任何专有模型竞争的能力。
8.1K41编辑于 2023-09-11
来自专栏人工智能
5 分钟搞懂 LLM 微调：从原理到实战
一、什么是微调微调（Fine-tuning）是指在一个已经预训练好的大语言模型基础上，用特定领域或任务的数据继续训练，让模型更好地适应具体需求。打个比方，预训练模型像是一个读过海量书籍的通才，而微调就是让这个通才去某个专业领域进修，变成该领域的专家。二、为什么需要微调预训练模型虽然知识面广，但在具体场景下往往不够精准。微调可以让模型学会这些特定的模式和知识，同时成本远低于从头训练一个模型。三、主流微调方法全参数微调（FullFine-tuning）：对模型所有参数进行更新。、微调vs其他技术的对比与RAG（检索增强生成）对比RAG是让模型在回答时检索外部知识库，不改变模型本身；微调是改变模型参数。与PromptEngineering对比提示工程是通过设计输入提示词来引导模型，不需要训练；微调需要训练但效果更稳定。简单任务用提示工程即可，复杂或高频任务适合微调。
27110编辑于 2026-02-12
来自专栏AI SPPECH
LLM微调技术：从LoRA到QLoRA的演进
在早期，LLM微调主要采用全参数微调方式，需要微调整个模型的所有参数。实际意义/风险/未来趋势 5.1 实际意义降低微调门槛：参数高效微调技术降低了LLM微调的计算和存储门槛，使更多的开发者和机构能够参与LLM的微调。促进生态发展：参数高效微调技术的发展促进了LLM生态的发展，推动了更多LLM应用的出现和普及。支持边缘部署：参数高效微调技术支持在边缘设备上进行微调，拓展了LLM的应用场景。这些技术的发展降低了LLM微调的门槛，提高了迭代效率，促进了LLM生态的发展。同时，我们也需要关注微调技术面临的挑战，如性能损失、技术复杂度、兼容性问题等。未来，随着更高效的微调技术、自动化微调流程、多模态微调支持、联邦微调技术和动态微调技术的出现，LLM微调技术将进一步发展，推动LLM技术在更多领域的广泛应用。
74420编辑于 2026-01-01
来自专栏深度学习思考者
大模型实战：使用 LoRA（低阶适应）微调 LLM
大模型实战：使用 LoRA（低阶适应）微调 LLM [1] 详细内容请参阅 MarkAI Blog [2] 更多资料及工程项目请关注 MarkAI Github [3] 通关感知算法面试请Star 2024年千道算法面试题综述为什么需要LLM LLM 是一种基础模型，与传统模型不同，在早期模型中基础模型是在大量数据上进行预训练的，然后我们可以直接将它们用于某些任务用例，也可以对其进行微调以适应某些用例大型语言模型 (LLM) 在客户服务、营销、法律、金融、医疗保健、教育等领域有着广泛的应用，而微调使我们能够使模型适应目标领域和目标任务，这就是 LLM 的微调之处。一般来说，像卷积神经网络用于图像分类的神经网络并不完全微调，这样做很昂贵，可能导致灾难性遗忘。我们只微调最后一层或最后几层。对于LLM，我们使用一种类似的方法，称为参数高效微调（PEFT）。 LoRA 是用于训练定制 LLM 的最广泛使用、参数高效的微调技术之一。 LoRA 可以将可训练参数数量减少 10,000 倍，GPU 内存需求减少 3 倍。
9K23编辑于 2023-12-19
Agentic上下文工程真能杀死LLM微调？
可这就是当前AI训练的常态——每遇到新任务就得或多或少的"回炉重造"——微调（Fine-Tuning）。尽管ACE展现出巨大潜力，但断言"微调已死"显然过于激进。就像电动汽车不会立即淘汰燃油车一样，ACE和传统微调各有其适用场景。对于需要深度领域适配、数据量充足且对模型性能要求极高的场景，传统微调仍有其不可替代的价值。 ACE的真正突破在于开创了AI训练的新范式——它让"持续学习"从概念变成了现实。传统微调好比一次性投资，投入大、周期长、风险高；ACE则像是建立了一个"经验银行"，可以持续存入新的智慧，随时提取使用。这种范式转变对于需要快速响应市场变化的企业而言，其价值远超技术本身。未来，ACE能否杀死微调并不重要，重要的是它一可能会促使更多领域开花结果。
13210编辑于 2026-02-02
来自专栏深度学习自然语言处理
斯坦福NLP提出EFT：如何不实际微调而“假装”微调了LLM?
研究者们还提出了一个特殊的EFT应用，该方法旨在避免对大规模LMs进行微调，而是通过与小型微调模型的结合，来模拟大型模型的微调效果。那么，EFT是如何实现这些效果的呢？ LM放大是更实用的技术，可以用于提高小型、微调的语言模型的性能，这是由于以下原因：关于微调： down-scaling需要访问更大规模的实际微调模型，以模拟在较小规模上的微调结果。结果是基于小型和大型微调模型单独的性能进行归一化的；0对应于小型微调模型的性能，而1对应于大型微调模型的性能。然而，现有的微调程序在微调时就已经确定了有助性与有害性之间特定的权衡，这种权衡在采样时不能轻易修改。相比之下，使用模拟微调，测试时对奖励的调制是直接的。推测解码使用小代理模型为LLM加速自回归生成，该模型可以自回归地提出一个令牌块，大模型然后可以并行检查。
74120编辑于 2023-10-24
来自专栏DeepHub IMBA
Google开源Tunix：JAX生态的LLM微调方案来了
JAX生态这两年在LLM训练这块追赶得挺快。PyTorch虽然还是主流但JAX在并行计算、TPU加速和API组合性上确实有些独特的优势。 Google今天放出了Tunix这个库，专门做LLM的后训练——微调、强化学习、知识蒸馏这些都能搞。 Tunix是什么这是个构建在JAX之上的后训练库，和Flax NNX集成得比较紧密。核心功能监督微调：既支持全参数微调，也支持LoRA和Q-LoRA这类参数高效的方法。内存和算力受限的时候，PEFT方案还是挺实用的。 [dev]" TPU上用QLoRA微调Gemma 拿个英译法的任务来演示。用的是Google的Gemma 2B模型，跑在TPU v5e-8上。 TPU优先的设计、模块化的API、LoRA/QLoRA支持、完整的分布式训练策略，这些对做LLM适配研究的人来说都挺有用。后续应该会继续扩展支持的模型类型和训练算法，值得关注。
21510编辑于 2025-11-15
来自专栏自然语言处理
【LLM训练系列04】手把手教你Qlora微调
make_supervised_data_module：加载和处理训练数据及验证数据，为有监督微调做好准备。 QLoRA 是什么 QLoRA 是一种高效的模型微调方法，特别适合在资源有限的情况下对大型语言模型（LLM）进行微调。低秩适应（LoRA）： LoRA 是一种微调技术，它通过在模型的某些层中引入低秩矩阵来调整模型的行为。通过这一步，模型会引入一些额外的低秩矩阵，这些矩阵会在微调过程中被训练，而原始模型的参数保持不变。参考资料 QwenLM/Qwen Qwen7b微调保姆级教程
57610编辑于 2024-12-21
来自专栏NewBeeNLP
如何高效微调你的 LLM
此外，为每个下游任务单独存储和部署微调模型变得非常昂贵，因为微调模型与原始预训练模型的大小相同。 GPT Understands, Too[5] Prompt Tuning: The Power of Scale for Parameter-Efficient Prompt Tuning[6] LLM-Adapters [7] 是对 PEFT 库的扩展，是一个简单易用的框架，将各种适配器集成到 LLM 中，可针对不同的任务执行 LLM 的基于适配器的 PEFT 方法，除了 PEFT 支持的 LoRA、Prefix Tuning 尤其是 GPT-3 175B 这类大模型，全量微调对计算和存储资源的消耗是非常大的，存储和部署不同微调模型实例也是不可能的。 6] The Power of Scale for Parameter-Efficient Prompt Tuning: https://arxiv.org/abs/2104.08691 [7] LLM-Adapters
2.9K52编辑于 2023-08-29
来自专栏DeepHub IMBA
如何准确的估计llm推理和微调的内存消耗
在本文中，我将介绍如何计算这些模型用于推理和微调的最小内存。这种方法适用于任何的llm，并且精确的计算内存总消耗。微调所需的内存对于微调llm，估计内存消耗稍微复杂一些。除了存储模型权重和激活之外，对于所有层，我们还需要存储优化器状态。优化器状态的内存消耗 AdamW优化器是最流行的微调llm，它为模型的每个参数创建并存储2个新参数。如果我们有一个100B的模型，优化器将创建200B的新参数! 并且这还不足以对模型进行微调。我们还需要内存来存储激活。计算梯度所需的内存与推理相比，我们只需要在传递给下一层之前存储单个层的激活，微调需要存储前向传播过程中创建的所有激活。它减少了内存消耗但也减慢了微调速度。最后，还有一些框架，如Unsloth，在使用LoRA和QLoRA进行微调方面进行了极大的优化。
1.4K10编辑于 2024-04-30
来自专栏DeepHub IMBA
使用SPIN技术对LLM进行自我博弈微调训练
2024年是大型语言模型(llm)的快速发展的一年，对于大语言模型的训练一个重要的方法是对齐方法，它包括使用人类样本的监督微调(SFT)和依赖人类偏好的人类反馈强化学习(RLHF)。这些方法在llm中发挥了至关重要的作用，但是对齐方法对人工注释数据有的大量需求。这一挑战使得微调成为一个充满活力的研究领域，研究人员积极致力于开发能够有效利用人类数据的方法。但是这里就要求我们必须要有一个训练好的模型作为对手模型，所以SPIN算法只适合在训练结果上进行微调。 SPIN算法 SPIN从预训练的模型生成合成数据。然后使用这些合成数据对新任务上的模型进行微调。采用Alignment Handbook库作为微调方法的代码库，结合DeepSpeed模块，降低了训练成本。他们用RMSProp优化器训练Zephyr-7B-SFT-Full，所有迭代都没有权重衰减，就像通常用于微调llm一样。全局批大小设置为64，使用bfloat16精度。
95710编辑于 2024-01-18
来自专栏自然语言处理(NLP)论文速递
深入了解大语言模型（LLM）微调方法（总结）
相关论文集获取，回复：LLM微调 LLM项目生命周期在介绍大模型微调方法之前，首先带大家了解一下大语言模型的项目生命周期，它大致可以分为以下几个步骤，如下图所示「1、项目目标」：首先，明确项目目标。 LLM微调 LLM微调是一个将预训练模型在较小、特定数据集上进一步训练的过程，目的是精炼模型的能力，提高其在特定任务或领域上的性能。什么时候需要LLM微调说起LLM，总会涉及到上下文学习、零样本、单样本和少样本推理等话题。我们先快速了解一下它们主要的功能。问题是它们并不总是有效，尤其是对于较小的LLM。除此之外，在提示中包含的任何示例都会占用宝贵的上下文窗口空间，减少了包含其他有用信息的空间。「当以上方式无法解决相关问题时，这就需要LLM微调」。微调方法 LLM微调是一个有监督学习过程，主要使用标注数据集来更新LLM的权重，并使模型提高其特定任务的能力。接下来将为大家介绍一些值得注意的微调方法。
10.5K21编辑于 2024-02-23
来自专栏【腾讯云开发者】
从DeepSeek到Manus：如何实现本地LLM微调+联网开发？
增加微调原理简介：在预训练的模型基础上，用特定领域数据进一步训练以适配具体任务，例如：用法律文书数据微调模型以提升法律咨询准确性。方法分类：全参数微调：调整所有参数，适用于数据充足的场景。轻量级微调：如LoRA(低秩适配)，仅更新部分参数，降低计算成本。这个实验场景中就是使用的LoRA进行微调。 02 本地大模型联网功能开发 2.1 整体架构 2.2 LLM 调用流程图： def call_llm(prompt: str, with_context: bool = True, context : str | None = None): 功能：调用本地运行的Ollama LLM模型生成回答。 /web-search-llm-db）。设置余弦相似度作为距离计算方式。返回可重用的集合对象。
1.4K10编辑于 2025-03-11

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

LLM模型微调关键技术分享

【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态

通过结合RAG和微调来改进LLM输出

【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响

一篇关于LLM指令微调的综述

5 分钟搞懂 LLM 微调：从原理到实战

LLM微调技术：从LoRA到QLoRA的演进

大模型实战：使用 LoRA（低阶适应）微调 LLM

Agentic上下文工程真能杀死LLM微调？

斯坦福NLP提出EFT：如何不实际微调而“假装”微调了LLM?

Google开源Tunix：JAX生态的LLM微调方案来了

【LLM训练系列04】手把手教你Qlora微调

如何高效微调你的 LLM

如何准确的估计llm推理和微调的内存消耗

使用SPIN技术对LLM进行自我博弈微调训练

深入了解大语言模型（LLM）微调方法（总结）

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

LLM-TAP随笔——有监督微调【深度学习】【PyTorch】【LLM】

LLM模型微调关键技术分享

【LLM 论文阅读】NEFTU N E: LLM微调的免费午餐

LLM前言：推理加速、模型微调对齐、开源LLM、Agent、多模态

通过结合RAG和微调来改进LLM输出

【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

每日论文速递 | 当缩放遇到LLM微调:数据、模型和微调方法的影响

一篇关于LLM指令微调的综述

5 分钟搞懂 LLM 微调：从原理到实战

LLM微调技术：从LoRA到QLoRA的演进

大模型实战：使用 LoRA（低阶适应）微调 LLM

Agentic上下文工程真能杀死LLM微调？

斯坦福NLP提出EFT：如何不实际微调而“假装”微调了LLM?

Google开源Tunix：JAX生态的LLM微调方案来了

【LLM训练系列04】手把手教你Qlora微调

如何高效微调你的 LLM

如何准确的估计llm推理和微调的内存消耗

使用SPIN技术对LLM进行自我博弈微调训练

深入了解 大语言模型（LLM）微调方法（总结）

从DeepSeek到Manus：如何实现本地LLM微调+联网开发？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

深入了解大语言模型（LLM）微调方法（总结）