前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >LLM 系列(二):基础概念篇

LLM 系列(二):基础概念篇

作者头像
磊叔的技术博客
发布于 2025-06-11 05:40:13
发布于 2025-06-11 05:40:13
1.1K0
举报

写在前面: 大语言模型 (LLMs) 正以前所未有的方式重塑我们的世界。无论您是技术爱好者、产品经理,还是希望把握时代脉搏的探索者,理解其背后的核心原理都至关重要。这份摘要旨在为您提供一张清晰、易懂的 LLM 知识地图。

第一篇文章主要介绍了大模型的发展历程模型发展历程:技术演进与趋势洞察;这是大模型系列的第二篇文章,主要介绍一些和大模型相关的概念。

🏛️ 一、核心数学与算法

揭示了驱动所有神经网络(包括 LLM)学习的底层循环逻辑。

神经网络的学习循环

想象一个学生在不断学习:做题 → 对答案 → 总结错误 → 改进方法。神经网络的学习与此类似。

核心循环: 预测 → 评估 → 修正

  1. 1. 🎯 预测 (Prediction):模型根据现有知识(模型参数)对问题进行猜测。例如,预测下一个词是什么。这本质上是一个 分类 (Classification) 任务。这个过程叫作 前向传播 (Forward Propagation)
  2. 2. 📝 评估 (Evaluation): 使用 损失函数 (Loss Function) 这把“尺子”来衡量模型的预测结果与正确答案之间的差距(即“损失”或“误差”)。
  3. 3. 🧠 修正 (Correction):通过 反向传播 (Backpropagation)模型计算出每个参数对造成误差的“责任”有多大,这个“责任”就是 梯度 (Gradient)
Backpropagation
Backpropagation

Backpropagation

  • • 随后,模型使用 梯度下降 (Gradient Descent) 算法,朝着减小误差的方向,聪明地微调自己的参数。

Gradient
Gradient

Gradient

关键组件

  • • 激活函数 (Activation Function):为神经网络注入“灵魂”——非线性,让它能学习超越简单线性关系的复杂模式。
  • • 损失函数 (Loss Function):为模型的优化提供一个清晰的“靶心”,告诉它努力的方向。

🧩 二、深度学习与 LLM 特有机制

将视野从通用神经网络拓宽到 LLM 所特有的概念和工作方式。

学习范式

层级关系: AI > 机器学习 (ML) > 深度学习 (DL)

layer
layer

layer

  • • 迁移学习 (Transfer Learning):LLM 成功的“秘密武器”。先在海量通用知识(如整个互联网的文本)上进行 预训练 (Pre-training),成为一个“通才”,然后再针对特定任务进行 微调 (Fine-tuning),成为“专才”。
  • • 强化学习 (Reinforcement Learning, RL):通过“奖惩”机制进行学习。在 LLM 中,大名鼎鼎的 RLHF 就是让模型通过人类的反馈(喜欢/不喜欢)来学习如何说出更符合人类偏好的话。

核心术语

  • • 参数 vs. 超参数参数 (Parameters) 是模型学习到的知识(如权重);超参数 (Hyperparameters) 是我们为学习过程设定的规则(如学习率)。
  • • 训练节奏:
    • • Epoch:把整个题库刷一遍。
    • • Batch:一次做一小批题。
    • • Step/Iteration:做完一小批题,并订正一次。
  • • 文本处理流程:
    • • Tokenizer (分词器):将一句话切分成模型能理解的基本单位 Token (词元)
    • • Embedding (嵌入):将每个离散的 Token 转换成一个充满语义信息的“数字坐标”(向量),让模型理解词与词之间的关系。
Embedding
Embedding

Embedding

  • • 上下文学习 (In-Context Learning):LLM 惊人的“举一反三”能力。
    • • Zero-shot:不给例子,直接做题。
    • • One-shot:给一个例子,照着学。
    • • Few-shot:给几个例子,总结规律。

🛠️ 三、大模型训练与推理优化

聚焦于如何让一个“通才”模型变得更专业、更高效。

微调 (Fine-tuning) 的艺术

核心目标: 用更少的资源,让模型更好地适应特定任务。

  • • 监督微调 (SFT):最直接的方式,用“指令-回答”格式的数据集,手把手教模型如何遵循指令。
  • • RLHF:如前所述,通过训练一个“品味”模型(奖励模型)来学习人类的喜好,再用它来指导 LLM 的优化。
  • • 参数高效微调 (PEFT):为了省钱省力,只微调模型的一小部分参数。
    • • LoRA / Q-LoRA:给模型装上可插拔的“微调插件”,只训练插件。Q-LoRA 更进一步,先把模型压缩一下再装插件,极大地降低了硬件门槛。
    • • Prompt/Prefix-tuning:不改动模型本身,而是学习一段添加到输入中的、可训练的“魔法咒语”,引导模型产生期望的输出。

核心引擎:Attention 机制

一言以蔽之: 模型在处理一句话时,能动态地抓住每个词的重点。

自注意力机制 (Self-Attention) 是 Transformer 架构的心脏。它通过复杂的 查询 (Q)键 (K)值 (V) 交互,计算出句子中任意两个词之间的关联度,从而理解长距离的依赖关系和复杂的语法结构。

Self-Attention
Self-Attention

Self-Attention

推理优化 (Inference Optimization)

  • • 预填充 (Prefill):快速“阅读”并理解你的输入提示,这个阶段计算量大。
  • • 解码 (Decode):逐字逐句地生成回答,这个阶段更考验内存的读写速度。
  • • KV 缓存 (KV Cache):一个聪明的“备忘录”,记住已经计算过的内容,避免重复劳动,是模型能够流畅回答的关键。

🚀 四、模型压缩与部署

探讨如何让庞大的模型“瘦身成功”,并真正走进我们的手机和电脑。

模型压缩技术

  • • 模型量化 (Quantization):降低参数的精度,好比把一本精装书变成平装本,内容没大变,但体积和重量都减小了。
  • • 模型蒸馏 (Distillation):让一个强大的“教师模型”把知识精华传授给一个轻巧的“学生模型”。
Distillation
Distillation

Distillation

  • • 模型剪枝 (Pruning):像修剪花草一样,剪掉模型中不重要、冗余的“枝叶”(参数)。
  • • 模型二值化 (Binarization):极致压缩,把参数简化到只有+1和-1,大幅提升计算速度。

部署策略

  • • 端侧部署 (Edge Deployment):让模型直接在你的手机或电脑上运行。优点是响应快、保护隐私。挑战是设备性能有限。
  • • 云-边-端协同 (Cloud-Edge-Device):一种混合策略。重活累活(如训练)在云端干,需要快速响应的轻活在靠近用户的“边缘”或设备端完成,实现性能与效率的最佳平衡。

总结

LLM 的未来将走向效率与能力的平衡、普及多模态能力、增强智能体 (Agent) 功能,并持续关注安全与对齐。对我们学习者而言,最好的策略就是:夯实基础、动手实践、保持好奇,并以负责任的态度,迎接这个由 AI 驱动的全新时代。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磊叔的技术博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
SSH 远程连接中断 导致阿里云服务器程序运行终止解决方法
关于其他操作参见:https://blog.csdn.net/ancient_wind/article/details/7989015
圆号本昊
2021/09/24
3.1K0
SSH 远程连接中断 导致阿里云服务器程序运行终止解决方法
高效简单的服务器登录配置
当你拥有了属于自己的一个云服务器后,首先需要做的事情就是登录服务器。而登录服务器,作为新手可以通过云厂商提供的 dashboard 进行登录操作。但是,最简单及最方便的方式还是通过终端,使用 ssh 命令快速登录
山月
2020/05/25
1.5K0
Fix SSH客户端登录会话超时设置
通常默认公有云上的ECS远程连接,很容易断开,当你有什么事情被打断或者去操作别的机器同步做点其他事情,你会发现你SSH客户端登录窗口经常会断开掉,非常烦人,经常要重新登录。
后场技术
2020/09/03
5.8K0
Fix SSH客户端登录会话超时设置
防止ssh登录服务器的掉线
因为云服务器是我自己的,而要给十几个新手使用,所以我应该使用root权限来选择修改sshd_config文件里面的服务端参数,这样才能做到一次修改,终身受益!!!
生信技能树
2018/12/05
2.4K0
配置SSH服务远程连接空闲超时退出时间(包括SSH无法登录、登录缓慢)
编辑/etc/ssh/sshd_config配置文件,将ClientAliveInterval设置为300到900,即5-15分钟,将ClientAliveCountMax设置为0。
非著名运维
2022/06/22
9.2K0
linux ssh 登录后 空闲断开 解决方法
我们通过终端连接服务器时,当鼠标和键盘长时间不操作,服务器就会自动断开连接,我们还的需要重新连接,感觉很麻烦,总结一下解决此问题的方法
IT工作者
2022/07/28
3.1K0
配置服务器的免密码快捷登录
ssh,secure shell protocol,以更加安全的方式连接远程服务器。
山月
2022/11/02
3.5K0
配置服务器的免密码快捷登录
如何让计算机工作环境更便捷?几行简单的命令即可
过去几年里,我一直从事数据科学/研究项目,本科就做了一些与这个行业相关的工作,现在是研究生在读,也在做这方面的研究。作为一个喜欢便捷环境的人,我总是喜欢改进我的工作方式,将日常的枯燥过程变得「自动化」。在这篇文章中,我将描述如何使环境更便于使用。
机器之心
2019/05/07
6880
如何让计算机工作环境更便捷?几行简单的命令即可
保持SSH连接持续不断的配置方法
在修改服务器的一些文件的过程中,经常碰到的情况就是需要隔一段时间修改一下文件,然后需要去查阅相关的资料,等下一次想修改的时候发现ssh连接由于长时间未相应已经断开了。而且这时候终端会卡在那里,十分的不方便。所以在网上找了几个配置SSH的方法,能保证连接能够长时间不断开。 方法有两种,一般配置一种就可以。但是我为了效果更好,把他们同时配置一下:
mythsman
2022/11/14
2.1K0
mac终端如何自定义登录欢迎语
shigen看着单调的终端,突然有了一丝丝的念头,我要搞的炫酷一点。让我想到的一个场景就是:我之前在使用公司的阿里云服务器的时候,在每次登录的时候会有欢迎语,类似于这样的:
shigen
2023/12/26
3020
mac终端如何自定义登录欢迎语
Linux系统相关配置
Linux系统安装好以后,我们需要对这个系统进行简单的配置,其中主要包括以下几部分的内容:
以某
2023/03/07
2.4K0
如何用macOS玩转Linux? macOS配置Paralles 安装的 ubuntu20.04 arm64 并通过iTerm ssh自动操作虚拟机
作为一个开发者,如果想要搞一些自己的项目,就要对Linux有一些了解,而学习Linux的最好方式,就是充分使用它,Windows通过WSL,已经完美支持Linux子系统,那macOS如何玩转Linux?
zhaoolee
2022/10/04
2.9K0
如何用macOS玩转Linux? macOS配置Paralles 安装的 ubuntu20.04 arm64 并通过iTerm ssh自动操作虚拟机
mac系统ssh远程登录服务器小清新方案
Windows下有xshell,puty等一系列ssh软件,免费又好用,mac则没有。mac下虽然有SecureCrt,ZOC Terminal,但都还是收费的,虽说有破解版,但是版本落后不说,破解起来也麻烦。 经过本人一系列的研究,最终整出一套比较好用的方案,利用Shuttle+iTerm+ SSHPass来实现,这套方案清爽、轻便且实用。
皇上得了花柳病
2020/05/06
1.2K0
mac系统ssh远程登录服务器小清新方案
Linux | 如何保持 SSH 会话处于活动状态
在远程服务器管理和安全数据传输中,SSH(Secure Shell)是不可或缺的工具。然而,它的便利性和安全性有时会因常见的问题而受到损害:冻结 SSH 会话。
数据科学工厂
2023/11/02
2.2K0
Linux | 如何保持 SSH 会话处于活动状态
linux自定义SSH连接以简化远程访问
SSH (SSH client) 是一个远程访问服务器的程序,它使用户能够在远程主机上执行命令。它是最推荐的远程登录主机的方法之一,因为它旨在通过不安全的网络在两个不受信任的主机之间提供安全的加密通信。 SSH使用系统范围和用户特定(自定义)配置文件。在本教程中,我们将解释如何创建自定义ssh配置文件并使用某些选项连接到远程主机。 SSH 客户端配置文件 ssh客户端配置文件的位置: /etc/ssh/ssh_config这是默认的、系统范围的配置文件。它包含适用于ssh客户端计算机的所有用户的设置。 ~/
入门笔记
2022/06/02
1.7K0
如何保持SSH连接的linux服务器不断线
使用SecureCRT连接远程服务器,在会话选项 -> 终端设置中勾选“发送协议 NO-OP”。
明哥的运维笔记
2019/01/30
3.9K0
如何保持SSH连接的linux服务器不断线
解决SSH连接Linux超时
在开发当中经常需要登录远程服务器,于是通过 ssh 或者 putty 登录,可是一转身,这厮就自动断开了。让人非常恼火,如何解决 SSH 连接 Linux 超时自动断开?
chuchur
2022/10/25
10K0
SSH——云服务器SSH经常断开如何处理
基于安全考虑,云服务器的 ~c SSH Server c~ 闲置一段时间会自动断开,不过这个闲置的一段时间说实话太短了,很容易断开,所以改造下吧; 客户端: SCRT
思索
2024/08/15
4620
Mac电脑iTerm2链接Linux服务器断线解决方案
用Windows链接Linux服务器,方式很多,我最经常用的是xshell。但是xshell没有mac版,那用mac电脑,比较好的命令行软件是什么呢?我用的是iTerm2 ,这个功能确实蛮强大,很多人都在用。但是,你用iTerm2 链接远程Linux服务器,假如你去干别的,一会再回到iTerm2 ,你会发现iTerm2 断线了,苦逼的还要再次进行链接,好麻烦!针对这个有没有什么好的解决方案呢?
星哥玩云
2022/07/24
2.5K0
解决macOS下ssh空闲一段时间自动断开的问题
使用ssh登录linux服务器后,在后台放置一段时间,会发现会自动断开或者卡死无法输入
Huramkin
2018/09/17
4K0
推荐阅读
相关推荐
SSH 远程连接中断 导致阿里云服务器程序运行终止解决方法
更多 >
LV.2
Java开发工程师
目录
  • 第一篇文章主要介绍了大模型的发展历程大模型发展历程:技术演进与趋势洞察;这是大模型系列的第二篇文章,主要介绍一些和大模型相关的概念。
  • 🏛️ 一、核心数学与算法
    • 神经网络的学习循环
    • 关键组件
  • 🧩 二、深度学习与 LLM 特有机制
    • 学习范式
    • 核心术语
  • 🛠️ 三、大模型训练与推理优化
    • 微调 (Fine-tuning) 的艺术
    • 核心引擎:Attention 机制
    • 推理优化 (Inference Optimization)
  • 🚀 四、模型压缩与部署
    • 模型压缩技术
    • 部署策略
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档