暂无搜索历史
✍ 前面几章我们已经把“大模型架构四件套”(GQA / RoPE / SwiGLU / RMSNorm)和 DeepSeek 系列摸了个大概,知道了一个 LLM...
✍ 在上一章里,我们已经把现代 LLM 的“四件标配武器”(GQA / RoPE / SwiGLU / RMSNorm + Pre-Norm)系统的学习一遍。现...
✍ 上一篇我们把现代大模型的两件“基础设施”——GQA 注意力 和 RMSNorm + Pre-Norm 细讲了一遍,从多头注意力的演化一路讲到归一化的升级。这...
✍ 在大模型论文学习中,相信很多读者和笔者一样,一开始都会有一种感觉:“现在大模型架构都差不多,主要是数据和算力在堆积。”当笔者慢慢总结LLaMA、Qwen、D...
在专题《ReAct》我们提到过,原生的ReAct目光比较短浅,做出的决策是 “想一点 → 做一步”,而在我们的科研、工作中,往往还需要应对长远规划、多阶段子任务...
我们现在在大模型交互的过程中,往往会给我们一种感觉,LLM本身就已经有了记忆模块,例如我们常用的Deepseek, GPT, Gemini。
在推理过程中,显式地交替输出“思考内容(Thought)”和“行动指令(Action)”,再利用环境反馈(Observation)更新后续推理。
✍ 本专题假设读者已经具备一定的深度学习与 Transformer 基础,目标是帮助读者系统地复习 BERT 模型的核心设计思想与常见面试问法。本专题来源于本人...
✍ 本专题假设读者已有相关基础知识储备,目标是帮助读者以更高效的方式快速回顾每个关键知识点。本专题汇集了个人在准备多模态、大模型、强化学习等前沿岗位面试过程中总...
大模型面经专栏
在系统的学习agentic RL之前,我们需要去了解两个问题:① 什么是agent ② LLM agent 与 agentic RL之间有什么联系
在普通的分类模型中,最初几步 loss 正常下降,随后出现两种诡异现象之一:要么 loss/gnorm 突然飙升并发散,要么显存一轮比一轮高直到 OOM。复盘后...
场景:训练分类模型时,训练集 loss 在降,但验证集准确率时好时坏;同一模型在两次评估间波动 5~15 个百分点。排查后发现评估阶段没有正确切换到 eval ...
在我们做多类单选分类(B, C × B)的场景中,通常的做法是把模型输出先过一层 softmax,再送进 CrossEntropyLoss;或者在用了 labe...
在我们进行模型微调的时候,显存的限制促使我们要调小batch_size以及降低模型复杂度。还有一个办法就是用梯度累积把每步的 batch 拆成多个小 micro...
在我们进行模型训练的过程中,可能会遇到这么一种情况:从头训练一切正常,但一旦中途断点续训,loss 开始抖、准确率掉、甚至直接发散。数据与代码未改,唯一不同是“...
场景:多标签二分类(医学/安全/广告审核都常见),正样本极少。训练后验证集 AUC 看着还行,但 F1/Recall 极低,模型几乎“全猜 0”。我一度以为是特...
在我们在训练一个 Transformer 小模型(中文分类 + 预训练继续训练都试过)。loss 能降一点但很快平台化,验证集准确率一直在 70% 左右“挪不动...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市