暂无搜索历史
在我们进行模型训练的过程中,可能会遇到这么一种情况:从头训练一切正常,但一旦中途断点续训,loss 开始抖、准确率掉、甚至直接发散。数据与代码未改,唯一不同是“...
场景:多标签二分类(医学/安全/广告审核都常见),正样本极少。训练后验证集 AUC 看着还行,但 F1/Recall 极低,模型几乎“全猜 0”。我一度以为是特...
在我们在训练一个 Transformer 小模型(中文分类 + 预训练继续训练都试过)。loss 能降一点但很快平台化,验证集准确率一直在 70% 左右“挪不动...
CrossEntropyLoss 的核心是沿着类别维度 对 logits 做 gather:因此需要目标是整型类别索引(Long)同时,每个索引都必须落在 0,...
场景:训练中文小 GPT(Causal LM)。表面现象是:loss 不怎么降、ppl 比基线还高,但 demo 里单句续写“似乎还行
当我们在 4 卡 DDP 上训练一个图像分类模型,每张卡的显存几乎快溢出了,训练 loss 似乎在降,但 val acc 抖动剧烈、收敛很慢;切回单卡或把 ba...
当我们做中文小型 GPT时,明明 Batch/学习率都合理,但就是有些时候loss 长期不降或震荡,ppl 比基线还差。单句推理“看起来能写”,但是在验证集的效...
在深度学习的二分类/多标签项目,超参数的选择至关重要。通常来讲,越大的batch模型在训练的过程中可以看见更多的样本数据,从而达到越稳定的训练效果。但是,本人在...
在我们进行深度学习网络训练的过程中,经常会遇到损失不降、训练完全不收敛的情况,并且在训练期间, acc 接近随机、学习率/优化器怎么调都无效。为了更系统的剖析其...
场景:在多卡 DDP、开启 AMP(混合精度)模式下,同时采用了梯度累积(gradient accumulation) 做大 batch。单卡/小 batch ...
1️⃣ drop_last=False 且 len(dataset) 不是 world_size 的整数倍 → 各 rank 尾批 B 不同。
但在没有大模型以前,我们的代码是怎么Debug以及修复bug的呢?或者说遇到程序报错时,我们第一时间想到的是什么呢?那就是红极一时的CSDN社区,在这上面有着大...
以上就是这次“显存越跑越涨直到 OOM”的完整排查与修复。把这篇作为“AI 协作 debug 日志”投稿,既能展示真实问题和可复用修复策略,也能量化 AI 带来...
🔥 MCP 的爆火让很多人不知所措,很多人还没搞清楚它和 Function Calling 的边界、价值与落地路径,为什么用,如何用,怎么用好。这篇文章带你从概...
在我们进行多卡训练的时候,偶尔会出现随机在某些 epoch 尾部卡住,无异常栈;nvidia-smi 显示两卡功耗接近空闲。偶尔能看到 NCCL 打印(并不总出...
在这个训练过程中,也尝试了许多其他的方法,但是依然旧不回来,例如一些超参数的调整,正则化的加入等等,都于事无补。但是在采用 torchvision.models...
在本人进行python训练的适合,训练经常随机卡住(常见在第 1~3 个 epoch 或第 N 个 epoch 的第一批),无异常栈,GPU 利用率降为 0%,...
🏁 到了旅游季,大家是否还是到了景点是否有着这些困惑:不了解景点背后的故事,只是从表面去了解各个景点,听着导游千篇一律的解说;是否在旅游期间有多个想去的目的地,...
😈 在如今这个数字化办公日益深入的时代,网络安全的攻防战早已从“偶发事件”变成了“日常挑战”。尤其对于一些初创团队和中小型企业来说,在安全团队缺乏以及黑客众多的...
① 有多种情况满足条件,找到满足条件的最右索引,例如找到值为4的最右索引(也可以换为小于5最后一个元素)
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市