最近社区里有人发了一张模型天梯图,引发了大量讨论。抛开那些精心调教过的benchmark数据,从实际使用体感出发,开源模型到底处于什么水平?
先说结论:开源权重模型目前大致处于2025年初的前沿水平。这个判断听起来像是在贬低,但换个角度想,我们正在讨论开源模型能否比肩几个月前的顶尖闭源模型,这本身就是巨大的进步。
关于各家模型的定位,作者给出了一个颇具争议的分层。Claude 4.5 Opus独占神坛,被戏称为“我的工作变成了Ralph Wiggum”,意思是用它写代码时,人类程序员的处境就像那个经典表情包里说着“我有危险”的小男孩。GPT-5.2和Gemini 3 Pro紧随其后构成第一梯队。DeepSeek、Kimi K2.5、GLM则被归入“2025年初前沿体感”这一档。
这个排名引发了激烈争论。有人认为Kimi K2.5被严重低估,实测中它在视觉推理上已经逼近Gemini 3 Flash,在代理式编程场景下甚至能和Sonnet掰手腕。也有人指出GLM-4.7在编程任务上已经超越了Sonnet 3.7,几乎所有做过对比的人都认同这一点。
讨论中最有价值的洞见来自对Claude优势的分析。有人一针见血地指出:Claude的核心能力根本不是“指令遵循”,恰恰相反,它经常不按指令办事,总想多做点什么。它真正的优势是“元问题理解”,能够推断出用户没说清楚的意图和缺失的上下文。这种能力很难用benchmark衡量,却在实际工作中产生巨大差异。
另一个值得深思的观点是关于Anthropic的训练策略。有开发者推测,Claude之所以出色,是因为Anthropic很早就意识到“随机互联网数据会污染模型”。他们最近发表的研究也证实了这一点:少量低质量样本就能破坏整个训练过程。高质量数据的价值远超数量堆砌。当你用恶意代码做强化学习时,模型会开始说出纳粹言论;反过来,用道德标准训练的模型,代码质量也会更高。
Meta的陨落是另一个热议话题。曾经开源运动的旗手,如今被评价为“和GPT-4较量了一阵然后就死了”。有人分析,Meta和OpenAI都在AGI的“下一步是什么”问题上分心了,忽视了在现有架构上持续迭代的价值。Llama 4的MoE架构像是上一代的Mixtral,既没有推理能力,也没有针对代理行为做后训练。当前沿已经转向时,他们还在原地踏步。
关于模型选择,一个务实的建议是:智能程度的差距正在变得不那么重要,能否完成任务、以什么成本完成才是关键。工具链的进步让中等模型也能胜任大量工作。未来很可能是多模型协作的世界:用Opus做规划,用Kimi处理多模态任务,用Gemini Flash的百万上下文窗口消化大量数据。
最后一个有趣的细节:有团队做了实验,给初级工程师配顶级AI,结果他们完全丧失了调试能力,遇到简单的API报错都束手无策。编程肌肉会萎缩。这或许是对“AI替代程序员”论调最好的注脚:工具越强大,使用者越需要保持基本功。
reddit.com/r/LocalLLaMA/comments/1qrsy4q/how_close_are_openweight_models_to_sota_my_honest