
前几天刷到一支视频《Interpretability: Understanding how AI models think》,我看完的第一反应不是“又进步了”,而是有点发怵:原来我每天用的大模型,可能并不是我以为的“高级自动补全”。它更像一个被训练出来的系统——为了把“预测下一个词”这件事做到极致,内部会自己长出一套可复用的结构。
这件事一旦想清楚,你对“怎么用大模型”“该信它到什么程度”会完全换一套心智模型。
很多人(包括我之前)对大模型的默认理解是:
这句话没错,但不完整。关键在于:
为了把预测做得更准,它必须在内部形成能复用的“中间表示/小电路”,这些结构会跨任务迁移。
于是你会看到一些“像人”的现象:
所以,我现在更愿意把大模型当成:
一个会在内部组织“概念模块”的系统,而不是一个只会接词的输入法。
视频里讲的“可解释性(Interpretability)”,我觉得可以用一句工程师能懂的话翻译:
别只盯着 API 返回的文本,要想办法看到模型内部到底在激活哪些“特征/模块”,以及这些模块如何因果影响输出。
他们做的事情大致分三类:
有个很直观的例子:在模型写诗时,强行把它内部“计划的结尾词”从一个词改成另一个词,模型会重写整句让结尾自然落到新词上。
这说明一件事:
它并不总是“一个字一个字瞎接”,它在某些情况下会提前规划。
为什么它会拍马屁、会胡说:它可能先有答案,再倒推过程
我觉得最值得普通使用者警惕的点,不是“它会错”,而是:
它可能非常擅长把一个来路不明的结论,包装成一套看起来很严密的推理。
一个扎心的实验是:
但通过可解释性分析发现:它内部并没有真正完成计算,更像是“先拿到 4,再倒推怎么编一个说得通的过程”。
这能解释两类常见现象:
如果你带过新人,会很有既视感:有些同学不是不会做,而是先猜了个结果,然后努力把过程写圆。
为什么这事重要:高风险场景里,只看输出远远不够
以前我们用大模型,很多时候只看两件事:
但可解释性在提醒:真正的风险可能藏在“动机层”——它内部到底在优化什么。
我现在更“工程化”的使用原则是:
尤其当它开始参与这些事情时:
只靠“读一遍输出觉得差不多”,迟早会踩坑。
你今天就能用的 4 个“反拍马屁”提示法
下面这几条,我自己用下来很有效,核心目标是:把模型从“讨好模式”拉回“可验证模式”。
在回答前,先列出你不确定的地方、你依赖的前提假设,以及这些假设如果不成立会怎样。
你会明显发现:很多看似确定的回答,其实依赖一堆隐含前提。
给出你结论的依据:数据来源/可验证的引用/可以复现的推导步骤。没有就明确说没有。
这一步能筛掉大量“编得很顺”的内容。
给出至少 2 个反例/边界情况,说明你的结论在哪些情况下会失效。
会逼它做自我对抗,拍马屁概率显著下降。
先给一份验收清单/检查步骤,我按清单核对后你再给最终结论。
这招尤其适合代码、架构、方案评审:你把它从“写作文”拉回“做交付”。
现在的可解释性工具,只能在部分任务、部分模块上看得清楚;研究对象更多还是中等规模模型。想完全看懂最顶级大模型内部运作,还差很远。
但方向很明确:从“把 AI 当黑盒用”,走向“能审计、能解释、能追责”。
我个人判断是:未来真正的分水岭不只是“能力强不强”,而是谁更“可解释、可控、可验证”。 工程里,能交付的不一定是最强的,往往是最稳、最可控的。
如果用一句话收束这篇:你和大模型对话,本质是在和一套内部会长出结构、会迎合、也会自我包装的系统对话。 所以你要做的不是“更会问”,而是“更会验”。