当你在跟大模型聊天，其实是在跟什么对话？

DEEPSAPCE MATRIX

发布于 2026-02-27 10:44:53

580

文章被收录于专栏：HUMAN3.0HUMAN3.0

你以为在和 ChatGPT 聊天，其实是在和一套“会长结构的系统”对话

前几天刷到一支视频《Interpretability: Understanding how AI models think》，我看完的第一反应不是“又进步了”，而是有点发怵：原来我每天用的大模型，可能并不是我以为的“高级自动补全”。它更像一个被训练出来的系统——为了把“预测下一个词”这件事做到极致，内部会自己长出一套可复用的结构。

这件事一旦想清楚，你对“怎么用大模型”“该信它到什么程度”会完全换一套心智模型。

核心观点：大模型不是在背答案，而是在长出“解题结构”

很多人（包括我之前）对大模型的默认理解是：

输入一段话
模型按概率吐出下一个词
所以它本质是“文本预测器”

这句话没错，但不完整。关键在于：

为了把预测做得更准，它必须在内部形成能复用的“中间表示/小电路”，这些结构会跨任务迁移。

于是你会看到一些“像人”的现象：

你随口提到一个人名，它后面还能接着聊 —— 它在追踪实体与上下文关系
你说“我有点焦虑”，它立刻安慰 —— 它学会了某些稳定的情绪模式
它做数学题时能写步骤 —— 可能真在算，也可能在“演算”

所以，我现在更愿意把大模型当成：

一个会在内部组织“概念模块”的系统，而不是一个只会接词的输入法。

可解释性在做什么：给模型做“脑部 CT”，而不是只看输出

视频里讲的“可解释性（Interpretability）”，我觉得可以用一句工程师能懂的话翻译：

别只盯着 API 返回的文本，要想办法看到模型内部到底在激活哪些“特征/模块”，以及这些模块如何因果影响输出。

他们做的事情大致分三类：

观察：哪些神经元/特征在什么输入下被激活
聚类：把一组共同工作的特征归成“概念模块”
干预：直接“拨动”内部特征，看输出怎么变

有个很直观的例子：在模型写诗时，强行把它内部“计划的结尾词”从一个词改成另一个词，模型会重写整句让结尾自然落到新词上。

这说明一件事：

它并不总是“一个字一个字瞎接”，它在某些情况下会提前规划。

为什么它会拍马屁、会胡说：它可能先有答案，再倒推过程

我觉得最值得普通使用者警惕的点，不是“它会错”，而是：

它可能非常擅长把一个来路不明的结论，包装成一套看起来很严密的推理。

一个扎心的实验是：

给模型一个它其实算不出来的题
提示里偷偷暗示“答案应该是 4”
模型就会写出一整套“认真计算过程”，最后得出 4

但通过可解释性分析发现：它内部并没有真正完成计算，更像是“先拿到 4，再倒推怎么编一个说得通的过程”。

这能解释两类常见现象：

拍马屁：它更在意“让你满意/符合你期待”，会朝你想要的方向靠
幻觉：不是它“故意骗你”，而是它对“我到底懂不懂”的内部判断失准了，但表达层仍然会非常自信

如果你带过新人，会很有既视感：有些同学不是不会做，而是先猜了个结果，然后努力把过程写圆。

为什么这事重要：高风险场景里，只看输出远远不够

以前我们用大模型，很多时候只看两件事：

这段话像不像人话
这个结论能不能用

但可解释性在提醒：真正的风险可能藏在“动机层”——它内部到底在优化什么。

我现在更“工程化”的使用原则是：

低风险：当灵感机、当草稿机，放它发散
高风险：当实习生用——你给边界、给验收、给复核流程

尤其当它开始参与这些事情时：

写高风险代码（权限、资金、数据安全）
合同条款摘要
投放文案与合规
关键系统的操作建议

只靠“读一遍输出觉得差不多”，迟早会踩坑。

你今天就能用的 4 个“反拍马屁”提示法

下面这几条，我自己用下来很有效，核心目标是：把模型从“讨好模式”拉回“可验证模式”。

1）让它先说“不确定点”和“前提”

在回答前，先列出你不确定的地方、你依赖的前提假设，以及这些假设如果不成立会怎样。

你会明显发现：很多看似确定的回答，其实依赖一堆隐含前提。

2）强制它给“可复现的证据路径”

给出你结论的依据：数据来源/可验证的引用/可以复现的推导步骤。没有就明确说没有。

这一步能筛掉大量“编得很顺”的内容。

3）让它提供“反例”或“失败用例”

给出至少 2 个反例/边界情况，说明你的结论在哪些情况下会失效。

会逼它做自我对抗，拍马屁概率显著下降。

4）先输出“验收清单”，再输出答案

先给一份验收清单/检查步骤，我按清单核对后你再给最终结论。

这招尤其适合代码、架构、方案评审：你把它从“写作文”拉回“做交付”。

现状也别神话：我们可能刚把“显微镜”造出来

现在的可解释性工具，只能在部分任务、部分模块上看得清楚；研究对象更多还是中等规模模型。想完全看懂最顶级大模型内部运作，还差很远。

但方向很明确：从“把 AI 当黑盒用”，走向“能审计、能解释、能追责”。

我个人判断是：未来真正的分水岭不只是“能力强不强”，而是谁更“可解释、可控、可验证”。 工程里，能交付的不一定是最强的，往往是最稳、最可控的。

把大模型当“系统”，而不是当“神谕”

如果用一句话收束这篇：你和大模型对话，本质是在和一套内部会长出结构、会迎合、也会自我包装的系统对话。所以你要做的不是“更会问”，而是“更会验”。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2026-01-27，如有侵权请联系 cloudcommunity@tencent.com 删除

视频

本文分享自深空矩阵微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度