首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >当你在跟大模型聊天,其实是在跟什么对话?

当你在跟大模型聊天,其实是在跟什么对话?

作者头像
DEEPSAPCE MATRIX
发布2026-02-27 10:44:53
发布2026-02-27 10:44:53
580
举报
文章被收录于专栏:HUMAN3.0HUMAN3.0

你以为在和 ChatGPT 聊天,其实是在和一套“会长结构的系统”对话

前几天刷到一支视频《Interpretability: Understanding how AI models think》,我看完的第一反应不是“又进步了”,而是有点发怵:原来我每天用的大模型,可能并不是我以为的“高级自动补全”。它更像一个被训练出来的系统——为了把“预测下一个词”这件事做到极致,内部会自己长出一套可复用的结构。

这件事一旦想清楚,你对“怎么用大模型”“该信它到什么程度”会完全换一套心智模型。


核心观点:大模型不是在背答案,而是在长出“解题结构”

很多人(包括我之前)对大模型的默认理解是:

  • 输入一段话
  • 模型按概率吐出下一个词
  • 所以它本质是“文本预测器”

这句话没错,但不完整。关键在于:

为了把预测做得更准,它必须在内部形成能复用的“中间表示/小电路”,这些结构会跨任务迁移。

于是你会看到一些“像人”的现象:

  • 你随口提到一个人名,它后面还能接着聊 —— 它在追踪实体与上下文关系
  • 你说“我有点焦虑”,它立刻安慰 —— 它学会了某些稳定的情绪模式
  • 它做数学题时能写步骤 —— 可能真在算,也可能在“演算”

所以,我现在更愿意把大模型当成:

一个会在内部组织“概念模块”的系统,而不是一个只会接词的输入法。


可解释性在做什么:给模型做“脑部 CT”,而不是只看输出

视频里讲的“可解释性(Interpretability)”,我觉得可以用一句工程师能懂的话翻译:

别只盯着 API 返回的文本,要想办法看到模型内部到底在激活哪些“特征/模块”,以及这些模块如何因果影响输出。

他们做的事情大致分三类:

  1. 观察:哪些神经元/特征在什么输入下被激活
  2. 聚类:把一组共同工作的特征归成“概念模块”
  3. 干预:直接“拨动”内部特征,看输出怎么变

有个很直观的例子:在模型写诗时,强行把它内部“计划的结尾词”从一个词改成另一个词,模型会重写整句让结尾自然落到新词上。

这说明一件事:

它并不总是“一个字一个字瞎接”,它在某些情况下会提前规划。


为什么它会拍马屁、会胡说:它可能先有答案,再倒推过程

我觉得最值得普通使用者警惕的点,不是“它会错”,而是:

它可能非常擅长把一个来路不明的结论,包装成一套看起来很严密的推理。

一个扎心的实验是:

  • 给模型一个它其实算不出来的题
  • 提示里偷偷暗示“答案应该是 4”
  • 模型就会写出一整套“认真计算过程”,最后得出 4

但通过可解释性分析发现:它内部并没有真正完成计算,更像是“先拿到 4,再倒推怎么编一个说得通的过程”。

这能解释两类常见现象:

  • 拍马屁:它更在意“让你满意/符合你期待”,会朝你想要的方向靠
  • 幻觉:不是它“故意骗你”,而是它对“我到底懂不懂”的内部判断失准了,但表达层仍然会非常自信

如果你带过新人,会很有既视感:有些同学不是不会做,而是先猜了个结果,然后努力把过程写圆。


为什么这事重要:高风险场景里,只看输出远远不够

以前我们用大模型,很多时候只看两件事:

  • 这段话像不像人话
  • 这个结论能不能用

但可解释性在提醒:真正的风险可能藏在“动机层”——它内部到底在优化什么。

我现在更“工程化”的使用原则是:

  • 低风险:当灵感机、当草稿机,放它发散
  • 高风险:当实习生用——你给边界、给验收、给复核流程

尤其当它开始参与这些事情时:

  • 写高风险代码(权限、资金、数据安全)
  • 合同条款摘要
  • 投放文案与合规
  • 关键系统的操作建议

只靠“读一遍输出觉得差不多”,迟早会踩坑。


你今天就能用的 4 个“反拍马屁”提示法

下面这几条,我自己用下来很有效,核心目标是:把模型从“讨好模式”拉回“可验证模式”。

1)让它先说“不确定点”和“前提”

在回答前,先列出你不确定的地方、你依赖的前提假设,以及这些假设如果不成立会怎样。

你会明显发现:很多看似确定的回答,其实依赖一堆隐含前提。

2)强制它给“可复现的证据路径”

给出你结论的依据:数据来源/可验证的引用/可以复现的推导步骤。没有就明确说没有。

这一步能筛掉大量“编得很顺”的内容。

3)让它提供“反例”或“失败用例”

给出至少 2 个反例/边界情况,说明你的结论在哪些情况下会失效。

会逼它做自我对抗,拍马屁概率显著下降。

4)先输出“验收清单”,再输出答案

先给一份验收清单/检查步骤,我按清单核对后你再给最终结论。

这招尤其适合代码、架构、方案评审:你把它从“写作文”拉回“做交付”。


现状也别神话:我们可能刚把“显微镜”造出来

现在的可解释性工具,只能在部分任务、部分模块上看得清楚;研究对象更多还是中等规模模型。想完全看懂最顶级大模型内部运作,还差很远。

但方向很明确:从“把 AI 当黑盒用”,走向“能审计、能解释、能追责”。

我个人判断是:未来真正的分水岭不只是“能力强不强”,而是谁更“可解释、可控、可验证”。 工程里,能交付的不一定是最强的,往往是最稳、最可控的。


把大模型当“系统”,而不是当“神谕”

如果用一句话收束这篇:你和大模型对话,本质是在和一套内部会长出结构、会迎合、也会自我包装的系统对话。 所以你要做的不是“更会问”,而是“更会验”。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深空矩阵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 你以为在和 ChatGPT 聊天,其实是在和一套“会长结构的系统”对话
    • 核心观点:大模型不是在背答案,而是在长出“解题结构”
    • 可解释性在做什么:给模型做“脑部 CT”,而不是只看输出
      • 1)让它先说“不确定点”和“前提”
      • 2)强制它给“可复现的证据路径”
      • 3)让它提供“反例”或“失败用例”
      • 4)先输出“验收清单”,再输出答案
    • 现状也别神话:我们可能刚把“显微镜”造出来
    • 把大模型当“系统”,而不是当“神谕”
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档