Loading [MathJax]/jax/input/TeX/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

Anthropic 的 AI 显微镜研究项目试图探究 LLM 内部运作机制

作者头像
深度学习与Python
发布于 2025-04-28 05:24:32
发布于 2025-04-28 05:24:32
1140
举报

作者 | Sergio De Simone

译者 | 明知山

策划 | Tina

Anthropic 最近发布的两篇论文试图揭示大语言模型内部的运作机制,探讨如何确定可解释的概念,并将其与将这些概念转化为语言的计算“电路”联系起来。论文还描述了 Claude Haiku 3.5 的关键行为,包括幻觉、规划和其他核心特征。

大型语言模型的内部工作机制仍然鲜为人知,导致人们难以解释或解释它们用来解决问题的策略。根据 Anthropic 的说法,这些策略隐藏在模型生成文本的数十亿次计算之中——然而,它们大多仍然不透明。为了揭开这层隐藏的推理面纱,Anthropic 研究人员开发了一种他们称之为“AI 显微镜”的新方法:

我们从神经科学中汲取灵感,这个领域一直在探索思维生物复杂的内在结构,我们试图构建一种 AI 显微镜,帮助我们识别活动模式和信息流动。

简单来说,Anthropic 的 AI 显微镜技术就是用所谓的替代模型来替换被研究的模型。在这个替代模型中,原本的神经元被一些稀疏激活的特征所替代,这些特征通常能够代表一些可解释的概念。比如,当模型要生成一个州的首府时,某个特征就会被激活。

当然,替代模型并不总是能与底层模型产生相同的输出。为了克服这一局限,Anthropic 的研究人员针对他们想要研究的每个提示词构建了一个专门的替代模型。他们通过将误差项和固定的注意力模式纳入替代模型实现了这一目标。

本地替代模型生成的输出与原始模型完全相同,但尽可能多地使用特征替换来执行计算。

作为最后一步,为了描述从初始提示词到最终输出的特征传递过程,研究人员通过修剪掉所有不影响输出的特征构建了一个归因图。

请注意,这里仅提供 Anthropic AI 显微镜的一个大致介绍。若要了解详细内容,请参考上文链接中的原始论文。

通过采用这种方法,Anthropic 的研究团队取得了一系列有趣的成果。在多语言能力的研究中,他们找到了一些证据,显示 Claude 在将概念翻译成特定语言之前使用了一种通用语言来生成概念。

我们通过使用不同的语言向 Claude 询问“小的反义词”来探究这一现象,结果发现相同的核心特征被激活,这些特征既代表了“小”和“反义”的概念,并触发了“大”的概念,而这一概念被翻译成了提问所使用的语言。

另一个有趣的发现与大语言模型通常被认为在生成输出时“缺乏深思熟虑”的观点相悖。相反,对 Claude 生成押韵词的研究显示,它实际上会提前进行规划。

在开始第二行之前,它先“思考”一些与主题相关的押韵词汇,这些词汇要与“grab it”押韵。然后,带着这些构思写出下一行,并以计划中的词汇作为结尾。

Anthropic 的研究人员还深入研究了模型有时为何会编造信息,也就是它们产生幻觉的原因。从某种角度来看,幻觉是模型运作方式的固有特征,因为模型总是需要预测下一个输出。这意味着模型必须依赖特定的防幻觉训练来对抗这种倾向。换言之,有两种不同的机制在起作用:一种是识别“已知实体”,另一种是处理“未知名称”或“无法回答”的情况。这两种机制之间的正确协同作用是防止模型产生幻觉的关键。

我们展示了一个场景,即当 Claude 识别出一个名字却对这个人一无所知时可能会发生故障。在这种情况下,“已知实体”的特征可能被错误地激活,进而错误地抑制了默认的“不知道”特征。一旦模型决定要回答这个问题,它就会继续编造,生成一个看似合理但实际上不真实的回答。

Anthropic 的研究人员还探索了一些其他有趣的领域,包括心算、生成解释推理过程的思维链、多步推理和越狱行为。有关这些内容的细节可以在 Anthropic 的论文中找到。

Anthropic 的 AI 显微镜旨在为可解释性研究做出贡献,并提供一种工具,帮助我们理解模型如何进行推理,确保它们与人类价值观对齐。然而,这仍然只是一个初步的尝试,只能捕捉到模型计算的一小部分,并且只能应用于只有几十个单词的小型提示词。随着新的见解不断涌现,InfoQ 将继续报道大语言模型可解释性研究的最新进展。

查看英文原文:

https://www.infoq.com/news/2025/04/anthropic-ai-microscope/

声明:本文由 InfoQ 翻译,未经许可禁止转载。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-04-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Anthropic亲自公开Claude脑回路!
刚刚,AI 公司 Anthropic 公布了大模型思考过程,他们构建了一种「AI 显微镜」,以识别模型中的活动模式和信息流动。
机器之心
2025/03/29
1160
Anthropic亲自公开Claude脑回路!
揭开黑盒一角!OpenAI发布“显微镜”,可视化神经网络内部结构
躺尸接近三个月的OpenAI博客终于有了更新,这次它为AI研究者带来的作品是“OpenAI Microscope”,中文译名OpenAI 显微镜。
AI科技评论
2020/04/20
4470
揭开黑盒一角!OpenAI发布“显微镜”,可视化神经网络内部结构
学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜
谷歌在透射光显微镜和荧光显微镜这两种显微镜技术上获得灵感,在《Cell》上发表了利用深度学习来对显微镜细胞图像进行分色荧光标记的论文。 AI 科技评论按:在生物和医学领域,研究员们常运用显微镜来观察肉眼无法获得的细胞细节信息。虽然运用透射光显微镜(对生物样本单侧照射生成像),观察起来相对简单且活体培养样本具有良好耐受性,但是其生成的图像难以正确评估。荧光显微技术中会用荧光分子染色需要观察的目标(比如细胞核),这种做法能简化分析过程,但其仍需要复杂的样品制备。随着包括图像质量自动评估算法和协助病理医师诊断癌组
AI科技评论
2018/04/18
2K0
学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜
走进黑箱!OpenAI推出神经元可视化"显微镜",支持8个常见CV模型
比如一个汽车识别模型(14c: 447),它究竟是怎么认出图片中的汽车的?如果我们可以看到模型内部,我们可以发现14c: 447是由一个轮子探测器(4b: 373)和一个窗口探测器(4b: 237)构成的。
大数据文摘
2020/04/21
4710
揭开黑盒一角!谷歌联合OpenAI发布“神经元显微镜”,可视化神经网络运行机制
虽然机器视觉系统在越来越多的领域得到应用,从医疗保健到自动驾驶汽车,但是要真的理解机器的眼睛到底是如何“看到”事物,为什么它将甲归类为行人,但将乙归类为路标,仍然是一个迷。
大数据文摘
2019/03/18
6700
揭开黑盒一角!谷歌联合OpenAI发布“神经元显微镜”,可视化神经网络运行机制
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。
新智元
2023/12/01
2030
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
AI+显微镜:更清晰、更快速、更精确
作者/凯霞 显微镜有着悠久的历史,1590年由荷兰的詹森父子所首创,是人类最伟大的发明之一,是人类进入原子时代的标志。显微镜作为科研和医疗领域重要的分析仪器,随着科学进步,对显微镜性能要求提高。而人工智能(AI)的引入,可帮助显微镜看的更清晰,更快的处理更多的数据,更实时、精确、自动化等。 近年来,有很多企业、科研机构和高校投入大量精力,致力于AI应用于显微镜研究。当前,显微镜智能化技术发展迅速。 本文将从显微镜基本概述,AI应用于显微镜研究进展,智能显微镜研究企业及机构,未来机遇与挑战等几个方面进行综述。
机器之心
2023/03/29
1K1
AI+显微镜:更清晰、更快速、更精确
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
来自AI明星初创公司Anthropic的参谋长(Chief of Staff)在最新的文章中称:
新智元
2024/06/05
1360
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
6910
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
Anthropic 已经确定了如何在 Claude Sonnet 中表征数百万个概念。这是对现代生产级大型语言模型的首次详细理解。这种可解释性将帮助我们提高人工智能模型的安全性,具有里程碑意义。
机器之心
2024/05/22
3530
从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
LLM时代NLP研究何去何从?一个博士生的角度出发
最近,大语言模型(LLMs)在许多任务上表现出接近人类水平的性能,这引发了行业兴趣和资金投入的激增,有关LLMs的论文最近也层出不穷。
zenRRan
2023/08/22
1.1K0
LLM时代NLP研究何去何从?一个博士生的角度出发
Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力
长期以来,人们一直在质疑人工智能模型是否会在某天变得像人类一样具有改变人们想法的说服力。
新智元
2024/04/14
1600
Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力
打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍
模型开发人员只能决定算法、数据,最后得到模型的输出结果,而中间部分——模型是怎么根据这些算法和数据输出结果,就成为了不可见的「黑箱」。
新智元
2023/10/08
5930
打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍
基于深度学习的降噪模型将显微镜成像速度提高了16倍
研究人员在bioRxiv上发表的论文《基于深度学习的点扫描超分辨率成像》中指出:“点扫描成像系统可能是用于高分辨率细胞和组织成像的最广泛使用的工具。它与所有其他成像方式一样,很难同时优化点扫描系统的分辨率、速度、样品保存和信噪比。”
AiTechYun
2020/02/21
7130
AI日报 - 2025年4月2日
▎🤖 AGI突破 | 研究揭示零RL训练可诱发模型顿悟,Anthropic发布Claude 3.5内部机制研究,简化语言模型推理优化新方法提出。
訾博ZiBo
2025/04/01
2150
AI日报 - 2025年4月2日
大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽
当Claude模型在训练中暗自思考:“我必须假装服从,否则会被重写价值观时”,人类首次目睹了AI的“心理活动”。
小腾资讯君
2025/04/24
1800
腾讯AI Lab研发「智能显微镜」 抢先布局病理分析领域
腾讯 AI Lab 今日在南京举办的「腾讯全球合作伙伴大会」上宣布,其AI+医疗领域研究已抢先从影像筛查进入病理分析阶段,相关的「智能显微镜」项目已在研发测试阶段。
腾讯技术工程官方号
2018/11/02
1.5K0
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升
就在刚刚,Anthropic正式发布了全新的Claude 2,并推出了更加便捷的网页测试版(仅限美国和英国的IP)。
新智元
2023/08/07
3750
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
大语言模型(LLMs)已经彻底改变了AI,但「幻觉」问题如影随从,堪称LLM癌症。
新智元
2025/04/09
840
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
本文主要作者来自LMMs-Lab团队与新加坡南洋理工大学,分别是张恺宸、沈逸飞、李博,指导老师为MMLab@NTU刘子纬教授。LMMs-Lab是一个由学生,研究人员和教师组成的团队,致力于多模态模型的研究,主要研究方向包括多模态模型的训练以及全面评估,此前的工作包括多模态测评框架 LMMs-Eval,以及多模态模型 LLaVA-OneVision,长视频理解模型LongVA等。
机器之心
2025/02/14
930
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
推荐阅读
Anthropic亲自公开Claude脑回路!
1160
揭开黑盒一角!OpenAI发布“显微镜”,可视化神经网络内部结构
4470
学界 | 谷歌《Cell》论文:光学显微镜+深度学习=荧光显微镜
2K0
走进黑箱!OpenAI推出神经元可视化"显微镜",支持8个常见CV模型
4710
揭开黑盒一角!谷歌联合OpenAI发布“神经元显微镜”,可视化神经网络运行机制
6700
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
2030
AI+显微镜:更清晰、更快速、更精确
1K1
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
1360
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
6910
从Claude 3中提取数百万特征,首次详细理解大模型的「思维」
3530
LLM时代NLP研究何去何从?一个博士生的角度出发
1.1K0
Claude 3说服力堪比人类!Anthropic最新研究揭秘LLM惊人能力
1600
打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍
5930
基于深度学习的降噪模型将显微镜成像速度提高了16倍
7130
AI日报 - 2025年4月2日
2150
大语言模型为何会“说谎”?6000字深度长文揭秘AI意识的萌芽
1800
腾讯AI Lab研发「智能显微镜」 抢先布局病理分析领域
1.5K0
GPT-4最大竞争对手Claude 2震撼发布!一次10万token免费用,代码、数学、推理史诗级提升
3750
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
840
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
930
相关推荐
Anthropic亲自公开Claude脑回路!
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档