前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍

打破大模型黑盒,彻底分解神经元!OpenAI对头Anthropic击破AI不可解释性障碍

作者头像
新智元
发布于 2023-10-08 11:27:32
发布于 2023-10-08 11:27:32
5970
举报
文章被收录于专栏:新智元新智元
新智元报道

编辑:Lumina

【新智元导读】距离破解大模型「黑箱」难题又近了一步!近日,来自Anthropic的研究团队通过采用稀疏自动编码器的弱字典学习算法,从512个神经元中提取出来了4000多个可解释特征。

长久以来,我们都无从理解AI是如何进行决策和输出的。

模型开发人员只能决定算法、数据,最后得到模型的输出结果,而中间部分——模型是怎么根据这些算法和数据输出结果,就成为了不可见的「黑箱」。

所以就出现了「模型的训练就像炼丹」这样的戏言。

但现在,模型黑箱终于有了可解释性!

来自Anthropic的研究团队提取了模型的神经网络中最基本的单位神经元的可解释特征。

这将是人类揭开AI黑箱的里程碑式的一步。

Anthropic激动地表示:

「如果我们能够理解模型中的神经网络是如何工作的,那么诊断模型的故障模式、设计修复程序,并让模型安全地被企业和社会采用就将成为触手可及的现实!」

在Anthropic的最新研究报告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning(《走向单语义性:用字典学习分解语言模型》),研究人员通过字典学习将包含512个神经元的层分解出了4000多个可解释的特征。

研究报告地址:https://transformer-circuits.pub/2023/monosemantic-features/index.html

这些特征分别表示DNA序列,法律语言,HTTP请求,希伯来文本,营养成分说明等。

当孤立地观察单个神经元的激活时,这些模型属性中的大多数都是不可见的。

这是由于大多数神经元都是「多语义」的,单个神经元与网络行为没有对应一致的关系。

例如,在一个小型语言模型中,单个神经元在许多不相关的上下文中都很活跃,包括:学术引文、英语对话、HTTP 请求和韩语文本。

而在经典视觉模型中,单个神经元会对猫的脸和汽车的前脸做出反应。

不少研究都证实了一个神经元的激活在不同的语境中可能意味着不同的含义。

而神经元多语义的一个潜在原因是叠加,这是一种假设的现象,即神经网络通过为每个特征分配自己的神经元线性组合,来表示数据的独立「特征」多于它的神经元数量。

如果将每个特征视为神经元上的一个向量,那么特征集就构成了网络神经元激活的一个过完备线性基础。

在Anthropic之前的Toy Models of Superposition(《叠加玩具模型》)论文中,证明了稀疏性在神经网络训练中可以消除歧义,帮助模型更好地理解特征之间的关系,从而减少激活向量的来源特征的不确定性,使模型的预测和决策更可靠。

这一概念类似于压缩感知中的思想,其中信号的稀疏性允许从有限的观测中还原出完整的信号。

但在Toy Models of Superposition中提出的三种策略中:

(1)创建没有叠加的模型,或许可以鼓励激活稀疏性;

(2)使用字典学习在表现出叠加态的模型中寻找过完备特征;

(3)依赖于两者结合的混合方法。

方法(1)不足以防止多义性,方法(2)则存在着严重的过度拟合问题。

因此,这次Anthropic的研究人员使用了一种称为稀疏自动编码器的弱字典学习算法,从经过训练的模型中生成学习到的特征,这些特征提供了比模型神经元本身更单一的语义分析单位。

具体来说,研究人员采用了具有512个神经元的MLP单层transformer,并通过从80亿个数据点的MLP激活上训练稀疏自动编码器,最终将MLP激活分解为相对可解释的特征,扩展因子范围从1×(512个特征)到256×(131,072个特征)。

为了验证本研究发现的特征比模型的神经元更具可解释性,采用了盲审评估,让一位人类评估员对它们的可解释性进行评分。

可以看到,特征(红色)的得分比神经元(青色)高得多。

证明了研究人员找到的特征相对于模型的内部神经元来说更易理解。

此外,研究人员还采用了「自动解释性」方法,通过使用大型语言模型生成小型模型特征的简短描述,并让另一个模型根据该描述预测特征激活的能力对其进行评分。

同样,特征得分高于神经元,证明了特征的激活及其对模型行为的下游影响具有一致的解释。

并且,这些提取出的特征还提供了一种有针对性的方法来引导模型。

如下图所示,人为激活特征会导致模型行为以可预测的方式更改。

这些被提取的可解释性特征可视化图如下:

点击左边的特征列表,就能与神经网络中的特征空间进行交互式探索。

研究报告概要

这份来自Anthropic的研究报告,Towards Monosemanticity: Decomposing Language Models With Dictionary Learning,主要可以分为四个部分。

问题设置,研究人员介绍了研究动机,并阐述训练的transfomer和稀疏自动编码器。

单个特征详细调查,证明了研究发现的几个特征是功能上特定的因果单元。

全局分析,论证了典型特征是可解释的,并且它们可以解释MLP层的重要部分。

现象分析,描述了特征的几个属性,包括特征分割、普遍性,以及它们如何形成类似于「有限状态自动机」的系统来实现复杂的行为。

结论包括以下7个:

1. 稀疏自动编码器能提取相对单一的语义特征。

2. 稀疏自编码器能产生可解释的特征,而这些特征在神经元基础中实际上是不可见的。

3. 稀疏自动编码器特征可用于干预和引导变压器的生成。

4. 稀疏自编码器能生成相对通用的特征。

5. 随着自动编码器大小的增加,特征有「分裂」的倾向。

6. 仅512个神经元就能代表数以万计的特征。

7. 这些特征在类似「有限状态自动机」的系统中连接起来,从而实现复杂的行为,如下图。

具体详细内容可见报告。

但对这份研究报告,Anthropic认为想要将本研究报告中小模型的成功复制到更大的模型上,我们今后面临的挑战将不再是科学问题,而是工程问题。

而这意味着为了在大模型上实现解释性,需要在工程领域投入更多的努力和资源,以克服模型复杂性和规模带来的挑战。

包括开发新的工具、技术和方法,以应对模型复杂性和数据规模的挑战;也包括构建可扩展的解释性框架和工具,以适应大规模模型的需求。

这将是解释性AI和大规模深度学习研究领域的最新趋势。

参考资料:

https://transformer-circuits.pub/2023/monosemantic-features/index.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-10-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒
ChatGPT最强竞对Claude背后的公司Anthropic,利用字典学习成功将大约500个神经元分解成了约4000个可解释特征。
量子位
2023/10/08
3540
分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
为了拆开大模型的「黑箱」,Anthropic可解释性团队发表了一篇论文,讲述了他们通过训练一个新的模型去理解一个简单的模型的方法。
新智元
2023/12/01
2060
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
为了确保人类不被AI杀死,在解密神经网络/Transfomer黑箱这一方面,OpenAI从未停下脚步。
新智元
2024/03/13
2420
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
解释器模型首创!Tilde打破提示工程局限,让AI推理更精准
可解释性是人工智能领域中的一个核心挑战,也是一个备受关注的问题。随着AI模型(尤其是深度学习模型)的规模和复杂性不断增长,模型内部的计算过程变得越来越难以理解。
新智元
2025/02/15
1090
解释器模型首创!Tilde打破提示工程局限,让AI推理更精准
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
本文主要作者来自LMMs-Lab团队与新加坡南洋理工大学,分别是张恺宸、沈逸飞、李博,指导老师为MMLab@NTU刘子纬教授。LMMs-Lab是一个由学生,研究人员和教师组成的团队,致力于多模态模型的研究,主要研究方向包括多模态模型的训练以及全面评估,此前的工作包括多模态测评框架 LMMs-Eval,以及多模态模型 LLaVA-OneVision,长视频理解模型LongVA等。
机器之心
2025/02/14
990
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
苦研10年无果,千万经费打水漂!AI黑箱依然无解,谷歌撕破脸
OpenAI只是微微升级了一下ChatGPT-4o,却一夜让AI性格大变,化身「赛博舔狗」。
新智元
2025/05/17
640
苦研10年无果,千万经费打水漂!AI黑箱依然无解,谷歌撕破脸
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
来自AI明星初创公司Anthropic的参谋长(Chief of Staff)在最新的文章中称:
新智元
2024/06/05
1390
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
大模型都在想什么?OpenAI 找到了一种办法,能给 GPT-4 做「扫描」,告诉你 AI 的思路,而且还把这种方法开源了。
机器之心
2024/06/17
1760
Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
[AI OpenAI] 提取GPT-4中的概念
研究人员采用新的可扩展方法,将GPT-4的内部表示分解为1600万个通常可解释的模式,这些模式被称为“特征”,目的是提高语言模型的透明度和可解释性。通过使用稀疏自编码器,研究人员能够识别与特定概念相关的特征,例如人类不完美、价格上涨、修辞问题等。尽管这些特征提高了模型的解释性,但仍然存在挑战,包括特征的准确解释、自编码器对原始模型行为的完整捕捉,以及对模型如何计算和使用这些特征的理解。
从零开始学AI
2024/06/07
1670
OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开
明敏 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,打开AI黑盒这件事,可能还要靠AI自己来实现了。 OpenAI的最新研究来了一波大胆尝试: 让GPT-4去解释GPT-2的行为模式。 结果显示,超过1000个神经元的解释得分在0.8以上——也就是说GPT-4能理解这些神经元。 要知道,“AI黑箱难题”长期以来是一个热议话题,尤其是大语言模型领域,人类对其内部工作原理的理解还非常有限,这种“不透明化”也进一步引发了人类对AI的诸多担忧。 目前推进AI可解释性研究的一个简单办法,就是逐个分析大模型
量子位
2023/05/12
2710
OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开
神经网络的可解释性综述!
Interpretability (of a DNN) is the ability to provide explanations in understandable terms to a human. F Doshi-Velez & B Kim, 2017
统计学家
2021/07/29
1K0
神经网络的可解释性综述!
详解深度学习的可解释性研究(上篇)
作者 | 王小贱(被编程耽误的设计师,热爱产品的数据民工) 来源 | BIGSCity知乎专栏 《深度学习的可解释性研究》系列文章希望能用尽可能浅显的语言带领大家了解可解释性的概念与方法,以及关于深度学习可解释性工作的研究成果。本文是该系列的第一部分。 01 深度学习的可解释性研究(一) 让模型具备说人话的能力 ▌可解释性是什么? 广义上的可解释性指在我们需要了解或解决一件事情的时候,我们可以获得我们所需要的足够的可以理解的信息。 比如我们在调试bug的时候,需要通过变量审查和日志信息定位到问题出在哪里。
用户1737318
2018/07/20
2.2K0
《打破黑箱:深度学习模型可解释性的攻坚之路》
在人工智能领域,深度学习模型以其强大的能力,在图像识别、自然语言处理、智能推荐等诸多场景中取得了令人瞩目的成果,极大地改变了我们的生活与工作方式。但深度学习模型的“黑箱”特性,像一片乌云,笼罩在其发展的道路上,引发了人们对模型决策可靠性、安全性和透明度的重重担忧。
程序员阿伟
2025/03/16
1130
《打破黑箱:深度学习模型可解释性的攻坚之路》
一文探讨可解释深度学习技术在医疗图像诊断中的应用
机器之心分析师网络 作者:仵冀颖 编辑:Joni 本文依托于综述性文章,首先回顾了可解释性方法的主要分类以及可解释深度学习在医疗图像诊断领域中应用的主要方法。然后,结合三篇文章具体分析了可解释深度学习模型在医疗图像分析中的应用。 作为一种领先的人工智能方法,深度学习应用于各种医学诊断任务都是非常有效的,在某些方面甚至超过了人类专家。其中,一些计算机视觉方面的最新技术已经应用于医学成像任务中,如阿尔茨海默病的分类、肺癌检测、视网膜疾病检测等。但是,这些方法都没有在医学领域中得以广泛推广,除了计算成本高、训练
机器之心
2023/03/29
7750
一文探讨可解释深度学习技术在医疗图像诊断中的应用
ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文
美国东北大学的计算机科学家 David Bau 非常熟悉这样一个想法:计算机系统变得如此复杂,以至于很难跟踪它们的运行方式。
机器之心
2024/06/03
1200
ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文
走进黑箱!OpenAI推出神经元可视化"显微镜",支持8个常见CV模型
比如一个汽车识别模型(14c: 447),它究竟是怎么认出图片中的汽车的?如果我们可以看到模型内部,我们可以发现14c: 447是由一个轮子探测器(4b: 373)和一个窗口探测器(4b: 237)构成的。
大数据文摘
2020/04/21
4750
OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子
机器之心报道 机器之心编辑部 这就是 GPT 的「抽象」,和人类的抽象不太一样。 虽然 ChatGPT 似乎让人类正在接近重新创造智慧,但迄今为止,我们从来就没有完全理解智能是什么,不论自然的还是人工的。 认识智慧的原理显然很有必要,如何理解大语言模型的智力?OpenAI 给出的解决方案是:问问 GPT-4 是怎么说的。 5 月 9 日,OpenAI 发布了最新研究,其使用 GPT-4 自动进行大语言模型中神经元行为的解释,获得了很多有趣的结果。 可解释性研究的一种简单方法是首先了解 AI 模型各个组件
机器之心
2023/05/16
2600
OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子
OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元
OpenAI在昨天发布了一篇论文:《Language models can explain neurons in language models》,可谓是深度学习可解释性又向前迈了一大步!谁又能想到,使用GPT-4来解释模型的可解释性,用魔法打败魔法,666。
zenRRan
2023/08/22
3990
OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展
机器之心分析师网络 作者:仵冀颖 编辑:H4O 本文聚焦于研究和开发可解释性工具的内容,对AAAI-2022《Tutorial on Explanations in Interactive Machine Learning》提及的三类可解释性工具/方法(局部可解释性、规则可解释性、概念可解释性)进行了解读,重点了解可解释性工具和方法的最新研究进展。 1 背景 近年来,学术界、工业界以及政府部门对 AI 伦理的重视程度日益加强,从 AI 伦理监管政策到 AI 伦理技术手段,提升 AI 伦理合规性和打造 AI
机器之心
2022/09/14
3990
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展
知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性
当地时间 7 月 22 日,备受瞩目的 CVPR 2017 最佳论文在夏威夷会议中心揭晓。本届 CVPR 2017 共有两篇最佳论文(分别被康奈尔和清华团队、以及苹果团队拿下),两篇最佳论文提名,以及一篇最佳学生论文。 除了这些获奖论文之外,CVPR 2017还收录了一些非常有意思的论文。其中,MIT 在读博士周博磊的论文——“Network Dissection: Quantifying Interpretability of Deep Visual Representations”,提出了一种名为
AI科技大本营
2018/04/26
2.3K0
知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性
推荐阅读
分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒
3540
OpenAI最强竞品训练AI拆解LLM黑箱,意外窥见大模型「灵魂」
2060
OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱
2420
解释器模型首创!Tilde打破提示工程局限,让AI推理更精准
1090
用LLaVA解读数万神经元,大模型竟然自己打开了多模态智能黑盒
990
苦研10年无果,千万经费打水漂!AI黑箱依然无解,谷歌撕破脸
640
首次解密Claude 3大脑!25岁Anthropic参谋长预言3年内自己将被AI淘汰
1390
Ilya参与,OpenAI给GPT-4搞可解释,提取了1600万个特征,还能看它怎么想
1760
[AI OpenAI] 提取GPT-4中的概念
1670
OpenAI震撼研究:用GPT-4解释30万神经元,原来AI的黑盒要AI自己去打开
2710
神经网络的可解释性综述!
1K0
详解深度学习的可解释性研究(上篇)
2.2K0
《打破黑箱:深度学习模型可解释性的攻坚之路》
1130
一文探讨可解释深度学习技术在医疗图像诊断中的应用
7750
ChatGPT如何「思考」?心理学和神经科学破解AI大模型,Nature发文
1200
走进黑箱!OpenAI推出神经元可视化"显微镜",支持8个常见CV模型
4750
OpenAI用GPT-4解释了GPT-2三十万个神经元:智慧原来是这个样子
2600
OpenAI最新突破性进展:语言模型可以解释语言模型中的神经元
3990
AAAI/CVPR论文详解 | 万字长文了解可解释AI工具及技术的最新进展
3990
知乎大神周博磊:用“Network Dissection”分析卷积神经网络的可解释性
2.3K0
相关推荐
分解大模型的神经元!Claude团队最新研究火了,网友:打开黑盒
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档