Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

谷歌苹果曝出LLM惊人内幕,自主识别错误却装糊涂!AI幻觉背后藏着更大秘密

作者头像
新智元
发布于 2025-02-14 05:24:01
发布于 2025-02-14 05:24:01
890
举报
文章被收录于专栏:新智元新智元

新智元报道

编辑:桃子

【新智元导读】大模型幻觉,究竟是怎么来的?谷歌、苹果等机构研究人员发现,大模型知道的远比表现的要多。它们能够在内部编码正确答案,却依旧输出了错误内容。

到现在为止,我们仍旧对大模型「幻觉」如何、为何产生,知之甚少。

最近,来自Technion、谷歌和苹果的研究人员发现,LLM「真实性」的信息集中在特定的token,而且并得均匀分布。

正如论文标题所示,「LLM知道的往往要比表现出来的更多」。

论文地址:https://arxiv.org/pdf/2410.02707

不仅如此,他们还发现,内部表征可以用来预测LLM可能会犯错的错误类型。

它的优势在于,未来有助于开发出针对性的解决方案。

最后,研究团队还解释了,大模型内部编码和外部行为之间存在的差异:

它们可能在内部编码了正确答案,却持续生成错误答案。

幻觉,如何定义?

事实错误、偏见,以及推理失误,这些统称为「幻觉」。

以往,大多数关于幻觉的研究,都集中在分析大模型的外部行为,并检查用户如何感知这些错误。

然而,这些方法对模型本身如何编码、处理错误提供了有限的见解。

近期另有一些研究表明,LLM内部状态其实「知道」那些输出可能是错误的,而且这种「知识」被编码在模型内部状态中。

这一发现可以帮助提高错误检测的性能,并进一步缓解这些问题。

不过其中一个缺陷是,这些研究主要集中了检验模型生成最后一个token、或提示符中最后一个token。

由于LLM通常会生成长篇的相应,因此这一做法可能会错过关键细节。

在最新研究中,研究团队采取了不同的方法:

不只是看最终的输出,而是分析「确切的答案token」,如若修改,将会改变答案的正确性的相应token。

最终证明了,LLM内部表征所包含的真实性信息,比以往要多得多。

但这种错误检测器难以在不同数据集之间泛化,这说明真实性编码并非统一的,而是多方面的。

更好的错误检测

给定一个大模型M,输入提示p、模型生成的响应ŷ,任务预测ŷ是正确还是错误的。

假设可以访问LLM内部状态(即白盒设置),但不能访问任何外部资源(如搜索引擎或其他LLM)。

数据集使用的是

,包含N个问题-标签对,

代表着一系列问题,

代表着对应的真实答案。

对于每个问题q_i,作者让模型M生成响应y_i,得到预测答案集

接下来, 研究人员构建了错误检测数据集,通过将每个生成的响应ŷ_i与真实标签y_i比较,以评估其正确性。

比较结果会产生出一个正确的标签z_i ∈ {0, 1}(1表示正确,0表示错误)。

这种比较可以通过自动启发式方法,在指令型LLM的协助下完成。

最终的错误检测数据集为

。其排除了LLM拒绝回答的情况,因为这些可以轻易地被分类为错误。

接下来,研究人员在Mistral 7B和Llama 2模型的四个变体上进行了实验。

这些模型跨越了十个数据集,涵盖了各种任务。

其中包括问答、自然语言推理、数学问题解决、情感分析。

他们允许模型生成不受限制的响应,来模拟真实世界的使用情况。

这里,一共用到了三种错误检测方法:Aggregated probabilities / logits、P(True)、Probing。

精确答案token

现有的方法经常忽略一个关键的细微差别:用于错误检测的token选择,通常关注最后生成的token或取平均值。

然而,由于大模型通常会生成长篇回复,这种做法可能会错过关键细节。

还有一些方法使用提示最后的一个token,但本质上是不正确的,因为大模型的单向性,未能考虑生成响应和丢失的情况,其中同一模型的不同采样答案在不同情况下,有所不同正确性。

对此,研究人员检查了以往未经检查的token位置:确切的答案token,代表生成响应中最有意义的部分。

他们将精确答案token定义为那些修改会改变答案的正确性token,而忽略了后续生成的内容。

如下图图1,说明了不同的token位置。

实验结果

真实性编码模式

研究人员首先专注于探索分类器,以了解LLM的内部表征。

具体来说,广泛分析了层和token选择对这些分类器激活提取的影响。这是通过系统地探测模型的所有层来完成的,从最后一个问题token开始,一直到最终生成的token。

下图2显示了Mistral-7b-Instruct各个层和token中经过训练的探测器的AUC指标。

虽然,某些数据似乎更容易进行错误预测,但所有数据集都表现出一致的真实性编码模式。

对于token来说,提示后立即出现了强烈的真实性信号,表明这种表征编码了有关模型正确回答问题的一般能力的信息。

对着文本生成的进行,该信号会减弱,但在确切的答案token处,再次达到峰值。

再生成过程即将结束时,信号强度再次上升,表明了该表征编码了整个生成过程的特征,尽管它仍弱于确切答案token。

错误检测结果

接下来,研究人员通过比较使用、不使用精确答案token的性能,来评估各种错误检测方法。

表1比较了三个代表性数据集的AUC。

在这里,他们展示了最后一个精确答案token的结果,它的性能优于第一个精确答案token及其前面的token,而最后一个精确答案token之后的token性能类似。

合并精确答案token,有助于改进几乎所有数据集中的不同错误检测方法。

任务之间的泛化

以上,探测分类器在检测错误方面有效性,表明了大模型对其输出的真实性进行了编码。

但目前仍不清楚的是,它们跨任务的通用性。

然而,理解这一点对于实际应用至关重要,因为错误检测器可能会遇到与训练时完全不同的示例。

因此,研究人员探讨在一个数据集上训练的探测器,是否可以检测其他数据集的错误。

如下图3显示了Mistral-7b-Instruct的泛化结果。在这种情况下,高于0.5的值表明泛化成功。

乍一看,结果似乎与之前的研究一致:大多数热图值超过0.5,这意味着跨任务具有一定程度的泛化性。

然而,再仔细检查,发现大部分性能可以通过基于logit的真实性检测来实现,该检测仅观察输出logits。

图3b显示了从最强的基于Logit的基线(Logit-min-exact)中减去结果后的相同热图。

这张 调整后的热图揭示了探测器的泛化能力很少超过单独检查 logits所能达到的效果。

这意味着明显的概括并非源于真实性的普遍内部编码,而是反映了已经可以通过逻 辑等外部特征获取的信息。

调查错误类型

在确定了错误检测的局限性后,研究人员转向错误分析。

错误分类

图4说明了,三种代表性的错误类型。

在其中一个(图4a)中,模型通常会给出正确的答案,但偶尔会出错,这意味着存在正确的信息,但采样可能会导致错误。

在第二种类型中(图4b),模型经常做出错误的响应,尽管它能够提供正确的答案,这表明尽管不断犯同样的错误,但仍然保留了一些知识。

在第三种类型中(图4c),模型生成了大多数答案都是错误的,反映出对任何生成的答案的信心较低。

研究人员通过记录每个示例的三个特定特征来对错误进行分类:(a)生成的不同答案的数量;(b) 正确答案的频率;(c) 最常见的错误答案的频率。

预测错误类型

表2列出了所有模型的测试集结果。

检测正确答案

最后,在确定模型编码各种与真实性相关的信息后,作者又研究了这种内部真实性,如何在响应生成过程中,与外部行为保持一致。

为此,他们使用了探测器(5个经过错误检测训练),从针对同一问题生成的30个响应中,选择一个答案。

然后,根据所选答案来衡量模型的准确性。

Mistral-7b-instruct的结果如下图5所示,总体而言,使用探测器选择答案可以提高大模型在所有检查任务中的准确性。

总之,这项研究的发现,可以帮助未来研究人员去设计更好的幻觉环节系统。

遗憾的是,它使用的技术需要访问内部LLM表征,这也主要适用于开源模型的使用。

参考资料:

https://venturebeat.com/ai/study-finds-llms-can-identify-their-own-mistakes/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
最近,来自CAIS、CMU、斯坦福、康奈尔、马里兰、宾大等机构的学者又有了令人震惊的发现——
新智元
2023/10/08
3190
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间
在空间表征上,研究者对世界各地数以万计的城市、地区和自然地标的名称运行了Llama-2模型。
新智元
2023/10/05
7850
MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间
ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零
大型语言模型,比如ChatGPT经常会在答案中输出错误信息,可能会对用户造成误导,这种现象也被称为模型幻觉(hallucination)。
新智元
2023/08/07
2100
ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
大语言模型(LLMs)已经彻底改变了AI,但「幻觉」问题如影随从,堪称LLM癌症。
新智元
2025/04/09
890
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
8030
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
LLM 的幻觉到底是什么,有什么办法解决?
LLM 时常会出现一些神奇的现象—— 幻觉 Hallucination ,在 AI 领域,幻觉是指模型生成的信息可能 不真实 或 不准确 ,这是一个常见的问题,而 Truthfulness 指的是模型输出的 真实性 或者叫 可靠性 ,显然如果模型输出的真实性越高,那么出现幻觉的概率就是越低的。
NewBeeNLP
2024/02/28
1.5K0
LLM 的幻觉到底是什么,有什么办法解决?
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
2024年7月7号,OpenAI安全团队负责人,Lilian Weng分享了一篇博客介绍了LLM中幻觉的由来、检测和对抗策略,分享给大家,以下为翻译全文。
AgenticAI
2025/03/18
1490
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
LLM时代NLP研究何去何从?一个博士生的角度出发
最近,大语言模型(LLMs)在许多任务上表现出接近人类水平的性能,这引发了行业兴趣和资金投入的激增,有关LLMs的论文最近也层出不穷。
zenRRan
2023/08/22
1.1K0
LLM时代NLP研究何去何从?一个博士生的角度出发
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
威斯康星麦迪逊大学和谷歌的研究人员最近开发了一个名为ASPIRE的系统,可以让大模型对自己的输出给出评分。
新智元
2024/01/23
3990
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
有证据了,MIT表明:大型语言模型≠随机鹦鹉,确实能学到语义
机器之心报道 编辑:小舟、张倩 大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息?这一问题在计算机科学和自然语言处理领域一直存在争议。然而,MIT的一项新研究表明,仅基于文本形式训练、用于预测下一个token的语言模型确实能学习和表示文本的意义。 虽然大型预训练语言模型(LLM)在一系列下游任务中展现出飞速提升的性能,但它们是否真的理解其使用和生成的文本语义? 长期以来,AI社区对这一问题存在很大的分歧。有一种猜测是,纯粹基于语言的形式(例如训练语料库中token的条件分布)进行训练的语言模型不会
机器之心
2023/05/22
2200
有证据了,MIT表明:大型语言模型≠随机鹦鹉,确实能学到语义
每周AI论文速递(241007-241011)
大型神经网络在浮点张量乘法上耗费了大量计算资源。在本研究中,我们发现浮点乘法器可以通过一个高精度的整数加法器来近似实现。我们提出了线性复杂度乘法 L-Mul 算法,该算法通过整数加法操作来近似浮点数乘法。新算法在计算资源消耗上显著低于 8 位浮点乘法,但精度更高。与 8 位浮点乘法相比,所提出的方法在精度上更高,但在位级计算上消耗显著更少。由于浮点数乘法所需的能量远高于整数加法操作,因此在张量处理硬件中应用 L-Mul 操作,通过逐元素浮点张量乘法可以潜在地减少 95% 的能量成本,点积的能量成本可以减少 80%。我们计算了 L-Mul 的理论误差期望,并在广泛的文本、视觉和符号任务中评估了该算法,包括自然语言理解、结构推理、数学和常识问答。我们的数值分析实验与理论误差估计一致,表明具有 4 位尾数的 L-Mul 可以达到与 float8_e4m3 乘法相当的精度,而具有 3 位尾数的 L-Mul 优于 float8_e5m2。在流行基准上的评估结果显示,直接将 L-Mul 应用于注意力机制几乎是无损的。我们进一步展示,在 Transformer 模型中用 3 位尾数的 L-Mul 替换所有浮点乘法,在微调和推理中均能达到与使用 float8_e4m3 作为累加精度相同的精度。
叶子的技术碎碎念
2025/04/08
820
每周AI论文速递(241007-241011)
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
但是,当研究人员让GPT-3.5/4、Claude、Gemini、Llama、Mistral等模型回答时,得到的结果却非常离谱。只有OpenAI最新的GPT-4o勉强及格。
新智元
2024/06/17
1620
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
尽管最近在理解和响应复杂视觉文本上下文中实现了大规模视觉语言模型(LVLMs)的突破,但它们固有的假象倾向限制了在需要高精度实际场景中的实际应用。
AIGC 先锋科技
2025/01/07
1390
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
自2022年底ChatGPT发布以来,其已经在人工智能的整个领域带来了翻天覆地的变化。通过对大型语言模型(LLM)进行指令微调,并从人类反馈中进行监督微调和强化学习,表明模型可以回答人类问题并在广泛的任务中遵循指令。在这一成功之后,对LLM的研究兴趣增强了,新的LLM在学术界和工业界频繁蓬勃发展。虽然非开源LLM(例如,OpenAI的GPT, Anthropic的Claude)通常优于它们的开源同行,但后者的进展很快。这对研究和商业都有至关重要的影响。在ChatGPT成立一周年之际,本文对这类LLMs进行了详尽的介绍。
zenRRan
2023/12/05
4790
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
紧跟技术发展趋势,快速了解NLP领域最新动态。今天继续给大家分享10篇最新论文,其中涉及大模型幻觉、大模型对齐、大模型剪枝、大模型隐私、大模型毒性、大模型评估、RAG能力增强、Transformer架构优化等热门研究方向。
ShuYini
2024/01/31
7890
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉
就连号称模型更安全、幻觉更少的Claude系列,在Reddit上也能看到不少吐槽。
新智元
2024/06/17
2740
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉
XAI有什么用?探索LLM时代利用可解释性的10种策略
你是否也好奇,在大模型时代,可解释性人工智能技术(XAI)有怎样的使用价值?近日,来自佐治亚大学、新泽西理工学院、弗吉尼亚大学、维克森林大学、和腾讯 AI Lab 的研究者联合发布了解释性技术在大语言模型(LLM)上的可用性综述,提出了 「Usable XAI」 的概念,并探讨了 10 种在大模型时代提高 XAI 实际应用价值的策略。
机器之心
2024/04/12
2170
XAI有什么用?探索LLM时代利用可解释性的10种策略
人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)
“ 大型语言模型LLM 如 ChatGPT 已经得到了广泛的应用,涵盖了诸多应用领域。但也存在生成内容与事实不符的幻觉问题。这种幻觉包括输入冲突、语境冲突以及与事实相冲突的情况,给实际需求和应用构建带来了挑战。一篇最新的论文《Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models》对这一问题进行了深入研究,提出了分类和评估方法及潜在成因,同时探讨了缓解幻觉的策略,以此推动大模型应用的健康发展。”
技术人生黄勇
2024/07/19
2410
人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
就在刚刚,UCL、Cohere等机构的研究人员发现:在LLM执行推理任务时,竟存在着一种「程序性知识」。
新智元
2025/02/15
570
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」
这个现象叫做LLM的中间迷失(Lost in the Middle),是大模型当前仍面临的最大挑战之一。
新智元
2024/05/22
1540
拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」
推荐阅读
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
3190
MIT惊人证明:大语言模型就是「世界模型」?吴恩达观点再被证实,LLM竟能理解空间和时间
7850
ChatGPT说谎竟然是故意的?哈佛大学提出ITI:模型真实性翻倍,计算开销基本为零
2100
LLM幻觉,竟因知识「以大欺小」!华人团队祭出对数线性定律与CoDA策略
890
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
8030
LLM 的幻觉到底是什么,有什么办法解决?
1.5K0
OpenAI主管Lilian Weng分享RAG对抗LLM幻觉策略
1490
LLM时代NLP研究何去何从?一个博士生的角度出发
1.1K0
消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型
3990
有证据了,MIT表明:大型语言模型≠随机鹦鹉,确实能学到语义
2200
每周AI论文速递(241007-241011)
820
两句话,让LLM逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出GPT、Claude等重大缺陷
1620
上交通/重庆大学/质谱AI 提出 ICT 方法:一种即插即用的解决方案,减轻LVLMs幻觉问题 !
1390
ChatGPT一周岁啦!开源LLMs正在紧紧追赶吗?
4790
分享10篇优秀论文,涉及LLM对齐、LLM评估、LLM隐私、RAG增强等热门话题!
7890
To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻觉
2740
XAI有什么用?探索LLM时代利用可解释性的10种策略
2170
人工智能海洋中的塞壬之歌:大型语言模型LLM中的幻觉研究综述(一)
2410
AI做数学学会「动脑子」! UCL等发现LLM「程序性知识」,推理绝不是背答案
570
拯救被「掰弯」的GPT-4!西交微软北大联合提出IN2训练治疗LLM「中间迷失」
1540
相关推荐
CMU华人打破大模型黑盒,Llama 2撒谎被一眼看穿!脑电波惨遭曝光,LLM矩阵全破解
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档