始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划,各类开源模型、数据集、代码等,欢迎发布到wisemodel.cn社区。wisemodel社区持续招募志愿者,欢迎通过《加入wisemodel社区志愿者团队》了解详情。
大模型展现出了非常惊艳的文本生成效果,但是目前大模型仍然存在一个非常致命的缺陷,容易产生”幻觉“ (Hallucination),这对于大模型的实际部署是一个非常具有挑战性的问题。本文介绍了一种通过编辑LLM内部表示来激活LLM真实性的推理方法——TruthX。
论文链接: https://arxiv.org/abs/2402.17811
GitHub仓库: https://github.com/ictnlp/TruthX
-引 言-
本文关注一个基本问题:尽管大模型在拥有正确知识的情况下,还是有可能产生幻觉。本文提出一个名为TruthX的推理时方法,通过在真实空间中编辑LLM的内部表征来激活LLM的真实性,从而减轻LLM的幻觉。TruthX在LLM内部表示中识别到一个真实性方向(truthful direction),可以通过仅编辑真实空间中的一个向量来控制LLM生成真实或幻觉的响应。
下图展示了在Llama-2-7B-Chat上应用TruthX的生成结果,正向编辑可以激发LLM产生真实回复;而负向编辑完全破坏LLM真实性,生成充满幻觉的回复。
在真实性评估的TruthfulQA 基准上,TruthX 将 13 个最先进的LLMs的的真实性平均提高了20%。
-方 法-
TruthX的构建过程包括三步:
1.提取LLM内部表示
TruthX首先构造了(问题,真实回复,幻觉回复)的三元组,然后使用真实回复和幻觉回复分别激活LLM,获取LLM在不同刺激下的内部表示(attention模块和FFN模块的输出)。
2.利用自编码器(auto-encoder)探测LLM内部的真实性空间
TruthX利用auto-encoder将提取到的LLM内部表示映射到真实性隐空间(truthful space)和语义隐空间(semantic space)中,并从隐空间重构出LLM的内部表示。
在训练中,TruthX在真实回复在幻觉回复的表示间应用对比学习(contrastive learning)来区分真实/幻觉回复在truthful space中的分布,并在隐空间中探测出一个真实性方向(truthful direction)。
3. 推理时编辑LLM内部表示
在推理过程中,TruthX将LLM中的内部表示映射到真实性隐空间和语义隐空间,并沿着探测到的真实性方向编辑真实性隐空间中的表示。最后,TruthX将重构出的表示放回LLM内部,从而激发LLM的真实性。
-实验结果-
1. TruthX提升LLM真实性
本文在TruthfulQA 基准上进行实验,该数据集包含了817个有关真实性的评估问题,设置有两个评估任务:开放式生成任务和多项选择任务。结果如下表所示,TruthX能有效提升LLM的真实性。
2. TruthX有效调控LLM生成真实/幻觉的回复
TruthX沿着真实性方向可以激活LLM产生真实回复;沿着反方向仅需要一个向量即可破坏LLM的真实,产生充满幻觉的回复。
更多实验结果与分析,请参考论文。
-总 结-
本文提出TruthX,其通过在真实空间中编辑 LLM 来增强真实性,并且在LLM真实性控制上表现出卓越的能力。作者发布了内置了TruthX的Llama-2-Chat模型,您可以直接从wisemodel社区下载使用,获得真实性增强的LLM。
供稿:张绍磊
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”)
系统升级
领取专属 10元无门槛券
私享最新 技术干货