编辑丨王多鱼
排版丨水成文
大语言模型(LLM),例如ChatGPT和Gemini,是能阅读和生成自然人类语言的人工智能系统。不过,这类系统很容易产生幻觉(Hallucination),生成不准确或没有意义的内容。
然而,检测大语言模型出现幻觉的程度很难,因为生成的这些回答的呈现方式可能会让它们看起来很可信。
2024年6月17日,牛津大学的研究人员在Nature 期刊发表了题为:Detecting hallucinations in large language models using semantic entropy 的研究论文。
该研究报道了一种能够检测大语言模型(LLM)幻觉(Hallucination)的方法,该方法能测量大语言模型生成回答的含义的不确定性,或能用于提升大语言模型输出的可靠性。
在这项研究中,研究团队尝试量化一个大语言模型产生幻觉的程度,从而判断生成的内容有多忠于提供的源内容。他们的方法能检测“编造”(confabulation)——这是“幻觉”的一个子类别,特指不准确和随意的内容,常出现在大语言模型缺乏某类知识的情况下。这种方法考虑了语言的微妙差别,以及回答如何能以不同的方式表达,从而拥有不同的含义。该研究表明,他们的方法能在大语言模型生成的个人简介,以及关于琐事、常识和生命科学这类话题的回答中识别出“编造”。
论文作者表示,该方法有望帮助用户理解在哪些情况下使用大语言模型的回答需要注意,也意味着可以提高大语言模型在更多应用场景中的置信度。
Nature 在同期发表了一篇“新闻与观点”文章中指出,该任务由一个大语言模型来评估另一个大语言模型生成的内容,并通过第三个大语言模型进行评价,等于在“以毒攻毒”。“用一个大语言模型评估一种基于大语言模型的方法似乎是在循环论证,而且可能有偏差。”
论文链接:
https://www.nature.com/articles/s41586-024-07421-0
领取专属 10元无门槛券
私享最新 技术干货