在这个信息爆炸的时代,AI技术已经成为了我们日常生活的一部分。无论是学术研究,新闻报道,还是日常娱乐,AI的身影无处不在。不过随着AI应用范围的不断地扩展,一个问题渐渐地浮出水面——那便是所谓的“AI幻觉”。特别是在2025年的今天,关于DeepSeek这款AI工具的讨论,尤为热烈。有人说它的幻觉率高得吓人,这到底是怎么回事呢?
在探讨DeepSeek之前,我们需要先搞清楚到底什么是AI幻觉?毕竟这是一个很重要的前提。简单来说,当AI面对它不熟悉,且不在其知识范围内的问题时,它会依据已有的模式,并且基于逻辑进行推测,接下来给出答案。这些答案,虽说看上去有理有证,不过实际上,或许跟事实全然相悖。根据Vectara的HHEM模型(一种专门用于捕捉幻觉的判别模型)及Google的FACTS基准测量得出:DeepSeekR1版本的幻觉率高达14.3%。这意味着,在使用DeepSeek的期间,每7个回答里,或许会有1个是不够准确的。对比之下,OpenAI的GPT-o1幻觉率为2.4%。从这些数字来看,DeepSeek的幻觉问题确实不容小觑。
截图来自:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3
往往有幻觉的AI都有一个特点:过度自信。AI大模型非常容易“过度自信”,但目前AI生成答案的过程仍像一个黑箱,AI业界也不完全清楚AI的自信从何而来。总之在面对自己不懂的专业问题时,极少有AI会直接回答“不知道”;它们宁愿自信地、流畅地生成一些不准确的内容。
除了过度自信外,部分AI还常常出现“牛头不对马嘴”的情况。这是因为,AI在生成答案的时候,展现出了非常强的创造性,而这种创造性,与强调信息精确、努力降低幻觉率的要求,天然地存在着相悖之处。新浪微博机器学习团队AI Lab的负责人张俊林提到,AI大模型有一个“温度系数”(Temperature),指的是控制生成内容随机性和多样性的参数。通常来讲,具有较高温度系数(比如10以及更高的数值)的模型在生成内容时,其随机性更为显著;而且很可能会产出更多新奇的,亦或是出乎预料的结果。
尽管目前的LLM(大语言模型)存有这些状况,不过有些用户依旧对其怀有过度的期盼。正如北京大学历史学系李维教授所言,AI的幻觉本质乃是一种填补行为,是对未知信息的一种揣测,虽这种揣测有时能带来新的灵感,不过也或许会致使严重的误导。
面对AI幻觉这一棘手难题之际,科技界抛出了诸多解决方案。其中检索增强生成(RAG)这项技术,被视作一种行之有效的办法。其核心要义在于,在AI回应问题之前,参照给定的可信文本;进而保证回复内容的真实性。然而此种方法亦存在局限性,比如说计算成本较高,以及存在数据偏差等状况。谷歌Gemini模型提供的“双重核查响应”功能就是一个很好的例子。该系统会在AI生成的内容旁标注是否已通过网络搜索验证,以此提醒用户注意信息的可靠性。
回到最初的问题,LLM(大语言模型)的幻觉确实很严重,但这并不意味着我们应该对AI失去信心,重点是我们得学会正确地对待,还要明白合理地使用这些很厉害的工具。
在享受AI带来的便利之时,而且也要时常警惕那潜在的风险。
领取专属 10元无门槛券
私享最新 技术干货