大语言模型在企业内部知识问答中可能会出现幻觉等问题, 检索增强生成(RAG)是减轻大语言模型幻觉的一种有效手段,那如何评估检索增强生成的结果是否准确? 如何确定RAG产品是否可用,是否有标准可以判断?
RAG智能问答系统介绍:
如何基于向量数据库+LLM(大语言模型)打造企业专属Chatbot?
因此对RAG目前可以使用的评测工具或方法进行调研,从业务角度出发选择合适的评估框架。
01
—
RAGAs
RAGAs(检索增强生成评估)是一个评估框架,最初是作为一个无参考标准的评估框架而设计,这意味着在评估数据集时,不必依赖人工标注的标准答案,而是通过底层的大语言模型(LLM)来进行评估。整个RAG流程中涉及两个不同的组件:
在评估RAG流程时候,可以单独对两个组件进行评估,再综合考虑。因此需要考虑两个元素:评估指标和评估数据集
RAGAs需要以下几种信息:
RAGAs从组件层面和整体流程两个方面评估RAG流程的性能。
RAGAs提供了评价检索组件(包括context_relevancy和context_recall)和生成组件(包含faitfulness和answer_relevancy)的专门指标
所有指标的评分范围在【0,1】之间,分数越高表示性能越出色。
答案的语义相似度和答案的正确性;
02
—
Trulens
主要根据Query(问题),Response(回答),Context(上下文)从以下几个方面进行评估:
groundedness:主要用于检测LLM幻觉,response是否严格基于召回知识产生,找到response中句子在context中存在的证据,评估回复是否基于知识生成;
answer_relevance:主要用于response相关性评估,找到相关的证据并打分,评估是否跟问题相关;
context_relevance:主要用于知识召回相关性评估,找到相关性证据并打分,评估召回知识是否跟问题相关;
Groundtruth :用于 response 准确性评估,使用已有的测试集标准答案进行对比评估,并打分。
03
—
生成式搜索引擎
理想的RAG系统应该是:
简单来说就是生成的内容和外部的知识不匹配。
可以采用4个指标来进行评估:
一个优秀的RAG系统应该在引文召回率和引文精度上获得较高的评分。
流畅性、实用性
纯人工打分计算得来,给评测者对应的评测指标。
引文召回
引文召回率是指:得到引文支持的生成内容/值得验证的生成内容;
因此计算召回率需要:
什么是值得验证,可以简单理解为是生成内容所包含的信息的部分,实践中几乎所有的生成内容都可以看做是值得验证的内容,所以这个召回率可以近似等于:召回率 = 引文支持生成的内容/总的生成内容
引文精度
引文精度是指生成的引文中支持其相关的陈述比例,如果生成的内容为每个生成的语句引用了互联网上的所有网页,那么引文召回率就会很高,但是引文精度很低,因为很多文章都是无关紧要的,并不支持生成内容。
精度 = 与特定主题相关的文献梳理/检索到的内容;
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有