先分享下搞定这个问题的方法:
补充相关的规则知识和业务知识,然后大模型就知道怎么办了。这个是关键。
技术上也有一些参数调整。这个也很重要。相比于知识的完善程序和知识的质量,重要程度低一点。毕竟是使用的人家的大模型。
给了答案是不是觉得很简单。
嗯嗯,会了都不难。重要是解决问题的思路。
下面来复盘下,整理下思路,路过的大咖有好的经验也不吝指教
事情是这样的:
简单来说,就是AI工具给的答案,业务不满意。
就其中的一点是:
明明给的知识是20Kg/桶,为什么AI给的答案是18Kg/桶。
在解这个问题前,先看下我们AI工具的数据流,有点Feeling
重点看紫色的RAG部分,这个问题之所以找我解决,是因为这个补充专业知识的“外挂”是我弄的。
去知识库中查了下,相似度都不高,召回分数最高0.42。
目前知识库这个RAG,用的是火山引擎的产品。在页面上测了下,果然,业务想要的知识没有召回。
既然知识库没有补充任何专业知识,为什么AI工具给出了18KG/桶的答案呢?
因为大模型知道。
从目前大模型的回答看,缺“西卡685包装为 20 公斤/桶”这个知识。
另外这个问题也很刁钻,问得是一个复杂问题,如果简单问包装规格
这个就回答得很好。
但是这个Sku的知识有94条,怎么把这个知识这个包装规格召回呢?
不好搞。
要换个问题:如何让大模型知道“西卡685可以涂刷多少平”这个问题,最需要的知识是“Sikalastic-685 外露型高弹耐水防水涂料,颜色有黑色、棕色、灰色,包装为 20 公斤/桶,来源为意大利”。
可以看到这个知识包含的信息除了包装规格,还有产品的介绍,还有颜色、产地。
也就是这条知识,是有噪音的。
那这个问题怎么解决呢?
再看下整体数据流,会不会有解决问题的办法:
梳理一下,影响答案的有这个因素:
1、用户的问题。
2、问题智能改写。
3、补充专业知识。
4、提示词Prompt
5、向量数据检索。稠密向量、稀疏向量、稠密+稀疏向量
6、对召回的结果进行Rerank。
重排模型将对召回出来的所有文本片使用语言模型计算问题与文本片的相关程度,得到更精准的检索结果
7、最后一个,知识的质量。也就是知识与问题的相关性。
大模型只是一个能力强的新员工,对你的业务不熟悉,你不告诉他相关的业务知识,大模型是给不出合适的答案。
这个问题最后是解决了。
各个同道猜猜,我是通过哪些办法解决这个问题。
可以留言交流