1、 上下文矛盾→上一个段落说喜欢,下一个段落说不喜欢;
2、 与问题要求不一致→上海有什么美食?东京寿司之神店铺!
3、与事实矛盾→ 企鹅生活在北极,它们穿着羽绒服保暖;
4、荒谬回复→人是狗,狗可以飞;
1、数据噪声,网上一些不靠谱,未经事实验证的文章,比如某健康类文章错误声称 "吃香蕉能治抑郁症",模型可能在相关对话中重复这一错误,又比如 5 天云南旅游某攻略错误标注石林景区溶洞开放时间为全年无休,实际因地质维护每年 11 月闭馆。游客按过时信息安排行程,导致当日无法参观核心景点→这也是 rag 出现的必要性。
2、数据缺乏多样性,知识出现盲区,当问题涉及模型未接触过的领域时,会通过 "逻辑拼接" 生成看似合理的错误内容,旅游攻略未收录 2025 年新增的「洱海生态科普馆」,游客错失近距离观察高原湖泊生态系统的机会,仍沿用旧版行程中重复的环湖路线。
3、大模型 rag 过程中,出现过渡拟合陷阱,过度优化训练数据导致模型 "死记硬背" 特定模式。比如云南穷游 5 天,模型过度依赖 "穷游必去清单",行程重复安排大理床单厂艺术区、昆明创库艺术区等同类免费展览。
4、生成过程,自回归生成方式导致错误累积,比如自回归生成优先满足 "低价" 标签,忽视生理健康需求,为凑满 5 天,将昆明→大理→丽江的跨城交通全部安排为凌晨大巴(票价 50 元),导致游客连续三天睡眠不足 4 小时。
5、prompt工程,不够明确,比如,推荐 1500 穷游云南 5 天, 将 "预算" 理解为纯交通 + 住宿费用,未包含餐饮和门票,推荐夜卧大巴(300 元)+ 青旅(200 元),但实际需额外支付苍山门票(40 元)、玉龙雪山进山费(100 元)等刚性支出,实际应该在提示词中涉及预算规划要包含交通、住宿、餐饮、门票,不含购物。
6、没有微调,未经过专业领域微调做预训练的通用模型存在知识断层,比如没有针对高原环境调整行程,将玉龙雪山登顶安排在下午 3 点,此时氧气含量较低且常有云雾遮挡,最佳观赏时段实为日出后 2 小时内→引入微调模型。
这里不得不插播一下 deepseek MoE 的🐂🍺之处
核心机制: Transformer解码器采用自回归生成方式,即逐词生成时仅依赖已生成内容,无法全局调整。具体表现:
混合专家模型(MoE):
实现基本流程:
构建思路:
上述分享内容,皆是我在实践中沉淀而来的心得。关于具体操作方法,我会专门撰写一期文章进行详细的实操讲解,助力大家更好地掌握。最近在做项目,文章更新会慢一些,倘若在这期间,大家遇到任何疑问,欢迎随时与我单独沟通交流。咱们共同探讨、携手学习,在前行的道路上持续成长与进步 。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。