又又获奖啦。短短6个月,50%以上作品得到首页推荐,喜出望外接连获得平台授予最佳作品奖、影响力作者、创作者之星荣誉。在写作分享的这条路上,特别感谢腾讯云开发者社区的不断认可和激励,给了我不断的成长进步空间。开心之余、荣誉之后,无形之中对自己也有了更高的要求和期望,持续坚持去做难而正确的事!2025年属于AI agent元年,除了分享主流技术框架,将更多分享AI方面的实践。
一、前言背景
二、AI大模型核心技术
2.1 大模型推理核心过程
2.2 LLM类型
三、prompt工程
3.1 参数配置
3.2 最佳实践
四、大模型应用高阶技术
4.1 RAG技术
4.1.1 RAG的核心原理
4.1.2 RAG的类型
4.1.2 RAG的应用场景和优势
4.2 模型微调(fine-Tuning)
4.2.1 微调的方法
4.2.2 模型微调和RAG对比
五、AI对我们的本质影响是什么?
2010年至今,我们见证了移动互联网时代、大数据时代、短视频时代,以及炙手可热的通用AI时代。科技技术迭代之快,让15年时间短得仿若一梦。而强大的AI智能,到底会给我们的现实世界产生哪些影响,尤其是全社会对超级AI能力的无限期许,让AI技术的每一个进展都会成为时下社会关注和讨论的热点。
从2023年底ChatGpt一炮走红,至今不到2年,关于AI技术大模型,涌现的各种技术概念到底是什么?整体AI技术的突破和普及,对普通人又有哪些本质影响?
今天围绕这两个问题,我们进行详细探讨。一来梳理了解掌握AI大模型技术核心技术能力,二来作为一个普通人,如何思考应对和跟上AI时代的进步。
在这信息科技时代,作为一名IT从业人员、尤其是编程研发人员,可以直接探索应用每一项新技术,个人觉得深感荣幸。
最近两年与LLM大模型相关的技术概念,层出不穷。比如AI智能体agent、prompt提示工程、模型推理、RAG、模型微调、模型评估、MCP等关键技术,如果不是亲自实践探索,技术人员同样会感觉陌生。接下来一一浅谈,后面再具体结合实践案例详解。
首先,AI大模型不同类型有不同叫法,最早是通用AI大模型、垂直领域大模型。我们普通人接触的元宝、deepseek、kimi等都是通用大模型。用起来也非常简单,我们只要提问题,大模型就能给出专家级的答案。
但是大模型背后的推理过程是怎样的呢?借鉴网上一个非常详细的推理流程图:
大模型的推理过程,实际是通过训练好的模型利用输入的新数据(我们的提问)进行运算得到正确结果的过程,大模型本质依然是一个概率模型。它的推理过程和人的思考过程很相似,尤其是deepseek的出现,让大模型的的核心推理过程可视化,也直接提高了大模型推理结果的可解释性。LLM的推理过程大致如下:
我们给大模型输入一段内容,大模型如何推理得到结果?它的核心在于首先将输入的token映射为更高维度的向量,这个和深度学习的基本思想是一致的,通过高维度向量来表达数据内容。
大模型短短两年发展实在太快,日新月异,新概念新说法新应用层出不穷。而LLM类型,最早是分base模型、chat模型。
base模型是最基础的大模型,它仅仅是在海量文本训练后,提供对文本后续内容预测的模型。base模型给出的响应,仅仅是后续文本的预测,未必真的会是对话命令的响应。比如你问:北京今天的天气怎么样?base模型给出的后续文本预测是:【北京今天的天气怎么样?今天是否适合出行?外面交通情况如何?让我们来分析看看....xxx】
chat模型,是在base模型基础上通过对话记录、指令做强化学习和微调得到具备落地应用能力的大模型。它可以接受用户输入的指令和问答,给出的答案也是遵循之前训练、符合人类预期的AI助理级别的响应内容。ChatGpt也是从这里开始一夜走红。让AI真的像一个AI专家助理出现在大众视野。
此外,根据大模型的能力用途进行扩展分类,市场主流有通用大模型,各大应用店都可以下载用于对话聊天、资讯内容搜索、资料分析总结,这些免费开源的通用大模型,必须满足相关规定才可提供给大众应用。而垂直领域行业专用的商用大模型,大都在各个有能力公司内部自研和自用,这类模型大多有特定商业价值。还有的支持文本分析、多媒体视音频制作整理分析等多模态模型,以及最近发展越来越好的agent智能体,可以直接授权接管电脑手机系统,一句话让agent给你干活的AI助理。
对于普通人来说,以及去年大多没有很强的AI研发能力企业,主要是通过prompt 工程在应用大模型的能力。
而prompt的应用也有很多技巧,尤其是研发人员在对接大模型开发过程需要了解和应用这些参数。这些参数将对大模型创作力和确定性产生明显影响。
首先是temperature。这个被称为温度的参数值范围是0-1。当temperature越接近于0,则要求得到高确定性结果。对于创作、想象力推理,比如写诗、写歌,就适合把temperature设置为1,让大模型拥有最高的想象力去推理编写。而对于数据计算分析、股票行情预测、客服问答这种有标准规范精准度要求严格的场景,适合设置为0,让大模型给出确切的结果。
temperature对应影响就是上文2.1推理过程说的logits,每个标记有一个概率值。temperature越低,大模型能选择的top_n就越少,就倾向于选择那些概率值最大的logit。
其次是top_p:top_p和temperature统称为核采样技术(nucleus sampling),专门用来控制模型返回结果的确定性。如果需要准确事实答案,top_n和temperature都应该尽可能调低,甚至为0。如果期望得到富有想象力多样化的结果,就把它调大,甚至为1。Temperature 和 Top P ,一般设置其中一个参数就行。
然后,频率惩罚frequency penalty参数,是对结果重复token的惩罚。这个惩罚值和token在响应和提示出现次数成比例。frequency penalty越高,大模型在响应时出现重复token的可能性就越低。
以及,存在惩罚Presence Penalty参数,这个参数和frequency penalty作用类似,只是这个惩罚对所有重复token是相同的。也就是重复10次和重复100次的token受到的惩罚相同。如果希望模型响应多样化有创作力的结果,就增加这两个参数值,对大模型实施强惩罚。如果希望大模型生成内容更专注,设置较低的参数值。Presence Penalty和frequency penalty这两个参数一般也是设置一个即可。
最后,最大长度max length,用来控制大模型生成token数量。设置这个值有利于防止大模型生产冗长和不想干的内容,以及控制成本。
prompt是一个完整工程,涉及的内容会很多,不过随着AI技术的进步,prompt的应用要求很可能很快会大幅降低。
首先,prompt应该包含LLM的风格角色,有助于大模型在多轮对话保持稳定。比如在提问之前,设定好大模型的角色:你是一个xx的投顾研究员,擅长xx。
其次,限定任务职责风格:可以回答xxx相关问题,并严格遵守xx,在对话过程保持专业、包容尊重的语气风格。
最后,具体的用户提问内容+对响应格式明确要求,比如要求以json格式,xx的key是xx,并提供一个demo让大模型参考。
这是一个非常常规的一个实践,对于普通用户日常应用AI搜索,甚至只需要在提问里增加大模型角色,以及明确自己需求,大模型就可以给出满意的响应。
在技术侧应用,我们研发很多时候需要考虑合规问题、兜底问题、结果准确性、用户满意度等问题。比如在prompt里,增加一段说明来指导大模型响应:
1、如果答案不确定,可以回答:xxxx,并建议xxx,最后贴上:本内容由AI生成,xx需谨慎。
2、请严格参考xxx里的内容进行响应,不得违反xx。
3、如果结果不满意,可以通过xxx去获取最新知识信息,并重新按要求给出响应。
总的来说,prompt需要明确告诉大模型,你希望它扮演什么角色,并细致说明你的需求,避免模糊笼统的提问,尤其可以通过优质例子和准确的上下文信息,让模型理解你的意图背景。此外需要给模型容错空间还有激励模型反思。
目前RAG技术、和大模型普通支持联网搜索能力的出现,让大模型获取最新知识和专业知识库已经不再是难题,这也让prompt高阶应用要求正在降低。
AI大模型目前企业内部研发实践主要是通过RAG、模型微调、模型蒸馏、还有function call等方式。不过RAG、模型微调的方式较为普遍,function call实际和RAG有异曲同工之妙。随着MCP的实践普及,function call的方式应用可能很快又被减少。
RAG(retrieval-augmented generation )检索增强生成,是AI大模型应用的创新方法。通过结合信息检索和文本生成能力,有效提升大模型在知识密集型任务的准确性、可靠性、可解释性,以及大幅减少大模型的幻觉。在deepseek出来之前,很多模型不具备联网搜索能力,目前市面上的【联网搜索】实际也是一种RAG,也称为知识库外挂。
但是在企业应用中,RAG往往是企业内部不便公开的业务数据、知识库。RAG技术价值,在垂直领域大模型里非常明显。比如企业内部的用户数据、沉淀多年的数据仓库、搜索平台数据,研报、法律文本、合同等。RAG让数据孤岛不再孤单,让没有能力自研大模型,没有能力购买GPU的企业,也可以快速应用处于孤岛的数据价值。
RAG核心技术主要包括检索和生成两个阶段。
检索Retrieval:当用户输入问题或者请求后,RAG先通过外部知识库,比如数据库、网页、文档检索与问题相关的数据片段和内容。对应【联网搜索】,就是先从互联网上搜索相关资讯、文章、内容。
生成generation:将检索到的相关内容+具体问题一并输入到大模型中,大模型会基于检索内容生成有明确依据的响应,可以大幅提升大模型可解释性、并减少大模型凭空编造的风险。
RAG技术实现流程大概分3步。首先,构建知识库,比如用于搜索的es、向量数据库FAISS。其次在检索阶段,对用户问题进行编码转为向量,然后通过相似度匹配从知识库里提取top-k的相关数据内容。最后内容生成阶段,将用户问题+检索到的内容拼接,输入给大模型,得到响应。
RAG的prompt提示词,通常设计为:请基于以下依据、证据、原始xx业务数据:{检索阶段得到的数据内容},回答问题:{具体的问题}。并在回答里按xxx要求。。。
实用的RAG技术,随着不断发展,按照不同特点能力,也衍生了几种类型。
RAG适用于对数据时效性高、依赖领域专业知识场景,比如医疗、金融、法律等这种业务场景,以及其他需要实时动态整合应用各种数据、分析有来源依据、准确性要求高的场景。
由于RAG拥有不需要重新训练大模型、计算成本低的优势,所有大模型应用都希望可以实现自己的RAG,让大模型充分发挥它的推理能力,以及提高大模型的可解释性、增强大模型信任度、减少大模型幻觉,这些问题在RAG出来之前都是非常难解决的问题。
不过RAG也有一个缺点,由于新增了检索阶段,在响应上会增加延时,对用户流畅体验上有一些影响。另外维护知识库、数据清洗的成本,相比得到高质量的响应,就不足为道。
在deepseek开源之前,很多企业都在通过微调方式去优化自研的大模型。模型微调也是大模型实践的核心技术,主要是通过预训练好的通用大模型,比如GPT、LLaMA、Bert,通过领域特定的数据集进行针对性的训练,让大模型具备特定任务场景的能力。
模型微调,目标是将通用大模型变成拥有某项专业能力的大模型。往往模型微调后,后续数据更新,模型能力迭代,为了降低重新训练微调成本,需要结合RAG进行使用才能得到较好的效果。
此外还有小样本微调(few shot fine-tuning)、持续微调(continual fine-tunning)、领域自适应微调(domain Adaptation)方法。
对于核心的大模型优化有关键作用的模型微调和RAG技术,参考对比列举他们的部分特点。
能力特点 | RAG检索增强生成 | FT模型微调 |
---|---|---|
知识更新 | 近实时更新知识,通过直接更新检索知识库,保持信息数据时效性。无需重新训练大模型。 | 更新频率很低,更新成本高。知识与数据更新需重新训练。 |
外部知识 | 擅长利用外部资源,适合文档或其他结构化/非结构化数据库。 | 可对齐预训练学到的外部知识,但对频繁更改的数据源不实用。 |
数据处理 | 对数据加工和处理的要求低。 | 依赖高质量数据集,有限的数据集可能不会显著提升性能。 |
模型风格 | 擅长整合外部知识,但无法完全定制模型的行为或写作风格。 | 允许调整模型的行为、写作风格或特定领域知识(如语气或术语)。 |
可解释性 | 可追溯特定数据源的答案,提供更高级的可解释性和可溯源性。 | 类似黑匣子,反应原因不明确,可解释性较低。 |
计算资源 | 需要高效检索策略、大型数据库技术及外部数据源集成维护,但整体成本较低。 | 依赖高质量训练数据集、定义微调目标及相应计算资源,成本较高。 |
延迟和实时要求 | 由于需要进行数据检索,可能有更高延迟。 | 无需检索即可响应,延迟较低。 |
减少幻觉 | 回答基于检索增强得到的依据内容,不易产生幻觉。 | 通过特定领域训练数据减少幻觉,但对不熟悉输入仍可能产生幻觉。 |
道德和隐私问题 | 问题来源于外部数据库检索的文本。 | 问题源于训练数据中的敏感内容。 |
在今年春节前,也就是deepseek出现之前,国内的AI技术发展和应用,存在计算资源限制,导致大模型幻觉、推理效率、模型训练迭代速度慢等问题。间接导致社会对AI普及大众的速度有较大的疑虑,观望者居多。场内只有有资金、技术实力的企业在埋头攻关。
也可以说在deepseek出现之前,大家对AI的应用非常有限,有一种手上拿着万斤金箍棒,但是仅限于把它当做用来挑水的工具,大材小用。
而deepseek的出现,不仅掀起了全世界AI追赶应用的浪潮,也极大提高大家对AI技术可以改变世界的信心和期望。更为甚者,企业开始产生了巨大焦虑,高层、乃至基层员工都在焦虑,如何赶上这波红利。
而对我们普通人,尤其是非程序员的普通人,AI对我们的本质影响是什么?
个人觉得,AI大模型,就是一个免费开源超级专家。对于善于探索、主动学习的人,AI大模型的出现,堪比自己在现实世界开挂获得了一个天才智囊团,几乎可以为你的现实生活提供全部帮助。只需你去执行,或者你让你的现实助理去执行。
对于程序员来说,AI的技术红利,我们拥有绝对的优先权。我们可以研发属于自己的AI agent,我们可以重构存量的IT技术世界,让互联网一切都变得AI。
推荐阅读拉丁解牛相关专题系列(欢迎交流讨论公众号搜:拉丁解牛说技术):
1、设计模式觉醒系列(03)创建型模式的5个设计模式 | 一口气讲全讲透
2、Git进阶笔记系列(01)Git核心架构原理 | 常用命令实战集合
3、Maven实战进阶(01)面试官:Maven怎么解决依赖冲突?| 有几种解决方式
4、JVM进阶调优系列(10)敢向stop the world喊卡的G1垃圾回收器 | 有必要讲透
5、MySQL进阶突击系列(09)数据磁盘存储模型 | 一行数据怎么存?
6、JAVA并发编程系列(13)Future、FutureTask异步小王子 7、框架源码私享笔记(01)Tomcat核心架构功能 | 配置详解
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有