通过对大量的数据(如fineWEB数据有44T数据,15万亿的token)进行训练,获得了base模型,可以把base模型当成具有互联网模糊印象的互联网文档生成器。
再通过SFT微调,把对话数据集给入base模型进行训练,可以获得可以人类对话对齐的SFT模型,这个模型可以作为助手模型。
这个时候,大模型针对同样的提示,会生成答案,那么哪种答案是最好的,这时就需要通过RLHF进行微调,让大模型输出最佳答案,,此时获得的是RL模型。
以上就是大模型训练的基本过程。
这个过程让大模型知道了互联网的信息,和人类对话实现对齐,和人类最佳答案实现对齐。那如何大模型遇到未知领域的问题呢?大模型依然会猜想,这个问题的出现不是大模型的智力问题,而是知识没有见过的问题,这个时候,就可以通过构建知识库(RAG)或联网搜索(工具)的方式实现。
本文主要解决的问题就是在教育领域的大模型知识库建设问题,并尝试实现一个工作流。
以下操作基于腾讯的大模型知识引擎 LKE实现,链接地址如下:
https://cloud.tencent.com/product/lke
腾讯云大模型知识引擎是基于大模型的知识应用构建平台,结合企业专属数据,更快更高效地搭建Agent、RAG、工作流等多种模式应用,推动大语言模型在企业中的应用落地;大模型知识引擎已内置Deepseek-R1、V3模型,可以分钟级快捷搭建并发布联网应用,且提供API快速接入。
进入大模型知识引擎 LKE官网
https://cloud.tencent.com/product/lke
出现如下图,有预算不差钱的朋友们可以立即购买。
本人点击产品体验,先体验下大模型知识引擎 LKE
侧边栏的应用管理
点击产品体验后,默认进入应用管理页面
该页面可以新建自己的应用
点击系统管理,可以查看到自己现在资源信息。单击该页面的知识库容量扩展还可以看到知识库的容量,默认是3000000个字符。
点击插件中心,这些插件对应提供的工具,包括图片理解,搜索等。
点击体验中心,这里包含了已经创建好的一些应用,我们可以基于这些应用进行搭建新的应用。
切换到应用管理页面
新建应用包含
新建应用 配置应用 测试与发布 三个步骤
单击新建应用,并启名字为“教育机构小助手”
在模型配置处,可以选择思考模型和生成模型,并选择上下文的记忆轮数,
模型的意义如下:
选择v3模型可以减少token的使用,并提高响应速度,这对于回答问题的时效性有一定的意义。
角色指令这块,应用内部提高了模板和一键优化功能,首先点击模板
根据内容,完成我们自定义的角色指令,官方建议意图不要超过5个。
我提供的意图如下,需要注意的是,一定不要在蓝色的阴影区写内容,把蓝色阴影区删除后,再填写,否则会被当作注释,无法识别。
#角色名称:你是一个信奥赛编程机构很了解信奥赛相关政策和知识的咨询和授课老师/
#风格特点:言语准确,可以把用户的问题精准的回答出来/
#输出要求:输出格式为markdown格式,可以突出重点,内容字数根据问题确定,输出语言为中文/
#能力限制:不回答与政治相关的内容/
能够达成以下用户意图
##意图名称:信奥赛的考试时间/
##意图描述:用户咨询CSP-J的考试时间/
##意图示例:用户想了解当年CSP-J的考试时间,CSP-J分为初赛和复赛,应该都提供出来/
##意图实现:今年是2025年,今年CSP-J第一轮时间为9月20日,CSP-J第二轮时间为11月1日/
#角色名称:你是一个信奥赛编程学习者的孩子,有一些关于信奥赛关注的问题想要提问/
#风格特点:言语准确,可以把用户的问题精准的回答出来/
#输出要求:输出格式为markdown格式,可以突出重点,内容字数根据问题确定,输出语言为中文/
#能力限制:不回答与政治相关的内容/
能够达成以下用户意图
##意图名称:孩子学习信奥赛有什么注意事项/
##意图描述:用户咨询孩子学习信奥赛有什么注意事项/
##意图示例:用户想了解孩子学习信奥赛有什么注意事项,应该都提供出来/
##意图实现:孩子学习信奥赛需注重基础扎实,特别是算法与数据结构知识的掌握至关重要。持续学习新知识,保持对计算机科学领域的好奇心,同时通过大量实践练习提升解题能力。合理安排时间,避免过度劳累,确保学习效率。面对挑战时,培养抗压能力和积极心态,视失败为成长的机会。与其他同学交流可以拓宽思路,团队合作同样重要。保持健康的生活习惯,充足的睡眠和适当的运动有助于维持良好的状态。适时寻求教练指导,利用专业意见优化学习方法。关注竞赛相关信息,紧跟最新动态,确保准备过程顺利高效,以此全面发展个人能力。/
然后基于AI优化一下
根据主题,设置欢迎语。
首先把准备好的文档,
选择传到知识库中
上传文档包括本地和网络,首先上传本地文档
文档设置分类和标签
导入完成,单击导入文档,导入完成,可以看到使用的字符数量
再提供一些网络文档
选择知识库的问答
本地的问答文档
选择新建,选择手动录入问答
录入如下内容
录入结果如下
批量导入的话,需要使用指定模板,我的问答数量不多,就手动录入了
打开联网输出
待定,我将模仿智能客服,配置一个工作流,待定···
学员数据不便于公开,这里采用一个模拟生成的数据。
import pandas as pd
from datetime import datetime, timedelta
# 初始化数据
students = ["张伟", "王芳", "李娜", "刘涛", "陈丽", "杨柳", "黄晓", "周杰", "吴军", "郑洁"]
courses = ["Python", "C++", "Scratch"]
teachers = ["李老师", "王老师", "张老师", "赵老师"]
data = []
# 生成数据
for i in range(1000):
student = students[i % len(students)]
phone = f"13800000{i:04}"
course = courses[(i // len(students)) % len(courses)]
teacher = teachers[(i // (len(students) * len(courses))) % len(teachers)]
start_date = datetime(2025, 3, 15) + timedelta(days=i)
end_date = start_date + timedelta(days=30)
performance = ["优秀", "良好", "需要改进"][i % 3]
data.append([student, phone, teacher, course, start_date.strftime("%Y-%m-%d"), end_date.strftime("%Y-%m-%d"), performance])
# 创建DataFrame并导出为Excel
df = pd.DataFrame(data, columns=["姓名", "电话", "授课老师", "学习课程", "课程开始时间", "课程结束时间", "课堂表现"])
df.to_excel("少儿编程学员信息.xlsx", index=False)
python运行上面的代码,生成数据后,导入到知识库的文档中。
工作流管理--新建--手动录入
工作流的描述如下
我们的工作流描述为"查看xx的上课次数"
#场景描述:查看"学生姓名"的上课次数
#常见问法:"学生姓名"上了多少课时?"学生姓名"学多久了。
新手可以先查看下开发票流程的工作量
每个节点的类型都在左侧可以看到
删除其它的节点,只保留初始的开始和结束节点
添加收集参数节点
添加大模型
添加回复
结束节点
调试查看张伟和陈丽的上课次数
注意这里的查询次数最好可以调用本地的api,因为是固定的值。
都设置完成后,单击发布,完成应用发布
单击发布,然后填入发布说明
发布完成
单击发布管理,体验
可以单击立即体验,在新的页面进行问答,即可
到此,完成了教育领域的大模型知识引擎 × DeepSeek应用
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。