Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >基于任何数据集创建LLM(Large Language Models)机器人

基于任何数据集创建LLM(Large Language Models)机器人

作者头像
somenzz
发布于 2023-08-22 06:34:11
发布于 2023-08-22 06:34:11
28600
代码可运行
举报
文章被收录于专栏:Python七号Python七号
运行总次数:0
代码可运行

今天偶然翻到一个仓库 Embedchain,觉得很实用,分享给大家。仓库地址如下:

https://github.com/embedchain/embedchain

它是基于 OpenAI 的,但是你可以添加自己的数据集,然后生成一个对话机器人,使用方法简单,很容易上手。

Embedchain 简介

Embedchain 是一个可以方便地基于任何数据集创建 LLM(Large Language Models)机器人的框架。它抽象了加载数据集、分块、创建嵌入向量以及存储在向量数据库中的整个过程。你可以使用 .add.add_local 函数添加单个或多个数据集,然后使用 .query 函数从添加的数据集中查找答案。

假如你崇拜一个很厉害的人 - Naval Ravikant,你想把他的知识做成一个对话机器人,你可以把他的 Youtube 视频、PDF 书籍、博客文章,以及你提供的一个问题和答案对,添加到 Embedchain,Embedchain 将为你创建一个机器人。这是一个例子:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from embedchain import App

naval_chat_bot = App()

# 嵌入在线资源
naval_chat_bot.add("youtube_video", "https://www.youtube.com/watch?v=3qHkcs3kG44")
naval_chat_bot.add("pdf_file", "https://navalmanack.s3.amazonaws.com/Eric-Jorgenson_The-Almanack-of-Naval-Ravikant_Final.pdf")
naval_chat_bot.add("web_page", "https://nav.al/feedback")
naval_chat_bot.add("web_page", "https://nav.al/agi")

# 嵌入本地资源
naval_chat_bot.add_local("qna_pair", ("Who is Naval Ravikant?", "Naval Ravikant is an Indian-American entrepreneur and investor."))

naval_chat_bot.query("What unique capacity does Naval argue humans possess when it comes to understanding explanations or concepts?")
# 答案:Naval 认为,人类在理解解释或概念方面拥有独特的能力,这是在这个物理现实中可能的最大程度。

Embedchain 使用

要开始使用 Embedchain,首先确保你已经安装了该包。如果还没有安装,可以使用 pip 进行安装:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install embedchain

Embedchain 使用 OpenAI 的嵌入模型创建块的嵌入,使用 ChatGPT API 作为 LLM,给出相关文档的答案。确保你有一个 OpenAI 帐户和 API 密钥。如果你没有 API 密钥,可以通过访问 此链接 [1] 创建一个。

一旦你有了 API 密钥,将其设置在一个名为 OPENAI_API_KEY 的环境变量中

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import os
os.environ["OPENAI_API_KEY"] = "sk-xxxx"

接下来,从 embedchain 中导入 App 类并使用 .add 函数添加任何数据集。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

from embedchain import App

naval_chat_bot = App()

# 嵌入在线资源
naval_chat_bot.add("youtube_video", "https://www.youtube.com/watch?v=3qHkcs3kG44")
naval_chat_bot.add("pdf_file", "https://navalmanack.s3.amazonaws.com/Eric-Jorgenson_The-Almanack-of-Naval-Ravikant_Final.pdf")
naval_chat_bot.add("web_page", "https://nav.al/feedback")
naval_chat_bot.add("web_page", "https://nav.al/agi")

# 嵌入本地资源
naval_chat_bot.add_local("qna_pair", ("Who is Naval Ravikant?", "Naval Ravikant is an Indian-American entrepreneur and investor."))

如果在你的脚本或应用中有任何其他的应用实例,你可以更改导入如下

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from embedchain import App as EmbedChainApp

# 或者

from embedchain import App as ECApp

现在你的应用已经创建好了。可以使用 .query 函数获得任何查询的答案。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
print(naval_chat_bot.query("What unique capacity does Naval argue humans possess when it comes to understanding explanations or concepts?"))
# answer: Naval argues that humans possess the unique capacity to understand explanations or concepts to the maximum extent possible in this physical reality.

支持的格式

支持以下格式:

Youtube 视频

要将任何 Youtube 视频添加到你的应用中,使用数据类型(.add 的第一个参数)为 youtube_video。例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
app.add('youtube_video', 'a_valid_youtube_url_here')

PDF 文件

要添加任何 PDF 文件,使用数据类型为 pdf_file。例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
app.add('pdf_file', 'a_valid_url_where_pdf_file_can_be_accessed')

注意,不支持密码保护的 PDF。

网页

要添加任何网页,使用数据类型为 web_page。例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
app.add('web_page', 'a_valid_web_page_url')

文本

要提供你自己的文本,使用数据类型为 text 并输入一个字符串。文本不会被处理,这可以非常多样化。例如:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
app.add_local('text', 'Seek wealth, not money or status. Wealth is having assets that earn while you sleep. Money is how we transfer time and wealth. Status is your place in the social hierarchy.')

注意:这在示例中没有使用,因为在大多数情况下,你将提供整个段落或文件。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python七号 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
如何从文档创建 RAG 评估数据集
通过上传 PDF 文件并将其存储在矢量数据库中,我们可以通过矢量相似性搜索检索这些知识,然后将检索到的文本作为附加上下文插入到 LLM 提示中。
致Great
2025/01/03
4810
如何从文档创建 RAG 评估数据集
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
一图胜千言,LangChain已经成为当前LLM应用框架的事实标准,这篇文章就来对LangChain基本概念以及其具体使用场景做一个整理
Kevinello
2023/09/06
2.5K0
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
「长文」可能是目前最全的LangChain AI资源库之一
本文是对之前整理过的一版LangChain资源库的更新版本,原整理的地址为:基于LangChain的优秀项目资源库
山行AI
2023/09/08
2.8K0
「长文」可能是目前最全的LangChain AI资源库之一
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
在ChatGpt引领的AI浪潮下,一大批优秀的AI应用应运而生,其中不泛一些在某些行业或领域中探索AI技术或应用落地的案例。不得不说,AI正在重塑各个行业。众所周知,Rasa是一个非常优秀的,用于构建开源AI助手的框架,它允许开发人员创建自然语言对话系统,包括聊天机器人、语音助手和智能助手。本文介绍的是一个基于Rasa和Langchain之上,通过将LLM的能力赋予Rasa建立的聊天机器人平台。
山行AI
2023/06/14
4.5K0
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
使用ChromaDB和Python构建RAG驱动的LLM聊天应用
利用检索增强生成 (RAG) 和大型语言模型 (LLM) 的强大功能来创建生成式 AI 应用程序。
云云众生s
2024/04/05
1.2K0
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
机器之心 & ArXiv Weekly Radiostation参与:杜伟、楚航、罗若天 本周论文包括:DeepMind 和瑞士洛桑联邦理工学院 EPFL 的研究者用强化学习控制核聚变反应堆内过热的等离子体,获得成功。 目录 Magnetic control of tokamak plasmas through deep reinforcement learning Red Teaming Language Models with Language Models  PICO: CONTRASTIVE LAB
机器之心
2022/03/04
1.1K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
自ChatGPT为代表的大语言模型(Large Language Model, LLM)出现以后,由于其惊人的类通用人工智能(AGI)的能力,掀起了新一轮自然语言处理领域的研究和应用的浪潮。尤其是以ChatGLM、LLaMA等平民玩家都能跑起来的较小规模的LLM开源之后,业界涌现了非常多基于LLM的二次微调或应用的案例。本项目旨在收集和梳理中文LLM相关的开源模型、应用、数据集及教程等资料,目前收录的资源已达100+个!
汀丶人工智能
2024/04/29
3K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
Top 50机器学习项目实战总结
整理 | 胡永波 根据《纽约时报》的说法,“在硅谷招募机器学习工程师、数据科学家的情形,越来越像NFL选拔职业运动员,没有苛刻的训练很难上场了。”毕竟,高达124472美元的平均年薪可不是谁想挣就能挣到的。 正如职业运动员每天都要训练一样,机器学习的日常练习也是工程师生涯得以大踏步前进的基本保障。仅2017年一年,机器学习领域总结此类实战经验的文章便已超过20000篇,该领域相关职位的热度自是可见一斑。 从中,我们筛选出50篇最好的经验和心得,囊括了机器学习在15大细分领域的各项典型应用: 图像处理
企鹅号小编
2018/02/02
1.9K0
Top 50机器学习项目实战总结
ROS(1和2)机器人操作系统相关书籍、资料和学习路径
ROS发展10年了,已经逐渐成为通用的机器人操作系统标准。ROS 2相关资料链接:http://blog.csdn.net/zhangrelay/article/details/78778590。
zhangrelay
2019/01/23
2.3K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
NL2SQL基础系列(1):业界顶尖排行榜、权威测评数据集及LLM大模型(Spider vs BIRD)全面对比优劣分析[Text2SQL、Text2DSL]
汀丶人工智能
2024/04/18
1.7K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
今天我将介绍:如何使用Kimi API将文档转换为LLM指令监督微调数据集(Alpaca 格式)以及 如何部署FastGPT并接入Kimi API:
AI进修生
2024/12/02
5850
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
# 人工智能驱动的生产力手册(二)
随着高中旅程的结束,贾森发现自己处于一个十字路口,不确定接下来该选择哪条道路。凭借他令人印象深刻的学术记录,他有机会申请任何数量的机构,但对自己未来的目标仍然感到不确定。贾森拥有各种兴趣,包括游戏、足球和经典电影,但他对科学的热情和在线股票交易的成功让他感到在选择未来方向时左右为难。
ApacheCN_飞龙
2024/04/03
2040
# 人工智能驱动的生产力手册(二)
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
假如在这一过程中没有出现任何的报错的话,那也就意味着我们成功安装好支持 XTuner 所运行的环境啦。其实对于很多的初学者而言,安装好环境意味着成功了一大半!因此我们接下来就可以进入我们的第二步,准备好我们需要的数据集、模型和配置文件!
流川疯
2024/06/12
4110
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
当前,以Claude、DeepSeek、GPT等为代表的通用大语言模型展现出惊人的知识覆盖和任务泛化能力,但在垂直行业场景中常常面临“博而不精”的困境——医疗诊断时可能混淆专业术语、法律咨询时缺乏最新司法解释援引、金融分析时难以把握行业特有指标。这种通用性与专业性的矛盾,催生了“模型蒸馏-领域适配-任务聚焦”的三级进化路径:通过知识蒸馏压缩模型体积,依托行业语料进行领域微调(Domain Adaptation),最终基于具体业务需求实现任务专属优化(Task-Specific Tuning)。
腾讯云开发者
2025/03/11
5400
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
人工智能学术速递[7.8]
【1】 Mitigating Performance Saturation in Neural Marked Point Processes: Architectures and Loss Functions 标题:减轻神经标记点过程的性能饱和:结构和损失函数
公众号-arXiv每日学术速递
2021/07/27
8020
【GitHub日报】22-10-11 cobra、grafana、vue、ToolJet、redwood 等13款App今日上新
最新发布版本:[backstage/backstage] Pre-release v1.7.0-next.2 - v1.7.0-next.2
程序员小助手
2022/12/20
8480
自然语言处理学术速递[12.15]
【1】 CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising 标题:Coco-BERT:用对比跨模态匹配和去噪改进视频语言预训练 链接:https://arxiv.org/abs/2112.07515
公众号-arXiv每日学术速递
2021/12/17
9420
【技巧】ChatGPT Prompt 提示语大全
Contributed by: StoryChief AI Reference: 7 Powerful ChatGPT Prompts to Create SEO Content Faster 供稿人:StoryChief AI 参考:https://storychief.io/blog/chatgpt-prompts-seo
小锋学长生活大爆炸
2024/05/25
1780
【技巧】ChatGPT Prompt 提示语大全
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
2024年开年,很多小伙伴都已经回到了自己的工作岗位,并开始规划未来一年的工作。今天作者给大家梳理了2023年至今有关大模型的发展趋势。希望对大家有一些帮助。
ShuYini
2024/02/22
1.2K0
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
人工智能学术速递[6.23]
【1】 Tracking Instances as Queries 标题:将实例作为查询进行跟踪
公众号-arXiv每日学术速递
2021/07/02
1.2K0
推荐阅读
如何从文档创建 RAG 评估数据集
4810
LLM远不仅仅是Chat Model——LangChain基本概念与使用示例
2.5K0
「长文」可能是目前最全的LangChain AI资源库之一
2.8K0
RasaGpt——一款基于Rasa和LLM的聊天机器人平台
4.5K0
使用ChromaDB和Python构建RAG驱动的LLM聊天应用
1.2K0
7 Papers & Radios | DeepMind强化学习控制核聚变登Nature;华为诺亚方舟实验室开源中文多模态数据集
1.1K0
LLM资料大全:文本多模态大模型、垂直领域微调模型、STF数据集、训练微调部署框架、提示词工程等
3K0
Top 50机器学习项目实战总结
1.9K0
ROS(1和2)机器人操作系统相关书籍、资料和学习路径
2.3K0
NL2SQL进阶系列(5):论文解读业界前沿方案(DIN-SQL、C3-SQL、DAIL-SQL)、新一代数据集BIRD-SQL解读
1.7K0
Kimi+Langchain+FastGPT:文档转LLM微调数据集 / QA问答对生成、Kimi 128KAPI免费接入!
5850
# 人工智能驱动的生产力手册(二)
2040
《书生·浦语大模型实战营》第4课 学习笔记:XTuner 微调 LLM:1.8B、多模态、Agent
4110
从DeepSeek到Manus:如何实现本地LLM微调+联网开发?
5400
人工智能学术速递[7.8]
8020
【GitHub日报】22-10-11 cobra、grafana、vue、ToolJet、redwood 等13款App今日上新
8480
自然语言处理学术速递[12.15]
9420
【技巧】ChatGPT Prompt 提示语大全
1780
2024开年,看一看:大型语言模型(LLM)在过去一年多的发展!(按月总结)
1.2K0
人工智能学术速递[6.23]
1.2K0
相关推荐
如何从文档创建 RAG 评估数据集
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验