Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >5分钟玩转PDF聊天机器人!超简单的Langchain+ChatGPT实现攻略

5分钟玩转PDF聊天机器人!超简单的Langchain+ChatGPT实现攻略

作者头像
技术人生黄勇
发布于 2024-07-19 10:21:35
发布于 2024-07-19 10:21:35
30301
代码可运行
举报
文章被收录于专栏:技术人生黄勇技术人生黄勇
运行总次数:1
代码可运行

本文介绍一个使用Langchain 结合向量数据库和大模型构建PDF聊天机器人的思路,这个简单的聊天机器人原型证明了从非结构化文档中提取信息,以进行问答的可行性。在此基础上,我们可以继续优化算法,扩大文档来源,提升问答的准确性与友好性。

01

在用过ChatGPT聊天功能后,我们会很自然想到一个场景:能不能用它来帮助合并我自己的文档资料,并且提供文档的问答摘要。

这样不仅可以避免大模型在一些未训练的知识上胡说八道(见:如何避免ChatGPT,ChatGLM这类大语言模型胡说八道),还可以有效的利用我们自己的数据、文档。‍‍‍‍‍‍‍‍

最初的想法是使用特定文档数据对模型进行微调以实现此目标,但它可能成本高而且需要大量数据集。

对微调感兴趣的朋友可以参考这篇文章:OpenAI放开ChatGPT微调接口!国内厂商压力山大!|附详细微调操作指南

此外,微调模型只能教它一项新技能,而不能提供有关文档的完整信息。‍‍‍‍

如果不采用微调,能想到的另一种方法是使用提示词(Prompt)在提示中提供文档 QA 的上下文。然而,ChatGPT 模型的token 长度有限,并且将大段的上下文传递给 API 也会造成使用成本增高,尤其是在处理大量文档时。

今天我们来尝试用Langchain这个开源工具来构建一个基于PDF文档的内容来聊天的ChatGPT机器人。‍‍‍‍‍‍‍‍‍‍

02

构建步骤:

  • 首先加载文档(PDF、HTML、文本、数据库等)
  • 然后,将数据分割成块,在数据之上创建嵌入以某种形式的数字表示数据,并在嵌入数据之上创建索引。这样我们就可以基于所有流行的算法进行语义搜索。
  • 对于每个问题,我们将搜索索引和嵌入数据以仅提取相关信息。
  • 将问题和相关数据传递到 LLM 模型中,在这里我们使用ChatGPT提供的开放接口API,也可以根据实际情况的需要,调用私有部署的各类开源大模型,例如ChatGLM,Llama2。

上图为项目的架构图:源文件经过Langchain 的工程化处理后,存放到向量数据库中。同时,用户询问的问题也经过embedding向量化后,再和向量库中的数据对比,哪个些数据最近,就返回给大模型,组成回答的内容,同时这次问答将存入聊天历史,供后续聊天继续使用。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

03

开发要求 Python 版本不低于 3.7 才能运行。接下来的步骤是建立一个虚拟环境并安装以下的 Python 库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# # 创建虚拟环境
$ python3 -m venv llm_app_env 

# # 在 MacOS 或 Linux 上
$ source llm_app_env/bin/activate 

# # 在 Window 上
$ llm_app_env\Scripts\activate.bat 

# # 然后安装以下库。
openai[embeddings]==0.27.6 
langchain==0.0.155 
pypdf==3.8.1 
tiktoken==0.3.3 
faiss-cpu==1.7.4
unstructured==0.6.2 
chromadb==0.3.21 
llama-index ==0.6.1 
jupyterlab

LangChain是一个功能强大的开源工具,可以便捷地与大型语言模型交互,并构建应用程序。您可以将其看作是一个中间层,将您的应用程序连接到各种LLM大型语言模型提供商,如OpenAI、Cohere、Huggingface、Azure OpenAI等。

同时,为了实现工程落地目的。LangChain不仅仅提供了用于访问预训练语言模型的工具。它还提供了许多有用的特性和功能,允许您构建定制的应用程序和工具。例如:

  • 使用自己的文档进行问答和文本摘要。
  • 处理内存、长文档以及令牌数量有限的问题。
  • 与OpenAI的ChatGPT检索器插件出色地集成。
  • 多个Chains可以解决您所定义的问题,或者通过Agent将其提升到更智能的程度。 ‍

文章《解锁人工智能项目开发的关键:Python 基础库详解与进阶学习》中更详细的介绍了Langchain以及相关学习地址。‍

启动的 Jupyter Notebook 并开始编码。推荐使用谷歌的在线 Jupyter Notebook 平台。

https://colab.research.google.com/

设置 OpenAI API 密钥

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import logging
import sys
import os

os.environ["OPENAI_API_KEY"] = "<YOUR_OPENAI_API_KEY>"

查看自己的OpenAI API Keys:‍‍‍

https://platform.openai.com/account/api-keys

加载并切分数据‍‍

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## load the PDF using pypdf
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# load the data
loader = PyPDFLoader('../notebooks/documents/Apple-Financial-Report-Q1-2022.pdf')

# the 10k financial report are huge, we will need to split the doc into multiple chunk.
# This text splitter is the recommended one for generic text. It is parameterized by a list of characters. 
# It tries to split on them in order until the chunks are small enough.
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
data = loader.load()
texts = text_splitter.split_documents(data)

# view the first chunk
texts[0]

导入Chroma

Chroma 是嵌入式数据库,不像传统的 SQL 数据库或NoSQL 数据库。它是嵌入数据库,很适合构建 LLM 应用程序。

官方地址:

https://www.chroma.com/

资料内容以纯文本形式呈现,这导致了根据问题在其中查找相关信息变得困难。

以寻找苹果公司上一季度收入并将其与往年进行比较为例,若文档有1000页,那将是多么具有挑战性和耗时的任务呢?

因此,为了让搜索变得更加便捷,我们首先需要将单词或短语用数字格式表示,以供机器学习模型使用。

换言之,我们需要帮助机器理解文本。嵌入是将每个单词或短语映射到实数向量(通常有数百个维度)的方式,这使得相似的词汇在嵌入空间中也能映射到相似的向量。

使用嵌入的主要优势之一在于它们能够捕捉到单词或短语之间的语义和句法关系。例如,在嵌入空间中,"国王"和"女王"的向量会比"苹果"的向量更加接近,因为它们在语义上与皇家头衔相关。

因此,嵌入式数据库就是为此而生。它将所有嵌入数据储存在数据库中,并为我们提供索引,以便进行数据检索等操作,并且这一过程是可以扩展的。

如果我们需要找出上一季度苹果公司的收入,首先我们会在嵌入数据库,比如Chroma,上执行类似的相似性搜索或语义搜索,以提取相关信息并将该信息输入到LLM模型中,从而获得答案。

上面的步骤虽然说起来很复杂,但是Langchain已经封装好了相应的函数,让我们开始动手。‍‍‍‍‍

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# import Chroma and OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings

# initialize OpenAIEmbedding
embeddings = OpenAIEmbeddings(model='text-embedding-ada-002')

# use Chroma to create in-memory embedding database from the doc
docsearch = Chroma.from_documents(texts, embeddings,  metadatas=[{"source": str(i)} for i in range(len(texts))])

## perform search based on the question
query = "What is the operating income?"
docs = docsearch.similarity_search(query)

接着,我们进行相似性搜索,从嵌入式数据库中获取与之相关的信息。

使用Langchain的主要组件之一Chain将LLM大模型引入到我们的代码中。

Langchain中预建问答chain有四种类型:

  • 问题解答:load_qa_chain
  • 来源问答:load_qa_with_sources_chain
  • 检索问题答案:RetrievalQA
  • 使用来源进行检索问答:RetrievalQAWithSourcesChain

它们非常相似,在底层,RetrievalQA 和 RetrievalQAWithSourcesChain分别使用load_qa_chain 和 load_qa_with_sources_chain,唯一的区别是前两个将所有嵌入馈送到 LLM,而后两个仅向 LLM 馈送相关信息。

我们可以使用前两个先提取相关信息并将该信息仅提供给 LLM。此外,前两个比后两个给我们带来了更多的灵活性。

导入必要的依赖库‍‍

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## importing necessary framework
from langchain.chains.question_answering import load_qa_chain
from langchain.chains.qa_with_sources import load_qa_with_sources_chain
from langchain.chains import RetrievalQA
from langchain.chains import RetrievalQAWithSourcesChain

from langchain.chat_models import ChatOpenAI

尝试使用 4 种不同的问答chain。

1. load_qa_chain

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
## use LLM to get answering
chain = load_qa_chain(ChatOpenAI(temperature=0.2,model_name='gpt-3.5-turbo'), 
                      chain_type="stuff")
query = "What is the operating income?"
chain.run(input_documents=docs, question=query)

2. load_qa_with_sources_chain

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chain = load_qa_with_sources_chain(ChatOpenAI(temperature=0.2,model_name='gpt-3.5-turbo'), 
                                   chain_type="stuff")
query = "What is the operating income?"
chain({"input_documents": docs, "question": query}, return_only_outputs=True)

3. RetrievalQA

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
qa=RetrievalQA.from_chain_type(llm=ChatOpenAI(temperature=0.2,model_name='gpt-3.5-turbo'), chain_type="stuff", 
                                                retriever=docsearch.as_retriever())
query = "What is the operating income?"
qa.run(query)

4. RetrievalQAWithSourcesChain

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
chain=RetrievalQAWithSourcesChain.from_chain_type(ChatOpenAI(temperature=0.2,model_name='gpt-3.5-turbo'), chain_type="stuff", 
                                                    retriever=docsearch.as_retriever())
chain({"question": "What is the operating income?"}, return_only_outputs=True)

一个基于PDF文档的问答聊天机器人原型已经完成开发。

该聊天机器人可以读取PDF文档内容,并据此进行问答交互。用户可以向它提出与文档相关的问题,它可以给出相应的答案。

这个简单的聊天机器人原型证明了从非结构化文档中提取信息,以进行问答的可行性。在此基础上,我们可以继续优化算法,扩大文档来源,提升问答的准确性与友好性。 ‍‍‍‍

参考资料:

https://medium.com/how-ai-built-this/zero-to-one-a-guide-to-building-a-first-pdf-chatbot-with-langchain-llamaindex-part-1-7d0e9c0d62f

阅读推荐:

中文大模型 Chinese-LLaMA-Alpaca-2 开源且可以商用

又一家顶级的大模型开源商用了!Meta(Facebook)的 Llama 2 搅动大模型混战的格局

ChatGLM2-6B 初体验

OpenAI放开ChatGPT微调接口!国内厂商压力山大!|附详细微调操作指南

中国AI软件出海第一名,竟然是这个团队

AIGC产业梳理

OpenAI又推新:使用ChatGPT进行内容审核

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 技术人生黄勇 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用 LangChain 构建文档问答助手
随着大语言模型(LLM)的广泛应用,越来越多企业和个人希望利用它来实现“基于文档的智能问答”功能。例如:
IT蜗壳-Tango
2025/04/09
2630
ChatGPT|如何通过ChatGPT问一本书的问题?
在很多场景下需要私域数据,但是在使用ChatGPT对话回答是很泛或者没有相关答案,因此你就需要自己喂养数据,然后形成自己的私域数据数据集,以下就是用一本书作为例子,通过输入一本书问ChatGPT关于这本书其中的问题。其步骤如下: (1)提取书中的内容; (2)将书分为小块; (3)建立语义索引; (4)问书中的问题;
用户1904552
2023/04/17
1.1K0
ChatGPT|如何通过ChatGPT问一本书的问题?
手把手教你用 FastAPI + LangChain 部署本地问答机器人(含报错解决大全)
最近越来越多朋友私信问我,怎么用 LangChain 搭一个能读自己文档、还能对接模型回答问题的机器人?
默 语
2025/04/25
3600
LangChain速成课程_构建基于OpenAI_LLM的应用
LangChain会编译并组织PDF中的数据。尽管我们提到的是PDF,数据源可以是多样的:文本文件、Microsoft Word文档、YouTube的转录,甚至是网站等等。LangChain会整理这些数据,并将其分割成可管理的块。一旦分割完成,这些块会存储在向量存储器中
yeedomliu
2023/10/08
1.1K0
LangChain速成课程_构建基于OpenAI_LLM的应用
9个范例带你入门LangChain
前方干货预警:这可能是你心心念念想找的最好懂最具实操性的langchain教程。本文通过演示9个具有代表性的应用范例,带你零基础入门langchain。
lyhue1991
2023/09/05
7.4K0
9个范例带你入门LangChain
基于大语言模型LangChain框架:知识库问答系统实践
ChatGPT 所取得的巨大成功,使得越来越多的开发者希望利用 OpenAI 提供的 API 或私有化模型开发基于大语言模型的应用程序。然而,即使大语言模型的调用相对简单,仍需要完成大量的定制开发工作,包括 API 集成、交互逻辑、数据存储等。
zenRRan
2024/01/25
3.7K0
基于大语言模型LangChain框架:知识库问答系统实践
AI应用开发基础教程_借助LangChain来调用ChatGPT_API
最准确的模型text-embedding-ada-002可以非常便宜地使用,所以我认为您很少会使用其他模型。(费用为每1000个标记0.0001美元,几乎是免费的)
yeedomliu
2023/10/20
1.5K0
AI应用开发基础教程_借助LangChain来调用ChatGPT_API
【LangChain系列】第八节:文档问答
在机器学习和自然语言处理的快速发展中,大型语言模型是处理各种任务的非常有用的工具。其中一项引起人们极大兴趣的任务是对文档进行问答,其中 LLM 用于根据 PDF、网页或公司内部文件等文档的内容提供准确的回答。这篇博文将深入探讨使用 LLM 对文档进行问答的迷人世界,探索嵌入和向量存储等关键概念。我们还将逐步完成整个过程,并向您介绍LangChain库,该库简化了这些技术的实现。
Freedom123
2024/05/24
3230
基于GPT搭建私有知识库聊天机器人(四)问答实现
在前面的文章中,我们介绍了如何使用GPT模型搭建私有知识库聊天机器人的基本原理、环境安装、数据向量化。本文将进一步介绍如何使用langchain框架实现问答功能。
夕阳也是醉了
2023/10/16
9570
用Gradio、Langchain和OpenAI构建您自己的自定义聊天机器人
聊天机器人在与企业和其他组织进行互动方面越来越受欢迎。它们可以用于提供客户服务、回答问题,甚至生成创造性内容。构建自定义聊天机器人可以极大地改善客户体验并自动化任务。
山行AI
2023/11/13
2.8K0
用Gradio、Langchain和OpenAI构建您自己的自定义聊天机器人
一文入门最热的LLM应用开发框架LangChain
LangChain 的作者是 Harrison Chase,最初是于 2022 年 10 月开源的一个项目,在 GitHub 上获得大量关注之后迅速转变为一家初创公司。2017 年 Harrison Chase 还在哈佛上大学,如今已是硅谷的一家热门初创公司的 CEO,这对他来说是一次重大而迅速的跃迁。Insider 独家报道,人工智能初创公司 LangChain 在种子轮一周后,再次获得红杉领投的 2000 万至 2500 万美元融资,估值达到 2 亿美元。
腾讯技术工程官方号
2023/08/18
4.2K1
一文入门最热的LLM应用开发框架LangChain
LangChain学习:Chat with Your Data
这块没有跑通,大概就是下载视频提取语音,调用OpenAIWhisperParser转成文字
Michael阿明
2023/07/25
1.5K0
LangChain学习:Chat with Your Data
基于 InternLM 和 Langchain 搭建云端知识库
在InternStudio平台中选择 A100(1/4) 的配置,如下图所示镜像选择 Cuda11.7-conda,如下图所示:
AIGC新知
2024/10/08
2040
基于 InternLM 和 Langchain 搭建云端知识库
RAG:如何与您的数据对话
在我之前的文章中,我们讨论了如何使用 ChatGPT 进行主题建模。我们的任务是分析客户对不同连锁酒店的评论,并确定每家酒店提到的主要主题。
大数据杂货铺
2024/01/16
9120
RAG:如何与您的数据对话
LangChain基础知识入门
LangChain由 Harrison Chase 创建于2022年10月,它是围绕LLMs(大语言模型)建立的一个框架,LLMs使用机器学习算法和海量数据来分析和理解自然语言,GPT3.5、GPT4是LLMs最先进的代表,国内百度的文心一言、阿里的通义千问也属于LLMs。LangChain自身并不开发LLMs,它的核心理念是为各种LLMs实现通用的接口,把LLMs相关的组件“链接”在一起,简化LLMs应用的开发难度,方便开发者快速地开发复杂的LLMs应用。LangChain目前有两个语言的实现:Python和Node.js
@小森
2024/06/10
6250
LangChain基础知识入门
LangChain:打造自己的LLM应用
导读 随着LLM的技术发展,其在业务上的应用越来越关键,通过LangChain大大降低了LLM应用开发的门槛。本文通过介绍LangChain是什么,LangChain的核心组件以及LangChain在实际场景下的使用方式,希望帮助大家能快速上手LLM应用的开发。
京东技术
2023/11/05
2.2K0
LangChain:打造自己的LLM应用
用GPT-4和ChromaDB与文本文件对话教程
用GPT-4和ChromaDB向你的文本文件对话:一步一步的教程(LangChain 🦜🔗,ChromaDB,OpenAI嵌入,Web Scraping)。
山行AI
2023/08/10
2.5K0
用GPT-4和ChromaDB与文本文件对话教程
使用ChromaDB和Python构建RAG驱动的LLM聊天应用
利用检索增强生成 (RAG) 和大型语言模型 (LLM) 的强大功能来创建生成式 AI 应用程序。
云云众生s
2024/04/05
1.3K0
解码 LangChain|用 LangChain 和 Milvus 从零搭建 LLM 应用
作为开发 LLM 应用的框架,LangChain 内部不仅包含诸多模块,而且支持外部集成;Milvus 同样可以支持诸多 LLM 集成,二者结合除了可以轻松搭建一个 LLM 应用,还可以起到强化 ChatGPT 功能和效率的作用。
Zilliz RDS
2023/08/25
1.6K0
解码 LangChain|用 LangChain 和 Milvus 从零搭建 LLM 应用
使用Chainlit、Qdrant和Zephyr构建用于文档问答的大型语言模型应用程序
该博客介绍了一种利用Zephyr-7B Beta模型作为大型语言模型的应用,以及Langchain和Chainlit。在这里,我将调查它们各自的能力,并展示它们在开发交互式聊天应用程序中的潜力。我将概述用户界面(UI)的设计,后端处理的建立,以及创建一个完全可操作的问答应用程序所涉及的无缝集成过程。
山行AI
2023/11/23
1.8K0
使用Chainlit、Qdrant和Zephyr构建用于文档问答的大型语言模型应用程序
推荐阅读
相关推荐
用 LangChain 构建文档问答助手
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验