
时间过的真快呀,又是一周结束了,最近AI和机器人的热度越来越高,能看到相关话题的文章越来越多。我在想,作为一个普通打工仔,我们能做什么,除了不断问AI生成答案,然后问完解决完就扔在脑后?想必不是长久之计,所以将知识沉淀,搭建一个私人知识库,来辅助自己建立脑中的知识库才是最重要的,今天就来给大家介绍如何利用开源项目打造一款私有AI知识库!
这个分个人还是企业,如果个人用,其实各种免费在线知识库也够用了,但对于企业来说可不能图方便,需考虑以下方面
数据隐私:使用本地部署方式,所有数据都保存在自己控制的服务器中,避免了外部服务带来的数据隐私泄露风险。
高度可定制:根据自身需求进行配置与扩展,能够灵活地适配各种业务场景。
智能问答:结合RAG和DeepSeek的能力,可以让知识库具备智能问答功能,提升工作效率。
可扩展性:支持大规模数据的处理与管理,能够持续扩展和更新知识库内容。
RAG(Retrieval-Augmented Generation)技术结合了信息检索和文本生成。当我们提出问题时,不仅可以根据问题内容从知识库中检索相关的信息,还能够根据检索到的信息生成准确且高质量的回答。这种方式比传统的生成模型更为准确,更适用于知识库的问答场景。
工具介绍
RAG | 介绍 | 功能 |
|---|---|---|
Dify | 开源的 LLM 应用开发平台 | AI 工作流、RAG 管道、Agent、模型管理、可观测性功能 |
ima | 腾讯智能工作台 | 适合论文、作文、文案 |
FastGPT | 开箱即用的知识库问答 | 移动端知识库/客服应用 |
RAGFlow | 深度文档理解构建的开源 RAG | 复杂格式数据提供可靠的问答 |
Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务(Backend as Service)和 LLMOps 的理念,使开发者可以快速搭建生产级的生成式 AI 应用。
社区版地址:
https://github.com/langgenius/dify
腾讯发布的一款AI智能工作台产品,不但接入了自家的混元大模型,还有的满血DeepSeek,可以搜索微信公众号的内容,把公众号文章变成你的知识库,所以如果不喜欢自己折腾,就用这款产品吧。
官方地址:
https://ima.qq.com/
FastGPT 是一个基于 LLM 大语言模型的知识库问答系统,提供开箱即用的数据处理、模型调用等能力。同时可以通过 Flow 可视化进行工作流编排,从而实现复杂的问答场景!
社区地址:
https://github.com/labring/FastGPT
RAGFlow 是一款基于深度文档理解构建的开源 RAG(Retrieval-Augmented Generation)引擎。RAGFlow 可以为各种规模的企业及个人提供一套精简的 RAG 工作流程,结合大语言模型(LLM)针对用户各类不同的复杂格式数据提供可靠的问答以及有理有据的引用。
社区地址:
https://github.com/infiniflow/ragflow/
以上这些工具大家可以根据喜好选择使用,希里安这里主要选择RAGFlow进行介绍,因为开源且支持商业化,可玩性和配置都较为灵活。
特点: 纯CPU运行、无需GPU
首先,确保服务器或本地机器符合以下要求:
若尚未安装Docker(Windows、Mac,或者 Linux),可以参考官方文档进行安装
上篇文章周末用笔记本搞点大事:手把手教学部署 1.5、7B 版本 DeepSeek 智能助手,我用的是四五年前的windows系统的笔记本电脑,运行7B没什么压力,今天就给大家介绍在Linux中运行部署8B版本的步骤,且没有GPU的情况下
# 下载安装脚本
curl -fsSL https://ollama.com/install.sh -o ollama_install.sh
# 替换官方下载地址,为了下载更快
sed -i 's|https://ollama.com/download/|https://github.com/ollama/ollama/releases/download/v0.5.7/|' ollama_install.sh
ollama pull deepseek-r1:8b
ollama run deepseek-r1:8b
8C16G、32C32G


RAGFlow可以Docker运行,部署非常简单。以下是安装步骤:
1.确保 vm.max_map_count 不小于 262144
如需确认 vm.max_map_count 的大小: sysctl vm.max_map_count如果 vm.max_map_count 的值小于 262144,可以进行重置:# 这里我们设为 262144: sudo sysctl -w vm.max_map_count=262144你的改动会在下次系统重启时被重置。如果希望做永久改动,还需要在 /etc/sysctl.conf 文件里把 vm.max_map_count 的值再相应更新一遍:vm.max_map_count=262144
2.克隆仓库:
打开终端,输入以下命令拉取RAGFlow代码:
git clone https://github.com/infiniflow/ragflow.git$ cd ragflow/docker
$ docker compose -f docker-compose.yml up -d

$ docker logs -f ragflow-server出现以下界面提示说明服务器启动成功:
____ ___ ______ ______ __
/ __ \ / | / ____// ____// /____ _ __
/ /_/ // /| | / / __ / /_ / // __ \| | /| / /
/ _, _// ___ |/ /_/ // __/ / // /_/ /| |/ |/ /
/_/ |_|/_/ |_|\____//_/ /_/ \____/ |__/|__/
* Running on all addresses (0.0.0.0)
* Running on http://127.0.0.1:9380
* Running on http://x.x.x.x:9380
INFO:werkzeug:Press CTRL+C to quit
系统配置注意事项
系统配置涉及以下三份文件:
.env:存放一些基本的系统环境变量,比如
SVR_HTTP_PORT、MYSQL_PASSWORD、MINIO_PASSWORD等。 service_conf.yaml.template:配置各类后台服务。 docker-compose.yml: 系统依赖该文件完成启动。请务必确保
.env文件中的变量设置与service_conf.yaml.template文件中的配置保持一致!如果不能访问镜像站点hub.docker.com或者模型站点huggingface.co,请按照.env注释修改RAGFLOW_IMAGE 和 HF_ENDPOINT。














通过以上步骤,已经成功搭建了一个基于RAGFlow和DeepSeek的私有知识库。该系统能够保障数据隐私,提升工作效率,并且具备强大的智能问答功能。随着时间的推移,可以继续扩展你的知识库、更新模型,打造一个持续进化的智能平台。