Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)

Ollama 更新!手把手教你用Ollama轻松搭建Llama 3.2 Vision + 视觉RAG系统(本地安装)

作者头像
AI进修生
发布于 2024-12-02 11:45:13
发布于 2024-12-02 11:45:13
2.3K0
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Aitrainee | 公众号:AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。‍

在本文中,我将介绍Ollama最近对Llama 3.2 Vision的支持更新,并分享Llama 3.2 Vision的实测结果。同时,我还将介绍一个视觉RAG系统,展示如何将Llama 3.2 Vision与该系统结合,完成基于视觉RAG检索的任务。

先介绍此次更新:

Ollama 现在正式支持 Llama 3.2 视觉模型(Llama 3.2 Vision)。

你看就像这样拖进去就可以识别图片了。

▲ 来源 | Prompt Engineering

你可以看到该模型有11B参数版和90B参数版。选择90B参数版时,文件大小约为55GB。当然还有一些量化的版本。

Llama 3.2 Vision 11B 至少需要 8GB VRAM,而 90B 型号至少需要 64 GB VRAM。

为了安装它,你需要更新一下ollama,这里以docker安装的ollama为例,没更新前拉取这个视觉模型不成功,我们需要删掉容器,再pull更新它。

更新完之后我们可以执行拉取操作

如果你的是Linux版本ollama由于网络问题下载不成功的话,你可以看看这篇文章的末尾。

Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)

2024-10-17

你可以使用ollama python库这样运行它的测试

通过本地图像路径向模型提问“这张图片是什么”。

▲ 来源 | Fahd Mirza

模型返回了结果,描述图片中有“日落、袋鼠和一群鸟,太阳位于画面中央,但被云遮挡。” 这正是图片内容。

“ 这是什么城市?”,模型会给出答案:“我猜这是日本的城市,可能是东京或大阪。”

我们看看其他一些场景的情况:

手写内容识别

光学字符识别 (OCR)

图表和表格

图片问答

还是不错的。

下面我们进入正题 ...

一个视觉RAG系统 + Llama 3.2 Vision

LocalGPT-Vision 是一个基于视觉的检索增强生成 (RAG) 系统,它可以让你与文档进行对话,使用Vision语言模型实现端到端的RAG系统。

该项目使用Colqwen 或 ColPali模型进行基于视觉的页面信息检索,检索到的页面将传递到视觉语言模型 (VLM) 以生成响应。

安装这个项目:

首先,你需要克隆代码仓库或拉取最新的更改;然后你需要创建一个新的虚拟环境来使用conda;最后使用`pip install -r requirements.txt`安装所有需要的包。

为了启动主应用程序,我们将使用`python app.py`,这会启动我们的Flask服务器,并在该URL上运行。只需在浏览器中访问即可。

这是本地GPT Vision的主界面。如果你进入模型列表,将看到检索模型。我将选择Colqwen ,它是最适合的模型之一。

对于生成模型,你有多个选项,我将选择Ollama Llama Vision,

然后保存更改。

对于被RAG的对象,我们使用一篇名叫Light RAG论文,这是一种简单快速的检索增强生成方法,结合了知识库和基于密集向量的方式,特别适用于具有某种关系的实体。

LightRAG开源了!轻巧、强大,GraphRAG的进化版

2024-10-14

开始:

点击上传文档按钮,选择相应的PDF文件,然后点击“开始索引”。

▲ 来源 | Prompt Engineering

此时,后台将使用Colqwen模型为PDF中的每一页创建多维向量表示,转换成图像并计算嵌入,所有这些操作都依赖于强大的poppler库。

如果遇到问题,请确保已安装poppler库,因为有些人在使用这个库时遇到过问题。索引完成后,点击“确定”,然后开始与刚才创建的知识库进行交互。

首先,我们用一个简单的提示开始:“这篇论文的标题是什么?”

你可以看到,论文的标题是《Light RAG: Simple and Fast Retrieval Augmented Generation》。

它与标题完全一致。

接下来我们可以看看它是否能够解释该图像的详细信息。

我问:“你能详细解释图1吗?”

图1 作为论文中的一个插图,讨论了索引过程和检索过程,并展示了提议的Light RAG框架的整体架构。该页面还包含了其他信息,特别是数学公式,它们本质上也解释了相同的概念。

原文是这样的

这里是这个视觉RAG系统回答的翻译版本:

生成的响应是:“该图像展示了Light RAG框架的全面概述,该框架旨在增强信息检索系统的性能和效率。”然后它讨论了不同的组件,包括数据索引器和数据检索器。

这些信息似乎来自图像本身或图像所在页面上的文本。描述可以做得更好一些,可能90B版本的模型会做得更好。

我在这里补充它回答后续的截图:

此外,这些视觉开源大模型往往也可以用于一些视频帧的分析的场景。

🌟希望这篇文章对你有帮助,感谢阅读!如果你喜欢这系列文章请以 点赞 / 分享 / 在看 的方式告诉我,以便我用来评估创作方向。

👽Submission:kristjahmez06@gmail.com

参考链接: [1] https://www.youtube.com/watch?v=aLdo_uGhrVQ [2] https://ollama.com/blog/llama3.2-vision

[3] https://www.youtube.com/watch?v=45LJT-bt500

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-11-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
令人兴奋的消息,Meta发布了Lllam3.2系列模型,当前的基准显示,Llama 3.2 在各种基准测试中表现优于 Claude3.5 Haiku 以及 GPT-4o-mini;加上前几天的Qwen2.5,现在开源的模型正在一步步缩小和闭源模型之间的差距,这很棒。
AI进修生
2024/12/02
6950
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
一文读懂 Vision RAG 模型
Hello folks,我是 Luga,今天我们来聊一下人工智能应用场景中的将视觉理解与检索增强生成技术深度融合的视觉模型 - Vision RAG。
Luga Lee
2025/05/21
2110
一文读懂 Vision RAG 模型
使用 Gemma 2 构建 RAG的全过程( Ollama 或 Hugginface )
没错,这两天关于Gemma2 9B、27B开源的消息又刷屏了,如果你还不知道的话,可以搜搜看看,还是挺不错的。
AI进修生
2024/12/02
2190
使用 Gemma 2 构建 RAG的全过程( Ollama 或 Hugginface )
手把手带你用DeepSeek-R1和Ollama搭建本地应用,一文搞定!
昨天文章《DeepSeek R1本地部署,小白教程来了!》的预告来兑现了。同时,有学习者问「可以上传文件啥的吗」?有的兄弟,有的。今天完整教程,它来了!
Datawhale
2025/02/05
10.3K0
手把手带你用DeepSeek-R1和Ollama搭建本地应用,一文搞定!
HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!
我们都听说过检索增强生成(RAG),许多人使用 RAG 因为它能够增强语言模型的功能,通过结合检索和生成处理来提高准确性,减少幻觉,并且更加经济高效。
AI进修生
2024/12/02
1.7K0
HybridRAG:混合 RAG 引擎 - 知识图谱 + 向量检索!比 GraphRAG 更好!
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
上个月震撼登场的自家首款多模态大模型Pixtral 12B,也疑似遇到了成绩不如人的窘境。
新智元
2025/02/14
870
多模态竞技场对标90B Llama 3.2!Pixtral 12B技术报告全公开
使用 Llama3 和 Ollama 改进了 RAG
在本文中,我们将创建一个高级 RAG,它将根据作为管道输入给出的研究论文来回答用户查询。用于构建该管道的技术堆栈如下。
IT大咖说
2024/04/24
1.3K0
使用 Llama3 和 Ollama 改进了 RAG
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)
我们正在使用一些Agent平台如FastGPT和Dify,他们注重于快速生成文本内容,知识库问答,提供自定义能力和与现有系统的集成性。
AI进修生
2024/12/02
1.4K0
ComfyUI Party:将LLM与图片工作流集成,图片、语音、文本、视觉一体!(graphRAG、ollama)
最全梳理:一文搞懂RAG技术的5种范式!
本文主要回顾 RAG 技术的发展,第一部分梳理了综述和关键论文,第二部分梳理了工程实践工具。 
Datawhale
2025/02/24
2.1K0
最全梳理:一文搞懂RAG技术的5种范式!
使用RAG-GPT和Ollama搭建智能客服
前面介绍了使用RAG-GPT和OpenAI快速搭建LangChain官网智能客服。有些场景,用户可能无法通过往外网访问OpenAI等云端LLM服务,或者由于数据隐私等安全问题,需要本地部署大模型。本文将介绍通过RAG-GPT和Ollama搭建智能客服。
AI Inception
2024/05/24
7300
使用RAG-GPT和Ollama搭建智能客服
机器学习周刊 第4期:基于ChatGPT API的Android语音助手
这个《动手实战人工智能 Hands-on AI》写的相当不错,作者用 Jupyter Notebook编写了这个教程,参考了《机器学习方法》,《深度学习入门》,西瓜书,花花书等,剖析和推导每一个基础算法的原理,将数学过程写出来了,同时基于 Python 代码对公式进行实现,做到公式和代码的一一对应。
Ai学习的老章
2024/01/04
3510
机器学习周刊 第4期:基于ChatGPT API的Android语音助手
私有化搭建、本地知识库、可联网查询、具备RAG能力的私人DeepSeek
以上方式在云端产品上实现 DeepSeek 的私有化部署,除此之外,也可以部署安装在本地机器上,如个人PC电脑、内网电脑等环境。
参谋带个长
2025/02/15
3.4K0
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
我记得,梦的开始,源于Ollama。很早以前的一篇文章教大家如何通过 Ollama 来使用开源 LLM,许多人最初接触 AI 时也是从Ollama开始的。Ollama 之所以出色,是因为它使用了 GGML 格式,这是一种‘轻量版’的大语言模型,以较低精度运行,能够轻松适配普通硬件。这使得在本地系统上运行这些模型变得简单高效,真正为 AI 的广泛应用铺平了道路。
AI进修生
2024/12/02
17.1K0
Ollama 升级!支持一键拉取Huggingface上所有的模型,太方便了!(vLLM、Fastgpt、Dify、多卡推理)
使用GraphRAG+LangChain+Ollama:LLaMa 3.1跑通知识图谱与向量数据库集成(Neo4j)
我将向你展示如何使用 LLama 3.1(一个本地运行的模型)来执行GraphRAG操作,总共就50号代码。。。
AI进修生
2024/12/02
1.5K0
使用GraphRAG+LangChain+Ollama:LLaMa 3.1跑通知识图谱与向量数据库集成(Neo4j)
RAG 技术综述
检索增强生成(Retrieval Augmented Generation,简称 RAG)向 LLM 提供了从特定数据源检索的信息,以此作为生成答案的基础。简而言之,RAG 结合了搜索和 LLM 的提示功能,在此基础上,模型根据搜索算法提供的信息,作为上下文来回答问题。这些查询和检索到的上下文会一并被注入到发送给 LLM 的提示中。
科技之歌
2024/02/01
1.7K0
RAG 技术综述
手把手教你:基于 AnythingLLM API 训练并调用本地知识库
在人工智能技术快速发展的今天,企业对于数据安全和隐私保护的需求日益增强。基于检索增强生成(Retrieval-Augmented Generation, RAG)的本地知识库系统,成为解决大模型知识局限性和幻觉问题的关键方案。本文将以 Ollama 和 AnythingLLM 为核心工具,详细介绍如何通过API实现企业本地知识库的训练与调用,并提供完整的Python代码示例及执行效果分析,助力企业构建安全高效的私有化知识管理系统。
范赟鹏
2025/05/30
7640
手把手教你:基于 AnythingLLM API 训练并调用本地知识库
腾讯云DeepSeek开发RAG应用
这篇文章主要是面向初级开发者,适合初学者、没有接触过大模型开发的小白、没有基础想学大模型RAG开发的按照该教程也能踏入开发第一步。主要是介绍通过腾讯云提供的deepseek资源和线上环境,开发一个基于deepseek的RAG系统。RAG开发框架使用的是lamaindex,大模型使用deepseek32B,向量模型使用milkey/dmeta-embedding-zh:f16,rag程序根据给定的txt文件内容进行问答,输入exit退出问答。
用户8800822
2025/03/05
5740
腾讯云DeepSeek开发RAG应用
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
时间过的真快呀,又是一周结束了,最近AI和机器人的热度越来越高,能看到相关话题的文章越来越多。我在想,作为一个普通打工仔,我们能做什么,除了不断问AI生成答案,然后问完解决完就扔在脑后?想必不是长久之计,所以将知识沉淀,搭建一个私人知识库,来辅助自己建立脑中的知识库才是最重要的,今天就来给大家介绍如何利用开源项目打造一款私有AI知识库!
希里安
2025/03/31
6200
深度解锁AI私有知识库:用 DeepSeek 和 RAGFlow 打造企业级智能平台
手把手教你:Windows与Linux下Dify+DeepSeek实现ragflow构建企业知识库
在当今人工智能飞速发展的时代,大语言模型(LLMs)已经成为众多领域的核心技术驱动力。无论是在智能客服、智能写作,还是在数据分析、决策支持等方面,大语言模型都展现出了强大的能力和潜力。然而,随着数据安全和隐私保护意识的不断提高,越来越多的企业和开发者开始寻求本地化部署大语言模型的解决方案,以确保数据的安全性和可控性。
范赟鹏
2025/05/30
9680
手把手教你:Windows与Linux下Dify+DeepSeek实现ragflow构建企业知识库
什么是检索增强生成(又名 RAG-Retrieval-Augmented Generation)及相关引用文档
检索增强生成是一种利用来自特定相关数据源的信息来增强生成式 AI 模型的准确性和可靠性的技术。
晓兵
2025/03/23
2570
什么是检索增强生成(又名 RAG-Retrieval-Augmented Generation)及相关引用文档
推荐阅读
相关推荐
全新Llama 3.2系列:性能提升明显,但真的是最优选择吗?(已测试)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档