前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何用 ChatGPT 和你的卡片笔记对话?开源应用 Quivr 尝试

如何用 ChatGPT 和你的卡片笔记对话?开源应用 Quivr 尝试

作者头像
王树义
发布2023-09-01 20:22:24
3800
发布2023-09-01 20:22:24
举报
文章被收录于专栏:玉树芝兰

卡片

非常喜欢使用卡片笔记。其优点明显,例如能显著减轻写作压力。在你面对空白屏幕时,写一篇文章的压力可能会很大,而随时三言两语记录卡片笔记则显得更为轻松。由于笔记以卡片形式存在,可以进行大量重组复用,对于 内容输出来说,非常友好

然而,卡片笔记也会带来一些问题。信息分散在许多卡片中,在查找和使用时增加了困难。为了解决这个问题,现有的卡片笔记工具普遍采用了 双链方法

双链将笔记之间进行链接。当我们需要查找笔记时,不再仅仅按照关键词搜索,而是找到某一篇笔记作为种子,然后沿着链接指出的路径和聚簇关联,找到相关的卡片,并且进行整合输出。Obsidian,Roam Research 和 Logseq 等卡片笔记工具都提供了这样的双向链接功能。

疑问

近一段时间,我在知识星球和公众号后台时常收到读者的疑问:能否将 AI (例如 ChatGPT)与我们的本地卡片笔记库进行交互?这样就可以获取与特定主题紧密相关的诸多卡片内容,并将它们有机地整合。然后利用 ChatGPT 的自然语言问答交互能力,让 AI 以流畅、清晰、准确且综合的方式,回答我们的问题,形成独有的知识输出。

回答这个问题有些困难。单一文档的问答对话已经有很多解决方案,例如我之前推荐过的 ChatDoc 等。然而,要从多文档中综合提取信息,ChatDoc 搞不定。好用的多文档问答工具倒是现成的,例如 ChatBase 。

好用归好用,价格却不能忽略。ChatBase 最低月费是 19 美元。

一开始我觉得 19 美金 / 月这价格虽然不低,但如果能提高用户工作效率并带来竞争优势,或许值得。但是,我看到这篇作者的访谈后,就改变了想法。

作者观察到大部分用户一上来都选择了最低挡位的19美金,但是很快要么提高订阅等级(多交钱),要么干脆不续订了。这表明 19 美元的月订阅费对大部分人来说,根本不够用

好在我最近发现了一个新的应用,能以经济实惠的方式为大部分用户提供多文档对话功能。

应用

这款工具叫做 Quivr ,网址在这里。

使用之前,你需要先设置你的 OpenAI API 密钥,然后选择相关的模型。我建议你选择 gpt-3.5-turbo-16k 模型,因为这个 6 月 13 日更新的模型 token 最大长度有显著提升,可以大概率避免答案中途无缘无故截断。

使用 Quivr 的过程里,你依然要为调用 OpenAI API 付费。但是比起 ChatBase 19 美元起的月费,这个成本就显得微不足道了。

上传

Quivr 的界面简洁易用,用户可以将一系列文档拖拽上传,或者直接指定某个网址,它自己帮你爬取网站信息。这样一来,你就可以轻松愉快和自己的卡片笔记对话了。

为了演示方便和保护隐私,我上传了之前发布在公众号和知识星球、小报童的一些文章。如果这款工具可以妥善处理文章这样的长篇材料,那么卡片笔记篇幅短小,更是不在话下。

除了文本和 Markdown 文件,Quivr 还支持其他类型的文件,如 PDF、PowerPoint、Excel、Word,甚至音频和视频。这意味着用户可以上传各种不同的材料和类型,然后统一进行提问,我认为这个设计准确抓住了知识生产用户的痛点。

在上传过程中,工具会提示哪些文件已成功上传。我上传的都是 markdown 纯文本文件,体积不大,很快就完成了。

Explore 选项下,我们可以检查已经上传的文件,确认没有遗漏。

用户还可以通过图表查看当前存储空间的使用情况。如果你使用的资料都是 Markdown 文件,这 200 MB 的空间应该能用一段时间了。

至此咱们的资料已经上传好了,下面可以开始提问了。

提问

我首先询问我的知识库中包含哪些 GPT 的应用介绍。

Quivr 返回了四个结果,其中前三个还算准确,而且明显不是来自单一文件,而是综合了多个文件的信息。除了过于笼统的第四个答案,我整体比较满意。

我接着提问 GPT-4 在编程上能提供何种帮助。它根据我的资料列出了一些具体应用,如 代码解释器 和 Github Copilot Chat 等。

只是我不明白答案第二项这个自动化论文评分(AES)是啥,我没写过啊?结果在 Obsidian 里面一查询,发现是《AI 写文献回顾,好使吗?》一文中引用的 GPT-4 给出的答案。难怪,哈哈。

我进一步提问,哪些 GPT 功能和 GPT 插件可以用于科研文献回顾,并要求它给出综合结果并列出原始信息。

Quivr 将 GPT 功能 和 GPT 插件(分别来自两篇不同的文章)分开处理,分别提供了来源。然而,我发现 Quivr 并未列出具体的文档名,而且部分结果存在误导,如将 Wolfram 误为文献回顾的插件。

我怀疑可能是我的提示词有误,于是我对提示词进行了修正,并提出新的问题。

这次我要求综合结果、具体细节,还要求了原始信息。

下面是 Quivr 的回答:

这答案看完,我颇为振奋。首先 Quivr 确实综合了大概 4 篇文档的内容,而且都进行了梳理提炼,在答案中列出这些原始文件名称,使得我们验证答案变得更为容易,也为进一步的知识挖掘提供了基础。

特色

另外我发现 Quivr 还保存了历次对话,以便于用户随时回顾和分析历史信息。这个功能可以帮助你不断与自己的卡片笔记库深入对话,找到深层次的洞察,发现可能被忽略的问题。

Quivr 是完全开源的,你可以 在 GitHub 上找到其源代码仓库。

Quivr 为用户提供了在本机部署服务的方法,使用的是 Docker。如果你有需求,可以按照官方教程操作。

LangChain

我们简要介绍一下 Quivr 所使用的技术。它的基础框架是 LangChain,这是一个在 GitHub 上特别受欢迎的库,评价超过 5 万颗星,月下载量过百万。

LangChain 这个库的优势在于解决了人们使用大型语言模型时重复性操作问题。深度学习中求导、反向传播等重复性操作很恼人,于是催生了 TensorFlow 和 PyTorch 这样的深度学习框架。同样,LangChain 也在事实上成为 LLM 应用领域的通用框架,你在目前海量涌现的 LLM 应用中,大多都能看见它的影子。

如果你对 LangChain 感兴趣,我推荐 这门由 Deep Learning AI 和 LangChain 官方联合推出的免费课程。

尽管这只是一门基础课程,但学过后你可以对一些已经存在的项目进行修改调整,满足你自己的应用需求。

安全

我知道读到这里,又有读者要跟我聊隐私数据泄漏问题了。有人坚持认为一调用 OpenAI API ,你的数据就会被科技巨头收割。在 ChatGPT 科研预览版阶段,这样的担心确实很有必要。我在去年 12 月第一次介绍 ChatGPT 的时候就专门提过。不过我们也要注意与时俱进。自 2023 年 3 月 1 日起,OpenAI 在数据政策上已经做出了重大的调整。

通过 API 上传的数据并不会被 OpenAI 用于训练或改进模型,除非用户明确要求这样做。由于法规要求,OpenAI 会保留你通过 API 上传的数据 30 天,然后删除。

如果你就是对数据隐私高度敏感,无法使用 OpenAI ,Quivr 也能帮到你。最近它已经支持了开源模型 GPT4All 。这个模型我之前给你介绍过的,在笔记本上就能运行。虽然处理复杂认知问题,GPT4All 相较于 GPT-4 还有相当的差距,但是对若干份文档抽取重点做出解答,还足够胜任。

随着更多的本地化模型和开源模型的加入,个人和机构的知识库也可以完全在本地利用 Quivr 进行知识检索和问答,而无需担心数据隐私泄露。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 玉树芝兰 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 卡片
  • 疑问
  • 应用
  • 上传
  • 提问
  • 特色
  • LangChain
  • 安全
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档