Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Milvus 再上新!支持 Upsert、Kafka Connector、集成 Airbyte,助力高效数据流处理

Milvus 再上新!支持 Upsert、Kafka Connector、集成 Airbyte,助力高效数据流处理

作者头像
Zilliz RDS
发布于 2023-12-04 12:36:01
发布于 2023-12-04 12:36:01
7230
举报
Milvus 已支持 Upsert、 Kafka Connector、Airbyte!

在上周的文章中《登陆 Azure、发布新版本……Zilliz 昨夜今晨发生了什么?》,我们已经透露过 Milvus(Zilliz Cloud)为提高数据流处理效率, 先后支持了 Upsert、 Kafka Connector、Airbyte,而这些功能的作用都是简化数据处理和集成流程,为开发人员提供更高效的工具来管理复杂的数据,今天我们将向大家一一介绍。

01.

Upsert:简化数据更新流程

Upsert 功能上线以前,在 Milvus 中的更新数据需要两个步骤:删除数据,然后再插入新数据。虽然这种方法也可行,但无法确保数据原子性,且操作过于繁琐。Milvus 2.3 版本发布了全新的 Upsert 功能。(Zilliz Cloud 海外版也已上线 Upsert 功能 Beta版)。

可以说,Upsert 功能重新定义了数据更新和管理方式。使用 Upsert 时,Milvus 会判断数据是否已经存在。如果数据不存在则插入数据,如果已存在则更新数据。这种具有原子性的方法对 Milvus 这样单独管理插入和删除数据的系统中尤为重要。

Upsert 具体的顺序为:先插入数据,然后删除重复数据。这样可以确保了操作期间的数据仍然可见。

此外,Upsert 功能还特别考虑了修改主键的场景。在数据更新过程中无法更改主键列。这与 Milvus 根据主键哈希跨分片(shard)管理数据的原则一致。这种限制避免了跨 Shard 操作带来的复杂性和潜在的数据不一致性。

Upsert 使用方法简单,类似于插入操作。用户可以轻松将 Upsert 集成到现有的工作流程中,无需对原有流程进行大改。在 Pymilvus 等 SDK 中,Upsert 命令调用和插入命令完全一致。熟悉 Milvus 的用户使用起来没有任何难度,可以获得一致和丝滑的用户体验。

执行命令时,Upsert 会提供关于操作成功与否以及受影响的数据的反馈,进一步增加了开发者的使用便利性。这种易于使用且稳定的功能能够助力数据管理。更多详情,请查看 Upsert 文档。

但是使用 Upsert 功能时还需要考虑以下两点:

  • AutoID 限制:使用 Upsert 功能的前提条件是将 AutoID 设置为 false。如果 Collection Schema 中将 AutoID 设置为 true,则无法执行 Upsert 操作。我们设置了这个限制的主要考量是,Upsert 也包含数据更新操作,更新的数据需要有新的主键值。如果用户提供的主键值与 AutoID 自动生成的主键值发生冲突,那可能会导致数据被覆盖。所以,已经开启了 AutoID 的 Collection 不可使用 Upsert 功能。后续新版本中我们可能会取消这一限制。
  • 性能开销:Upsert 可能会导致性能成本。Milvus 使用 WAL 架构,过多删除操作可能会导致性能下滑。Milvus 中的删除操作不会立即清除数据,而是为数据打上删除标记。随后在数据压缩过程中才会根据这些标记真正清除数据。因此,频繁的删除操作可能会导致数据膨胀,影响性能。我们建议不要太过于频繁地使用 Upsert 功能,以确保最佳性能。

02.

Kafka Connector:赋能实时数据处理

近期,Milvus 和 Zilliz Cloud 接入了 Kafka Sink Connector,向量数据可以无缝丝滑地通过 Confluent/Kafka 实时导入 Milvus 或 Zilliz Cloud 向量数据库中。本次集成能够进一步释放向量数据库潜能,助力实时生成式 AI 应用,尤其是使用 OpenAI GPT-4 这种大模型的场景。

如今,我们所获取的信息中,非结构化数据已占据 80% 以上,且这类数据还在呈爆炸式增长。Zilliz 与 Confluent 的合作标志着非结构化数据管理和分析的重大进步,我们能够更高效存储、处理实时向量数据流,将其转化为易于搜索的数据。

Kafka Connector + Milvus / Zilliz Cloud 的常见用例包括:

  • 增强生成式 AI:为 GenAI 应用提供最新的向量数据,从而确保生成的准确性和及时性。这两点对于金融和媒体等领域尤为重要,因为都需要实时处理各种来源的流式数据。
  • 优化电商推荐系统电商平台需要实时根据库存和客户行为动态调整其推荐商品或内容以提升用户体验。

在 Zilliz Cloud 中使用 Kafka Connector 的步骤也十分简单:

  • GitHub 或 Confluent Hub 下载 Kafka Sink Connector。
  • 配置 Confluent 和 Zilliz Cloud 账号。
  • 阅读在 GitHub 仓库中提供的指南并配置 Kafka Connector。
  • 运行 Kafka Connector,将实时流数据导入 Zilliz Cloud。

如需更深入了解如何设置 Kafka Connector 和相关用例,请前往 GitHub 仓库或访问此网页。

03.

集成 Airbyte:数据处理更高效

近期,Milvus 与 Airbyte 团队合作,在 Milvus 中集成 Airbyte,增强了大语言模型(LLM)和向量数据库中的数据获取和使用流程。本次集成能增强开发者存储、索引和搜索高维向量数据的能力,大大简化生成式聊天机器人和产品推荐等应用搭建流程。

本次集成的主要亮点包括:

  • 数据传输更高效:Airbyte 能够无缝将数据从各种来源传输到 Milvus 或 Zilliz Cloud,即时将数据转化为 Embedding 向量,简化了数据处理流程。
  • 搜索功能更强大:此次集成增强了向量数据库的语义搜索能力。基于 Embedding 向量,系统可以自动识别并搜索出语义相似性高的相关内容,能够为需要高效检索非结构化数据的应用赋能。
  • 设置过程更简单:设置 Milvus 集群和配置 Airbyte 同步数据的步骤十分简单。如果需要使用 Streamlit 和 OpenAI Embedding API 构建应用也是同样的设置步骤。

此次集成简化了数据传输和处理,释放实时 AI 应用的无限可能性。例如,在客户支持系统中,使用 Milvus 或 Zilliz Cloud 集成 Airbyte 可以创建基于语义搜索的智能技术支持工单系统,从而为用户提供即时、有用的信息,减少人工干预,提升用户体验。

Zilliz 始终致力于提升非结构化数据管理和处理能力和技术,本次推出的 Upsert、Kafka Connector、Airbyte 等工具的集成都展现了这一点。后续,我们将进一步优化数据获取和数据 Pipeline 功能,敬请期待!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ZILLIZ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
.NET 原生驾驭 AI 新基建实战系列(五):Milvus ── 大规模 AI 应用的向量数据库首选
Milvus 是一个强大的工具,帮助开发者处理大规模向量数据,尤其是在人工智能和机器学习领域。它可以高效地存储和检索高维向量数据,适合需要快速相似性搜索的场景。在 .NET 环境中,开发者可以通过 Milvus C# SDK 轻松连接和操作 Milvus 服务器,包括创建集合、插入数据和执行搜索等操作。
AI.NET 极客圈
2025/04/28
1410
.NET 原生驾驭 AI 新基建实战系列(五):Milvus ── 大规模 AI 应用的向量数据库首选
【RAG落地利器】Weaviate、Milvus、Qdrant 和 Chroma 向量数据库对比
向量数据库是一种将数据存储为高维向量的数据库,高维向量是特征或属性的数学表示。每个向量都有一定数量的维度,根据数据的复杂性和粒度,可以从数十到数千不等。
致Great
2025/01/23
1.2K0
【RAG落地利器】Weaviate、Milvus、Qdrant 和 Chroma 向量数据库对比
Upsert Kafka Connector - 让实时统计更简单
在某些场景中,例如读取 compacted topic 或者输出(更新)聚合结果的时候,需要将 Kafka 消息记录的 key 当成主键处理,用来确定一条数据是应该作为插入、删除还是更新记录来处理。为了实现该功能,社区为 Kafka 专门新增了一个 upsert connector(upsert-kafka),该 connector 扩展自现有的 Kafka connector,工作在 upsert 模式(FLIP-149)下。新的 upsert-kafka connector 既可以作为 source 使用,也可以作为 sink 使用,并且提供了与现有的 kafka connector 相同的基本功能和持久性保证,因为两者之间复用了大部分代码。
王知无-import_bigdata
2021/03/25
4.1K0
向量数据库的中场战事:长期主义者Zilliz如何全球突围
命运齿轮转动的开始,源于 2023 年的 3 月 23 日的 OpenAI 一次日常更新。
机器之心
2025/02/14
1000
向量数据库的中场战事:长期主义者Zilliz如何全球突围
Milvus 在唯品会搜索推荐的实践
随着互联网数据规模的爆炸式增长,当前主流电商平台的商品品类及数量越来越多,用户却越来越难以便捷地找到自己需要的产品。
Zilliz RDS
2021/06/25
2.1K0
重磅推出:Milvus Lite 正式上线,几秒内即可轻松搭建 GenAI 应用
Milvus Lite(https://milvus.io/docs/milvus_lite.md)是一个轻量级向量数据库,支持本地运行,可用于搭建 Python 应用,由 Zilliz 基于全球最受欢迎的开源向量数据库 Milvus(https://milvus.io/intro)研发。从架构上,Milvus Lite 复用了 Milvus 向量索引和查询解析的核心组件,同时移除了 Milvus 中专为分布式系统高扩展性设计的组件。这种架构设计使 Milvus Lite 变为一种紧凑且高效的向量数据库解决方案,非常适用于计算资源有限的环境,如笔记本电脑、Jupyter Notebook 和移动设备等。
Zilliz RDS
2024/06/13
6930
重磅推出:Milvus Lite 正式上线,几秒内即可轻松搭建 GenAI 应用
点击查看 Milvus 社区十大关键词(上)
按照热度,排名前十的关键词依次为:版本、查询、内存、插入、配置、日志、集群、文档、 部署、删除。今天,我们先来扒一扒前五大关键词!
Zilliz RDS
2024/01/30
2630
点击查看 Milvus 社区十大关键词(上)
用户案例|Milvus 助力 Credal.AI 实现 GenAI 安全与可控
AIGC 时代,企业流程中是否整合人工智能(AI)对于的企业竞争力至关重要。然而,随着 AI 不断发展演进,企业也在此过程中面临数据安全管理、访问权限、数据隐私等方面的挑战。
Zilliz RDS
2023/12/13
2180
用户案例|Milvus 助力 Credal.AI 实现 GenAI 安全与可控
「非结构化数据峰会」精彩速递:Zilliz Cloud 首发、Milvus 技术演进、生态实践全揭秘!| Q推荐
2022 年 9 月 24-25 日,首届非结构化数据峰会(2022 Unstructured Data Summit)在线上举行。本次峰会由 Zilliz 主办,主题为「矩阵革命,向量连接世界」,峰会设置了一系列 Keynote 和分论坛演讲,围绕人工智能在非结构化搜索领域的顶尖技术、热门话题、前沿观察展开分享和探讨,共同探索行业发展的新风向。 对于主办方 Zilliz,如果近期有关注科技圈投融资动态的话,应该对它不陌生。不久前,向量数据库公司 Zilliz 宣布完成 6000 万美元的新一笔融资,通过这
深度学习与Python
2023/03/29
6540
「非结构化数据峰会」精彩速递:Zilliz Cloud 首发、Milvus 技术演进、生态实践全揭秘!| Q推荐
Zilliz联手英伟达发布全球首个GPU加速向量数据库!CUDA加持性能飙升50倍,未来十年或暴涨1000倍
在旧金山时间3月20日上午,Zilliz 与英伟达携手在 GTC 2024 大会上发布了 Milvus 2.4 版本。
新智元
2024/03/25
5140
Zilliz联手英伟达发布全球首个GPU加速向量数据库!CUDA加持性能飙升50倍,未来十年或暴涨1000倍
引领向量数据库技术新变革,Milvus 2.4 正式上线!
作为向量数据库赛道的领军者,Zilliz 一直致力于推动向量技术的进步与创新。本次发布中,Milvus 新增支持基于 NVIDIA 的 GPU 索引—— CUDA 加速图形索引(CAGRA),突破了现有向量搜索的能力。
Zilliz RDS
2024/04/10
6790
引领向量数据库技术新变革,Milvus 2.4 正式上线!
Zilliz 推出 Spark Connector:简化非结构化数据处理流程
以生产级别的搜索系统为例,该系统通常包含两个部分:离线数据索引和在线查询服务。实现该系统需要使用多种技术栈。例如,在离线处理中,如何将来源于多种渠道的非结构化数据数据高效、方便地处理并推送到向量数据库以实现在线查询,是一个充满挑战的问题。Apache Spark 和 Databricks 是应用广泛的大批量数据处理方案。Zilliz Cloud 推出了 Spark Connector。该工具将 Milvus 和 Zilliz Cloud 向量数据库 API 集成于 Apache Spark 和 Databricks 任务,大大简化数据处理和推送的实现难度。
Zilliz RDS
2024/07/31
1750
Zilliz 推出 Spark Connector:简化非结构化数据处理流程
Milvus 2.0 新版本一览:重新定义向量数据库
2018 年 10 月,我们写下了向量数据库 Milvus 的第一行代码;在历经了 29 个月、19 个版本的迭代与全球 1000 家用户的实践验证后,终于在 2021 年 3月迎来了 Milvus 1.0 版本。Milvus 解决了对向量数据进行增删改查(CRUD)操作和数据持久化的问题,但随着新需求的出现,更多问题也逐渐浮现出来。本文旨在总结过去三年的经验,聊聊 Milvus 2.0 期待解决的问题,以及为什么 Milvus 2.0 是解决这些问题的良药。
Zilliz RDS
2021/07/23
3.4K0
Milvus 2.0 新版本一览:重新定义向量数据库
AI 搜房,贝壳找房的Milvus实践
贝壳作为一家房产服务互联网平台,如何在海量房源中选出能够快速成交的房源是对平台和经纪人来说都是一件非常重要同时具有挑战的事情,但是针对房型图,户型信息等一系列非结构化数据在平台中应该怎么搜索呢?
Zilliz RDS
2020/04/28
1.3K0
AI 搜房,贝壳找房的Milvus实践
贝壳找房基于Milvus的向量搜索实践(三)
第二篇中我们解决了部署方案的问题,接下来要考虑的是数据如果存储。在分布式部署情况下,Milvus是需要使用Mysql来存储元数据的[1]。Milvus分布式部署时,数据只会写一份,如何实现数据的分布式使用呢?基本的思路有两种:1)内部数据复制,典型的例子如elasticsearch[2],kafka[3][4];2)数据存储在共享存储上,如NFS,glusterfs,AWS EBS,GCE PD,Azure Disk等,都提供了kubernetes下的支持[5]。两种思路没有本质的区分,前者是应用自己实现了数据的存储及高可用(多副本);缺点是应用复杂度增加;优点是具有更高的灵活性。后者依赖于已有的通用的存储方案,只需要关注自身的核心功能,复杂度降低了,而且更方便在多种存储方案下切换。在云计算技术发展的今天,后者有一定的市场。Milvus选用了共享存储来存储数据。为了实现存储的统一及高可用,我们把单个Milvus集群所涉及到的所有数据存储(mysql数据文件和milvus的存储),都放到共享存储中。我们使用了glusterfs做为共享存储的具体实现。整体的存储方案如图1。
Zilliz RDS
2021/01/18
1.4K0
贝壳找房基于Milvus的向量搜索实践(三)
用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统
简单来说,现代推荐系统由训练/推理流水线(pipeline)组成,涉及数据获取、数据预处理、模型训练和调整检索、过滤、排名和评分相关的超参数等多个阶段。走遍这些流程之后,推荐系统能够给出高度个性化的推荐结果,从而提升产品的用户体验。
Zilliz RDS
2023/11/01
4800
用 Milvus 和 NVIDIA Merlin 搭建高效推荐系统
重磅!Milvus 论文入选数据库顶会 SIGMOD’21
近日,介绍开源向量数据库系统 Milvus 的技术论文 “Milvus: A Purpose-Built Vector Data Management System” 被数据库领域国际顶级会议 SIGMOD’21 录用。Milvus 项目由 Zilliz 公司于 2019 年发起,现在是 LF AI & Data 基金会旗下孵化项目。Zilliz 作为论文的作者单位,将受邀出席今年 6 月 20 日- 6 月 25 日在中国西安举办的 SIGMOD’21 大会并发表主题演讲。
Zilliz RDS
2021/03/22
9310
重磅!Milvus 论文入选数据库顶会 SIGMOD’21
Milvus 实战 | 使用 Nginx 实现对 Milvus 的负载均衡
如今,互联网信息不断增加。为减小对服务器的压力,越来越多用户开始采用负载均衡机制以减小对服务器的压力。这种做法不但能够保证服务的可用性,还可以提升用户体验。本文将介绍如何通过使用 Nginx 实现对 Milvus 的负载均衡,从而提高服务器资源的使用效率和 Milvus 的可用性。
Zilliz RDS
2021/04/26
1.3K0
速看!Milvus JavaScript 客户端入门级使用指南
使用 Milvus node.js SDK(https://github.com/milvus-io/milvus-sdk-node),可以轻松搭建灵活且强大的数据处理系统。Milvus 支持使用 Node.js (https://nodejs.org/en/download)连接至服务器,完成各种数据库操作。我们还可以使用 Milvus Nods.js SDK 进行一些列操作,如:创建 Collection(集合)、插入数据、构建索引、查询和搜索数据等。
Zilliz RDS
2023/08/25
8780
速看!Milvus JavaScript 客户端入门级使用指南
“加速AI搜索和分析:Milvus数据库解析与实践指南“
在当今数字化时代,人工智能 AI 正迅速改变着我们的生活和工作方式。从智能助手到自动驾驶汽车,AI 正在成为各行各业的创新引擎。然而,这种 AI 的崛起也带来了一个关键的挑战:如何有效地处理和分析越来越丰富和复杂的数据。在这个背景下,向量数据库技术应运而生,为 AI 提供了强大的加速引擎。
汀丶人工智能
2023/10/18
1.4K0
“加速AI搜索和分析:Milvus数据库解析与实践指南“
推荐阅读
相关推荐
.NET 原生驾驭 AI 新基建实战系列(五):Milvus ── 大规模 AI 应用的向量数据库首选
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档