首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TiDB Vector 抢先体验之用 TiDB 实现以图搜图

TiDB Vector 抢先体验之用 TiDB 实现以图搜图

作者头像
HOHO
发布于 2024-04-24 00:14:27
发布于 2024-04-24 00:14:27
20400
代码可运行
举报
运行总次数:0
代码可运行

本文首发自 TiDB 社区专栏:https://tidb.net/blog/0c5672b9 转载请注明出处!

前言

最早知道 TiDB 要支持向量化的消息应该是在23年10月份左右,到第一次见到 TiDB Vector 的样子是在今年1月初,当时 dongxu 在朋友圈发了一张图:

去年我研究了一段时间的向量数据库,一直对 TiDB 向量特性非常期待,看到这张图真的就激动万分,于是第一时间提交了 waitlist 等待体验 private beta。

苦等几个月,它终于来了(目前只对 TiDB Serverless 开放)。迫不及待做个小应用尝尝鲜。

waitlist申请入口:https://tidb.cloud/ai 体验入口:https://tidbcloud.com/

创建 TiDB Vector 实例

在收到体验邀请邮件后,恭喜你可以开始 TiDB Vector 之旅了。

TiDB Serverless 提供了免费试用额度,对于测试用途绰绰有余,只需要注册一个 TiDB Cloud 账号即可。

创建 TiDB Vector 实例和普通的 TiDB 实例并没有太大区别,在创建集群页面可以看到加入了如下开关:

不过要注意的是目前 TiDB Vector 只在 AWS 的eu-central-1可用区开放,选到了其他可用区就看不到这个开关。

这里只需要填一个集群名称就可以开始创建,创建成功后的样子如下所示:

下面开始进入正题。

关于向量的那些事

一些基础概念

  • 向量:向量就是一组浮点数,在编程语言中通常体现为 float 数组,数组的长度叫做维度(dim),维度越大精度越高,向量的数学表示是多维坐标系中的一个点。例如RGB颜色表示法就是一个简单的向量示例。
  • embedding:中文翻译叫嵌入,感觉不好理解,实质上就是把非结构化数据(文本、语音、图片、视频等)通过一系列算法加工变成向量的过程,这里面的算法叫做模型(model)。
  • 向量检索:计算两个向量之间的相似度。

向量检索初体验

连接到 TiDB Serverless 后,就可以体验文章开头图片中的向量操作。

创建一张带有向量字段的表,长度是3维。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE TABLE vector_table (
    id int PRIMARY KEY,
    doc TEXT,
    embedding vector < float > (3)
  );

往表中插入向量数据:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
INSERT INTO vector_table VALUES (1, 'apple', '[1,1,1]'), (2, 'banana', '[1,1,2]'), (3, 'dog', '[2,2,2]');

根据指定的向量做搜索:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
SELECT *, vec_cosine_distance(embedding, '[1,1,3]') as distance FROM vector_table ORDER BY distance LIMIT 3;

+-----------------------+-----------------------+---------------------+
| id      | doc         | embedding             | distance            |
+-----------------------+-----------------------+---------------------+
| 2       | banana      | [1,1,2]               | 0.015268072165338209|
| 3       | dog         | [2,2,2]               | 0.1296117202215108  |
| 1       | apple       | [1,1,1]               | 0.1296117202215108  |
+---------+-------------+-----------------------+---------------------+

这里的distance就是两个向量之间的相似度,这个相似度是用vec_cosine_distance函数计算出来的,意味着两个向量之间的夹角越小相似性越高,夹角大小用余弦值来衡量。

还有以一种常用的相似度计算方法是比较两个向量之间的直线距离,称为欧式距离。

这也意味着不管两个向量是否有关联性,总是能计算出一个相似度,distance越小相似度越高。

向量检索原理

前面大概也提到了两种常用的向量检索方式:余弦相似度和欧式距离,不妨从从最简单的二维向量开始推导一下计算过程。

二维向量对应一个平面坐标系,一个向量就是坐标系中任意一点,要计算两点之间的直线距离用勾股定理很容易就能得出,两点夹角的余弦值也有公式能直接算出来。

拓展到三维坐标系,还是套用上一步的数学公式,只是多了一个坐标。

以此类推到n维也是一样的方法。

以上内容来自我去年讲的向量数据库公开课:https://www.bilibili.com/video/BV1YP411t7Do

可以发现维数越多,对算力的要求就越高,计算时间就越长。

第一个 TiDB AI 应用:以图搜图

基础实现

借助前面介绍的理论知识,一个以图搜图的流程应该是这样子:

下面我用最简洁直白的代码演示整个流程,方便大家理解。

首先肯定是先连接到 TiDB 实例,目前官方提供了python SDKtidb_vector,对SQLAlchemyPeewee这样的 ORM 框架也有支持,具体可参考https://github.com/pingcap/tidb-vector-python

这里简单起见直接用pymysql手写 SQL 操作,以下连接参数都可以从 TiDB Cloud 控制台获取:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
import pymysql

def GetConnection():
    connection = pymysql.connect(
        host = "xxx.xxx.prod.aws.tidbcloud.com",
        port = 4000,
        user = "xxx.root",
        password = "xxx",
        database = "test",
        ssl_verify_cert = True,
        ssl_verify_identity = True,
        ssl_ca = "C:\\Users\\59131\\Downloads\\isrgrootx1.pem"
    )
    return connection

再借助 Towhee 来简化 embedding 的处理,里面包含了常用的非结构化数据到向量数据的转换模型,用流水线(pipeline)的形式清晰构建整个处理过程。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
from towhee import ops,pipe,AutoPipes,AutoConfig,DataCollection

image_pipe = AutoPipes.pipeline('text_image_embedding')

这里使用默认配置构建了一个text_image_embedding流水线,它专门用于对文本和图片做向量转换,从引用的源码中可以看到它使用的模型是clip_vit_base_patch16,默认模态是image

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
@AutoConfig.register
class TextImageEmbeddingConfig(BaseModel):
    model: Optional[str] = 'clip_vit_base_patch16'
    modality: Optional[str] = 'image'
    customize_embedding_op: Optional[Any] = None
    normalize_vec: Optional[bool] = True
    device: Optional[int] = -1

clip_vit_base_patch16是一个512维的模型,因此需要在 TiDB 中创建512维的向量字段。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
create table if not exists img_list 
(
    id int PRIMARY KEY, 
    path varchar(200) not null, 
    embedding vector<float>(512)
);

我准备了3000张各种各样的动物图片用于测试,把它们依次加载到 TiDB 中,完整代码为:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def LoadImage(connection):
    cursor = connection.cursor() 
    cursor.execute("create table if not exists img_list (id int PRIMARY KEY, path varchar(200) not null, embedding vector<float>(512));")
    img_dir='D:\\\\test\\\\'
    files = os.listdir(img_dir)
    for i in range(len(files)):
        path=os.path.join(img_dir, files[i])
        embedding = image_pipe(path).get()[0]
        cursor.execute("INSERT INTO img_list VALUE ("+str(i)+",'"+path+"' , '"+np.array2string(embedding, separator=',')+"');")
    connection.commit()

如果用 ORM 框架的话这里对数据库和向量加工操作会简单些,不需要数组到字符串之间的手工转换。

加载完成后的数据:

下一步定义出根据指定向量在 TiDB 中检索的函数:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def SearchInTiDB(connection,vector):
    cursor = connection.cursor() 
    begin_time = datetime.datetime.now()
    cursor.execute("select id,path,vec_cosine_distance(embedding, '"+np.array2string(vector, separator=',')+"') as distance from img_list order by distance limit 3;")
    end_time=datetime.datetime.now()
    print("Search time:",(end_time-begin_time).total_seconds())
    df =pd.DataFrame(cursor.fetchall())
    return df[1]

这里根据余弦相似度取出结果最相近的3张图片,返回它们的文件路径用于预览显示。

下一步用相同的 image pipeline 给指定图片做 embedding 得到向量,把这个向量传到 TiDB 中去搜索,最后把搜索结果输出显示。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def read_images(img_paths):
    imgs = []
    op = ops.image_decode.cv2_rgb()
    for p in img_paths:
        imgs.append(op(p))
    return imgs
    
def ImageSearch(connection,path):    
    emb = image_pipe(path).get()[0]
    res = SearchInTiDB(connection,emb)
    p = (
        pipe.input('path','search_result')
        .map('path', 'img', ops.image_decode.cv2('rgb'))
        .map('search_result','prev',read_images)
        .output('img','prev')
    )
    DataCollection(p(path,res)).show()

看一下最终搜索效果如何。先看一张已经在图片库存在的图(左边是待搜索的图,右边是搜索结果,按相似度由高到低):

不能说非常相似,只能说是一模一样,准确度非常高!再看一下不在图片库的搜索效果:

图片库里有几十种动物,能够准确搜索出需要的是狗,特别是第一张从图片色彩、画面角度、动作神态上来说都非常相似。

使用向量索引优化

没错,向量也能加索引,但这个索引和传统的 B+ Tree 索引有些区别。前面提到向量相似度计算是一个非常消耗 CPU 的过程,如果每次计算都采用全量暴力搜索的方式那么无疑效率非常低。上一节演示的案例就是用指定的向量与表里的3000个向量逐一计算,最简单粗暴的办法。

向量索引牺牲了一定的准确度来提升性能,通常采用 ANN(近似最近邻搜索) 算法,HNSW 是最知名的算法之一。TiDB Vector 目前对它已经有了支持:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
create table if not exists img_list_hnsw 
(
    id int PRIMARY KEY, 
    path varchar(200) not null, 
    embedding vector<float>(512) COMMENT "hnsw(distance=cosine)"
);

重新把3000张图片加载到新的img_list_hnsw表做搜索测试。

以下分别是不带索引和带索引的查询耗时,第二次明显要快很多,如果数据量越大这个差距会越明显,只是目前还无法通过执行计划或其他方式区分出索引使用情况。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
E:\GitLocal\AITester>python tidb_vec.py
Search time: 0.320241
+------------------------------------+------------------------------------------------------------------------------------------------------+
| img                                | prev                                                                                                 |
+====================================+======================================================================================================+
| Image shape=(900, 900, 3) mode=RGB | [Image shape=(84, 84, 3) mode=RGB,Image shape=(84, 84, 3) mode=RGB,Image shape=(84, 84, 3) mode=RGB] |
+------------------------------------+------------------------------------------------------------------------------------------------------+

E:\GitLocal\AITester>python tidb_vec.py
Search time: 0.239746
+------------------------------------+------------------------------------------------------------------------------------------------------+
| img                                | prev                                                                                                 |
+====================================+======================================================================================================+
| Image shape=(900, 900, 3) mode=RGB | [Image shape=(84, 84, 3) mode=RGB,Image shape=(84, 84, 3) mode=RGB,Image shape=(84, 84, 3) mode=RGB] |
+------------------------------------+------------------------------------------------------------------------------------------------------+

实际在本次测试中发现,使用 HNSW 索引对搜索结果准确度没有任何影响。

自然语言实现图片搜索

本来到这里测试目的已经达到了,突发奇想想试一下用自然语言也来实现图片搜索。于是对代码稍加改造:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def TextSearch(connection,text):
    text_conf = AutoConfig.load_config('text_image_embedding')
    text_conf.modality = 'text'

    text_pipe = AutoPipes.pipeline('text_image_embedding', text_conf)
    embedding = text_pipe(text).get()[0]
    
    res=SearchInTiDB(connection,embedding)
    p = (
        pipe.input('text','search_result')
        .map('search_result','prev',read_images)
        .output('text','prev')
    )
    DataCollection(p(text,res)).show()

还是用的clip_vit_base_patch16模型,只是使用模态改成了文本。通过对文本做 embedding 后得到向量数据送到 TiDB 中进行搜索,流程和前面基本一样。

看一下最终效果:

可以发现英文的搜索效果要很多,这个主要是因为模型对于中文理解能力比较差,英文语义下 TiDB 的向量搜索准确度依然非常高。

基于 TiDB Vector,前后不到100行代码就实现了以图搜图和自然语言搜图。

未来展望

反正第一时间体验完的感受就是:太香了,强烈推荐给大家!

在以往,想在关系型数据库中对非结构化数据实现搜索是一件不敢想象的事,哪怕是号称无所不能的 PostgreSQL 在向量插件的加持下也没有获得太多关注,这其中有场景、性能、生态等各方面的因素制约。而如今在 AI 大浪潮中,应用场景变得多样化,生态链变得更丰富,TiDB Vector 的诞生恰逢其时。

但是不可忽视的是,传统数据库集成向量化的能力已经是大势所趋,哪怕是 Redis 这样的产品也拥有了向量能力。前有专门的向量数据库阻击,后有各种传统数据库追赶,这注定是一个惨烈的赛道,希望 TiDB 能深度打磨产品,突围成功。

期待的功能:更多的索引类型、GPU加速等。

当然了,最大的愿望必须是 TiDB On-Premises 中能尽快看到 Vector 的身影。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【C语言】基本语法知识&&C语言函数&&操作符详解
首先介绍一下我使用的工具:VS2019——集成了很多的功能:编辑、编译、链接、运行、调试等
用户10925563
2024/06/04
3690
【C语言】基本语法知识&&C语言函数&&操作符详解
【初级】C语言——详解操作符
                浮点型的除法 1.0/2      1/2.0--->0.5
xxxflower
2023/04/16
6120
【初级】C语言——详解操作符
C语言操作符
除了%操作符,其余操作符既适用于浮点类型,又适用于整数类型。当/操作符的两个操作数都是整数时执行整除运算,其他情况执行浮点数除法。 % 为取模操作符,其两个操作数必须为整数,而返回的值是整除之后的余数。
海盗船长
2020/08/27
1.2K0
C语言——操作符详解
前言:这篇文章主要讲解一下C语言中常见的操作符的使用,做一下整理,便于日后回顾,同时也希望能帮助到大家。
用户11029137
2024/03/19
4810
C语言——操作符详解
C语言(7)----操作符
C语言中的操作符是用来进行各种数学运算、逻辑运算、位运算、赋值等操作的符号,那么看着是不是就和我们日常生活中的这些语法结构很像呢?
Skrrapper
2024/06/18
1640
C语言(7)----操作符
初识C语言
自己整理的C语言基础学习笔记,参考了挺多资料的,适合梳理知识框架,进而攻克各个知识点。
小孙同学
2022/01/14
4120
初识C语言
【c语言】运算符汇总(万字解析)
为了促进大家深入理解C语言并提升学习效率,本博客作者将对C语言中常用运算符的功能及其使用方法进行全面梳理,同时整合归纳这些运算符的优先级、结合性以及表达式求值规则。
ephemerals__
2024/10/30
1.2K0
【c语言】运算符汇总(万字解析)
【C语言初阶】C语言操作符全攻略:提升编程效率的关键步骤
前言:在编程的世界里,C语言如同一座巍峨的基石,奠定了无数编程语言与软件系统的基础。作为一门历史悠久且功能强大的编程语言,C语言以其高效、灵活和可移植性赢得了广泛的赞誉和应用。而在C语言的众多组成部分中,操作符无疑是其中最为基础且关键的一环
Eternity._
2024/08/09
2010
【C语言初阶】C语言操作符全攻略:提升编程效率的关键步骤
JAVA逻辑运算符
整型、实型和字符型数据进行混合运算时,须先转换成相同类型。转换从低级到高级: 低-> byte,short,char,int,long,float,double -> 高
默默的成长
2022/11/02
6620
JAVA逻辑运算符
C语言---操作符详解
• 赋值操作符: = 、+= 、 -= 、 *= 、 /= 、%= 、>= 、&= 、|= 、^=
Undoom
2024/09/23
1170
按位与、按位异或、按位取反「建议收藏」
& 按位与 | 按位或 ^ 按位异或 1. 按位与运算 按位与运算符”&”是双目运算符。其功能是参与运算的两数各对应的二进位相与。只有对应的两个二进位均为1时,结果位才为1 ,否则为0。参与运算的数以补码方式出现。 例如:9&5可写算式如下: 00001001 (9的二进制补码)&00000101 (5的二进制补码) 00000001 (1的二进制补码)可见9&5=1。 按位与运算通常用来对某些位清0或保留某些位。例如把a 的高八位清 0 , 保留低八位, 可作 a&255 运算 ( 255 的二进制数为0000000011111111)。 main(){ int a=9,b=5,c; c=a&b; printf(“a=%d/nb=%d/nc=%d/n”,a,b,c); } 2. 按位或运算 按位或运算符“|”是双目运算符。其功能是参与运算的两数各对应的二进位相或。只要对应的二个二进位有一个为1时,结果位就为1。参与运算的两个数均以补码出现。 例如:9|5可写算式如下: 00001001|00000101 00001101 (十进制为13)可见9|5=13 main(){ int a=9,b=5,c; c=a|b; printf(“a=%d/nb=%d/nc=%d/n”,a,b,c); } 3. 按位异或运算 按位异或运算符“^”是双目运算符。其功能是参与运算的两数各对应的二进位相异或,当两对应的二进位相异时,结果为1。参与运算数仍以补码出现,例如9^5可写成算式如下: 00001001^00000101 00001100 (十进制为12) main(){ int a=9; a=a^15; printf(“a=%d/n”,a); }
全栈程序员站长
2022/09/06
2.5K0
按位与、或、异或等运算方法
运算规则:0&0=0;   0&1=0;    1&0=0;     1&1=1;
Java架构师必看
2021/03/22
2.4K0
【C语言】操作符还能这样?
✨作者:@平凡的人1 ✨专栏:《C语言从0到1》 ✨一句话:凡是过往,皆为序章 ✨说明: 过去无可挽回, 未来可以改变 ---- 文章目录 @[toc] 🎬前言 🚀操作符的分类 🚀算术操作符 🚀移位操作符 🚩左移操作符 🚩右移操作符 🚀位操作符 🚩**不创建临时变量交换两个整数** 🚩求一个整数存储在内存中的二进制中1的个数 🚀赋值操作符 🚀复合赋值符 🚀单目操作符 🚀关系操作符 🚀逻辑操作符 🚀条件操作符 🚀逗号表达式 🚀下标引用、函数调用和结构成员 🚀拓展:表达式求值 🚩隐式类型转换
平凡的人1
2022/11/15
8390
【C语言】操作符还能这样?
C \u002F C++ 中的运算符
theme: channing-cyan highlight: a11y-dark
鲸落c
2022/11/14
6440
Java的位运算符详解实例——与(&)、非(~)、或(|)、异或(^)
      位运算符主要针对二进制,它包括了:“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符,但逻辑运算符是针对两个关系运算符来进行逻辑运算,而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。
allsmallpig
2021/02/25
1.4K0
C语言位运算符
对于更多紧凑的数据,C 程序可以用独立的位或多个组合在一起的位来存储信息。文件访问许可就是一个常见的应用案例。位运算符允许对一个字节或更大的数据单位中独立的位做处理:可以清除、设定,或者倒置任何位或多个位。也可以将一个整数的位模式(bit pattern)向右或向左移动。 整数类型的位模式由一队按位置从右到左编号的位组成,位置编号从 0 开始,这是最低有效位(least significant bit)。例如,考虑字符值'*',它的 ASCII 编码为 42,相当于二进制的 101010: 位模式 0 0 1 0 1 0 1 0 位位置 7 6 5 4 3 2 1 0 在本例中,值 101010 被表示成一个 8 位的字节内容,因此前面多两个 0。
用户6755376
2020/03/19
2.1K0
C语言——H/操作符详解
赋值操作符: = 、+= 、 -= 、 *= 、 /= 、%= 、<<= 、>>= 、&= 、|= 、^=
用户11015888
2024/03/11
5830
C语言——H/操作符详解
【C语言】操作符
其实我们经常能听到2进制、8进制、10进制、16进制这样的讲法,那是什么意思呢?其实2进制、8进制、10进制、16进制是数值的不同表示形式而已。 比如:数值15的各种进制的表示形式:
zxctscl
2024/09/30
1790
【C语言】操作符
【C语言篇】操作符详解(下篇)
​ 如果表达式1为真,那么就计算表达式2,表达式2的结果为整个式子的 结果; ​ 如果表达式1为假,那么就计算表达式3,表达式3的结果为整个式子的结果。
半截诗
2024/10/09
1110
【C语言篇】操作符详解(下篇)
关于我、重生到500年前凭借C语言改变世界科技vlog.10——进制转化&&操作符进阶
操作符在写代码中有很大的作用,是用于执行特定操作的符号,主要在算术运算、比较运算、逻辑运算、位运算(用于二进制数据处理)起作用,C语言开篇已经介绍了一部分,接下来将进行一些进阶的介绍
DARLING Zero two
2024/11/19
1060
关于我、重生到500年前凭借C语言改变世界科技vlog.10——进制转化&&操作符进阶
相关推荐
【C语言】基本语法知识&&C语言函数&&操作符详解
更多 >
交个朋友
加入腾讯云官网粉丝站
蹲全网底价单品 享第一手活动信息
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验