数据无处不在。在互联网的早期,数据大多是结构化的,可以很容易地在关系数据库中存储和管理。以图书数据库为例:
数据库中的每一行代表一本书,而列对应于特定的信息类别。当用户通过在线服务查找书籍时,他们可以通过数据库中存在的任何列名进行查找。例如,查询作者姓名为 Bill Bryson 的所有结果会返回 Bill Bryson 的所有书籍。 随着互联网的发展,非结构化数据(例如图像、视频、音频和用户行为等)变得越来越普遍。与结构化数据不同,它们不能轻易地分为行和列关系。没有简单的方法可以将它们存储在关系数据库中。 输入嵌入向量,也称为向量嵌入、特征向量或简称为嵌入。它们是数值——某种坐标——代表非结构化数据对象或特征,例如照片的组成部分、视频中的选定帧、地理空间数据等。嵌入本质上是作为 AI 模型的计算副产品出现的,在非常大的高质量输入数据集上训练的机器或深度学习模型,将每个非结构化数据转换为嵌入。这些嵌入使得瞬间、可扩展的“相似性搜索”成为可能。 存储、索引和搜索这些嵌入的工具,便是向量数据库。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。