工具介绍

最近更新时间:2024-09-30 17:23:41

我的收藏
腾讯云向量数据库团队提供了一款稀疏向量工具包。它旨在帮助用户高效生成稀疏向量,并提供了一系列高级灵活的功能,能够满足用户在不同领域和任务中的个性化需求。
快速生成稀疏向量:具有优化的算法和数据结构,并区分写入和检索场景,使用不同的词表拆分计算方法,将文本内容快速转换为稀疏向量表示。当前支持中文、英文两种语言,默认为中文。
训练自定义语料:支持针对特定领域的数据集进行模型训练,生成适配特定领域的词频计算参数,并可下载与上传参数,以灵活调整优化参数,持续提高模型稀疏向量生成的准确性。
SDK :为了帮助用户快速生成稀疏向量,腾讯云向量数据库提供了 Python、Java、Go 三种语言的稀疏向量生成工具。
说明:
在使用不同语言的工具生成稀疏向量时,由于底层使用的分词工具存在差异,因此在支持的拆分参数以及拆分结果上可能会存在细微差别,如 Python SDK 支持指定使用 PaddlePaddle 的分词库,其他语言暂不支持。
语言
语言版本
SDK 下载
SDK 源码
Python
推荐使用 3.8 及以上版本
安装最新版本 tcvectordb SDK,已包含 tcvdb-text 工具,无需单独下载。
pip3 install tcvectordb
执行如下命令,可单独安装 tcvdb_text 最新版本。
pip3 install tcvdb-text
Java
Java 8 或更高版本
安装最新版本的 vectordatabase-sdk-java,已依赖tcvdb_text 工具,无需单独下载。如需单独依赖,请参见com/tencent/tcvectordb/tcvdb-text
GO
Go 1.15 或更高版本
安装最新版本(V1.4.0 以上支持稀疏向量)的 vectordatabase-sdk-go,已包含 tcvdbtext 工具。 https://github.com/Tencent/vectordatabase-sdk-go