创建数据集

最近更新时间:2024-09-27 15:56:41

我的收藏

功能描述

本接口用于创建一个数据集(Dataset),数据集是由文件元数据构成的集合,用于存储和管理元数据索引。

授权说明

授权策略中 action 设置为 ci:CreateDataset ,详情请参见 数据万象 action addd

使用限制

每个数据集最多可为1亿个文件建立元数据索引。
仅支持北京、上海地域,即请求Host中的<Region>仅支持填写为beijing

请求

请求示例

POST /dataset HTTP/1.1
Host: <AppId>.ci.<Region>.myqcloud.com
Authorization: Auth String
Content-Length: xxx
Content-Type: application/json
Accept: application/json
说明:
Authorization: Auth String(详情请参见 请求签名 文档)。
通过子账号使用时,需要授予相关的权限,详情请参见 授权粒度详情 文档。

请求头

此接口仅使用公共请求头部,详情请参见 公共请求头部 文档。

请求体

该请求操作的实现需要有以下请求体。
{
"DatasetName": "test",
"Description": "test",
"TemplateId": "Official:COSBasicMeta"
}
具体的数据内容如下:
参数名称
描述
类型
是否必选
DatasetName
数据集名称,同一个账户下唯一。命名规则如下:
长度为1~32字符。
只能包含小写英文字母,数字,短划线(-)。
必须以英文字母和数字开头。
String
Description
数据集描述信息。长度为1~256个英文或中文字符,默认值为空。
String
TemplateId
与数据集关联的检索模板,在建立元数据索引时,后端将根据检索模板来决定采集文件的哪些元数据。每个检索模板都包含若干个算子,不同的算子表示不同的处理能力,更多信息请参见 检索模板与算子
默认值为空,即不关联检索模板,不进行任何元数据的采集。
String
Version
数据集版本。basic、standard,默认为basic。
String
Volume
Version为basic时为50w。Version为standard时,默认为500w,可设置1-10000,单位w。传0采用默认值。
Integer
TrainingMode
训练数据的来源模式。默认为0,表示训练数据来源于指定数据集,值为1时表示训练数据来源于cos某个bucket目录下文件。仅在Version为standard时生效
Integer
TrainingDataset
训练数据的数据集名称。仅在TrainingMode为0时生效。
String
TrainingURI
训练数据的资源路径。仅在TrainingMode为1时生效。
String



响应

响应头

此接口仅返回公共响应头部,详情请参见 公共请求头部 文档。

响应体

{
"Dataset": {
"BindCount": 0,
"CreateTime": "2023-12-25 15:16:20.692674978 +0800 CST",
"DatasetName": "test",
"Description": "test",
"FileCount": 0,
"TemplateId": "Official:COSBasicMeta",
"TotalFileSize": 0,
"UpdateTime": "2023-12-25 15:16:20.692675128 +0800 CST"
},
"RequestId": "NWFjMzQ0MDZfOTBmYTUwXzZkZV8z****"
}
响应包体具体数据内容如下:
参数名称
类型
描述
Dataset
Container
数据集信息。
RequestId
string
请求 ID。
Dataset 节点内容:
参数名称
类型
描述
BindCount
Long
数据集当前绑定的 COS Bucket 数量。
CreateTime
String
数据集创建时间的时间戳,格式为 RFC3339Nano。
DatasetName
String
数据集名称。
Description
String
数据集描述信息。
FileCount
Long
数据集中当前已建立了元数据索引的文件数量。
TemplateId
String
检索模板。
TotalFileSize
Long
数据集中当前已建立了元数据索引的文件的总大小,单位为字节。
UpdateTime
String
数据集修改时间的时间戳,格式为 RFC3339Nano。
创建数据集后,如果未更新过数据集,则数据集修改时间的时间戳和数据集创建时间的时间戳相同。
BindCount
Long
数据集当前绑定的数据源数量。
FileCount
Long
数据集中当前已建立了元数据索引的文件数量。
TotalFileSize
Long
数据集中当前已建立了元数据索引的文件的总大小,单位为字节。
DatasetType
Integer
表示数据集的类型,默认为0,表示普通数据集,值为1时表示该数据集为控制台文件列表专用的数据集。
Version
String
数据集版本。
State
String
训练状态:Unstart、Running、Success、Failed。