检索对象内容

最近更新时间:2024-08-13 17:46:41

我的收藏

简介

本文介绍对象存储 COS 通过 Python SDK 实现检索对象内容的示例代码和描述。

注意事项

若您要使用检索对象内容功能,需要具有目标对象的读权限:在您进行 授权策略 时,action 需要设置为cos:GetObject,更多授权请参见 支持CAM的业务接口
COS Select 支持检索以下格式的对象数据:
CSV 格式:对象以 CSV 格式存储,并以固定的分隔符划分;
JSON 格式:对象以 JSON 格式存储,可以是 JSON 文件或者 JSON 列表。
CSV、JSON 对象需要以 UTF-8 格式编码。
COS Select 支持检索 GZIP 或者 BZIP2 压缩的 CSV、JSON 对象。
COS Select 支持检索 SSE-COS 加密的 CSV、JSON 对象。

相关示例

功能名称
描述
示例代码
检索对象内容
使用结构化查询语句(Structured Query Language,SQL)从指定对象(CSV、JSON 或者 Parquet 格式)中检索内容。

使用案例

功能说明

从指定对象中检索内容(SELECT Object content)。

方法原型

select_object_content(Bucket, Key, Expression, ExpressionType, InputSerialization, OutputSerialization, RequestProgress=None, **kwargs)

请求示例

# -*- coding=utf-8
from qcloud_cos import CosConfig
from qcloud_cos import CosS3Client
import sys
import os
import logging

# 正常情况日志级别使用 INFO,需要定位时可以修改为 DEBUG,此时 SDK 会打印和服务端的通信信息
logging.basicConfig(level=logging.INFO, stream=sys.stdout)

# 1. 设置用户属性, 包括 secret_id, secret_key, region等。Appid 已在 CosConfig 中移除,请在参数 Bucket 中带上 Appid。Bucket 由 BucketName-Appid 组成
secret_id = os.environ['COS_SECRET_ID'] # 用户的 SecretId,建议使用子账号密钥,授权遵循最小权限指引,降低使用风险。子账号密钥获取可参见 https://cloud.tencent.com/document/product/598/37140
secret_key = os.environ['COS_SECRET_KEY'] # 用户的 SecretKey,建议使用子账号密钥,授权遵循最小权限指引,降低使用风险。子账号密钥获取可参见 https://cloud.tencent.com/document/product/598/37140
region = 'ap-beijing' # 替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket
# COS 支持的所有 region 列表参见 https://cloud.tencent.com/document/product/436/6224
token = None # 如果使用永久密钥不需要填入 token,如果使用临时密钥需要填入,临时密钥生成和使用指引参见 https://cloud.tencent.com/document/product/436/14048
scheme = 'https' # 指定使用 http/https 协议来访问 COS,默认为 https,可不填

config = CosConfig(Region=region, SecretId=secret_id, SecretKey=secret_key, Token=token, Scheme=scheme)
client = CosS3Client(config)

response = client.select_object_content(
Bucket='examplebucket-1250000000',
Key='exampleobject',
Expression='Select * from COSObject',
ExpressionType='SQL',
InputSerialization={
'CompressionType': 'NONE',
'JSON': {
'Type': 'LINES'
}
},
OutputSerialization={
'CSV': {
'RecordDelimiter': '\\n'
}
}
)

# 获取封装在响应结果中的 EventStream 实例
event_stream = response['Payload']

# 一次性获取全部检索结果
# 注意, 因为 EventStream 对检索结果的获取是流式的, 所以当您再次调用 get_select_result() 方法时将返回空集
result = event_stream.get_select_result()
print(result)

全部参数请求示例

response = client.select_object_content(
Bucket='examplebucket-1250000000',
Key='exampleobject',
Expression='Select * from COSObject',
ExpressionType='SQL',
InputSerialization={
'CompressionType': 'GZIP',
'JSON': {
'Type': 'LINES'
}
},
OutputSerialization={
'CSV': {
'RecordDelimiter': '\\n'
}
},
RequestProgress={
'Enabled': 'FALSE'
}
)

参数说明

参数名称
参数描述
类型
是否必填
Bucket
存储桶名称,由 BucketName-APPID 构成
String
Key
对象键(Key)是对象在存储桶中的唯一标识。例如,在对象的访问域名 examplebucket-1250000000.cos.ap-guangzhou.myqcloud.com/doc/pic.jpg 中,对象键为 doc/pic.jpg
String
Expression
SQL 表达式,代表您需要发起的检索操作
String
ExpressionType
表达式类型,该项为扩展项,目前只支持 SQL 表达式,仅支持 SQL 参数
String
InputSerialization
描述待检索对象的格式,详情请参见 SELECT Object Content 中的 请求示例
Dict
OutputSerialization
描述检索结果的输出格式,详情请参见 SELECT Object Content 中的 请求示例
Dict
RequestProgress
是否需要返回查询进度 QueryProgress 信息,如果选中 COS Select 将周期性返回查询进度
Dict

返回结果说明

对象的检索结果,类型为 dict。
{
'Payload': EventStream()
}
返回结果中仅存在一条 Key 为'Payload',Value 为EventStream实例的 Key-Value 对,对象的检索结果封装在 EventStream 实例里,您可以调用其 next_event()get_select_result() 以及get_select_result_to_file()方法获取检索结果。

API 操作

关于检索对象内容涉及的 API 接口说明,请参见 SELECT Object Content 文档。