简介
本文介绍对象存储 COS 通过 Python SDK 实现检索对象内容的示例代码和描述。
注意事项
若您要使用检索对象内容功能,需要具有目标对象的读权限:在您进行 授权策略 时,action 需要设置为
cos:GetObject
,更多授权请参见 支持CAM的业务接口。COS Select 支持检索以下格式的对象数据:
CSV 格式:对象以 CSV 格式存储,并以固定的分隔符划分;
JSON 格式:对象以 JSON 格式存储,可以是 JSON 文件或者 JSON 列表。
CSV、JSON 对象需要以 UTF-8 格式编码。
COS Select 支持检索 GZIP 或者 BZIP2 压缩的 CSV、JSON 对象。
COS Select 支持检索 SSE-COS 加密的 CSV、JSON 对象。
相关示例
功能名称 | 描述 | 示例代码 |
检索对象内容 | 使用结构化查询语句(Structured Query Language,SQL)从指定对象(CSV、JSON 或者 Parquet 格式)中检索内容。 |
使用案例
功能说明
从指定对象中检索内容(SELECT Object content)。
方法原型
select_object_content(Bucket, Key, Expression, ExpressionType, InputSerialization, OutputSerialization, RequestProgress=None, **kwargs)
请求示例
# -*- coding=utf-8from qcloud_cos import CosConfigfrom qcloud_cos import CosS3Clientimport sysimport osimport logging# 正常情况日志级别使用 INFO,需要定位时可以修改为 DEBUG,此时 SDK 会打印和服务端的通信信息logging.basicConfig(level=logging.INFO, stream=sys.stdout)# 1. 设置用户属性, 包括 secret_id, secret_key, region等。Appid 已在 CosConfig 中移除,请在参数 Bucket 中带上 Appid。Bucket 由 BucketName-Appid 组成secret_id = os.environ['COS_SECRET_ID'] # 用户的 SecretId,建议使用子账号密钥,授权遵循最小权限指引,降低使用风险。子账号密钥获取可参见 https://cloud.tencent.com/document/product/598/37140secret_key = os.environ['COS_SECRET_KEY'] # 用户的 SecretKey,建议使用子账号密钥,授权遵循最小权限指引,降低使用风险。子账号密钥获取可参见 https://cloud.tencent.com/document/product/598/37140region = 'ap-beijing' # 替换为用户的 region,已创建桶归属的 region 可以在控制台查看,https://console.cloud.tencent.com/cos5/bucket# COS 支持的所有 region 列表参见 https://cloud.tencent.com/document/product/436/6224token = None # 如果使用永久密钥不需要填入 token,如果使用临时密钥需要填入,临时密钥生成和使用指引参见 https://cloud.tencent.com/document/product/436/14048scheme = 'https' # 指定使用 http/https 协议来访问 COS,默认为 https,可不填config = CosConfig(Region=region, SecretId=secret_id, SecretKey=secret_key, Token=token, Scheme=scheme)client = CosS3Client(config)response = client.select_object_content(Bucket='examplebucket-1250000000',Key='exampleobject',Expression='Select * from COSObject',ExpressionType='SQL',InputSerialization={'CompressionType': 'NONE','JSON': {'Type': 'LINES'}},OutputSerialization={'CSV': {'RecordDelimiter': '\\n'}})# 获取封装在响应结果中的 EventStream 实例event_stream = response['Payload']# 一次性获取全部检索结果# 注意, 因为 EventStream 对检索结果的获取是流式的, 所以当您再次调用 get_select_result() 方法时将返回空集result = event_stream.get_select_result()print(result)
全部参数请求示例
response = client.select_object_content(Bucket='examplebucket-1250000000',Key='exampleobject',Expression='Select * from COSObject',ExpressionType='SQL',InputSerialization={'CompressionType': 'GZIP','JSON': {'Type': 'LINES'}},OutputSerialization={'CSV': {'RecordDelimiter': '\\n'}},RequestProgress={'Enabled': 'FALSE'})
参数说明
参数名称 | 参数描述 | 类型 | 是否必填 |
Bucket | 存储桶名称,由 BucketName-APPID 构成 | String | 是 |
Key | 对象键(Key)是对象在存储桶中的唯一标识。例如,在对象的访问域名 examplebucket-1250000000.cos.ap-guangzhou.myqcloud.com/doc/pic.jpg 中,对象键为 doc/pic.jpg | String | 是 |
Expression | SQL 表达式,代表您需要发起的检索操作 | String | 是 |
ExpressionType | 表达式类型,该项为扩展项,目前只支持 SQL 表达式,仅支持 SQL 参数 | String | 是 |
InputSerialization | Dict | 是 | |
OutputSerialization | Dict | 是 | |
RequestProgress | 是否需要返回查询进度 QueryProgress 信息,如果选中 COS Select 将周期性返回查询进度 | Dict | 否 |
返回结果说明
对象的检索结果,类型为 dict。
{'Payload': EventStream()}
返回结果中仅存在一条 Key 为
'Payload'
,Value 为EventStream
实例的 Key-Value 对,对象的检索结果封装在 EventStream
实例里,您可以调用其 next_event()
、get_select_result()
以及get_select_result_to_file()
方法获取检索结果。