文档中心>数据湖计算 DLC>快速入门>一分钟入门 DLC 数据分析

一分钟入门 DLC 数据分析

最近更新时间:2024-07-11 10:36:31

我的收藏
使用数据湖计算 DLC,您仅需一分钟即可完成对象存储 COS 上的数据分析查询,目前支持 CSV、ORC、PARQUET、JSON、ARVO、文本文件等多个格式。

前置准备

在进行查询前,您需要开通 DLC 内部权限及配置查询结果路径。

步骤1:设置必要 DLC 内部权限

说明
如果用户已经有权限,或者为主账户管理员,可忽略此步骤。
若您是首次登录的子账号,除了必要的 CAM 授权,还需要请任意 DLC 管理员或主账号管理员在 DLC 控制台左侧权限管理菜单,为您授予必要的 DLC 权限(详细权限说明请参见 DLC 权限概述)。
1. 库表权限:可授予对应的 catalog、database、table,view 等读写操作权限。
2. 引擎权限:可授予计算引擎的使用、监控、修改等权限。
说明
系统会默认为每个用户开通基于 presto 内核的共享 public-engine,方便您可以快速试用,无需先购买独享集群。
详细权限授予步骤请参见 子账号权限管理

步骤2:配置查询结果路径

首次使用 DLC,需要先配置查询结果路径,配置完毕后,查询结果会保存到该 COS 路径下。
1. 登录 数据湖计算 DLC 控制台,选择服务地域
2. 左侧导航菜单进入数据探索
3. 库表页面下,单击存储配置配置查询结果路径。

配置查询结果路径。如 DLC 内部存储,将 SELECT 查询结果存储在 DLC 产品内的存储空间,存储底层为对象存储。结果存储有效期为36小时。
如果您的账号中没有可用的 COS 存储桶,可通过 对象存储控制台 创建。


分析步骤

步骤1:创建数据库

如果您对 SQL 语句熟悉,可直接在查询中编写 create database 语句,跳过创建向导。
1. 登录 数据湖计算 DLC 控制台,选择服务地域
2. 左侧导航菜单进入数据探索
3. 选择库表,单击+,选择创建数据库进行数据库新建并填写数据库名称和描述信息。如下图所示:

4. 右上角选择执行引擎后,执行生成的 create database 语句,完成建库。

如下图所示:

详细操作步骤及配置方式请参见 数据库管理

步骤2:创建外表

如果您对 SQL 语句熟悉,可直接在查询中编写 create table 语句,跳过创建向导。
1. 登录 数据湖计算 DLC 控制台,选择服务地域。
2. 左侧导航菜单进入数据探索
3. 选择库表,选中当前创建的表后,右键单击,选择创建外表
说明
外表一般指数据文件放到您自己账号下的 COS 桶,DLC 可以直接建立外表进行分析,无需额外加载数据。基于外表的特性,例如在执行 drop table 等动作时,DLC 并不会删除您的原始数据,只会删除 table 的元信息。

4. 按照向导生成创表语句,按照:数据路径 > 数据格式 > 数据格式配置项 > 编辑分区,完成各个步骤。
step1:  选择数据文件存放的 COS 路径(路径必须是 COS 桶下的目录,不能直接建立到 COS 桶),此处也提供快速上传文件到 COS 的快捷方式。操作需具备 COS 相关的权限。
目前DLC支持创建:文本文件、csv、json、parquet、orc、orc、avrd
说明
结构推断为建表辅助工具,不能保证100%正确,仍需您进行复查核对字段名、类型是否符合预期,根据实际情况编辑修改为正确的信息。



step3: 如果没有分区可以跳过此步骤,开启使用分区,可以合理的提升分析性能。详细分区信息可参见 查询分区表

5. 单击完成,会生成 SQL 建表语句,选择数据引擎后执行生成的语句即可完成建表。



步骤3:执行 sql 分析

数据准备完备后,您就可以开始书写 SQL 分析语句,选择合适的计算引擎,开始数据分析。



示例

编写数据查询所有结果为 SUCCESS 记录的 SQL 语句,选择计算引擎后执行。
select * from `DataLakeCatalog`.`demo2`.`demo_audit_table` where _c5 = 'SUCCESS'

执行结果如下: