前期准备
创建步骤
1. 登录 数据湖计算 DLC 控制台,单击左侧菜单数据作业进入数据作业管理页。
2. 单击创建作业按钮,进入创建页。n
配置参数如下:
配置参数 | 说明 |
作业名称 | 支持中文、英文、数字和“_”,最多100个字符 |
作业类型 | 批处理:基于 Spark jar 的批处理数据作业 流处理:基于 Spark Streaming 的流式数据作业 |
程序包 | 支持 jar 格式。 支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如程序包超过5MB可先将程序包上传到 cos 后使用。 支持直接填写 cos 存储路径 |
主类(Main Class) | 选择 jar 文件时必填。jar 包的主类参数,多个参数使用空格分割 |
程序入口参数 | 非必填。程序的入口参数,支持填写多个。多个参数使用“空格”分割 |
作业参数 | 非必填。作业-config 信息,spark.开头的参数,按照k=v格式填写,多个参数换行填写。 示例:spark.network.timeout=120s |
依赖 jar 资源(--jar) | 非必填。支持 jar 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。 支持直接填写 cos 存储路径,多个路径以“;”隔开 |
依赖 py 资源(--py-files) | 非必填。支持 py、zip、egg 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。 支持直接填写 cos 存储路径,多个路径以“;”隔开 |
依赖 files 资源(--files) | 非必填。暂不支持 jar、zip 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。 支持直接填写 cos 存储路径,多个路径以“;”隔开 |
依赖 archives 资源(--archives) | 非必填。支持 tar.gz、tgz、tar 格式,可选择多个 支持选择对象存储 cos 内文件或本地上传,本地上传不可超过5MB,如资源超过5MB可先将资源上传到 cos 后使用。 支持直接填写 cos 存储路径,多个路径以“;”隔开 |
CAM Role arn | 在作业配置中配置的数据访问策略,指定了数据作业可访问的数据范围。详细配置说明参见 配置数据访问策略 |
资源配置 | 可配置数据作业的引擎资源,可配置资源数不超过所选的数据引擎规格。资源说明:1CU≈1核4G 计费 CU 数 = Executor 资源 * Executor 数量 + Driver 资源 按量计费的数据引擎费用将按计算 CU 数的使用量收取 |
3. 完成配置填写后,保存即可完成创建。