本文为您介绍通过 EMR 控制台快速创建一个 EMR on CVM 集群、提交作业并查看运行结果的操作流程。
准备工作
1. 在使用 EMR 集群前,需要注册腾讯云账号并完成实名认证,具体操作请参见 实名认证账号归属介绍。
2. 完成对弹性 MapReduce 的服务账号授予系统默认角色 EMR_QCSRole,具体操作请参见 角色授权。
3. 在线账号充值,EMR on CVM 提供两种计费模式:按量计费和包年包月计费,在创建集群前需要进行账号余额充值,确保余额大于等于创建集群所需配置费用(不包含:代金券、折扣卷、优惠券等);具体操作请参见 在线充值。
创建集群
购买步骤 | 配置项 | 配置项说明 | 示例 |
软件配置 | 地域 | 集群所部署的物理数据中心 注意:集群创建后,无法更改地域,请谨慎选择 | 北京、上海、广州、南京、成都、硅谷等 |
| 集群类型 | EMR on CVM 支持多种集群类型,默认 Hadoop 集群类型 | Hadoop、StarRocks 等 |
| 产品版本 | 不同产品版本上捆绑的组件和组件的版本不同 | EMR-V2.7.0 版本中内置的是 Hadoop 2.8.5、Spark 3.2.1 等 |
| 部署组件 | 非必选组件,根据自身需求组合搭配自定义部署 | Hive-2.3.9、Impala-3.4.1等 |
区域与硬件配置 | 计费模式 | 集群部署计费模式 | 按量计费 |
| 可用区及网络配置 | 可用区、集群网络设置注意:集群创建后,无法直接更改可用区,请谨慎选择 | 广州七区 |
| 安全登录 | 用于设置节点的网络访问控制,安全组同防火墙功能 | 创建新安全组 |
| 节点配置 | 根据业务需要为不同节点类型选择合适机型配置。详情请参见 业务评估 | 开启节点部署高可用 |
基础配置 | 所属项目 | 将当前集群分配给不同的项目组 | 集群创建后暂不支持修改所属项目 |
| 集群名称 | 集群的名称,可自定义 | EMR-7sx2aqmu |
| 登录方式 | 自定义设置密码方式和关联密钥方式;SSH 密钥仅用于 EMR-UI 快捷入口登录 | 密码 |
确认配置 | 配置清单 | 确认所部署信息是否有误 | 选中服务协议,单击立即购买 |
注意
您可以在 CVM 控制台中查看各节点信息,为保证 EMR 集群的正常运行,请勿在 CVM 控制台中更改节点配置信息。
提交作业及查看运行结果
集群创建成功后,您可以在该集群创建并提交作业;本文以提交 spark 任务为例,操作如下。
注意
在创建 EMR 集群的时候需要在软件配置界面选择 Spark 组件。
1. 使用 SSH 登录并连接集群(本地系统为 Linux/Mac OS),详情请参见 登录集群。
2. 在 EMR 命令行先使用以下指令切换到 Hadoop 用户,并进入 Spark 安装目录/usr/local/service/spark:
[root@172 ~]# su hadoop[hadoop@172 root]$ cd /usr/local/service/spark
3. 通过如下指令提交任务并运行:
/usr/local/service/spark/bin/spark-submit \\--class org.apache.spark.examples.SparkPi \\--master yarn \\--deploy-mode cluster \\--proxy-user hadoop \\--driver-memory 1g \\--executor-memory 1g \\--executor-cores 1 \\/usr/local/service/spark/examples/jars/spark-examples*.jar \\10
4. 提交作业后,在 EMR on CVM 页面,单击目标集群所在行的集群服务;单击 YARN UI 所在行的 WebUI 链接。登录认证后即可进入YARN UI 页面;单击目标作业的 ID,可以查看作业运行的详情。
销毁集群
当创建的集群不再使用时,可以销毁集群,退还资源;销毁集群将强制终止集群所提供的服务,并释放资源。
在 EMR on CVM 页面,选择目标集群的更多 > 销毁;在弹出的对话框中,单击立即销毁。