选择集群类型
EMR 集群提供多种集群类型,可根据实际业务需要选择集群类型:
Hadoop集群:基于开源 Hadoop 及其周边生态组件,提供了5种应用场景:默认场景、Zookeeper、HBase、Presto、Kudu;满足海量数据存储、离线/实时数据分析、流式数据计算、机器学习等场景的大数据解决方案。
Kafka 集群:是一个分布式、分区的、多副本的、多订阅者,基于 Zookeeper 协调的消息处理系统,主要适用于异步处理,消息通讯以及流式数据接收和分发场景。
StarRocks 集群:采用了全面向量化技术,支持极速统一的 OLAP 分析数据库,适用多维分析,实时分析,高并发等场景等多种数据分析场景。提供2种应用场景:存算一体、存算分离。如果您的业务对存储成本敏感,同时可以接受相对略低的查询效率,可以采用存算分离架构,将数据存储在腾讯云 COS 对象存储中。
选择计费模式
EMR 集群提供两种计费模式:
包年包月集群:集群的全部节点计费模式均为包年包月,适用于长期存在且计算量稳定集群。
按量计费集群:集群的全部节点计费模式均为按量计费,适用于短时间存在或周期性存在的集群。
注意
在 CVM 控制台对 EMR 集群按量计费节点进行关机操作时,请谨慎选择关机模式,EMR 节点不支持关机不收费模式。
选择机型规格
您可以根据自身的业务需要及成本考量,进行机型的选择。
如您对离线计算的时延有一定的要求,我们建议您选择本地盘或大数据机型。
如您需要使用实时数据库 HBase,我们建议您选择 EMR 高 IO 型,并选择本地 SSD 盘,以实现更佳的性能。
本地盘机型不支持部署在 Master 和 Common 节点上,请选择非本地盘机型。
节点规格推荐
EMR 定义了5种节点类型,您可以根据集群类型进行选择:
集群类型 | 应用场景 | 节点类型 | 推荐规格 |
Hadoop | 默认场景 | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。 |
| | Core | 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。Core 节点不具备弹性功能。 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。 |
| | Task | 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费。 |
| | Common | common 节点:节点主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格可满足需求。 |
| | Router | Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
| Zookeeper | Common | common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。 |
| HBase | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。 |
| | Core | 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。 注意,Core 节点不具备弹性功能。 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务。 |
| | Task | 若您的架构未使用 COS 对象存储,则可以不使用 Task 节点。 若您的大部分数据在 COS 对象存储上,则 Task 节点可用作弹性计算资源,按需获取。 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。 |
| | Common | common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。 |
| | Router | Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
| kudu | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。 |
| | Core | 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。 注意:Core 节点不具备弹性功能。 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。 |
| | Task | 若您的架构未使用COS对象存储,则可以不使用Task节点。 若您的大部分数据在 COS 对象存储上,则Task节点可用作弹性计算资源,按需获取。 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。 |
| | Common | common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。 |
| | Router | Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
| presto | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘建议选择云盘可以让集群获得更高的稳定性。 |
| | Core | 若您的大部分数据在 COS 对象存储上,Core 节点与 Task 节点的功能则类似,大小不少于500G。 注意:Core 节点不具备弹性功能。 若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。 |
| | Task | 若您的架构未使用COS对象存储,则可以不使用Task节点。 若您的大部分数据在 COS 对象存储上,则Task节点可用作弹性计算资源,按需获取。 若您的集群计费模式为包年包月,需要 Task 节点的计费模式为按量付费,那么您需要在此处将 Task 节点数量设置为0,在您需要的时候通过控制台或 API 扩容按量付费的 Task 节点。 |
| | Common | common 节点:主要做 zk 节点使用,最低选择2C4G 云盘100G 的规格即可满足需求。 |
| | Router | Router 节点:主要用于缓解主节点负载和用作任务提交机,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
Kafka | 默认场景 | Core | Core 节点:建议选择 CPU 和内存较高的机型,由于本地磁盘遇到坏盘情况存在数据丢失风险,磁盘建议选择云硬盘。 |
| | Common | common 节点:建议 CPU 和内存最小配置不低于4C16G。 |
StarRocks | 存算一体 | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少16G,Master 节点上元数据全部存储在内存中。 |
| | Core | Core 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 IO 性能及稳定性。 |
| | Task | Task 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 IO 性能及稳定性。 |
| | Router | Router 节点:部署 Frontend 模块,实现读写高可用,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
| 存算分离 | Master | Master 节点:建议选择内存较大的实例规格,推荐内存大小至少16G,Master 节点上元数据全部存储在内存中。 |
| | Task | Task 节点:建议选择内存较大的实例规格,推荐内存大小至少8G。磁盘推荐使用云 SSD 盘以获得更好的 缓存 IO 性能及稳定性。 |
| | Router | Router 节点:部署 Frontend 模块,实现读写高可用,因此建议选择较大内存的机型,最好不低于 Master 规格。 |
注意
不同集群类型对节点规格要求不同,目前系统将默认推荐满足集群要求的配置,您可以根据业务需求调整机型规格,推荐机型仅供参考。
Core 节点不具备弹性功能。若您的架构未使用 COS 对象存储,则 Core 节点负责集群的计算与存储任务,EMR 默认开启三备份,在做数据盘大小预估时需考虑三备份空间,推荐使用大数据机型。
网络及安全
为保证集群的网络安全,EMR 集群将会被放置在一个 VPC 中,我们会给该 VPC 增加一个安全组策略。同时为了保证 Hadoop 生态组件的 WebUI 能够便捷访问,我们为其中一个 Master 节点开启了外网 IP,按照流量计费的模式;Router 节点默认不开通外网 IP,如需开通,可以在 CVM 控制台自由绑定弹性公网 IP。
注意
Master 节点在创建集群时默认开启外网 IP,但用户可根据情况选择不开启外网 IP。
开启集群 Master 节点公网,主要用于 ssh 登录和组件 WebUI 查看。
主节点 Master 节点会开启外网,按流量付费,带宽上限为5M。创建集群后,您可在控制台对该网络进行调整。