我希望不同的项目有单独的数据节点(不想在两个项目之间共享数据节点)
我可以在Cloudera Manger中看到使用共享cloudera管理器拥有两个不同集群的选项。因此,我是否可以拥有单独的数据节点集群,并与早期集群共享HDFS和Yarn管理器。Yarn/HDFS主服务必须有两个独立的fsimage/edit日志和Resource Manger (或者我在主节点上的任何服务器配置,这些配置将与安装在其上的新集群数据节点和客户端进程共享)。
有可能吗?以前有人这么做过吗。性能如何?我指的是[http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_6.html][](http://www.cloudera.com/documentation/archive/manager/4-x/4-5-1/Cloudera-Manager-Enterprise-Edition-User-Guide/cmeeug_topic_6.html ->的这篇文档
另外,我们是否可以为HDFS设置一些规则,使其仅为特定的数据/目录集存储/使用特定的数据节点集,以便实现分离?
提前谢谢。
发布于 2016-05-12 01:36:03
您参考的文档是如何使用一个cloudera管理器安装来管理多个独立的集群。你想要做的事我不相信是可能的。这不是hadoop设计的工作方式。在下一个5.7和5.8版本的CM和CDH中,hadoop上的多租户将变得更加容易。如果你真的做到了,我不确定你能不能做到,性能会很差。
典型的思考过程是尽可能接近数据运行你的守护进程(mr、hive、impala)。如果您关心的是对不同的客户端使用不同的数据节点,那么您可以很容易地解决这个问题,而无需尝试以kerberos和sentry的形式将集群与配额和良好的安全性结合起来。您最感兴趣的是运行哪些服务?Yarn本身只是一个资源管理器,所以我猜你现在看到的是MapReduce和HDFS。您是否计划进行任何分析?你应该使用hive或impala来实现。
https://stackoverflow.com/questions/37163963
复制相似问题