我正在使用Hadoop设置一个包含两个data+compute节点和两个纯计算节点的集群。我正在使用Spark with Yarn进行数据处理。对于前一种类型的节点,我只需将host-name添加到workers配置中,hadoop会自动在这些节点上启动hdfs和YARN。但是对于仅用于计算的节点,我不希望它们运行dfs。我找不到任何hadoop配置来将特定节点排除在运行dfs之外。有人能告诉我设置这种节点分布的正确方法吗?
可以使用哪些Hadoop服务源?我想我读到Cosmos支持Cloudera CDH服务和原始Hadoop服务器服务?那么HortonWorks或MapR呢?我知道非标准文件系统可以与Hadoop一起使用,例如MapR-FS,这样的选项在Cosmos中可能吗?我还读到Cosmos“坐”在fiware之上,因此Hadoop as a service (HaaS)可以使用,Hadoop集群使用开放堆栈生成?然而,我看到人们指的是共享固件云?fiware是否作为远程云<