用例是:我需要将我的所有数据从HDFS集群复制到另一个具有相同主程序和辅助设置的集群中,我将释放前一个集群并开始在新集群中运行我的作业。
我读过有关Apache Falcon和万迪斯科不间断Hadoop的文章,这有助于实现这种镜像。但是,当我将它们作为我的生态系统的一部分时,我不确定它们是否具有其他优势(这将是更有利的?-这将取决于我的用例,但我想知道是否有特别的)。根据你对猎鹰和万迪斯科的经验,你能提供一个关于猎鹰和万迪斯科的类比吗?
发布于 2015-04-17 14:27:46
(免责声明:我在WANdisco工作。)
我认为这些产品是相辅相成的。除了数据传输之外,Falcon还做了很多事情,比如设置数据工作流阶段。WANdisco的产品进行主动数据复制(这意味着数据可以从源集群和目标集群中同等地使用)。
在用例中,如果使用Falcon,那么实际上是使用DistCP将数据复制到新集群。您可能会进行初始传输以获得大部分数据,然后在某个时候需要执行最后一个切分器来获取所有的增量,然后可以让应用程序在新集群上运行。
如果您使用WANdisco的产品进行数据传输,则可以同时使用两个集群,因为复制引擎使用Paxos算法协调更改。这可能会使增量迁移更容易。
与DistCP相比,在其他情况下,您会注意到连续的活动-主动复制之间的区别,比如备份和灾难恢复,以及吞食到多个数据中心。希望这能有所帮助。
https://stackoverflow.com/questions/28695166
复制相似问题