我在MySQL中有表,我想使用sqoop导入数据。我导入了数据并以file的形式存储在file中。现在,我想在hdfs中对这个文件运行增量更新。I am talking about files not Hive tables。
我希望增量数据作为单独的文件,而不是合并的文件。我的意思是,我们可以对文件进行增量更新吗?
我有一个postgresql数据库,用于生产服务器。我想设置一个Hadoop/Spark集群来运行mapreduce作业。为此,我需要将postgres数据库中的数据加载到hdfs。简单的方法是使用一个批处理作业,该作业每天一次将数据库(120 to )的内容转储到HDFS。这将是浪费和昂贵的。由于大多数数据不会从一天到第二天发生变化,理论上每天只发送diffs会更便宜、更高效。我读过一些关于sqoop的文章,它似乎提供了我想要的功能,但它需要对数据库和应用程序进行更改。有没有