如何再次覆盖/重用Hadoop作业的现有输出路径和agian

在 Hadoop 中，覆盖现有输出路径和重用输出路径的方法如下：

使用 FileSystem 类来删除现有输出路径

在运行 Hadoop 作业之前，可以使用 FileSystem 类来删除现有输出路径。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        Path outputPath = new Path("hdfs://localhost:9000/output");
        if (fs.exists(outputPath)) {
            fs.delete(outputPath, true);
        }
        // 在这里运行 Hadoop 作业
    }
}

使用 -D 参数覆盖输出路径

在运行 Hadoop 作业时，可以使用 -D 参数来覆盖现有输出路径。以下是一个示例命令：

hadoop jar hadoop-job.jar -D mapreduce.output.fileoutputformat.outputdir=hdfs://localhost:9000/output

使用 FileOutputFormat 类来设置输出路径

在 Hadoop 作业中，可以使用 FileOutputFormat 类来设置输出路径。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Hadoop Job");
        job.setJarByClass(HadoopJob.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input"));
        FileOutputFormat.setOutputPath(job, new Path("hdfs://localhost:9000/output"));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

在这个示例中，我们使用 FileOutputFormat.setOutputPath() 方法来设置输出路径。

使用 Path 类来检查输出路径是否存在

在 Hadoop 作业中，可以使用 Path 类来检查输出路径是否存在。以下是一个示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class HadoopJob {
    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "Hadoop Job");
        job.setJarByClass(HadoopJob.class);
        job.setMapperClass(MyMapper.class);
        job.setReducerClass(MyReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path("hdfs://localhost:9000/input"));
        Path outputPath = new Path("hdfs://localhost:9000/output");
        FileSystem fs = outputPath.getFileSystem(conf);
        if (fs.exists(outputPath)) {
            fs.delete(outputPath, true);
        }
        FileOutputFormat.setOutputPath(job, outputPath);
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

在这个示例中，我们使用 Path 类来检查输出路径是否存在，并在存在时删除它。

总之，在 Hadoop 中覆盖现有输出路径和重用输出路径的方法有很多种。你可以根据自己的需求选择合适的方法。

页面内容是否对你有帮助？

有帮助

没帮助

如何一次又一次地覆盖/重用Hadoop作业的现有输出路径

、、

当我每天运行Hadoop作业时，我希望覆盖/重用现有的输出目录。实际上，输出目录将存储每天作业运行结果的汇总输出。如果我指定相同的输出目录，它会给出错误“输出目录已经存在”。如何绕过此验证？

浏览 0提问于2011-10-10得票数 22

1回答

运行FileAlreadyExistsException代码时的MapReduce

、、

这个程序应该完成MapReduce的工作。第一个作业的输出必须作为第二个作业的输入。当我运行它时，我会发现两个错误： import java.io.IOException; import org.apache.hadoop</e

浏览 4提问于2014-09-18得票数 0

1回答

Google云上dataproc gui版本中的Hadoop作业错误

、

我试图使用org.apache.hadoop.examples.WordCount为wordcount创建一个作业，但它显示了错误：使用的职务配置：文件存储在桶中： hadoop-mapreduce-examples.jar的URI：使用上述配置时遇到的错误：

浏览 1提问于2021-02-10得票数 1

回答已采纳

2回答

如何在hadoop作业中传递第三个参数？

、、

我使用java类来运行hadoop作业，而不是使用命令hadoop /input /output。在这种情况下，我的命令看起来是这样的。hadoop Main.class /input/location /output/location /thirdargument/file。我知道如何在主驱动程序类中添加输入路径和输出路径</e

浏览 4提问于2014-09-04得票数 0

回答已采纳

1回答

来自两个文件的Hadoop数据连接-如何强制映射器读取特定文件

、、、

我正在尝试在hadoop中编写一个data join Map Reduce作业。我觉得我已经很接近了，但我遇到了阻止map1向map2提供数据的问题。我有两个映射器和一个reduce，并试图强制Map1从一个文件读取，同时强制Map2从另一个文件读取。我想解析reducer中的结果以格式化连接输出。我知道在默认情况下，当链接一个作业中的映射器时，一个作业的输出将是下一个作业

浏览 2提问于2014-05-12得票数 0

1回答

Hadoop API: Reducer的OutputFormat

、、

(我猜它一直在变化)因此，我使用job和configuration类来运行map reduce作业。现在，我需要将reducers输出文件放在一个基于某些值的文件夹结构中，这些值是我地图输出<

浏览 0提问于2012-02-11得票数 1

回答已采纳

1回答

Ozzie工作流示例

、、、

我已经让它运行了，但我找到的文档和示例并不清楚。有人能帮我举个例子吗？我有4或5个hadoop流作业，对于每个作业，我要删除任何现有的输出目录和日志，例如hadoop jar ~/

浏览 1提问于2014-11-12得票数 0

2回答

Hadoop Mapreduce到本地磁盘或STDOUT的输出

、

是否必须将hadoop map reduce程序的输出写入HDFS。我们可以将其写入本地磁盘或在标准输出上显示吗？

浏览 0提问于2013-04-04得票数 0

回答已采纳

1回答

如何为本地作业运行程序使用本地文件系统设置HADOOP_CLASSPATH？

、、

如何为本地作业运行程序使用本地文件系统设置HADOOP_CLASSPATH？如何设置本地目录的输入和输出路径？当我尝试使用以下命令运行时，映射器和还原器类就会出现ClassNotFoundException。hadoop WordCount input/sample.txt outputhadoop类路径 /usr/local/<

浏览 2提问于2020-01-20得票数 0

回答已采纳

1回答

我已经从一个JAR文件在hadoop集群上运行了几个map reduce作业。JAR的Main接受XML文件作为命令行参数。XML文件包含每个作业的输入和输出路径(名称-值属性对)，我使用这些路径配置每个mapreduce作业。(args[0])); 我现在正在尝试使用亚马逊的Elastic MapReduce来运行JAR。我尝试将XML文件上传到S3，但当然不能使用FileInputStream从

浏览 0提问于2012-05-09得票数 3

回答已采纳

1回答

hadoop LocalJobRunner不工作了吗？

、

我正在尝试运行hadoop中的示例--权威指南第三版。在第五章中，作者演示了如何使用LocalJobRunner类来帮助从本地找到的输入数据运行hadoop作业，并在本地输出结果。我已经这样做了，但程序仍然尝试在hdfs中查找输入和输出路径。我的第二个问题是，我在Hadoop2.3.0javadocs api中找不到LocalJobRunner类？

浏览 0提问于2014-04-10得票数 0

3回答

在Hadoop中，框架将Map任务的输出保存在一个普通的Map-还原应用程序中？

、、、、

我正在试图找出Map任务的输出在什么地方被保存到磁盘，然后才能被一个约简任务使用。注意:使用的版本是Hadoop0.20.204和新APIpublic void map(LongWritable key, Text value, Contextoutputs/1/_temporary/_attempt_201112221334_0001_m_000000_0 当我试图将它用作另一个作业</e

浏览 2提问于2011-12-22得票数 7

回答已采纳

3回答

完全取消默认输出目录- MapReduce

、、、

我有一个使用org.apache.hadoop.mapreduce.lib.output.MultipleOutputs编写多个输出的代码。Reducer将结果写入预先创建的位置，因此我不需要默认的o/p目录(其中包含_history和_SUCCESS目录)。在再次运行我的作业之前，我每次都必须删除它们。但是，这给出了(预期的)错误org.apache.hadoop.mapred.Inv

浏览 4提问于2013-09-24得票数 0

3回答

Hadoop mapreduce是否重新处理整个数据集

、

我想知道:如果同一个作业提交两次，hadoop mapreduce是否会重新处理整个数据集？例如:单词计数示例计算输入文件夹中每个文件中每个单词的出现次数。如果我向该文件夹添加一个文件，并重新运行word count mapreduce作业，初始文件是否会被重新读取、重新映射和重新缩减？如果是这样，有没有办法将hadoop配置为只处理新文件，并将其添加到以前mapreduce运行的“摘要”中。任何想法/帮助都将不胜感激。

浏览 2提问于2011-12-27得票数 2

回答已采纳

1回答

在使用JobConf和TableMapReduceUtil时作业和MultipleOutputFormat之间的挣扎

、、

但是，为了覆盖还原器的输出文件格式(按键命名)，我发现还原器的MultipleOutputFormat类(由于接口混乱而在0.20中不存在)，而旧类只使用JobConf。但是，如果我尝试用旧的TableMapReduceUtil JobConf编写代码，我就不能使用HBase 0.90的，它只接受作业类。和Hadoop/HBase没什么关系。花了一些时间修改现有的MRJObs。看来我坚持自己的</

浏览 1提问于2012-01-15得票数 0

回答已采纳

2回答

hadoop和mahout中的正确数据流应该是什么？

、、、

我正在使用hadoop，hive和mahout技术。我正在使用hadoop中的mapreduce作业来处理一些数据，以便在mahout中进行推荐。我想知道上述模型的正确工作流程，即当hadoop处理数据并将其存储在HDFS中时，那么mahout将如何使用这些数据以及mahout如何获得这些数据，在mahout处理数据之后，mahout将把这些推荐的数据放在哪里注意:我正在使用hadoop处理数据，我

浏览 0提问于2014-11-03得票数 1

回答已采纳

2回答

Hadoop: AWS EMR作业中的输入和输出路径

、、、、

我正在尝试在Amazon Elastic Mapreduce中运行Hadoop作业。我的数据和jar位于aws s3中。当我设置作业流时，我将JAR参数作为下面是我的hadoop main函数 } 但是，我的

浏览 0提问于2013-02-14得票数 5

回答已采纳

1回答

hadoop中的分区文件是如何创建的

、、

我正在研究来自Hadoop的TotalOrderPartioner，我还没有完全理解分区文件是如何在哪里创建的。到目前为止我的理解是如果我用适当的输入和输出路径配置作业</em

浏览 1提问于2014-02-24得票数 2

回答已采纳

4回答

okio.BufferedSource.rangeEquals(JLokio/ByteString;)Z :java.lang.NoSuchMethodError

、、、、

我正在集成Outlook API并使用Retrofit版本2.3.0和okHttp3版本3.9.1进行HTTP调用。exception is java.lang.NoSuchMethodError: okio.BufferedSource.rangeEquals(JLokio/ByteString;)Z 下面是我的部分

浏览 863提问于2018-01-16得票数 7

1回答

运行hadoop作业而不创建jar文件

、、

shell脚本成功地设置了hadoop类路径，并包含来自中央部署位置的所有所需的第三方库和配置文件。我确信我的类x.y.z.MyJob以及所有必需的库和配置文件都可以在调用hadoop作业之前设置的$CLASSPATH和环境变量中找到。为什么在运行脚本时，我的程序无法找到类。我不能以普通java类的形式运行这个作业吗？我<em

浏览 1提问于2012-08-10得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何再次覆盖/重用Hadoop作业的现有输出路径和agian

相关·内容

如何一次又一次地覆盖/重用Hadoop作业的现有输出路径

运行FileAlreadyExistsException代码时的MapReduce

Google云上dataproc gui版本中的Hadoop作业错误

如何在hadoop作业中传递第三个参数？

来自两个文件的Hadoop数据连接-如何强制映射器读取特定文件

Hadoop API: Reducer的OutputFormat

Ozzie工作流示例

Hadoop Mapreduce到本地磁盘或STDOUT的输出

如何为本地作业运行程序使用本地文件系统设置HADOOP_CLASSPATH？

Amazon EMR:将XML或属性文件传递给JAR

hadoop LocalJobRunner不工作了吗？

在Hadoop中，框架将Map任务的输出保存在一个普通的Map-还原应用程序中？

完全取消默认输出目录- MapReduce

Hadoop mapreduce是否重新处理整个数据集

在使用JobConf和TableMapReduceUtil时作业和MultipleOutputFormat之间的挣扎

hadoop和mahout中的正确数据流应该是什么？

Hadoop: AWS EMR作业中的输入和输出路径

hadoop中的分区文件是如何创建的

okio.BufferedSource.rangeEquals(JLokio/ByteString;)Z :java.lang.NoSuchMethodError

运行hadoop作业而不创建jar文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐