开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Hadoop 2.7 -在HDFS中创建目录的简单Java代码

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集的存储和分析。Hadoop的核心组件包括HDFS（Hadoop分布式文件系统）和MapReduce（一种分布式计算模型）。

在Hadoop 2.7版本中，可以使用Java代码来创建HDFS中的目录。下面是一个简单的Java代码示例：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class CreateDirectoryExample {
    public static void main(String[] args) {
        try {
            // 创建Hadoop配置对象
            Configuration conf = new Configuration();
            
            // 获取Hadoop文件系统对象
            FileSystem fs = FileSystem.get(conf);
            
            // 指定要创建的目录路径
            Path directoryPath = new Path("/path/to/directory");
            
            // 调用mkdirs()方法创建目录
            boolean success = fs.mkdirs(directoryPath);
            
            if (success) {
                System.out.println("目录创建成功！");
            } else {
                System.out.println("目录创建失败！");
            }
            
            // 关闭文件系统连接
            fs.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述代码中，首先创建了一个Hadoop配置对象，并通过FileSystem.get(conf)方法获取了Hadoop文件系统对象。然后，指定要创建的目录路径，并调用mkdirs()方法创建目录。最后，根据返回的结果判断目录是否创建成功。

Hadoop的优势在于其分布式计算和存储能力，可以处理大规模数据集，并具有高可靠性和容错性。它适用于需要处理大量数据的场景，如数据分析、机器学习、日志处理等。

腾讯云提供了一系列与Hadoop相关的产品和服务，例如腾讯云数据仓库CDW（Cloud Data Warehouse）、腾讯云弹性MapReduce（EMR）等。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息。

相关搜索:如何防止Hadoop的HDFS API创建父目录？使用java Servlet在HDFS内创建目录如何在HDFS Hadoop (Cloudera) java中制作目录到文件无法在hadoop中创建目录启动Hadoop DFS -在$HADOOP_HOME/bin/hdfs中没有这样的文件或目录？在物理SD卡上创建新目录的简单代码在 Java 中创建临时目录单词"hdfs“中的输入错误是："java.io.IOException: No FileSystem for scheme: hdfs”。在FileSystem 2.7.7上使用hadoop 在java中设置HDFS的空间配额使用JAVA从HDFS中的一个目录复制到HDFS中的另一个目录 Hadoop在java中创建文件抛出异常: Mkdirs创建失败如何在HDFS中创建具有昨天日期的目录在Intellij-Idea中执行简单的java代码 Java在某个目录中创建文件是否可以通过执行-mkdir在hadoop中的远程群集上创建目录？无法在Windows上的Hadoop中设置本地目录如何用Thymeleaf在Java Spring中创建简单表单在java中的简单凯撒密码如何从How应用程序检索存储在Hadoop HDFS中的pdf文件根据日期在HDFS中查找目录中文件的总容量

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop框架：HDFS简介与Shell管理命令

大数据领域一直面对的两大核心模块：数据存储，数据计算，HDFS作为最重要的大数据存储技术，具有高度的容错能力，稳定而且可靠。HDFS(Hadoop-Distributed-File-System)，它是一个分布式文件系统，用于存储文件，通过目录树来定位文件;设计初衷是管理数成百上千的服务器与磁盘，让应用程序像使用普通文件系统一样存储大规模的文件数据，适合一次写入，多次读出的场景，且不支持文件的修改，适合做数据分析。

02

win10搭建hadoop和spark

jdk8-x64：https://www.oracle.com/java/technologies/javase-jdk8-downloads.html

02

大数据 | Java 操作 HDFS 常用 API

上篇文章介绍了关于 HDFS 的常用命令，其常用的命令都有相应的 API，用命令可以完成的功能，使用 Java API 也可以完成。本文介绍关于 HDFS 常用的 Java API。

03

0553-6.1.0-如何使用Java代码同时访问安全和非安全CDH集群

做Hadoop应用开发的过程中，用户会有这样的需求，在同一个Java应用中同时访问安全和非安装的CDH集群。同一个Java应用即同一个进程同一个JVM，由于一些全局的变量可能会导致无法同时访问安全和非安全的集群。本篇文章Fayson介绍下如何使用Java代码同时访问安全和非安全的CDH集群。

02

Hadoop框架：HDFS高可用环境配置

在单点或者少数节点故障的情况下，集群还可以正常的提供服务，HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题，如果单个节点出现故障，可通过该方式将NameNode快速切换到另外一个节点上。

03

你有一个好的归档习惯吗？

备忘和扯一扯最近散仙在工作用到的几个不错的小技术点：（1）使用shell写了一个根据年份能生成此年份下归档文件目录，精确到年-月-日-小时谈谈本意：由于散仙最近是在搞我们平台的搜索日志分析的工作，日志记录的数据是存在我们的Hadoop集群的HDFS上，日志记录的形式，自然也是按照年月日小时这样一个目录存储的，至于为啥这么设计，通过时间维度来准确归档：好处：这样在分析数据时，便能任意指定时间范围来分析，最细精确到小时上，最大可按年统计，所以，例如最近1小时，3小时，最近7天，最近一个月，

04

Linux下Spark开发环境搭建

10、服务器集群：192.168.0.110(master)，192.168.0.111(slave1)，192.168.0.112(slave2)

02

如何使用Java代码访问HDFS.docx

在开发Hadoop应用时，需要用到hadoop-client API来访问HDFS并进行本地调试。本篇文章则主要讲述如何使用Java代码访问Kerberos和非Kerberos环境下HDFS服务。

07

如何使用Scala代码访问Kerberos环境的HDFS

前面Fayson介绍了《如何使用Java API访问HDFS为目录设置配额》，随着开发语言的多样性，也有基于Scala语言进行开发，本篇文章主要介绍如何使用Scala代码访问Kerberos环境的HDFS。

Hadoop框架：HDFS高可用环境配置

在单点或者少数节点故障的情况下，集群还可以正常的提供服务，HDFS高可用机制可以通过配置Active/Standby两个NameNodes节点实现在集群中对NameNode的热备来消除单节点故障问题，如果单个节点出现故障，可通过该方式将NameNode快速切换到另外一个节点上。

02

Hadoop hdfs+Spark配置

<configuration> <property> <name>dfs.nameservices</name> <value>guanjian</value> </property> <property> <name>dfs.ha.namenodes.guanjian</name> <value>nn1,nn2</value> </property> <property> <name>dfs.namenode.rpc-address.guanjian.nn1</name> <value>host1:8020</value> </property> <property> <name>dfs.namenode.rpc-address.guanjian.nn2</name> <value>host2:8020</value> </property> <property> <name>dfs.namenode.http-address.guanjian.nn1</name> <value>host1:50070</value> </property> <property> <name>dfs.namenode.http-address.guanjian.nn2</name> <value>host2:50070</value> </property> <property> <name>dfs.namenode.shared.edits.dir</name> <value>qjournal://host1:8485;host2:8485/guanjian</value> </property> <property> <name>dfs.client.failover.proxy.provider.guanjian</name> <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value> </property> <property> <name>dfs.ha.fencing.methods</name> <value>sshfence</value> </property> <property> <name>dfs.ha.fencing.ssh.private-key-files</name> <value>/root/.ssh/id_dsa</value> </property> <property> <name>dfs.journalnode.edits.dir</name> <value>/opt/jn/data</value> </property> <property>

03

Hadoop3.x 学习笔记

一开始我使用的是在Mac系统下 Docker 中建立了三个环境来搭建的，但是由于HDFS操作的时候是客户端直接联系DataNode来进行数据操作的原理，Mac下不能直接访问到Docker中的容器服务，也不能通过桥接连接，所以我后来改为在VirtualBox中安装了三个Linux虚拟机，才配置通了。

02

Logstash6整合Hadoop

本文是之前elk的后续，故默认已搭建好logstash等elk相关环境。侧重点是Hadoop安装以及其与logstash的Output插件的整合。ELK的搭建可见：ELK实时日志管理-系统搭建

04

HDFS常用Shell命令

6、-chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

03

Hadoop框架：单服务下伪分布式集群搭建

以下配置文件所在路径：/opt/hadoop2.7/etc/hadoop，这里是Linux环境，脚本配置sh格式。

01

大数据基础系列 5：Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作

本篇文章《大数据基础系列 5：Hadoop 实验——熟悉常用的 HDFS 目录操作和文件操作》是完全针对 HDFS 文件系统的，目的即理解 HDFS 在 Hadoop 体系结构中的角色，熟练使用 HDFS 操作常用的 Shell 命令，熟悉 HDFS 操作常用的 Java API。对大数据系列感兴趣的同学可以移步本人大数据专栏查看更多内容。

02

hadoop2.7第一个python实例

没有任何基础，第一次跑hadoop实例，遇到不少问题，记录下来以便自查和帮助同样情况的hadoop学习者。

02

大数据基础学习五：Hadoop 实验——熟悉常用的 HDFS 操作

本篇文章《大数据基础学习五：Hadoop 实验——熟悉常用的 HDFS 操作》是完全针对HDFS文件系统的，目的即理解 HDFS 在 Hadoop 体系结构中的角色，熟练使用 HDFS 操作常用的 Shell 命令，熟悉 HDFS 操作常用的 Java API。大数据系列文章请移步本人大数据专栏查看。

04

HDFS系列(3) | HDFS的Shell常用命令大全

bin/hadoop fs 具体命令 or bin/hdfs dfs 具体命令都是可以的。

03

Hadoop+Hbase集群数据迁移问题

数据迁移或备份是任何一个公司都有可能到遇到的一件事，有关hbase数据迁移，官网也给出了几种方案，这里比较推荐使用hadoop distcp这种方式迁移。比较适合大数据量或者跨版本集群之间的数据迁移服

08

Hadoop hdfs完全分布式搭建教程

06

windows下hadoop-eclipse的编程所引起的一系列错误

解决Exception: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z 等一系列问题，ljavalangstring 一．简介 Windows下的 Eclipse上调试Hadoop2代码，所以我们在windows下的Eclipse配置hadoop-eclipse-plugin-2.6.0.jar插件，并在运行Hadoop代码时出现了一系列的问题，搞了好几天终于能运行起代码。接下来我们来看看问题并

05

HDFS文件上传

adoop分布式文件系统（HDFS）是一个基于Java的分布式文件系统，由Apache Hadoop项目管理。在HDFS中，文件被分为块并存储在多个节点上，提供了高可靠性和高容错性，以及处理大量数据的能力。

04

手把手教你成功搭建Hadoop-2.2集群

作者：白宁超成都信息工程大学硕士原文：http://www.cnblogs.com/baiboy/p/4639474.html hadoop集群配置系列文档，是笔者在实验室真机环境实验后整理而得。以便随后工作所需，做以知识整理，另则与博客园朋友分享实验成果，因为笔者在学习初期，也遇到不少问题。但是网上一些文档大多互相抄袭，里面错误百出。笔者结合自学书籍视频等资料，完成这一套配置资料。实验结果和过程经过反复测试无误后方整理出来的。配置过程中，初学者若有实验环境，可以在真机环境下完成，若无条件，可补习下

06

大数据之脚踏实地学11--Spark神器的安装

在《大数据之脚踏实地学10--Hive独立式安装》一文中我们已经介绍了Hive工具的安装流程，基于Hive可以轻松的在Hadoop集群内实现SQL语句的落地。如果没有她，数据的管理操作都要通过编写Java代码，运行Map-Reduce，那将是一件非常头疼的事。

02

读Hadoop3.2源码，深入了解java调用HDFS的常用操作和HDFS原理

首先我们搭建一个简单的演示工程（演示工程使用的gradle，Maven项目也同样添加以下依赖），本次使用的是Hadoop最新的3.2.1。

03

Hadoop 使用Linux操作系统与Java熟悉常用的HDFS操作

1.向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，则由用户来指定是追加到原有文件末尾还是覆盖原有的文件；

03

【HDFS】Java_API使用

首先完成Java开发环境准备，创建工程并导入开发所需的Jar包。之后在准备好的工程中完成以下步骤。

02

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化项目，2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目，Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处： 1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。 2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。 3、能够构建出无缝整合不同处理模型的应用。 Spark 的内置项目如下：

02

Hadoop集成Spring的使用

Spring Hadoop简化了Apache Hadoop，提供了一个统一的配置模型以及简单易用的API来使用HDFS、MapReduce、Pig以及Hive。还集成了其它Spring生态系统项目，如Spring Integration和Spring Batch.。

02

大数据技术之_19_Spark学习_01_Spark 基础解析小结（无图片）

2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件，将 slave 节点的 hostname 写在文件中，每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件，将 SPARK_MASTER_HOST 和 SPARK_MASTER_PORT 指定。 2.4、分发你的 spark 安装目录到其他节点。 2.5、在 master 节点上执行 /opt/module/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh 来启动整个 spark 集群。 2.6、在浏览器中访问 http://hadoop102:8080 来访问你的 spark 集群注意：如果在启动的时候出现 JAVA_HOME not set 那么可以在 sbin 目录下的 spark-config.sh 文件中输入 export JAVA_HOME=/opt/module/jdk1.8.0_144 然后分发到其他节点，这样问题即可解决。

05

搭建Hadoop伪分布式环境

安装SSH： sudo yum install opensh-clients openssh-server 安装完成后，可以使用下面命令进行测试： ssh localhost

03

【上进小菜猪】大数据处理利器：使用 Hadoop 进行数据处理的步骤及实例

Hadoop是一个由Apache基金会开发的分布式计算框架，可以处理海量数据。它包括两个核心组件：Hadoop分布式文件系统（HDFS）和MapReduce计算框架。

01

配置Hive实验环境（二）本地部署

设置完毕后，ssh localhost 不提示输入密码就表示已经设置好了公钥验证登陆

01

最强指南！数据湖Apache Hudi、Iceberg、Delta环境搭建

作为依赖Spark的三个数据湖开源框架Delta，Hudi和Iceberg，本篇文章为这三个框架准备环境，并从Apache Spark、Hive和Presto的查询角度进行比较。主要分为三部分

03

hadoop 常用操作命令

hadoop fs ，hadoop dfs 和 hdfs dfs的区别 1、hadoop fs：该命令可以作用于hadoop的所有子系统 2、hadoop dfs：专门针对HDFS分布式文件系统 3、hdfs dfs：专门针对HDFS分布式文件系统，使用hadoop dfs时内部会被转为hdfs dfs命令常用命令： 1、-help：输出这个命令参数 2、-ls: 显示目录信息 3、-mkdir：在HDFS上创建目录 4、-moveFromLocal：从本地剪切粘贴到HDFS 5、-appendToFil

01

HDFS Shell命令（一）

HDFS Shell是Hadoop分布式文件系统(HDFS)提供的一种命令行工具，用于管理HDFS中的文件和目录。HDFS Shell提供了一系列命令，包括文件和目录的创建、删除、移动、复制、查看等操作，可以方便地进行HDFS管理。

03

0692-5.16.1-外部客户端跨网段访问Hadoop集群方式(续)

在生产环境的CDH集群中，为了分开集群对网络的使用会为集群配备两套网络（管理网段和数据网段），数据网段主要用于集群内部数据交换，一般使用万兆网络以确保集群内数据传输性能，管理网段主要用于集群管理，一般使用千兆网络。一般情况下在集群外进行集群管理和数据传输的都是通过千兆网络进行交互，在集群外是无法直接访问集群内的万兆网络。

02

hadoop 2.6伪分布安装

hadoop 2.6的“伪”分式安装与“全”分式安装相比，大部分操作是相同的，主要区别在于不用配置slaves文件，而且其它xxx-core.xml里的参数很多也可以省略，下面是几个关键的配置：（安装JDK、创建用户、设置SSH免密码这些准备工作，大家可参考hadoop 2.6全分布安装一文，以下所有配置文件，均在$HADOOP_HOME/etc/hadoop目录下）另外,如果之前用 yum install hadoop安装过低版本的hadoop,请先卸载干净(即:yum remove hadoop

HDFS Java Client对hdfs文件增删查改

04

Hadoop 2.7 伪分布式环境搭建

07

如何在集群外节点跨网段向HDFS写数据

Fayson想了想这个问题其实在各个环境是都可能碰到的，于是在这篇文章给大家系统介绍一下。

05

Hadoop Trash回收站使用指南

去回收站对应目录下观察一下，得出的结论是：无法创建目录employee，因为employee文件已经存在，自然导致employee_salary.txt文件不能放回收回站:

02

Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门

随着社会的进步，需要处理数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护—>因此，迫切需要一种系统来管理多台机器上的文件，于是就产生了分布式文件管理系统，英文名成为DFS（Distributed File System）。

02

Win7下Eclipse开发hadoop应用程序环境搭建

在Linux下使用安装Eclipse来进行hadoop应用开发，但是大部分Java程序员对linux系统不是那么熟悉，所以需要在windows下开发hadoop程序，经过试验，总结了如何在windows下使用Eclipse来开发hadoop程序代码。 1、需要下载hadoop的专门插件jar包 hadoop版本为2.3.0，hadoop集群搭建在centos6x上面，把插件包下载后，jar包名字为hadoop-eclipse-plugin-2.3.0，可以适用于hadoop2x系列软件版本。 2、把插件包放到eclipse/plugins目录下为了以后方便，我这里把尽可能多的jar包都放进来了。 3、重启eclipse，配置Hadoopinstallationdirectory 如果插件安装成功，打开Windows—Preferences后，在窗口左侧会有HadoopMap/Reduce选项，点击此选项，在窗口右侧设置Hadoop安装路径。 4、配置Map/ReduceLocations 打开Windows-->OpenPerspective-->Other 选择Map/Reduce，点击OK，在右下方看到有个Map/ReduceLocations的图标，点击Map/ReduceLocation选项卡，点击右边小象图标，打开HadoopLocation配置窗口：输入LocationName，任意名称即可.配置Map/ReduceMaster和DFSMastrer，Host和Port配置成与core-site.xml的设置一致即可。去找core-site.xml配置： fs.default.namehdfs://name01:9000 点击"Finish"按钮，关闭窗口。点击左侧的DFSLocations—>myhadoop（上一步配置的locationname)，如能看到user，表示安装成功，但是进去看到报错信息：Error:Permissiondenied:user=root,access=READ_EXECUTE,inode="/tmp";hadoop:supergroup:drwx---------。应该是权限问题：把/tmp/目录下面所有的关于hadoop的文件夹设置成hadoop用户所有然后分配授予777权限。 cd/tmp/ chmod777/tmp/ chown-Rhadoop.hadoop/tmp/hsperfdata_root 之后重新连接打开DFSLocations就显示正常了。 Map/ReduceMaster(此处为Hadoop集群的Map/Reduce地址，应该和mapred-site.xml中的mapred.job.tracker设置相同) （1）：点击报错： Aninternalerroroccurredduring:"ConnectingtoDFShadoopname01". java.net.UnknownHostException:name01 直接在hostname那一栏里面设置ip地址为：192.168.52.128，即可，这样就正常打开了，如下图所示： 5、新建WordCount项目 File—>Project，选择Map/ReduceProject，输入项目名称WordCount等。在WordCount项目里新建class，名称为WordCount，报错代码如下：InvalidHadoopRuntimespecified;pleaseclick'ConfigureHadoopinstalldirectory'orfillinlibrarylocationinputfield，报错原因是目录选择不对，不能选择在跟目录E:\hadoop下，换成E:\u\hadoop\就可以了，如下所示：一路下一步过去，点击Finished按钮，完成工程创建，Eclipse控制台下面出现如下信息： 14-12-9下午04时03分10秒:EclipseisrunninginaJRE,butaJDKisrequired SomeMavenpluginsmaynotworkwhenimportingprojectsorupdatingsourcefolders. 14-12-9下午04时03分13秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Refreshing[/WordCount/pom.xml] 14-12-9下午04时03分14秒:Updatingindexcentral|http://repo1.maven.o

08

Spark Core入门1【Spark集群安装、高可用、任务执行流程、使用Scala/Java/Lambda编写Spark WordCount】

Spark是一种快速、通用、可扩展的大数据分析引擎，包含SparkSQL、Spark Streaming、GraphX、MLlib等子项目。

03

HDFS伪分布式环境搭建

HDFS是主/从式的架构。一个HDFS集群会有一个NameNode（简称NN），也就是命名节点，该节点作为主服务器存在（master server）。NameNode用于管理文件系统的命名空间以及调节客户访问文件。此外，还会有多个DataNode（简称DN），也就是数据节点，数据节点作为从节点存在（slave server）。通常每一个集群中的DataNode，都会被NameNode所管理，DataNode用于存储数据。

01

java客户端无法上传文件到hdfs

学些hadoop。遇到这个问题，查找网上好多资料，一般都是说namenode和datanode不同步导致的，或者防火墙没开50010端口，或者nameNode和datanode无法通信导致的。

02

快速学习-HDFS的Shell操作

bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令 dfs是fs的实现类。

01

干货 | HDFS常用的40个命令，你都知道吗？

众所周知，Hadoop 提供了命令行接口，对HDFS中的文件进行管理操作，如读取文件、新建目录、移动文件、复制文件、删除目录、上传文件、下载文件、列出目录等。本期文章，菌哥打算为大家详细介绍 Hadoop 的命令行接口！希望大家看完之后，能够有所收获 |ू･ω･` )

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭