当我们在开发Spark应用程序的时候,没有设置Hadoop的配置文件的情况下来读取或者写入HDFS文件,每次都要写上hdfs://host:port/path
如下图所示。
通过设置Hadoop的配置之后,我们就可以直接在Spark开发的时候上写上HDFS上的文件路径即可读取相应的文件。
当SparkContext创建的时候,会去读取classpath下的core-default.xml和core-site.xml文件,所以我们可以将我们的Hadoop全局配置文件core-site.xml放到项目的resources文件夹下,来让Spark读取Hadoop配置。
我们还可以用代码的方式来设置我们的Hadoop配置,通过sc.hadoopConfiguration.set(name,value)
的方式。
要加载特定命名的配置文件,可以使用sc.hadoopConfiguration.addResource("custom.xml")
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。