spark hadoop - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

如何在AWS glue中检查Spark和Hadoop的版本？

、、、、

我想知道哪个版本的Spark和Hadoop (HDFS)正在AWS glue作业中使用。这样我就可以在本地机器上设置相同的环境进行开发。或者如果我知道Spark的版本，那么对应的Hadoop版本由AWS glue作业使用，反之亦然。任何形式的帮助和建议都是非常感谢的。谢谢!

浏览 2提问于2019-06-17得票数 2

1回答

火花中的环境变量

、、

我已经在集群模式下安装了hadoop，现在我已经安装了Spark。PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:/opt/hadoop/spark/bin:/opt/hadoop/spark/sbin export JAVA_HOME=/usr/java/jdk1.8.0_202-amd64

浏览 8提问于2022-05-09得票数 0

1回答

使用s3a读取csv文件

、、、

) at org.apache.hadoop.fs.Path.getFileSystem:258) at org.apache.hadoop.mapred.FileInputFormat.getSplitsat o

浏览 7提问于2017-11-13得票数 0

回答已采纳

1回答

兼容spark 3.1.1的aws库

、、、、

但是，我还没有找到比Hadoop2.7.0更新的库的兼容组合。(不支持新的s3a:// paths) val hadoop = "3.2.0"} "org.apache.spark" %% "

浏览 6提问于2022-03-28得票数 0

1回答

Spark SQL在Google计算引擎问题上的应用

、、、、

我们使用bdutil 1.1来部署Spark (1.2.0)集群。at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:346)at org.apache.hadoo

浏览 8提问于2015-03-13得票数 0

1回答

Spark2.3.0-bin- jars hadoop，docker-image-tool.sh缺少hadoop jars

、、、

我正在尝试为kubernetes中的部署构建spark容器镜像，并且怀疑我做错了。运行镜像时，我得到了以下错误： /opt/spark/conf/spark-env.sh: line 72: /home/me/hadoop_s3/bin/hadoop: No such file请注意，第一行显示了我的错误-容器内的spark-env.sh引用了容器中不存在的hadoop位置。

浏览 0提问于2018-04-03得票数 1

1回答

正在将Hbase表加载到Spark* -*

、

ObjectInputStream.java:1350)org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:62)(JavaSerializer.scala:87) org.apach

浏览 2提问于2015-01-06得票数 0

1回答

在使用hadoop* IncompatibleClassChangeError的EC2上运行spark应用程序失败*

、、、

我有一个简单的spark应用程序，它在使用spark-submit的笔记本电脑上运行得很好。然而，当我在亚马逊EC2集群上使用spark-submit运行它时，我得到了这个运行时错误： $ /root/spark/bin/spark-submit --class application.Examplejava.lang.IncompatibleClassChangeError: Found class org.apache.hadoop.mapre

浏览 2提问于2016-09-27得票数 1

2回答

Hadoop2.9.2，Spark2.4.0访问AWS s3a桶

、、

已经过了几天了，但我无法使用Spark从亚马逊的公共桶下载：spark-shell --master yarnat org.apache.spark.rdd.HadoopRDD.getPartitions(HadoopRDD.scala:204)at org.apache.spark.rdd.MapPa

浏览 2提问于2018-12-25得票数 8

1回答

用Hadoop3.2用pyspark 3.0.1构建对接者映像

、、

我想用Hadoop3.2.x为pyspark 3.0.1构建一个坞映像。在docker文件中，如果我使用pip install pyspark==3.0.1，它会安装pyscem3.0，但是hadoop是2.7。是否有一种方法来实现这个或任何例子的码头文件为同一。

浏览 4提问于2021-01-15得票数 1

回答已采纳

1回答

如何将aws代理主机设置为Spark配置

、、

任何想法如何设置aws代理主机和区域来触发会话或触发上下文。我可以在aws javasdk代码中进行设置，它工作得很好。 ClientConfiguration clientConfig = new ClientConfiguration(); clientConfig.setProxyPort(8099));

浏览 17提问于2019-05-22得票数 0

2回答

当使用主'yarn‘运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR

、

我正在尝试使用yarn运行Spark，我遇到了这个错误：export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop在bash_pr

浏览 43提问于2017-08-16得票数 7

1回答

为aws emr创建边缘节点的步骤

、

我需要为AWS EMR集群创建边缘节点(ec2)。有没有一系列我可以遵循的步骤来实现这一点？

浏览 2提问于2017-09-16得票数 4

1回答

org.apache.avro.SchemaParseException:未定义的名称

、、、、

我的spark工作是从kafka中读取并解码信息。我的spark作业在MAC上的本地spark集群(https://archive.apache.org/dist/spark/spark-2.2.1/spark-2.2.1-bin-hadoop2.7.但是在k8s和openstack上对spark (2.2.1-hadoop-2.7，来自https://h

浏览 42提问于2019-01-04得票数 1

回答已采纳

3回答

从Apache Spark访问公开可用的亚马逊S3文件

、、

我有一个公开可用的亚马逊s3资源(文本文件)，并希望从spark访问它。) at org.apache.hadoop.fs.FileSystemat org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat.java:270) at org.apache.spark.rdd.H

浏览 0提问于2015-07-19得票数 12

1回答

错误为：-ModuleNotFoundError:在docker中运行Pyspark时没有名为‘Pyspark’的模块

、、、、

我的dockerfile如下： FROM centosENV SPARK_VERSION=2.4.7WORKDIRpip3.6 install numpyRUN wget --no-verbose http://apache.mirror.iphh.net/spark/spark-${SPARK_VERSION}/

浏览 52提问于2021-02-22得票数 1

回答已采纳

2回答

Dockerfile无法运行cp命令在容器中移动文件

、

.jar /opt/spark-2.2.1-bin-hadoop2.7/jars/ RUN cp /opt/spark-2.2.1-bin-hadoop2.7/conf/spark-defaults.conf.template/opt/spark-2.2.1-bin-hadoop2.7/conf/spark-defaults.conf

浏览 0提问于2019-06-26得票数 0

回答已采纳

2回答

PySpark Kafka py4j.protocol.Py4JJavaError:调用o28.load时发生错误

、、

SparkContextimport os spark = SparkSessio

浏览 5提问于2020-06-12得票数 1

2回答

在Amazon EMR 4.0.0上，设置/etc/spark/conf/spark-env.conf无效

、、、

我在Amazon EMR上启动了我的基于spark的hiveserver2，它有一个额外的类路径依赖。由于Amazon EMR中的此错误：所以我必须修改/etc/spark/conf/spark-env.conf来添加额外的类路径：SPARK_CLASSPATH="${<

浏览 0提问于2015-09-30得票数 2

17回答

执行火花壳时的NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream

我已经下载了spark 1.4.0的预构建版本，没有hadoop (使用用户提供的Haddop)。/ at org.apache.spark.deploy.SparkSubmitArguments$$anonfun$mergeDefaultSpaies(SparkSubmitArguments.scala:111) at org.apache.spark.deploy.SparkSubmitArguments.我已经跟踪了shell命令，其中似乎

浏览 11提问于2015-06-18得票数 39

回答已采纳

点击加载更多

如何在AWS glue中检查Spark和Hadoop的版本？

火花中的环境变量

使用s3a读取csv文件

兼容spark 3.1.1的aws库

Spark SQL在Google计算引擎问题上的应用

Spark2.3.0-bin- jars hadoop，docker-image-tool.sh缺少hadoop jars

正在将Hbase表加载到Spark* -*

在使用hadoop* IncompatibleClassChangeError的EC2上运行spark应用程序失败*

Hadoop2.9.2，Spark2.4.0访问AWS s3a桶

用Hadoop3.2用pyspark 3.0.1构建对接者映像

如何将aws代理主机设置为Spark配置

当使用主'yarn‘运行时，必须在环境中设置HADOOP_CONF_DIR或YARN_CONF_DIR

为aws emr创建边缘节点的步骤

org.apache.avro.SchemaParseException:未定义的名称

从Apache Spark访问公开可用的亚马逊S3文件

错误为：-ModuleNotFoundError:在docker中运行Pyspark时没有名为‘Pyspark’的模块

Dockerfile无法运行cp命令在容器中移动文件

PySpark Kafka py4j.protocol.Py4JJavaError:调用o28.load时发生错误

在Amazon EMR 4.0.0上，设置/etc/spark/conf/spark-env.conf无效

执行火花壳时的NoClassDefFoundError com.apache.hadoop.fs.FSDataInputStream

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐