python rdd - 腾讯云开发者社区

我很难找到正确的方法加入到PySpark中的RDD中，以达到预期的结果。Here is the first RDD:| _1| _2||Python| 36|| C#| 8|+------+---+ +------+---++------+---+| C| 1#| 1| +------+---

浏览 4提问于2022-04-10得票数 0

回答已采纳

1回答

将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)

、、、

我试图在datalakeGen2中将一个简单的字符串存储为文本文件，编写在Synapse记事本上的python代码。但它似乎并不是直接的。我试图将文本转换为rdd，然后存储：from pyspark import SparkContextstr = "test string" text_path = adls_path + &

浏览 2提问于2021-06-29得票数 0

回答已采纳

2回答

如何将列表保存到spark中的文件？

、、

我有如下数据集：23458ef12111223345rdd = spark_context.textFile('a.tx').takeSample(False, 3)所以takeSample返回list，它会有一个错误： 'list' object has

浏览 0提问于2016-12-26得票数 7

回答已采纳

1回答

python未在windows 10上的中找到错误

、、

当我试图创建一个数据框架时，我得到了错误消息，错误消息如下：org.apache.spark.SparkException: Pythonat org.apache.spark.api.python.PythonWorkerFactory.createSi

浏览 2提问于2021-07-22得票数 3

1回答

Apache火花错误，未找到克隆Python环境

、、、

org.apache.spark.SparkException: Cloned Python environment not found at /local_disk0/.ephemeral_nfs/envs:313)at org.apache.spark.api.python.

浏览 7提问于2021-08-23得票数 0

回答已采纳

1回答

火花放电rdd分裂问题

、、

/pyspark/rdd.py", line 2371, in pipeline_func File "/usr/local/spark/python

浏览 5提问于2020-02-08得票数 1

回答已采纳

2回答

测量pySpark中两列之间的均方误差

、、、、

174, in main File "/opt/mapr/spark/spark-2.1.0/python/pyspark/worker.py", line 169,$$anon$1.read(PythonRDD.scala:193) at org.apache.spark.api.python.P

浏览 0提问于2018-07-08得票数 0

回答已采纳

1回答

用电火花将时间戳写到Postgres

、、、、

我正在Python上开发一个Spark脚本(使用Pyspark)。",我得到以下错误： File "/Users/pau/Downloads/spark-2.0.2-bin-hadoop2.7/python/lib/

浏览 5提问于2017-01-19得票数 0

回答已采纳

1回答

PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误

、

) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:313) at org.apache.spark.rdd</em

浏览 1提问于2017-02-21得票数 3

1回答

使用DataFrame和Pandas制作列时出错

、、、、

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元307at org.apache.spark.api.python.Py

浏览 1提问于2016-06-29得票数 0

5回答

ModuleNotFoundError:没有名为“pyarrow”的模块

、、

org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:324) at org.apache.spark.rdd.RDD.iteratoror

浏览 4提问于2018-09-14得票数 5

2回答

访问火花放电中的JavaRDD

、、、

Java部件：从SqlContext访问表。获取表的RDD，并将其内容映射回反序列化版本。

浏览 8提问于2015-08-20得票数 3

1回答

来自python* worker的错误：...SyntaxError:无效语法*

、、

(RDD.scala:323)at org.apache.spark.api.python.PairwiseRDD.compute(RDD.scala:323)at org.apache.spark.api.pytho

浏览 1提问于2017-09-16得票数 2

1回答

在google云实例上运行Spark时出错

、、、

in thread stdout writer for python at java.nio.HeapByteBuffer(RDD.scala:263) at org.apache.spark.api.python.PythonRDD$WriterThread$$anonfun$r

浏览 10提问于2015-02-28得票数 0

4回答

spark UDF结果可以做'show'，但不能做'filter‘

、、、

df_punct.where(col("cip") == True).collect() at org.apache.spark.api.python.PythonRunner$$anon$1.<init>(PythonRDD.scala:234) at o

浏览 0提问于2018-11-21得票数 1

5回答

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

、

(sc, command, self) [x.(sc, command, self) File "/usr/hdp/

浏览 6提问于2016-03-10得票数 7

回答已采纳

1回答

如何将RDD从scala传递给python？

、、

我试图将Spark从Scala传递给Python，这样我就可以从PySpark调用函数了。我的scala代码返回rdd.toJavaRDD()，然后我在python中通过以下方法阅读：from pyspark.rdd import RDD这在一开始看起来是可行的，但是如果我在这个<em

浏览 1提问于2022-01-29得票数 1

1回答

pyspark:重新分区后出现“值太多”错误

、、、、

at org.apache.spark.api.python.PythonRunner$$anon$1.:125) at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:297) at org.apache.spark.rdd.

浏览 0提问于2015-11-21得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在PySpark中加入两个RDD？

将数据从吡咯烷酮写入ElasticSearch

如何在PySpark中加入两个RDD？

将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)

如何将列表保存到spark中的文件？

python未在windows 10上的中找到错误

Apache火花错误，未找到克隆Python环境

火花放电rdd分裂问题

测量pySpark中两列之间的均方误差

用电火花将时间戳写到Postgres

PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误

使用DataFrame和Pandas制作列时出错

ModuleNotFoundError:没有名为“pyarrow”的模块

访问火花放电中的JavaRDD

来自python* worker的错误：...SyntaxError:无效语法*

在google云实例上运行Spark时出错

spark UDF结果可以做'show'，但不能做'filter‘

来自自定义模块的函数不是在PySpark中工作，而是在交互模式下输入时工作。

如何将RDD从scala传递给python？

pyspark:重新分区后出现“值太多”错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐