有没有更有效的方法将pandas数据帧转换为Spark数据帧？

、

我直接从数据库中获取数据，大约有5-1200万的数据。当我尝试将其转换为pandas数据帧以进行分析时。由于音量太大，它总是崩溃。举个例子 df1 = spark.sql("select * from database.table") sample = df1.toPandas() ## this is where it wont但这是作为csv读取，然后转换为数据帧</

浏览 7提问于2020-06-22得票数 0

2回答

使用Python将Dask Dataframe转换为Spark* dataframe*

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。有没有其他方法可以做到这一点。提

浏览 18提问于2021-02-25得票数 0

3回答

不将Spark* Dataframe转换为Pandas的方法*

、、、

有没有办法在不将数据帧转换为pandas的情况下绘制Spark dataframe中的信息？# df = some Spark data frame df.

浏览 17提问于2019-07-30得票数 8

2回答

如何确定数据帧是Pandas还是Spark？

、、

我将一个数据帧传递给一个函数。有时是Pandas数据帧，有时是Spark数据帧。我的函数需要采取相应的行动。有没有简单的方法，比如df.isPandas()，来确定一个数据帧(作为“df”接收)是Pandas数据帧还是Spark数据

浏览 17提问于2019-05-14得票数 1

回答已采纳

3回答

pyspark to hive中的Pandas数据帧

、、、

如何将熊猫数据帧发送到hive表？我知道如果我有一个spark数据帧，我可以将它注册到一个临时表中，使用sqlContext.sql("create table table_name2as select * from table_name")Attri

浏览 0提问于2016-04-28得票数 9

回答已采纳

1回答

Delta Lake:性能挑战

、

方法1:我的输入数据是一堆json文件。经过预处理后，输出为pandas数据帧格式，该格式将写入Azure SQL数据库表。方法2:我已经实现了delta lake，其中输出pandas数据帧被转换为Spark数据帧，然后将数据插入到分区的Delta Tab

浏览 8提问于2020-10-28得票数 1

0回答

、、、

我有一个熊猫数据帧data_pandas，它大约有50万行和30000列。我希望它位于Spark dataframe data_spark中，并通过以下方式实现：我正在开发一个r3.8xlarge驱动程序，它有10个相同配置的工人。但是前面提到的操作需要很长时间，并返回一个OOM错误。有没有其他方法</

浏览 3提问于2017-12-11得票数 1

2回答

从RDD中的Pandas* DataFrames创建Spark DataFrame*

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。) 前面的操作可以工作，所以我有一个Pandas DataFrames的RDD。在完成熊猫处理后，我如何将其转换为Spark DataFrame？py4j.GatewayConnection.ru

浏览 31提问于2019-06-05得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark* rdd吗？*

c)需要使用spark将PD_DF写到HDFS。我该怎么做呢？

浏览 0提问于2015-04-15得票数 4

2回答

将Pandas* DataFrame转换为Spark DataFrame*

、、、、

我之前问了一个关于如何的问题，在阅读了提供的答案和之后，我取得了一些进展。我最终使用了以下代码将scipy.sparse.csc_matrix转换为pandas数据帧：df.columns = header 然后，我尝试使用建议的语法将pandas数据帧转<e

浏览 1提问于2016-11-04得票数 8

1回答

将pandas数据帧转换为PySpark数据帧

、、、、

我正在使用：从spark --> Pandas的转换很简单，但我正在为如何将Pandas数据帧转换回Spark而苦苦挣扎。### START MAIN #

浏览 1提问于2018-10-23得票数 15

回答已采纳

1回答

PyArrow表到PySpark数据帧的转换

、、

我正在尝试将我的Pandas数据帧转换为PySpark数据帧。createDataFrame函数不起作用，所以我找到了PyArrow。我可以转换PyArrow表--> Spark表，但是我找不到任何方法来转换Pandas表--> Spark谢谢

浏览 1提问于2018-11-16得票数 3

1回答

以表的形式打印字典，表头在垂直列中

、、

我是Python的新手，还在摸索如何正确地使用格式化。我在字典中有一大堆数据，我想将它们打印为一个表，表头在左列。我做了很多搜索(不确定正确的术语是垂直表还是水平表)，但我找到的大多数结果的标题都在顶行。使用PrettyTable和其他工具，我仍然可以将数据打印为 +-------+------+------------++-------+----------+ 但我想把它颠倒过来： index 1

浏览 22提问于2020-07-14得票数 0

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as

浏览 30提问于2020-09-13得票数 0

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

、、、、

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用pyspar

浏览 11提问于2021-06-03得票数 0

回答已采纳

1回答

使用PySpark从Blob存储容器加载CSV文件

、、、

我无法使用Jupyter Notebook中的PySpark将CSV文件从Azure Blob Storage直接加载到RDD中。我已经通读了几乎所有其他类似问题的答案，但我还没有找到关于我想要做什么的具体说明。我知道我也可以使用Pandas将数据加载到Notebook中，但之后我需要将Panda DF转换为RDD。我理想的解决方案应该是这样的，但是这个特定的代码给我的错误是它不能

浏览 21提问于2019-04-28得票数 0

1回答

python，在sql数据库中转储熊猫数据帧

、、、

将pandas数据帧转储到sql数据库的最佳方法是什么？首先将数据帧转换为csv文件，然后转储csv文件或逐行写入sql数据库，哪个更好？

浏览 5提问于2014-09-17得票数 0

1回答

BigQuery存储应用编程接口:从Spark* Pandas UDF使用客户端的最佳实践？*

、、

我有一个spark脚本，需要为每一行进行60个api调用。目前，我使用BigQuery作为数据仓库。我想知道是否有一种方法可以使用BigQuery API或BigQuery Storage API从我的udf中查询数据库？也许是一种执行批量查询的方法？pandas-gbq会是一个更好的解决方案吗？我每行需要进行的每个查询都是一个select count(*) from dataset.table where {...

浏览 9提问于2019-12-12得票数 1

1回答

PySpark中的Cramér's V

、、、

这里提供了一个普通的Python实现：<code>C0</code> 在PySpark中实现相同功能的最佳方式是什么？

浏览 9提问于2020-04-03得票数 0

回答已采纳

2回答

如何在PySpark中将Pandas的DatetimeIndex转换为DataFrame？

、、

MonthlyTransactionDate")).first()df3 = spark.createDataFrame(tmp) 我已经检查了tmp，我有一个熊猫数据帧的日期列表。

浏览 80提问于2019-01-02得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用pyspark直接从hdfs加载pandas的大数据

使用Python将Dask Dataframe转换为Spark* dataframe*

不将Spark* Dataframe转换为Pandas的方法*

如何确定数据帧是Pandas还是Spark？

pyspark to hive中的Pandas数据帧

Delta Lake:性能挑战