按行切分Spark的DataFrame SQL (pyspark)

、、

我有一个spark的Dataframe拼图文件，可以由spark读取，如下所示df.registerTempTable('temp_table') 我想按行对我的数据帧df进行切片(例如，相当于熊猫数据帧中的df.iloc[0:4000], df.iloc[4000:8000]等)，因为我想

浏览 5提问于2016-09-08得票数 4

2回答

如何与PySpark、SparkSQL和Cassandra合作？

、、、

我有点困惑于不同的演员在这个故事: PySpark，SparkSQL，卡桑德拉和火星雨-卡桑德拉连接器。在Scala中使用spark-shell，我可以做的很简单然后 import org.apache.spark.sql.cassandra.Cassandr

浏览 7提问于2016-02-28得票数 1

2回答

如何检查Spark数据帧结构数组是否包含特定值

、

我有一个具有以下模式的数据框架root |

浏览 0提问于2019-09-06得票数 7

回答已采纳

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。import pandas as pdimport pyspark.sql.types as T from p

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * spark</e

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

将Scala代码转换为PySpark

、、

我发现了以下代码，用于从按unique_id分组的数据帧中选择n行。import org.apache.spark.sql.expressions.Window dataframe.w

浏览 1提问于2017-10-23得票数 0

4回答

无法访问pyspark中的本地文件。

、

import osfrom os import listdir, path from pyspark import SparkConfinputfilename)文件"/u/user/vikrant/testdata/PysparkMainModulenew.py"，第53行，在processfiledata dataframe =/python/

浏览 1提问于2018-10-18得票数 1

回答已采纳

1回答

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

、、、、

我有一个火花DataFrame，就像：| id| timeSlot| ratio||100| lunchmorning| 0.3|+---+---------+------+ 我想将它转换成以下格式:在列中由timeSlot id 以为枢轴，以 id作为行索引，以及 ratio的聚合(和)值。", "lunch" ,"morning", &

浏览 2提问于2020-06-22得票数 2

回答已采纳

1回答

无法将RDD转换为DataFrame* (RDD有数百万行)*

、、、

我正在使用ApacheSpark1.6.2但是，我必须首先将它转换为RDD来进行映射，以获得我想要的数据(列)。\python\lib\pyspark.zip\pyspark\sql\context.py", line 64, in toDF File "c:\spark\python\lib\pyspark.zip\pyspark

浏览 3提问于2017-01-14得票数 4

回答已采纳

1回答

使用pyspark中的groupby根据筛选的行创建具有最大值的新列

、、

我有一个spark数据帧 import pandas as pd'col_b': ['a','c','a','a',&#

浏览 31提问于2021-01-16得票数 0

回答已采纳

1回答

无法将CSV pyspark数据帧导出到C:\temp

、、、、

我有一个1300行5列的pyspark.sql.dataframe.DataFrame。\spark\spark-2.4.4-bin-hadoop2.7\python\pyspark\sql\dataframe.py in toPandas(self) 2142: Traceback (most recent call last) What I have tried so

浏览 28提问于2019-10-03得票数 1

回答已采纳

2回答

从pyspark中的列表中提取列

、、、

我对spark来说还是个新手。在Spark 2.4.3上运行pyspark。我有一个像这样组织的json： { "meta" : { ... }, [[ "a", 0, null, "{ }"], | a | 0 | None | "{ }"| | b | 0 | None

浏览 53提问于2020-12-18得票数 1

回答已采纳

2回答

如何删除星火表列中的空白

、、、、

我想从特定列(Purch_location)中的所有值中删除空格。我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。下面是我的星火表的生成方式：cols = dataset.columns+----------+----TORONTO |

浏览 6提问于2017-12-03得票数 2

6回答

如何在PySpark中找到DataFrame的大小或形状？

、、

我正在尝试在PySpark中找出DataFrame的大小/形状。我看不到有一个函数可以做到这一点。data.shape()row_number = data.count()列数的计算并不理想……

浏览 482提问于2016-09-23得票数 118

1回答

用齐柏林飞艇将火种DataFrame从Python移到Scala

、、、、

我在齐柏林的Python段落中创建了一个星星之火DataFrame。'>我得到了一个错误：有修正错误的建议吗或任何移动spDf<

浏览 3提问于2016-05-16得票数 8

回答已采纳

1回答

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。pgsql_df返回的是DataFrameReader而不是DataFrame。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。from pyspark.sql.types import * from

浏览 40提问于2020-04-24得票数 0

回答已采纳

2回答

如何在Azure Databricks PySpark中执行存储过程？

、、、

我可以在Azure Databricks中使用PySpark执行一个简单的SQL语句，但是我想执行一个存储过程。下面是我尝试过的PySpark代码。#initialize pysparkfindspark.init('C:\Spark\spark-2.4.5-bin-hadoop2.7')from pyspark import S

浏览 5提问于2020-02-23得票数 5

1回答

如何在Databricks上使用Apache / Python将整数转换为日期

、、、

我觉得比较简单的问题。试图将整数列转换为时代时间(MM/DD/YYY)？有什么建议吗？

浏览 2提问于2021-08-02得票数 0

回答已采纳

1回答

将列表列表转换为pyspark* dataframe？*

、

| 3 | C | cc |我本质上是在寻找相当于： df = pd.DataFrame

浏览 5提问于2022-05-24得票数 0

回答已采纳

1回答

用笔记本将数据从Azure Synapse数据库加载到DataFrame中

、

我试图从Azure Synapse DW中加载数据到一个数据文件中，如图像所示。AttributeError: 'DataFrameReader' object has no attribute 'sqlanalytics' 对我做错了什么有什么想法吗？

浏览 2提问于2021-08-17得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何与PySpark、SparkSQL和Cassandra合作？

如何检查Spark数据帧结构数组是否包含特定值

pyspark寄存器内置函数及其在spark.sql查询中的使用

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

将Scala代码转换为PySpark

无法访问pyspark中的本地文件。

Pandas的MultiIndex操作是否等同于set_index()或un堆栈()？

无法将RDD转换为DataFrame* (RDD有数百万行)*

使用pyspark中的groupby根据筛选的行创建具有最大值的新列

无法将CSV pyspark数据帧导出到C:\temp

从pyspark中的列表中提取列

如何删除星火表列中的空白

如何在PySpark中找到DataFrame的大小或形状？

用齐柏林飞艇将火种DataFrame从Python移到Scala

Pyspark:从表中读取数据并写入文件

如何在Azure Databricks PySpark中执行存储过程？

如何在Databricks上使用Apache / Python将整数转换为日期

将列表列表转换为pyspark* dataframe？*

用笔记本将数据从Azure Synapse数据库加载到DataFrame中

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐