在pyspark架构中指定字符串数组

、

如何在pyspark sql模式中指定字符串数组。我不想使用StructFields。在下面的示例中，城市在数组列表中。

浏览 23提问于2021-07-09得票数 1

回答已采纳

1回答

能够读进RDD，但不能读到火花数据格式

、

必须手动指定。回溯(最近一次调用)：pyspark.sql.utils.AnalysisException:无法推断CSV的架构。必须手动指定。因此，我尝试使用下

浏览 3提问于2022-01-25得票数 0

1回答

使用pyspark比较拼图文件的元数据

、、、

我正在使用pyspark，有一个情况，我需要比较2拼图文件的元数据。示例：- 拼图1架构为: 1，ID，字符串2，地址字符串3，日期，日期拼图2架构为: 1，ID，字符串2，日期，日期3，地址字符串 这应该会显示出不同之处，因为拼花地板2中的col2移到了col3。

浏览 12提问于2020-01-21得票数 0

3回答

将模式数据类型JSON混合到PySpark DataFrame

、、

我需要将JSON的列表转换为pySpark DataFrames。JSON都有相同的架构。问题是JSON中dicts的值条目有不同的数据类型。例如:字段complex是一个Dicts数组，Dict有四个键，但类型不同(整数、字符串、浮点数和嵌套Dict)。参见下面的示例JSON。如果我使用df = spark.createDataFrame(json_list)从jsons中创建我的DataFrame，因为他无法正确地推断模式，所以pyspark“删除”了一些数据。<e

浏览 23提问于2022-03-28得票数 0

回答已采纳

1回答

PySpark:从DataFrame中的字符串列中提取多个json元素

、、

资料来源：---------------------------------------------|US |[{"name":"xyz", "address":"xyzaddress"},{"name":"abc", "address":

浏览 4提问于2022-01-03得票数 0

2回答

将数据保存到HDFS的格式是什么？

、、、

在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

2回答

PySpark配置单元SQL -未插入数据

、、、、

我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询：于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)：from pyspark import SparkContext from pyspark.sql= hc.sql("select 1 as id, 'dog' as

浏览 2提问于2018-01-25得票数 0

1回答

PySpark RDD与Scala的转换

、、

TL;DR -我在PySpark应用程序中有一个看起来像字符串的DStream。我想将它作为一个DStream[String] 发送到Scala库。但是，Py4j不转换字符串.。我正在开发一个PySpark应用程序，它使用星火流从Kafka提取数据。我的消息是字符串，我想在Scala代码中调用一个方法，向它传递一个DStream[String]实例。但是，我无法在Scala代码中接收到适当的JVM字符串。在我看来，P

浏览 4提问于2016-09-12得票数 5

回答已采纳

1回答

以编程方式指定PySpark中的架构

、

我希望显式地指定模式。下面是我尝试过的代码片段。from pyspark.sql.types import StructField, StructType , LongType, StringType stringJsonRdd_new = sc.parallelize

浏览 6提问于2018-02-01得票数 1

回答已采纳

1回答

如何在不指定架构的情况下使用PySpark中的struct列创建数据格式？

、、、、

我正在学习PySpark，它可以方便地快速创建示例数据文件来尝试PySpark API的功能。以下代码(其中spark是火花会话)：df = [{'id': 1, 'data': {'x': 'mplah', 'y': [10,20,30': 'mplah2', 'y': [100,200,300]}},df = spark.

浏览 2提问于2022-05-01得票数 3

回答已采纳

1回答

Pyspark / Dataframe:添加将嵌套列表保留为嵌套列表的新列

、、、

s', 'o'], ['hallo', 'ti']]], 为了从这个输出中创建一个新的我认为这是因为我对新列“.数组”的定义(lit(“10”))。为了保持原来的格式，我必须使用什么？

浏览 0提问于2017-06-27得票数 0

回答已采纳

1回答

指定字符串长度大于256的pyspark dataframe架构

、、、

根据的说法，这只在Scala中是可能的。如何使用varchar(max)指定模式？

浏览 9提问于2018-09-06得票数 1

回答已采纳

2回答

在pyspark DataFrame中创建某个类型的空数组列

、、、

我尝试向df添加一个包含字符串数组的空数组的列，但最终添加了一个字符串数组的列。我试过这个： import pyspark.sql.functions as F df = df.withColumn('newCol', F.array([])) 我如何在pyspark中做到这一点？

浏览 91提问于2019-08-28得票数 9

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsimport splitfrom pyspark.sql.types import * .builder如何使用它

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

如何在将数据从PySpark加载到Redshift时执行列编码

、

我正在尝试加载数据，这是在S3上的拼花格式，以aws红移直接使用吡火花。我能够做到这一点，但是当我在表定义中看到列的编码时，它是一致的。我想要使它特别一致，我希望他们都是伊索。我在com.databricks:spark-redshift_2.10:1.0.0中看不到列编码的任何选项 x.write.format("com.databricks.spark.redshift

浏览 2提问于2016-07-22得票数 1

1回答

为嵌套Json创建Spark结构化流模式

、、、

我想为我的结构化流作业(在python中)定义模式，但我无法以我想要的方式获得dataframe模式。"Alert": "This is the payload" "regionNumber": 11000002}但是我得到了我的模式 df->警报例如，带有单个列的dataframe，名为

浏览 0提问于2022-03-14得票数 1

回答已采纳

1回答

从S3读取拼花分区表是从分区列中删除前导零

、、、

我使用EMR( pyspark )编写了一个pyspark作为s3的块，该数据由列(A)(即StringType() )划分。在S3中，数据如下所示 A=0003 A=C456 part-file.parquet当我将此作为数据回传阅读时，我会在数据报的'A‘列中松开前导零。

浏览 0提问于2020-04-11得票数 0

回答已采纳

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。要求将此列和其他与财务相关的列从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark.sql.types导入DecimalType newouterjoindffinal = newouterjoindf.

浏览 23提问于2021-10-25得票数 0

回答已采纳

1回答

如何解析星火中不同类型的JSON列表？

、、、、

我把这个文件保存在/test.json中我需要为它定义一个模式spark.read.schema(schema).option("mode", "FAILFAST").json("/test.json")

浏览 6提问于2022-02-11得票数 0

1回答

作为PySpark的reduceByKey键的列表

、、、

我试图在格式为reduceByKey的(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ...数据上调用pyspark的(([a,b,c], 1), ([a,b,通过简单地应用.reduceByKey(add)，pyspark似乎不会接受数组作为普通键的键，即值约简。我已经尝试过先通过.map((x,y): (str(x),y))将数组转换为字符串，但这不起作用，因为字符串的后处理太慢了。是否有一种方法可以使pyspark

浏览 3提问于2015-07-14得票数 8

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

能够读进RDD，但不能读到火花数据格式

使用pyspark比较拼图文件的元数据

将模式数据类型JSON混合到PySpark DataFrame

PySpark:从DataFrame中的字符串列中提取多个json元素

将数据保存到HDFS的格式是什么？

PySpark配置单元SQL -未插入数据

PySpark RDD与Scala的转换

以编程方式指定PySpark中的架构

如何在不指定架构的情况下使用PySpark中的struct列创建数据格式？

Pyspark / Dataframe:添加将嵌套列表保留为嵌套列表的新列

指定字符串长度大于256的pyspark dataframe架构

在pyspark DataFrame中创建某个类型的空数组列

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

如何在将数据从PySpark加载到Redshift时执行列编码

为嵌套Json创建Spark结构化流模式

从S3读取拼花分区表是从分区列中删除前导零

Pyspark句柄从字符串转换为十进制

如何解析星火中不同类型的JSON列表？

作为PySpark的reduceByKey键的列表

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐