如何在spark dataframe中从多层结构类型创建列？

、、、

|val dfContentEnvelope = sqlContext.read.format("com.databricks.spark.xml").option("rowTag", "env:ContentEnvelope").load("C://Users//u6034690//Desktop//SPARK//trfsmallfffile

浏览 10提问于2018-02-20得票数 0

回答已采纳

1回答

如何将数据架构的字符串拆分为每个结构

、、

我想将dataframe的架构拆分为一个集合。我正在尝试这个方法，但是模式被打印成一个字符串。我是否可以将其拆分为每个StructType的集合，以便对其进行操作(比如只从输出中提取数组列)？我试图平平一个复杂的多层次的结构+数组数据。output.toList 目前的输出是 identifyArrayColumns: (dataFrame: org.apache.spark.sql.DataFram

浏览 0提问于2018-03-09得票数 0

回答已采纳

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

2回答

当NullType位于StructType内时，将空值写入Spark中的拼图

、、、

我正在将一个集合从MongodB导入到Spark。所有文档都有字段'data‘，该字段又是一个结构，并具有字段'configurationName’(始终为空)。("collection", collectionName).load() 对于结果DataFrame中的data列，我得到以下类型： StructType(StructField(configurationName： AnalysisException: Parquet

浏览 24提问于2021-08-11得票数 1

2回答

获取到元数据表的数据模式加载

、

用例是读取一个文件并在it.After上创建一个数据文件，获取该文件的模式并将其存储到DB表中。例如，我只是创建一个case类并获取printschema，但是我无法从其中创建一个dataframe。= SparkSession.appName("Spark SQL basic example").ge

浏览 0提问于2019-06-27得票数 1

回答已采纳

2回答

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

、、

" val Date = "Date"} 然后，我想按列对

浏览 2提问于2018-01-11得票数 2

回答已采纳

5回答

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

、、、、

中的所有函数SQLContext，SparkContext，以及JavaSparkContext也在SparkSession？我如何使用 a 创建以下内容SparkSession？

浏览 216提问于2017-05-05得票数 39

回答已采纳

1回答

火花数据到密封特性类型

、、

我有一些数据存储在与数据模式相匹配的parquet文件和案例类中。Spark很好地处理常规产品类型，所以如果我有我可以很容易做到但据我所知，星火不处理分离类型所以当我在我的地板上有枚举时，以前编码为整数，而scala表示形式类似case object A extends E我做不到 spark

浏览 0提问于2018-06-19得票数 6

回答已采纳

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独导入每个存储桶时生成的数据帧的模式是多层的(即每一行都

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

在星火中，RDD和Dataframe有什么区别？

、、

我想了解RDD、dataframe和数据集之间的区别。在这种情况下，当我从s3加载数据时，什么是RDD？感谢有人能解释RDD、dataframe和数据集之间的区别。

浏览 1提问于2019-08-20得票数 2

2回答

Deeplearning4j to spark管道:将字符串类型转换为org.apache.spark.mllib.linalg.VectorUDT

、、、

现在，我需要将该程序添加到apache spark管道中。这样做的时候，我有一个扩展org.apache.spark.ml.classification.ProbabilisticClassifier的类MovieReviewClassifier，我必须在管道中添加该类的一个实例dataFrame = sqlContext.read().format("com.databricks.spark.csv") .option(&quo

浏览 3提问于2016-02-19得票数 1

1回答

在.NET火花中遍历数据帧

、

我在Spark中有一个dataframe (通过读取csv创建)，如何在C#中遍历这个数据文件中的行。dataframe中有10行3列，在逐行导航时，我希望获得每个列的值。以下是我正在尝试的：{} foreach语句不能对“DataFrame”类型的变量进行操作，因为“<

浏览 4提问于2022-11-09得票数 0

回答已采纳

2回答

处理Spark中的所有列/整行

、、

对于包含字符串和数字数据类型混合的dataframe，目标是创建一个新的features列，它是所有这些类型的minhash。虽然这可以通过执行dataframe.toRDD来完成，但是当下一步只是简单地将RDD转换回数据格式时，这样做是很昂贵的。那么，是否有一种方法可以按照以下思路执行udf：当然，Row不是spark sql数据类型</em

浏览 1提问于2018-03-22得票数 4

回答已采纳

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true) at com.datastax.spark.connector.mapper.DataFrameColumnMapper$$anonfun$1.apply(DataFrameColumnMapper.s

浏览 4提问于2016-06-27得票数 1

2回答

我是否可以更改作为表加载到Server的Spark* dataframe列的数据类型？*

、、、

我试图从Azure数据湖读取一个Parquet文件，使用下面的Pyspark代码。加载到中的一个表中： .format("com.databricks.spark.sqldw") \ .option("url", "test111") \ .save() 这将在中<

浏览 0提问于2019-01-15得票数 3

2回答

什么时候在PySpark中使用UDF与函数？

、、、、

我在使用Spark和Databricks，并有以下代码： return when(col(column) !

浏览 1提问于2019-05-09得票数 7

回答已采纳

2回答

Spark SQL -隐式创建模式与以编程方式创建模式的确切区别

、

我正在尝试理解隐式创建模式和以编程方式创建模式之间的确切区别，以及在什么特定场景中可以使用哪种方法。在编程风格中，我们将数据集加载为文本文件(类似于反射)。Creating a SchemaString (String) =“了解文件，我们可以指定我们需要的列”(

浏览 2提问于2016-01-31得票数 2

1回答

向星火中的列表添加数据

、、、、

我试图根据其中一个数据创建"n“dataframes。我正在检查column在dataframe中的整数值，并循环sql语句以创建"n“dataframes和列中的Integers一样多。这是我的密码： val maxvalue = spark.sql("SELECT MAX(column4) as maxval FROM mydata").collect()(0).getInt(0)query = "SELECT co

浏览 2提问于2017-01-31得票数 4

回答已采纳

1回答

阵列熊猫列dType

、、

我有一些数据在我的数据框架中建模有困难，这样就可以很容易地处理并且节省内存。数据从CSV文件中读取，其中有4列ID、Date、LID和data以及600 k行。，我无法限制数据列中的数组类型，我知道，当数据类型不是数组而是例如整数时，这是可能的。所以我的问题是，这是一个合理的数据框架结构吗?如果是这样的话，我如何在读取CSV文件时将数据列的数组元素限制为int16。下面是我可以定义数据列</

浏览 1提问于2017-10-02得票数 3

回答已采纳

1回答

spark Dataframe字符串到配置单元变量字符

、、、

我通过spark JDBC连接到DataFrame从Oracle读取数据。我有一个列，它显然是dataframe中的StringType。现在我想在Hive中持久化它，但是作为数据类型Varchar(5)。我知道字符串会被截断，但这没问题。我尝试使用UDF，但由于dataframe没有varchar或char类型，因此UDF不起作用。我还使用以下命令在Hive中创建了一个临时视图

浏览 0提问于2018-04-23得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将数据架构的字符串拆分为每个结构

创建空的dataframe Java Spark

当NullType位于StructType内时，将空值写入Spark中的拼图

获取到元数据表的数据模式加载

为什么$不能处理String类型的值(并且只直接处理字符串文本)？

SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么？

火花数据到密封特性类型

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

在星火中，RDD和Dataframe有什么区别？

Deeplearning4j to spark管道:将字符串类型转换为org.apache.spark.mllib.linalg.VectorUDT

在.NET火花中遍历数据帧

处理Spark中的所有列/整行

spark-cassandra-connector -从Dataframe创建表格- StructType？

我是否可以更改作为表加载到Server的Spark* dataframe列的数据类型？*

什么时候在PySpark中使用UDF与函数？

Spark SQL -隐式创建模式与以编程方式创建模式的确切区别

向星火中的列表添加数据

阵列熊猫列dType

spark Dataframe字符串到配置单元变量字符

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐