DataFrame中的列标题取消透视(Spark Scala)

文章/答案/技术大牛

发布

1回答

、、、

我正在寻找一种有效的方法来获取几个列的标题，并将它们取消透视为单个列。下面是一个示例：| Header 3 | null | null | null 实际上，我试图将每一列中的标头

浏览 17提问于2021-06-08得票数 0

回答已采纳

1回答

Spark Scala透视后多个聚合列按名称选择列

、、、、

在Scala Spark 2.0.1中，我试图在透视之后聚合多个列：df: org.apache.spark.sql.DataFrame = [a: int, b: int ... 2 more fie

浏览 3提问于2017-01-23得票数 3

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示列标题。熊猫数据帧头 Spark Scala

浏览 3提问于2018-06-13得票数 2

1回答

创建空的dataframe Java Spark

、、

关于如何使用Spark Scala/Python创建空的dataframe/Dataset，有很多示例。但是我想知道如何在Java Spark中创建一个空的dataframe/Dataset。我必须创建一个空的dataframe，其中只有一列，标题为Column_1，类型为String。

浏览 27提问于2020-07-14得票数 0

回答已采纳

7回答

如何在spark的数据中“负选择”列

、、、

这个df有"A“、"B”和"C“列。现在假设我有一个Array，它包含这个df列的名称：我想以这样的方式来做一个df.select()，这样我就可以指定哪些列不能选择。例如:假设我不想选择列"B“。我试过了但这不起作用，因

浏览 21提问于2015-07-15得票数 22

回答已采纳

1回答

向dataframe星火/scala添加新列时遇到的问题

、、、、

我是新来的火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据，然后添加一个列的基础上的一些条件。，后者是DF中的列。我试图通过使用DF和when向dateDiff添加一个新列，后者使用dateDiff来获取日期之间的差异。这就是发生的事吗？如果是，如何将列值转换为字符串？下面是我从DF中使用的列的架构： |-- item_

浏览 1提问于2017-11-27得票数 0

回答已采纳

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；是否有更好的方法使用spark在hive表中插入

浏览 3提问于2017-12-27得票数 0

回答已采纳

2回答

是否可以在创建DataFrame时指定列名

我的数据在csv文件中。States 15如果我不想使用_c0，_c1，是否可以在读取文件时为列提供我自己的名称？例如，我希望spark使用DEST、ORIG和count作为列名。我不想在csv中添加标题行来完成此操作

浏览 0提问于2019-02-03得票数 0

1回答

Spark中的DataFrame.select()和DataFrame.toDF()有什么不同？

、、、

似乎他们都返回了一个新的DataFramedef toDF(self, *cols): return DataFrame(jdf, self.sql_ctx) jdf = self._jcols(*cols)) return DataFrame(jdf, self.sql_ctx)

浏览 1提问于2016-12-16得票数 4

回答已采纳

1回答

使用scala追加转换后的列以激发数据格式

、、、

我正在尝试访问一个hive表，并从表/ dataframe中提取和转换某些列，然后将这些新列放到一个新的dataframe中。但是当我尝试运行它时，我会收到以下错误- 线程"main“中的异常:需求在org.apache.spark.sql.catalyst.analysis.Analyzer$ResolveReferences(DataFrame.scala:133) at

浏览 1提问于2016-07-03得票数 1

回答已采纳

1回答

将StringType列添加到现有的DataFrame中，然后应用默认值

、、、

Scala2.10在这里使用Spark1.6.2。我有一个与类似的(但不是相同的)问题，然而，被接受的答案不是，它假定了关于火花的某种“预先知识”；因此我无法复制它或理解它。(更重要的是，)，这个问题也仅限于向现有的dataframe中添加一个新列，而我需要添加一个列以及数据中所有现有行的值。因此，我希望向现有的DataFrame添加一列，然后将该新列</

浏览 4提问于2016-10-10得票数 7

回答已采纳

2回答

SparkR：“无法解析列名...”向Spark数据框添加新列时

我正在尝试将一些计算列添加到SparkR数据框中，如下所示：(unix_timestamp$$anonfun$resolve$1.apply(DataFrame.scala:159) at org.apache.spark.sql.DataFrame$$anonfun$resolve$1.apply(DataFrame.sca

浏览 2提问于2015-12-29得票数 0

1回答

除了火种之外，左撇子有什么区别吗？

、、

在我下面的实现中，左反连接和除星火之外是否有区别？ | ).toDF("number", "word", "value") |

浏览 1提问于2020-04-29得票数 0

回答已采纳

1回答

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如：bartenderemployee...我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[所以至少应该有一个带有该工作的.任何暗示都欢迎你！<init

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

Spark 1.4.0 org.apache.spark.sql.AnalysisException:无法解决给定输入列的“概率”

、

使用'probability'方法对模型进行了适当的训练，但是当使用上面示例中的print语句测试模型时，我得到了以下错误:不存在fit列。另外，如果我使用StringIndexer，如何将预测的输出转换回字符串格式。<init>(DataFrame.sca

浏览 4提问于2015-07-17得票数 1

1回答

用农业火花和scala进行选择

、、

我用pySpark写的df.select('*', date_format('window_start', 'yyyy-MM-dd hh:mm').alias('time_window，我错了，我没有取消错误，因为scala是新的 val result=df.select('*', date_format(df("time_window"),"yyyy-MM-dd hh:mm&qu

浏览 0提问于2017-02-27得票数 0

2回答

Scala :从csv读取具有空值的列的数据

、、

csv文件，它有3列数据类型:String，Long，Date。代码如果后续行的值少于标题中存在的值的数量基本上，我尝试使用Scala和Spark从csv读取数据，其中的列具有空值。行的列数不同。如果所有行都有3个列

浏览 1提问于2021-03-25得票数 0

1回答

scala中一些$字符串的输出是什么？

我正在使用spark和scala，并在在线文档中看到了以下内容$"name“在这里是什么意思？

浏览 4提问于2017-02-23得票数 14

回答已采纳

1回答

如何在.Net Spark中将数组列作为参数传递到VectorUdf中？

、、、、

我正在尝试在C# Spark中实现向量自定义函数。我已经通过Spark .Net创建了.Net Spark环境。在我的IntegerType专栏中，Vector Udf (Apache箭头和Microsoft.Data.Analysis都是)很好用。现在，尝试将Integer数组类型的列发送到Vector Udf，但找不到实现此目的的方法。= dataFrame.WithColumn("dataFrame

浏览 17提问于2021-03-25得票数 6

1回答

如果我显式地传递模式，我是否需要使用"mergeSchema“选项？

、

来自spark文件：我从文档中了解到，如果我有多个具有不同模式的parquet分区，如果我使用spark.read.option("mergeSchema", "true").parquet(path)，schemas如果我在查询时不知道这些分区中存在哪些模式，这似乎是一个很好的选择。但是，考虑一下这样的</em

浏览 1提问于2021-03-10得票数 2

点击加载更多