将键值对的spark数据帧整形为新列

文章/答案/技术大牛

发布

1回答

、、

我是spark和scala的新手。假设我有一个列表的数据帧，这些列表是键值对。有没有办法将列id的id变量映射为新列？

浏览 10提问于2016-09-01得票数 3

3回答

Spark dataframe reducebykey like操作

、、、

我有一个包含以下数据的Spark数据帧(我使用spark-csv加载数据)：1,103,0有没有类似于spark RDD reduceByKey的东西，它可以返回Spark DataFrame为：(基本上，对相同的键值进行求和)1,303,0 (我可以将</e

浏览 1提问于2015-12-13得票数 11

回答已采纳

1回答

通过数学运算组合来自spark数据帧的行/列

、、、

我有两个spark数据帧(A和B)，大小分别为a x m和b x m，包含浮点值。此外，每个数据帧都有一个列'ID'，这是一个字符串标识符。A和B具有完全相同的ID集(即包含关于同一组客户的信息)。我想通过一些函数把一列A和一列B结合起来。更具体地说，我想构建一个标量积A的列和B的列，并根据ID对列<

浏览 1提问于2015-05-05得票数 2

3回答

如何将数据集写入Kafka主题？

、、、

我使用的是Spark 2.1.0和Kafka 0.9.0。有没有人知道这样的事情是否可行？谢谢正如user8371915提到的，我试图遵循中所做的事情。我用的

浏览 3提问于2018-04-06得票数 6

1回答

如何使用dplyr对n个最高值进行逐行求和而不进行整形？

、

我想根据数据帧每一行的n个最高值创建一个新列。以下列例子为例：df <- tribble(~name, ~q_1, ~q_2, ~q_3, ~sum_top_2, "b", 2, 8, 9, 17) 在这里，sum_top_2列将两个以"q_“为前缀的

浏览 7提问于2021-06-10得票数 6

回答已采纳

1回答

使用更改模式将数据插入到增量表中

、、

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的数据帧加载到增量表中。例如，在第2天，添加了两个新列E和F，但没有C列。现在我在数据</e

浏览 18提问于2021-10-29得票数 0

1回答

通过python中的函数参数分配变量名

、

我正在用我编写的函数创建多个数据文件，并且我希望能够在函数中指定dataframe的名称作为参数。q1 = """from bar我已经编写了上面的函数，当我调用它时，它会返回一个带有适当数据的数据但是，它似乎不像指定为"market_share_df“的变量名。不知道该

浏览 0提问于2022-08-11得票数 0

2回答

有没有办法修改存储为ORC的配置单元表中的列？

、

已经有一个关于一般配置单元( )的问题。此问题的答案指出，可以使用alter table change命令更改模式但是，如果文件存储为ORC，这也是可能的吗？

浏览 2提问于2016-11-30得票数 1

1回答

计数数组在PySpark中每个类别包含字符串的次数

我从spark数组“df_spark”开始： from pyspark.sql import SparkSessionimport numpy as npdf_

浏览 19提问于2018-12-16得票数 3

回答已采纳

2回答

Spark dataframe将行中特定列的值替换为空值

、、、、

在尝试用空值替换Spark dataframe的特定列的值时，我遇到了一个问题。我有一个超过50列的数据帧，其中两列是键列。我想创建一个具有相同模式的新数据帧，并且新数据帧应该具有来自键列的值和非键列中的空值。为了避免这种

浏览 18提问于2018-08-29得票数 1

回答已采纳

1回答

由于区分大小写，在spark中使用架构加载JSON文件时加载的是空数据

、

我试图用Schema加载JSON文件，但是模式的列都是小写的，而JSON文件中的键不是小写的，所以加载的数据是空的。我可以使用推断出的模式加载文件，但这不是一个选项。我也尝试过设置spark.sql.caseSensitive=true，但它不起作用，而是将这些作为新列添加。是否有任何属性可以设置使其工作，或者我必须在加载到spark之前

浏览 21提问于2020-04-21得票数 1

1回答

在pyspark中的my data框中生成6位随机数作为新列

、

我的数据框中有大量数据，现在我想尝试插入具有6位随机数的新列。我已经尝试过lit(randrange(99999))不能像预期的那样工作，它产生的值小于6位数，并且对整个数据帧产生了静态值。

浏览 11提问于2021-08-12得票数 0

回答已采纳

1回答

从ORC文件创建外部配置单元表的方法

、、、

用于创建表的查询： create external table fact_scanv_dly_stg (geo_region_cd char(2),op_cmpny_cd string)location 'hdfs:///my/location/scanv_data/'; ORC文件的模式详细信息(摘自DataFrame Spark-SQL)

浏览 28提问于2020-04-30得票数 0

2回答

PySpark数据帧的最佳实践-删除多个列？

、、、

假设有人想要从数据帧中删除一列。可以在不创建新数据帧的情况下做到这一点吗？看起来创建一个新的数据帧更安全，更正确，对吗？通过重用如上所述的数据帧可能会遇到什么问题？如果重用数据帧是一种糟糕的做法，假设有人想要

浏览 21提问于2019-11-22得票数 0

1回答

将Spark* DataFrame中的JSON解析为新列*

、、、

背景------------------------------------------------------------------------ |name |, s"""{"lunch": "sushi", "dinner": "lasagna", "snack": "apple"}""")).toDF("name",

浏览 34提问于2019-10-25得票数 0

回答已采纳

1回答

在pyspark的regexp_replace函数中使用字典

、、、

我想使用字典对pyspark dataframe列执行regexp_replace操作。字典：{'RD':'ROAD','DR':'DRIVE','AVE':'AVENUE',....}字典将有大约270个键值对。输入数据帧：1 | 22, COLLINS RD 3

浏览 0提问于2018-05-08得票数 1

2回答

函数将R类型转换为星点类型。

、、、、

我有一个R数据框架，我想把它转换成远程集群上的星火数据帧。我已经决定将我的数据框架写到一个中间的csv文件中，然后使用sparklyr::spark_read_csv()读取该文件。我这样做是因为数据帧太大，不能直接使用sparklyr::sdf_copy_to()发送(我认为这是由于Livy中的限制)。我想通过编写一个函数来编程地将数据帧中使用

浏览 0提问于2019-03-28得票数 0

回答已采纳

1回答

为什么"groupBy agg count alias“不创建新列？

、、

alias("count")) .limit(3)它在以下行失败：.orderBy(df("count").desc)，说明没有这样的列

浏览 2提问于2018-11-08得票数 0

2回答

PySpark将IntegerTypes转换为ByteType进行优化

、、、

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新的dataframe本身，因此占用了相同的

浏览 3提问于2018-02-01得票数 5

1回答

将ascii字符添加到spark中的数据帧

、、、

当前有一个数据帧，我想在最后一行中放置一个ASCII字符。我有一个大约有17列的pandas数据帧，并创建了一个带有新行的新数据帧。]) newrow.loc[0] = [chr(26),'','','','','','','','',&#x

浏览 9提问于2020-07-08得票数 0

点击加载更多