使用所需的特定列从另一个rdd创建rdd

、、、

我在spark中有一个包含以下表格数据的文件 Property ID|Location|Price|Bedrooms|Bathrooms|Size|Price SQ Ft|Status 我已经以rdd的形式阅读了这个文件，使用： a = sc.textFile("/FileStore/tables/realestate.txt") 现在我需要从上面的RDD中创建一个具有PropertyID、位置、价格(=大小*价格平方英尺)的</

浏览 30提问于2021-01-02得票数 0

回答已采纳

2回答

比较Scala中连续行中的列值

、、、、

我是斯派克斯卡拉的新手。在这种情况下，我必须比较数据集中某一列的值，例如：Source Destination DistanceDallas HoustonDistDiff 根据这种情况，我必须比较后继行的距离我遇到的例子是，函数在任何特定数据集的基础上

浏览 0提问于2016-08-26得票数 3

1回答

Spark:更新文件

我有一个包含字符串对列表的文件。第一对表示id，第二对表示值。因此，我加载文件，创建JavaPairRDD，但它们是不可变的，因此我不能添加、删除或更改。执行此操作的最佳实践是什么？每次想要更改时，是否需要删除旧文件并保存新文件？

浏览 2提问于2016-02-26得票数 0

1回答

如何通过提取特定值从另一个RDD创建RDD？

、、

我有一个RDD，它包含一个字符串和JSON对象(作为字符串)。我从JSON对象中提取了所需的值。如何使用这些值创建新的RDD，以便在每一列中存储每个值？RDD从其中生成地

浏览 0提问于2016-01-25得票数 2

1回答

循环内的Spark Union提供空值

、

我尝试从循环内另一个RDD的迭代联合创建一个RDD，但如果我在循环内对结果RDD执行操作，结果将独占地工作。var rdd : RDD[Int] = sc.emptyRDD val rdd1 = sc.parallelize(Array(1))} //

浏览 5提问于2015-10-06得票数 1

1回答

多个RDD和分区？

下面的行是创建单个RDD还是多个RDD我的理解是，它将创建一个具有多个RDD (默认情况下每个partition为128MB )的单个partition，其中每个partition可以在相同/不同的节点上进一步处理。我们可以要求Spark创建多功能的RDD而不是单一的

浏览 1提问于2017-05-27得票数 0

回答已采纳

2回答

有人能区分RDD谱系和DAG (直接无圈图)吗？

、

有人能澄清RDD谱系和DAG (直接无圈图)之间的区别和相似之处吗？

浏览 7提问于2019-10-07得票数 1

回答已采纳

2回答

如何传递模式以从现有的Dataframe创建新的Dataframe？

、、、

但是，现在，我在表中有数据，我通过以下方式显示：但是，如果我试图通过使用下面的命令将一个新模式传递给它df2 = spark.sql("SELECT * FROM people_json", schema=final_struc) 我遗漏了什么？

浏览 2提问于2018-02-12得票数 12

回答已采纳

2回答

读取csv文件，其中列被洗牌。

、、、

我试图在数据库中读取csv文件，在这种情况下，它用混合列代替A、B、C，它会像C、A、B一样随机排列，我尝试使用map()，它会抛出错误‘不能选择'_thread.RLock’对象‘from pyspark.sql import SparkSession from pyspark.sql.functions importPatientId&qu

浏览 25提问于2022-06-27得票数 0

1回答

如何仅使用rdd而不使用dataframe从spark中的csv获取第N列

、、

我想仅使用rdd函数从csv文件中选择一列，而不使用spark中的dataframe。我已经为它写了代码。其他一些列的值为空值。rdd = spark.sparkContext.textFile(filename) rdd1 = rdd_parc.m

浏览 28提问于2019-02-08得票数 0

回答已采纳

1回答

如何从列标题中的大型rdd创建rdd

、、、

我有大的rdd，我想创建4个不同的rdd的基础上提供的标题列表，并通过创建4个parquest文件将其保存在impala表中。-----------------------xyz 2 5 7 4 9 4 12 我有impala侧表的列的列表还需要为用户定义的主键的每个表

浏览 10提问于2018-07-21得票数 0

3回答

Pyspark:将PythonRDD转换为Dataframe

、

根据我的理解，读取文件应该创建一个DF，但在我的例子中，它已经创建了一个PythonRDD。我发现很难将PythonRDD转换为DataFrame。请找到我下面的代码来读取一个标签分开的文本文件：rdd2 = rdd1.我想要转换成DF来映射模式，这样我就可以在列级别进行进一步

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

pyspark中的RDD到DataFrame (来自rdd的第一个元素的列)

、、、、

我已经从csv文件创建了rdd，第一行是该csv文件的标题行。现在，我希望从该rdd创建数据帧，并保留rdd的第一个元素中的列。问题是我可以从rdd.first()中创建数据帧和列，但是创建的数据帧的第一行本身就是头。如何去除它？(rdd.first())

浏览 1提问于2016-10-26得票数 4

回答已采纳

1回答

将RDD添加到DataFrame列PySpark中

、、、、

我想用两个RDD的列创建一个Dataframe，第一个是我从CSV获得的RDD，第二个是另一个RDD，它对每一行进行集群预测。StructField("Asymmetry", FloatType(), True), \映射我的rdd并创建Dat

浏览 1提问于2017-05-21得票数 0

回答已采纳

2回答

JavaRDD<String>到JavaRDD<Row>

、、

我使用以下命令将txt文件读取为JavaRDD：现在，我想将其转换为JavaRDD，因为在txt文件中，我有两列整数，并希望在拆分列后向行添加一些模式。我也试过这个：但是说我不能将map函数分配给"Object“RDD。如何从JavaR

浏览 0提问于2019-03-21得票数 2

回答已采纳

1回答

从Spark RDD中选择字段

、

我有一个相当大的RDD，有400个字段来自Kafka spark流，我需要创建另一个RDD或Map，当我转换流时，从初始RDD流中选择一些字段，并最终编写Elasticsearch。我知道我的字段的字段名称，但不知道字段索引。如何按字段名称将特定字段投影到新Map？

浏览 3提问于2016-03-25得票数 1

1回答

Spark:根据另一个RDD中数组的元素获取RDD的元素

、、

在Spark Scala框架中，我有一个RDD，rdd1，其中每个元素表示矩阵A的一个元素x表示行，y表示列，v表示矩阵A中的值。我还有另一个RDD，rdd2，形式为RDD[index, Array[(x, y)]]，其中每个元素中的数组表示矩阵A的元素集，这些元素存储

浏览 1提问于2016-09-16得票数 0

回答已采纳

1回答

JSON文件解析-在创建星火数据帧时忽略格式错误的记录

、、

我正在创建一个spark，其中模式是从json records.But推断出来的，其中一些json数据集的行比其他行有更多的列，因此数据格式解析失败。我是否可以将空值替换为缺少的额外列的记录。raw_event_data_rdd = sc.textFile(INPUT_DATA_DIR) pre_processed_raw_event_data_rdd = raw_event_data_rd

浏览 2提问于2017-10-31得票数 0

1回答

将行列表保存到pyspark中的配置单元表

、、、

我将一个hive表复制到我的hdfs目录中&在python中，我对这个表执行了sqlContext.sql查询。现在这个变量是我称之为rows的数据帧。然后我使用shuffle(rows_list)将列表打乱到合适的位置。我取x所需的随机行数 for r in range(x): allrows2add.append(rows_list[r])现在，我想将allrows2add保存为一个配置单元表或附加一个现有的配置单元表(以更容易做的为准)。r

浏览 1提问于2016-04-28得票数 5

回答已采纳

1回答

合并“n”个数据文件以生成单个Spark数据帧

、、

我有‘n’个分隔的数据集，CSV可能是。但其中一个可能有几个额外的列。我正在尝试将它们作为数据帧读取，并将它们放入一个数据帧中。如何将它们合并为unionAll并使其成为单个数据帧？而且，当列计数相等时，它是一个简单的unionAll。

浏览 0提问于2018-11-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

比较Scala中连续行中的列值

Spark:更新文件

如何通过提取特定值从另一个RDD创建RDD？

循环内的Spark Union提供空值

多个RDD和分区？

有人能区分RDD谱系和DAG (直接无圈图)吗？

如何传递模式以从现有的Dataframe创建新的Dataframe？

读取csv文件，其中列被洗牌。

如何仅使用rdd而不使用dataframe从spark中的csv获取第N列

如何从列标题中的大型rdd创建rdd

Pyspark:将PythonRDD转换为Dataframe

pyspark中的RDD到DataFrame (来自rdd的第一个元素的列)

将RDD添加到DataFrame列PySpark中

JavaRDD<String>到JavaRDD<Row>

从Spark RDD中选择字段

Spark:根据另一个RDD中数组的元素获取RDD的元素

JSON文件解析-在创建星火数据帧时忽略格式错误的记录

将行列表保存到pyspark中的配置单元表

合并“n”个数据文件以生成单个Spark数据帧

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐