如何将通用rdd转换为dataframe？

通用RDD（Resilient Distributed Dataset）是Apache Spark中的一种数据结构，而DataFrame是Spark SQL中的一种数据结构，用于处理结构化数据。将通用RDD转换为DataFrame可以通过以下步骤实现：

导入必要的Spark SQL库和相关类：

import org.apache.spark.sql.{SparkSession, Row}
import org.apache.spark.sql.types.{StructType, StructField, StringType, IntegerType}

创建SparkSession对象：

val spark = SparkSession.builder().appName("RDD to DataFrame").getOrCreate()

定义通用RDD：

val rdd = spark.sparkContext.parallelize(Seq(("Alice", 25), ("Bob", 30), ("Charlie", 35)))

定义DataFrame的结构：

val schema = StructType(Seq(
  StructField("name", StringType, nullable = true),
  StructField("age", IntegerType, nullable = true)
))

将通用RDD转换为Row类型的RDD：

val rowRDD = rdd.map{ case (name, age) => Row(name, age) }

创建DataFrame：

val df = spark.createDataFrame(rowRDD, schema)

现在，你可以对DataFrame进行各种操作，如查询、过滤、聚合等。

推荐的腾讯云相关产品：腾讯云的云计算产品包括云服务器、云数据库、云存储等，可以根据具体需求选择适合的产品。

参考链接：

在DataFrames上执行RDD操作

、、、、

我有一个包含10个字段的数据集。我需要在这些DataFrame上执行RDD操作。是否可以执行map、flatMap等RDD操作。下面是我的示例代码： df.select("COUNTY","VEHICLES").show(); 这是我的dataframe，我需要将这个dataframe转换成RDD，并在这个新的RDD上操作一些RDD操作。下面是我如何将dataframe转换为RDD的代码 RDD<Row> java = df.select("COUNTY","VEHICLES").rdd(); 转换为RDD后，我

浏览 2提问于2016-12-14得票数 0

1回答

你能把字节数组转换成元组吗？

、、

这是否可以将anotherMethod传递给myMethod的函数的签名转换为元组？： def myMethod(df: DataFrame, str: String, type: String, anotherMethod: DataFrame => RDD[Array[Byte]]): Unit = {} 我对scala相当陌生，我不知道如何将字节数组转换为Tuple：yetAnotherMethod : DataFrame => RDD[(String, Array[Byte])] 谢谢

浏览 0提问于2018-10-22得票数 1

回答已采纳

2回答

从RDD中的Pandas DataFrames创建Spark DataFrame

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。示例： def read_file_and_process_with_pandas(filename): data = pd.read(filename) """ some additional operations using pandas functionality here the data is a pandas dataframe, and

浏览 31提问于2019-06-05得票数 0

回答已采纳

3回答

如何在Scala中将DataFrame转换为RDD？

、、、

有人能分享一下如何将dataframe转换为RDD吗？

浏览 99提问于2015-09-12得票数 45

回答已采纳

2回答

将星火DataFrame转换为spark.rdd.RDD[(Array[Integer]，Array[Integer]) ]以计算平均精度

、、、、

我有一个星火DataFrame：我必须使用Scala从中计算平均精度。我想，根据文档，我们必须使用RDD而不是DataFrame。我尝试了以下几点： var llist = df.select("predicted", "actual").rdd.map(x => (x.get(0), x.get(1))).collect() // It gave Array[(Any, Any)] var df_rdd =sc.parallelize(llist) // df_rdd is org.apache.spark.rdd.RDD[(Any, An

浏览 5提问于2021-06-17得票数 0

6回答

如何在spark中将rdd对象转换为dataframe

、、、

如何将RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row])转换为数据帧org.apache.spark.sql.DataFrame。我使用.rdd将数据帧转换为rdd。在处理之后，我想把它放回数据帧中。我该怎么做呢？

浏览 56提问于2015-04-01得票数 150

回答已采纳

1回答

用行分隔符火花scala读取文本文件

、、、

我有一个文本文件与以下格式。 id##name##subjects$$$ 1##a##science english$$$ 2##b##social mathematics$$$ 我想创建一个像DataFrame这样的 id | name | subject 1 | a | science | | english 当我做这个Scala时，我只得到RDD[String]。如何将RDD[String]转换为DataFrame val rdd = sc.textFile(fileLocation) val a = rdd.reduce((a, b) => a +

浏览 0提问于2018-10-28得票数 0

回答已采纳

4回答

如何在结构化流式传输中将数据帧转换为rdds？

、

我使用pyspark流从kafka获取数据，结果是一个dataframe，当我将dataframe转换为rdd时，它出错了： Traceback (most recent call last): File "/home/docs/dp_model/dp_algo_platform/dp_algo_core/test/test.py", line 36, in <module> df = df.rdd.map(lambda x: x.value.split(" ")).toDF() File "/home/softs/spark-2.4.3-

浏览 56提问于2020-01-06得票数 3

1回答

星火graphX使边缘/顶点RDD由数据挖掘而成

、、、

我有两个大型数据格式，edge和vertex，我知道它们需要特殊类型的Vertex和Edge RDDs，但是我找到的每个教程都将Edge和Vertex RDDs指定为3到10个条目的数组。我需要他们直接转换从一个实质性的RDD。如何将dataframe/普通的RDD转换为正确的类型？我遵循了这里的示例：，但是它列举了所有的关系，在我的用例中有很多关系。 edge df有3列(sourceID、destID、relationship) vertex df有2列(ID、名称) 到目前为止，我已经尝试过： val vertex: RDD[(VertexId, String)] =

浏览 1提问于2019-02-11得票数 2

1回答

如何将map函数输出(行、行)元组转换为一个Dataframe

、、

我需要使用Scala在Spark中编写一个场景。我将用户定义的函数传递给Dataframe，它逐一处理每一行数据帧，并返回元组( row，Row)。如何将RDD (行，行)更改为Dataframe ( Row )？见下面的代码示例- **Calling map function-** val df_temp = df_outPut.map { x => AddUDF.add(x,date1,date2)} **UDF definition.** def add(x: Row,dates: String*): (Row,Row) = { ..................

浏览 3提问于2016-06-09得票数 2

回答已采纳

2回答

将csv文件加载到RDD和Dataframe中的区别

、、

我不知道这问题是否较早前提出。可能是一个可能的复制，但我无法找到坚持这样做的用例。如我们所知，我们可以直接将csv文件加载到dataframe，并可以将其加载到RDD中，然后稍后将该RDD转换为dataframe。 RDD = sc.textFile("pathlocation") 我们可以在此RDD上应用一些Map、filter和其他操作，并将其转换为数据格式。此外，我们还可以创建直接读取csv文件的dataframe。 Dataframe = spark.read.format("csv").schema(schema).option("head

浏览 0提问于2018-11-29得票数 0

回答已采纳

1回答

如何用火花将RDD转换为Dataframe？

、、

我下面有一个RDD，是从客户那里收到的。我如何将这个RDD转换成一个Dataframe？ ["Row(Moid=2, Tripid='11', Tstart='2007-05-28 08:53:14.040', Tend='2007-05-28 08:53:16.040', Xstart='9738.73', Ystart='103.246', Xend='9743.73', Yend='114.553')"]

浏览 1提问于2019-02-12得票数 1

回答已采纳

1回答

如何在PySpark中将数据提取为字符串时保留时间戳格式

、、

我在PySpark (Databricks)中有以下数据。如何将显示在dataframe中的确切文字时间戳提取为字符串？现在，使用下面的代码，我得到了："2022-02-25 06:32:29"而不是一些转换正在发生，其中包括“T”在内的毫秒部分。我想保留显示在dataframe上的文字字符串吗？码 table = [x["ts"] for x in ts.rdd.collect()] for row in table: print(row)

浏览 2提问于2022-02-25得票数 1

1回答

如何将dataframe转换为RDD而不更改分区？

、、

出于某种原因，我必须将RDD转换成dataframe，然后用dataframe做一些事情，但是我的接口是RDD，所以我必须将dataframe转换为RDD，当我使用df.rdd时，分区更改为1，所以我必须使用repartition和sortBy RDD，有更干净的解决方案吗?谢谢！这是我的尝试： val rdd=sc.parallelize(List(1,3,2,4,5,6,7,8),4) val partition=rdd.getNumPartitions val sqlContext = new SQLContext(m_sparkCtx) import s

浏览 1提问于2017-06-06得票数 0

回答已采纳

1回答

如何在scala中实现avro到GenericRecord的数据帧转换

、

我陷入了将avro数据帧转换为GenericRecord/ByteArray的困境，在那里我在google上冲浪，他们为我提供了相反的解决方案。有人尝试过在scala中将AVRO RDD/Dataframe转换为GenericRecord或ByteArray吗？我使用这个命令来读取我的avro文件。 spark.read.avro("/app/q.avro") 它会像这样返回给我数据帧。 res0: org.apache.spark.sql.DataFrame = [recordType: string, recordVersion: string ... 6 more f

浏览 4提问于2017-10-16得票数 0

2回答

Spark:如何将数据帧Array[String]更改为RDD[Array[String]]

、、

我以DataFrame array<string>的身份处理事务 transactions: org.apache.spark.sql.DataFrame = [collect_set(b): array<string>] 我想将其更改为RDD[Array[string]]，但是当我将其更改为RDD时，它被更改为org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] val sam: RDD[Array[String]] = transactions.rdd <console>:42: error: type m

浏览 14提问于2017-01-11得票数 1

1回答

不能将java.lang.ClassCast errors.GenericRowWithSchema转换为scala.collection.Seq

、、

如何将映射的RDD转换为包装的Array，我会出错模式：当我试图将dataframe转换为pojo时，我得到了以下异常： java.lang.ClassCastException: org.apache.spark.sql.catalyst.expressions.GenericRowWithSchema cannot be cast to scala.collection.Seq 代码： rdd.map(row => { var arrm_list: Seq[Row] = rows.getAs[AnyRef]("ArrTeber").asI

浏览 1提问于2020-01-27得票数 0

回答已采纳

2回答

RDD[string]：将DataFrame转换为pyspark

、、、、

我想将pyspark.sql.dataframe.DataFrame转换为pyspark.rdd.RDD[String] 我将DataFrame df转换为RDD data data = df.rdd type (data) ## pyspark.rdd.RDD 新的RDD data包含Row first = data.first() type(first) ## pyspark.sql.types.Row data.first() Row(_c0=u'aaa', _c1=u'bbb', _c2=u'ccc', _c3=u'ddd&#

浏览 2提问于2016-02-17得票数 8

回答已采纳

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

5回答

如何将时间戳作为额外列添加到dataframe中？

、、、

*大家好，我有个简单的问题要问你们。我有一个RDD，它是使用createStream方法从kafka流创建的。现在，我希望在转换到dataframe之前，将时间戳作为这个rdd的值添加。我尝试使用withColumn()添加一个值到dataframe，但返回此错误* val topicMaps = Map("topic" -> 1) val now = java.util.Calendar.getInstance().getTime() val messages = KafkaUtils.createStream[String, String, Str

浏览 9提问于2017-01-09得票数 10

5回答

如何从Scala的迭代列表中创建DataFrame？

、、、

我有以下Scala值： val values: List[Iterable[Any]] = Traces().evaluate(features).toList 我想把它转换成DataFrame。当我尝试以下操作时： sqlContext.createDataFrame(values) 我得到了这个错误： error: overloaded method value createDataFrame with alternatives: [A <: Product](data: Seq[A])(implicit evidence$2: reflect.runtime.universe

浏览 159提问于2016-06-28得票数 38

回答已采纳

1回答

如何对csv文件执行基本统计，以便使用Spark探索我的数值变量和非数字变量？

、、

我导入了一个csv文件，如下所示： MR; IT; UPI; CAE; IIL; ED; NS; DATE; DUIOD;NBOPP; 30; 0; null; 2; 0; bgpel:10PT-MIP ; null; 2013-05-20 21:03:00.0; 300;null; 20; 0; null; 4; 1; bzrgfel:125TZ-ATR; null; 2013-04-01 19:50:02.0; 302;null; 10; 2; null; 2; 0; bhtu

浏览 0提问于2015-08-03得票数 0

1回答

如何在转换Scala -> RDD时保留类型？

、

我正在尝试将数据转换为RDD。我的DataFrame有键入的列，如下所示： df.printSchema root |-- _c0: integer (nullable = true) |-- num_hits: integer (nullable = true) |-- session_name: string (nullable = true) |-- user_id: string (nullable = true) 当我使用df.rdd将其转换为rdd时，我得到了一个Array[org.apache.spark.sql.Row]类型的rdd，但是当我使用rdd(0)(0)、rd

浏览 2提问于2017-04-26得票数 2

回答已采纳

3回答

使用模式将带有Spark的AVRO消息转换为DataFrame

、、、、

是否有一种方法可以使用模式将消息从与转换为？用于用户记录的架构文件： { "fields": [ { "name": "firstName", "type": "string" }, { "name": "lastName", "type": "string" } ], "name": "user", "type": "record" } 以及从和中读取消息

浏览 6提问于2016-08-20得票数 14

回答已采纳

1回答

在Spark中，为什么我们可以广播DataFrame而不能广播RDD？我们如何使用广播的DataFrame？

、、

我想知道为什么在星火，我们不被允许广播RDD，但我们可以广播DataFrame？ val df = Seq(("t","t"),("t","f"),("f","t"),("f","f")).toDF("x1", "x2") val rdd = df.rdd val b_df = spark.sparkContext.broadcast(df) //you can do this! val b_rdd = spark.sparkConte

浏览 233提问于2018-08-09得票数 0

回答已采纳

1回答

将Pyspark RDD转换为Pandas Dataframe

、、、、

我有一个Pyspark RDD，如下面的输出所示，如何将其转换为pandas dataframe。 rdd.take(3) ['REVISION 6 233188 AmericanSamoa 2001-01-19T01:12:51Z ip:office.bomis.com ip:office.bomis.com\nCATEGORY\nIMAGE\nMAIN\nTALK\nUSER\nUSER_TALK\nOTHER\nEXTERNAL\nTEMPLATE\nCOMMENT *\nMINOR 0\nTEXTDATA 1516', 'REVISION 6 133180

浏览 59提问于2020-04-23得票数 0

1回答

在星火中，RDD和Dataframe有什么区别？

、、

嗨，我是相对较新的阿帕奇火花。我想了解RDD、dataframe和数据集之间的区别。例如，我从s3桶中提取数据。 df=spark.read.parquet("s3://output/unattributedunattributed*") 在这种情况下，当我从s3加载数据时，什么是RDD？另外，由于rdd是不可变的，所以我可以更改df的值，这样df就不能是RDD。感谢有人能解释RDD、dataframe和数据集之间的区别。

浏览 1提问于2019-08-20得票数 2

1回答

如何在Spark中从另一个RDD的前n项生成RDD？

在pyspark中给出一个RDD，我想创建一个新的RDD，它只包含它的前n项(副本)，如下所示： n=100 rdd2 = rdd1.limit(n) 除了RDD没有像DataFrame那样的方法limit()。注意，我不想收集结果，结果必须仍然是RDD，因此我不能使用RDD.take()。我使用的是pyspark 2.44。

浏览 19提问于2019-10-13得票数 0

回答已采纳

1回答

在将rdd转换为dataframe时使用mapPartitions的一个任务

、、、

我感到困惑的是，为什么在将得到的rdd.mapPartitions转换为DataFrame时，Spark似乎使用了1任务。这对我来说是个问题，因为我想从以下几个方面着手： DataFrame -> RDD --> rdd.mapPartitions --> DataFrame 这样，我就可以读取数据( DataFrame )，将非SQL函数应用于数据块(mapPartitions on RDD)，然后转换回DataFrame，以便我可以使用DataFrame.write进程。我可以从DataFrame -> mapPartitions开始，然后使用像saveAsTe

浏览 4提问于2016-11-22得票数 17

回答已采纳

1回答

如何使用Spark在JDBC中持久化窗口()函数的输出？

、、

当执行以下代码段时： ... stream .map(_.value()) .flatMap(MyParser.parse(_)) .foreachRDD(rdd => { val spark = SparkSession.builder.config(rdd.sparkContext.getConf).getOrCreate() import spark.implicits._ val dataFrame = rdd.toDF(); val countsDf = dataFrame.g

浏览 3提问于2016-08-28得票数 3

回答已采纳

3回答

如何将基于case类的RDD转换为DataFrame？

、、、、

展示了如何使用Scala case类来推断模式，如何从RDD创建DataFrame。我试图用sqlContext.createDataFrame(RDD, CaseClass)重现这个概念，但是我的DataFrame结果是空的。下面是我的Scala代码： // sc is the SparkContext, while sqlContext is the SQLContext. // Define the case class and raw data case class Dog(name: String) val data = Array( Dog("Rex"),

浏览 0提问于2016-05-03得票数 12

回答已采纳

1回答

如何将PySpark RDD转换为具有未知列的Dataframe？

、、、

我是通过从RDD中的文本文件加载数据来创建PySpark的。现在，我想将这个RDD转换成一个dataframe，但是我不知道RDD中有多少列和列。我正在尝试使用createDataFrame()和语法，因为它是sqlDataFrame = sqlContext.createDataFrame(rdd, schema)。我试图了解如何创建schema，但大多数示例都显示了一个硬编码模式创建示例。现在，由于我不知道列是什么，所以如何将rdd转换为dataframe？到目前为止，我的代码如下： from pyspark import SQLContext sqlContext = SQLContex

浏览 9提问于2017-04-07得票数 2

1回答

如何将SparkR DataFrame转换为RDD

、、

我知道如何使用SparkR将文本文件转换为RDD： data <- textFile(sc, "data/tsv_wiki") 但我想知道如何将R中DataFrame类型的对象转换为RDD。任何帮助都将不胜感激。

浏览 22提问于2016-08-05得票数 2

回答已采纳

2回答

星星之火:如果DataFrame有一个模式，DataFrame如何成为Dataset[Row]？

、、、

声称Spark中的DataFrame等同于Dataset[Row]，但是显示DataFrame有一个模式。以博客文章中关于将RDD转换为DataFrame的例子:如果DataFrame与Dataset[Row]相同，那么将RDD转换为DataFrame应该是一样简单的。 val rddToDF = rdd.map(value => Row(value)) 但它却证明了这是 val rddStringToRowRDD = rdd.map(value => Row(value)) val dfschema = StructType(Array(StructField("val

浏览 0提问于2016-10-07得票数 6

回答已采纳

2回答

BSONObject到DataFrame的RDD

、、、

按照的描述，我正在从Mongo加载一个bson转储到Spark中。它是有效的，但我得到的是： org.apache.spark.rdd.RDD[(Object, org.bson.BSONObject)] 它基本上应该是包含所有String字段的JSON。我的其余代码需要一个DataFrame对象来操作数据。但是，当然，toDF在该RDD上失败了。如何将其转换为所有字段均为String的Spark DataFrame？如果能有类似于spark.read.json的东西就太好了。

浏览 1提问于2016-10-04得票数 1

1回答

将列表的RDD转换为Dataframe

、、、

我正在尝试在Spark中将列表的RDD转换为Dataframe。 RDD: ['ABC', 'AA', 'SSS', 'color-0-value', 'AAAAA_VVVV0-value_1', '1', 'WARNING', 'No test data for negative population! Re-using negative population for non-backtest.'] ['ABC', 'SS', &#

浏览 0提问于2016-05-21得票数 0

4回答

在Spark/Scala中将RDD转换为Dataframe

、、

RDD是以Array[Array[String]]格式创建的，具有以下值： val rdd : Array[Array[String]] = Array( Array("4580056797", "0", "2015-07-29 10:38:42", "0", "1", "1"), Array("4580056797", "0", "2015-07-29 10:38:43", "0", "1", "1"

浏览 8提问于2015-10-14得票数 6

回答已采纳

2回答

如何在Spark Streaming中将RDD转换为DataFrame

、、、

如何在Spark Streaming中将RDD转换为DataFrame，而不仅仅是在Spark中我看过这个例子，但它需要SparkContext。 val sqlContext = new SQLContext(sc) import sqlContext.implicits._ rdd.toDF() 在我的例子中，我使用StreamingContext。然后我应该在foreach中创建SparkContext吗？它看起来太疯狂了..。那么，如何处理这个问题呢？我的最终目标(如果它可能有用的话)是使用rdd.toDF.write.format("json").saveAsTe

浏览 0提问于2016-10-12得票数 6

回答已采纳

1回答

熊猫到RDD

、、、、

我可以将Pandas DataFrame转换为RDD吗？ if isinstance(data2, pd.DataFrame): print 'is Dataframe' else: print 'is NOT Dataframe' 是DataFrame 下面是尝试使用.rdd时的输出 dataRDD = data2.rdd print dataRDD AttributeError Traceback (most recent call last) <ipython-input-56-7

浏览 7提问于2015-08-19得票数 12

1回答

将HadoopRDD转换为DataFrame

、、、、

在EMR星火中，我有一个HadoopRDD org.apache.spark.rdd.RDD[(org.apache.hadoop.io.Text, org.apache.hadoop.dynamodb.DynamoDBItemWritable)] = HadoopRDD[0] at hadoopRDD 我想把这个转换成DataFrame org.apache.spark.sql.DataFrame。有人知道怎么做吗？

浏览 3提问于2016-05-07得票数 2

回答已采纳

1回答

使用spark将实体对象持久化到HDFS

、

我有一个person对象，如下所示： Person person = new Person(); person.setPersonId("10"); person.setAge(20); 我想使用Spark将其保存在HDFS中。可以通过spark中DataFrame类的保存方法来实现，如下所示： dataFrame.save("hdfs://localhost:9000/sample.json"); 但是我还没有找到任何将实体对象转换为RDD或DataFrame的方法有没有办法将实体对象转换成RDD或DataFrame？

浏览 1提问于2015-06-17得票数 3

1回答

何时在星火中使用RDD和DataFrame

、、

根据我所读到的，RDD不能像DataFrame那样利用Spark对结构化数据的优化优势，在处理非结构化数据源时我们应该使用RDD，同时处理数据库中的表时我们应该使用DataFrame吗？像json这样的半结构化数据怎么样？我们应该采用哪种抽象？RDD还是DataFrame？

浏览 1提问于2020-06-07得票数 1

回答已采纳

2回答

错误:重载方法值createDataFrame

我试着创建Apache Spark dataframe val valuesCol = Seq(("Male","2019-09-06"),("Female","2019-09-06"),("Male","2019-09-07")) valuesCol: Seq[(String, String)] = List((Male,2019-09-06), (Female,2019-09-06), (Male,2019-09-07)) 模式 val someSchema = List(StructField

浏览 8提问于2019-09-19得票数 0

回答已采纳

2回答

如何将带有SparseVector列的RDD转换为以列作为向量的DataFrame

、、、、

我有一个带有值元组(String，SparseVector)的RDD，我希望使用RDD创建一个DataFrame。要获得一个(标签:字符串，特性:向量) DataFrame，这是大多数ml算法库所需的模式。我知道这是可以做到的，因为 DataFrame在给定DataFrame的功能列时会输出一个向量。 temp_df = sqlContext.createDataFrame(temp_rdd, StructType([ StructField("label", DoubleType(), False), StructField("toke

浏览 4提问于2015-09-23得票数 13

回答已采纳

1回答

如何将DataFrame转换为PairRdd

、

我是个火花初学者。我有一个如下所示的DataFrame，我想转换成一对RDD(String，String)。感谢你的任何投入。 DataFrame: col1 col2 col3 1 2 3 4 5 6 Pair RDD: (col1, 1) (col2, 2) (col3, 3) (col1, 4) (col2, 5) (col3, 6)

浏览 4提问于2021-11-18得票数 0

2回答

如何在pyspark 1.6.1中将rdd转换为dataframe？

、

关于如何将rdd转换为dataframe并将dataframe转换回pyflem1.6.1？toDF()中的任何示例都不能在1.6.1中使用？例如，我有这样一个rdd： data = sc.parallelize([('a','b','c', 1,4), ('o','u','w', 9,3), ('s','q','a', 8,6), ('l','g','z', 8,3), \

浏览 6提问于2017-10-10得票数 1

回答已采纳

10回答

将Dataframe的列值提取为Apache Spark中的列表

、、

我希望将数据帧的字符串列转换为列表。我从Dataframe API中可以找到的是RDD，所以我尝试先将它转换回RDD，然后将toArray函数应用于RDD。在本例中，长度和SQL工作得很好。但是，我从RDD得到的结果在每个元素(比如这个[A00001] )周围都有方括号。我想知道是否有一种将列转换为列表的适当方法，还是删除方括号的方法。如有任何建议，将不胜感激。谢谢!

浏览 18提问于2015-08-14得票数 109

回答已采纳

3回答

Spark dataframe reducebykey like操作

、、、

我有一个包含以下数据的Spark数据帧(我使用spark-csv加载数据)： key,value 1,10 2,12 3,0 1,20 有没有类似于spark RDD reduceByKey的东西，它可以返回Spark DataFrame为：(基本上，对相同的键值进行求和) key,value 1,30 2,12 3,0 (我可以将数据转换为RDD并执行reduceByKey操作，但是有没有更好的Spark DataFrame API方法呢？)

浏览 1提问于2015-12-13得票数 11

回答已采纳

1回答

基于RDD2的RDD1过滤

、、

我有2个以下格式的RDDS RDD1 178,1 156,1 23,2 RDD2 34 178 156 现在我想根据rdd2中的值来过滤rdd1，也就是说，如果178出现在rdd1和rdd2中，那么它应该从rdd1中返回这些元组。我试过了 val out = reversedl1.filter({ case(x,y) => x.contains(lines)}) 其中lines是我的第二个rdd，reversedl1是第一个，但它不起作用我也试过了 val abce = r

浏览 0提问于2017-09-22得票数 0

1回答

PySpark为DecimalType列创建直方图数据

、、、

如何使用以下模式为单个列DataFrame创建均匀分布的回收箱计数： >>> df.schema StructType(List(StructField(a,DecimalType(38,0),true))) 将dataframe创建为MWE： from pyspark.sql import Row from pyspark.sql.types import StructType, StructField, DecimalType from decimal import Decimal schema = StructType([StructField('a'

浏览 4提问于2021-06-09得票数 1

回答已采纳