Spark根据名称将值提取到多个列

Spark是一个分布式计算框架，用于处理大规模数据集的计算任务。它基于内存进行数据处理，可以加速数据分析和处理的速度。

根据名称将值提取到多个列是指在Spark中，可以通过对某一列的值进行处理，将其拆分成多个列。这样可以更好地利用数据并进行更灵活的分析和处理。

在Spark中，可以使用split函数来实现将值提取到多个列的操作。split函数可以按照指定的分隔符将字符串拆分成一个数组，然后可以将数组的元素赋给不同的列。

下面是一个示例代码，演示了如何使用split函数将字符串拆分成多个列：

from pyspark.sql.functions import split

# 创建一个DataFrame，包含一列名为value的字符串数据
data = [("Alice,25,Engineer"), ("Bob,30,Manager"), ("Cathy,35,Scientist")]
df = spark.createDataFrame(data, ["value"])

# 使用split函数将value列拆分成3个列，并命名为name、age和occupation
df = df.withColumn("name", split(df.value, ",")[0])
df = df.withColumn("age", split(df.value, ",")[1])
df = df.withColumn("occupation", split(df.value, ",")[2])

# 显示拆分后的DataFrame
df.show()

上述代码中，通过split函数将value列按照逗号分隔符拆分成一个数组，然后使用索引将数组的元素赋给不同的列。最终得到一个拆分后的DataFrame，包含name、age和occupation三列。

这种根据名称将值提取到多个列的操作在数据清洗、数据预处理、数据分析等场景中经常用到。通过将一个列的值拆分成多个列，可以更方便地进行数据处理和分析。

推荐的腾讯云相关产品：腾讯云分布式数据库TDSQL、腾讯云数据万象CI、腾讯云云原生容器服务TKE。

腾讯云分布式数据库TDSQL是一个高性能、高可靠、可扩展的分布式数据库服务，适用于大规模数据存储和计算场景。

腾讯云数据万象CI是一个数据处理和分析平台，提供了丰富的数据处理和分析工具，可帮助用户快速进行数据处理和分析。

腾讯云云原生容器服务TKE是一个基于Kubernetes的容器管理服务，可以帮助用户快速构建和管理容器化的应用程序。

更多关于腾讯云相关产品的信息，请参考腾讯云官方网站：https://cloud.tencent.com/product

数据过滤给NullPointerException

、、、、

在Spark1.6.0中，我有一个包含职务描述的列的数据框架，如： Description bartender bartender employee taxi-driver ... 我使用以下方法从该列检索唯一值列表： val jobs = people.select("Description").distinct().rdd.map(r => r(0).asInstanceOf[String]).repartition(4) 然后，对于每个职务描述，我尝试检索具有该职务的人员并做一些事情，但我得到了一个NullPointerException： jobs.foreach

浏览 2提问于2016-02-21得票数 5

回答已采纳

1回答

Spark :在spark API中有没有等同于Spark SQL的横向视图？

、、

标题说明了一切：在SPARK API中有没有等同于Spark SQL命令的东西，这样我就可以从包含多列数据结构的LATERAL VIEW中生成一列，然后将该结构中的列作为单独的列横向分布到父dataFrame中？等同于df.select(expr("LATERAL VIEW udf(col1,col2...coln)"))的东西

浏览 16提问于2021-02-25得票数 0

回答已采纳

1回答

为什么星火规划师更喜欢排序合并连接而不是杂乱散列连接？

、、

为什么Spark2.3中的星火规划师更喜欢一种类型的合并连接而不是混搭的散列连接？换句话说，为什么spark.sql.join.preferSortMergeJoin配置属性是？杂乱的散列连接有什么问题？这是特定于星火，它是以分布式的方式进行计算，还是其他一些在联接算法中固有的东西？您可以找到JoinSelection执行规划策略和中使用的属性，如下所示： case ... if !conf.preferSortMergeJoin && ... => Seq(joins.ShuffledHashJoinExec(...))

浏览 0提问于2018-04-25得票数 18

回答已采纳

1回答

Spark HiveContext: HDFS上包含多个文件的表

、、、

我有一个Hive表X，它在HDFS上有多个文件。表X在HDFS上的位置是/data/hive/X。文件： /data/hive/X/f1 /data/hive/X/f2 /data/hive/X/f3 ... 现在，我运行以下命令： df=hiveContext.sql("SELECT count(*) from X") df.show() 内部发生了什么？是否将每个文件视为单独的分区，并由单独的节点处理，然后对结果进行整理？如果是，有没有办法指示Spark将所有文件加载到一个分区中，然后处理数据？提前谢谢。

浏览 8提问于2016-09-14得票数 0

回答已采纳

2回答

向HDFS写入数据时发生NumberFormatException错误

、、、、

我正在编写dataframe到HDFS，其中包含以下代码 final_df.write.format("com.databricks.spark.csv").option("header", "true").save("path_to_hdfs") 它给了我以下错误： Caused by: java.lang.NumberFormatException: For input string: "124085346080" 以下是完整的堆栈： at org.apache.spark.sql.execution.data

浏览 1提问于2017-05-30得票数 0

回答已采纳

1回答

当从hdfs读取时，如何跳过拼花列？

、、

我们都知道拼花是面向列的，所以我们只能得到我们想要的列，减少IO。但是，如果拼花文件存储在HDFS中，应该先下载整个文件，然后在本地应用列筛选器吗？例如，如果我们使用spark从HDFS/Hive读取一个拼花列： spark.sql("select name from wide_table") 不过，我们必须下载整个拼花文件，对吗？或者我们可以在网络传输之前对列进行过滤？

浏览 6提问于2022-04-19得票数 0

1回答

Spark JDBC中的编码选项

、、、、

我想使用Spark JDBC以特定的字符集编码(如us-ascii )从Oracle DB读取数据，但我无法这样做。我根据此尝试的代码 val res=spark.read.format("jdbc") .option("url", url) .option("user", "userid") .option("password", "pwd") .option("driver","oracle.jdbc.OracleDriver") .opti

浏览 1提问于2021-03-28得票数 3

1回答

使用UDF从Apache中的其他列创建新列

、、、

我正在尝试从Apache中的另一列中创建一个新列。这些数据(大量缩写)看上去像 Date Day_of_Week 2018-05-26T00:00:00.000+0000 5 2018-05-05T00:00:00.000+0000 6 而且应该看起来像 Date Day_of_Week Weekday 2018-05-26T00:00:00.000+0000 5 Thursday 2018-05-05T00:00:00.000+0000 6 Friday 我尝试过 & & 手册中的建议其结果是： def int2da

浏览 0提问于2018-10-26得票数 0

回答已采纳

1回答

包含ID列的训练模型

、、、

我正在使用scikit-learn训练一个模型，其中我的数据集中有一个ID列。当我使用测试数据集训练model.But时，我删除了ID列，在进行预测后，我需要将其映射回ID列。做这件事最好的方法是什么？在scikit-learn中构建模型时，我们可以设置一个非预测器列。另外，像TensorFlow，Spark ML这样的其他ML工具又如何呢？它们是否支持此功能？我在stackoverflow上找到了这个，但正在寻找其他选择。

浏览 1提问于2018-04-18得票数 2

1回答

误差计算火花DataFrame计算标准差

、、、

我有以下简单的函数，在这里，我用0填充所有缺少值的列，然后计算标准偏差。我知道我可以使用描述功能，但我想用这个作为我的目的。 def stdDevAllColumns(df: DataFrame): DataFrame = { df.select(df.columns.map(c => df.select(c).na.fill(0).agg(stddev(c))): _*) } 这会编译，但在运行时会导致失败： <console>:143: error: overloaded method value select with alternatives: [U1](c1

浏览 0提问于2021-11-16得票数 0

回答已采纳

1回答

如何从JSON模式中提取所有字段？

、、、、

我有一个数据框架，但我的所有列都“在”一个列中，如何从该列中提取其他列呢？Spark.parallelize(table)是返回的： “Typeerror:不能选择‘_thread.Rlock’对象下面是模式： root |-- table: struct (nullable = true) | |-- name: string (nullable = true) | |-- school: date (nullable = true) | |-- studentid: string (nullable = true) | |-- class: integer (n

浏览 0提问于2022-06-08得票数 0

1回答

按-SQL ORACLE分组

、

我的列包含这些值。 ABCD INC. ABCD INC REGISTERED ABCD ORD SHS ABCD ORD REGISTERED 如何通过使用substring函数来使用正确的group，使我的不同值如下所示？ ABCD

浏览 11提问于2019-04-24得票数 1

回答已采纳

3回答

如何用新列覆盖Spark dataframe中的整个现有列？

、、、、

我想用一个新的列覆盖一个spark列，它是一个二进制标志。我尝试直接覆盖列id2，但为什么它不能像Pandas中的原地操作那样工作？如何在不使用without column ()创建新列和使用drop()删除旧列的情况下做到这一点？我知道spark dataframe是不可变的，是因为这个原因，还是有一种不同的方法可以在不使用withcolumn() & drop()的情况下进行覆盖？ df2 = spark.createDataFrame( [(1, 1, float('nan')), (1, 2, float(5)), (1, 3, f

浏览 0提问于2017-06-19得票数 15

1回答

如何从木星的前缘打印？

、、

正在运行 val animals = sc.parallelize(List("cat", "dog", "tiger", "lion", "gnu", "crocodile", "ant", "whale", "dolphin", "spider"), 3) animals.foreachPartition(x => println(x.mkString(", ") + " are animals"

浏览 2提问于2016-05-17得票数 1

回答已采纳

1回答

火花过滤器未按预期工作..“‘Column”对象不可调用

、、、、

当在Spark Dataframe上的过滤器中使用"and“子句时，它返回Spark.SQL.Column而不是Spark Dataframe。但在一个条件下，它工作得很好。如何show()或迭代通过Spark Sql列对象？尝试show()函数时抛出错误- 'Column' object not callable. 或者如何将Spark.SQL.Column转换为Spark Dataframe？或者如何在filter子句中传递多个条件？ df2 = df.filter((df.dropoff_longitude >= -65.09)&(df.dropo

浏览 1提问于2019-04-23得票数 0

1回答

从KuduRDD中过滤发生在Spark应用程序本地还是在Kudu服务器中？

、

如果我在KuduRDD上执行过滤器，那么首先Spark作业从Kudu表中读取所有数据并在Spark应用程序中执行过滤器作业，或者过滤发生在Kudu服务器上，而Spark应用程序只接收过滤后的数据？

浏览 2提问于2018-01-21得票数 0

1回答

使用Pyspark从REST API获取数据到Spark Dataframe

、

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。Spark版本: 2.4.4 但是得到的错误是 df = SQLContext.jsonRDD(rdd) AttributeError: type object 'SQLContext' has no attribute 'jsonRDD' 代码： from pyspark import SparkConf,SparkContext from pyspark.sql import SparkSession from urllib import urlopen

浏览 27提问于2020-06-24得票数 2

回答已采纳

1回答

用于大型csv文件的sparklyr

、、

我正在尝试使用sparklyr加载一个包含一百万行和1000列的数据集。我在工作中的一个非常大的集群上运行Spark。尽管如此，数据的规模似乎太大了。我尝试了两种不同的方法：这是数据集：(train_numeric.csv) 1) -将路径放入hdfs - spark_read_csv(spark_context，.csv ) 2) -将csv文件作为常规R dataframe读取- spark_frame<-copy_to(sc，R-dataframe) 这两种方法在数据集的子集上都工作得很好，但当我尝试读取整个数据集时，这两种方法都会失败。有没有人知道适用于大型数据集的方法？

浏览 2提问于2017-05-30得票数 0

3回答

如何在Spark DataFrame中按特定列对结构类型的数组进行排序？

、、

给定以下代码： import java.sql.Date import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object SortQuestion extends App{ val spark = SparkSession.builder().appName("local").master("local[*]").getOrCreate() import spark.implicits._ case class ABC(a: Int,

浏览 3提问于2018-04-05得票数 6

回答已采纳

2回答

Apache是如何在内存中工作的？

、

在where子句中使用非索引列查询Cassandra时，的说，若要筛选行，可以使用Spark提供的筛选器转换。但是，这种方法导致从Cassandra获取所有行，然后由Spark过滤。我对此有点困惑。例如，如果我有10亿行这个db结构: ID、City、State和Country，其中只有ID是索引的。如果我在where子句中使用City = 'Chicago‘，那么Spark会首先下载所有的10亿行，然后过滤出City = 'Chicago’所在的行吗？或者它是从Cassandra读取一些数据块，运行过滤器，存储符合条件的行，然后获取更多的数据块，获取符合条件的行，

浏览 1提问于2018-04-01得票数 3

回答已采纳

1回答

当我尝试动态转换列并分配排序顺序时，Scala +Spark+Dataframe异常

、、、、

我希望使用选定的列对数据进行排序，方法是将它们从giving类型转换为prederred类型和prederred order。，但是即使是简单的列转换也不起作用，从而导致了这种异常。我在这里提供了示例代码。 val conf = new SparkConf().setAppName("Sparkify").setMaster("local[*]") val sparkContext =new SparkContext(conf) val sqlContext = new SQLContext(sparkContext) var d

浏览 1提问于2016-04-14得票数 1

回答已采纳

1回答

在星火数据中遍历列并计算最小最大值。

、、、、

我想在我的星火程序中遍历dataframe列，并计算min和max值。我对Spark和scala很陌生，一旦我在dataframe中获取它，我就无法遍历这些列。我尝试过运行以下代码，但它需要将列号传递给它，问题是如何从dataframe中获取它并动态传递它，并将结果存储在一个集合中。 val parquetRDD = spark.read.parquet("filename.parquet") parquetRDD.collect.foreach ({ i => parquetRDD_subset.agg(max(parquetRDD(parquetRDD.colum

浏览 3提问于2017-07-18得票数 0

回答已采纳

1回答

导出-文本文件- SQL数据库

、

SQL 2008 :使用SQL SSIS包，我正在将Excel工作表导出到文本文件，然后导出到SQL数据库。由于SQL数据库和一些Excel列之间的数据类型不匹配，我决定遵循导出过程的两个步骤。当Datatype中存在不匹配时，SSIS包将停止导出过程，但会导致SSIS包成功运行。为了避免部分导入Excel工作表，我决定遵循两个导出步骤。不同数据类型的Excel工作表转到文本文件时，都会以字符串的形式反映出来。当我从文本文件导出回SQL数据库时，它显示为字符串，并且由于数据类型不匹配而再次导出失败。主要问题:如果Excel工作表中的第n行存在不匹配，则导出将在第n行停止。尽管如此，我们还是

浏览 1提问于2011-07-15得票数 0

回答已采纳

1回答

中的预分区数据，这样每个分区在我们要进行分区的列中都有不重叠的值。

、

在对数据的某一列执行聚合操作之前，我正在尝试对数据进行预分区。我有3个工作节点，我希望每个分区在我要分区的列中有不重叠的值。我不希望出现两个分区在列中可能具有相同值的情况。如果我有以下数据 ss_item_sk | ss_quantity 1 | 10.0 1 | 4.0 2 | 3.0 3 | 5.0 4 | 8.0 5 | 13.0 5 | 10.0 然后，以下分区是令人满意的：分区1 ss_item_sk | ss_quantity 1

浏览 1提问于2019-01-06得票数 0

回答已采纳

2回答

如何使用scala使用spark streaming从HBASE表中获取数据

、、、

我正在尝试确定一种解决方案，使用火花流从HBASE表中读取数据，并将数据写入另一个HBASE表。我在互联网上找到了许多示例，它们要求创建一个DSTREAM来从HDFS文件和all.But中获取数据。我找不到任何示例来从HBASE表中获取数据。例如，如果我有一个HBASE表'SAMPLE‘，它的列是'name’和'activeStatus‘。如何使用spark streaming从基于activeStatus列的表SAMPLE中检索数据(新数据？欢迎使用spark streaming从HBASE表检索数据的任何示例。致敬，Adarsh K S

浏览 0提问于2018-12-11得票数 0

1回答

如何在matplotlib中使用列中的重复值进行绘图

、、

我有一个包含8列的csv文件。我想用matplotlib在两列之间绘制一张图。其中一列具有重复值。我想取第一列中具有相同相应值的另一列的值的平均值。我该怎么做呢？

浏览 1提问于2014-03-12得票数 1

1回答

为什么在重新分区一个Spark时，我会得到这么多空分区？

、、、

我想在3列上划分一个数据格式"df1“。对于这3列，这个dataframe正好有990个唯一的组合： In [17]: df1.createOrReplaceTempView("df1_view") In [18]: spark.sql("select count(*) from (select distinct(col1,col2,col3) from df1_view) as t").show() +--------+

浏览 1提问于2018-06-05得票数 6

回答已采纳

1回答

in子句中的Spark sql限制

、、、、

我在spark-sql中有一个查询，在in子句中有很多值： select * from table where x in (<long list of values>) 当我运行这个查询时，我从spark中的MetastoreClient得到一个TransportException。列x是表的分区列。母舰转移在甲骨文上。 in子句中可以包含的值的数量是否有硬性限制？或者，我可以将超时值设置得更高，以便让元存储有更多时间进行响应。

浏览 56提问于2019-07-12得票数 0

1回答

如何训练每个列值的单独模型？

、、

如何基于窗口显示Spark数据框中的某一列来运行不同的回归模型？假设我在一个Spark DF中有2个产品，其功能和标签与这些产品相关联。产品的ids显示在一个单独的列中。我想对每个产品进行回归分析。到目前为止，对于相对简单的分析，我一直使用 w = Window().partitionBy("id") F.sum(column).over(w) 例如，数据 sdf = spark.createDataFrame( [("a", 1.0, 2.0, 3.0), ("a", 4.0, 1.0, 5.0), ("b"

浏览 0提问于2017-12-22得票数 0

1回答

在Pyspark/Hive中处理更改的数据类型

、、、

在解析pyspark中不一致的数据类型时，我遇到了一个问题。如下面的示例文件所示，SA键总是包含一个字典，但有时它可以显示为string值。当我尝试获取列SA.SM.Name时，会得到如下所示的异常。对于SA.SM.Name列，如何将null设置为除了JSONs之外的值的pyspark/hive。有人能帮帮我吗？我试图转换成不同的数据类型，但是没有工作，或者我可能做错了什么。输入文件内容: mypath {"id":1，"SA":{"SM"：{"Name"："John"，"Email"：“Jo

浏览 6提问于2020-10-10得票数 0

1回答

Bluemix : Apache Spark :为spark-submit配置驱动程序内存

、

我使用spark-submit脚本将我的python脚本上传到Spark集群，但收到以下错误： Traceback (most recent call last): File "/gpfs/fs01/user/sf6d-7c3a9c08343577-05540e1c503a/data/workdir/spark-driver-cc30d6d8-1518-45b1-a4a7-8421deaa3482/2_do_extract.py", line 139, in do_extraction r = resRDD.collect() File "/usr/lo

浏览 1提问于2016-04-14得票数 0

2回答

为什么kafka在从通道读取时收到-1，当spark流到安全的kafka时，套接字可能已经关闭？

、、、

当我试图从spark (使用Java)流到secured (使用SASL明文机制)时，我得到了这个错误。更详细的错误消息： 17/07/07 14:38:43 INFO SimpleConsumer: Reconnect due to socket error: java.io.EOFException: Received -1 when reading from a channel, the socket has likely been closed. Exception in thread "main" org.apache.spark.SparkException: j

浏览 55提问于2017-07-07得票数 2

回答已采纳

1回答

Apache Spark JDBCRDD使用HDFS？

、、、、

Apache Spark JDBCRDD是否使用HDFS来存储数据库记录并将其分发到工作节点？我们正在使用JdbcRDD与apache spark上的一个数据库进行交互。我们想知道Apache Spark是使用HDFS来分发和存储数据库表记录，还是工作节点直接与数据库交互。

浏览 1提问于2015-08-05得票数 3

1回答

我无法在星火应用程序中添加持久卷声明

、

我尝试了下面的方法 spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.claimName=OnDemand spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.storageClass=gp2 spark.kubernetes.executor.volumes.persistentVolumeClaim.spark-local-dir-1.options.sizeLimi

浏览 3提问于2022-01-27得票数 0

2回答

当列计数不为0时，“拼图记录格式不正确”

、、、

在AWS EMR集群上，我尝试使用Pyspark将查询结果写入到parquet，但遇到以下错误： Caused by: java.lang.RuntimeException: Parquet record is malformed: empty fields are illegal, the field should be ommited completely instead at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:64) at

浏览 93提问于2020-01-10得票数 5

2回答

星火结构流从kafka以分布式方式保存Cassandra中的数据

、、、、

我试图创建一个结构化的流从卡夫卡到火花，这是一个json字符串。现在希望将json解析成特定的列，然后以最佳速度将数据保存到cassandra表中。使用Spark2.4和Cassandra2.11 (Apache)而不是DSE。我尝试过创建一个DStream，它给出了case类的DStream，这是我使用foreachRDD在DStream上保存到Cassandra中的，但是每隔6-7天就会挂起。因此，试图流直接提供数据，并可以保存到卡桑德拉。 val conf = new SparkConf() .setMaster("local[3]")

浏览 0提问于2019-02-04得票数 0

1回答

用Pyspark内核读取Jupyter notebook中的Spark Avro文件

、、

我想在Jupyter笔记本上读一个Spark Avro文件。我已经把spark -avro建好了。当我转到我的目录并执行以下操作时 pyspark --packages org.apache.avro:avro-mapred:1.7.7,com.databricks:spark-avro_2.10:2.0.1 它能够在浏览器中打开jupyter笔记本，然后我可以运行以下命令，它可以正确读取。 sdf_entities = sqlContext.read.format("com.databricks.spark.avro").load("learning_entity

浏览 10提问于2017-02-07得票数 1

回答已采纳

2回答

如何通过索引从spark dataframe中删除列，其中列名可以重复？

、、

我有一个spark数据帧，只想删除最后一列。我试过了 df.drop(df.columns.last)` 但是得到了错误AttributeError: 'list' object has no attribute 'last'。我也试过了： df = df.drop(df.columns[-1]) 但这会删除与last同名的所有列。使用Spark 2.4

浏览 0提问于2020-01-24得票数 0

1回答

PySpark如何将CSV读入数据帧，并对其进行操作

、、、、

我对pyspark非常陌生，正在尝试使用它来处理一个保存为csv文件的大型数据集。我想将CSV文件读入spark dataframe，删除一些列，然后添加新列。我该怎么做呢？我在将这些数据放入数据帧时遇到了问题。这是我目前所学内容的精简版本： def make_dataframe(data_portion, schema, sql): fields = data_portion.split(",") return sql.createDateFrame([(fields[0], fields[1])], schema=schema) if __name__

浏览 2提问于2016-10-30得票数 7

回答已采纳

1回答

使用C#在现有XML中添加元素

我试图使用XDocument将元素添加到现有的XML文档中。我得到一个空引用异常，因为它找不到我想要追加的元素。以下是代码： XDocument doc = XDocument.Load(@"C:\Documents\Test.xml"); XElement root = new XElement("SystemMonitor"); doc.Element("DewesoftSetup").Add(root); doc.Save(@"C:\Documents\Test.xml");

浏览 0提问于2020-09-01得票数 0

回答已采纳

1回答

使用numpy数组输入从python方法创建PySpark UDF，以计算和返回单个浮点值

、、、、

作为输入，我有一个包含int值的csv文件。 spark_df = spark.read.option("header", "false").csv("../int_values.csv") df = spark_df.selectExpr("_c0 as something") _df = df.withColumn("values", df.something.cast(FloatType())).select("values") 我还设计了一些用于numpy数组输入的python函数，这些

浏览 4提问于2021-02-08得票数 2

回答已采纳

2回答

在基于文件名的转换后，使用spark覆盖相同的分区文件

、、、、

嗨，我在一个S3桶MyBucket/object/file 1.csv，文件2.csv，文件3.csv中有文件，我已经将这些数据加载到单个数据中，并且需要基于columns.Then进行一些转换--我想要写入以转换列值--现在我想将文件重写回相同的file1.csv、file2.csv、file3.csv。当我给出覆盖命令时，它会在同一个文件夹中创建另一个文件并加载值。如何使用python编写函数或代码，以及spark或scala

浏览 6提问于2022-06-29得票数 0

1回答

如何将Avro中的字节列(逻辑类型为十进制)转换为十进制？

、、、、

在我的avro模式中，我的十进制列"TOT_AMT“定义为类型”字节“，逻辑类型为”十进制“。在使用databricks -avro在spark中创建数据框架之后，当我尝试使用sum函数对TOT_AMT列进行求和时，它抛出“函数和需要数值类型而不是Binarytype”错误。列的定义如下所示， name="TOT_AMT"，"type":"null"，{“type”：“字节”，“逻辑类型”：“十进制”，“精度”：20，“缩放”：10} 我正在创建数据收集和总结， val df=sqlContext.read.format("c

浏览 2提问于2017-03-06得票数 1

1回答

Spark -在尝试运行应用程序时，必须在您的配置中设置主URL

、

我知道这个问题有一个duplicate，但我的用例有点具体。我想在电子病历(通过Spark提交)上运行我的Spark作业(编译为.jar)，并给出如下两个选项： spark-submit --master yarn --deploy-mode cluster <rest of command> 为了实现这一点，我编写了如下代码： val sc = new SparkContext(new SparkConf()) val spark = SparkSession.builder.config(sc.getConf).getOrCreate() 但是，这会在构建jar期间给出错误：

浏览 19提问于2021-04-12得票数 1

1回答

如何从hdfs读取二进制文件？

、、

我现在正在使用spark为shapefile编写一个解析器。我首先使用NewAPIHadoopFile从原始.shp文件中逐个提取二进制记录。问题是，当程序从本地磁盘获取文件时，它可以正常工作。但是当从hdfs读取文件时，我从DataInputStream获得的字节流不再与原始文件集成。例外情况如下。 java.lang.NegativeArraySizeException at ShapeFileParse.ShapeParseUtil.parseRecordPrimitiveContent(ShapeParseUtil.java:53) at spatial.ShapeFi

浏览 3提问于2017-05-26得票数 0

2回答

错误:找不到py4j，您的SPARK_HOME可能无法正确配置

、、、

在木星笔记本里，我无法跑到进口以下。 findspark.init('home/ubuntu/spark-3.0.0-bin-hadoop3.2') 获取以下错误： --------------------------------------------------------------------------- ~/.local/lib/python3.6/site-packages/findspark.py in init(spark_home, python_path, edit_rc, edit_profile) 144 except Inde

浏览 7提问于2020-08-25得票数 10

1回答

你能在pyspark中有一列数据帧吗？

、、、

我对pyspark/bigdata有点陌生，所以这可能不是一个好主意，但我有大约一百万个单独的CSV文件，每个文件都与一些元数据相关联。我想要一个pyspark dataframe所有元数据字段的列，但也有一个列，其条目是(整个) CSV文件与每组元数据相关联。我现在不在工作，但我几乎记得确切的代码。我试过一个玩具的例子，比如 outer_pandas_df = pd.DataFrame.from_dict({"A":[1,2,3],"B":[4,5,6]}) ## A B ## 0 1 4 ## 1 2 5 ## 2 3 6 如果你这样

浏览 2提问于2016-11-17得票数 0

2回答

星火-csv数据源:推断数据类型

、

我正在尝试使用Spark包()将csv文件读入Spark DataFrames。一切都正常，但所有列都假定为StringType。如Spark ()所示，对于内置源(如JSON )，可以自动推断具有数据类型的模式。 CSV文件中的列类型可以自动推断吗？

浏览 3提问于2015-04-19得票数 5

回答已采纳

1回答

火花蒙戈连接器，MongoShardedPartitioner不工作

、、、、

为了测试目的，我配置了一个4节点集群，每个集群都有一个Spark和一个MongoDB Shard。详情如下：四台Debian 9服务器(命名为visa0、visa1、visa2、visa3) 星星之火(v2.4.0)集群在4个节点上(visa1: master，visa0 0.3:从节点) MongoDB (v3.2.11)分簇Con4节点(配置服务器副本设置在visa1 1.3上，mongos在visa1上，shard服务器:visa1 0..3) 我使用安装了“火花外壳-软件包org.mongodb.spark:mongo-spark-connector_2.11:2.4

浏览 7提问于2019-01-07得票数 2

2回答

Google数据融合-从REST端点源构建管道

、、、

尝试构建从第三方REST端点数据源读取的管道。我正在使用在集线器中找到的HTTP (Version1.2.0)插件。响应请求URL为：https://api.example.io/v2/somedata?return_count=false 一份响应体样本： { "paging": { "token": "12456789", "next": "https://api.example.io/v2/somedata?return_count=false&__paging_token=12345

浏览 4提问于2020-01-31得票数 5