在Spark Java API中从参数类型创建DataType

文章/答案/技术大牛

发布

1回答

、、、、

我正在使用Spark 2.3。我想从给定的类型参数创建一个DataType对象:例如，StringType，IntegerType...我试过这个：DataType dataType=DataType.fromJson(type_constructError(JsonParser.java</e

浏览 28提问于2019-11-27得票数 0

回答已采纳

1回答

将spark.sql查询转换为spark/scala查询

、、

我使用在scala中返回true/false的一些业务逻辑，在中添加了一列。实现是使用UDF完成的，UDF有10个以上的参数，因此在使用UDF之前我们需要先注册UDF。: org.apache.spark.sql.api.java.UDF10[_, _, _, _, _, _, _, _, _, _, _],returnType: org.apache.spark.sql.types.DataType<

浏览 0提问于2019-04-20得票数 0

1回答

John Snow Labs基于Apache Spark构建的NLP库支持Java吗

、、、

John Snow Labs的NLP库构建在Apache Spark和Spark ML库之上。它的所有示例都是用提供的。它支持java吗？如果是，我在哪里可以找到相关的指南？如果没有，有没有支持java的计划？

浏览 2提问于2018-03-23得票数 2

2回答

什么是非类型化Scala和类型化Scala？他们有什么不同？

、、

to true and use this API with caution; 在Spark3.0中，默认情况下不允许使用建议删除要自动切换到类型化Scala的返回类型参数，或者将spark.sql.legacy.allowUntypedScalaUDF设置为true以继续使用它。在SparkVersion2.4和更低版本中

浏览 9提问于2020-12-03得票数 6

回答已采纳

1回答

Scala火花UDF函数，它接受输入并将其放入数组中

、、、

我正在尝试为Spark创建一个Scala，它可以在Spark中使用。该函数的目标是接受任何列类型作为输入，并将其放入ArrayType中，除非输入已经是ArrayType。下面是我到目前为止掌握的代码：import|string 3|java<

浏览 8提问于2022-05-06得票数 0

1回答

Scala 2.11 & Spark* 2.0.0动态创建case类来编码数据集*

、

我正在尝试将我的应用程序从Spark 1.6.2更新到2.0.0，我的问题是从Dataframe (我读到的拼图)创建一个数据集。我知道我可以使用case类或元组来输入Dataframe，然后有一个Dataset，但在运行之前，我不知道哪些数据将加载用户，也不知道列的类型和数量。要加载数据，我使用SparkSession从parquet读取数据，简单如下：schemaOfData是

浏览 2提问于2016-10-05得票数 3

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

、、

参数：javaClassName - java类的全限定名 returnType -注册的Java函数的返回类型。该值可以是pyspark.sql.types.DataType对象，也可以是DDL格式的类型字符串。阅读上面我链接的文档，你会发现在一个类和Java函数(可以从PySpark中的Spark-调用)之间存在SQL一对一的映射。因此，如果我有10个Java

浏览 76提问于2018-08-11得票数 0

2回答

如何在Spark* UDF中设置decimal返回类型的精度和小数位数？*

我期望从UDF返回类型为decimal(16,4)，但它是decimal(38,18)。有没有更好的解决方案？我不期望得到“cast(价格表示为decimal(16,4))”的答案，因为除了强制转换之外，我的UDF中还有其他一些业务逻辑。提前谢谢。import scala.util.Tryimport org.apache.spark.sql.types.Decimalval spark = Spa

浏览 271提问于2020-04-08得票数 1

回答已采纳

1回答

在scala中的运行时从对象获取类

、、、

("Handled", BooleanType), ) val newArr = arr.map(ele => StructField(ele._1, ele._2)) } 在这种情况下，我无法从方法我得到的例外是type mismatch; found : Object required:

浏览 3提问于2016-10-30得票数 0

回答已采纳

1回答

火花DirectStream问题

、、、

我正在尝试从Kafka创建一个Stream，但是在创建directStream对象时，我得到的错误如下：import java.util.HashMap;import java.util.Set; import org.apache.commons.codec.Str

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

如何与CSV文件中的数据集一起使用决策树？

、、、、

我想像下面的代码一样使用Spark的org.apache.spark.mllib.tree.DecisionTree，但是编译失败。import org.apache.spark.ml.Pipelineval data = sqlContext.read.format("csv&quo

浏览 4提问于2017-05-22得票数 0

0回答

Spark Java API:如何将JavaRDD转换为RDD类型

、、、

问题是我将JavaRDD创建为：但是sqlContext类的createDataset方法需要RDD<T>类型，而不是JavaRDD<T>类型。Encoders.bean(Abc.class); Dataset<Abc> abcDataset= sqlc.createDataset(abcJavaRdd,

浏览 4提问于2018-07-14得票数 2

回答已采纳

3回答

通过类型的大小写匹配根据SparkSQL中的类型转换值

、

在Scala中可以匹配参数类型吗？假设我有一个函数，它接收两个参数：value和type。我想使用模式匹配来进行类型转换。=> return BigDecimal(value)，我得到：错误:模式类型与预期类型不兼容；找到: org.apache.spark.sql.types.DecimalType.type必需:org.apache.spark.sql.types.DataType注释:

浏览 1提问于2016-01-06得票数 9

回答已采纳

1回答

在Spark中使用循环引用处理模型？

、、、

昨天(实际上是完整的日志)，我试图找出一种优雅的方法，用Scala/SparkSQL2.2.1中的循环引用来表示模型casetrees = Seq(Tree(1, List(Branch(2, List.empty), Branch(3, List(Branch(4, List.empty)))))) ds.showjava.lang.Unsupporte

浏览 1提问于2018-09-22得票数 0

回答已采纳

2回答

Spark的Scala TimestampType -没有为org.apache.spark.sql.types.TimestampType找到编码器

、、、、

我在Databricks笔记本上使用Spark2.1和Scala2.11可以在SparkSQL的ScalaAPI中找到 .schema(jsonSchema)使用Dataset API

浏览 1提问于2017-06-01得票数 7

回答已采纳

1回答

星星之火: DF.as[Type]无法编译

、、、、

我正在尝试从星火书Spark: The Definitive Guide中运行一个例子ThisBuild / scalaVersion := "3.2.1" ("org.apache.spark" %% "spark-sql" % "3.2.0" % "provided").cross(CrossVersion.f

浏览 23提问于2022-10-30得票数 1

回答已采纳

2回答

如何从Spark* StreamingContext的DStream中获取文件名？*

、、、

注意: FileName (错误事件作为json文件)是系统的输入，因此在输出中保留该名称非常重要，以便在审计期间可以跟踪任何事件。每个文件只包含一行复杂的json字符串。使用流上下文，我能够创建一个RDDString，其中每个字符串都是来自单个文件的json字符串。对于将字符串与相应的文件名相关联，是否有人有任何解决方案/解决方案。

浏览 0提问于2015-11-22得票数 2

1回答

如何在spark-avro 2.4模式中设置logicalType？

、、、

我们从应用程序中的avro文件中读取时间戳信息。我正在测试从Spark 2.3.1升级到Spark 2.4的过程，其中包括新内置的spark-avro集成。我们目前通过在感兴趣的对象上进行反射来构建模式，如下所示： val searchSchema: StructType = ScalaReflection.schemaFor[searchEntry].dataType.asInstanceOf, nullable, metadata

浏览 36提问于2019-02-07得票数 2

回答已采纳

1回答

将日期时间保存到星火中的Parquet中

、、、

我想在编译时用未知格式的数据创建Parquet文件。稍后，我将模式作为文本，并且我知道有些列包含日期与时间。我想使用Spark和Java来完成这个任务。因此，我遵循并创建了具有适当类型的模式。我试着用Spark的DataType.TimestampType和DataType.DateType来表示日期，比如列。但两者都不起作用。当我试图用JavaSchemaRDD.saveAsParquetFile保存文件时，我得到的是错误Unsupported <e

浏览 3提问于2015-02-20得票数 4

回答已采纳

2回答

Spark Scala整数vs Option vs StructType整数

、

为什么这是我可以做的case类 fieldn: Option[Int] 或 fieldn: Option[Integer] 但是对于StructType，我必须使用吗？ StructField("fieldn", IntegerType, true),

浏览 30提问于2019-03-07得票数 0

回答已采纳

点击加载更多