如何在Spark中使用Kryo序列化程序缓存DataFrame？

、、、、

如何打印当前使用的序列化程序的名称；我想知道spark.serializer是Java还是Kryo。我有下面的代码，它应该使用Kryo序列化；用于dataframe的内存大小变为21 same，这是在没有序列化的情况下缓存时的四分之一；但是当我删除Kryo配置时，大小保持相同的21 same。这是否意味着Kryo从一开始就没有被使用过？可能是因为

浏览 1提问于2017-12-26得票数 5

2回答

在火花中广播Joda DateTime时出错

、、

当使用Joda Time处理Spark时，下面的代码将导致java.lang.NullPointerException val todayBroadcast = sc.broadcast(new DateTime

浏览 0提问于2016-03-01得票数 3

回答已采纳

3回答

什么时候在Spark中使用Kryo序列化？

、、、

我已经在用conf.set("spark.rdd.compress","true")和persist(MEMORY_AND_DISK_SER)压缩RDDs了。使用Kryo序列化会使程序更有效率吗，还是在这种情况下没有用处？我知道Kryo是用于在节点之间以更有效的方式发送数据。但是，如果通信的数据已经被压缩，还需要它吗？

浏览 1提问于2016-10-26得票数 13

1回答

将Spark保存到Elasticsearch -无法处理类型异常

、、、

我设计了一个简单的工作，可以从MySQL读取数据，并将其保存在使用Spark的Elasticsearch中。LOGGER.info("Loading DataFrame");DataFrame df它将数据读入DataFrame中，选择一些列，然后执行count作为对Dataframe的基

浏览 0提问于2015-09-19得票数 7

回答已采纳

3回答

在Spark中需要kryo序列化(Scala)

、

我打开了kryo序列化，如下所示：我希望确保在节点之间混洗时使用我可以这样用kryo注册这个类：据我所知，这实际上并不能保证kyro序列化被使用；如果序列化<

浏览 0提问于2015-07-14得票数 34

回答已采纳

1回答

Spark - Kryo vs JavaSerialization同样的尺寸？

、

我正在对Spark使用缓存。现在，我使用了几个缓存，其中一些内存约为20 in。我先是尝试了cache()，然后又尝试了persist和MEMORY_SER，它的大小很大，所以我改成了java序列化，其中一些序列化达到了20 of左右。现在，我想使用Kryo，我已经注册了类，我没有得到任何错误，但它的大小与我在大多数缓存中使用Kryo执行它时相同。有没有办法知道它是否使用<

浏览 47提问于2018-08-10得票数 0

1回答

为什么需要编码器来创建spark中的数据集

、

而对于创建数据集，我们需要使用隐式编码器，否则，它就会产生编译时错误。我只在这方面有几个问题。以下是我的代码： val ds: Datasetds.write .parquet(configuration.outputPath)以下是我的问题：为什么在创建数据集时使用编码器很重要从

浏览 3提问于2018-12-27得票数 4

回答已采纳

2回答

Kryo在SparkSQL中有帮助吗？

、、

Kryo通过高效的序列化方法帮助提高Spark应用程序的性能。case c

浏览 1提问于2018-03-14得票数 6

回答已采纳

3回答

RDD的缓存什么时候过期？

、

我们在RDD上使用.cache()对数据集进行持久缓存，我关心的是缓存何时过期？dt.cache()

浏览 0提问于2016-05-10得票数 11

回答已采纳

3回答

在光束Spark* runner中注册用于Kryo序列化的自定义类*

、、

我已经看到光束火花跑步者使用BeamSparkRunnerRegistrator进行kryo注册。是否也有注册自定义用户类的方法？

浏览 16提问于2017-08-17得票数 1

1回答

如何在火花代码中设置Kryo的不可修改的集合序列化程序

、

我正在使用Java中的Kryo序列化(v1.6.1)，在序列化一个类时，它在其字段中有一个集合，它引发以下错误- at com.esotericsoftware.kryo.Kryo.readObject(Kryo.java:648)... 27 more 我发现这是因为<em

浏览 0提问于2017-10-18得票数 5

回答已采纳

1回答

使用hashmap引发序列化问题

、、、

我正在尝试序列化一个Java类，它的对象将在Java中收集。POJO包含一些数据结构，如HashMap和ArrayList。当我试图迭代驱动程序中的RDD对象并试图获取hashmap元素时，它会抛出一个Serialization exception。: java.lang.NullPointerException序列化跟踪：at com.esotericsoftware.kryo</e

浏览 0提问于2015-10-15得票数 0

回答已采纳

1回答

scala星星之火mllib fpgrowth每次返回不同的答案。

、、、

我使用的是星火1.5.0 (cdh5.5.2)。我在事务数据上运行FpGrowth算法，每次都得到不同的结果。我使用linux命令检查了事务数据，发现没有区别。Scala中的fpgrowth函数中是否有随机种子？为什么每次我会得到不同数量的频繁项集？有随意断的领带吗？另外，我使用一个非常低的支持值--当我增加支持时，这个问题就不存在了。我使用的支持是0.000459。当我把这个增加到0.005的时候，我不会得到这个错误。是否有任何最低限度的支持需要使用？谢谢你的帮助。

浏览 1提问于2016-02-29得票数 0

回答已采纳

1回答

、、、

我正在尝试使用Spark与Kryo序列化程序来存储一些数据，而内存成本更低。现在我遇到了一个麻烦，我不能用Kryo序列化程序在内存中保存一个DataFram e(类型为DatasetRow)。我认为我所需要做的就是添加org.apache.spark.sql.Row to classesToRegister，但是错误仍然出现： spark-shell --conf spark.kryo</e

浏览 3提问于2017-02-24得票数 0

2回答

Apache Spark: Kryo中的类注册顺序

、

根据Kryo文档，在Kryo中注册的类应该在序列化和反序列化期间分配相同的标识符据我所知，由spark内部注册的类和使用方法sparkConf.registerKryoClasses注册的类都会根据注册顺序自动分配标识符，因此此注册顺序中的任何更改都可能破坏反序列化的可能性。请帮助我理解这个问题是如何在Apache Spark

浏览 1提问于2015-09-30得票数 2

4回答

kryo.readObject引起NullPointerException与ArrayList

、

当我使用kryo取消对一个NullPointerException对象的序列化时，我会得到一个ArrayList。ArrayList.java:215) at com.esotericsoftware.kryo.serializers.CollectionSerializer.read(CollectionSerializer.java:96) at com.esotericsoftware.<e

浏览 2提问于2014-05-30得票数 11

回答已采纳

2回答

当您使用Pyspark时，您从Kryo序列化程序中受益吗？

、、

我读到Kryo序列化程序在Apache中使用时可以提供更快的序列化。但是，我正在通过Python使用Spark。我仍然从切换到Kryo序列化程序中得到显著的好处吗？

浏览 15提问于2016-03-29得票数 13

回答已采纳

1回答

了解星火的关闭及其序列化

、、、

它有一个字段，用于存储类不实现可序列化(NonSerializable)的对象。我已经将"spark.serializer“配置选项设置为使用Kryo。内部时，我发现它在我的RDD上使用了它的闭包序列化程序，这是序列化程序，而不是我所期望的Kryo序列化程序。我已经读到Kryo在序列化闭包方面有问题，Spark总是<e

浏览 1提问于2016-10-26得票数 18

1回答

Spark Serializer Kryo setRegistrationRequired(假)

、、

我在Scala/Spark程序中使用weka.mi.MISVM，需要序列化我的内核以便以后重用它们。为此，我使用Kryo如下所示：conf.registerKryoClassespatterns: RDD[(Multiset, MISVM)] = ...

浏览 0提问于2017-03-30得票数 0

1回答

星火系列化

、、、

org.apache.spark.scheduler.DAGScheduler$$anonfun$org$apache$spark$scheduler$DAGScheduler$$submitStage(我签入了标准库代码，字符串大小写不敏感的比较器被声明为可序列化，这样就有意义了)。为什么我不应该在这里使用羔羊？因为我只使用静态方法和类，所以我希望第二种和最后一种方法都能正常工作。我发现特别奇怪的是，我已经将我试图序列化的类注册到Kryo，而我没有注册的类可以与它们的

浏览 3提问于2015-05-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

星星之火: Dataframe序列化

在火花中广播Joda DateTime时出错

什么时候在Spark中使用Kryo序列化？

将Spark保存到Elasticsearch -无法处理类型异常

在Spark中需要kryo序列化(Scala)

Spark - Kryo vs JavaSerialization同样的尺寸？

为什么需要编码器来创建spark中的数据集

Kryo在SparkSQL中有帮助吗？

RDD的缓存什么时候过期？

在光束Spark* runner中注册用于Kryo序列化的自定义类*

如何在火花代码中设置Kryo的不可修改的集合序列化程序

使用hashmap引发序列化问题

scala星星之火mllib fpgrowth每次返回不同的答案。