如何在Scala中将Spark DataFrames逐个添加到Seq()中

我使用以下命令创建了一个空的Seq() scala> var x = Seq[DataFrame]()<con

浏览 57提问于2019-07-02得票数 0

回答已采纳

1回答

如何修正“错误:遇到无法恢复的周期解析导入”？

、、

SOApp.scala:7: error: encountered unrecoverable cycle resolving import.import spark.implicits._object SOApp extends App with Logging { import spark.implicits._ import org.apache.<e

浏览 4提问于2020-04-04得票数 3

回答已采纳

1回答

如何将seq扁平化为字符串并在Scala中构建它？

如何在Scala中将Seq (如("a", "b", "c") )扁平化为"a,b,c"？以及如何从逗号分隔的String中构建一个？谢谢。

浏览 1提问于2013-08-02得票数 3

回答已采纳

4回答

如何读取Spark中的嵌套集合

、、、、

我有一张镶木镶木桌上有一根柱子在Spark文档中找不到任何与此相关的引用。提前感谢您提供的任何信息！ ps。我觉得在谈判桌上提供一些统计数据可能会有所帮助。主表中的列数约为600。行数~200m。嵌套集合中的“列”数~10。嵌套集合中的平均

浏览 191提问于2015-05-03得票数 19

回答已采纳

2回答

如何将基于TypeSafe激活器的应用程序部署到Apache集群？

、、

在Scala应用程序中使用Play Framework与TypeSafe激活器一起使用它的最佳方法。顺便说一下，这个应用程序是用Scala编写的。更新：[info] Resolving org.fusesource.jansi#jansi;1

浏览 0提问于2015-03-17得票数 1

回答已采纳

1回答

java，如何在spark 1.4.1中调用UDF

、、、

在spark 1.4.1中，callUdf方法的参数是没有任何方法可以直接作用于列，如1.5.1中的方法那么如何在1.4.1中调用UDF呢？或如何将列类型更改为 scala.collection.Seq<Column>

浏览 1提问于2016-11-28得票数 0

回答已采纳

1回答

Spark Structured streaming UI的自定义选项卡

、、

我已经为Spark Structured streaming创建了一个Custom Streaming选项卡。我刚刚附加了Spark UI中的流式选项卡，但我无法附加在流式选项卡中的页面。通过SQL listener和StreamingQueryListener，我可以获得信息并想要添加到流标签中。我得到的第二个问题是如何在Java中改变scala.xml.Node类。我的意思是，java中有没有类可以用来代替Node类，或者如<em

浏览 10提问于2018-08-24得票数 2

1回答

如何使用Spark比较两个表的列？

、、、

我试图通过读取DataFrames来比较两个表()。对于那些使用主键连接的表中的每个公共列，假设order_id与其他列，如order_date、order_name、order_event。我正在使用的Scala代码for (i <- commonColumnsList){}

浏览 0提问于2019-10-31得票数 0

1回答

将附加参数添加到Spark用户定义函数的列

、、

有没有一种方法可以将参数添加到spark UDF的列中。我知道你可以在Scala中使用currying，但它并不像我喜欢的那样工作。让我们以此函数为例： for (w <- words) if (word.contains(w)) return true} 单词string是我想要从列中获取的参数。如何在UDF调用<

浏览 0提问于2018-11-05得票数 0

2回答

java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguration

、、、、

我想使用scala示例创建我的第一个scala程序，该示例在Sparkd 1.4.1中提供。目标是连接到HBase并完成一些基本工作，例如计数行或扫描行。然而，当我试图执行程序时，我得到了一个错误。/build.sbt

浏览 3提问于2015-08-18得票数 2

3回答

如何在apache spark中执行词干分析？

、、、

我正在做一个简单的项目，在apache spark中使用K-Means聚类，我做了一些预处理步骤，如标记化，停止单词删除，和hashingTF。这些是由spark own Tokenization()、StopWordRemover()和HasingTF()执行的。但我想在应用k均值聚类之前执行词干分析。我尝试过openNLP中的一些NLP库。但我不知道如何在spark DataFrame中实现它。有人能教我怎么做吗？

浏览 2提问于2017-05-08得票数 1

2回答

实现一个java UDF，并从pyspark调用它。

、、、、

我的第一次尝试是实现java对象，然后将它封装在python中，并将其转换为UDF。由于序列化错误而失败。_gateway.jvm.com.test1.test2.TestClass1(7) 1559 /usr/local/sp

浏览 2提问于2016-03-23得票数 11

回答已采纳

3回答

与Hbase集成的Spark* Structured Streaming*

、、、、

我已经浏览了spark结构的流文档，但在Hbase上找不到任何接收器。下面是我用来从Kafka读取数据的代码。val records = spark.readStream.format("kafka").option("subscribe", "kaapociot").option("kafka.bootstrap.servers", "XX.XX.XX.XX:6667").option("startingOffsets", "e

浏览 0提问于2017-11-07得票数 5

4回答

如何在Spark中压缩两个(或更多) DataFrame

、、、

就像abc | 123b就像1 我想压缩a和b (甚至更多) DataFrames

浏览 13提问于2015-10-01得票数 14

3回答

我可以在星火中并行写多个DataFrames吗？

、、、、

另外，当我检查星火用户界面中的活动执行器的数量时，我看到只有一个执行器正在被使用。是否可以在星火中并行地编写DataFrames？如果是的话，我这样做好吗？

浏览 12提问于2022-08-18得票数 2

2回答

如何在Spark* DataFrame中添加常量列？*

、、、、

我想在DataFrame中添加一个具有任意值的列(即每一行都相同)。messages.datetime/(1000*60*5)).alias("dt"))) AttributeError: 'int' object has no attribute

浏览 3提问于2015-09-26得票数 175

回答已采纳

1回答

不能在齐柏林飞艇中使用JohnSnowLabs预训练模型

、、

如前所述，我已经将com.johnsnowlabs.nlp:spark-nlp_2.11:1.7.3添加到齐柏林依赖项部分，如下所示：但是，当我尝试运行以下简单代码时， at org.apache.spark.rdd.HadoopRDD$$anon$1.<init>(HadoopRDD.scala:

浏览 1提问于2018-11-22得票数 1

5回答

saveAsTable和insertInto在不同的SaveMode(s)中有什么不同？

我试图以DataFrame模式(对于我的应用程序来说是必需的)将Hive表(在S3上)写入一个Overwrite表，并且需要在DataFrameWriter的两种方法(Spark / Scala)之间做出决定从我在中可以看到的情况来看，df.write.saveAsTable在以下方面与df.write.insertInto不同： saveAsTable使用基于列名的解析，而insertInto使用基于位置的分辨率但是，这些方法中的每一种是否都有自己的一些注意事项，比如saveAsTable (因为它包含了更

浏览 25提问于2017-12-16得票数 35

回答已采纳

2回答

将配置单元Sql转换为Spark* Sql*

、、、

我想把我的Hive Sql转换成Spark Sql来测试查询的性能。这是我的Hive Sql。谁能建议我如何将Hive Sql转换为Spark Sql。

浏览 0提问于2016-10-09得票数 1

1回答

从配置单元表将ArrayBuffer转换为HashSet中的DataFrame到RDD时出现GenericRowWithSchema异常

、、、、

RDD的表单中现在，使用spark-shell (我在spark-submit中遇到了同样的问题)，我用这些值做了一个测试RDD scala> val tempRDD = sc.parallelize(Seq(((1,"abcdef"),((2,"ghijkl"), ArrayBuff

浏览 1提问于2015-09-23得票数 5

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何修正“错误:遇到无法恢复的周期解析导入”？

如何将seq扁平化为字符串并在Scala中构建它？

如何读取Spark中的嵌套集合

如何将基于TypeSafe激活器的应用程序部署到Apache集群？

java，如何在spark 1.4.1中调用UDF

Spark Structured streaming UI的自定义选项卡

如何使用Spark比较两个表的列？

将附加参数添加到Spark用户定义函数的列

java.lang.ClassNotFoundException: org.apache.hadoop.hbase.HBaseConfiguration

如何在apache spark中执行词干分析？

实现一个java UDF，并从pyspark调用它。

与Hbase集成的Spark* Structured Streaming*

如何在Spark中压缩两个(或更多) DataFrame

我可以在星火中并行写多个DataFrames吗？

如何在Spark* DataFrame中添加常量列？*

不能在齐柏林飞艇中使用JohnSnowLabs预训练模型

saveAsTable和insertInto在不同的SaveMode(s)中有什么不同？

将配置单元Sql转换为Spark* Sql*

从配置单元表将ArrayBuffer转换为HashSet中的DataFrame到RDD时出现GenericRowWithSchema异常

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐