如何在spark scala中找到数据帧中的词组计数？

、、

如何从数据框中的一列中找到字数？我正在尝试从DF下面的评论列中查找字数。CustID - Comments 102 [[This was nice, Nice] 以下是我试图实现上述用例的代码Comments")).map(events => (events,1)).reduce 在这里，我不能在元组顶部应用'reduceByKey‘函数，只有'reduce’函数列出

浏览 12提问于2019-04-23得票数 0

1回答

spark-cassandra-connector -从Dataframe创建表格- StructType？

、、

我正试着从Spark数据帧中写给Cassandra。当我有一个简单的数据帧模式时，如示例中所示，它可以工作： |-- id: string (nullable = true)但是，当我尝试编写包含StructTypes的数据帧时，其模式如下： |-- crawl: struct (nullable = t

浏览 4提问于2016-06-27得票数 1

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的datafr

浏览 1提问于2021-02-12得票数 0

1回答

用于机器学习的Apache mllib.linalg向量与spark.util向量的差异

、、、

我正在尝试在spark和scala中实现神经网络，但无法执行任何向量或矩阵乘法。Spark提供了两个向量。Spark.util向量支持点运算，但已弃用。mllib.linalg向量不支持scala中的操作。如何使用mllib在spark scala中执行向量乘法，如w*x，其中w是向量或权重矩阵，x是输入。pyspark向量支持

浏览 0提问于2016-01-20得票数 8

3回答

如何比较SQL语句中两种数据的模式？

、、

在spark (如 )中，有许多方法来验证两个数据帧的架构。但是我只想在SQL中验证两个数据帧的模式，我指的是SparkSQL。中没有数据库(模式)的概念，但是我读到了包含模式信息等的亚稳态。我们可以在SparkSQL中编写像上面这样的SQL查询吗？我只是在检查为什么显示create没有使用s

浏览 6提问于2018-09-04得票数 1

2回答

如何将rdd /数据帧/数据集转换为字符串

、、、

如何在spark scala中不使用collect将rdd /数据帧/数据集转换为字符串/列表

浏览 0提问于2019-09-24得票数 0

1回答

将1列中的空值替换为另一列中的数据

、

我正在尝试用可能在count_2列中的数据替换count_1列中的所有空数据。下面是给定输入的预期输出。我如何在Spark Scala中做到这一点？输入数据帧 name count_1 count_2Python null 20000R nul

浏览 23提问于2021-09-05得票数 1

回答已采纳

1回答

我使用的是Spark 1.6和scala 2.10。我有以下数据帧res24: org.apache.spark.sql.DataFrame = [DEST_COUNTRY_NAME: string, ORIGIN_COUNTRY_NAMEwithColumnRenamed("sum(count)","destination_total") .sort(desc("destination_to

浏览 4提问于2018-01-04得票数 0

1回答

如何在spark中对scala中的Long和BigInt进行数学运算

、、、

我有两个不同类型的值，如下所示ageSum: org.apache.spark.sql.DataFrame = [sum(age): bigint]scala> totalEntries第一个值来自数据帧上的聚合函数，

浏览 7提问于2017-01-26得票数 0

回答已采纳

4回答

无法在Spark* (Scala)中的数据帧上执行用户定义函数*

、、

我有一个数据帧df，如下所示 +--------+--------------------+--------+------+ | id| path|somestff并非所有文件都存储在同一目录中。事实上，在不同的目录中有数百个文件。我想在这里完成的是读取列路径中的文件，对文件中的记录进行计数，并将行计数的结果写入到数据<e

浏览 30提问于2019-04-01得票数 2

回答已采纳

1回答

如何使用scala连接到Apache中的postgreSQL数据库？

、、

我想知道如何在scala中执行以下操作？编写SQL查询，如SELECT、UPDATE等，以修改数据库中的表。我知道如何使用scala来实现它，但是如何在打包时将psql scala的连接器jar导入sbt？

浏览 0提问于2014-07-23得票数 40

回答已采纳

2回答

我如何在spark* scala中创建日期范围的存储箱？*

、

我是一名Python开发人员，正在尝试学习Spark Scala。我的任务是创建日期范围框，并计算每个框(直方图)中出现的频率。我的输入数据帧如下所示我的bin边是这样的(在Python中)：我要查找的输出dataframe是

浏览 2提问于2020-09-02得票数 0

1回答

select top 1 from C返回count size作为分区数* cosmosdb中的实际查询计数*

、、

我正在使用scala的azure-cosmosdb-spark库，并且我试图查询以下内容 select top 1 * from c 但我得到的最终数据帧计数是8而不是1。我怀疑CosmosDBRDDIterator将其拆分成多个分区(在本例中为8)并处理查询。无论执行的是select查询，结果计数始终是实际结果计数的8倍。有没有什么方法可以避免这种情况，并使我的</em

浏览 3提问于2020-07-25得票数 0

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。val df1 = Seq( ("spark", "scala", "2015-10-1

浏览 0提问于2018-07-27得票数 17

回答已采纳

2回答

如何计算星火scala中数据帧的每一列的缺失值数？

、、、

我想知道火花scala中数据帧的每一列的缺失值的计数数。示例输出，我的密码样本表数据： |-------------

浏览 0提问于2018-10-12得票数 0

回答已采纳

1回答

将RDD转换为Dataframe Spark

、、、

如何在scala中将具有以下结构的RDD转换为dataframe这里，RDD的每一行都包含一个索引Long和一个向量org.apache.spark.mllib.linalg.Vector。我希望将org.apache.spark.mllib.linalg.Vect

浏览 2提问于2017-02-26得票数 2

1回答

registerTempTable在从RDD创建的DataFrame上失败

我有一个函数，它从一个DataFrame的底层RDD创建一个DataFrame：}val df = sc.parallelize(Array(1, 2, 3)).toDF("foo")df.registerTempTable("df") df2.registe

浏览 3提问于2017-11-14得票数 1

回答已采纳

1回答

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

、、、、

几天后，数据带来了大量的功能。为了获得简短的数据摘要，人们将数据加载到数据框中，并使用head()方法显示数据。使用Jupyter Notebook( Toree for scala)进行实验是很常见的。Spark (scala)很适合处理大量数据，但是它的head()方法不能在水平滚动的notebook中显示

浏览 3提问于2018-06-13得票数 2

1回答

如何在scala中访问和合并未来类型的多个DataFrame

、、、、

我有spark scala应用程序。我正在尝试使用它内部的Futures来并行化几个独立的操作集。我在期货中调用它们，它们返回给我未来类型的DataFrame，我如何在最后合并它们，并在任何未来类型无法计算的情况下抛出错误。下面是我的代码。当我尝试在onComplete块中应用数据帧的联合时，它显示以下错误 value union is not a member

浏览 2提问于2020-01-22得票数 0

1回答

如何在一个spark* dataframe的多个列上旋转？*

、、、、

我们如何在一个数据帧中的多个列上进行透视。例如，这里提到的例子，https://spark.apache.org/docs/latest/sql-ref-syntax-qry-select-pivot.html SELECT * FROM person我们不能在Spark scala的pivot方法中传递多个参数，因为它只需要一个列名作为参数。我们如

浏览 11提问于2021-01-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

spark-cassandra-connector -从Dataframe创建表格- StructType？

字符串列包含通过spark scala进行精确匹配的单词

用于机器学习的Apache mllib.linalg向量与spark.util向量的差异

如何比较SQL语句中两种数据的模式？

如何将rdd /数据帧/数据集转换为字符串

将1列中的空值替换为另一列中的数据

scala 2.10如何在sum之前将字符串转换为数字

如何在spark中对scala中的Long和BigInt进行数学运算

无法在Spark* (Scala)中的数据帧上执行用户定义函数*

如何使用scala连接到Apache中的postgreSQL数据库？

我如何在spark* scala中创建日期范围的存储箱？*

select top 1 from C返回count size作为分区数* cosmosdb中的实际查询计数*

如何计算星火数据表中的列数？

如何计算星火scala中数据帧的每一列的缺失值数？

将RDD转换为Dataframe Spark

registerTempTable在从RDD创建的DataFrame上失败

spark vs pandas dataframe (具有大列) jupyter笔记本中的head(n)

如何在scala中访问和合并未来类型的多个DataFrame

如何在一个spark* dataframe的多个列上旋转？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐