在SparkSQL中使用窗口函数(dense_rank())进行选择

在SparkSQL中使用窗口函数(dense_rank())进行选择是一种用于排序和排名的功能。窗口函数是一种在查询结果集中执行计算的特殊函数，它可以根据指定的排序规则对结果集进行分组和排序，并为每个分组分配一个排名。

窗口函数dense_rank()是一种常用的窗口函数，它可以为每个行分配一个唯一的整数排名，而不会跳过排名。具体来说，dense_rank()函数会根据指定的排序规则对结果集进行排序，并为每个行分配一个排名，如果有多个行具有相同的排序值，则它们将被分配相同的排名，而不会跳过排名。

使用dense_rank()函数可以实现许多功能，例如查找排名前几的行、查找排名最高的行等。它在数据分析、报表生成、排名计算等场景中非常有用。

以下是使用SparkSQL中的dense_rank()函数的示例代码：

import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.functions.dense_rank

val windowSpec = Window.orderBy("column_name")
val result = df.withColumn("rank", dense_rank().over(windowSpec))

result.show()

在上述示例中，我们首先创建了一个窗口规范windowSpec，通过指定要排序的列名来定义排序规则。然后，我们使用dense_rank()函数和over()方法将窗口规范应用于DataFrame df，并将结果保存在新的列"rank"中。最后，我们使用show()方法显示结果。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云计算服务：https://cloud.tencent.com/product/cvm
腾讯云数据库：https://cloud.tencent.com/product/cdb
腾讯云人工智能：https://cloud.tencent.com/product/ai
腾讯云物联网：https://cloud.tencent.com/product/iot
腾讯云存储服务：https://cloud.tencent.com/product/cos
腾讯云区块链服务：https://cloud.tencent.com/product/bcs
腾讯云元宇宙服务：https://cloud.tencent.com/product/vr

请注意，以上链接仅供参考，具体的产品选择应根据实际需求和情况进行评估和决策。

SparkR窗口函数

、、、、

我从中发现，SparkR的1.6个版本已经实现了包括lag和rank在内的窗口函数，但over函数尚未实现。如何使用像lag函数那样的窗口函数而不使用SparkR中的over (而不是SparkSQL方式)？有人能举个例子吗？

浏览 5提问于2016-01-19得票数 1

回答已采纳

3回答

Redshift在其窗口函数中不支持DISTINCT聚合。任何窗口函数都不支持和distinct。我的用例:在不同的时间间隔和流量通道上统计客户。我希望每月和YTD 唯一的客户数量为本年度，也除以流量渠道以及所有渠道的总数。由于客户可以访问不止一次，所以我只需要计算不同的客户，因此Redshift窗口聚合不会有帮助。我可以使用count(distinct customer_id)...group by来统计不同的客户，但这只会给我提供四个需要的结果中的一个。我不想养成这样的习惯，即对堆在一堆union all之间的每一个期望的计数运行一个完整的查询。我希望这不是唯一的解决办法。

浏览 6提问于2017-12-10得票数 14

回答已采纳

1回答

使用SparkSQL在JSON中导出从sql检索最大日期

、、

我在远程SQL数据库中有一个表。 CUSTOMERID ACCOUNTNO VEHICLENUMBER TAGSTARTEFFDATE 20000000 10003014 MH43AJ411 2013-06-07 13:07:13.210 20000001 10003014 MH43AJ411 2014-08-08.19:10:11.519 20029961 10003019 GJ15CD7387 2016-07-28 19:21:54.173 20009020 10003019 GJ15CF7747

浏览 0提问于2018-07-24得票数 0

回答已采纳

2回答

在SparkSQL数据中使用窗口函数时发出的警告消息

、

当我在SparkSQL中使用窗口函数时，我会收到下面的警告消息。有谁能告诉我如何解决这个问题吗？警告信息： No Partition Defined for Window operation! Moving all data to a single partition, this can cause serious performance degradation. 我的守则： def calcPrevBrdrx(df: DataFrame): DataFrame = { val w = Window.orderBy("existing_col1") df.wi

浏览 3提问于2016-12-20得票数 2

回答已采纳

2回答

SQL增量对重复值的计数

、

不确定我的标题是否正确地说明了我想要的是什么，但我有下表。 [ID] [ROWID] 10 11 11 12 13 13 我正在尝试创建这个程序，为每个ID生成一个ROWID。 [ID] [ROWID] 10 1 11 2 11 2 12 3 13 4 13 4 我以为我可以在H2上使用H2()窗口函数，但是我还没有任何工作。有什么建议吗？

浏览 0提问于2019-05-23得票数 0

回答已采纳

1回答

通过集群提高SparkSQL查询性能

我是SparkSQL新手，我主要负责编写SparkSQL查询。我们经常需要在查询中使用JOIN大表，并且不需要很长时间就会遇到与它们相关的性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时，我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等，而且它们可能用于提高慢速运行的SparkSQL 查询的性能。不幸的是，我找不到足够的例子，让我清楚地理解它们，并开始将它们应用到我的查询中。我主要是寻找一些例子来解释它们的语法、提示和使用场景。有谁能在这里帮助我，并提供SparkSQL查询它们的用法和

浏览 5提问于2020-06-05得票数 0

2回答

pyspark是否支持窗口函数(例如first、last、lag、lead)？

、

pyspark是否支持窗口函数(例如first, last, lag, lead)？例如，如何按一列分组并按另一列排序，然后按SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)？我发现pyspark.sql.functions类包含聚合函数first和last，但它们不能用于groupBy类。

浏览 2提问于2015-03-24得票数 3

2回答

如何在window函数SQL中创建时间范围分组？

、、、

我试图在SQL上使用多个窗口函数创建一个分组，目的是在中间有其他组的情况下区分不同的组。见下表 Part | time | expected result | a | 11-29-2022 00:05:00.000 | 1 | a | 11-29-2022 00:05:00.010 | 1 | b | 11-29-2022 00:06:00.000 | 2 | c | 11-29-2022 00:15:00.000 | 3

浏览 12提问于2022-11-29得票数 1

回答已采纳

2回答

在spark sql中使用group by选择count列的最大值

、、

我有以下数据： yr char cnt 1 a 27 1 g 20 3 b 50 3 z 70 我喜欢得到年份，只有cnt字段的最大数量。也就是说， yr char count 1 a 27 3 z 70 我尝试使用如下所示的SQL： SELECT yr, char, max(count(cnt)) as count FROM view GROUP BY yr,char 但它导致了一个错误，说明最大值不能与SparkSQL中的计数一起使用。我怎样才能得到如上所示的结果呢？

浏览 2提问于2018-05-14得票数 1

1回答

窗口函数- Dense_Rank和Row_Number的区别

、

如果我使用下面的dense_rank窗口函数，它给出了我的输出，这是按升序在日期退款的交易，并将其指定为1作为等级： select p.billing_cycle_in_months, avg(t.days) from ( select *, datediff(day,transaction_settled_at, transaction_refunded_at) as days, dense_rank() over (partition by signup_id order by transaction_settled_at asc) as rank

浏览 5提问于2020-02-06得票数 0

回答已采纳

2回答

如何在esper中获得第二大值作为第二值

、、

我试着把第二个值作为Esper的第二大值。但是，不幸的是，它说嵌套子查询不起作用。那么，我如何才能在Esper中获得第二大价值呢？我的查询如下： SELECT max(averageTemperature) as Temp1, ( select max(jfk_alias.averageTemperature) from jfk as jfk_alias where jfk_alias.averageTemperature not in ( select max(averageTemperature) from jfk) ) as

浏览 8提问于2022-10-05得票数 0

2回答

如何在postgresql中获取组号？

、、

浏览 2提问于2018-06-04得票数 10

回答已采纳

3回答

按组选择一个随机行(Oracle 10g)

、、、、

这篇文章类似于，因为我每组都有多个观察。但是，我只想随机选择其中的一个。我也在研究甲骨文10g。表person_id中每个df有多行。我希望通过person_id对每组dbms_random.value()进行排序，并从每个组中选择第一个观察结果。为了做到这一点，我尝试： select person_id, purchase_date from df where row_number() over (partition by person_id order by dbms_random.value()) = 1 查询返回： ORA- 30483 :这里不允许窗口函数

浏览 6提问于2020-10-26得票数 0

回答已采纳

1回答

星星之火: Scala中的UUID()函数在哪里？

、、、

SparkSQL有。但是，我在Scala中找不到它与Dataset API一起使用。当然，我们可以这么做： expr("uuid()") 它将正常工作，因为它将被解析为一个表达式。我们在Scala Dataset API中有它吗？哪里?如果没有，有什么重要的技术原因吗？谢谢。额外的问题:我们在python中有它吗？哪里?

浏览 8提问于2022-09-21得票数 2

4回答

如何在SparkSQL中获取星期几？

我正在尝试通过SparkSQL选择周日录制的所有记录。我做了以下几次尝试，但都是徒劳的。 SELECT * FROM mytable WHERE DATEPART(WEEKDAY, create_time) = 0 SELECT * FROM mytable WHERE strftime("%w", create_time) = 0 如何在SparkSQL中获取星期几？

浏览 28提问于2014-07-29得票数 19

1回答

根据列Server中的最大值选择行

、

如何使用从输入中获取输出？(基本上，在每个ID中选择投票最多的行)。输入 ID Label Vote ----------------------- 79185673 2 3 79185673 0 17 79185724 4 5 79185724 1 13 79185724 0 2 79185900 1 17 79185900 2 1 79185900 4 2 79186190 3 3 7918619

浏览 1提问于2017-11-21得票数 0

回答已采纳

2回答

如何在同一个查询中获取sum & row_num

、

我有两个表产品和psales，表中的数据如下所示 select * from psales; +-------------+---------------+--+ | psales.pid | psales.sales | +-------------+---------------+--+ | 1 | 100 | | 1 | 150 | | 1 | 200 | | 2 | 75 | | 2 | 45

浏览 0提问于2018-10-20得票数 0

回答已采纳

2回答

/Dataset为每一种关键的有效方法找到最常见的值

、、、

问题：我有一个问题要映射spark中键的最常见值(使用scala)。我已经用RDD完成了它，但是不知道如何有效地处理DF/DS(sparksql) 数据集类似于 key1 = value_a key1 = value_b key1 = value_b key2 = value_a key2 = value_c key2 = value_c key3 = value_a 在火花转换和访问之后，输出应该是每个键，并具有其共同的值。输出 key1 = valueb key2 = valuec key3 = valuea 到目前为止，尝试过： RDD 我试图在RDD中按组映射和减少(key,valu

浏览 0提问于2017-11-14得票数 2

回答已采纳

2回答

窗口函数中的非重复计数

、、

我试着为每个c计算唯一的b列，而不是group by。我知道这可以用join来完成。如何对(partition by c)执行count(distinct b)，而不用求助于连接。为什么在窗口函数中不支持非重复计数。提前谢谢你。给定此数据帧： val df= Seq(("a1","b1","c1"), ("a2","b2","c1"), ("a3","b3","c1"),

浏览 0提问于2019-10-12得票数 1

1回答

Spark中的高阶函数

、

谁能用一些高级的实际用例来解释SparkSQL2.4中的和filter()吗？在sql查询中，这只用于数组列，也可以应用于任何列类型。如果任何人都能用sql查询来演示高级应用程序，那就太好了。提前谢谢。

浏览 2提问于2020-08-02得票数 2

回答已采纳

2回答

SQL Server是否将父级子列去为单列？

、、

我正在使用MSSQL 2012，并试图弄清楚如何在一列中使用带有父值的集合，而在另一列中获取子值，并将其合并为一列，其父列仅显示在一行中，每个子列都显示在该列下面。与row_number()/partition的练习并没有取得成果。我怎样才能做到这一点？谢谢。 set nocount on declare @parchi table ( parenttext varchar(20) , childtext varchar(20) ) insert into @parchi values ( 'parenta' , 'childa' ) insert into

浏览 3提问于2014-05-15得票数 0

回答已采纳

2回答

火花的最大和最小

、、、

我是Spark新手，我对SparkSQL中的聚合函数MAX和MIN有一些疑问在SparkSQL中，当我使用MAX / MIN函数时，只返回MAX(value) / MIN(value)。但是如果我还想要其他相应的列呢？例如，对于给定的包含列time、value和label的数据帧，如何获取包含按label分组的time的MIN(Value) 谢谢。

浏览 2提问于2016-03-17得票数 0

1回答

在没有Hadoop/HDFS的情况下使用蜂窝转移服务

、、

我知道这个问题有点奇怪。我喜欢Hadoop & HDFS，但是最近我用开发了SparkSQL。我想使用SparkSQL作为一个垂直的SQL引擎，在不同的数据源上运行OLAP查询，例如RDB、Mongo、Elastic .没有ETL过程。然后在Metastore中使用相应的Hive存储处理程序将不同的模式注册为外部表。此外，在我的工作中，HDFS没有被用作数据源。然后，给定的Map/R已经被火花引擎所取代。在我看来，Hadoop/HDFS是无用的，但它是Hive安装的基础。我不想全买。我想知道，如果我只是在没有Hadoop/HDFS支持SparkSQL的情况下启动Hive亚稳服务，

浏览 3提问于2016-11-16得票数 4

回答已采纳

1回答

Spark SQL中的累积偏差

、、

我有一个这种格式的数据帧： Date | Return 01/01/2015 0.0 02/02/2015 0.04 03/02/2015 0.06 04/02/2015 0.16 我需要计算每一行的累积标准差，并选择它上面的行数。所以我的结果看起来有点像这样： Date | Rows above | Compounded 01/01/2015 0 0(First element to be kept zero) 02/02/2015 1 0.02

浏览 1提问于2016-12-13得票数 0

1回答

我可以使用SparkSQL "java_method“来调用我自己的Java方法吗？

SparkSQL有一种使用函数调用方法的方法。文档中有一个这样的示例： SELECT java_method('java.util.UUID', 'randomUUID'); 对于我的项目，我想要创建&调用我自己的Java &但是我不知道SparkSQL是否支持这个方法。文档没有提到任何关于调用自定义Java方法的内容。那么，是否有人知道如何完成这一任务，或者是否有人已经使用SparkSQL创建了自己的Java方法？我很想知道！你好，迈克尔

浏览 7提问于2022-03-08得票数 1

1回答

使用几个GBs大小的数据集的sparksql

、、

我没有在网上或其他问题上找到这个问题的答案，所以我在这里尝试：我的数据集的大小是几GB的(~5GB到~15 GB)。 I有多个表，其中一些表包含~50M行 I使用的是postgresSQL，它有自己的查询优化(并行工作人员和索引)。 50%的查询利用索引和多个工作人员更快地完成查询。我的一些查询使用join命令我读到sparkSQL打算在大型数据集上运行。如果我有多台服务器要运行，那么使用sparkSQL可以获得更好的性能吗? 是否适合使用sparkSQL或postgresSQL ?的数据集？什么时候选择sparkSQL而不是postgresSQL ?

浏览 2提问于2021-01-04得票数 1

回答已采纳

1回答

PostgreSQL --当我使用窗口函数时，我如何知道我在哪个分区？

、

我一直在使用windows函数，因为它们对我当前的需求非常有用。row_number()非常方便地让我知道当前分区的行。我已经阅读了关于窗口函数的文档，并在网上搜索过，但是找不到我想要的答案。我希望这里有人能知道我想要什么是可能的。我的问题是:是否有可能找出您所在的窗口中的哪个分区，就像row_number()告诉您所在分区中的哪个行一样？基本上，我想知道这样的情况，假设窗口中有2个分区，每个分区中有2行： partition 1 row 1 partition 1 row 2 partition 2 row 1 partition 2 row 2 有什么主意吗有人吗？

浏览 0提问于2018-10-10得票数 3

回答已采纳

1回答

如何使用从sparkSQL中的子查询中获取单个值

、、

我正在使用SparkSQL spark.sql(""" SELECT artist, count(distinct(song)) FROM user_log_table WHERE artist = (SELECT artist FROM user_log_table GROUP BY artist ORDER BY count(artist) DESC LIMIT 1 ) """).show() 这是我的查询，我只运行子

浏览 2提问于2021-06-08得票数 0

2回答

如何在分区内对表中的行进行排序？

、

我使用DB2来获取一个表，将它分割成分区，然后在每个分区内排序行。我的桌子就像： ID DATE EVENT -- ---- ----- 01 1999-06-01 a 01 1999-06-01 b 01 2006-01-01 a 01 2011-12-31 c 02 1999-01-01 a 02 2003-01-01

浏览 16提问于2014-05-30得票数 0

回答已采纳

2回答

用滚动窗口计算火花放电的出现率

、

我有下面的pyspark数据文件： import pandas as pd foo = pd.DataFrame({'id': [1,1,1,1,1, 2,2,2,2,2], 'time': [1,2,3,4,5, 1,2,3,4,5], 'value': ['a','a','a','b','b', 'b','b','c','c

浏览 6提问于2022-07-07得票数 1

回答已采纳

1回答

在一列上选择distinct，但返回所有列

、、

我的目标是在一列上使用distinct，但返回所有的列。我的桌子是这样的 id, name, year 1, John, 2012 2, Jake, 2012 3, Jenna, 2013 1, John, 2013 我需要对id列做不同的处理，并返回所有的三列以及不相同的id，我需要最近的记录。我需要的输出是 id, name, year 1, John, 2013 2, Jake, 2012 3, Jenna, 2013 我试过这两条命令从抽样中选择不同的id、名称、年份。我将在所有的行上做不同的事情。选择* from sampletable group by

浏览 1提问于2013-10-11得票数 3

1回答

SparkSQL中的“谓词中不允许关联列”

、、、、

我遇到了将SQL存储过程迁移到SparkSQL的问题。我在Databricks中得到了这个错误：谓词中不允许相关列我有以下类型的查询： WITH CTE_1 AS ( SELECT id, Date, ...... FROM table ), CTE_2 AS ( SELECT Date, SUM(blablabla) AS SUM FROM CTE_1 WHERE (SELECT COUNT(1) FROM CTE_1 AS prev WHERE MONTHS_BETW

浏览 0提问于2022-07-26得票数 2

1回答

如何在PostgreSQL中对每个组进行编号

、

如何使用窗口函数或类似的方法，根据特定的共享特征对每个组或行分区进行编号？例如，：我有一个按字母顺序排列的名称列表，我希望使用描述它们所属组的I来分组和标识它们在每个组中的位置。 ------------------------------------------- | outer_id | inner_id | src_id | name | |----------|----------|--------|----------| | 1 | 1 | 88129 | albert | | 1 | 2 | 88130 |

浏览 0提问于2017-07-17得票数 1

回答已采纳

2回答

spark中密集秩和行数的差异

我试着理解密集秩和行number.Each新窗口分区都是从1开始的，难道行的秩不总是从1开始吗？任何帮助都将不胜感激

浏览 0提问于2017-07-07得票数 34

回答已采纳

2回答

基于多列创建序列号

、、

我有以下数据我希望根据区域、国家、存储类型和位置列创建索引级别，如上一列所示。因此，“区域”列将为每个新区域拥有自己的序列号，即‘'APAC是1，然后EMEA将是2’类似于它的其他列(国家，存储类型，位置)。我尝试过使用分区来获得结果，但是我无法得到想要的结果。

浏览 4提问于2016-11-13得票数 0

回答已采纳

1回答

如何利用SparkSQL获取地理空间点

、、、、

我正在把postgreSQL转换成DataBrick ApacheSpark， postgresql进程使用以下sql函数从X和Y值获取地图上的点。ST_Transform(ST_SetSrid(ST_MakePoint(x，y),4326),3857) 有人知道我如何在SparkSQL o数据库中实现同样的逻辑吗？

浏览 1提问于2021-08-31得票数 1

回答已采纳

1回答

T-SQL: Row_number()分组依据

、、

我使用的是SQL Server2008 R2，结构如下： create table #temp( deptid int, regionid int) insert into #temp select 15000, 50 union select 15100, 51 union select 15200, 50 union select 15300, 52 union select 15400, 50 union select 15500, 51 union select 15600, 52 select deptid, regionid, RANK() OVER(PARTITION BY

浏览 10提问于2016-07-26得票数 1

回答已采纳

2回答

在SQL中为团队找到最佳球员

、

如何才能为球队找到顶级球员？样本数据是 PlayerID TeamID Count 1 1 7 2 1 2 3 2 3 4 2 5 5 3 7 6 3 6 我只想为每支球队选择一名顶级球员。 PlayerID TeamID Count 1 1 7 4 2 5 5 3 7

浏览 2提问于2015-09-20得票数 1

回答已采纳

1回答

是否为以下条件编写sql查询？

找出第二个最不。emp和dept表中使用dname的员工的百分比。 select d.dname,count(*) "totemp" from emp e,dept d where e.deptno=d.deptno group by (d.dname) having count(*)=(select max(count(*)) from emp e,dept d where e.deptno=d.deptno group by d.dname); 此查询将显示最高编号。使用dname的员工的百分比。但我想要第二高的dname。

浏览 0提问于2017-10-29得票数 0

2回答

获取SQL中每个类别的值的最大值(Oracle)

、、、、

假设我们有该科目中每个学生的科目和分数的当前表。表:成绩 Math: ANDY 80 Math: RYAN 70 Math: SARAH 95 Science: RYAN 60 Science: ANDY 90 Science: SARAH 75 我想要编写一个查询来获取主题的名称，谁的分数最高，以及它是什么。查询的输出应如下所示： Math SARAH 95 Science ANDY 90 哪种sql (在oracle中)可以获得所需的输出？优选地不使用窗口函数。

浏览 74提问于2020-06-09得票数 0

回答已采纳

2回答

具有不同user_id的多窗口计数

给定一个event表，我希望在四个不同的窗口中找到特定事件type的不同user_ids的计数：过去30天过去7天当前日<code>F 212</code> 我想出了一个查询(不工作)的想法，它可能展示了我想要实现的最好的结果： select d as "Date", count(distinct user_id) over ( order by d rows between 365 preceding and current row ) "Yearly Active", count(distinct u

浏览 4提问于2021-11-16得票数 0

回答已采纳

1回答

Oracle 9 PL/SQL -如何使用order获得第一行而不进行子查询

、、

我知道“如何限制”或“如何获得第一排”已经张贴了很多次，但我无法找到解决我的具体问题。我有一个库存平衡表，其中包含有数量的bin # 我想要行中包含最高数量的bin # 真正的查询要大得多，也比这个复杂得多，但是这个例子显示了我面临的问题。我第一次做了 select itemnumber, (select binnumber from inventory_balance where current_balance = (select max(current_balance) from inventory_balance where inventory_balance.itemnumber

浏览 3提问于2013-12-21得票数 1

回答已采纳

3回答

用于填充缺少的行的滞后函数

我正在尝试想出一个SQL来获取Postgres 9.6数据库表中的数据。 Table Data我已经尝试了窗口函数的各种变体，但似乎都不起作用。基于输入列C3，我投影了第四列C4，输出应该如下所示。 Final Desired output 如何使用SQL实现这一点？该表最多可包含1亿条记录。

浏览 12提问于2019-04-16得票数 0

1回答

如何解决这个spark-scala sql错误消息

、、、、

为了删除重复的行，我尝试执行以下sql val characters = MongoSpark.load[sparkSQL.Character](sparkSession) characters.createOrReplaceTempView("characters") val testsql = sparkSession.select("SELECT * FROM characters GROUP BY title") testsql.show() 但是这个sql生成了这个错误消息。如果你知道这个问题，请回答这个问题。谢谢你 Parsing command:

浏览 2提问于2017-08-28得票数 1

3回答

基于分组列值的SQL添加标识

、、

我有这样的数据： FirstName LastName El Even Mike Wheeler Mike Byers Dustin Henderson 我想要的输出是将标识添加到每个唯一的FirstName中 ID FirstName LastName 1 El Even 2 Mike Wheeler 2 Mike Byers 3 Dustin Henderson 我这么做的方式是： /* part 1

浏览 2提问于2017-12-06得票数 1

回答已采纳

2回答

解析函数中的序列

、

我有一个包含列name的表 NAME ========= GAURAV GAURAV AJAY AJAY =========== 现在，我想使用一个现有的序列，假设是abc_seq，并且我想对记录进行分组，这样，它将给我输出group by name，并且每个组具有相同的序列号我想要得到的输出如下所示 name group ============== GAURAV 1 GAURAV 1 AJAY 2 AJAY 2 ============== 我尝试过使用分析函数，但是如何在查询中使用analytical function序列

浏览 2提问于2012-09-21得票数 0

回答已采纳

3回答

Spark SQL中的更新查询

、

我想知道我是否可以像这样在sparksql中使用update查询： sqlContext.sql("update users set name = '*' where name is null") 我得到了错误： org.apache.spark.sql.AnalysisException: Unsupported language features in query:update users set name = '*' where name is null 如果sparksql不支持update查询，或者我写的代码不正确？

浏览 2提问于2016-05-30得票数 10

回答已采纳

1回答

窗口SQL范围的计数(*)

、

在Postgres 9.1中，我使用的窗口函数如下： SELECT a.category_id, (dense_rank() over w) - 1 FROM ( _inner select_ ) a WINDOW w AS (PARTITION BY category_id ORDER BY score) 我不知道的是，如何也选择窗口范围中的元素总数。如果我只使用count(*) over w，它会告诉我到目前为止在窗口中看到了多少个元素，而不是窗口中的总数。我在这里的核心问题是，cume_dist()是从1开始计算，而不是从0开始计算，以表示前面或等于您的行数。percenti

浏览 2提问于2014-08-20得票数 2

回答已采纳

2回答

SparkSql中的存储过程/函数

、、

有没有办法在sparksql中实现像存储过程或函数这样的sql特性？我了解hpl、sql和hbase中的协处理器。但想知道spark中有没有类似的东西。

浏览 0提问于2017-03-21得票数 1

2回答

SparkSQL中使用SQL查询与不使用SQL查询的区别

、、

在学习Scala中的Spark 2期间，我发现我们可以使用两种方法来查询SparkSQL中的数据： spark.sql(SQL_STATEMENT) //变量“火花”是SparkSession的一个实例 DataSet/DataFrame.select/.where/.groupBy.... 我的问题是，differences(functional，的性能等等。)他们之间的关系？我试着在互联网上或他们的文档上找到作者，但是失败了，所以我想听听你的意见。

浏览 0提问于2017-06-12得票数 3