在hive中使用PARTITION BY &ORDER BY执行的ROW_NUMBER非常慢(300万行)

文章/答案/技术大牛

发布

1回答

、、、

我有一个包含50列和300多万条记录的Hive表。要求根据date列获取最新的200条记录，因此应用了一个row_number函数。最初，当记录数量低于100K时，它工作得非常好，不幸的是，它现在永远运行。有没有什么特别的优化技术可以让我试试？它是一个分区表，下面是更多细节的实现: ROW_NUMBER() OVER ()OVER (PARTITION BY date，rule_id，run_id ORDER

浏览 249提问于2020-01-02得票数 0

1回答

通过(PARTITION* BY..)优化ROW_NUMBER()的性能*

我正在使用(SELECT ROW_NUMBER() OVER (PARTITION BY ft.EmpID，dimdt.YEAR_NUMBER，dimdt.MONTH_OF_YEAR_NUMBER ORDERBY dimdt.Date DESC) row_number，field1 .field2。ec我的ft表有数百万行。我可以得到我想要的结果(每个员工的月末最新记录)，但它非常慢，相当慢

浏览 0提问于2019-09-13得票数 0

1回答

如何在不使用别名的情况下仅将第二个表中的一行连接到第一个表中

、

table_images为table_entries中的任何一项保存一系列图像。因此，我想以某种方式将整个联接的联接限制在1行。我在这里搜索了这个问题的答案，并找到了很多关于这个问题的</

浏览 3提问于2022-04-17得票数 0

回答已采纳

0回答

行号的配置单元查询

、、、

我在pyspark上工作，需要编写一个从hive表中读取数据并返回包含所有列和行号的pyspark数据帧的查询。这是我尝试过的：这个查询在hive中运行得很好，但是当我从pyspark脚本运行它时，它抛出了以下错误： Window function row_number

浏览 2提问于2017-12-06得票数 0

3回答

如何选择与和相结合的第一个ROW_NUMBER

、、

我喜欢在使用SUM的情况下按ID对表进行分组，同时还会返回顶部Product_Name的ROW_NUMBER --不确定是否应该使用ROW_NUMBER、GROUPING SETS或循环使用FETCH.ROW_NUMBER() OVER (PARTITION BY [ID] ORDER BY [ID]) AS [Row_Number] @SampleTable T

浏览 0提问于2018-06-30得票数 2

回答已采纳

2回答

无法在配置单元中使用非相等联接(<=

、、

我刚接触hive，正在尝试执行一个包含非相等连接的查询。但是，当我尝试在hive 0.7中执行时，由于非相等联接条件，我得到了错误。查询： FROM ( select Name, SellingPrice,ORDER BY

浏览 0提问于2018-09-01得票数 2

2回答

oracle中的row_number()函数

、、、

我在oracle中使用ROW_NUMBER函数，并试图了解当partition by和order by子句包含相同的数据时，它将如何表现，那么排名将如何工作(如果有重复的记录)。row_number函数from test 结果<e

浏览 2提问于2019-08-02得票数 0

1回答

在配置单元中使用QUALIFY Row_Number

、、

我正在使用Teradata转换为Hive (版本0.10.0)。Teradata查询：我做了我的搜索，在hive中找到了Row_Sequence的UDF。我还将Ove

浏览 0提问于2013-07-09得票数 7

1回答

查询分区表中是否存在数据的有效方法

、、、、

我在Oracle 11G Enterprise Edition 11.2.0.4.0中我有一个表，每个分区大约有1200万行。分区按SnapshotDate进行。网上最常见的答案告诉我使用Row_Number() Over (Partition By SnapshotDate Order By SnapshotDate)`。下面是我想出来的代码(它只返回到目前为止有值的日期，所以我当然需要与我的日

浏览 0提问于2016-12-09得票数 2

1回答

LINQ按一列超时错误选择不同

、、、

我有一个大表(大约300万行)，我使用一个单独的列(OperationTypeId)来查询几个记录。在中，我使用以下查询，该查询在4秒内执行，并返回7行。SELECT * ROW_NUMBER() OVER (PARTITIONBY OperationTypeId

浏览 1提问于2016-09-08得票数 0

回答已采纳

4回答

Server:如何从数据库中选择双城市

我在300万行数据库上遇到了一个令人吃惊的问题。我想SELECT所有的行都有相同的纬度和经度。如何选择整排，而不仅仅是纬度和经度？我想列举以下的结果：我不想像这样列出的结果：OVER (PARTITION BY latitude, Longitude ORDER BY

浏览 3提问于2017-06-02得票数 0

回答已采纳

1回答

如何将总行计数作为变量输出

、、、、

，该变量存储了反达达后的行总数，我尝试使用count(*)：我收到的错误：错误:<

浏览 3提问于2020-03-09得票数 1

回答已采纳

1回答

从搜索到扫描的索引在CTE中转换

、、、

(64位) Windows 2019标准10.0 (构建17763：) (Hypervisor)但是，当将相同的查询转换为CTE时，大约需要2分钟。实际执行计划显示索引扫描并读取所有500万行。到目前为止，我的印象是，对于正常的查询，查询是否在CTE内并不重要。即使是相同的嵌套

浏览 0提问于2022-02-22得票数 4

1回答

通过预过滤结果来加速SQL视图

、、、、

我有一个在一个非常大的桌子上操作的视图。() OVER (PARTITION BY ResultId, LocationId) RN WHERE RN = 1现在我运行的操作如下WHERE TeamId = 5WITH A AS ( SELECT MAX(Id), ResultId, L

浏览 2提问于2018-09-26得票数 3

1回答

使用last_value窗口函数时蜂巢中的语义异常错误

、、

我有一张有以下数据的表格：2018-10-05 computer 7541185957382 62018-10-20 computer 7553187757256 3我想得到每个dt的最后一个和第一个因此，我使用了窗口函数first_value和last_value如下： select id,last_val

浏览 0提问于2018-10-25得票数 1

回答已采纳

3回答

TSQL合并行值

、、

我目前有一个非常简单的查询，它只需选择并生成以下内容 | Date | Name | ID || 2019-01-07 | Dell | 1069285 | | 2019-01-09 | Dell Corporation | 1069285 | 我想做的是为每个ID选择最早的日期行，使用MIN 但我遇到的问题是，如果最早的

浏览 23提问于2019-02-14得票数 1

回答已采纳

1回答

计算单元中的中值

、、、、

2 28.32192 3 33.47 3 33.47 3 32.98我想要计算每个关键组的中位数每一组的中位数为：2 28.83但是，percentile_approx函数返回以下内容：2 28.32192这是我运行的查询：f

浏览 1提问于2015-09-25得票数 0

1回答

优化行号查询

、、

我使用的是sql server 2008 r2，查询如下( ....ROW_NUMBER() OVER ORDER BY #some field() over (partition by Device_ID order by id desc) as rn from #sometable as de WITH

浏览 4提问于2016-07-20得票数 0

1回答

是在联接条件下还是在先前的CTE中设置行号筛选器？

、、、

我有一个subscription表和一个需要加入的payments表。我试图在两个选项之间做出决定，而性能是一个关键的考虑因素。备选案文1： AS ( , SUM(am

浏览 3提问于2017-10-17得票数 0

回答已采纳

2回答

使用pandas.read_csv从具有python分隔符的csv中读取内容

、

以下是该文件的格式： SOURCE_TYPE|SOURCE_QUERY|TARGET_QUERYFROM (SELECT *,ROW_NUMBER() OVER (PARTITION() OVER (PARTITION BY USR_ID ORDER BY snap_logmarker desc,snap_intentseq desc ) AS row_num1select * from db.cust_auth where concat(snapsh

浏览 29提问于2019-02-13得票数 0

回答已采纳

点击加载更多