首页
学习
活动
专区
圈层
工具
发布

#hive

Apache Hive是一个建立在Hadoop架构之上的数据仓库。它能够提供数据的精炼,查询和分析。

十五、Hive 窗口函数

IvanCodes

Hive中的窗口函数为复杂数据分析提供了强大的支持。它们在不改变原始行数的前提下,对与当前行相关的“窗口”内数据进行计算。核心在于OVER()子句,它定义了窗口...

800

十四、Hive 视图 & Lateral View

IvanCodes

在Hive中,我们经常需要以不同于原始表结构的方式查看或处理数据。为了简化复杂查询、提供数据抽象,以及处理复杂数据类型(如数组或Map),Hive 提供了视图 ...

600

十一、Hive JOIN 连接查询

IvanCodes

在数据分析的江湖中,数据往往分散在不同的“门派”(表)之中。要洞察数据间的深层联系,就需要JOIN这把利器,将相关联的数据串联起来。Hive SQL 提供了多种...

500

七、深入 Hive DDL:管理表、分区与洞察元数据

IvanCodes

在 Apache Hive 中,数据定义语言 (DDL) 不仅仅局限于创建表 (CREATE TABLE)。为了有效地管理和维护数据仓库中的数据结构,Hive ...

200

六、Hive 分桶

IvanCodes

在 Hive 中,除了常见的分区(Partitioning),分桶(Bucketing)是另一种重要且有效的数据组织和性能优化手段。它允许我们将表或分区中的数据...

1400

五、Hive表类型、分区及数据加载

IvanCodes

在 Hive 中高效构建、管理和查询数据仓库,核心在于精准运用表类型(内部/外部)与分区策略(静态/动态/多重)。这不仅决定数据的生命周期归属,更是优化海量数据...

500

四、Hive DDL表定义、数据类型、SerDe 与分隔符核心

IvanCodes

在理解了 Hive 数据库的基本操作后,本篇笔记将深入到数据存储的核心单元——表 (Table) 的定义和管理。掌握如何创建表、选择合适的数据类型、以及配置数据...

800

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

用魔法才能打败魔法

Spark中DataFrame写入Hive表时的Schema不匹配问题排查与解决

13210

踩坑经验 | Hive除法小数位问题

做数据的二号姬

最近在写一个Hive SQL的时候遇到了除法结果不对的问题。大概就是sum(a)/sum(b)明明不等于0但是SQL返回的结果是0的问题。

14210

【hive聚合函数多行合并 】

贺公子之数据科学与艺术

在Hive中,多行合并聚合函数的主要作用是将多行数据按照一定的条件合并成一行。这在处理大量数据时非常有用,可以减少数据的存储和计算开销。Hive提供了一些内置的...

10010

深入解析Hive SQL转MapReduce的编译原理:从AST抽象语法树到Operator执行树

用户6320865

解决方案包括:使用FUNCTION关键字显式声明返回类型;对于复杂数据类型,实现GenericUDF接口比直接继承UDF更可靠;通过hive.session.i...

18810

高级SQL优化 | PawSQL破解Hive无分组聚合的数据倾斜难题 —— 千亿级数据量下的优化方案

PawSQL

大数据工程师的经典痛点当你在Hive中执行 SELECT MAX(salary) FROM 10B_table时,是否经历过单Reducer卡死数小时?无分组的...

11810

Hive 大表全局排序如何优雅加速?PawSQL 让 ORDER BY + LIMIT 性能提升256倍

PawSQL

在大数据处理框架中,ORDER BY + LIMIT 是一个常见的“性能杀手”组合。全局排序操作往往意味着数据汇总、单点瓶颈与严重的数据倾斜。为了应对这一典型问...

13910

PawSQL 推出 Hive 专版,助力大数据团队提升SQL审核和SQL优化能力

PawSQL

场景一: 凌晨2点,数据工程师小王还在办公室调试一条跑了3小时的Hive查询...

18110

大数据工程师必读:Hive性能优化的18条黄金法则 —— PawSQL for Hive 优化引擎揭秘

PawSQL

表结构优化规则主要针对Hive环境下的DDL最佳实践,涵盖了表结构设计、数据类型选择、命名规范和约束定义等方面;本文将详细介绍其中的存储格式、分区分桶、压缩算法...

32410

大数据工程师必读:Hive 优化的四大维度——从三小时到三分钟的性能进阶之路

PawSQL

核心思想:如果两个大表的关联字段都进行了相同规则的分桶,并且桶数量匹配(一般为对方桶数量的倍数),Hive 在 Join 时可以避免对所有数据进行全量 Shuf...

29310

Hive性能优化进阶 —— 五大Join策略深度解析与实践指南(PawSQL for Hive 理论基础之二)

PawSQL

触发条件: 当没有其他优化条件被满足时(例如,表太大无法Map Join,或者没有分桶无法SMB Join),Hive会自动选择Common Join。也可通过...

34910

Hive 数据同步到 Doris 最佳实践方案:从场景适配到性能调优全解析

数据极客圈

在大数据领域,Hive 作为成熟的数据仓库解决方案,常用于海量数据存储与离线处理,而 Doris 凭借其强大的 OLAP 能力,在实时分析、即席查询等场景表现卓...

36610

大数据工程师必读:Hive性能优化第一步——正确认识Hive的三大执行引擎

PawSQL

PawSQL for Hive 理论基础之二:执行引擎是Hive SQL的“心脏”,负责将SQL语句转化为物理任务并在集群上高效执行。它的选择,直接决定了你的S...

25600

spark 操作 hive

码农GT038527

参考该文章:https://cloud.tencent.com/developer/article/2443534

13710
领券