首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >大数据入门:Impala框架基础简介

大数据入门:Impala框架基础简介

作者头像
成都加米谷大数据
修改于 2020-11-25 10:16:50
修改于 2020-11-25 10:16:50
8720
举报
文章被收录于专栏:大数据开发大数据开发

大数据处理当中,核心的数据分析处理环节,衍生出了非常多的框架组件工具,基于不同场景下的需求,给出了更多可选的技术方案。比如说在交互式查询场景下,Impala就是一个不可忽视的重要选择。今天的大数据入门分享,我们就来讲讲Impala框架入门的一些基础知识。

Impala背景

Impala的出现,追溯其源头,是来自于Google的“新三篇论文”(Caffeine–网络搜索引擎、Pregel–分布式图计算、Dremel–交互式分析工具)之一的交互式分析工具Dremel。

根据实验环境下的测试,Impala进行数据查询,可以实现比Hive快10-100倍,其中SQL查询性能也超过了SparkSQL,号称是大数据领域当前最快的SQL查询工具。

在实际场景下,Impala提供的针对于HDFS、Hbase数据的高性能、低延迟的交互式SQL查询,基于Hive并使用内存进行计算,兼顾数据仓库,具有实时、批处理、多并发等优点,也确实性能优良,因此得到企业级用户的青睐。

Impala与Hive的关系

Impala基于Hive进行大数据分析查询,直接使用Hive的元数据库metadata,意味着Impala元数据都存储在Hive的metastore当中,并且Impala兼容Hive的绝大多数SQL语法。

在实际应用当中,要保证Impala的正常使用,需要先安装Hive,保证Hive安装成功,并且还需要启动Hive的metastore服务才行。

Impala对比Hive所使用的优化策略

Impala把整个查询分成一执行计划树,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少的了把中间结果写入磁盘的步骤,再从磁盘读取数据的开销。

使用LLVM产生运行代码,针对特定查询生成特定代码,同时使用Inline的方式减少函数调用的开销,加快执行效率。

充分利用可用的硬件指令(SSE4.2)。

更好的IO调度,Impala知道数据块所在的磁盘位置能够更好的利用多磁盘的优势,同时Impala支持直接数据块读取和本地代码计算checksum。

通过选择合适的数据存储格式可以得到最好的性能(Impala支持多种存储格式)。

最大使用内存,中间结果不写磁盘,及时通过网络以stream的方式传递。

Impala的优点

1、Impala比较快,非常快,特别快,因为所有的计算都可以放入内存当中进行完成,只要你内存足够大;

2、摈弃了MR的计算,改用C++来实现,有针对性的硬件优化;

3、具有数据仓库的特性,对Hive的原有数据做数据分析;

4、支持ODBC,JDBC远程访问。

Impala的缺点

1、基于内存计算,对内存依赖性较大;

2、改用C++编写,意味着维护难度增大;

3、基于Hive,与Hive共存亡,紧耦合;

4、稳定性不如Hive,不存在数据丢失的情况。

关于大数据入门,Impala框架基础,以上就为大家做了一个简单的介绍了。Impala这个框架,现如今也同样是Hadoop生态当中的得力干将,学习当中应该予以相应的重视。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
impala入门,从基础到架构!!!
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。
大数据梦想家
2021/01/26
8540
impala入门,从基础到架构!!!
客快物流大数据项目(七十):Impala入门介绍
impala是cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具,
Lansonli
2022/12/18
1.2K0
客快物流大数据项目(七十):Impala入门介绍
【转载】Impala和Hive的区别
Impala是基于Hive的大数据实时分析查询引擎,直接使用Hive的元数据库Metadata,意味着impala元数据都存储在Hive的metastore中。并且impala兼容Hive的sql解析,实现了Hive的SQL语义的子集,功能还在不断的完善中。
互联网金融打杂
2018/08/02
7.4K0
【转载】Impala和Hive的区别
impala的介绍
impala是 cloudera提供的一款高效率的sql查询工具,提供实时的查询效果,官方测试性能比hive快10到100倍,其sql查询比sparkSQL还要更加快速,号称是当前大数据领域最快的查询sql工具。
用户4870038
2021/02/05
1.5K0
impala的介绍
大数据计算引擎:impala对比hive
Hive: 依赖于MapReduce执行框架,执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。
不吃西红柿
2022/07/29
6460
【学习】开源大数据查询分析引擎现状
文|叶蓬 【按:此文是与我的《基于大数据分析的安全管理平台技术研究及应用》同期发表在内刊上的我的同事们的作品,转载于此。这些基础性的研究和测试对比分析,对于我们的BDSA技术路线选定大有帮助。】 引言 大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon D
小莹莹
2018/04/23
3.3K0
【学习】开源大数据查询分析引擎现状
大数据分析查询引擎Impala
准实时分析系统Impala,提供SQL语义,能够为存储在Hadoop的HDFS和Hbase中的PB级大数据提供快速、交互式的SQL查询。传统仓库查询工具Hive底层是基于MapReduce引擎处理,是一个批处理过程,难以满足快速响应的查询,而Impala是基于MPP的查询系统,最大特点就是快速。
凹谷
2020/04/11
2.6K0
大数据Hadoop生态圈各个组件介绍(详情)
-coordination and management(协调与管理) -query(查询) -data piping(数据管道) -core hadoop(核心hadoop) -machine learning(机器学习) -nosql database(nosql数据库)
全栈程序员站长
2022/08/31
5.4K0
大数据Hadoop生态圈各个组件介绍(详情)
大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla的架构原理第 4 部分 Impala的使用
invalidate metadata全量刷新,性能消耗较⼤,主要⽤于hive当中新建数据库或者数据库表的时候来进 ⾏刷新。
用户2337871
2020/11/25
1.1K0
大数据篇---Impala学习第 1 部分 Impala概述第 2 部分 Impala 安装与⼊⻔案例第 3 部分 Imapla的架构原理第 4 部分 Impala的使用
主流大数据OLAP框架对比
随着互联网、物联网、5G、人工智能、云计算等技术的不断发展,越来越多的数据在互联网上产生,对互联网的运营也开始进入精细化,因此大数据、数据分析、数字营销开始变成每个互联网企业的重点。在做数据分析时有OLAP、OLTP是我们必定会遇到的技术,在介绍OLAP引擎技术选型之前,我们先看看这两个技术分别是什么意思?
qihang
2024/03/16
2.4K0
一文介绍hive与Impala的对比~
Impala是由Cloudera公司开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase上的PB级大数据,在性能上比Hive高出3~30倍。
大数据老哥
2021/10/11
4.3K0
一文介绍hive与Impala的对比~
大数据OLAP系统(2)——开源组件篇
开源大数据OLAP组件,可以分为MOLAP和ROLAP两类。ROLAP中又可细分为MPP数据库和SQL引擎两类。对于SQL引擎又可以再细分为基于MPP架构的SQL引擎和基于通用计算框架的SQL引擎:
Spark学习技巧
2020/12/28
2.5K0
大数据OLAP系统(2)——开源组件篇
Impala 与Hive
Impala 与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以吗? 一、介绍Impala和Hive
Albert陈凯
2018/04/04
1.4K0
Impala 与Hive
大数据开发:基于Hadoop的数仓设计
企业级的大数据平台,Hadoop至今仍然占据重要的地位,而基于Hadoop去进行数据平台的架构设计,是非常关键且重要的一步,在实际工作当中,往往需要有经验的开发工程师或者架构师去完成。今天的大数据开发分享,我们就来讲讲,基于Hadoop的数仓设计。
成都加米谷大数据
2021/01/07
1K0
大数据开发:基于Hadoop的数仓设计
数据仓库Hive 基础知识(Hadoop)
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。 一、概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反应历史变化(Time Variant)的数据集合,用于支持管理决策
小莹莹
2018/04/23
2.5K0
数据仓库Hive 基础知识(Hadoop)
后Hadoop时代的大数据架构
感谢董飞先生投稿,推荐关注其知乎专栏 【董老师在硅谷 http://zhuanlan.zhihu.com/#/donglaoshi】 提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家
大数据文摘
2018/05/22
9610
后Hadoop时代的大数据架构
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。适合处理非结构化数据,包括HDFS,MapReduce基本组件。 HDFS:提供
腾讯大数据
2018/01/26
1.8K0
大数据技术入门:impala查询引擎
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。----来源于百度百科
百思不得小赵
2022/12/01
8980
大数据技术入门:impala查询引擎
【聚焦】后Hadoop时代的大数据架构
提到大数据分析平台,不得不说Hadoop系统,Hadoop到现在也超过10年的历史了,很多东西发生了变化,版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代,这不是说不用Hadoop,而是像NoSQL (Not Only SQL)那样,有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章 如何学习Hadoop - 董飞的回答,为了给大家有个铺垫,简单讲一些相关开源组件。 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无
小莹莹
2018/04/23
1K0
【聚焦】后Hadoop时代的大数据架构
实时分析系统(Hive/Hbase/Impala)浅析
1. 什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高(几百上千同时并发)。 f. 支持SQL(这个业界基本上达成共识了,原因是很难找到一个又会数据分析,还能写JAVA代码的分析
大数据和云计算技术
2018/03/07
4K0
实时分析系统(Hive/Hbase/Impala)浅析
相关推荐
impala入门,从基础到架构!!!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档