Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hive如何创建elasticsearch外部表

Hive如何创建elasticsearch外部表

原创
作者头像
空洞的盒子
发布于 2023-11-27 04:01:11
发布于 2023-11-27 04:01:11
1.7K10
代码可运行
举报
文章被收录于专栏:JD的专栏JD的专栏
运行总次数:0
代码可运行

前言

Elasticsearch 是一个开源的分布式搜索和分析引擎,建立在 Apache Lucene 基础上。它提供了一个可扩展的、实时的搜索和分析平台,用于处理和分析大规模的结构化和非结构化数据。 在类实时读写与全文检索上有极大的优势。

Hive 是一个基于 Hadoop数据仓库工具,它提供了一种类似于 SQL 的查询语言(HiveQL)来进行数据分析和查询。Hive 的设计目标是为那些熟悉 SQL 的用户提供一种简单的方式来处理大规模的结构化和半结构化数据。

elasticsearch SQL

elasticsearch便于用户更加方便的进行数据查询,所以提供了SQL查询功能,其本质是将SQL语句解析为DSL语句进行执行并返回结果。elasticsearch SQL API仅支持group by,count,order by,having,limit等简单的函数,如果我们需要使用复杂SQL逻辑进行数据查询时,无法得到很好的支持。

外部表

Hive提供了一种外部表的功能,外部表只需要与数据存储位置上的现有数据建立关联,无需将数据移动至Hive存储库中进行存储,即可使用外部数据源。

创建外部表只需在创建表时使用 `EXTERNAL` 关键字指定表的类型。在以下样例中:我们在'LOCATION'参数指定了外部数据的存储位置。Hive 将使用该位置中的数据来填充外部表。

代码语言:sql
AI代码解释
复制
CREATE EXTERNAL TABLE my_external_table (
  column1 INT,
  column2 STRING
)
LOCATION '/path/to/external/data';

elasticsearch外部表

借助于Hive强大且完善的类SQL能力,我们可以在Hive中通过创建elasticsearch外部表的方式来实现对elasticsearch集群数据的查询。极大程度降低了elasticsearch数据的查询门槛。

创建方式如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
CREATE EXTERNAL TABLE IF NOT EXISTS ods.hive_elastic_table_test ( user_id string,
country string,
province string,
city string,
gender int
)
STORED BY 'org.elasticsearch.hadoop.hive.EsStorageHandler' TBLPROPERTIES(
'es.index.auto.create'='false', 'es.index.read.missing.as.empty'='true', 'es.nodes.wan.only'='true', 'es.nodes.discovery' = 'false',
'es.nodes' = 'IP',
'es.port' = '9200',
'es.read.metadata'='true',
'es.resource' = 'es_index/_doc',
'es.mapping.names' = 'user_id:user_id, country:country, province:province, gender:gender', 'es.net.http.auth.pass'= '',
'es.net.http.auth.user'= 'elastic-reader' )
;

INSERT OVERWRITE TABLE hive_elastic_table_test
SELECT a.user_id, a.country, a.province, a.city, a.gender FROM (
SELECT user_id
,country
,province
,city
,gender
FROM hs_user
) a;

在创建过程中,可能会出现以下报错:

代码语言:java
AI代码解释
复制
Error: java.lang.RuntimeException: java.lang.NoClassDefFoundError: org/apache/commons/httpclient/HttpConnection Manager
at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:157) at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:175)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:422)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1844) at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:169)
Caused by: java.lang.NoClassDefFoundError: org/apache/commons/httpclient/HttpConnectionManager
at org.elasticsearch.hadoop.rest.commonshttp.CommonsHttpTransportFactory.create(CommonsHttpTransportFac
tory.java:40)
at org.elasticsearch.hadoop.rest.NetworkClient.selectNextNode(NetworkClient.java:99)
at org.elasticsearch.hadoop.rest.NetworkClient.<init>(NetworkClient.java:82)
at org.elasticsearch.hadoop.rest.NetworkClient.<init>(NetworkClient.java:58)
at org.elasticsearch.hadoop.rest.RestClient.<init>(RestClient.java:101)
at org.elasticsearch.hadoop.rest.RestService.createWriter(RestService.java:620)
at org.elasticsearch.hadoop.mr.EsOutputFormat$EsRecordWriter.init(EsOutputFormat.java:175)
at org.elasticsearch.hadoop.hive.EsHiveOutputFormat$EsHiveRecordWriter.write(EsHiveOutputFormat.java:59) at org.apache.hadoop.hive.ql.exec.FileSinkOperator.process(FileSinkOperator.java:762)
at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:897)
at org.apache.hadoop.hive.ql.exec.SelectOperator.process(SelectOperator.java:95)
at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:897)
at org.apache.hadoop.hive.ql.exec.TableScanOperator.process(TableScanOperator.java:130)
at org.apache.hadoop.hive.ql.exec.MapOperator$MapOpCtx.forward(MapOperator.java:148)
at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:547)
at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:148)
... 8 more
Caused by: java.lang.ClassNotFoundException: org.apache.commons.httpclient.HttpConnectionManager
at java.net.URLClassLoader.findClass(URLClassLoader.java:382)
at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:352) at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
... 24 more
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask

解决方法

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
cp hadoop/share/hadoop/tools/lib/commons-httpclient-3.1.jar hive/auxlib/ 

elasticsearch外部表的优势

1. 统一查询接口:Hive 提供了统一的SQL查询接口,使得可以使用标准的SQL语句来查询Elasticsearch的数据。不需要学习elasticsearch的查询语法,可以直接使用熟悉的 SQL 进行数据分析和查询。

2. 弹性扩展:通过Hive创建elasticsearch外部表,可以将elasticsearch 的数据与其他数据源进行联合查询。这样可以方便地在Hive中进行跨数据源的分析和聚合操作,实现更复杂的数据处理需求。

3. 数据格式转换:Hive支持对数据进行格式转换,可以将 Elasticsearch 中的数据转换为其他格式,如Parquet、ORC 等。这样可以提高数据的存储效率和查询性能。

4. 数据仓库集成:Hive 是一种常用的数据仓库工具,可以与其他数据仓库组件(如 Hadoop、Spark 等)进行集成。通过将 elasticsearch数据与其他数据源整合到 Hive 中,可以更好地管理和组织数据,并进行更复杂的数据处理和分析。

5. 安全性和权限控制:Hive 提供了灵活的安全性和权限控制机制,可以对elasticsearch外部表进行访问控制,保护数据的安全性。

注意事项:Hive中的某些高级特性(如事务、复杂数据类型等)可能无法与elasticsearch完全兼容。数据的一致性和实时性也需要根据具体的数据同步策略进行管理。

我正在参与2023腾讯技术创作特训营第三期有奖征文,组队打卡瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
可以可以
可以可以
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
3万字史诗级 Hive 性能调优(建议收藏)
Hive 作为大数据领域常用的数据仓库组件,在平时设计和查询的时候要特别注意效率 。影响 Hive 效率的几乎从不是数据量过大,而是数据倾斜、数据冗余、Job或I/O过多、MapReduce 分配不合理等等。 对Hive 的调优既包含 Hive 的建表设计方面,对 HiveHQL 语句本身的优化,也包含 Hive 配置参数 和 底层引擎 MapReduce 方面的调整 。
肉眼品世界
2022/06/15
5.1K0
3万字史诗级 Hive 性能调优(建议收藏)
Hive 正则序列化器RegexSerDe
RegexSerDe 可以从 Hive 两个jar文件的类中获取,hive-serde-<version>.jar中的 org.apache.hadoop.hive.contrib.serde2.RegexSerDe 以及 hive-contrib-<version>.jar 中的 org.apache.hadoop.hive.serde2.RegexSerDe。
smartsi
2019/08/07
1.7K0
hive基础总结(面试常用)
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录 Hive数据存储在HDFS,大部分的查询、计算由mapreduce完成 Hive数据仓库于数据库的异同 (1)由于Hive采用了SQL的查询语言HQL,因此很容易将Hive理解为数据库。其实从结构上来看,Hive和数据库除了拥有类似的查询语言, 再无类似之处。 (2)数据存储位置。 hdfs raw local fs (3)数据格式。 分隔符 (4)数据更新。hive读多写少。Hive中不支持对数据的改写和添加,所有的数据都是在加载的时候中确定好的。 INSERT INTO … VALUES添加数据,使用UPDATE … SET修改数据 不支持的 HDFS 一次写入多次读取 (5) 执行。hive通过MapReduce来实现的 而数据库通常有自己的执行引擎。 (6)执行延迟。由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致Hive执行延迟高的因素是MapReduce框架 (7)可扩展性 (8)数据规模。 hive几种基本表类型:内部表、外部表、分区表、桶表 内部表(管理表)和外部表的区别: 创建表 外部表创建表的时候,不会移动数到数据仓库目录中(/user/hive/warehouse),只会记录表数据存放的路径 内部表会把数据复制或剪切到表的目录下 删除表 外部表在删除表的时候只会删除表的元数据信息不会删除表数据 内部表删除时会将元数据信息和表数据同时删除 表类型一、管理表或内部表Table Type: MANAGED_TABLE
用户1217611
2019/05/25
8540
腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇
腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇
ethanzhang
2018/12/10
5.4K1
腾讯云EMR&Elasticsearch中使用ES-Hadoop之MR&Hive篇
Hive多分隔符支持示例
如何将上述事例数据加载到Hive表(multi_delimiter_test)中,表结构如下:
Fayson
2018/03/29
3.7K0
Hive多分隔符支持示例
答应我,别在CDH5中使用ORC好吗
当我们在使用ORC文件格式创建Hive表,并且对Hive表的schema进行更改后,然后进行如insert into…select或insert overwrite … select会报错,以下具体看看报错。
Fayson
2018/11/16
3.3K0
【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收
group by和聚合函数(sum count max min)一起使用 group by和以上的聚合函数一起使用的时候会默认在map端执行一次combiner(局部聚合:减少reducetask的数据量,这个时候reduce端接受的数据就会大大减少 一般不会出现数据倾斜 select id,count(*) from course group by id;
从大数据到人工智能
2022/09/16
1.8K0
【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收
hive 异常值_could not instantiate bean class
问题原因通常是:表的inputformat 和 outputformat 是 orc,而序列化serde不是orc
全栈程序员站长
2022/09/30
6260
hive weekofyear 怪异的姿势
今天在使用hive函数weekofyear的时候遇到一个奇怪的情况,原sql如下:
大数据工程师-公子
2019/03/14
8130
hive面试题汇总
order by:order by 是要对输出的结果进⾏全局排序,这就意味着只有⼀个reducer才能实现(多个reducer⽆法保证全局有序)但是当数据量过⼤的时候,效率就很低。如果在严格模式下(hive.mapred.mode=strict),则必须配合limit使⽤
从大数据到人工智能
2022/03/11
1.4K0
一脸懵逼学习Hive(数据仓库基础构架)
Hive是什么?其体系结构简介* Hive的安装与管理* HiveQL数据类型,表以及表的操作* HiveQL查询数据*** Hive的Java客户端** Hive的自定义函数UDF* 1:什
别先生
2018/01/02
3.1K0
一脸懵逼学习Hive(数据仓库基础构架)
Hive 内部表与外部表
托管表(内部表)和外部表是Hive中的两种不同类型的表,在这篇文章中,我们将讨论Hive中表的类型以及它们之间的差异以及如何创建这些表以及何时将这些表用于特定的数据集。
smartsi
2019/08/07
3.7K0
Elasticsearch与Hive的数据互导
首先先下载一个叫"elasticsearch-hadoop-hive"的JAR包,放到相应路径下:https://jar-download.com/artifacts/org.elasticsearch/elasticsearch-hadoop-hive
dandelion1990
2019/06/27
6.6K2
【Hive】Hive 的基本认识
Hive 是由 Facebook 开源的基于 Hadoop 的数据仓库工具,用于解决海量「结构化日志」的数据统计。
阿泽 Crz
2020/07/21
1.5K0
【Hive】Hive 的基本认识
hive学习笔记之三:内部表和外部表
至此,咱们对内部表和外部表已经有了基本了解,接下来的文章学习另一种常见的表类:分区表;
程序员欣宸
2021/06/29
1K0
hive学习笔记之三:内部表和外部表
使用Hive读写ElasticSearch中的数据
ElasticSearch已经可以与YARN、Hadoop、Hive、Pig、Spark、Flume等大数据技术框架整合起来使用,尤其是在添加数据的时候,可以使用分布式任务来添加索引数据,尤其是在数据平台上,很多数据存储在Hive中,使用Hive操作ElasticSearch中的数据,将极大的方便开发人员。这里记录一下Hive与ElasticSearch整合,查询和添加数据的配置使用过程。基于Hive0.13.1、Hadoop-cdh5.0、ElasticSearch 2.1.0。
Java架构师必看
2021/08/12
1.5K0
Hive on spark下insert overwrite partition慢的优化
    这几天发现insert overwrite partition运行的很慢,看了下是hive on spark引擎,这引擎平时比mapreduce快多了,但是怎么今天感觉比mapreduce慢了好几倍,运行了1h多还没运行完。
克虏伯
2020/08/10
2.8K0
[1217]org.apache.hadoop.hive.ql.exec.mr.MapRedTask. GC overhead limit exceeded
然后根据job的id去yarn上面查询了一下日志,发现报错如下: FATAL [main] org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.OutOfMemoryError: GC overhead limit exceeded
周小董
2023/10/10
7430
Hive 创建外部表 原
1. 将数据上传至 hdfs hdfs dfs -put stocks /user/bigdata 2. 创建外部表 create external table if not exists stock
北漂的我
2019/05/29
1.8K0
Sqoop从Oracle导入一个大表(3亿)到Hive失败
大约3亿条记录 SQL> SELECT count(*) FROM INFO; COUNT(*) ---------- 294239674 SQL> 导入Hive [root@node1 sqoop-1.4.7]# bin/sqoop import --connect jdbc:oracle:thin:@node1:1521:ORA --username test --password test --table info --hive-import --target-dir temp_table
程裕强
2022/05/06
8860
相关推荐
3万字史诗级 Hive 性能调优(建议收藏)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验