首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

使用Spark读取Hive中的数据

使用Spark读取Hive中的数据 2018-7-25 作者: 张子阳 分类: 大数据处理 在默认情况下,Hive使用MapReduce来对数据进行操作和运算,即将HQL语句翻译成MapReduce...Hive和Spark的结合使用有两种方式,一种称为Hive on Spark:即将Hive底层的运算引擎由MapReduce切换为Spark,官方文档在这里:Hive on Spark: Getting...还有一种方式,可以称之为Spark on Hive:即使用Hive作为Spark的数据源,用Spark来读取HIVE的表数据(数据仍存储在HDFS上)。...因为Spark是一个更为通用的计算引擎,以后还会有更深度的使用(比如使用Spark streaming来进行实时运算),因此,我选用了Spark on Hive这种解决方案,将Hive仅作为管理结构化数据的工具...通过这里的配置,让Spark与Hive的元数据库建立起联系,Spark就可以获得Hive中有哪些库、表、分区、字段等信息。 配置Hive的元数据,可以参考 配置Hive使用MySql记录元数据。

11.3K60
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    HIVE中的表以及语法

    HIVE中的表以及语法 一、HIVE的表     HIVE使用的功能性的表格分为四种:内部表、外部表、分区表、分桶表。...1、内部表、外部表 1.特点     创建hive表,经过检查发现TBLS表中,hive表的类型为MANAGED_TABLE,即所谓的内部表。     ...但是在真实开发中,很可能在hdfs中已经有了数据,希望通过hive直接使用这些数据作为表内容。     此时可以创建hive表关联到该位置,管理其中的数据,这种方式创建出来的表叫做外部表。     ...6.添加上传数据     如果直接在HDFS中HIVE的某个表中上传数据文件,此时手动创建目录是无法被hive使用的,因为元数据库中没有记录该分区。     ...Load操作只是单纯的复制/移动操作,将数据文件移动到Hive表对应的位置。 5.Insert 1>内部插入查询结果     向hive表中插入一个查询的结果。

    2.1K40

    Hive的基本知识(二)Hive中的各种表

    换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。当您删除内部表时,它会删除数据以及表的元数据。...外部表: 外部表中的数据不是Hive拥有或管理的,只管理表元数据的生命周期。要创建一个外部表,需要使用EXTERNAL语法关键字。删除外部表只会删除元数据,而不会删除实际数据。...在Hive外部仍然可以访问 实际数据。 内部表、外部表差异: 无论内部表还是外部表,Hive都在Hive Metastore中管理表定义及其分区信息。...分区表: 当Hive表对应的数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进 行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段,分区字段不能是表中已经存在的字段...开启分桶的功能 ,从Hive2.0开始不再需要设置: 分桶表的使用好处: 1、 基于分桶字段查询时,减少全表扫描 2、 JOIN时可以提高MR程序效率,减少笛卡尔积数量 3、 分桶表数据进行抽样

    73120

    Hive的基本知识(二)Hive中的各种表

    换句话说,Hive完全管理表(元数据和数据)的生命周期,类似于RDBMS中的表。当您删除内部表时,它会删除数据以及表的元数据。...外部表: 外部表中的数据不是Hive拥有或管理的,只管理表元数据的生命周期。要创建一个外部表,需要使用EXTERNAL语法关键字。删除外部表只会删除元数据,而不会删除实际数据。...在Hive外部仍然可以访问 实际数据。 内部表、外部表差异: 无论内部表还是外部表,Hive都在Hive Metastore中管理表定义及其分区信息。...分区表: 当Hive表对应的数据量大、文件多时,为了避免查询时全表扫描数据,Hive支持根据用户指定的字段进 行分区,分区的字段可以是日期、地域、种类等具有标识意义的字段,分区字段不能是表中已经存在的字段...开启分桶的功能 ,从Hive2.0开始不再需要设置: 分桶表的使用好处: 1、 基于分桶字段查询时,减少全表扫描 2、 JOIN时可以提高MR程序效率,减少笛卡尔积数量 3、 分桶表数据进行抽样

    1.2K20

    Spark将Dataframe数据写入Hive分区表的方案

    欢迎您关注《大数据成神之路》 DataFrame 将数据写入hive中时,默认的是hive默认数据库,insert into没有指定数据库的参数,数据写入hive表或者hive表分区中: 1、将DataFrame...数据写入到hive表中 从DataFrame类中可以看到与hive表有关的写入API有一下几个: registerTempTable(tableName:String):Unit, inserInto(...2、将DataFrame数据写入hive指定数据表的分区中 hive数据表建立可以在hive上建立,或者使用hiveContext.sql("create table....")...,使用saveAsTable时数据存储格式有限,默认格式为parquet,将数据写入分区的思路是:首先将DataFrame数据写入临时表,之后由hiveContext.sql语句将数据写入hive分区表中...注意: 一个表可以拥有一个或者多个分区,每个分区以文件夹的形式单独存在表文件夹的目录下 hive的表和列名不区分大小写 分区是以字段的形式在表的结构中存在,通过desc table_name 命令可以查看到字段存在

    16.4K30

    hive学习笔记——Hive表中数据的导入和导出

    在创建数据表的过程中,Hive表创建完成后,需要将一些数据导入到Hive表中,或是将Hive表中的数据导出。...一、将数据导入Hive表 Hive表的数据导入主要有三种方式: 从本地文件系统中导入数据到Hive表中 从HDFS上导入数据到Hive表中 从别的表中查询出相应的数据导入到Hive表中 在创建Hive...查询数据库中的文件 ? 已经将制定的文件导入到Hive表中。...3、从别的表中查询出相应的数据导入到Hive表中    从别的表中查询出相应的数据导入到Hive表中的格式为: INSERT OVERWRITE TABLE tablename_1 PATITION()...SELECT * FROM ...; 3、导出到Hive的另一张表中 与从别的表中查询出相应的结果插入到表中类似,其格式为: INSERT INTO ...

    5.3K30

    hive学习笔记——Hive表中数据的导入和导出

    在创建数据表的过程中,Hive表创建完成后,需要将一些数据导入到Hive表中,或是将Hive表中的数据导出。...一、将数据导入Hive表 Hive表的数据导入主要有三种方式: 从本地文件系统中导入数据到Hive表中 从HDFS上导入数据到Hive表中 从别的表中查询出相应的数据导入到Hive表中 在创建Hive...查询数据库中的文件 ? 已经将制定的文件导入到Hive表中。...3、从别的表中查询出相应的数据导入到Hive表中    从别的表中查询出相应的数据导入到Hive表中的格式为: INSERT OVERWRITE TABLE tablename_1 PATITION()...二、从Hive表中将数据导出    对于Hive表中的数据,有时需要将其导出,或是导出到本地,或是导出到HDFS,再其次便是将其导入到另一张Hive表中。

    1.6K80

    Hive中库和表的常见操作

    //表中的字段信息 [COMMENT table_comment] //表的注释 [PARTITIONED BY (col_name data_type [COMMENT col_comment],...INTO num_buckets BUCKETS] [ROW FORMAT row_format] // 表中数据每行的格式,定义数据字段的分隔符,集合元素的分隔符等 [STORED AS file_format...外部表在执行删除表操作时,只删除表的元数据(schema),不会删除在hive上的实际数据。 在企业中,创建的都是外部表!在hive中表是廉价的,数据是珍贵的!...建表语句执行时: hive会在hdfs生成表的路径; hive还会向MySQl的metastore库中掺入两条表的信息(元数据) 管理表和外部表之间的转换: 将表改为外部表: alter table...); 注意:在hive中语句中不区分大小写,但是在参数中严格区分大小写!

    1.1K42

    Spark中的聚类算法

    Spark - Clustering 官方文档:https://spark.apache.org/docs/2.2.0/ml-clustering.html 这部分介绍MLlib中的聚类算法; 目录:...,它将数据聚集到预先设定的N个簇中; KMeans作为一个预测器,生成一个KMeansModel作为基本模型; 输入列 Param name Type(s) Default Description featuresCol...transformed = model.transform(dataset) transformed.show(truncate=False) Bisecting k-means Bisecting k-means是一种使用分裂方法的层次聚类算法...:所有数据点开始都处在一个簇中,递归的对数据进行划分直到簇的个数为指定个数为止; Bisecting k-means一般比K-means要快,但是它会生成不一样的聚类结果; BisectingKMeans...,spark.ml基于给定数据通过期望最大化算法来归纳最大似然模型实现算法; 输入列 Param name Type(s) Default Description featuresCol Vector

    2.1K41

    CDP中的Hive3系列之Hive3表

    虽然不能使用SQL UPDATE或DELETE语句删除某些类型的表中的数据,但是可以对任何类型的表使用DROP PARTITION来删除数据。...当您想使用Hive以外的其他工具直接在文件级别访问数据时,通常使用外部表。您还可以使用存储处理程序(例如Druid或HBase)来创建位于Hive元存储之外的表。...CDP 中的 Hive 3.1 包括 SQL 兼容性 (Hive-16907),它拒绝 `db.table`SQL 查询。表名中不允许使用点 (.)。...创建、使用和删除外部表 使用外部表(该表不是Hive所管理的表)将数据从文件系统上的文件导入Hive。...您需要使用以下方法之一设置对文件系统中的外部表的访问。 在 Ranger 中设置 Hive HDFS 策略(推荐)以包含外部表数据的路径。 放置一个 HDFS ACL。

    2.1K60

    Hive 中内部表与外部表的区别与创建方法

    先来说下Hive中内部表与外部表的区别: Hive 创建内部表时,会将数据移动到数据仓库指向的路径;若创建外部表,仅记录数据所在的路径, 不对数据的位置做任何改变。...注意:location后面跟的是目录,不是文件,hive会把整个目录下的文件都加载到表中: create EXTERNAL table IF NOT EXISTS userInfo (id int,sex...在当前用户hive的根目录下找不到sunwg_test09文件夹。 此时hive将该表的数据文件信息保存到metadata数据库中。...中partition如何使用 http://p-x1984.iteye.com/blog/1156408 用正则表达式匹配w3c日志,导入hive http://essen.iteye.com/blog.../1720491 hive中的外表EXTERNAL TABLE http://www.oratea.net/?

    2.6K90

    六、Hive中的内部表、外部表、分区表和分桶表

    在Hive数据仓库中,重要点就是Hive中的四个表。Hive 中的表分为内部表、外部表、分区表和分桶表。 内部表 默认创建的表都是所谓的内部表,有时也被称为管理表。...当我们删除一个管理表时,Hive 也会删除这个表中数据。管理表不适合和其他工具共享数据。...分区表 分区表实际上就是对应一个 HDFS 文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hive 中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。...同时表和分区也可以进一步被划分为 Buckets,分桶表的原理和 MapReduce 编程中的 HashPartitioner 的原理类似;分区和分桶都是细化数据管理,但是分区表是手动添加区分,由于 Hive...分桶表的数据通常只能使用 CTAS(CREATE TABLE AS SELECT) 方式插入,因为 CTAS 操作会触发 MapReduce,因此分桶的时间是比较长的,因为要进行MapReduce操作。

    2K40

    Hive快速入门系列(9) | Hive表中数据的加载与导出

    本次博主为大家带来的是Hive表中数据的加载与导出。希望能够帮助到大家。 一....Hive表中加载数据 1.1 直接向分区表中插入数据 create table score3 like score; insert into table score3 partition(month...1.4 查询语句中创建表并加载数据(as select) 将查询的结果保存到一张表当中去 create table score5 as select * from score; 1.5 创建表时通过location...Hive表中的数据导出(了解就行)   将hive表中的数据导出到其他任意目录,例如linux本地磁盘,例如hdfs,例如mysql等等 2.1 insert导出 1....清空表数据 只能清空管理表,也就是内部表 truncate table score6; 清空这个表会报错 本次的分享就到这里了

    1K10
    领券