kudu sql - 腾讯云开发者社区

文章/答案/技术大牛

发布

优化spark sql读取 kudu数据

实战 1.背景通过 spark sql 读取 kudu 数据，由于 kudu 表只有 6 个 tablet ，所以 spark 默认只能启动 6 个 task，读取 kudu 数据，通过界面可以看到...kudu 的 scan 维持在 143M/s ，想要增大 spark 读取 kudu 的效率。...[在这里插入图片描述](https://img-blog.csdnimg.cn/2020051118163413.png) 2.修改通过追踪 kudu-spark.jar 的源码知道 ?..." -> kuduMasters, "kudu.table" -> kuduTableName, //200M "kudu.batchSize..." -> "419430400", //10G "kudu.splitSizeBytes" -> "10737418240")).format("kudu

2.3K3 0

大数据Kudu（七）：Kudu分区策略

Kudu分区策略Kudu表分为多个tablet，理想情况下，tablets应该相对平等地拆分表的数据，Kudu目前没有自动拆分预先存在的 tablets 的机制。所以在创建Kudu表时必须指定分区。...Kudu表的分区分为范围分区、hash分区、高级分区三种，分区字段必须来自于主键字段。使用Impala创建表时，可以使用 PARTITION BY 子句指定分区。...kuduClient.createTable("t_range_partition", schema, options);//关闭kuduClient对象kuduClient.close();以上代码执行完成后，可以通过Kudu...Arrays.asList("id"),10 );//创建表kuduClient.createTable("t_hash_partition", schema, options);以上代码创建完成后，可以通过Kudu...lower,upper );}//创建表kuduClient.createTable("t_hash_range_partition", schema, options);以上代码创建完成后，可以通过Kudu

1.6K9 1

您找到你想要的搜索结果了吗？

是的

没有找到

大数据Kudu（一）：什么是Kudu

以上业务系统，既要求对数据进行随机读写，又要求对数据进行批量分析操作，针对以上业务场景我们就可以选择Kudu。...一、Kudu概念Kudu是Cloudera在2015年9月开源的分布式数据存储引擎，其结合了HDFS和HBase的优势，可以同时提供高效的随机访问以及数据扫描能力。...Kudu支持数据的实时插入和分析，为实时的OLAP计算提供了另外一种选择。...Kudu的随机读写速度和HBase相似，但是达不到HBase随机读写性能，Kudu批量查询数据性能媲美HDFS parquet，但是比HDFS批量查询慢，所以kudu更像是HDFS与HBase的一个折中选择...二、Kudu 适用场景Kudu适用于以下场景：对数据既支持扫描(scan)又支持随机访问(random access)同时具有高性能，简化用户复杂的混合架构场景。数据需要更新，避免额外的数据迁移。

4K12 1

大数据Kudu（二）：Kudu架构

Kudu架构一、Kudu存储模型及概念Kudu有自己的数据存储模型，不依赖于HDFS、Hive、HBase其他大数据组件。...Kudu有自己的集群，数据存储在Kudu自己的集群Tablet Server中。Kudu的存储模型是有结构的表，表中有主键，并且主键唯一，不能重复。事务支持上与HBase类似，只支持行级ACID事务。...Kudu是列式存储，支持数据压缩。Kudu不支持标准SQL，支持Nosql样式的API,例如：put,get,delete,scan。...一般企业中kudu与impala进行整合使用，可以使用SQL对数据进行实时OLAP分析。Table:table是数据存储在Kudu的位置，具有schema和全局有序的 primary key。...二、Kudu table存储原理对于一张特定的Kudu表，存储结构如下：Kudu数据存储实现如下：一个table根据hash或者range分区分成多个tablet,每个tablet

1.4K11 1

大数据Kudu（六）：Kudu Java Api操作

Kudu Java Api操作Kudu没有提供标准SQL操作，支持Nosql样式的API，这里使用Java 操作Kudu ，包括创建表、插入数据、修改删除数据、删除表等操作，值得注意的是，Java...api直接操作Kudu在开发中不是常用的方式，常用方式是Spark操作Kudu、Kudu与Impala整合写SQL操作Kudu。...一、添加Maven依赖Java操作Kudu需要在创建好的Maven项目中导入kudu-client依赖，此外我们这里使用的是CDH版本的kudu依赖包，maven默认不支持CHD相关依赖，...-- 添加kudu-client依赖 --> org.apache.kudu kudu-clientKudu查看到对应的表。三、插入数据向Kudu表中插入数据经过以下步骤：创建KuduClient对象，连接Kudu集群。

1.5K10 2

大数据Kudu（九）：Spark操作Kudu

Spark操作Kudu一、添加Maven依赖使用SparkSQL操作Kudu，这里需要导入Kudu与SparkSQL整合的包和SparkSQL的包，在Maven中导入如下依赖...--添加kudu-spark 依赖--> org.apache.kudu kudu-spark2_2.11...-- Spark SQL --> org.apache.spark spark-sql_2.11KUDU_TABLE) /** * 查询Kudu表数据 */// queryData(kuduContext,sc,KUDU_TABLE) /** *...:7051,cm2:7051", "kudu.table" ->"t_spark_kudu")//frame注册表操作frame.createTempView("tmp")session.sql(

1.4K11 2

大数据Kudu（四）：Kudu集群搭建

Kudu集群搭建一、kudu 安装包Kudu官网没有提供好编译好的Kudu安装包，我们可以下载源码进行编译获取安装包，这里为了方便我们直接使用Cloudera 提供的CDH版本kudu安装包：centos7...下载地址：http://archive.cloudera.com/kudu/redhat/7/x86_64/kudu/5/RPMS/x86_64/下载对应如下几个rpm安装包即可：kudu-1.4.0+...：service kudu-tserver start2、检查kudu是否启动成功在每台节点可以执行“ps aux|grep kudu”来查看对应的Kudu进程。...如果启动Kudu出错或者没有对应的Kudu进程，可以在/var/log/kudu目录下查看日志。...3、访问Kudu WebUI页面Kudu启动成功后，可以通过访问http://Master Server IP:8051来访问Kudu WebUI。

1.4K5 1

大数据Kudu（十）：Flink操作Kudu

Flink操作KuduFlink主要应用场景是流式数据处理上，有些公司针对流式数据使用Flink实时分析后将结果存入Kudu,例如快手公司。...这里将实时计算的结果存入Kudu需要自定义Flink Kudu Sink。...场景：Flink实时读取Socket数据，将结果存入Kudu表t_flink_result,为了方便操作不再创建Kudu外表，这里在Impala中创建Kudu内表t_flink_result：create...对象 var kuduClient :KuduClient = _ //Kudu 表对象 var kuduTable :KuduTable = _ //创建KuduSession 客户端会话...var session: KuduSession = _ //初始化时调用一次，这里初始化连接Kudu的对象 override def open(parameters: Configuration)

1.4K9 1

大数据Kudu（十一）：ClickHouse与Kudu对比

ClickHouse与Kudu对比kudu 2015年9月28号出现第一个测试版本0.5.0，2016年2月26第一个正式版0.7.发布。clickhouse 2018年3月开源正式版出现。...元数据管理Kudu使用Master Server管理元数据。ClickHouse使用Zookeeper管理元数据。...SQL支持Kudu不支持标准SQL,有put，get等api代码操作；与Impala整合后支持SQL操作。ClickHouse对于标准SQL的支持相对完好。...数据CRUDKudu支持数据更新，删除操作，可以通过api代码实现，也可以通过与impala整合SQL实现；仅支持单条数据的事务。...Kudu对数据快速读取和快速插入数据的场景支持比较好，原子数据查询延迟低，与Impala整合可以做OLAP操作。

1.2K5 1

大数据Kudu（三）：Kudu读写数据过程

Kudu读写数据过程一、写入数据当 Client 请求写数据时，先根据主键从 Mater Server 中获取要访问的目标 Tablets，然后到对应的 Tablet 获取数据。...因为 KUDU 表存在主键约束，所以需要进行主键是否已经存在的判断。一个 Tablet 中存在很多个 RowSets，为了提升性能，我们要尽可能地减少要扫描的 RowSets 数量。

9844 2

大数据Kudu（八）：Kudu与Impala整合

Kudu与Impala整合Impala是cloudera提供的一款高效率的sql查询工具，使用内存进行计算提供实时的SQL查询,impala强依赖于Hive 的MetaStore，直接使用hive的元数据...，意味着impala元数据都存储在hive的MetaStore当中，并且impala兼容hive的绝大多数sql语法,具有实时，批处理，多并发等优点。...Kudu不支持标准SQL操作，可以将Kudu与Apache Impala紧密集成，impala天然就支持兼容kudu，允许开发人员使用Impala的SQL语法从Kudu的tablets 插入，查询，更新和删除数据...，Kudu与Impala整合本质上就是为了可以使用Hive表来操作Kudu,主要支持SQL操作。...四、Impala SQL操作Kudu在Impala中创建内部表 t_test，存储在Kudu中：CREATE TABLE t_test(id int ,name string

1.9K6 2

kudu可视化工具:kudu-plus

kudu Kudu是为Apache Hadoop平台开发的列式数据库。Kudu拥有Hadoop生态系统应用程序的常见技术属性：它可以商用硬件上运行，可横向扩展，并支持高可用性操作。...kudu-plus是什么 kudu-plus是可视化管理kudu的工具，由于kudu虽然是列式数据库，但是可以表达成关系数据库类似的表和字段等信息，某种情况下通过可视化管理更加轻松。...java操作分区：查看测试用例部分代码 kudu主键设计：每个Kudu表必须声明由一列或多列组成的主键。与RDBMS主键一样，Kudu主键强制执行唯一性约束。...v0.0.1（当前）查看kudu集群所有表创建kudu表删除kudu表重命名kudu表更新kudu表结构：修改非主键列名、修改非主键列默认值、修改非主键列的是否允许为空、新增非主键字段、删除非主键字段...查看kudu表分区信息预览kudu表数据编辑kudu表非主键列数据删除kudu表数据行新增kudu表数据行检索kudu表数据添加筛选条件 v0.0.2功能（预期）创建kudu表可以添加hash

9683 0

大数据Kudu（五）：Kudu基于Cloudera Manager安装及配置

Kudu基于Cloudera Manager安装及配置使用Kudu一般都会和impala进行整合，impala与Hive是强依赖关系，需要安装Hive，安装Hive需要安装HDFS等，以上各个技术组件的版本都需要对应匹配...，由于Kudu没有直接的安装包，为了方便我们可以选择基于Cloudera Manager进行安装Kudu及相关大数据组件。...start cloudera-scm-agent#登录Cloudera Manager user:admin pwd:adminhttp://cm1:7180二、登录ClouderaManager平台安装Kudu...三、选择Master Server 两台节点和Tablet Server 3台节点四、配置Kudu WAL目录和数据目录等待安装完成即可，可以通过Cloudera Manager 界面来访问Kudu。

9889 3

Apache Kudu 架构

delete语句与标准sql语法相同。...；假如sql没问题，那在impala-shell执行这个sql，最后执行summray命令，重点查看单点峰值内存和时间比较大的点，对相关的表做优化，解决数据倾斜问题 kudu数据删。...假如说，我们想要sql实时对大量数据进行分析该怎么办？或者是我想让数据存储能够支持Upsert（更新插入操作），又该怎么办？所以这就是kudu的优势。...KUDU在 HDFS 和 HBase 这两个中平衡了随机读写和批量分析的性能，既支持了SQL实时查询，也支持了数据更新插入操作。...[oqfg7jhvg1.png] hdfs不支持批量更新操作，kudu支持 hdfs适用于离线sql分析，kudu适用于实时sql分析 hbase不支持sql操作，kudu支持（hbase-hive

2.4K3 1

Apache Kudu 2

java.sql.Timestamp; import java.util.ArrayList; import java.util.List; import java.util.UUID; /**...impala命令刷新元数据 1.impala-shell 命令进入交互界面执行 invalidate metadata; 命令刷新元数据 2.Hue的wen页面中，在impala执行sql...表的update操作不能更改主键的值，其他与标准sql语法相同。...delete语句与标准sql语法相同。...-------------------------------------------------------------------------- 优化评估 SQL 谓词的性能如果您的查询的

2.2K4 1

FAQ系列之Kudu

Apache Kudu 准备好部署到生产环境了吗？是的！Kudu 已经在许多大公司的生产中进行了实战测试。 Kudu 是开源的吗？...除了培训之外，您还可以通过文档、邮件列表和Kudu 聊天室获得有关使用 Kudu 的帮助。有Kudu的快速入门吗？是的。...Kudu 的快速入门指南中提供了有关通过基于 Docker 的快速入门在 Kudu 上启动和运行的说明。 Kudu 如何存储其数据？底层数据存储不经过Kudu就可读吗？...Kudu 是一个存储引擎，而不是 SQL 引擎。...Kudu是否有可用的 JDBC 驱动程序？ Kudu 不是 SQL 引擎。JDBC 和 ODBC 驱动程序的可用性将由与 Kudu 结合使用的 SQL 引擎决定。

2.6K4 0

Apache Kudu 1.8.0 发布

10月26日，Kudu在其社区官宣了Kudu 1.8.0的正式发布。...2.添加了对Kudu Python客户端的IS NULL和IS NOT NULL谓词的支持。 3.改进多种工具从而简化诊断和故障排除。...具体参考： https://kudu.apache.org/releases/1.8.0/docs/release_notes.html Apache Kudu项目仅仅只是发布了源代码，要创建Kudu1.8...，需要遵循以下2步： 1.下载Kudu的源代码： https://kudu.apache.org/releases/1.8.0/ 2.按照文档创建Kudu1.8： https://kudu.apache.org...q=g:org.apache.kudu%20AND%20v:1.8.0 Python客户端的源码参考： https://pypi.org/project/kudu-python/

9734 0

Kudu异常总结

1、impala不支持kudu表的关键字：PARTITIONED - LOCATION - ROWFORMAT（官方链接：Impala Keywords Not Supported for Kudu...; 异常信息： ERROR: ImpalaRuntimeException: Error creating Kudu table 'impala::kudu_test.t_scd_order_kudu_...[https://community.cloudera.com/t5/Interactive-Short-cycle-SQL/Received-ImpalaRuntimeException-Error-creating-Kudu-table.../m-p/52449](https://community.cloudera.com/t5/Interactive-Short-cycle-SQL/Received-ImpalaRuntimeException-Error-creating-Kudu-table...administration.html#migrate_to_multi_master https://community.cloudera.com/t5/Interactive-Short-cycle-SQL

2.5K3 1

四万字硬刚Kudu | Kudu基础原理实践小总结

这样会带来两个特别的问题,两套系统、两份代码，开发、运维、测试都很复杂,整个处理链条中有一处出现问题就需要重跑数据 Kudu设计模式非常易于跟其他组件整合以支持SQL或者进行分布式计算,非常利于从其他关系型数据库迁移数据...预测的结果存储在Kudu中，我们也可以使用Impala或者Spark SQL进行交互式查询，见下图。...作为可选的方案可使用Spark SQL，但这里为了比较使用MADlib库训练的回归模型和使用Saprk MLlib训练的模型，故用Impala。...首先，Spark加载JSON文件并使用Spark SQL注册为一张表。你也可以直接从Kudu加载数据，但此列子直接用Spark读取JSON文件。...运行一个类似在前面Impala中使用的查询语句来获取小时的RSVP数据： val meetup2 = sqlContext.sql(" select from_unixtime(cast(mtime

3.9K4 2

Apache Kudu入门学习

Apache Kudu 是一个开源分布式数据存储引擎，可以轻松地对快速变化的数据进行快速分析。...官网地址： Apache Kudu - Fast Analytics on Fast Data 二、背景在 KUDU 之前，大数据主要以两种方式存储：静态数据：以 HDFS 引擎作为存储引擎，适用于高吞吐量的离线大数据分析场景...Kudu的设计，就是试图在实时分析与随机读写之间，寻求一个最佳的结合。...在Cloudera发布的《Kudu: New Apache Hadoop Storage for Fast Analytics on Fast Data》一文中有提及，Kudu作为一个新的分布式存储系统也是为了进一步提升...默认情况下，kudu不压缩数据。通常情况下，压缩算法会提高空间利用率，但是会降低scan性能。 2、主键设计同RDBMS一样，kudu的主键同样采用了唯一性约束。一旦主键创建了之后便不能更改。

5633 0

点击加载更多

优化spark sql读取 kudu数据

大数据Kudu（七）：Kudu分区策略

大数据Kudu（一）：什么是Kudu

大数据Kudu（二）：Kudu架构

大数据Kudu（六）：Kudu Java Api操作

大数据Kudu（九）：Spark操作Kudu

大数据Kudu（四）：Kudu集群搭建

大数据Kudu（十）：Flink操作Kudu

大数据Kudu（十一）：ClickHouse与Kudu对比

大数据Kudu（三）：Kudu读写数据过程

大数据Kudu（八）：Kudu与Impala整合

kudu可视化工具:kudu-plus

大数据Kudu（五）：Kudu基于Cloudera Manager安装及配置

Apache Kudu 架构

Apache Kudu 2

FAQ系列之Kudu

Apache Kudu 1.8.0 发布

Kudu异常总结

四万字硬刚Kudu | Kudu基础原理实践小总结

Apache Kudu入门学习

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐