首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Apache Kylin原理与架构

Kylin的介绍 Apache Kylin是一个开源的大数据分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力(可以把Kylin定义为OLAP on Hadoop)。...Kylin的工作原理 Kylin的核心思想是预计算,即对多维度可能用到的度量进行预计算,将计算好的结果保存到Cube并写入到HBase中,这样在查询的时候直接查询HBase即可。...Kylin拥有很好的快速查询能力和高并发处理能力,原因是kylin将高复杂度和多表连接操作转换成预计算结果的查询。 Kylin的一个主要特点之一就是 空间换时间。...kylin的计算逻辑: 介绍两个kylin中的两个概念:cube和cubeid Cubeid:kylin中将维度任意组合成为一个cubeid Cube :kylin中将所有维度组合为一个cube,即包含所有的...: http://kylin.apache.org/cn/ 书籍:基于kylin构建大数据分析平台

1.2K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    【硬刚KylinKylin入门原理调优OLAP解决方案和行业典型应用

    二:工作原理 工作原理本质上是 MOLAP(Multidimensional Online Analytical Processing) Cube,也就是多维立方体分析。下面对其做简要介绍。...工作原理 Apache Kylin 的工作原理就是对数据模型做 Cube 预计算,并利用计算的结果加速查询。过程如下: 1.指定数据模型,定义维度和度量。....启动kylin 启动kylin: $KYLIN_HOME/bin/kylin.sh start 如果启动成功,命令行的末尾会输出如下内容: A new Kylin instance is started...调优和原理进阶 优化实战(一):资源调整 首先,就是资源方面,实际上对于Kylin的计算来说,要求的资源不算多,因为底层(默认)计算引擎是M-S-R范式基于磁盘的计算框架MapReduce,尤其是CPU...一、Kylin官方案例表关系及字段详解 Kylin官方案例表简要说明 KYLIN_SALES是事实表,保存了销售订单的明细信息。

    1.3K20

    多角度带你认清Kylin的工作原理

    在之前的博客中,博主已经为大家带来了Kylin的简单介绍,环境搭建以及简单入门使用。本篇博客,博主为大家带来的是关于Kylin工作原理的介绍! ?...---- Kylin的工作原理 Apache Kylin的工作原理本质上是 MOLAP(多维立方体分析)。...工作原理 Apache Kylin的工作原理是对数据模型做Cube预计算,并利用计算的结果加速查询。...Cube的物理执行计划,最后查询预计算生成的Cube并产生结果,整个过程不会访问原始数据源 ---- 总结 本篇博客从多个角度为大家揭示了Kylin的工作原理。...相信在看之前对Kylin的工作原理还一头雾水的朋友,看完一定能够恍然大悟? 如果以上过程中出现了任何的纰漏错误,烦请大佬们指正? 受益的朋友或对大数据技术感兴趣的伙伴记得点赞关注支持一波?

    46720

    大数据Kylin(六):Kylin构建Cube算法

    Kylin构建Cube算法Kylin中Cube的思想是用空间换时间, 通过预先的计算,把索引及结果存储起来,以换取查询时候的高性能。...在Kylin v1.5以前,Kylin中的Cube只有一种算法:layered cubing,也称逐层算法,它是逐层由底向上,把所有组合算完的过程。...Kylin v1.5以后,推出Fast Cubing,也称快速数据立方算法,是一个新的Cube算法。...优点:这个算法的原理很清晰,主要就是利用了MR,sorting、grouping、shuffing全部由MR完成,开发人员只需要关注cubing的逻辑,由于hadoop的成熟,该算法的运行很稳定。...在对上百个Cube任务的时间做统计分析后,Kylin选择了7做为默认的算法选择阀值(参数kylin.cube.algorithm.auto.threshold):如果各个Mapper的小Cube的行数之和

    82951

    Kylin垃圾清理

    4:已经过时的Cube构建的日志和任务历史 kylin 本身提供了如何清理垃圾数据的操作,在这里要注意一点就是元数据的清理要做好备份准备,同时kylin也提供了元数据备份的操作。...一 :kylin 元数据的清理 元数据主要包括无用的字典,表的快照等无用信息,可以通过下面的命令来查看和清理无用的元数据 1):检查元数据(这个命令只是一个查询,不会对kylin做其它操作,是安全的).../metadata.sh restore $KYLIN_HOME/metadatabackup/metadata_xx_xx_xx 二 :清理存储器数据 kylin在构建Cube过程中会在HDFS上生成中间数据...1):列出kylin 存储在hdfs上面的所有中间数据,也可以认为是可删除数据 ${KYLIN_HOME}/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob...(我这里已经执行删除过了,所以是空的) 2 ):执行删除操作 ${KYLIN_HOME}/bin/kylin.sh org.apache.kylin.storage.hbase.util.StorageCleanupJob

    1.7K20

    掌握Apache Kylin:工作原理、设置指南及实际应用全解析

    Kylin的工作原理及使用分享 摘要 在这篇博客中,我们将深入探讨Apache Kylin的工作原理、优势以及如何高效使用它来处理大数据。...Kylin的工作原理 Apache Kylin的强大之处在于其创新的工作原理,特别体现在如何高效处理和分析大数据集。...配置Kylin: 编辑Kylin配置文件: 进入Kylin的conf目录,根据需要编辑kylin.properties文件。 设置数据源: 指定Kylin的数据源,如Apache Hive。...工作原理Kylin的效率和性能背后是其独特的工作原理,即通过构建预计算数据立方体来加速数据查询。这种方法不仅减少了查询时间,而且提高了处理超大规模数据集时的效率。...通过这篇文章,我们不仅深入了解了Kylin原理和优势,还探索了其在实际中的应用,以及如何正确安装和配置这一强大工具。Apache Kylin无疑是处理大规模数据集、提高数据分析效率和精度的理想选择。

    51010

    快速学习-Kylin概述

    1.2 Kylin特点 Kylin的主要特点包括支持SQL接口、支持超大规模数据集、亚秒级响应、可伸缩性、高吞吐率、BI工具集成等。...1)标准SQL接口:Kylin是以标准的SQL作为对外服务的接口。 2)支持超大数据集:Kylin对于大数据的支撑能力可能是目前所有技术中最为领先的。...4)可伸缩性和高吞吐率:单节点Kylin可实现每秒70个查询,还可以搭建Kylin的集群。 5)BI工具集成 Kylin可以与现有的BI工具集成,具体包括如下内容。...1.4 Kylin工作原理 Apache Kylin的工作原理本质上是MOLAP(Multidimension On-Line Analysis Processing)Cube,也就是多维立方体分析。...1.4.3 核心算法 Kylin的工作原理就是对数据模型做Cube预计算,并利用计算的结果加速查询: 1)指定数据模型,定义维度和度量; 2)预计算Cube,计算所有Cuboid并保存为物化视图;

    57030

    kylin简单优化cube

    请注意,在Kylin中,如果您选择FK为维度,相应的PK将自动排队,无需任何额外费用。...文件合并     如果启用了Hive的文件合并,你可以在conf/kylin_hive_conf.xml里关闭它,因为Kylin有自己合并文件的方法(下一节):     <name...);" 首先,Kylin计算出中间表的行数,然后基于行数的大小算出重新分发数据需要的文件数。...如果你观察到reducer数目较小且性能较差,你可以将“conf/kylin.properties”里的以下参数设小一点,比如: kylin.hbase.region.cut=2 kylin.hbase.hfile.size.gb...总结 基于kylin的ui,可以看到kylin在构建cube时各个流程的耗时,可以依据这些耗时做相应的优化,常见的,可以从耗时最长的步骤开始优化,比如: 遇到创建hive中间表时间很长,考虑对hive表进行分区处理

    72720
    领券