hbase压缩_hbase数据压缩_hbase 数据压缩 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

HBase 的MOB压缩分区策略介绍

HBase应用场景非常广泛；社区前面有一系列文章。大家可以到社区看看看；张少华同学本篇主要讲HBase的MOB压缩分区策略介绍，非常赞！大力推荐！

01

HBase调优及优化的20种方式(上)

默认情况下，AutoFlush是开启的，当每次put操作的时候，都会提交到HBase server，大数据量put的时候会造成大量的网络IO，耗费性能

02

您找到你想要的搜索结果了吗？

是的

没有找到

深入理解 HBase Compaction 机制

熟悉HBase的同学应该知道，HBase是基于一种LSM-Tree（Log-Structured Merge Tree）存储模型设计的，写入路径上是先写入WAL（Write-Ahead-Log）即预写日志，再写入memstore缓存，满足一定条件后执行flush操作将缓存数据刷写到磁盘，生成一个HFile数据文件。随着数据不断写入，磁盘HFile文件就会越来越多，文件太多会影响HBase查询性能，主要体现在查询数据的io次数增加。为了优化查询性能，HBase会合并小的HFile以减少文件数量，这种合并HFile的操作称为Compaction，这也是为什么要进行Compaction的原因。

04

Java大数据：Hbase分布式存储入门

之前的系列文章当中，已经为大家介绍了大数据存储当中的MongoDB、Redis等数据库，今天接着来讲Hbase。Hbase在大数据存储当中，与Hadoop生态紧密相关，也是Hadoop生态当中必学的重要组件。下面我们从基础入门开始，来讲讲Hbase。

00

一次bug死磕经历之Hbase堆内存小导致regionserver频繁挂掉编辑

环境如下： Centos6.5 Apache Hadoop2.7.1 Apache Hbase0.98.12 Apache Zookeeper3.4.6 JDK1.7 Ant1.9.5 Maven3.0.5 最近在测Hbase的压缩，Hadoop安装了lzo和snappy，插入50条文本数据，每条数据大约4M，来看他们的压缩率对比，然后在测的过程中，发现用java客户端去scan这50条数据时，regionserver频繁宕机看hbase的log发现并无明显异常，查看datano

07

Hbase(四)：Hbase原理

hbase表中的数据按照行键的字典顺序排序 hbase表中的数据按照行的的方向切分为多个region 最开始只有一个region 随着数据量的增加产生分裂这个过程不停的进行一个表可能对应一个或多个region region是hbase表分布式存储和负载均衡的基本单元一个表的多个region可能分布在多台HRegionServer上 region是分布式存储的基本单元但不是存储的基本单元内部还具有结构一个region由多个Store来组成有几个store取决于表的列族的数量一个列族对应一个store 之所以这么设计是因为一个列族中的数据往往数据很类似方便与进行压缩节省存储空间表的一个列族对应一个store store的数量由表中列族的数量来决定一个store由一个memstore 和零个或多个storefile组成 storefile其实就是hdfs中的hfile 只能写入不能修改所以hbase写入数据到hdfs的过程其实是不断追加hfile的过程

01

Hbase1.2.0-cdh5.16.2使用PREFIX_TREE编码导致集群压缩队列异常

Hbase1.X版本中PREFIX_TREE作为BlockEncoding存在bug，会造成RegionServer节点compaction queue持续升高，甚至影响flush，最终阻塞写入。本文记录了整个RegionServer异常的故障定位过程。

01

HBase学习—高表与宽表的选择

转自：https://yq.aliyun.com/articles/213705?utm_content=m_31236 hbase中的宽表是指很多列较少行，即列多行少的表，一行中的数据量较大，行数

05

Hadoop2.7.1和Hbase0.98添加LZO压缩

1，执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2，下载lzo的源码包并解压 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3，在当前目录新建一个lzo目录，存储编译后的lzo文件进入lzo-2.09目录依次执行命令： expor

07

学大数据必懂系列之SSTable

Sorted Strings Table(SSTable)是HBase、 Cassandra等一些NoSQL数据库使用的一种持久文件格式，用于获取存储在memtables中的内存数据，对其进行排序以实现快速访问，并将其存储在磁盘上的一组持久的、有序的、不可变的文件中。不可变意味着sstable永远不会被修改。它们稍后被合并到新的sstable中，或者在数据更新时被删除。

02

Hive使用ORC格式存储离线表

在大数据时代，列式存储变得越来越流行了，当然并不是说行式存储就没落了，只是针对的场景不同，行式存储的代表就是我们大多数时候经常用的数据库，比较适合数据量小，字段数目少，查询性能高的场景，列式存储主要针对大多数互联网公司中的业务字段数目多，数据量规模大，离线分析多的场景，这时候避免大量无用IO扫描，往往提高离线数据分析的性能，而且列式存储具有更高的压缩比，能够节省一定的磁盘IO和网络IO传输。基础环境如下： Apache Hadoop2.7.1 Apache Hbase0.98.12 Apach

HBase 写吞吐场景资源消耗量化分析及优化

HBase 是一个基于 Google BigTable 论文设计的高可靠性、高性能、可伸缩的分布式存储系统。网上关于 HBase 的文章很多，官方文档介绍的也比较详细，本篇文章不介绍 HBase 基本的细节。

01

千亿级服务器监控数据存储实践

01

HBase数据结构与基本语法详解

3 稀疏:对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。

01

HBase工作原理

HBASE原理一、原理 1、物理存储 1．hregion hbase表中的数据按照行键的字典顺序排序，hbase表中的数据按照行的的方向切分为多个region。最开始只有一个region随着数据量的增加，产生分裂，这个过程不停的进行。一个表可能对应一个或多个region。 region是hbase表分布式存储和负载均衡的基本单元，一个表的多个region可能分布在多台HRegionServer上。 2．Store region是分布式存储的基本单元，但不是存储的基本单元，

实时即未来，车联网项目之将数据落地到文件系统和数据库【三】

azkaban airflow dolphinscheduler oozie 自研

01

HBase漫谈 | HBase分区过多影响&合理分区数量

前段时间总结了一篇关于HBase由于分区过多导致集群宕机的文章，感兴趣的同学可以点击原文《HBase案例 | 20000个分区导致HBase集群宕机事故处理》阅读参考。本文重点参考HBase官网，从分区过多这个角度出发，进一步聊一聊HBase分区过多的影响以及单节点合理分区数量等。

02

Hbase常用命令

** 一般操作： ----- ** hbase(main)> status hbase(main)> version 创建命名空间： namespace指的是一个表的逻辑分组，同一组中的表有类似的用途，相当于关系型数据库中的database。 hbase(main):060:0> create_namespace 'test1' drop_namespace 创建该命名空间的表： hbase(main):061:0> create 'test1:test','f1','f2' crea

02

HBase权威指南

推荐序 Google公司提出的MapReduce编程框架、GFS文件系统和BigTable存储系统成为了大数据处理技术的开拓者和领导者，而源于这三项技术的ApacheHadoop等开源项目则成为了大数据处理技术的事实标准，迅速推广至国内外各大互联网企业，成为了PB量级大数据处理的成熟技术和系统。面对不同的应用需求，基于Hadoop的数据处理工具也应运而生例如，Hive、Pig等已能够很好地解决大规模数据的离线式批量处理问题。但是，HadoopHDFS适合于存储非结构化数据，且受限于HadoopMapRed

01

阿里HBase的数据管道设施实践与演进

摘要：第九届中国数据库技术大会，阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、HImporter系统、数据导出场景、HExporter系统这些部分进行了讲述。

02

实战大数据，HBase 性能调优指南

在 HBase 中，row key 可以是任意字符串，最大长度 64KB，实际应用中一般为 10~100bytes，存为 byte[]字节数组，一般设计成定长的。

04

深入理解HBase架构

在这篇博客文章中，我们主要深入看一下H Base 的体系结构以及在 NoSQL 数据存储解决方案主要优势。

05

HBase底层原理(多维度分析)

也就是我们所谓的"客户端",Client作为访问数据的入口,包含访问hbase的API接口,维护着一些cache(高速缓存存储器)来加快hbase的访问。

02

安装Apache Hbase 1.1.1（搭建kylin必要的操作）

链接：https://pan.baidu.com/s/1vc7i9JO87WiKUk_ce0J7KQ 提取码：rsgx

02

深入理解HBase Memstore

MemStore是HBase非常重要的组成部分，深入理解MemStore的运行机制、工作原理、相关配置，对HBase集群管理以及性能调优有非常重要的帮助。

01

云数据库FinOps实战复盘

我们对本次HBase成本优化项目进行深度复盘，并进一步尝试总结云数据库的FinOps之道。

02

HBase 底层原理详解（深度好文，建议收藏）

HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database，即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。

01

mapreduce项目调优

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge)，而reducer阶段包含mapper输出数据的获取、数据合并(sort&merge)、reduce处理以及写出操作。那么在这七个子阶段中，能够进行较大力度的进行调优的就

06

HBase中Memstore存在的意义以及多列族引起的问题和设计

HBase在WAL机制开启的情况下，不考虑块缓存，数据日志会先写入HLog，然后进入Memstore，最后持久化到HFile中。HFile是存储在hdfs上的，WAL预写日志也是，但Memstore是在内存的，增加Memstore大小并不能有效提升写入速度，为什么还要将数据存入Memstore中呢？

01

HBase 底层原理详解（深度好文，建议收藏）

HBase 是一个分布式的、面向列的开源数据库。建立在 HDFS 之上。Hbase的名字的来源是 Hadoop database，即 Hadoop 数据库。HBase 的计算和存储能力取决于 Hadoop 集群。

00

HBase Shell 命令

HBase 提供了一个非常方便的命令行交互工具 HBase Shell。通过 HBase Shell 可以创建表，也可以增删查数据，同时集群的管理、状态查看等也可以通过 HBase shell 实现。

05

从HBase底层原理解析HBASE列族不能设计太多的原因？

通过上述文章的介绍，我们了解到： HBase底层存储依赖于HDFS，HBase中table在行的方向上分割为多个region，它是HBase负载均衡的最小单元，可以分布在不同的RegionServer上，但是一个region不能拆分到多个RegionServer上。

01

Hbase性能优化百科全书

本文集合了小编在日常学习和生产实践中遇到的使用Hbase中的各种问题和优化方法，分别从表设计、rowkey设计、内存、读写、配置等各个领域对Hbase常用的调优方式进行了总结，希望能对读者有帮助。本文参考结合自己实际优化经验，参考了大量官网和各个前辈的经验，调优后生产环境中的Hbase集群支撑了约50万/s的读和25万/s的写流量洪峰。感谢各位的经验和付出。

05

Hbase详细安装步骤（Hbase入门第二篇）

HBase的集群环境搭建注意事项：HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行第一步：下载对应的HBase的安装包所有关于CDH版本的软件包下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/ HBase对应的版本下载地址如下 http://archive.cloudera.com/cdh5/cdh/5/hbase-1.2.0-cdh5.14.0.tar.gz 第二步

02

Hive数据导入HBase引起数据膨胀引发的思考

最近朋友公司在做一些数据的迁移，主要是将一些Hive处理之后的热数据导入到HBase中，但是遇到了一个很奇怪的问题：同样的数据到了HBase中，所占空间竟增长了好几倍！详谈中，笔者建议朋友至少从几点原因入手分析：

01

HBase底层原理及读写流程

1 包含访问hbase的接口，client维护着一些cache来加快对hbase的访问，比如regione的位置信息。

04

Hbase 基础面试题

(1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储，zookeeper进行管理。

03

HBase的伪分布安装

设置环境变量export HBASE_HOME = /usr/local/hbase

01

降本增效成架构师必备技能：酷家乐如何实现全年数据库成本零增长

作者 | 贾驰千、余智平酷家乐中间件团队研发工程师随着云数据库数量以及成本的迅速增加，数据库成本管理和优化成为了企业所关注的方向。酷家乐针对云数据库做了一系列的深度成本优化动作，收益颇丰。本文为详细介绍~ 供你参考。一、背景摘要近年来，随着上云的普遍化，降本成为了备受关注的热门话题。越来越多的企业开始重视云资源的成本优化，FinOps更是横空出世，得到了众多企业的拥抱。作为全球领先的云设计软件平台和 SaaS 服务提供商，（群核科技）酷家乐的产品都构建在公有云之上，截止目前，我们使用了上

04

HBASE 技术细节读取与写入 Region Split与合并介绍

Hbase Rowkey CF 架构概述预分区及Rowkey设计学习笔记介绍了Region类似于数据库的分片和分区的概念，每个Region负责一小部分Rowkey范围的数据的读写和维护，Region包含了对应的起始行到结束行的所有信息。master将对应的region分配给不同的RergionServer，由RegionSever来提供Region的读写服务和相关的管理工作。

04

Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化

Hadoop离线数据分析平台实战——380MapReduce程序优化项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 完成外链信息分析(MR) 完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。说的直接一点就是：调优

08

大数据开发岗面试复习30天冲刺 - 日积月累，每日五题【Day13】——Hbase7

•MapReduce写入Hbase原理：封装了一个TableOutputFormat来实现写入Hbase的数据 •要求 –写入Hbase的数据的V的类型必须为Put类型

02

HBase原理（一）：架构理解

Apache HBase 是基于 Hadoop 构建的一个分布式的、可伸缩的海量数据存储系统。常被用来存放一些海量的(通常在TB级别以上)、结构比较简单的数据，如历史订单记录，日志数据，监控 Metrics 数据等等，HBase 提供了简单的基于 Key 值的快速查询能力。

03

HBase的集群环境搭建

在开始之前,有一个注意事项:HBase强依赖zookeeper和hadoop，安装HBase之前一定要保证zookeeper和hadoop启动成功，且服务正常运行。

01

Hadoop HBase存储原理结构学习

hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表join等复杂操作)。主要用来存储非结构化和半结构化的松散数据。与hadoop一样，Hbase目标主要依靠横向扩展，通过不断增加廉价的商用服务器，来增加计算和存储能力。 HBase中的表一般有这样的特点： 1 大：一个表可以有上亿行，上百万列 2 面向列：面向列(族)的存储和权限控制，列(族)独立检索。 3 稀疏：对于为空(null)的列，并不占用存储空间，因此，表可以设计的非常稀疏。二、逻辑视图

03

HBase入门

http://mirror.bit.edu.cn/apache/hbase/2.2.6/

04

hbase源码系列（四）数据模型-表定义和列族定义的具体含义

hbase是一个KeyValue型的数据库，在《hbase实战》描述它的逻辑模型【行键，列族，列限定符，时间版本】，物理模型是基于列族的。但实际情况是啥？还是上点代码吧。　　　　 HTableDescriptor tableDesc = new HTableDescriptor("test"); //日志flush的时候是同步写，还是异步写 tableDesc.setDurability(Durability.SYNC_WAL); //MemStore大

06

EMR之HBASE集群参数调优与压测

HBase 是Hadoop生态里重要一员。对HBase的调优，对节约成本，提升用户体验有重要意义。

06

OpenTSDB简介

OpenTSDB(Open time series data base)，开发时间序列数据库。DB这个词很有误导性，其实并不是一个db，单独一个OpenTSDB无法存储任何数据，它只是一层数据读写的服务，更准确的说它只是建立在Hbase上的一层数据读写服务。行业内各种db都很多了，为什么还会出现它？它到底有什么好？它做了什么？别着急，我们来一一分析下。　　其实OpenTSDB不是一个通用的数据存储服务，看名字就知道，它主要针对于时序数据。什么是时序数据，股票的变化趋势、温度的变化趋势、系统某个指标的变化趋势……其实都是时序数据，就是每个时间点上纪录一条数据。关于数据的存储，我们最熟悉的就是mysql了，但是想想看，每5分钟存储一个点，一天288个点，一年就10万+，这还是单个维度，往往在实际应用中维度会非常多，比如股票交易所，成千上万支股票，每天所有股票数据就可能超过百万条，如果还得支持历史数据查询，mysql是远远扛不住的，必然要考虑分布式存储，最好的选择就是Hbase了，事实上业内基本上也是这么做的。（我对其他分布式存储不了解，就不对比了）。　　了解Hbase的人都知道，它可以通过加机器的水平扩展迅速增加读写能力，非常适合存储海量的数据，但是它并不是关系数据库，无法进行类似mysql那种select、join等操作。取而代之的只有非常简单的Get和Scan两种数据查询方式。这里不讨论Hbase的相关细节，总之，你可以通过Get获取到hbase里的一行数据，通过Scan来查询其中RowKey在某个范围里的一批数据。如此简单的查询方式虽然让hbase变得简单易用，但也限制了它的使用场景。针对时序数据，只有get和scan远远满足不了你的需求。　　这个时候OpenTSDB就应运而生。首先它做了数据存储的优化，可以大幅度提升数据查询的效率和减少存储空间的使用。其次它基于hbase做了常用时序数据查询的API，比如数据的聚合、过滤等。另外它也针对数据热度倾斜做了优化。接下来挨个说下它分别是怎么做的。

01

HBase 性能测试之读写P999延时压测实践

我们在使用HBase的时候，必须要能够清楚HBase服务端的性能，这对HBase的合理使用以及性能调优都非常重要，所以一般在使用HBase之前，建议做一些必要的基准性能测试，其中，读写P99/P999延时就是一项衡量HBase性能的关键指标。本文首先介绍下HBase自带的性能测试工具——PerformanceEvaluation的使用，然后通过它压测下HBase读写路径P999延时情况。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭