首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Hadoop支持Lzo压缩配置及案例

Hadoop支持Lzo压缩配置及案例

作者头像
王知无-import_bigdata
发布于 2020-09-08 11:43:36
发布于 2020-09-08 11:43:36
2.1K00
代码可运行
举报
运行总次数:0
代码可运行

hadoop支持Lzo压缩配置

1)hadoop本身并不支持lzo压缩,故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译,编译步骤如下。 2)将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop102 common]$ pwd
/opt/module/hadoop-2.7.2/share/hadoop/common
[atguigu@hadoop102 common]$ ls
hadoop-lzo-0.4.20.jar

3)同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop102 common]$ xsync hadoop-lzo-0.4.20.jar

4)core-site.xml增加配置支持LZO压缩

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<configuration>
<property>
<name>io.compression.codecs</name>
<value>
org.apache.hadoop.io.compress.GzipCodec,
org.apache.hadoop.io.compress.DefaultCodec,
org.apache.hadoop.io.compress.BZip2Codec,
org.apache.hadoop.io.compress.SnappyCodec,
com.hadoop.compression.lzo.LzoCodec,
com.hadoop.compression.lzo.LzopCodec</value>
</property>

<property>
    <name>io.compression.codec.lzo.class</name>
    <value>com.hadoop.compression.lzo.LzoCodec</value>
</property>
</configuration>

5)同步core-site.xml到hadoop103、hadoop104

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop102 hadoop]$ xsync core-site.xml

6)启动及查看集群

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop102 hadoop-2.7.2]$ sbin/start-dfs.sh
[atguigu@hadoop103 hadoop-2.7.2]$ sbin/start-yarn.sh

7)创建lzo文件的索引,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。若无索引,则lzo文件的切片只有一个。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
hadoop jar /path/to/your/hadoop-lzo.jar  big_file.lzo

案例:以hadoop自带的wordcount为例mr输出结果为lzo格式 1.创建word.txt文件,并写上几个单词上传到hdfs上 [atguigu@hadoop202 bin]$ vim word.txt [atguigu@hadoop202 bin]$ hdfs dfs -put word.txt /input 2.运行wordcount案例

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop202 bin]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar  wordcount -D mapreduce.output.fileoutputformat.compress=true -D maputformat.compress.codec=com.hadoop.compression.lzo.LzopCodec /input /output

在hdfs上看到结果:

此时的lzo文件如果去执行mr任务时任然只会产生一个切片,lzo压缩文件的可切片特性依赖于其索引,故我们需要手动为lzo压缩文件创建索引。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
[atguigu@hadoop202 bin]$ hadoop jar /opt/module/hadoop-2.7.2/share/hadoop/common/hadoop-lzo-0.4.20.jar  com.hadoop.compression.lzo.DistributedLzoIndexer  /output/part-r-00000.lzo

此时hdfs上会产生带有索引的lzo文件。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据技术与架构 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
(三)HDFS配置多目录与支持LZO压缩
3)增加磁盘后,保证每个目录数据均衡 开启数据均衡命令: bin/start-balancer.sh –threshold 10 对于参数10,代表的是集群中各个节点的磁盘空间利用率相差不超过10%,可根据实际情况进行调整。 停止数据均衡命令: bin/stop-balancer.sh 实时的通信检测,也会浪费一定资源,因此调配过后就可以关闭了。
wolf
2020/09/21
9810
Hadoop2.0 lzo压缩的安装和配置
lzo压缩格式有很快的压缩/解压速度和合理的压缩率,并且支持分块(split),所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的,如果要支持lzo,需要另外安装。本文介绍了在hadoop2.0上安装和配置lzo,同样也适用于hadoop1.0。
星哥玩云
2022/06/30
8300
Hadoop使用lzo压缩格式
在hadoop中搭建lzo环境: wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz   export CFLAGS=-m64   ./configure -enable-shared -prefix=/usr/local/hadoop/lzo/   make && make test && make install   在hadoop-env.sh中 export LD_LIBRARY_PATH=/usr/local/
用户3003813
2018/09/06
6500
大数据技术之_03_Hadoop学习_02_入门_Hadoop运行模式+【本地运行模式+伪分布式运行模式+完全分布式运行模式(开发重点)】+Hadoop编译源码(面试重点)+常见错误及解决方案
  Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。   Hadoop官方网站:http://hadoop.apache.org/
黑泽君
2019/03/04
1.7K0
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
1)Hadoop 官方网站:http://hadoop.apache.org/ 2)Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 ➢ 本地模式:单机运行,只是用来演示一下官方案例。==生产环境不用。 == ➢ 伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模 拟一个分布式的环境。==个别缺钱的公司用来测试,生产环境不用。 == ➢ 完全分布式模式:多台服务器组成分布式环境。==生产环境使用。 ==
老虎也淘气
2024/01/30
2900
Hadoop学习指南:探索大数据时代的重要组成——Hadoop运行模式(上)
快速学习-HBase安装
提示:如果集群之间的节点时间不同步,会导致regionserver无法启动,抛出ClockOutOfSyncException异常。 修复提示: a、同步时间服务 请参看帮助文档:《尚硅谷大数据技术之Hadoop入门》 b、属性:hbase.master.maxclockskew设置更大的值
cwl_java
2020/02/21
7260
Hadoop完全分布式安装部署
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。我们本次主要完成搭建实际生产环境中比较常用的完全分布式模式,搭建完全分布式模式之前需要对集群部署进行提前规划,不要将过多的服务集中到一台节点上,我们将负责管理工作的namenode和ResourceManager分别部署在两台节点上,另外一台节点上部署SecondaryNamenode,所有节点均承担Datanode和Nodemanager角色,并且datanode和nodemanager通常存在同一节点上,所有角色尽量做到均衡分配。
程序狗
2021/09/02
8740
如何在CDH中使用LZO压缩
CDH中默认不支持Lzo压缩编码,需要下载额外的Parcel包,才能让Hadoop相关组件如HDFS,Hive,Spark支持Lzo编码。
Fayson
2018/03/29
2.5K0
如何在CDH中使用LZO压缩
大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示是绿灯,是否很危险?同理DataNode节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?   如下是DataNode节点保证数据完整性的方法。
黑泽君
2019/03/04
7110
大数据技术之_04_Hadoop学习_02_HDFS_DataNode(面试开发重点)+HDFS 2.X新特性
数仓日记 - 数据采集平台
一、埋点数据生成模块 1. 事件日志格式及字段含义 2. 启动日志格式及字段含义 3. 说明
阿年、嗯啊
2022/11/18
3K0
数仓日记 - 数据采集平台
大数据技术之_07_Hadoop学习_HDFS_HA(高可用)_HA概述+HDFS-HA工作机制+HDFS-HA集群配置+YARN-HA配置+HDFS Federation(联邦) 架构设计
1、修改ip 2、修改主机名及主机名和ip地址的映射 3、关闭防火墙 4、ssh免密登录 5、安装JDK,配置环境变量等
黑泽君
2019/02/25
2K0
Hive常见的压缩格式
Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。Hive依赖Hadoop的压缩方法,所以Hadoop版本越高支持的压缩方法越多,可以在$HADOOP_HOME/conf/core-site.xml中进行配置:
十里桃花舞丶
2021/01/06
3.7K0
通过思维导图,让女朋友搭建一个hadoop完全分布式
女朋友:你上次教我搭建伪分布式,我已经会搭建啦。只用了一台机器就搞定了呀,想学完全分布式的搭建。
用户7656790
2020/08/13
6440
通过思维导图,让女朋友搭建一个hadoop完全分布式
快速学习-Hive压缩和存储
执行成功后,/opt/software/hadoop-2.7.2-src/hadoop-dist/target/hadoop-2.7.2.tar.gz 即为新生成的支持 snappy 压缩的二进制安装包。
cwl_java
2020/02/21
6220
快速学习-Hive压缩和存储
快速学习-DataNode
1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。 3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。 4)集群运行中可以安全加入和退出一些机器。
cwl_java
2020/02/19
6700
Hadoop大数据部署
关闭防火墙: systemctl stop firewalld systemctl disable firewalld
星哥玩云
2022/07/20
5610
快速学习-Flume企业开发案例
在job文件夹下创建Flume Agent配置文件flume-telnet-logger.conf。 [atguigu@hadoop102 job]$ touch flume-telnet-logger.conf
cwl_java
2020/02/18
5450
快速学习-Flume企业开发案例
大数据技术之_1
  从图中可以看出 Hbase 是由 Client、Zookeeper、Master、HRegionServer、HDFS 等几个组件组成,下面来介绍一下几个组件的相关功能:
黑泽君
2019/03/15
7200
大数据技术之_1
Hadoop2.7.1和Hbase0.98添加LZO压缩
1,执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2, 下载lzo的源码包并解压 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3,在当前目录新建一个lzo目录,存储编译后的lzo文件 进入lzo-2.09目录 依次执行命令: expor
我是攻城师
2018/05/14
1.4K0
关于Presto对lzo压缩的表查询使用记录
很明显,error显示为com.hadoop.compression.lzo.LzoCodec没有找到
WHYBIGDATA
2023/01/31
1.3K0
关于Presto对lzo压缩的表查询使用记录
推荐阅读
相关推荐
(三)HDFS配置多目录与支持LZO压缩
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档