lzo python - 腾讯云开发者社区

文章/答案/技术大牛

发布

Hadoop使用lzo压缩格式

在hadoop中搭建lzo环境: wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz export CFLAGS.../configure -enable-shared -prefix=/usr/local/hadoop/lzo/ make && make test && make install 在hadoop-env.sh...,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec ... io.compression.codec.lzo.class com.hadoop.compression.lzo.LzoCodec...property> mapred.child.env LD_LIBRARY_PATH=/usr/local/hadoop/lzo

6422 0

Hadoop lzo的使用方法

前面的文章介绍了Hadoop lzo的安装和配置（见 http://www.linuxidc.com/Linux/2014-05/101090.htm ），本文接着介绍lzo压缩在hadoop应用程序中的使用方法...1 给lzo文件建立索引 lzo文件需要建立索引才能支持分块(split)。...如果没有索引，lzo文件也是可以处理的，mapreduce会根据后缀名“.lzo”来对lzo文件解压，并且inputformat也不需要特别指定，但是不支持分块，整个lzo文件只用一个map来处理。...hadoop-lzo包本身提供了建立lzo索引的类，可以在本地运行程序建立索引，也可以运行mapreduce程序建立索引。...SNAPSHOT.jar \ com.hadoop.compression.lzo.LzoIndexer \ /hdfs/path/to/file.lzo 运行mapreduce程序建立索引 $HADOOP_HOMOE

1K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

hadoop-lzo-0.4.20安装

一、安装lzop: yum -y install lzop 二、安装lzo 1、wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06....tar.gz 2、tar -zxvf lzo-2.06.tar.gz 3、mv lzo-2.06 lzo && cd lzo 4、export CFLAGS=-m64 5、....文件,内容： /usr/local/lib 8、让lzo.conf生效:/sbin/ldconfig -v 三、安装Hadoop-LZO 1、下载源码:https://github.com/twitter.../hadoop-lzo 2、解压后是hadoop-lzo-master，进入hadoop-lzo-master目录 3、export CFLAGS=-m64 4、export CXXFLAGS=-m64...，需要进入hadoop-lzo-master/hadoop-lzo-master目录下编译，或者去掉一层hadoop-lzo-master目录】 8、在当前目录下生成了target，下面有个native

9421 0

如何在CDH中使用LZO压缩

1.问题描述 CDH中默认不支持Lzo压缩编码，需要下载额外的Parcel包，才能让Hadoop相关组件如HDFS，Hive，Spark支持Lzo编码。...通过Yarn的8088可以发现是因为找不到Lzo压缩编码： Compression codec com.hadoop.compression.lzo.LzoCodec was not found. ?...配置HDFS的压缩编码加入Lzo： com.hadoop.compression.lzo.LzoCodeccom.hadoop.compression.lzo.LzopCodec ? ?...再次插入数据到test_table2，设置为Lzo编码格式： set mapreduce.output.fileoutputformat.compress.codec=com.hadoop.compression.lzo.LzoCodec...2.1 Hive验证首先确认test_table2中的文件为Lzo格式： ? 在Hive的beeline中进行测试： ? ? Hive基于Lzo压缩文件运行正常。

2.5K8 0

配置Hadoop支持LZO

下载、安装并编译LZO 1 wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz 2 tar -zxvf lzo...-2.10.tar.gz 3 cd lzo-2.10 4 ....编译hadoop-lzo源码 2.1 下载hadoop-lzo的源码下载地址：https://github.com/twitter/hadoop-lzo/archive/master.zip ...export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include export LIBRARY_PATH=/usr/local/hadoop/lzo/lib...2.4 编译进入hadoop-lzo-master，执行maven编译命令 mvn package -Dmaven.test.skip=true 2.5 进入target hadoop-lzo

9753 1

数据压缩算法LZO (C#)

LZO 是致力于解压速度的一种数据压缩算法，LZO 是 Lempel-Ziv-Oberhumer 的缩写。这个算法是无损算法，参考实现程序是线程安全的。实现它的一个自由软件工具是lzop。...现在 LZO 有用于 Perl、Python 以及 Java 的各种版本。代码版权的所有者是 Markus F. X. J. Oberhumer。...LZO 支持重复压缩以及原地解压。 LZO 是块压缩算法——压缩解压成块的数据。压缩与解压所用块的大小必须一样。 LZO 将数据块压缩成匹配数据（滑动字典）与非匹配文字的序列。...当处理不可压缩数据的时候，LZO 将每个 1024 字节的输入数据块扩展 16 字节。...参考文献： http://zh.wikipedia.org/wiki/LZO 源码地址： C: http://www.oberhumer.com/opensource/lzo/ c#:http://lzohelper.codeplex.com

2.5K9 0

（三）HDFS配置多目录与支持LZO压缩

LZO压缩配置--切片（另一种常用的是snappy压缩--快） 1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。...hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。.../hadoop/common ls hadoop-lzo-0.4.20.jar 3）同步hadoop-lzo-0.4.20.jar到hadoop003、hadoop004 xsync hadoop-lzo..., com.hadoop.compression.lzo.LzopCodec io.compression.codec.lzo.class.../input/bigtable.lzo 建立lzo索引文件.jpg 3.再次执行wordcount： hadoop jar /opt/module/hadoop-2.7.2/share/hadoop

9774 0

Hadoop2.0 lzo压缩的安装和配置

lzo压缩格式有很快的压缩/解压速度和合理的压缩率，并且支持分块(split)，所以lzo是目前在Hadoop中最流行的压缩格式。hadoop中的lzo不是自带的，如果要支持lzo，需要另外安装。...本文介绍了在hadoop2.0上安装和配置lzo，同样也适用于hadoop1.0。 1 安装linux的lzo库需要在集群的每一个节点都安装lzo库，假定都64位的机器。...下载rpm包lzo2-2.02-3.el5.rf.x86_64.rpm 并安装 sudo rpm -ivh lzo2-2.02-3.el5.rf.x86_64.rpm 在http://rpm.pbone.net...压缩命令行工具，方便大家在linux下压缩lzo文件，不是必需的。...2 安装hadoop-lzo包可以下载kevinweil的hadoop-lzo项目，下载地址：https://github.com/kevinweil/hadoop-lzo 也可以下载twitter的

8232 0

Hadoop安装lzo-出现Could not load native gpl library问题解决

此篇是接着Hadoop安装lzo的续篇 http://www.linuxidc.com/Linux/2014-03/98602.htm ，主要讲一下安装过程中出现的问题及解决方案。...Could not load native gpl library 异常堆栈： 12/11/07 10:15:02 ERROR lzo.GPLNativeCodeLoader: Could not load...Runtime.java:823) at java.lang.System.loadLibrary(System.java:1028) at com.Hadoop.compression.lzo.GPLNativeCodeLoader...(GPLNativeCodeLoader.java:32) at com.Hadoop.compression.lzo.LzoCodec....LocalJobRunner.java:210) 如果是按照上一篇（http://www.linuxidc.com/Linux/2014-03/98602.htm）来做的，出现以上异常的原因大多是以下两种情况： 1.没有拷贝lzo

9302 0

Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

解决原因：因为在之前的项目中，在hadoop中的core-site.xml 和mapred-site.xml文件配置了lzo格式的压缩，这就导致上传到hdfs 的文件自动被压缩为lzo了。...所以当使用提交spark-submit任务时，需要访问HDFS上的文件，而spark自身没有lzo的jar包所以无法找到。...方法一：软链接到spark下的jars目录，注意自己的hadoop-lzo-0.4.20.jar的目录！.../hadoop-lzo-0.4.20.jar 方法二：配置spark-default.conf文件，注意自己的hadoop-lzo-0.4.20.jar的目录！...在最下面添加一行 spark.jars=/opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar

7631 0

Hadoop支持Lzo压缩配置及案例

hadoop支持Lzo压缩配置 1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。...hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。...增加配置支持LZO压缩 lzo压缩文件的可切片特性依赖于其索引，故我们需要手动为lzo压缩文件创建索引。...此时的lzo文件如果去执行mr任务时任然只会产生一个切片，lzo压缩文件的可切片特性依赖于其索引，故我们需要手动为lzo压缩文件创建索引。

2.1K1 0

Hadoop2.7.1和Hbase0.98添加LZO压缩

1，执行命令安装一些依赖组件 yum install -y hadoop-lzo lzo lzo-devel hadoop-lzo-native lzop 2，下载lzo的源码包并解压 wget...http://www.oberhumer.com/opensource/lzo/download/lzo-2.09.tar.gz tar -zxvf lzo-2.09.tar.gz 3，在当前目录新建一个...lzo目录，存储编译后的lzo文件进入lzo-2.09目录依次执行命令： export CFLAGS=-64m ..../configure --enable-shared --prefix=/home/search/lzo make && make install 4，下载twitter的hadoop-lzo源码进行编译.../lib/* 到hadoop/lib/native/ 和 hbase/lib/ 下面拷贝lzo的jar包cp -a hadoop-lzo/target/hadoop-lzo-0.4.20-SNAPSHOT.jar

1.4K7 0

关于Presto对lzo压缩的表查询使用记录

关于Presto对lzo压缩的表查询使用记录 0.写在前面 1.正文 0.提前说明 1.查询ads层表 2.查询dwd|dws|dwt层表 3.查询ods层表 ---- ---- 0.写在前面实验背景...：离线数仓项目 Presto版本：0.196 Hive版本：3.1.2 Hadoop版本：3.1.3 1.正文 0.提前说明纯lzo压缩：ods层 parquet列式存储加lzo压缩：dwd,dws,...❞ 2.查询dwd|dws|dwt层表 ❝「Presto不支持parquet列式存储加lzo压缩的表的查询」 ❞ Presto-Client查询语句： select * from dwd_start_log...-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar ./ 分发lzo的jar包 [root@node01 hive-hadoop2]$ my_rsync...* from ods_log; 美团技术团队文章关于「Presto二次开发和BUG修复」提到：Presto不支持查询lzo压缩的数据，需要修改hadoop-lzo的代码 ❝https://tech.meituan.com

1.3K3 0

【Go】使用压缩文件优化io (一)

最近遇到一个日志备份 io 过高的问题，业务日志每十分钟备份一次，本来是用 Python 写一个根据规则扫描备份日志问题不大，但是随着业务越来越多，单机上的日志文件越来越大，文件数量也越来越多，导致每每备份的瞬间...压缩时日志会先压缩成 lzo 文件，然后再上传 lzo 文件到阿里云 OSS 上，这中间发生了几个过程：读取原始日志文件压缩数据写入 lzo 文件读取 lzo 文件 http 发送读取的内容压缩时...lzo 文件吗？...优化方案确定了，可是怎么实现 lzo 对文件流进行压缩呢，去 Github 上找一下看看有没有 lzo 的压缩算法库，发现 github.com/cyberdelia/lzo ，虽然是引用 C 库实现的...，但是经典的两个算法（lzo1x_1 和 lzo1x_999）都提供了接口，貌似 Go 可以直接用了也就这一个库了。

1.2K5 0

【Go】使用压缩文件优化io (二)

随着业务扩展这台服务器压力越来越大，高峰时数据延迟越来越厉害，早期也是使用 Python 脚本 + awk 以及一些 shell 命令完成相关工作，在数据集不是很大的时候这种方案很好，效率也很高，随着数据集变大...并且读取 lzo 压缩文件远比解压后文件小，来降低读取日志耗时太大、io 太高的问题呢？...= nil { panic(err) } r, err := lzo.NewReader(f) if err !...包对压缩文件数据流进行边读取边解压，这次不用单独封装新的方法了，直接使用 lzo 包中的接口即可。...优化方案二本来优化到上面的效果已经非常满意了，不过既然开始做优化就不能草草结束了，仔细思考业务场景，需要本地 lzo 文件？重新处理日志的频率高吗？本地 lzo 日志清理方便吗？

9792 0

Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

，然后执行了为lzo文件创建索引的命令 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer...所以在HDFS上的hive里存着lzo格式数据和lzo.index索引文件，这便于对文件进行切片。...但是select * from ods_log不执行MR操作，默认采用的是ods_log建表语句中指定的DeprecatedLzoTextInputFormat，能够识别lzo.index为索引文件。...select count(*) from ods_log执行MR操作，默认采用的是CombineHiveInputFormat，不能识别lzo.index为索引文件，将索引文件当做普通文件处理。...更严重的是，这会导致LZO文件无法切片。

1.1K1 0

Python解析MDX词典数据并保存到Excel

安装库： pip install readmdict 对于Windows平台还需要安装python-lzo： pip install python-lzo 使用Python读取的示例： from readmdict

9414 0

ambari删除脚本

#2.删除安装包 #用yum list installed | grep HDP来检查安装的ambari的包 yum remove -y sqoop.noarch yum remove -y lzo-devel.x86...remove -y rrdtool.x86_64 yum remove -y hbase.noarch yum remove -y pig.noarch yum remove -y lzo.x86...gweb.noarch yum remove -y snappy-devel.x86_64 yum remove -y hcatalog.noarch yum remove -y python-rrdtool.x86...ganglia-gmetad.x86_64 yum remove -y extjs.noarch yum remove -y hive.noarch yum remove -y hadoop-lzo.x86..._64 yum remove -y hadoop-lzo-native.x86_64 yum remove -y hadoop-native.x86_64 yum remove -y

1.2K8 0

ambari系列--报错问题

remove -y rrdtool.x86_64 yum remove -y hbase.noarch yum remove -y pig.noarch yum remove -y lzo.x86...gweb.noarch yum remove -y snappy-devel.x86_64 yum remove -y hcatalog.noarch yum remove -y python-rrdtool.x86..._64 yum remove -y hadoop-lzo-native.x86_64 yum remove -y hadoop-native.x86_64 yum remove -.../home/mapred rm -rf /home/sqoop 7，删除ambari遗留数据 rm -rf /var/lib/ambari* rm -rf /usr/lib/python2.6.../site-packages/ambari_* rm -rf /usr/lib/python2.6/site-packages/resource_management rm -rf /usr

5251 0

Hive常见的压缩格式

压缩格式 Hive支持的压缩格式有bzip2、gzip、deflate、snappy、lzo等。...其中压缩比bzip2 > zlib > gzip > deflate > snappy > lzo > lz4，在不同的测试场景中，会有差异，这仅仅是一个大概的排名情况。...从压缩性能上来看：lz4 > lzo > snappy > deflate > gzip > bzip2，其中lz4、lzo、snappy压缩和解压缩速度快，压缩比低。...所以一般在生产环境中，经常会采用lz4、lzo、snappy压缩，以保证运算效率。...Native Libraries除了自带bzip2, lz4, snappy, zlib压缩方法外，还可以自定义安装需要的功能库（snappy、lzo等）进行扩展。

3.7K1 0

点击加载更多

Hadoop使用lzo压缩格式

Hadoop lzo的使用方法

hadoop-lzo-0.4.20安装

如何在CDH中使用LZO压缩

配置Hadoop支持LZO

数据压缩算法LZO (C#)

（三）HDFS配置多目录与支持LZO压缩

Hadoop2.0 lzo压缩的安装和配置

Hadoop安装lzo-出现Could not load native gpl library问题解决

Spark报错:Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo

Hadoop支持Lzo压缩配置及案例

Hadoop2.7.1和Hbase0.98添加LZO压缩

关于Presto对lzo压缩的表查询使用记录

【Go】使用压缩文件优化io (一)

【Go】使用压缩文件优化io (二)

Hive读取索引文件问题：select * 和select count(*)读取出来的行数不一致

Python解析MDX词典数据并保存到Excel

ambari删除脚本

ambari系列--报错问题

Hive常见的压缩格式

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐