首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >纯文本压缩算法的当前状态是什么?

纯文本压缩算法的当前状态是什么?
EN

Stack Overflow用户
提问于 2008-10-25 14:11:29
回答 3查看 28.4K关注 0票数 31

为了向Hutter Prize致敬,文本压缩的顶级算法(以及每种算法的快速描述)是什么?

注意:这个问题的目的是获得压缩算法的描述,而不是压缩程序的描述。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2008-10-26 18:37:58

边界推进式压缩器将各种算法结合在一起,实现了疯狂的结果。常用算法包括:

  • Burrows-Wheeler Transformhere -使用可预测的算法对字符(或其他位块)进行混洗,以增加重复块,从而使源更易于压缩。解压缩按正常方式进行,并且结果不会通过反向转换进行混洗。注意:单独使用BWT实际上不会压缩任何内容。它只是使源更容易compress.
  • Prediction by Partial Matching (PPM) - arithmetic coding的演变,其中预测模型(上下文)是通过处理关于源的统计数据创建的,而不是使用静态概率。即使它的根源是算术编码,结果也可以用霍夫曼编码或字典以及算术coding.
  • Context混合来表示-算术编码使用静态上下文进行预测,PPM动态选择单个上下文,上下文混合使用许多上下文并对其结果进行加权。PAQ使用上下文混合。
  • 此外,哈特奖参赛者可以用外部字典中的小字节条目替换普通文本,并使用特殊符号区分大写和小写文本,而不是使用两个不同的条目。这就是为什么它们在压缩文本(特别是ASCII文本)方面如此出色,而对于一般的compression.

来说就没有那么有价值了

Maximum Compression是一个非常酷的文本和通用压缩基准网站。马特·马奥尼出版了另一本benchmark。马奥尼的算法可能特别有趣,因为它列出了每个条目使用的主要算法。

票数 28
EN

Stack Overflow用户

发布于 2008-10-25 14:29:45

总是有lzip的。

抛开所有的玩笑:

  • 在兼容性问题方面,PKZIP (DEFLATE算法)仍然胜出。
  • bzip2是在享受相对广泛的安装基础和相当好的压缩率之间的最佳折衷,但需要单独的LZMA算法压缩得非常好,并且在LGPL下可用。很少有操作系统附带内置支持,在我看来,however.
  • rzip是bzip2的一个变体,值得更多关注。对于需要长期归档的大型日志文件,它可能特别有趣。它还需要一个单独的归档程序。
票数 7
EN

Stack Overflow用户

发布于 2018-01-21 18:53:36

如果您想使用PAQ作为一个程序,您可以在基于debian的系统上安装zpaq包。用法是(另请参阅man zpaq)

代码语言:javascript
运行
复制
zpaq c archivename.zpaq file1 file2 file3

压缩到一个压缩文件大小的1/10的。(190万比1500万)

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/236456

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档