首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

php压缩函数总结与实际应用

最近写博客的时候突然遇到了一个比较棘手的问题,我的数据表设计时存储文章内容的字段使用的是text类型,这个类型最大只能存储65535个字节,遇到这个问题时我最先想到的就是更改数据库的字段类型为mediumtext或者longtext

虽然更改字段类型可以解决问题,但是我突然想到还可以使用压缩的方式来解决这个问题。我们可以将文章内容使用压缩函数进行压缩后再存储。比如文章内容10万个字符,压缩后可能就只有5万个字符甚至更少。

在实际运用之前我们来看看PHP相关的压缩函数吧

PHP中又三个压缩函数,分别为gzcompressgzdeflategzencode。对应的解压缩函数为gzuncompressgzinflategzdecode

php压缩函数

允许结果如下所示:

似乎压缩效果不是很好,但是我们把测试数据换成数字类型,压缩效果就很明显了。具体具体如下所示:

从上面的压缩效果来看,不论原字符串是什么类型的数据,gzdeflate的压缩效果最好,gzencode压缩效果最差。

为什么会造成这么大的差距呢?要明白其原因首先就要明白其工作的原理

压缩原理:

压缩文件的基本原理是查找文件内的重复字节,并建立一个相同字节的"词典"文件,并用一个代码表示,比如在文件里有几处有一个相同的词"AB"用一个代码表示并写入"词典"文件,这样就可以达到缩小文件的目的。

由于计算机处理的信息是以二进制数的形式表示的,因此压缩就是把二进制信息中相同的字符串以特殊字符标记来达到压缩的目的

总结:

数字字符串相同的字符很多毕竟数字只有0~9这十个,而非数字类的字符串就很多了,因此数字字符串压缩效果更好。

那么我们的博客文章能不能使用压缩呢,压缩效果好不好呢?我实际实验了一下,压缩效果还可以。思考了一下原因,博客使用的是富文本编辑的,而富文本又有很多html标签,这些html标签大部分都是相同的,压缩后体积自然就变小了。

压缩效果:gzdeflate > gzcompress > gzencode

使用数据库存储压缩数据时,可能会报如下错误:

Malformed UTF-8 characters, possibly incorrectly encoded

主要原因是:压缩后会有特殊字符,这些字符可能是GBK、GB2312、BIG5等编码格式,而数据库及字段使用的是utf8编码。我们可以先将压缩后的数据使用base64_encode进行转换后再存储到数据库,获取数据时使用base64_decode转换回来再进行解压缩。下方以thinkphp6的获取器和修改器为例:

tp修改器

本人特意实验了一下,一篇12021个字符串的文章使用gzdeflate压缩后只有2685个字符,再使用base64加密后字符长度为3580。虽然base64加密后内容变大了,但是相对原字符,压缩效果依然很乐观。

有遗漏或者不对的可以在我的公众号留言哦

编程经验共享

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230615A01Z4000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券