小朋友们好,大朋友们好!
我是猫妹,我们今天聊聊如何用Python编辑pdf格式文件。
提起电脑上常见的格式文件,你觉得有哪些?
猫妹觉得有txt、word、ppt、excel、pdf等。
txt是电脑上自带的,它小巧,但功能有限。
word、ppt、excel可谓是办公三剑客,无人不知无人不晓。
pdf呢?
一种跨操作系统平台的电子文件格式。
可将文字、字体、图形、图像、色彩、版式及与印刷设备相关的参数等封装在一个文件中。
pdf格式文件由专用的“编写器”软件生成,也可由其他的文字、图像处理软件转换而成,pdf文件阅读器软件只提供单一的阅读功能。
pdf用得最多的一种场合就是电子书。
你读过pdf格式的电子书吗?
这些电子书,有些是word转成pdf的,有的是扫描成的图片转换成pdf的。
多数场合,我们只会用到阅读功能。
少数场合,我们可能需要对pdf进行编辑,比如拆分、合并、加水印、加密码、去密码等。
如果你想编辑pdf,网上一搜pdf编辑功能,基本上多数都是要收费。
没钱,但是想编辑pdf怎么办呢?
用Python啊!
不会Python?
和猫妹学Python!
Python有成熟的pdf编辑包,比如咱们今天要用到的pypdf2。
PyPDF的前身是PyPDF包在2005年发布,该包的最后一个版本发布于2010年,后来大约经过一年左右,名为Phasit的公司赞助PyPDF的一个分支后来命名为PyPDF2,两个版本功能都基本一样,最大的区别就是PyPDF2中加入了支持Python3功能。后面又出现了PyPDF3、PyPDF4等不同版本,但这些包并没有对PyPDF2功能向后完全兼容,受欢迎程度当然也不如PyPDF2。
安装pypdf2
使用命令pip install pypdf2即可。
随便找个pdf文件,开始操作。
猫妹这里有一本半小时漫画中国史,我们就用它来练习吧!
获取基本信息
导入PyPDF2模块后,读取路径下的pdf文件,可以读取总页数、是否加密、某页内容、pdf基本信息等。
拆分
导入PyPDF2模块后,可以用PdfFileReader、PdfFileWriter进行读写,将原pdf中的某些页写到新的pdf文件中。
合并
导入PyPDF2模块后,可以用PdfFileReader、PdfFileWriter进行读写,将不同pdf整理合并到一个pdf中。
加水印
导入PyPDF2模块后,可以用PdfFileReader、PdfFileWriter进行读写,将不同pdf整理合并到一个pdf中。这里的某个pdf可以为水印文件。
我们先看效果,水印前原始文件:
水印文件:
添加水印后的文件:
猫妹没有仔细调节水印文件,粗略弄了下,还挺漂亮的!
你觉得呢?
加密
pdf加密是什么意思?
就是pdf文件可以看,但是需要你输入密码。
输入错误,不可以看。
解密
pdf解密是什么意思?
就是我知道pdf文件的密码,但是我不想每次都输入密码。
我想把密码去掉,这样不管是我或者其他小伙伴看的时候不需要输入密码了。
这里的解密,是咱们知道密码,想把这个密码拿掉。并不是咱不知道密码,想用某些办法得到密码。
好了,常用的pdf编辑功能就是这些了。
掌握了这些功能,其他更多的pdf功能,相信对于聪明的你而言也不在话下。
如果想系统学习Python在办公自动化中的应用,可以关注下这本书:《Python编程快速上手-让繁琐工作自动化》。
里面如何用Python对excel、pdf、word进行操作,这只是书中的一小部分而已。
人生苦短,我用Python!
我是猫妹,咱们下次见!
领取专属 10元无门槛券
私享最新 技术干货