首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >20多行 Python 代码优雅搞定 PDF 转换成图片

20多行 Python 代码优雅搞定 PDF 转换成图片

作者头像
昱良
发布2019-06-19 17:01:12
发布2019-06-19 17:01:12
3.3K0
举报

源 / 程序员大咖

本文利用 PyPDF包来处理 PDF文件,为了方便快捷,我这里直接将一个页面转换成图片,就不需要去识别页面中的每一个 PDF元素了,这是没必要的。

转换

核心代码很简单,就是将 PDF文件读取出来,转换成 PdfFileReader,然后就可以根据 PyPDF2的API去获得每一个页面的二进制数据,拿到二进制数据过后,就能很方便的进行图片处理了,这里用 wand包来进行图片处理。

代码语言:javascript
复制
 1# -*- coding: utf-8 -*-
 2
 3import io
 4from wand.image import Image
 5from wand.color import Color
 6from PyPDF2 import PdfFileReader, PdfFileWriter
 7memo = {}
 8'''
 9需要注意的是一般PDF文件较大,如果一次性转换
10整个PDF文件需要小心内存溢出的问题,我们这里
11将第一次载入的整个PDF文件保存到内存,避免每
12次读取的时候都重新载入。
13'''
14def getPdfReader(filename):
15   reader = memo.get(filename, None)
16   if reader is None:
17       reader = PdfFileReader(filename, strict=False)
18       memo[filename] = reader
19   return reader
20
21def _run_convert(filename, page, res=120):
22   idx = page + 1
23   pdfile = getPdfReader(filename)
24   pageObj = pdfile.getPage(page)
25   dst_pdf = PdfFileWriter()
26   dst_pdf.addPage(pageObj)
27   pdf_bytes = io.BytesIO()
28   dst_pdf.write(pdf_bytes)
29   pdf_bytes.seek(0)
30   img = Image(file=pdf_bytes, resolution=res)
31   img.format =  png 
32   img.compression_quality = 90
33   img.background_color = Color("white")
34   img_path =  %s%d.png  % (filename[:filename.rindex( . )], idx)
35   img.save(filename=img_path)
36   img.destroy()

批量处理

上面已经完成了一个 PDF页面的转换,要完成整个文件的转换就很简单了,只需要拿到文件的总页码,然后循环执行就行。考虑到转换比较耗时,可以使用异步处理的方式加快速度。比如可以使用 celery来搭配处理,一定注意小心内存泄露。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-06-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习算法与Python学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 转换
  • 批量处理
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档