首页
学习
活动
专区
圈层
工具
发布

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2

在python中有多个对应的库可以操作Pdf文件,其中最常用的是Pypdf2PyPDF是一个操作pdf的模块,现在最常用的版本是PyPDF2;需要注意的是,这个库不能操作pdf获取文字信息PyPDF2介绍...PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并PDF文档,它还可以对pdf文档进行添加水印、加密解密等操作。...对象,传入文件路径infomation = pdf.getDocumentInfo() #获取文档信息number_of_pages = pdf.getNumPages() #获取总页数完整实例代码如下...= pdf.getNumPages() #获取总页数txt = f'''{input_path} information:Author : {infomation.author},Creator :...该页面通常是从一个PdfFileReader实例中获取的pdfWriter.addPage(pdfReader.getPage(0))# insertBlankPage 将空白页插入此 PDF 文件并返回此页面的

1.1K10

Python操作PDF全总结|处理PDF文档不得不知道的两个库

Python在自动化办公方面有很多实用的第三方库,可以很方便的处理word、excel、ppt、pdf文件,今天我们就学习一下Python处理PDF文档的两个常用库「pdfplumber」、「pypdf2...学习文档:https://github.com/jsvine/pdfplumber 「pypdf2:」 PyPDF2 是一个纯 Python PDF 库,可以读取文档信息(标题,作者等)、写入、分割、合并...「PdfFileReader 对象的属性和方法」 ? 「PdfFileWriter 对象的属性和方法」 ?...编码规范中文版.pdf") # getNumPages() 获取总页数 for page in range(file_reader.getNumPages()): # 实例化对象 file_writer...("D:\\pdffiles\\水印.pdf") mark_page = sy.getPage(0) # 水印所在的页数 # 读取添加水印的文件 file_reader = PdfFileReader(

4K20
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python 深入浅出 – PyPDF2 处理 PDF 文件

    大家好,又见面了,我是你们的朋友全栈君。 实际应用中,可能会涉及处理 pdf 文件,PyPDF2 就是这样一个库,使用它可以轻松的处理 pdf 文件,它提供了读,割,合并,文件转换等多种操作。...(bool):确定是否 warnings.py 用自定义实现覆盖 Python 模块(默认为 True) PdfFileReader 对象的属性和方法 属性和方法 描述 getDestinationPageNumber...tree = None,retval= None) 检索文档中的指定目标 getNumPages() 计算此 PDF 文件中的页数 getOutlines(node = None,outline = None...(pageNumber) 从这个 PDF 文件中检索一个编号的页面 insertBlankPage(width=None,height=None,index=0) 插入一个空白页面到这个 PDF 文件并返回它...PageObject 对象的属性和方法 属性或方法 描述 static createBlankPage(pdf=None,width=None,height=None) 返回一个新的空白页面 extractText

    2K30

    PyPDF2 | 利用 Python 实现 PDF 分割

    图1 分割前的 PDF 在百度了一番后,发现大多都是使用 Adobe Acrobat 软件进行剪裁,这完全不 Pythonic,因此又找了用 Python 处理 PDF 文件的方法,最后发现了 PyPDF2...这个库,本文将利用这个库,实现对 PDF 的分割。...首先,你需要通过 pip 安装这个库: pip install PyPDF2 实现切割 PDF 的思想很简单,只要我们能测量出 PDF 的长宽,接着分别将左右裁剪拼接即可,而 PyPDF2 已经提供了这些功能...计算 pdf 的总页数 page_count = pdf_input_left.getNumPages() # 5....循环所有的页数后,将文件输出为 pdf 文件 pdf_output.write(open('xxx,pdf', 'wb')) 需要注意的是,PyPDF2 默认将较短的边作为 X 轴,较长的边作为 Y 轴

    2.6K20

    Py 自动化办公

    的公司赞助 PyPdf 的一个分支后来命名为 PyPDF2,两个版本功能都基本一样,最大区别就是 PyPDF2 中 加入了支持 Python3 特性; PyPDF2 近期也没有再更新了,最近一个版本发布在...与其它Python 库一样,安装可通过 pip 或 conda 工具 pip install pypdf2 PDF 信息提取 使用 PyPDF2 可以从 PDF 中提取到一些元数据和文本信息,对 PDF...的实例,该实例中存储着我们需要的信息;对 reader 对象调用 getNumPages 方法也可以返回文档页数; 个人看法,这里面的数据也就 页数 有点价值,当批量统计时该方法很适用 PDF 页面旋转...PyPDF2 中 pdf 每一页都是以 page 对象存在,返回某一页的实例可通过 reader 对象中的 get_Page(page_index) 方法,其中 page_index 表示索引 对某一页旋转...PDF 添加水印 在今天列举的这么多功能中,我想这个功能是最有用,批量添加水印主要用到 page 对象中的 margePage() 方法,通过将两个页面合并来达到添加水印的效果 因为 PyPDF2 只能操作

    1.8K00

    python pypdf2

    (bool):确定是否 warnings.py 用自定义实现覆盖 Python 模块(默认为 True) ---- PdfFileReader 对象的属性和方法 属性和方法 描述 getDestinationPageNumber...(tree = None,retval= None) 检索文档中的指定目标 getNumPages() 计算此 PDF 文件中的页数 getOutlines(node = None,outline...(0, 2): # 返回指定页编号的 pageObject pageObj = pdfFileReader.getPage(index) print('index = %d , pageObj =...() 页数 getPage(pageNumber) 从这个 PDF 文件中检索一个编号的页面 insertBlankPage(width=None,height=None,index=0) 插入一个空白页面到这个...PDF 文件并返回它,如果没有指定页面大小,就使用最后一页的大小 insertPage(page,index=0) 在这个 PDF 文件中插入一个页面,该页面通常从 PdfFileReader

    66130

    用Python玩转PDF的各种骚操作

    尽管PDF最初是由Adobe发明的,但它现在是由国际标准化组织(ISO)维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...本文将带你了解如何执行以下操作: 从Python中提取PDF中的文档信息  旋转页面  合并PDF  拆分PDF  添加水印  加密PDF pyPdf,PyPDF2和PyPDF4的历史 最初的pyPdf...我们还可以在reader对象上调用.getNumPages(),让它返回文档中的页数。 information这个变量具有多个实例属性,可以使用这些属性从文档中获取所需的其余元数据。...接下来,可以使用.get page()获取所需的页面。上面开始输入了第0页,也就是第一页,调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...我们可以使用Python和PyPDF2为文档添加水印,而且是拥有仅包含水印图像或文本的PDF。

    2.3K50

    如何使用Python玩转PDF各种骚操作?

    尽管PDF最初是由Adobe发明的,但它现在是由国际标准化组织(ISO)维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...本文将带你了解如何执行以下操作: 从Python中提取PDF中的文档信息 旋转页面 合并PDF 拆分PDF 添加水印 加密PDF pyPdf,PyPDF2和PyPDF4的历史 最初的pyPdf...我们还可以在reader对象上调用.getNumPages(),让它返回文档中的页数。 information这个变量具有多个实例属性,可以使用这些属性从文档中获取所需的其余元数据。...接下来,可以使用.get page()获取所需的页面。上面开始输入了第0页,也就是第一页,调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...我们可以使用Python和PyPDF2为文档添加水印,而且是拥有仅包含水印图像或文本的PDF。

    2.2K20

    PyPDF2读取中文_pdfplumber、pypdf2 常用方法总结

    大家好,又见面了,我是你们的朋友全栈君。 这两天学习了一些处理 PDF 文档的方法,网上查找资料的过程中发现很多处理 PDF 文件的库,多方尝试后推荐两个比较好用的。...其返回值为一个 DocumentInformation 类型,直接输出的话会得到类似下面的信息: '/Author': getNumPages():这个获取 pdf 文件中的页数。...getPage(pageNumber):会得到 pdf 文件中对应的 pageNumber 页数的页面对象,返回值为 PageObject 实例。...如果文件本身加密,即使在使用解密 decrypt 方法之后,还是会返回 true。 numPages:pdf 总共的页数,相当于访问 getNumPages() 的只读属性。...insertPage(page, index=0):将 page 添加到 pdf 中,index 指定的是被插入的位置。

    2.1K30

    如何使用Python玩转PDF各种骚操作?

    尽管PDF最初是由Adobe发明的,但它现在是由国际标准化组织(ISO)维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...本文将带你了解如何执行以下操作: 从Python中提取PDF中的文档信息 旋转页面 合并PDF 拆分PDF 添加水印 加密PDF pyPdf,PyPDF2和PyPDF4的历史 最初的pyPdf...我们还可以在reader对象上调用.getNumPages(),让它返回文档中的页数。 information这个变量具有多个实例属性,可以使用这些属性从文档中获取所需的其余元数据。...接下来,可以使用.get page()获取所需的页面。上面开始输入了第0页,也就是第一页,调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...我们可以使用Python和PyPDF2为文档添加水印,而且是拥有仅包含水印图像或文本的PDF。

    1.3K20

    如何使用Python玩转PDF各种骚操作?

    尽管PDF最初是由Adobe发明的,但它现在是由国际标准化组织(ISO)维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...本文将带你了解如何执行以下操作: 从Python中提取PDF中的文档信息 旋转页面 合并PDF 拆分PDF 添加水印 加密PDF pyPdf,PyPDF2和PyPDF4的历史 最初的pyPdf...我们还可以在reader对象上调用.getNumPages(),让它返回文档中的页数。 information这个变量具有多个实例属性,可以使用这些属性从文档中获取所需的其余元数据。...接下来,可以使用.get page()获取所需的页面。上面开始输入了第0页,也就是第一页,调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...我们可以使用Python和PyPDF2为文档添加水印,而且是拥有仅包含水印图像或文本的PDF。

    1.3K30

    Python玩转PDF各种骚操作大全!

    尽管PDF最初是由Adobe发明的,但它现在是由国际标准化组织(ISO)维护的开放标准。你可以通过使用PyPDF2包在Python中处理已先存在的PDF。...本文将带你了解如何执行以下操作: 从Python中提取PDF中的文档信息 旋转页面 合并PDF 拆分PDF 添加水印 加密PDF pyPdf,PyPDF2和PyPDF4的历史 最初的pyPdf软件包于2005...我们还可以在reader对象上调用.getNumPages(),让它返回文档中的页数。 information这个变量具有多个实例属性,可以使用这些属性从文档中获取所需的其余元数据。...接下来,可以使用.get page()获取所需的页面。上面开始输入了第0页,也就是第一页,调用page对象的.rotateClockwise()顺时针旋转方法并输入90。...我们可以使用Python和PyPDF2为文档添加水印,而且是拥有仅包含水印图像或文本的PDF。

    1.7K40

    借助 PyPDF2 库把数据分析系列教程文章制作成了PDF电子书,欢迎来领取!

    PyPDF2 库,顾名思义,就是用来操作PDF文件的,相信网上已经有太多相关的介绍文章了,我这里就不再赘述了。这里只重点一下制作书签的过程,网上好像还没有比较详细实用的文章!...这样就可以方便的把当前目录下的所有PDF文件都合并到一个新的PDF当中,但是却有一个问题,就是没有书签,这对于一个教程类的文档来说,是及其不友好的,下面就来看看如何添加书签 根据 PyPDF2 的官方文档或网上的文章可以知道...,对于 pagenum 参数,是用来指定书签页数的,要注意,PyPDF2 中PDF的页面是从0开始的,即在序列0添加书签时会跳到首页,在n处添加书签时会跳转至n+1页。...('bookmark.pdf', 'wb')) 该函数接收两个参数,一个列表参数 pdfmark,是一个二维列表,存储着书签的名称和所在页数,另一个参数则是当前需要编辑的已经存在的PDF文件 下面开始改写...,分别是数据分析入门和Python Web 入门,Python Web 入门更新的慢一些,还在难产中。。。

    53010
    领券