首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python-PyPDF2

作用:处理PDF文档 提取文本,旋转页面,叠加页面 1.pdfFileObj = open(‘meetingminutes.pdf’,’rb’)#打开pdf文档 2.pdfReader = PyPDF2....PdfFileReader(pdfFileObj)#获取pdf文档数据 3.pdfReader.numPages#获取页数 4.pageObj = pdfReader.getPage(0)#获取指定页码的内容...,从0开始 5.pageObj.extractText()#返回该页文本的字符串 注:难以做到全部提取 6.pageObj.rotateClockwise(90)#旋转页面。...只能旋转90*x度 7.pageObj.mergePage(pdfReader.getPage(1))#将两页重叠 解密 1.pdfReader.isEncrypted#判断文档是否加密 2.pdfReader.decrypt...1.无法世界添加内容,只能从其他pdf文档中拷贝过来加入 eg: import PyPDF2 pdfFile = open(‘meetingminutes.pdf’,’rb’)#打开一个现有的文档 pdfReader

23110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    PyPDF2的使用「建议收藏」

    PDF合成包含链接和按钮,表单字段,音频,视频和业务逻辑 在这篇文章中,我们将学习如何做一些pdf的操作: 从PDF中提取文字 旋转pdf页 合并pdf 分割pdf 向pdf页中添加水印...文档进行加密解密 等等 安装PyPDF2,在命令行下执行命令: pip install PyPDF2 ---- 注意,这个模块的名字对大小写是敏感的,所以,确保y是小写的,其他字母都是大写的 2、使用模块 – 从pdf...PyPDF2.PdfFileReader(pdfFile) 我们创建了一个PyPDF2模块中PdfFileReader类的对象,并将pdfFile对象传进去,获取pdfReader对象 print...(pdfReader.numPages) numPages 属性保存了pdf的页数,在我的例子中,numPages = 241 page = pdfReader.getPage(0) 现在,我们创建了一个...pageObj.mergePage(pdfReader.getPage(0)) wmFileObj.close() return pageObj 首先,我们创建了一个pdf reader对象。

    1.1K40

    itext实现合同尾部签章部分自动添加,定位签名

    原理 通过itext中List添加固定文本 添加指定标记比如★☆用以之后替换成其他文本或图片 可以不用标记,反正就是算好位置 至于签章这块位置的选定,根据文档最后一行位置判定,我的判定方法就是文档最后一页最后一行离尾部距离小于一定值...PdfReader reader = new PdfReader(pdfBytes); //内容解析器 PdfReaderContentParser parser = new PdfReaderContentParser...通过上面的步骤找到最后一行位置,找到指定特殊字符的位置 添加尾部签章部分通过 PdfReader reader = new PdfReader(basePath + "_temp2.pdf"); PdfWriter...inputStream, String signPdfSrc, String signImage, float x, float y,int page...= null) { try { inputStream.close(); } catch (IOException e)

    1.6K11

    使用PyPDF2模块处理PDF文件通用方法技巧

    处理PDF文件,使用PyPDF2模块,PyPDF2不能从PDF文档中提取图像、图表或其他媒体,但可提取文本,作为字符串返回。...从一页中提取文本,需要先取得Page对象,使用pdfreader.getPage(传入页码顺序,从0开始)。...解密PDF使用pdfreader.decrypt(‘口令字符串’)函数,提供正确的口令返回1 否则返回0。...创建PDF:使用PdfFileWriter对象创建PDF例如pdfwriter=PyPDF2.PdfFileWriter(),但PyPDF2模块不可以利用其将任何文 本写入PDF,该对象仅限从其他...PyPDF2模块不允许直接编辑PDF,必须 创建一个新的PDF,其一般步骤为: 1) 打开一个或多个已有的PDF得到PdfFileReader对象; 2) 创建一个新的PdfFileReader

    1.3K30

    零代码编程:下载的PDF文件自动批量重命名

    从arxiv或者一些其他网站下载的PDF文件,标题只是创建时间,看不出里面内容是什么,要一个个打开看非常麻烦。...取代,并且utils模块也有所变动,PdfReader对象访问文档属性应当通过访问metadata属性来获取PDF的元数据 运行程序,失败,错误信息如下: Traceback (most recent...' object has no attribute 'document_info' 把错误信息丢给GPT4,给出的回复是: 从 PyPDF2 的 3.0.0 版本开始,PdfReader对象访问文档属性的方式发生了变化...它遍历指定文件夹中的PDF文件,从每个PDF文件读取标题,并以该标题重新命名文件 python源代码: import os import re from PyPDF2 import PdfReader...(pdf_path) # 从metadata中提取PDF文件的标题 title = reader.metadata.get('/Title', None) # 如果标题为空或未获取到标题,保持文件名不变

    17710

    Linux有问必答:怎么用CheckInstall从源码创建一个RPM或DEB包

    Checkinstall会跟踪install命令行所创建或修改的所有文件的路径(例如:“make install”、“make install_modules”等)并建立一个标准的二进制包,让你能用你发行版的标准包管理系统安装或卸载它...在这篇文章中,我们只集中在红帽子和Debian为基础的发行版,并展示怎样从源码使用Checkinstall创建一个RPM和DEB软件包 在linux上安装Checkinstall 在Debian及其衍生发行版上安装...http://rpm.pbone.net找到),不过它已经从Repoforge库里删除了。...# checkinstall 如果没有参数,默认安装命令“make install”将被使用 用Checkinstall创建一个RPM或DEB包 在这个例子里,我们将创建一个...(我会创建一个默认设置的包文件?)”,回答“Y”: ? 你可以输入一个包的简短描述,然后按两次回车: ? 输入一个数字以修改下面的任何值或ENTER继续: ?

    3.6K40

    Python 自动化指南(繁琐工作自动化)第二版:十五、使用 PDF 和 WORD 文档

    从 PDF 中提取文本 PyPDF2 无法从 PDF 文档中提取图像、图表或其他媒体,但它可以提取文本并将其作为 Python 字符串返回。...要获得这个文档的第一页,您可能希望调用pdfReader.getPage(0),而不是getPage(42)或getPage(1)。...相反,您必须创建一个新的 PDF,然后从现有文档中复制内容。本节中的示例将遵循这一通用方法: 将一个或多个现有 PDF(源 PDF)打开到PdfFileReader对象中。...类似程序的创意 能够从其他 PDF 的页面创建 PDF 将使您的程序能够执行以下操作: 从 PDF 中剪切特定页面。 重新排列 PDF 中的页面。...图 15-9:添加了多个段落和运行对象的文档 add_paragraph()和add_run()都接受可选的第二个参数,它是Paragraph或Run对象样式的字符串。

    3.7K50

    CSharp每日代码示例:使用iTextSharp创建PDF文件

    iTextSharp是一个从JAVA项目iText衍生的.Net版本的开源项目,采用GPL许可证发布。这个项目在创建PDF文件方面功能相当强大,弱点是缺少对于现有PDF文件进行修改和分析的功能。...当创建一个矩形或设置边距时,你可能希望知道该用什么度量单位:厘米、英寸或象素,事实上,默认的度量系统以排版单位磅为基础得出其他单位的近似值,如1英寸=72磅,如果你想在A4页面的PDF中创建一个矩形,你需要计算以下数据...(xxx 是 Pdf 或 Xml) 你可以通过下面的方法创建一个实例: PdfWriter writer = PdfWriter.getInstance(document, new FileStream...("Chap01xx.pdf")); 但是你几乎永远不会用到Writer实例(除非你想创建高级PDF或者希望用一些非常特殊的函数,如ViewerPreferences 或 Encryption)。...Document类允许创建一个新的PDF文件。 PdfWriter类提供了从文档类对象编写PDF文档的即时访问。

    3.1K10
    领券