前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >python读取pdf文档-实战

python读取pdf文档-实战

作者头像
py3study
发布于 2020-01-06 02:34:32
发布于 2020-01-06 02:34:32
91300
代码可运行
举报
文章被收录于专栏:python3python3
运行总次数:0
代码可运行
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# -*- coding: utf-8 -*-
#读取pdf文档
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice
import pdfminer.pdfinterp


#获取文档对象
fp = open("naacl06-shinyama.pdf","rb")
#创建一个与文档关联的解释器
parser=PDFParser(fp)
#PDF文档对象
doc = PDFDocument()
#链接解释器和文档对象
parser.set_document(doc)
doc.set_parser(parser)

#初始化文档
doc.initialize("")

#创建pdf资源管理器
resource = PDFResourceManager()

#参数分析器
laparam = LAParams()

#创建一个聚合器
device = PDFPageAggregator(resource,laparams=laparam)

#创建PDF页面解释器
interpreter=PDFPageInterpreter(resource,device)

#使用文档对象得到页面的集合
for page in doc.get_pages():
    #使用页面解释器来读取
    interpreter.process_page(page)

    #使用聚合器来获取内容
    layout=  device.get_result()

    for out in layout:
        if hasattr(out,"get_text"):
            print(out.get_text())
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019/09/21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
python读取pdf文档
# -*- coding: utf-8 -*- #读取pdf文档 from pdfminer.pdfparser import PDFParser,PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.pdfdevice import PDFDevice import pdfminer.pdfinterp #获取文档对象 fp = open("naacl06-shi
py3study
2020/01/08
8220
手把手 | 20行Python代码教你批量将PDF转为Word
大数据文摘作品 投稿作者|丁彦军 在日常工作或学习中,经常会遇到这样的无奈: “小任,你把这个PDF中的文件码出来发我” 艹,倒霉,2M的PDF12点也完不了啊! 很多时候在学习时发现许多文档都是PDF格式,PDF格式却不利于学习使用,因此需要将PDF转换为Word文件,但或许你从网上下载了很多软件,但只能转换前五页(如WPS等),要不就是需要收费,那有没有免费的转换软件呢? so,我们给各位带来了一个免费简单快速的方法,手把手教你用Python批量处理PDF格式文件,获取自己想要的内容,存为word形式。
大数据文摘
2018/05/24
2K0
媳妇儿让我给她找一个PDF转word免费工具,找了半天我决定给她写一个出来^-^
之前我媳妇儿让我给她找一个PDF转WORD的免费工具,在网上找了半天发现要不就是收费,要不就是转化的格式混乱。既然网上不能找到好用的免费工具那就直接来写一个吧。人生苦短,我用python。
菜鸟小白的学习分享
2020/07/14
5090
Python读取PDF文档并翻译
翻译服务选择免费的百度翻译api:https://api.fanyi.baidu.com/
小锋学长生活大爆炸
2020/08/13
2.2K0
Python读取PDF文档并翻译
一个薪资double的捷径:自动化简历内推工具
最近,小编在处理简历时,发现大量简历需要一个个打开文件,复制姓名、邮箱、电话号码、学历等关键信息,效率特别低且部分文件无法直接复制。于是,小编便写了文件阅读工具的脚本,支持文件格式有:doc,docx,pdf。
不吃西红柿
2022/07/29
4800
pdfminer将pdf转为csv
之前随便做了一下中金所杯的金融知识大赛的试题,低分飘过。看到复试名单,突然有一个想法,这个是pdf,万一有人想分析一下每个区域的人的分布,那怎么办。
钱塘小甲子
2019/01/28
1.4K0
三大神器助力Python提取pdf文档信息
今天这篇文章是今年最后一篇文章了,因此也是一篇非常有用的技术文章,你可以现在只了解一下并进行收藏,等你需要用到的时候再拿出来看一看,这样就好了。
啃饼思录
2019/02/26
20.7K0
python提取pdf文本内容
Layout布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象,形成一个树结构。如图所示: 
周小董
2019/03/25
3.6K0
python提取pdf文本内容
51. Python 数据处理(2)
#所以,由上代码可以分析出,如果文件原本就存在,而你要修改它,不能直接使用xlwt,必须使用 xlutils.copy 方法复制一份出来再修改,最后保存或覆盖原文件。
py3study
2020/01/10
6430
51. Python 数据处理(2)
python3读取pdf文件
一.安装pdfminer3k模块 二.读取pdf文件 import sys import importlib importlib.reload(sys) from pdfminer.pdfparse
py3study
2020/01/10
2.3K0
使用pdfminer解析pdf文件
最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现。下面就看看怎样使用吧。
kongxx
2018/12/27
1.8K0
Python:解析PDF文本及表格——pdfminer、tabula、pdfplumber 的用法及对比
pdfminer3k 是 pdfminer 的 python3 版本,主要用于读取 pdf 中的文本。
丹枫无迹
2019/01/22
18.8K1
Python处理CSV,Excel,PD
逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号),其文件以纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其它字符或字符串,最常见的是逗号或制表符。通常,所有记录都有完全相同的字段序列。
py3study
2020/01/07
1.6K0
PDF转Word完全免费?这么好的事情我怎么不知道????
现在网络上大部分的PDF转Word都是收费的,基本都是按页收费,有了我们的python代码后,我们就可以完全免费的将PDF转成Word了,这么好的福利我们赶紧来了解一下吧!
我被狗咬了
2019/09/23
8920
PDF转Word完全免费?这么好的事情我怎么不知道????
爬虫爬取英文文档存为PDF,在读取PDF自动翻译文档
这几天在爬了Python的官方文档,但是它里面全是英文,只有数字,没有汉字,原谅我这个英语渣渣搞不懂,只能靠翻译了,如果是复制到百度翻译的话太慢,耗时间。所以就直接用爬虫来搞了,自动化翻译文档
andrew_a
2019/07/30
1.5K0
爬虫爬取英文文档存为PDF,在读取PDF自动翻译文档
❤️ 6个Python办公黑科技,工作效率提升100倍!HR小姐姐都馋哭了(附代码)❤️
环境准备:python 3.6 、mac(下文中doc转docx是mac写法,windows更简单,导入win32的包即可)
不吃西红柿
2022/09/19
3610
❤️ 6个Python办公黑科技,工作效率提升100倍!HR小姐姐都馋哭了(附代码)❤️
如何将pdf转换为word 3.0
相对于封装的软件,python和R的操作需要稍微折腾一下。浏览论坛的时候的发现了一款轻量级程序,尝试了一下还不错,看一下转换的效果:
生信菜鸟团
2020/08/04
1.8K0
如何将pdf转换为word 3.0
python读取pdf提取文字和图片
如下图所示,一份pdf有几十页,每页九张图片, 提取出图片并用图片下方的文本对图片命名
诡途
2022/01/07
7.7K0
python读取pdf提取文字和图片
太方便了!利用Python对批量Pdf转Word
在wps或者office里面可以将pdf转word,不过只能免费转前面5页,超过5页就需要会员。今天教大家一个Python办公小技巧:批量Pdf转Word ,这样可以自由想转多少页都可以。
Python研究者
2021/06/22
1.2K0
太方便了!利用Python对批量Pdf转Word
一段价值2.4万元的Python代码
上周行哥发了一篇文章,在里面用游戏案例分析了一下“我们为什么这么穷?”,可谓字字珠玑,每一个游戏案例的观点都深入人心
行哥玩Python
2020/07/14
8630
一段价值2.4万元的Python代码
推荐阅读
相关推荐
python读取pdf文档
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验