腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Python 3
PDF
文本
提取
python
、
python-3.x
我最近从python2转到
python3
。我知道
python3
不支持
PDFMiner
模块。所以我想知道是否有替代
PDFMiner
的
方法,或者更简单一些,是否有任何模块支持
Python3
,并且能够从
pdf
中
提取
文本和数字?
浏览 5
提问于2015-09-14
得票数 3
1
回答
PDFMiner
不能检测所有页面
ocr
、
data-extraction
、
pdfminer
、
hocr
我试图从
pdf
中
提取
文本,但我遇到了一个错误,因为我
的
脚本有时会检测
pdf
的
每一页,有时只检测
pdf
的
第一页
。我甚至在stackoverflow上
的
上一个post中包含了这一行。print(len(list(extract_pages(
pdf
_file)))) 任何时候,我
的
脚本只
提取
第一页
,脚本只检测到1页。 我甚至尝试过另一个
库
(PyPDF2
浏览 19
提问于2020-10-17
得票数 0
2
回答
如何根据位置从
PDF
中
提取
文本?
linux
、
pdf
、
pdfminer
我有多个
PDF
,我想从他们
的
第一页
从某个区域
提取
文本。因此,假设我有
PDF
中文本
的
边界框
的
坐标,那么如何
使用
命令行
提取
文本。有人能告诉我如何用
PDFMiner
来做这件事吗?或者你能提出其他解决方案吗? PS:我在Linux终端上。
浏览 1
提问于2014-03-14
得票数 1
回答已采纳
6
回答
使用
python中
的
PDFMiner
从
PDF
文件
中
提取
文本?
python
、
python-3.x
、
python-2.7
、
text-extraction
、
pdfminer
我正在寻找有关如何
使用
PDFMiner
和Python从
PDF
文件
中
提取
文本
的
文档或示例。 看起来,
PDFMiner
更新了它们
的
API,我发现
的
所有相关示例都包含过时
的
代码(类和方法已经更改)。我发现,使从
PDF
文件
中
提取
文本
的
任务变得更容易
的
库
使用
了旧
的
PDFMine
浏览 11
提问于2014-10-21
得票数 112
回答已采纳
2
回答
提取
LTFigure对象后面的文本
python
、
pdf
、
pdfminer
我正在
使用
python
pdfminer
库
(参见docs)从
pdf
文件
中
提取
文本。 然而,
pdfminer
似乎无法
提取
某些
文件
中
的
所有文本,而是
提取
LTFigure对象。假设从这个对象
的
位置,它“覆盖”了一些文本,因此这个文本没有被
提取
出来。
pdf
文件
和包含从
pdf
提取
信息
的
浏览 149
提问于2021-01-28
得票数 0
回答已采纳
1
回答
使用
python3
的
pdfminer
库
提取
pdf
文件
的
第一页
python
、
pdf
、
pdfminer
我想从pdffile中获取
第一页
数据。 我已经
使用
了
pdfminer
并在输出中获得了pdffile
的
所有数据,但我只想获取pdffile
的
第一页
数据。我该怎么办? 我
的
代码如下所示。from
pdfminer
.high_level import extract_pagesimport os path
浏览 83
提问于2021-06-24
得票数 0
回答已采纳
1
回答
从Python
的
PDF
格式中
提取
文本及其字体细节(样式、大小、颜色、意大利语等)
python
、
pdf
、
fonts
、
font-size
、
text-extraction
我希望从Python
的
PDF
格式中
提取
其字体细节(样式、大小、颜色、意大利等)
的
文本。 我需要为翻译
提取
文本及其元数据,purpose.Can --任何人都建议
使用
相同
的
库
。
浏览 0
提问于2014-02-21
得票数 7
2
回答
如何在
Python3
中
使用
PDFminer
.six?
python-3.x
、
pypdf2
、
pdfminer
我想
使用
pdfminer
.six,这是一个工具,可以与
Python3
一起用于从
PDF
文档中
提取
信息。问题是根本没有好
的
文档,也没有关于如何
使用
该工具
的
源代码示例。我已经尝试了StackOverflow中
的
一些代码,但它不起作用。下面是我
的
代码。from
pdfminer
.converter import TextConverter from
pdfminer
.layout impo
浏览 7
提问于2019-06-07
得票数 10
回答已采纳
3
回答
用于读取
PDF
文件
的
Python
python
、
pdf
我发现很多帖子都提出了阅读
PDF
的
解决方案。我想一个字一个字地阅读
PDF
文件
,并对它做一些处理。人们推荐
pdfMiner
,它可以将整个
PDF
文件
转换成文本
文件
。但我想要
的
是一个字一个字地读
PDF
。有没有人能推荐一个这样
的
图书馆呢?
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
1
回答
使用
pdfminer
从
PDF
文件
中
提取
每个单词
的
坐标
python
、
pdf
、
coordinates
、
extract
、
pdfminer
我试图
提取
每个字
的
坐标从输入
PDF
文件
使用
pdfminer
。我试过下面的代码。from
pdfminer
.layout import LAParams, LTTextBox, LTText, LTChar, LTAnnofrom
pdfminer
.pdfinterp import PDFPageInterpreter, PDFResourceManager fr
浏览 13
提问于2022-07-19
得票数 1
2
回答
使用
PDFminer
3将多个
PDF
转换为文本
文件
python-3.x
、
pdfminer
希望这是一个非常简单
的
,但我是一个全新
的
使用
Python3
的
小项目,并希望一些指导。我有一个超过1000
pdf
文件
的
文件
夹,我想
提取
一些数据。我可以成功地将
PDF
转换为文本
文件
并将其保存在脚本目录中,但是我无法弄清楚如何一次为所有
PDF
运行该
文件
,并在新
文件
夹中为每个
PDF
创建一个输出
文件
。
浏览 0
提问于2019-11-28
得票数 0
5
回答
使用
pdfminer
.six从
pdf
文件
中
提取
文本时出错
python
、
pdf
、
windows-10
、
pdfminer
我正在尝试
使用
pdfminer
.six
库
(如)从
pdf
中
提取
文本,我已经在我
的
虚拟环境中安装了它。这是我
的
代码: 但是,但我在我
的
系统python中看到了这个已安装
的
pdf
2txt.
浏览 12
提问于2020-11-09
得票数 2
2
回答
PDF
文本
提取
并将其存储为键值对。
python
、
regex
、
text-mining
、
pdftotext
、
pdf-extraction
我想从
PDF
中
提取
文本。我从文本
提取
中得到
的
输出没有那么有组织。我想要
提取
的
参数,如MPC控制#,序列编号,型号等,并可以存储在字典中
的
键值对。我正在用下面的代码进行尝试,但没有得到所需
的
输出。import iofrom
pdfminer
3.pdfpage
浏览 9
提问于2021-06-16
得票数 0
回答已采纳
1
回答
pdfminer
3不是从彩色
pdf
页面中
提取
文本,如何将
pdf
页面转换成灰度?
python
、
pdf
、
text-extraction
、
grayscale
、
pdfminer
我正在
使用
pdfminer
3
库
从
pdf
中
提取
文本。但是它在彩色页面中
的
效果并不好。我尝试
使用
以下代码从
pdf
中
提取
文本:from
pdfminer
3.pdfpage import PDFPage这是一个简单
的
字母数字数据。我不知道为什么它会显示cid:,它甚至不在我
的</em
浏览 2
提问于2020-12-17
得票数 0
2
回答
如何
使用
python从
PDF
文件
中只
提取
特定
的
文本
python
、
dataframe
、
tesseract
、
python-tesseract
如何
使用
python从
PDF
文件
中
提取
一些特定
的
文本,并将输出数据存储到Excel
的
特定列中。这里是样例输入
PDF
文件
(File.
pdf
) 我们需要从整个
文件
中
提取
发票号、到期日和总到期
的
值。到目前为止我
使用
的
脚本: from io import St
浏览 2
提问于2020-09-30
得票数 0
1
回答
对于
pdfminer
,无法将python 2中
的
file()替换为python 3中
的
open()
python
、
python-3.x
、
python-2.x
、
pdfminer
我正在尝试获取路径中所有
pdf
的
xml
文件
,为此,我想
使用
Python3
上
的
https://github.com/euske/
pdfminer
/blob/master/tools/
pdf
2txt.py中
的
pdfminer
代码。我还安装了
pdfminer
.six和所有相关
的
软件包。但是,
使用</e
浏览 22
提问于2019-08-30
得票数 0
4
回答
从
PDF
中
提取
文本
python
、
pdf
我有一堆
PDF
文件
,我需要转换为TXT。不幸
的
是,当我
使用
许多可用
的
实用程序中
的
一个来做这件事时,它丢失了所有的格式,并且
PDF
中
的
所有表格数据变得混乱。可以通过指定位置等方式
使用
Python从
PDF
中
提取
文本吗? 谢谢。
浏览 0
提问于2010-06-30
得票数 7
回答已采纳
3
回答
使用
python3
从
pdf
中
提取
文本
python-3.x
、
pdf
、
pdfminer
我正在尝试
使用
slate模块从
pdf
文件
中
提取
文本,如下所示import slate with open('/var/tmp/PhysRevB.93.014203.
pdf
'
浏览 4
提问于2016-11-16
得票数 1
2
回答
从pdfs和文档中
提取
文本和元数据
javascript
、
python
我正在做一个抄袭检查作为一个附带
的
项目。我想知道如何从文档such as bold text or big titles中
提取
文本和相关元数据
的
方法。我将
使用
python或javascript,并在每种语言上
使用
框架。那么,我如何从
文件
中
提取
所需
的
数据呢?
浏览 11
提问于2020-10-22
得票数 0
回答已采纳
1
回答
使用
PDFMiner
从
PDF
中
提取
文本时丢失信息
python
、
python-3.x
、
pdf
、
poppler
、
pdfminer
我在Windows 7上
使用
Python3.4,希望能
使用
PDFMiner
从
PDF
文件
中
提取
文本。然而,在我测试
的
时候,丢失信息是很常见
的
。对于一些
文件
,这可能只是几句话
的
问题。但是,我遇到了一些情况,根据
文件
格式,无法
提取
文本
的
半。这是我
的
完整代码:from
pdfminer
.pdfinterp impo
浏览 4
提问于2016-06-16
得票数 0
点击加载更多
相关
资讯
三大神器助力Python提取pdf文档信息
pdf文件中的图片怎么提取?教你快速提取PDF中的图片
Java如何使用Apache POI只提取Word文档的第一页内容
在Python中使用PDF:阅读和拆分
如何提取PDF文件中的图片内容?
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
语音识别
活动推荐
运营活动
广告
关闭
领券