腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
用
Python
读取
PDF
文件
中
的
内容
、
、
我正在尝试阅读下面的
PDF
,但我做不到。要么得到不可读
的
字符,要么得到UnicodeDecodeError。一些解决方案。import PyPDF2read_
pdf
= PyPDF2.PdfFileReader(
pdf
_file) number_of_pages = read_
pdf
.getNumPag
浏览 15
提问于2020-05-31
得票数 0
0
回答
使用
python
3.6
读取
pdf
文件
、
、
有没有办法
用
python
3.6打开和
读取
pdf
文件
?我试着
用
几个库和工具如PyPDF2和pdfrw来
读取
pdf
文件
,但是它们都不能提取
pdf
文档
的
文本
内容
。任何形式
的
帮助都将不胜感激。
浏览 5
提问于2017-12-13
得票数 5
回答已采纳
2
回答
在
python
中
读取
pdf
文件
时,编解码器出现unicode错误
、
、
我正在尝试
读取
包含以下
内容
的
pdf
文件
:如果我
用
open
读取
它,它可以工作,但是如果我尝试用codecs.open(
文件
名,encoding="utf8",mode="UnicodeDecodeError: 'utf8' codec can't decode byte 0xe2 in position 10: invalid continua
浏览 0
提问于2013-06-18
得票数 2
回答已采纳
1
回答
从zip
文件
中
读取
文件
并将其写入另一个
文件
时遇到
的
问题
我编写了一个
python
脚本,它执行以下操作: 1)它从特定路径
读取
压缩
文件
中
的
日志
文件
(.jrn),并将其写入另一路径上
的
文本
文件
。2)文本
文件
由另一个
python
脚本(比如x.py)
读取
,以执行一些特定
的
操作。我面临
的
问题是,写入
的
文本
文件
,尽管其
内容
看起来与日志
文件
(从压缩
文件<
浏览 1
提问于2012-03-02
得票数 0
2
回答
操作
PDF
文件
、
、
我想
读取
一个
PDF
文件
作为文本( PostScript ),添加新
的
对象在
文件
结构和保存
的
最终输出为一个新
的
PDF
,但如果我只是复制
PDF
PostScript
内容
并粘贴到一个新创建
的
PDF
文件
(如encoding='ansi'),该
文件
不工作。我确信这可能是编码问题,但我不确定我应该做什么才能有一个有效
的
<
浏览 4
提问于2019-03-20
得票数 0
1
回答
如何使用
Python
3和PyPDF2将unicode编码
的
PDF
文件
转换为文本
、
、
、
我正在尝试使用
Python
3和PyPDF2库将
PDF
转换为文本
文件
。但
PDF
主要是
用
韩语编写
的
,所以在处理
PDF
文本之前,它似乎是
用
'utf-8‘编码
的
。但是,无论是使用"open“功能
读取
PDF
文件
,还是使用"codecs”功能
读取
PDF
文件
,似乎都无法正确提取‘utf-8’编码
的</em
浏览 0
提问于2018-12-17
得票数 1
3
回答
从
pdf
文件
中
获取数据
、
我有一张
pdf
文件
中
的
表格。有x,y,z列。我只想要x列。有可能使用
python
吗?如果是,怎么做? 然后我想要画x和y。我该怎么做(使用表
中
的
数据)
浏览 23
提问于2022-04-14
得票数 -1
1
回答
使用
Python
将
PDF
文件
作为文本
读取
、
错误
文件
"C:\
Python
27\lib\site-packages\slate__init__.py",第48行,从板子导入
PDF
文件
"C:\
Python
27\lib\site-packages\slate\slate.py",第3行
浏览 2
提问于2017-03-23
得票数 1
回答已采纳
1
回答
(所以“纯
Python
"):将
PDF
转换成图像
、
、
、
、
在
中
,我需要能够将上传
的
PDF
转换成图像(也许有一天会有很多平铺图像)来存储和提供服务。是否有一个库可以
读取
同样是100%
python
的
PDF
文件
(这样它就可以
用
我
的
应用程序上传)?从我收集到
的
资料来看..。 PIL不
读取
PDF
文件
,只写入它们。GhostScript是标准
的
FOSS
PDF
阅读器,但我
浏览 2
提问于2011-11-28
得票数 3
回答已采纳
1
回答
如何
读取
一些
pdf
文件
中
除表格以外
的
所有
内容
?
、
我想使用
python
读取
pdf
文件
,但在阅读时,我不想将表格包含在
pdf
文件
中
。我只想要除了那些表格之外
的
所有其他
内容
。我尝试过像PyPDF2和Tabula这样
的
库,但我只是找到了提取表格或
读取
包括表格在内
的
内容
的
方法。 我也不想创建一个新
文件
并在其中添加页面。准确地说,除了表
的
内容
之外,所有
浏览 26
提问于2019-09-02
得票数 0
1
回答
需要比较word模板和实际
PDF
的
内容
、
我有两个
文件
(word &
pdf
),需要比较它们。word文档将是模板,它定义了如何生成
pdf
。下面是样品。Thanks, John, Kennedy USD1245,CA Dear John,有人能帮助比较逻辑来验证静态和动态
内容
都是按预期生成
的
吗?我们使用TestComplete和JavaScript来实现自动化。
浏览 3
提问于2022-02-10
得票数 0
1
回答
如何
读取
txt
文件
在不同目录
中
的
内容
,并根据
、
、
、
我刚开始使用
Python
3,遇到了以下问题:/Journal 1/ file1.
pdf</e
浏览 2
提问于2015-07-20
得票数 2
回答已采纳
1
回答
如何使用
python
从服务器上
的
不同位置导入
文件
?
、
我正在尝试从共享驱动器上
的
不同
文件
夹(在不同目录
中
)导入多个
文件
。但是当我使用更改目录功能时,我只能选择一条路径。merger.append(fileobj = input1)out
浏览 6
提问于2021-03-02
得票数 0
3
回答
用于
读取
PDF
文件
的
Python
、
我发现很多帖子都提出了阅读
PDF
的
解决方案。我想一个字一个字地阅读
PDF
文件
,并对它做一些处理。人们推荐pdfMiner,它可以将整个
PDF
文件
转换成文本
文件
。但我想要
的
是一个字一个字地读
PDF
。有没有人能推荐一个这样
的
图书馆呢?
浏览 2
提问于2011-05-10
得票数 11
回答已采纳
1
回答
在django
中
输出doc
文件
、
我想将结果输出到doc
文件
中
。我已经得到了
pdf
格式
的
结果
pdf
= pisa.pisaDocument(StringIO.StringIO(html.encode("UTF-8")), dest=result, link_callback请提供任何链接,给出详细
的
python
docx示例。但同样
的
文件
也会在天平办公室打开。我不知道怎么做。我收到错误消息“
文件
无法打开,因为
内容</em
浏览 1
提问于2014-05-24
得票数 2
2
回答
如何在
Python
tabula-py
的
表格中有换行符时
读取
pdf
中
的
表格?
、
、
我尝试使用
Python
包 -py来
读取
pdf
格式
的
表格单元格,似乎
pdf
表格单元格
中
的
换行符会将原始单元格
中
的
内容
分成多个单元格。 我试图搜索各种
python
包来解决这个问题。似乎tabula-py是将
pdf
表格转换为pandas数据最稳定
的
软件包。但是,如果这个问题不能解决,我不得不求助于,它将为我生成理想
的
excel输出。from tabul
浏览 2
提问于2019-05-18
得票数 4
1
回答
在
Python
3
中
提取
PDF
元数据
、
从
PDF
文件
中
获取元数据
的
最佳模块或简单脚本是什么?对于
python
2.7,一切看起来都是这样,否则模块就不能工作了。我需要它才能让
python
3.4.2工作。https://pypi.
python
.org/pypi/pdfminer/ =
Python
2.7使用:print(input1.getDocumentInfo()),我不断地收到错误
浏览 0
提问于2015-05-31
得票数 1
回答已采纳
1
回答
我如何阅读
python
的
pdf
?
、
、
、
我如何在
python
中
读取
pdf
?我知道一种将它转换为文本
的
方法,但是我想直接从
pdf
中
读取
内容
。 有人能解释一下
python
中
哪个模块最适合
pdf
提取吗?
浏览 2
提问于2017-08-21
得票数 45
1
回答
在
python
中将函数应用于目录
的
每个元素
的
内容
时会出现问题?
、
、
、
、
我试图从一个目录
中
获取几个.
pdf
文件
的
内容
,以便将它们转换为带有tika库
的
文本,但是我相信我没有正确
读取
.
pdf
文件
对象。这就是我到目前为止所尝试
的
:for filename in sorted(glob.glob(os.path.join(input_directory, '*.
pdf
'))): text = pa
浏览 7
提问于2016-10-08
得票数 1
2
回答
在
Python
中将doc / docx
文件
转换为
pdf
、
有没有好
的
库可以把doc
文件
转换成
pdf
文件
?有一些付费选项,如cloudconvert,convertApi等,但我正在寻找一个免费
的
选项。我
的
python
应用程序托管在EC2机器上。我还查看了
python
-docx库,它可以让我
读取
doc
文件
的
内容
,但我认为将
内容
写入
pdf
文件
会破坏样式。
浏览 48
提问于2019-03-05
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券