腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在
Python
中将
PDF
中的字节转换为字符串?
、
、
我尝试将从book_download_page = requests.get(link)获取的字节转换为字符串,然后从content = book_download_page.content转换为字符串。 我试过的是, content = book_download_page.content.decode('utf-8') 我得到了错误, 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte 编辑-您可以尝试this link进行下载 谢谢!
浏览 21
提问于2020-06-25
得票数 0
1
回答
使用
python
显示docx文件的
内容
、
但是我下面的代码是
提取
文本和打印it.Can,有人建议我怎么做呢?
浏览 2
提问于2019-09-23
得票数 1
1
回答
当
PDF
包含图像和表格时,在
python
中从
pdf
中
提取
文本
、
、
、
、
我正在尝试使用
python
从
pdf
中
提取
文本。我尝试使用PyPDF2,但似乎只有当
pdf
是简单的基本文本而不是其他
内容
时才起作用。是否还有其他方法可以帮助我从
PDF
中
提取
文本?
浏览 10
提问于2020-03-16
得票数 0
1
回答
我如何阅读
python
的
pdf
?
、
、
、
我如何在
python
中读取
pdf
?我知道一种将它转换为文本的方法,但是我想直接从
pdf
中读取
内容
。 有人能解释一下
python
中哪个模块最适合
pdf
提取
吗?
浏览 2
提问于2017-08-21
得票数 45
4
回答
PDF
-将单个单词拆分为单独的行-
Python
3
、
、
、
我正在尝试将
PDF
中的单词
提取
到单独的行中,但只能对文本文件执行此操作,如下所示。 此外,规则是我不能将
PDF
文件转换为TXT,然后执行此操作。必须对
PDF
文件执行此操作。我也需要对可搜索的
PDF
文件做同样的事情。任何帮助都将不胜感激。
浏览 66
提问于2019-12-06
得票数 0
回答已采纳
1
回答
如何使电报机器人读取用户发送的
pdf
文件并从中
提取
数据?
、
、
、
、
我一直在论坛(堆栈溢出,git,电报API)上检查如何从用户发送的
pdf
文件中
提取
内容
?我用
python
的
python
-telegram-bot库创建了电报机器人,为了解决我的问题,我检查了链接(如:和 )以寻找函数,但在那里什么也找不到。我确实找到了从bot向用户发送
pdf
文件和从用户发送到bot的文件的方法,但是没有任何可用的BOT可以
提取
用户发送的
pdf
内容
的方法。如果专家能指导我到这里来,我将不胜感激。
浏览 13
提问于2022-02-23
得票数 0
回答已采纳
2
回答
火花缺失1必需的位置参数(lambda函数)
、
、
、
、
我正在尝试使用Spark在多台服务器之间分发从
PDF
中
提取
的一些文本。这使用了我创建的自定义
Python
模块,它是一个。在本例中,配置文件只是一个简单的YAML文件,位于与运行
提取
的
Python
脚本相同的文件夹中,并且这些文件只是在Spark服务器之间重复。我的主要问题是能够使用文件名作为第一个参数来调用
提取
函数,而不是文件的
内容
。这是我到目前为止的基本脚本,在files文件夹中的2个
PDF
上运行它: #!我并不真正关心使用
PDF
原始
浏览 5
提问于2018-01-08
得票数 0
回答已采纳
1
回答
如何读取一些
pdf
文件中除表格以外的所有
内容
?
、
我想使用
python
读取
pdf
文件,但在阅读时,我不想将表格包含在
pdf
文件中。我只想要除了那些表格之外的所有其他
内容
。我尝试过像PyPDF2和Tabula这样的库,但我只是找到了
提取
表格或读取包括表格在内的
内容
的方法。 我也不想创建一个新文件并在其中添加页面。准确地说,除了表的
内容
之外,所有的
内容
都应该是strings的list格式。
浏览 26
提问于2019-09-02
得票数 0
5
回答
如何在
Python
2.7中使用Tika package(https://github.com/chrismattmann/tika-
python
)来解析
PDF
文件?
、
、
、
我正在尝试解析几个包含工程图的
PDF
文件,以获取这些文件中的文本数据。我尝试将TIKA作为jar与
python
一起使用,并将其与jnius包一起使用(在这里使用本教程:),但是代码抛出了一个错误。使用TIKA包,我可以传递文件并解析它们,但
Python
只能
提取
元数据,当被要求解析
内容
时,
Python
返回输出"none“。它能够完美地解析.txt文件,但无法
提取
PDF
的
内容
。= parser.from_file('&
浏览 0
提问于2015-10-12
得票数 3
1
回答
从
pdf
文件中
提取
所有图像和文本
、
、
、
我需要从
pdf
创建json来呈现所有图像和文本的HTML格式的
pdf
内容
。我已经尝试了下面的模块来做到这一点。我现在只能
提取
普通图像,但不能
提取
图形图像和背景阴影图像。尝试的模块-Mammoth(Node) -PDFBox(Java)
浏览 5
提问于2017-05-08
得票数 0
3
回答
将
PDF
转换为.ipynb (从
PDF
中恢复木星笔记本)
、
、
我有一个
PDF
文件是从木星笔记本创建的,但是原始的.ipynb文件丢失了。有什么工具可以帮助将
PDF
转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
1
回答
使用
Python
仅从
PDF
中
提取
特定文本
、
、
、
需要使用
python
从具有不同
PDF
结构的发票
PDF
文件中
提取
特定的文本,并将输出数据存储到特定的excel列中。所有
PDF
文件都有不同的结构,但
内容
值相同。试图解决这个问题,但不能只
提取
特定的文本值。import PyPDF2pdfFileObj = open('test.
浏览 8
提问于2020-10-04
得票数 1
回答已采纳
1
回答
在
python
中运行
pdf
水管工时,我得到了一个错误-> CryptographyDeprecationWarning:
Python
3.6不再受
Python
团队的支持。
、
、
、
我使用
Python
脚本,它使用pdfplumber
提取
PDF
文件的文本
内容
。在
python
中运行
pdf
管道工时,我遇到了如下错误这是
python
脚本 import
浏览 3
提问于2022-08-09
得票数 0
1
回答
解除用户上传的
PDF
的最佳方法
、
、
我接受
PDF
作为用户输入。我知道上传的
PDF
不应该/不需要包含任何可能被恶意使用的
内容
类型,如JS或AA。"0" Name="/XFA"/>我当前的用户输入验证是查看所有
内容
类型= 0,则拒绝
PDF
浏览 1
提问于2019-12-18
得票数 0
5
回答
使用
python
从MS word docx文件中逐页
提取
文本
、
、
、
、
我有一个MS文件,我需要从其中
提取
文本分页。我尝试过
python
,但它可以
提取
整个文本,但不能
提取
页面。我还将docx转换为
pdf
,然后尝试文本
提取
。问题是,在转换之后,docx的页面结构发生了变化。例如,在转换时,字体大小被更改,而docx的一页中的文本
内容
在
pdf
中占用了多个页面。 我正在寻找一个稳定的解决方案,可以从docx中
提取
分页文本(而不转换为
pdf
将更适合我的整个解决方案)。
浏览 9
提问于2019-12-18
得票数 4
回答已采纳
0
回答
使用
python
3.6读取
pdf
文件
、
、
有没有办法用
python
3.6打开和读取
pdf
文件?我试着用几个库和工具如PyPDF2和pdfrw来读取
pdf
文件,但是它们都不能
提取
pdf
文档的文本
内容
。任何形式的帮助都将不胜感激。
浏览 5
提问于2017-12-13
得票数 5
回答已采纳
3
回答
文本
提取
项目-仅从
PDF
中
提取
特定行/项的最佳工具?
、
、
、
、
我正在做一个项目,它将从
pdf
文档中
提取
指定的文本。我没有这种
提取
的经验。有一个问题是,我们不只是想转储文档中的所有文本。更确切地说,是否有一种方法只
提取
pdf
中的某些字段?有一个概念的
pdf
模板,可以用来做这样的事情? 我正在尝试使用苹果的自动化-这是能够得到所有的文本,但没有指定的文本。对于这方面的最佳工作流/
提取
工具有什么想法吗?我希望只使用消费者级别的项目,如Apple页面、Automator和ruby或
python
作为脚本语言。th
浏览 2
提问于2012-03-25
得票数 2
3
回答
帮助以编程方式将文本添加到现有
PDF
、
我需要写一个程序,显示一个第三方提供的
PDF
。在向用户显示文本数据之前,我需要在表单中插入文本数据。我确实可以选择将
PDF
转换为另一种格式,但它必须看起来完全像原始的
PDF
。
浏览 2
提问于2009-12-01
得票数 3
回答已采纳
1
回答
Azure机器学习无法将
PDF
作为web服务的输入
、
这些文档是
PDF
格式的。当我将这个实验部署为web服务时,它不允许我输入
PDF
。有没有一种方法可以将
PDF
输入到web服务?
浏览 0
提问于2017-02-06
得票数 1
1
回答
我可以在
PDF
页面中给出pdftotext坐标吗?
、
我知道给我从mypdf.
pdf
中
提取
的第42页的
内容
,用“正确”的布局格式化。显然,pdftotext只是简单地删除了一些
内容
。如果无法在pdftotext中执行,也可以接受
Python
-解决方案。
浏览 0
提问于2017-08-16
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PDF电子发票内容提取EXCEL插件
pdf怎么转换成jpg图片?pdf内容提取方法!
如何提取PDF文件中的图片内容?
使用Python自动提取内容摘要
python爬虫:如何定义内容提取器
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券