腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
python
中
捕获
部分
pdf
文件
、
我有两页的
pdf
文件
,
在
第一页的顶部有一个条形码 ? 有没有办法只从这种扫描的
pdf
文件
在
python
中
捕获
条形码?我已经搜索过了,但没有找到这样的问题。我找到了这样的代码,但不能修改为只裁剪第一页的顶部 from PyPDF2 import PdfFileWriter, PdfFileReader
浏览 21
提问于2021-02-09
得票数 0
回答已采纳
1
回答
用于多行
python
的Regex
、
我有以下案文:
在
.问题上 “ pat = "^\n+In the Matter of\n+(\s+\w+\s*)\n+ (Respondent
浏览 0
提问于2019-07-22
得票数 0
1
回答
使用
Python
Selenium驱动程序
捕获
PDF
文件
、
、
、
、
我们使用
python
测试套件来测试在内部开发的应用程序,它通过Selenium WebDriver完成web导航/交互。我们网络测试的一个棘手
部分
是
在
处理应用程序
中
的一系列
pdf
报告。我没有编写原始的
pdf
捕获
代码,但我会为我们最终使用的16.0.1版本进行重构,所以我想知道是否有比我们目前正在做的更好的方法来保存使用
Python
的selenium webdriver绑定的
pdf
。
在
Firefox16.0.
浏览 0
提问于2013-02-01
得票数 2
回答已采纳
1
回答
使用正则表达式
捕获
组(
Python
)
、
在
python
解释器
中
,我尝试使用括号来仅
捕获
搜索字符串的.
pdf
部分
之前的内容,但是尽管使用了括号,我的结果仍然
捕获
了它。我做错了什么?import restring_two = 'file_07241999.
pdf
' string_three = 'testfile_fake.
pdf</e
浏览 0
提问于2018-02-10
得票数 49
回答已采纳
2
回答
NLP挑战:自动删除书目/参考文献?
、
、
最近我遇到了以下问题:当在一堆解析的
PDF
文件
上应用主题模型时,我发现引用的内容不幸也是模型的一
部分
。例如,引用
中
的单词出现在标记化的单词列表
中
。 有什么已知的“最佳实践”来解决这个问题吗?我想到了一种搜索策略,
在
最后一次提到“引用”或“参考书目”之后,
python
代码会自动删除所有内容。如果我首先在全文中随意提及“引用”或“参考书目”,解析器可能无法
捕获
真正的完整内容。输入的
PDF
都来自不同的期刊,因此具有不同的页面结构。
浏览 0
提问于2018-01-25
得票数 0
回答已采纳
1
回答
使用
python
将
pdf
转换为html页面
、
、
、
, dirnames, filenames in os.walk('FilePath'): # matches.append(os.path.join(root, filename))我需要写子进程,每次发现一个
文件
浏览 4
提问于2016-06-25
得票数 0
3
回答
将
PDF
转换为.ipynb (从
PDF
中
恢复木星笔记本)
、
、
我有一个
PDF
文件
是从木星笔记本创建的,但是原始的.ipynb
文件
丢失了。有什么工具可以帮助将
PDF
转换成.ipynb吗?
浏览 2
提问于2020-06-24
得票数 0
1
回答
使用pdftk一次解密多个
PDF
、
我有10个
PDF
,要求一个用户密码打开。我知道那个密码。我想用解密的格式保存它们。它们的
文件
名遵循以下形式: static_part.dynamic_part_like_date.
pdf
我想转换所有的10个
文件
。我可以
在
静态
部分
之后给出一个*,并对所有这些
部分
进行处理,但我也需要相应的输出
文件
名。因此,必须有一种方法来
捕获
文件
名的动态
部分
,然后
在
输出
文件
名中使用
浏览 1
提问于2011-04-14
得票数 1
1
回答
通过
python
将PPT转换为PNG
、
、
我想将PPT转换为png,或其他使用
Python
的图像格式。 这个问题已经
在
SO上被问到了,但本质上是建议
在
无头X服务器上运行OpenOffice,这是我上次使用它时绝对痛苦的事情。是否还有其他方法(希望只使用Linux CLI实用程序,并在它们之上使用纯
Python
)?
浏览 1
提问于2010-03-15
得票数 5
回答已采纳
5
回答
使用
python
从MS word docx
文件
中
逐页提取文本
、
、
、
、
我有一个MS
文件
,我需要从其中提取文本分页。我尝试过
python
,但它可以提取整个文本,但不能提取页面。我还将docx转换为
pdf
,然后尝试文本提取。问题是,
在
转换之后,docx的页面结构发生了变化。例如,
在
转换时,字体大小被更改,而docx的一页
中
的文本内容
在
pdf
中
占用了多个页面。 我正在寻找一个稳定的解决方案,可以从docx中提取分页文本(而不转换为
pdf
将更适合我的整个解决方案)。
浏览 9
提问于2019-12-18
得票数 4
回答已采纳
4
回答
使用sed对
部分
匹配线进行内联替换
、
我有一个.md
文件
,其中包含对其他.md
文件
的多个引用,形式如下:[And another file](dir2/anotherfile.md)[Yet another file](dir3/yetanotherfile.md)[Another file](
pdf
/dir1/file.
pdf
) [And another file](
pdf
/di
浏览 4
提问于2017-10-23
得票数 2
回答已采纳
1
回答
LF> os.system(filePath)替代品
、
、
、
我遇到了一个问题,因为
在
我的
Python
代码
中
,os.system(filePath)将执行,但是代码会停止,直到我手动关闭打开的
PDF
文件
的窗口。我想打开一个
PDF
文件
,使用openCV来
捕获
我的屏幕,从而
捕获
文件
的图像。如果不关闭窗口代码不能运行,这就成了一个问题.
浏览 2
提问于2016-03-31
得票数 2
回答已采纳
3
回答
使用
Python
提取
文件
名
中
包含无效字符的
文件
、
、
、
、
我使用
python
的zipfile模块提取一个.zip归档
文件
(以上的这个
文件
为例)。它的输出:Akval�ir, La police - The Font - Fr - En.
pdf
inflating:
浏览 1
提问于2009-11-27
得票数 4
回答已采纳
1
回答
邮件枪附件未连接
、
/Expense Transfer Form.
pdf
")), data={ 'to'/Expense Transfer Form.
pdf
",)
浏览 0
提问于2016-06-15
得票数 0
1
回答
抓取:在内存
中
不保留响应体的情况下刮取大型
PDF
文件
、
、
假设我想用Scrapy抓取1GB的
PDF
,然后
在
进一步的请求中使用刮过的
PDF
数据。如何在不将1GB响应体保存在内存
中
的情况下做到这一点?(伪码:) return Request('https://my-large-
pdf
.
pdf
', self.parse_
pdf
) def parse_
pdf
(
浏览 9
提问于2022-05-12
得票数 0
1
回答
用
Python
和pyPDF提取前两行
PDF
、
、
我使用
python
2.7和pyPDF从
PDF
文件
中
获取标题元信息。不幸的是,并非所有
PDF
都有元信息。我现在要做的是从
PDF
中
抓取前两行文字。如何使用我现在拥有的代码来用pyPDF
捕获
前两行呢?= "
pdf
": continue # print the title ofdo
浏览 3
提问于2016-09-29
得票数 1
回答已采纳
1
回答
Wireshark -如何合并
PDF
文件
的
部分
内容数据
、
、
我已经扫描了网络并
捕获
了
PDF
文件
的
部分
内容,一些小的
文件
可以作为一个整体保存并导出,但是有些
文件
是
在
单独的数据包上划分的。如何合并这些数据包并导出
PDF
文件
?
浏览 4
提问于2017-04-12
得票数 0
2
回答
使用bash
中
的正则表达式重命名
文件
我正在尝试使用regex重命名以下的几个
文件
。_3.
pdf
abcd_some_random_alphanumeric_5.
pdf
abcd_1.
pdf
abcd_2.
pdf
abcd_4.
pdf
我正在尝试以下几种方法 rename 's/abcd_.
浏览 0
提问于2018-06-02
得票数 0
回答已采纳
2
回答
使用语法
在
SPSS中保存错误日志
我正在运行
python
的SPSS,这意味着当我运行SPSS时,我看不到出现的错误。
在
SPSS
中
,是否有语法将错误保存在单独的日志
文件
中
?
浏览 5
提问于2014-10-02
得票数 2
回答已采纳
1
回答
使用带有重复结尾词的regex提取字符串的区段
、
我正在尝试使用
python
中
的re模块提取一些原始字符串。要提取的
部分
的末尾由一个重复单词(重复多次)标识,当前的工作总是
捕获
重复单词的最后匹配。我如何才能改变这种行为?从
pdf
中提取了一个文本
文件
。整个
PDF
存储为一个字符串。字符串的一般格式如下:要
捕获
的字符串是:“字母数字单词和字符的集合”。一种可能的方法是使用内皮段进行拆分,然后只从第一<e
浏览 0
提问于2019-04-13
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券