python pdf ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

4回答

从扫描创建copy+pastable PDF

、、

我有PDF文件，这是从扫描仪创建的。PDF只包含图像。OCR:从图像中读取文本一页的处理时间不应超过20秒。如果有API，Python绑定就更好了。我只需要支持Linux，不需要其他操作系统。开放源码优先，但商业软件建议也是有效的答案。

浏览 0提问于2018-06-05得票数 1

1回答

运行OCRmyPDF时出现的问题: WinError2和无效版本号

、、、、

因此，我将一个简单的Python脚本组合到OCR，一个PDF：from tika import parserimport(image_path) raw_text_from_ocr_pdf = get_text_from_pdf()/temp_<em

浏览 3提问于2021-06-14得票数 1

回答已采纳

2回答

如何在Python (Mac)中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

、

我正在用python编写一个程序，可以读取pdf文档，从文档中提取文本，并使用提取的文本重命名文档。首先，扫描的pdf文档是不可搜索的。我想把pdf转换成可搜索的pdf在Python上，而不是使用谷歌文档，Cisdem pdf转换器。我已经读到了ocrmypdf模块，可以用来解决这个问题。我期望输出将扫描的pdf转换为可搜索的pdf。

浏览 0提问于2019-08-08得票数 4

1回答

如何在Python中运行docker命令

、

我正在使用python包从python运行docker。下面是我尝试使用python包运行的docker命令：下面是<em

浏览 0提问于2018-10-25得票数 0

回答已采纳

1回答

pytesseract给出错误PermissionError：[WinError 5]访问被拒绝

、、、

我在Python中使用pytesseract作为pdf。但是我在Windows10中得到了权限错误。我使用的是python 3.8.0 import pdf2imageimport os from PIL import Image print('pdf_file = ', pdf</em

浏览 505提问于2020-09-24得票数 0

1回答

如何从pdf2image中的文件存储对象读取PDF？

、

我正在使用烧瓶，在那里，我上传一个pdf文件，将其转换成一个图像，并执行OCR使用pytesseract。 File "/home/ubuntu/Credit_Scoring/API_Script/ocr_script/certificate_of_incorporation/coi_ocr_script_pdf.py&#

浏览 17提问于2022-01-21得票数 0

2回答

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

、、、、

我正在寻找维护良好和文档齐全的Python强大PDF解析库(主要用于从具有不同/不可预测结构的各种类型的PDF中提取和解析数据，包括借助可靠和强大的OCR)。用于PDF的现代表解析器与Camelot (https://github.com/camelot-dev/camelot) -> --这是一个伟大的项目，但目前只涉及PDF中表的解析。另外，它似乎依赖于PyPDF2 & PDFMiner.six来实际读取PDF<

浏览 0提问于2019-11-14得票数 4

回答已采纳

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

PIL.UnidentifiedImageError：_cannot标识图像文件

、、

我有这个错误：回溯(最近一次调用)：文件"/Users/fatiatravaille/Downloads/ocr_json/test.py"，第8行，在"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/PIL/Image.py"，= Image.

浏览 170提问于2021-09-23得票数 0

1回答

Python OCR Sudoku图像

、

我已经搜索并找到了下面的python代码，但是它没有像预期的那样返回结果。我需要使用ocr来转换sudoku图像上的数字，并将其作为网格读取。

浏览 3提问于2022-06-16得票数 0

1回答

检查PDF可搜索是否已被OCR或PDF可搜索的事实

、、、、

是否有任何Python方法来识别PDF是否是OCR的(文本的质量很差)和可搜索的PDF (文本的质量是完美的)？4) doc_info = pdf_file.getDocumentInfo()我发现： result = get_doc_info(PDF_SEARCHABLE_HAS_BEEN_OCR

浏览 6提问于2021-09-16得票数 0

回答已采纳

1回答

找不到源-pdf？

、、、、

我想用格拉姆普df将一些pdf文件从图片转换成可读的pdf-importocrmypdf fn = r"C:\Users\Polzi\Documents\DEV\Python-Diverses\PDFOCR\invoice.pdf" ocrm

浏览 0提问于2022-01-14得票数 1

回答已采纳

1回答

使用pypdfocr的Alfresco上的OCR文件

、、、、

我不能在Alfresco上使用pypdfocr的OCR文件。# PYPDFOCRocr.output.verbose = true ocr.extra.c

浏览 9提问于2020-08-30得票数 0

回答已采纳

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

Google函数不返回响应

、、、、

我在Google云函数https://ocr.space/ocrapi上使用这个api，这是我已经部署的函数 request_json =url = request_args['url'] url = 'http://www.africau.edu/images/default/sample.pdf'helloworld&#

浏览 3提问于2019-05-28得票数 2

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

3回答

我无法安装pyPDF包根本找不到适用于pyPdf的发行版

、、、

.PyPDFLite - Simple PDF Writer.pyPdf- PDF toolkit PyPDF2 - PDF too

浏览 10提问于2014-02-24得票数 4

1回答

bash -检查字符串变量是否等于表单提要

、

我正在尝试编写一个简单的bash脚本来检查一个pdf是否需要OCR，它使用的是与Xpdf一起分发的pdftotext可执行文件。如果pdftotext没有输出任何文本，那么PDF需要是OCR的，问题是，如果一个PDF还没有输出，pdftotext就会返回一个表单Feed字符(而不仅仅是一个空字符串)。这是我的密码： pdf_txt=$(pdftotext -q -l 5 '/Path/to/pdf/test.pd

浏览 2提问于2014-07-21得票数 2

回答已采纳

2回答

如何在pdf文件中复制图像中的文本？

、、

我可以使用evince文档查看器使用文本查看pdf图像，但是我不能选择图像中的文本来复制和粘贴。如何在pdf文件中从图像中复制文本？

浏览 0提问于2014-09-19得票数 0

1回答

在PDF中用python执行OCR有可能吗？

、、、

在PDF中用python执行OCR有可能吗？我正在尝试构建一个程序，从每一个PDF表格中提取一些信息，比如Autodesk BIM360所做的事情。

浏览 6提问于2022-05-26得票数 -2

点击加载更多

从扫描创建copy+pastable PDF

运行OCRmyPDF时出现的问题: WinError2和无效版本号

如何在Python (Mac)中将扫描的PDF转换为可搜索的PDF？例如OCRMYPDF模块

如何在Python中运行docker命令

pytesseract给出错误PermissionError：[WinError 5]访问被拒绝

如何从pdf2image中的文件存储对象读取PDF？

Python & PDF解析:有任何现代的、强大的、维护良好的开源库吗？

使用python从PDF中提取扫描页面

PIL.UnidentifiedImageError：_cannot标识图像文件

Python OCR Sudoku图像

检查PDF可搜索是否已被OCR或PDF可搜索的事实

找不到源-pdf？

使用pypdfocr的Alfresco上的OCR文件

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

Google函数不返回响应

运行反引号/exec()时的PHP路径问题

我无法安装pyPDF包根本找不到适用于pyPdf的发行版

bash -检查字符串变量是否等于表单提要

如何在pdf文件中复制图像中的文本？

在PDF中用python执行OCR有可能吗？

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐