pdf怎么转换成ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

、、

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf')AttributeError: module '

浏览 5提问于2020-11-24得票数 1

回答已采纳

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。0].show()这就是输出应该是什么样子：我确实认为在PDF上进行的OCR在这里引起了一些问题。我不知道怎么绕过它，有人能帮忙吗？我也尝试了OCR，手动将页面转换成图

浏览 10提问于2021-06-06得票数 2

3回答

OCR图形纸

我想把一个扫描过的图形纸笔记本(有手写)的pdf格式转换成一个文本文件。谢谢

浏览 6提问于2009-06-20得票数 1

1回答

Python for OCR中的图像预处理

、

我正在对python中的OCR图像进行预处理。我把pdf转换成了二进制图像。我得到的输出如下所示我希望输出结果是这样的你知道该怎么做吗？

浏览 2提问于2017-03-14得票数 0

1回答

带有OCR松散OCR的ps2pdf

我已经寻找了大量的时间来转换ps2pdf与OCR。所发生的事失去了OCR。pdf2ps test.pdf test.psgswin64 -sDEVICE

浏览 1提问于2020-05-26得票数 1

回答已采纳

1回答

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

、、、、

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。有人能在这里建议如何解决失败的案件吗？(PDFTextStripper.java:365) ~org.apache.pdfbox.pdfbox-2.0.27.jar:2.0.27 at org.apache.tika.parser.pdf.P

浏览 19提问于2022-11-11得票数 0

1回答

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

、、、、

我试图在Tesseract OCR中将Image转换成文本PDF。在中间，我需要检查封面页，并从结果中删除。在Tessaract OCR中是否可以根据封面的特定属性(封面文本匹配)来识别封面。或者，我是否需要获取tessetact OCR结果的全部输出，并提供我的逻辑来扫描PDF和删除封面页。我非常困惑，任何帮助都将不胜感激。

浏览 1提问于2018-09-20得票数 0

回答已采纳

1回答

使用Ghostscript将扫描的PDF转换为纯文本

、、

我知道有一种方法可以使用将scannedPDF文档转换为OCR'd PDF文档，使用以下命令：它使用开源来做到这一点。根据，它可以转换成另一个PDF文档，而不仅仅是简单的文本(而tesseract也可以转换成纯文本)。

浏览 1提问于2021-03-04得票数 0

2回答

使用imagemagick将.pdf文件中的页转换为.png图像

、、、、

我正在使用Imagemagick将我的.pdf文件转换为.png映像$convert sample.pdf image.png当我们在google文档.pdf查看器中查看我们的.pdf文件时，它们也是图像格式的。

浏览 3提问于2010-09-30得票数 3

回答已采纳

4回答

是否有任何web应用程序可以将PDF转换为word (或html)，并为表提供良好的支持？

、

是否有一个web应用程序可以将PDF文件转换为word (或html)文件，包括恢复表？(我希望将PDF规范转换成我可以用来驱动系统测试的格式) 我还没有接受一个答案，如果有人想写一个答案，比较不同的选择，我会接受它。

浏览 0提问于2010-07-17得票数 1

回答已采纳

1回答

Python OCR* Sudoku图像*

、

我需要使用ocr来转换sudoku图像上的数字，并将其作为网格读取。

浏览 3提问于2022-06-16得票数 0

1回答

如何将可搜索文本添加到图像中？

、

我需要添加文本到图像(原始图像可以是jpg，gif，或bmp)文件，我怎么做呢？我把带有快门的文本添加到一个jpg中，并转换成pdf格式。Tesseract无法将这些图像中的文本转换为真正的文本。添加已经可以搜索到图像的文本似乎更容易(而不是用OCR添加和处理文本)。我唯一的选择是创建一个pdf并将图像和文本添加到其中吗？如果是的话，我该怎么做？

浏览 0提问于2014-10-30得票数 1

7回答

如何将pdf转换成文本可搜索的pdf？

、、

我有一些扫描文件的pdf，我想能够搜索他们。我怎么能这么做？治夹心三明治 (软件中心说它是一个很差的软件包，我不应该安装它) OCRfeeder (在软件中心)很好地导出到odt，但在导出到pdf<

浏览 0提问于2014-05-29得票数 36

回答已采纳

1回答

从PDF中提取文本在R中返回奇怪的结果

、、

我试图从一堆PDF文件中挖掘文本，但当我使用pdftools包中的pdf_text将它们读取到R中时，它产生的文本就是奇怪的，与PDF文件中的实际内容完全不同。link驱动器链接：。下面是我使用的示例代码：pdf1 <- pdf_text("https://dl.dropboxusercontent.com/s/308gpdijvnw18mf/2018REQ118030709.pdf?

浏览 14提问于2018-03-03得票数 3

回答已采纳

1回答

将pdf转换为图像，但在放大后

、、、、

此link显示如何将pdf%s转换为图像。有没有办法在转换成图片之前缩放我的pdf？在我的项目中，我将pdf%s转换为png%s，然后使用Python-tesseract库提取文本。我注意到，如果我缩放OCR s，然后将部分保存为pngs，那么pdf会提供更好的效果。那么有没有办法在转换成png之前缩放pdf文件呢？

浏览 41提问于2019-03-23得票数 6

回答已采纳

1回答

将abbyy XML转换为可读格式

、、、

这个XML似乎是Abbyy程序的输出(大概是基于实际书籍的OCR )。我正在寻找软件，这些文件被转换成某种可读的东西。我希望PDF输出，但HTML或电子书格式是可以的，如果它将允许阅读文本。网络搜索是无用的，因为它只是带来无穷无尽的结果，要么使用Abbyy商业软件，要么转换成XML，或者从PDF，或者做OCR。

浏览 0提问于2019-04-15得票数 1

1回答

以编程方式搜索多个PDF文档以获得一系列关键字

问题keyword-set-1 = "foo" "bar";和一个PDF文件，其中包含以下文本 "jon doe and然而，我还没有找到一个PDF文件的解决方案。我考虑过使用PDF矿工将所有PDF<e

浏览 4提问于2014-02-15得票数 0

1回答

如何使用C#从扫描的PDF文档中提取文本？

、、、

该应用程序正在寻找PDF文档中的特定模式，并根据该模式将其上传到任何需要的位置。它与PDF没有任何问题，PDF是用数字方式编写的(Word、Nodepad等)。然后转换成PDF格式。我找到了多个第三方库，它们可以处理这个任务-> iText7、LeadTools、ABBYY、WhatsMate PDF到text API、SautinSoft .NET Offce Edition。我有一个想法，把PDF转换成任何图像类型(jpg，png，tiff等

浏览 18提问于2021-01-05得票数 0

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

、、、

我想使用Google 将不可搜索的PDF转换成可搜索的PDF，其中的文本是覆盖在PDF上的。 PDF位于我的谷歌驱动器，我不想上传文件到另一个网站或下载的文件，以进行转换。我没有找到任何显示文本可以被覆盖的资源，类似于Acrobat如何进行OCR转换。那么，是否有可能使用气体进行覆盖呢？我只看到人们转换成文本或文档文件。

浏览 1提问于2019-07-09得票数 1

回答已采纳

点击加载更多

AttributeError:模块“ocrmypdf”没有属性“ocr”

为什么pdf2image给我一个空白的图像文件？

OCR图形纸

Python for OCR中的图像预处理

带有OCR松散OCR的ps2pdf

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

使用Ghostscript将扫描的PDF转换为纯文本

使用imagemagick将.pdf文件中的页转换为.png图像

是否有任何web应用程序可以将PDF转换为word (或html)，并为表提供良好的支持？

Python OCR* Sudoku图像*

如何将可搜索文本添加到图像中？

如何将pdf转换成文本可搜索的pdf？

从PDF中提取文本在R中返回奇怪的结果

将pdf转换为图像，但在放大后

将abbyy XML转换为可读格式

以编程方式搜索多个PDF文档以获得一系列关键字

如何使用C#从扫描的PDF文档中提取文本？

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

是否可以使用Google脚本将位于Google中的不可搜索的PDF转换为可搜索的PDF？

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐