根据扫描pdf识别文字 - 腾讯云开发者社区

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

2回答

OCR不再是一个问题了吗？

、、

根据的说法，“拉丁文字、打字文本的准确识别现在被认为是一个很大程度上解决了应用程序中的问题，这些应用程序可以获得清晰的成像，例如扫描打印文档。”然而，它没有给出任何引用。或者，这个问题的一个较不主观的形式是:现代OCR系统在识别英文文本以获得高质量扫描方面的准确性如何？

浏览 1提问于2009-10-19得票数 4

回答已采纳

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

帮助Canon CanoScan LiDE扫描PDF文档

、、、

我的佳能CanoScan LiDE 110扫描仪出了问题。当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直接从其中复制文本以粘贴到Google或任何LibreOffice文档。我尝试在Ubuntu中使用简单的扫描应用程序进行同样的操作。我通过简单的扫描将页面扫描为文本，并将其保存为PDF格式。但是在Ubuntu中，当我打开扫描的PDF<

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

buffio.Scanner和文本/扫描仪有什么区别？

、

与包和.的区别是什么？

浏览 4提问于2014-08-01得票数 1

回答已采纳

1回答

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

、、、、

我试图在Tesseract OCR中将Image转换成文本PDF。在中间，我需要检查封面页，并从结果中删除。在Tessaract OCR中是否可以根据封面的特定属性(封面文本匹配)来识别封面。或者，我是否需要获取tessetact OCR结果的全部输出，并提供我的逻辑来扫描PDF和删除封面页。我非常困惑，任何帮助都将不胜感激。

浏览 1提问于2018-09-20得票数 0

回答已采纳

1回答

使用PDFRenderer打印PDF* -形状不是锐利的*

、、

我需要打印PDF运输标签。这些标签是PDF格式的。印刷的运输标签有尖锐的文字，但有问题的条形码有小的“齿轮齿”-条形码-条纹是不光滑的边缘，这是问题的扫描仪。我试图使用PDF-创建者作为打印机，并将其打印到文件-条形码是尖锐的，然后(在PC显示器)。我也尝试使用PDF-创建者打印已经创建的文件(如上面所示)，然后用PDF打印它，在这种情况下条形码是尖锐的。我在热敏打印机Zebra 2844上测试它，而打印机只支持一种模式80 DPI (根据PrintS

浏览 2提问于2017-04-20得票数 0

回答已采纳

1回答

如何识别图像文件中的文本，以及如何阅读该文本？

、、

在图像格式中有满满的文字。(E)以图像文件*.tiff格式扫描的文件。光学字符识别方法只识别正常格式的字母表。在这种图像格式中包含的文字就像行文一样。那么如何识别中的文本并将其转换为文本文件呢？

浏览 8提问于2014-10-11得票数 2

6回答

检查PDF文件是否为已扫描的文件

、、

以编程方式检查PDF文件是否完全扫描的最佳方式是什么？我有iText和PDFBox可供我使用。我可以检查一个pdf文件是否包含文本，并根据结果来决定这个文件是否是OCRed，但这个解决方案不是100%准确。我想知道有没有别的办法来解决这个问题。正如您所理解的，解决方案必须是基于Java的。

浏览 3提问于2010-03-09得票数 10

回答已采纳

2回答

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

、、

我转换pdf到tiff图像与图像魔术，从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像：为什么会发生这种情况，以及如何将pdf扫描图像转换为最适合ocr

浏览 1提问于2018-05-16得票数 0

回答已采纳

1回答

imagemagick检查图像是否为几乎一种颜色

朋友,我想识别这些彩色的纸图像。问题：我的想法是看看90%的图像是否是某种绿色的，并尝试使用排序直方图。而是因为(1)和(尤指)。编辑:这里有三个样本图像，

浏览 8提问于2022-07-13得票数 1

回答已采纳

1回答

ZXing PDF417 + ALL_CODE_TYPES

、、

使用ZXing (在安卓上)，如果你启动像这样的PDF417条形码扫描.List<String> oDesiredFormats = Arrays.asList("PDF_417".split(",")); IntentIntegrator integrator = new你启动一个“所有代码”(除了PDF417和其他几个)条形码扫描像这样.那么，如何启动一次条形码扫描，同时识别(所有标准代码和PDF

浏览 5提问于2014-03-21得票数 2

回答已采纳

1回答

如何使用python识别pdf中的图形？

、、、

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

在图像中查找已知文本(引导OCR)

、

具体来说，我正在创建一个工具，将一组扫描页面转换为支持搜索和copy+paste的PDF。我理解这通常是如何做到的: OCR页面，保留文本的位置，然后将文本作为不可见层添加到PDF中。Acrobat具有此功能，tesseract可以输出hOCR文件(包含识别的文本及其位置)，hocr2pdf可以使用这些文件生成文本层。将已经知道的文本与扫描页面上的位置匹配起来似乎要容易得多，但我没有发现任何具有这种内置功能的软件。我如何利用现有的软件来做到这一点？编辑:文字的大小和字

浏览 3提问于2015-02-23得票数 4

1回答

使用AVFoundation扫描PDF417条形码

、、、

我有一个工作的iOS条码扫描器使用新的AVFoundation条形码扫描类在iOS 7。我可以成功地获得一个一维条形码的字符串表示(例如，UPC条形码)，但我也需要扫描二维PDF417条形码。我似乎不知道如何获得存储在PDF417条形码中的数据的字符串表示(或任何表示形式)。扫描器识别条形码并返回，但向该对象发送stringValue消息将返回零。文档中对该方法的描述如下：此属性的值是通过根据机器可读代码的格式解码二进制有效载荷而创建的NSStri

浏览 12提问于2013-11-28得票数 3

回答已采纳

1回答

如何从PDF文件中正确提取日文txt

、

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

0回答

.net的tesseract OCR能处理pdf文件吗？

、、、

我想在png和pdf文件上执行光符识别。我能够获得png文件的Tesseract 3.0.2 .net包装器工作，但我找不到任何用于PDf files.So的类，它是否适用于pdf files.If不然后请让我知道扫描pdf的任何其他开源库。我的需求是扫描特定圆的pdf格式的图表，并为这些圆创建超链接。

浏览 8提问于2016-12-27得票数 2

回答已采纳

1回答

Windows扫描套件

、

我正在寻找一个扫描套件，我的Windows 10家庭笔记本电脑，我可以使用与我的Richo全合一。能够将多个页面扫描到一个PDF中OCR的能力，并创建一个PDF与可选择的文本。我对免费的，甚至付费的软件开放。

浏览 0提问于2017-07-25得票数 4

1回答

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

、

其目标是自动将所有扫描文档转换为可搜索的PDF文件，而不仅仅是图像。扫描后的文档由扫描仪自动上传到Linux服务器上的共享文件中，作为PDF文件。该软件应该能够监视文件夹和自动OCR扫描的文件，并将识别的文本添加到PDF文件，使其可搜索。它还应该能够很好地处理多页PDF。Linux 在后台自动工作，不需要任何额外的手动步骤。能够以正确的方式将OCRed文本添加回PDF中(这样桌面搜索引擎就可以对其进行索引)

浏览 0提问于2014-04-28得票数 16

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可将OCR文本插入回源PDF的OCR库

关于拆分PDF和OCR识别

OCR不再是一个问题了吗？

如何使用doc取器在PDF文件中搜索文本？

帮助Canon CanoScan LiDE扫描PDF文档

buffio.Scanner和文本/扫描仪有什么区别？

在Tesseract OCR中是否有从PDF中查找字符串和删除页面的属性？

使用PDFRenderer打印PDF* -形状不是锐利的*

如何识别图像文件中的文本，以及如何阅读该文本？

检查PDF文件是否为已扫描的文件

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

imagemagick检查图像是否为几乎一种颜色

ZXing PDF417 + ALL_CODE_TYPES

如何使用python识别pdf中的图形？

在图像中查找已知文本(引导OCR)

使用AVFoundation扫描PDF417条形码

如何从PDF文件中正确提取日文txt

.net的tesseract OCR能处理pdf文件吗？

Windows扫描套件

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐