扫描的pdf可以识别文字吗_扫描 pdf 文字识别_pdf扫描文字识别 - 腾讯云开发者社区

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的<

浏览 3提问于2011-02-28得票数 2

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。哪种编程语言和库给了我最大的灵活性来完成这样的任务，而不需要我做所有繁琐的工作。我对Python很熟悉。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别<

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

帮助Canon CanoScan LiDE扫描PDF文档

、、、

在过去的10天里，我刚刚开始使用Ubuntu，打算永久停止使用Windows。到目前为止已经很棒了。我已经用可用的Ubuntu应用程序和Google的一些帮助替换了几乎所有的Microsoft应用程序。我的佳能CanoScan LiDE 110扫描仪出了问题。当我使用Windows 7中的扫描仪，并将扫描过的书籍页保存为PDF格式时，我可以打开PDF扫描页面并直

浏览 0提问于2014-03-16得票数 2

回答已采纳

2回答

buffio.Scanner和文本/扫描仪有什么区别？

、

与包和.的区别是什么？

浏览 4提问于2014-08-01得票数 1

回答已采纳

2回答

OCR不再是一个问题了吗？

、、

根据的说法，“拉丁文字、打字文本的准确识别现在被认为是一个很大程度上解决了应用程序中的问题，这些应用程序可以获得清晰的成像，例如扫描打印文档。”然而，它没有给出任何引用。或者，这个问题的一个较不主观的</

浏览 1提问于2009-10-19得票数 4

回答已采纳

1回答

在图像中查找已知文本(引导OCR)

、

我在寻找一种在图像中定位已知文本的方法。具体来说，我正在创建一个工具，将一组扫描页面转换为支持搜索和copy+paste的PDF。我理解这通常是如何做到的: OCR页面，保留文本的位置，然后将文本作为不可见层添加到PDF中。Acrobat具有此功能，tesseract可以输出hOCR文件(包含识别的文本及其位置)，hocr2pdf可以使用这些文件生成文本层。不幸的是，我的

浏览 3提问于2015-02-23得票数 4

1回答

如何使用python识别pdf中的图形？

、、、

新的pdf解析。输入- pdf与一个图形，如这一个。输出应为-真或假也许还有别的办法？谢谢!

浏览 5提问于2022-11-17得票数 0

1回答

寻找收据扫描器，而不是连续扫描任何长度的收据。

我正在寻找一个收据扫描仪，可以扫描非常长的收据(高达30英尺长)，并产生一个单一的图像或PDF。理想情况下，它将具有光学字符识别(optical字符识别)，并生成一个包含文本信息的PDF (例如，当您在Acrobat之类的地方打开PDF时，您可以搜索单词，或者可以使用单独的软件将文本内容提取到一个因为我不希望它用于像Neat这样

浏览 0提问于2018-05-09得票数 2

1回答

如何创建高保真度PDF与可复制文本扫描？

、、、

一些公司通过扫描仪提供Windows软件，这些软件可以从扫描过的页面上创建PDF，这些页面看起来与扫描的内容完全一样(就好像它只是全页图像)，但文本是可以识别和复制的。如何在Ubuntu上创建这样的PDF？请注意，我不希望将扫描文本转换为常规文本。我想保持PDF外观的图片-完美的原始页面，但增加了一个公认的文

浏览 0提问于2017-09-24得票数 4

回答已采纳

1回答

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

、

其目标是自动将所有扫描文档转换为可搜索的PDF文件，而不仅仅是图像。扫描后的文档由扫描仪自动上传到Linux服务器上的共享文件中，作为PDF文件。该软件应该能够监视文件夹和自动OCR扫描的文件，并将识别的文本添加到PDF文件，使其可搜索。它还应该能够很好地处理多页PDF。Linux 在后台自动工作，不需要任何额外的手动步骤。能够以正确<

浏览 0提问于2014-04-28得票数 16

1回答

如何识别图像文件中的文本，以及如何阅读该文本？

、、

在图像格式中有满满的文字。(E)以图像文件*.tiff格式扫描的文件。光学字符识别方法只识别正常格式的字母表。在这种图像格式中包含的文字就像行文一样。那么如何识别中的文本并将其转换为文本文件呢？

浏览 8提问于2014-10-11得票数 2

1回答

基于Tesseract的图像文本识别

、、、、

我想创建一个pdf文件与文本识别从扫描图像。tesseract -c textonly_pdf=1 test.tif test pdf 如何使文本可见？可以使用另一个命令行或python工具创建pdf

浏览 2提问于2021-11-09得票数 0

1回答

文字识别可以识别电子账单吗？

浏览 193提问于2022-06-15

1回答

用于识别ocr文本的Adobe acrobat 8命令行开关

、、、、

我想使用命令行，以执行许可的adobe acrobat 8来识别OCR文本已经扫描的pdf文件，并使其完全可搜索的pdf？提前感谢！

浏览 3提问于2010-04-09得票数 0

1回答

在OSX中为扫描手写便笺的PDF添加文本层

、、

在课堂上，我喜欢手写的笔记，然后我扫描它们，然后把它们打出来(帮助我记住它们，也使它们易于搜索)。主要的问题是，我使用了大量的绘图和复杂的数学，将数学公式转换成胶乳(或word)非常耗时，绘图要求我保存PDF和文本文档。我想做的是把我自己输入的基本文本(没有OCR)添加到PDF的文本层中，这样PDF就可以搜索，并且我可以通过不转换数学或绘图来节省很多时间。我已经研

浏览 9提问于2013-09-12得票数 2

2回答

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

、、

我转换pdf到tiff图像与图像魔术，从500 to到4.6mb的文件大小。convert \pph-psd.tiffTiff图像：为什么会发生这种情况，以及如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

浏览 1提问于2018-05-16得票数 0

回答已采纳

1回答

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

、、、、

我有30种不同类型的PDF。我需要提取特定于每个PDF的信息。我需要用python来做这个工作。我能够从一种类型的pdf中提取特定的信息，但需要一个模型，它将识别文件的类型，并自动识别需要提取的关键字，然后检索它们。可以通过编程方式使用python吗？任何帮助都将不胜感激。请注意，并非所有文档都是结构化的。但首先，我们可以假设文

浏览 2提问于2018-06-29得票数 0

1回答

PyPDF2从扫描的pdf中提取垂直文本

、、、、

我正在尝试提取文本从扫描的pdf使用PyPDF2。有些pdf包含垂直排列的文本。但页面的方向是肖像。是否有任何方法可以识别文本是否垂直对齐并使用pdfminer或PyPDF2读取PDF中的垂直行？

浏览 1提问于2018-09-27得票数 6

1回答

如何快速从图像中扫描可搜索的pdf？

、、、、

我想扫描文件与tesseract框架中的迅速和生成pdf文件，可以搜索。 var str = "0" if let tessaract

浏览 2提问于2020-10-13得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可将OCR文本插入回源PDF的OCR库

如何使用doc取器在PDF文件中搜索文本？

关于拆分PDF和OCR识别

帮助Canon CanoScan LiDE扫描PDF文档

buffio.Scanner和文本/扫描仪有什么区别？

OCR不再是一个问题了吗？

在图像中查找已知文本(引导OCR)

如何使用python识别pdf中的图形？

寻找收据扫描器，而不是连续扫描任何长度的收据。

如何创建高保真度PDF与可复制文本扫描？

使用从扫描PDF批量生成的OCR创建可搜索的PDF文件

如何识别图像文件中的文本，以及如何阅读该文本？

基于Tesseract的图像文本识别

文字识别可以识别电子账单吗？

用于识别ocr文本的Adobe acrobat 8命令行开关

在OSX中为扫描手写便笺的PDF添加文本层

如何将pdf扫描图像转换为最适合ocr的高分辨率tiff？

通过机器学习或编程从PDF/扫描的PDF中为30种不同类型的文档提取关键数据字段

PyPDF2从扫描的pdf中提取垂直文本

如何快速从图像中扫描可搜索的pdf？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐