扫描文件转ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

在web应用程序中，OCR(光学字符识别)应该使用客户端或服务器端。

、、、

我将扫描一个图像并上传到数据库中。我使用mongodb存储文档，.There是在文件中搜索的要求，如果我使用OCR，这是可能的。所以我应该在客户端还是服务器端使用ocr。( 1)扫描一个或多个文件。2.1) OCR扫描图像，并将其保存为PDF格式，并随OCR结果一起上载到数据库。4)以pdf格式以查看器加载文件。因此，请建议我最好

浏览 3提问于2016-12-13得票数 0

回答已采纳

1回答

Google Drive API扫描文档

、

我需要包含将文档扫描到我的应用程序中的功能。可以使用新的Google drive API来扫描文档吗？我尝试使用OpenCV来处理图像，但是没有得到好的结果。

浏览 1提问于2014-07-17得票数 2

2回答

用OCR将文本文档扫描到PDF

、、

我需要扫描文本文件到PDF。操作系统Windows或Linux。预算-无限。

浏览 0提问于2016-10-03得票数 2

1回答

扫描pdf至doc

有没有人知道是否有一个免费的在线OCR转换器，可以转换大扫描的pdf文件(例如，我想转换一个扫描的28 of大小的pdf文档)？我试过很多ocr转换器，但都失败了。

浏览 0提问于2016-01-17得票数 0

1回答

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

、、、、

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。有人能在这里建议如何解决失败的案件吗？

浏览 19提问于2022-11-11得票数 0

9回答

什么是最好的，最简单的OCR解决方案？

、、

我想扫描大量的文件，我已经躺在附近，尽量少麻烦。我想通过简单的扫描将它们转换成图像，然后使用OCR将它们转换为文本。有一个好的OCR应用程序的图形用户界面，将给我一个好的结果按下一个按钮？

浏览 0提问于2010-12-05得票数 97

回答已采纳

3回答

有没有类似Acrobat的OCR功能来自动化扫描PDF文件的OCR的工具？

、、

我有Acrobat 8，并且非常喜欢OCR功能，它基本上可以在扫描的文档上放置一层不可见的OCR文本。因此，您在屏幕上看到的是原始扫描文档，但结果是可搜索的。欢迎所有建议，谢谢！

浏览 0提问于2009-08-14得票数 10

回答已采纳

1回答

需要一个Info和WIA驱动程序来扫描C#中的图像？

、、

我在这个扫描仪中有一些问题，使用的是C#.net中的WIA或TWAIN。我们计划购买柯达i920扫描仪，通过我们在C#中的应用扫描图像。我的问题是有些扫描仪有内置的OCR功能。我能用那个扫描仪的OCR功能编程吗？因此，当我点击OCR按钮时，扫描仪必须扫描一个do OCR并将我还原回原处

浏览 3提问于2011-09-08得票数 1

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

、、

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

2回答

如何区分扫描的PDF和常规的文本PDF

、、

我正在处理多个PDF文件的OCR任务。其中一些是扫描的(不可搜索的)，另一些只是原生的(可搜索的)PDF。image1 = image_read_pdf (file.list1[1], density=150)用于文本的pdf由于OCR

浏览 7提问于2021-04-10得票数 1

2回答

离线Android OCR收据扫描器

、、、

我一直在寻找一个Android收据扫描仪，不上传数据到供应商服务器。我正在寻找一个解决方案，将处理收据的照片，并使用OCR提取存储在设备/手机上的数据。

浏览 0提问于2016-05-03得票数 10

1回答

扫描PDF文档和图像的搜索工具

、、

我正在寻找一个工具，可以搜索扫描PDF文档和图像中的文本。我试过Evernote，我真的很喜欢它，但是我不想在别人的云上有个人文档。我是一个开发人员，所以我可以自己做一些小事情，但解析PDF文件的文本是远远超出我的范围。无云服务应该能够可靠地处理多达100,000份文件。

浏览 0提问于2017-05-23得票数 2

回答已采纳

1回答

如何下载谷歌扫描的.pdf OCRed？

、

我有一个电子邮件与扫描的.pdf附加在我的Gmail帐户。当我点击“查看”，我看到谷歌有OCRed它。当我单击“下载”时，PDF是原始的，即不包含OCRed。如何通过谷歌下载内容为.pdf的OCRed文件？

浏览 0提问于2012-11-26得票数 2

2回答

使用VB.net将PDF转换为文本文件

、、

我有一个扫描的PDF文件，我需要一个VB.net源代码，将扫描的PDF转换为文本格式。

浏览 0提问于2009-09-29得票数 0

1回答

如何通过管道将多个文件从循环导入tesseract-ocr

、、

我正在寻找一种方法，以顺序添加文件(PNG输入文件)到一个ocr的PDF (通过tesseract-3)。这个想法是扫描PNG，优化它(optipng)，并通过流将其提供给tesseract，这会将其添加到不断增长的PDF中。两次扫描之间的时间间隔是20-40秒，并且扫描次数会达到数百秒，这就是为什么我希望使用两次扫描之间的等待时间来进行OCR。我想象它是这样工作的： while !这样做的灵感来自这里： https://gith

浏览 13提问于2019-04-10得票数 1

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

1回答

.NET库，用于将文档扫描到可搜索的PDF(带有条形码支持)

、、

我需要开发一个应用程序，可以扫描文档并生成可搜索的PDF，可以从桌面应用程序(例如WPF)或web浏览器预览。还可以从扫描的文档中扫描条形码。要求：生成可搜索的PDF (OCR) 从扫描文件中扫描条形码。从我所做的小研究来看，我似乎可以用下面的方法来实现这一点，但这似乎是一项很大的工作：用于<e

浏览 0提问于2020-02-03得票数 1

点击加载更多

使用python从PDF中提取扫描页面

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

在web应用程序中，OCR(光学字符识别)应该使用客户端或服务器端。

Google Drive API扫描文档

用OCR将文本文档扫描到PDF

扫描pdf至doc

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

什么是最好的，最简单的OCR解决方案？

有没有类似Acrobat的OCR功能来自动化扫描PDF文件的OCR的工具？

需要一个Info和WIA驱动程序来扫描C#中的图像？

如何使用doc取器在PDF文件中搜索文本？

如何区分扫描的PDF和常规的文本PDF

离线Android OCR收据扫描器

扫描PDF文档和图像的搜索工具

如何下载谷歌扫描的.pdf OCRed？

使用VB.net将PDF转换为文本文件

如何通过管道将多个文件从循环导入tesseract-ocr

如何判断pdf文件中隐藏的文本层是否来自OCR？

.NET库，用于将文档扫描到可搜索的PDF(带有条形码支持)

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐