pdf图片文本识别工具_pdf文本识别工具_pdf图片ocr识别文本 - 腾讯云开发者社区

、、、

我想要一个工具或库，可以提取PDF文档中的文本，以便将其保留在文本文档中。不需要保留格式，尽管我希望能够识别它，以便确定文档的各个部分。(例如，编写一条规则，说明H1的每个实例都是一个新部分的开始。)同样可以接受的是将PDF提取成诸如ODF或DOCx的格式，其中包括格式和图片。虽然免费工具是首选，但我也愿意支付。

浏览 0提问于2016-05-31得票数 1

1回答

在模拟器上使用Swift中的iOS 14 VNRecognizeTextRequest比使用iPhone更好地识别文本

、、

我已经建立了一个应用程序，使用VNRecognizeTextRequest从图片识别文本。我故意用我的iPhone 8Plus拍了一张糟糕的照片(光线不好，手写不好，笔直等等)。

浏览 206提问于2020-10-15得票数 0

1回答

是否有任何不基于OCR的通用布局分析库或工具？

、

我正在寻找布局分析库或工具(最好是开源的)，可以应用于文本PDF，以识别主要文本内容与侧栏，章节标题，章节标题(甚至可能是具有装饰/阴影和下划线的花哨的标题)等。我遇到了像OCRopus这样的工具，它们使用光学字符识别和图像识别来识别布局。有没有库可以在没有OCR的情况下做同样的事情？可以从文本PDF中提取文本和图像，并将包含文本和图像位置的输入提供给该

浏览 2提问于2013-05-08得票数 2

回答已采纳

1回答

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件

浏览 0提问于2016-08-16得票数 0

回答已采纳

3回答

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

、、、、

我需要转换成.doc文件使用C#的PDF文件。虽然这台计算机没有安装Office，但它没有文件系统。有没有什么好办法让我这么做呢？我做了一些研究，大多数人都在使用互操作服务。

浏览 2提问于2011-04-23得票数 0

回答已采纳

5回答

如何在扫描的.jpeg中编辑文本？

、、、

我需要上传一个扫描图像作为PDF文件。我以前从来没有这样做过，所以我真的被困住了。我该怎么做？

浏览 0提问于2012-12-05得票数 15

回答已采纳

1回答

按原样获取PDF的文本图层并将其传递给另一个PDF

下午好，我在我的项目中有一个问题，这是PDF压缩，过程如下:提取图像从一个PDF Hang OCR压缩股票OCR +合并图像和转换PDF每页结合所有生成的pdf格式与光学字符识别，光学字符识别PDFcon我在网上查看，我看到了一种方法来规避该过程，这是获得的原始PDF的文本层，并将其传递到最终的PDF是压缩的，尝试一些代码，如删除所有图像的PDF和单独与文本层，并插入我的压缩图像，但问题相比于上面提

浏览 0提问于2014-05-16得票数 0

1回答

从可搜索的pdf中读取，不带ocr

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了，因为我可以在PDF中使用ctrl-f。但是，我如何才能从我的程序中获取OCR的内容。是否可以通过读取文件来公开访问OCR文本？

浏览 1提问于2011-12-15得票数 0

1回答

如何在Python中将PDF中的字节转换为字符串？

、、

我尝试将从book_download_page = requests.get(link)获取的字节转换为字符串，然后从content = book_download_page.content转换为字符串。我试过的是， content = book_download_page.content.decode('utf-8') 我得到了错误， 'utf-8' codec can't decode byte 0xe2 in position 10: invalid continuation byte 编辑-您可以尝试this link进行下载谢谢!

浏览 21提问于2020-06-25得票数 0

1回答

我需要关于在网络上显示(和/或转换) pdf文件的建议

、、、

目前我们只支持Word文档( .doc或.docx)和纯文本。我们使用JODConverter库在Word和html之间进行转换；html是存储在数据库中的内容和显示给用户的内容。我们也想接受PDF，但我不确定显示PDF或将其转换为html的最佳方式是什么。或者，我们可以忘记直接显示PDF文件，而是像处理Word文档那样将它们转换为html，但我还没有遇到一个好看的库来实现这一点。最后一件事，我们计划为付费客户提供下载原始PDF文件的选项。这可能会很复杂吗？在构建流程的其余部分时，有什么是我应该牢记的吗？

浏览 2提问于2012-03-24得票数 3

2回答

如何用谷歌翻译图片上的文字？

如果我遇到一个含有未知文本的图片文件，我可以为它拍另一张照片，然后用我的手机使用进行翻译，但我如何在我的电脑上翻译它呢？我试着输入谷歌翻译的图片链接，但显示无法打开文件。

浏览 18提问于2014-08-06得票数 0

回答已采纳

1回答

Tabula-py解析pdf时出现字体错误tahoma

、、、

我试图用解析我的pdf，但是我得到了这个错误# from matplotlib import pyplot as pltfrom tabula import read_pdf_table# Converting first page into JPG with Image(filename="ed.pd

浏览 4提问于2016-10-13得票数 1

1回答

免费的OS编辑器，作为Acrobat的替代

、、

我希望能够创建，打开和编辑PDF文档。我需要相当数量的特性(但它不一定要像Acrobat那样全面)。应该包含的功能包括编辑文档的文本正文、插入图片、旋转图片、调整图片大小、文档中的移动图片和文本包装。

浏览 0提问于2016-04-20得票数 4

2回答

使用.NET抓取屏幕

、

我有大约100K的pdf格式/tif，jpg格式的扫描图像，需要从其中读取数据，然后上传到硬盘驱动器。我计划来一个小的应用程序，将有助于自动化的数据输入工作。市场上是否有免费的屏幕抓取工具，可以帮助自动化这个过程。我最初的想法是一个接一个地读取每个图像，并通过应用程序提供数据。

浏览 0提问于2011-07-09得票数 0

1回答

如何判断pdf文件中隐藏的文本层是否来自OCR？

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

1回答

使用php识别pdf中的链接

、、

我想创建一个pdf的图片。我知道linux有免费的工具可以做到这一点。我的问题是，我想从pdf文件中获取链接，识别它们以便以后使用。所以我需要知道它们是什么，以及页面上的坐标，以便能够使用它们。

浏览 0提问于2011-10-10得票数 0

回答已采纳

2回答

使用Google Cloud Vision的OCR PDF文件？

、、、

目前是否有任何服务或软件工具使用Google Cloud Vision作为OCRing扫描的PDF文件的后端？如果没有，如何使用Google Cloud Vision将PDF转换为OCRed PDF？据我所知，Cloud Vision目前支持PDF文件，但它只能将识别的文本输出为JSON文件。因此，似乎需要在Google Cloud Vision之外的另一个步骤中，将这个转换后的文本放在PDF中的图像顶部。我经常需要将扫描的

浏览 0提问于2018-09-15得票数 4

2回答

如何将pdf文档转换为xml，并获取包含表数据的部分。

、、、

有一个pdf文档，我想把它转换成xml或html。我想得到表数据来存储数据库。

浏览 2提问于2015-07-27得票数 0

回答已采纳

1回答

基于Tesseract的图像文本识别

、、、、

我想创建一个pdf文件与文本识别从扫描图像。tesseract -c textonly_pdf=1 test.tif test pdf 如何使文本可见？可以使用另一个命令行或python工具创建pdf文件吗？

浏览 2提问于2021-11-09得票数 0

1回答

在PDF文件中查找文本消息的工具

、、、

目标：文本消息是PDF文件中的图片。你需要什么工具来使用我订购的工具？不管它付不付服务费。您只需要发送一个PDF文件和短信，然后检索答案，如果有匹配和结果是什么。

浏览 0提问于2018-08-18得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从PDF中提取文本的工具是什么？

在模拟器上使用Swift中的iOS 14 VNRecognizeTextRequest比使用iPhone更好地识别文本

是否有任何不基于OCR的通用布局分析库或工具？

如何使用doc取器在PDF文件中搜索文本？

如何在没有microsoft.office.interop的情况下将PDF转换为文档？

如何在扫描的.jpeg中编辑文本？

按原样获取PDF的文本图层并将其传递给另一个PDF

从可搜索的pdf中读取，不带ocr

如何在Python中将PDF中的字节转换为字符串？

我需要关于在网络上显示(和/或转换) pdf文件的建议

如何用谷歌翻译图片上的文字？

Tabula-py解析pdf时出现字体错误tahoma

免费的OS编辑器，作为Acrobat的替代

使用.NET抓取屏幕

如何判断pdf文件中隐藏的文本层是否来自OCR？

使用php识别pdf中的链接

使用Google Cloud Vision的OCR PDF文件？

如何将pdf文档转换为xml，并获取包含表数据的部分。

基于Tesseract的图像文本识别

在PDF文件中查找文本消息的工具

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐