pdf光学识别文字后 - 腾讯云开发者社区

文章/答案/技术大牛

发布

3回答

c#将PDF转换为Tif

c#、ocr

我正在使用ghostscript转换PDF的Tif与C$类包装，然后是使用光学字符识别tessnet2读取图像文件的内容，但tif图像是相当不可读，图像是相当褪色的，看起来不正确，光学字符识别引擎无法读取任何东西有没有开放源码或库，可以花我几块钱就可以将PDF转换成高质量的TIf？或者任何可以读取PDF的开源光学字符识别引擎，因为tessnet2不能读取PDF。

浏览 6提问于2012-08-31得票数 0

回答已采纳

1回答

保存并重新加载Abbyy的光学字符识别结果

ocr、abbyy、finereader、finereader12-sdk

假设我已经在Abbyy FindeReader中对多个PDF进行了光学字符识别。是否可以稍后在Abbyy FineReader中重新加载光学字符识别结果，以便纠正光学字符识别错误？

浏览 36提问于2020-10-09得票数 0

回答已采纳

2回答

如何使用Tesseract从车辆的认证卡中获取文本区

python-2.7、ocr、python-tesseract

我需要关于tesseract的建议。我尝试过使用Tesseract，但效果并不完美。很多信息都丢失了。我想扫描法国车辆的登记证书，我必须将数据恢复到数据库中。你可以在下面的文件中找到，这是一份法国注册证。是否有可能检测到本文档中的每个区域并将此信息保存在数据库中？我在网上读过，只用Tesseract是不可能检测到区域的？示例：如何恢复每个区域的文本并将其插入到数据库中？尼古拉斯

浏览 19提问于2017-02-17得票数 0

1回答

从可搜索的pdf中读取，不带ocr

pdf

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了，因为我可以在PDF中使用ctrl-f。但是，我如何才能从我的程序中获取OCR的内容。

浏览 1提问于2011-12-15得票数 0

1回答

谷歌翻译手机应用程序是否使用Tesseract在本地进行OCR？

android、ios、ocr、tesseract、google-translate

与我在iOS上用Tesseract写的一个测试相比，这个应用程序在光学识别方面超级快速和准确。所以我想知道: Google翻译手机应用程序是否使用Tesseract在本地进行OCR？

浏览 0提问于2016-03-23得票数 2

1回答

如何从PDF中提取音乐符号？

pdf、extract、ghostscript、music-notation

我试图用另一种内置字体渲染PDF格式的音乐符号，但我不知道怎么做。gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=Betlem_pdf.txt Betlem.pdf iconv.exe -f MAC

浏览 5提问于2019-07-22得票数 0

回答已采纳

1回答

Howto:使用C#在光学字符识别前提高PDF质量

c#、pdf、ocr、readable

一旦文件存在，该服务就会提取它，并将其转换为可读的PDF。在此过程中，该服务还会搜索条形码。在此之后，提取文本，并将文件及其文本存储到我们软件的数据库中。该位置基于条形码。现在，对于光学字符识别，我们使用了Atalasoft的SDK ()。此外，条形码识别器也包含在此SDK中。我测试了Kofax ()。我正在寻找类似的东西，但这可以使用某种SDK-kit在服务中实现。

浏览 2提问于2011-07-06得票数 5

回答已采纳

1回答

我需要关于在网络上显示(和/或转换) pdf文件的建议

java、html、pdf、struts-1

我们也想接受PDF，但我不确定显示PDF或将其转换为html的最佳方式是什么。或者，我们可以忘记直接显示PDF文件，而是像处理Word文档那样将它们转换为html，但我还没有遇到一个好看的库来实现这一点。最后一件事，我们计划为付费客户提供下载原始PDF文件的选项。这可能会很复杂吗？在构建流程的其余部分时，有什么是我应该牢记的吗？

浏览 2提问于2012-03-24得票数 3

1回答

表单识别器OCR准确性问题

computer-vision、ocr、form-recognizer

我正在尝试从扫描的身份证中提取数据，但遇到了光学字符识别准确性的问题。这是一些额外的小字后面的名字，这是混淆了身份证上的常规名称。表单识别器中的OCR不准确。有没有办法将新的3.0计算机视觉OCR API与表单识别器2.0一起使用？我看到一些文档，其中提到在容器中使用表单识别器时使用计算机视觉的API？如果我们使用云中的表单识别器API而不是本地容器，是否可以指定OCR API？

浏览 5提问于2020-05-18得票数 0

1回答

Tabula-py解析pdf时出现字体错误tahoma

python、pdf、debian、tabula

我试图用解析我的pdf，但是我得到了这个错误# from matplotlib import pyplot as pltfrom tabula import read_pdf_table# Converting first page into JPG with Image(filename="ed.pd

浏览 4提问于2016-10-13得票数 1

1回答

提取PDF中表示为图像的文本- itextsharp

c#、pdf、itextsharp、itext

我在使用ITextSharp从PDF文件中提取文本的过程中，我已经成功地提取了我感兴趣的文本的一部分，但当我继续我的‘文本’提取时，我注意到一些文本单词(当我使用itextsharp从整个页面提取整个文本时无法获得文本因此，简而言之:如何提取包含在PDF图像对象中的文本？我是否必须提取图像并找到另一种方法将其转换为文本？这是一个非常可怕的行星排列对我来说..有人遇到过这个问题吗？

浏览 4提问于2013-06-07得票数 2

回答已采纳

1回答

查找没有文本的PDF

find、pdf、ocr

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

1回答

SynFusion错误:无法加载文件或程序集Syncfusion.Pdf.Base，Version=16.4450.0.54

c#、asp.net-mvc、visual-studio-2017、syncfusion

我已经安装了以下软件包以支持Docx和doc SynFusion.Licence Global.aspx enter image description here 项目15我已经安装了以下软件包，以支持光学字符识别文本enter image description here以前它是很好的工作与项目3，以支持Docx和文档到enter image description here，但现在我已经安装了光学字符识别同步文件后安装光学字符识别同步文件到Pdf不工作，不知何故，我

浏览 60提问于2019-03-20得票数 0

回答已采纳

1回答

如何使用Java从PDF中的特定矩形区域提取数据？

java、pdf

我试图从PDF中给定的两个坐标指定的特定矩形区域中提取数据。是否可以在PDF中执行此操作，或者我是否必须将其转换为图像并使用OCR？如果有，PDFBox或iText是否包含通过光学字符识别来分析图像的方法？谢谢!

浏览 26提问于2017-12-26得票数 3

回答已采纳

2回答

如何使用谷歌的AutoML进行光学字符识别

google-cloud-platform、ocr、google-cloud-vision、google-cloud-automl

但是我在AutoML上找不到任何与光学字符识别相关的东西。是否可以使用AutoML进行光学字符识别？我们该怎么做呢？我知道这是一个非常开放的问题，但我希望能得到一些帮助。

浏览 32提问于2020-06-25得票数 0

回答已采纳

1回答

tesseract 3.03 -输入jpg文件

linux、ocr、tesseract

我想创建一个具有可选/可搜索文本的PDF。我有在光学字符识别之前经过一些预处理的source.png，然后我有view.jpg，这是一个压缩版本的source.png，以减少输出的PDF文件如何在语法中定义view.jpg？tesseract -l eng source.png out pdf

浏览 3提问于2014-03-03得票数 0

1回答

有没有办法使用applescript (或elsescript) acrobat XI来执行OCR？

applescript、ocr、acrobat

我的最终目标是设置一个关注的文件夹与黑泽自动光学字符识别每一个我放入的PDF文件，请不要告诉我使用PDFPen，我不喜欢它，我只是喜欢光学字符识别的特殊能力的Acrobat ;-) 谢谢。

浏览 4提问于2013-02-05得票数 0

10回答

光学字符识别软件推荐？

software-recommendation

我想直接扫描的版本一定是由一些光学字符识别软件处理的。谢谢和问候！请每个答案限制一个软件。

浏览 0提问于2010-10-22得票数 15

回答已采纳

1回答

如何使用doc取器在PDF文件中搜索文本？

pdf、search、text

我试图在PDF文件中找到一些文本，但结果并不准确！举个例子，我有两个PDF文件，其中有一个词domiciiado。当我搜索这个单词(domiciliado)时，doc取器只显示一个PDF文件和这个单词。我的问题是为什么doc取器没有用这个单词显示另一个PDF文件？PDF文件之间有什么区别吗？在一个PDF中，我只有文本，而其他PDF是文本和图像，这是从扫描页面。陷阱是什么？ P.S.：这两个PDF文件位于同一个目录中。

浏览 0提问于2016-08-16得票数 0

回答已采纳

1回答

无法对tiff和jpeg文件执行OCR

alfresco

我指的是在tiff和jpeg文件上执行光学字符识别的“”，而是说“找不到尾部字典”，“无法读取外部参照表”，“异常失败(”错误: pdfinfo无法确定页数。检查pdf输入文件。\n“)”虽然从jpeg或tiff文件到PDF文件的转换工作正常，并且PDF文件在alfresco共享页面上可见“，但没有OCR正在处理这些tiff和jpeg文件

浏览 1提问于2017-06-26得票数 0

点击加载更多

c#将PDF转换为Tif

保存并重新加载Abbyy的光学字符识别结果

如何使用Tesseract从车辆的认证卡中获取文本区

从可搜索的pdf中读取，不带ocr

谷歌翻译手机应用程序是否使用Tesseract在本地进行OCR？

如何从PDF中提取音乐符号？

Howto:使用C#在光学字符识别前提高PDF质量

我需要关于在网络上显示(和/或转换) pdf文件的建议

表单识别器OCR准确性问题

Tabula-py解析pdf时出现字体错误tahoma

提取PDF中表示为图像的文本- itextsharp

查找没有文本的PDF

SynFusion错误:无法加载文件或程序集Syncfusion.Pdf.Base，Version=16.4450.0.54

如何使用Java从PDF中的特定矩形区域提取数据？

如何使用谷歌的AutoML进行光学字符识别

tesseract 3.03 -输入jpg文件

有没有办法使用applescript (或elsescript) acrobat XI来执行OCR？

光学字符识别软件推荐？

如何使用doc取器在PDF文件中搜索文本？

无法对tiff和jpeg文件执行OCR

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐