使用Tesseract的hOCR文件/确定是否有高质量的文本层

文章/答案/技术大牛

发布

1回答

、

我有一个Tesseract 4.0设置，我们正在使用一个LSTM模型的OCR；传入的扫描PDF被解构成单独的300dpi上采样的PNG，然后去偏斜和OCR‘，然后重新组装成一个PDF与文本层，同时也保存每个页面有时，我们收到的PDF已经被专业地转录了文本层，在这些层上运行Tesseract会导致准确性的损失。对于机器学习应用程

浏览 11提问于2018-02-14得票数 2

2回答

"sh: 1:不能打开/tmp/pdfsandwich4e375e.html:没有这样的文件“当使用pdfsandwitch时

我试图添加一个文本层到一些pdf文件，以使他们可以搜索。这一技术在德国的Ubuntu：http://wiki.ubuntuusers.de/pdfsandwich中得到了解释。对我的/tmp目录的检查表明，不存在这些*.html文件，而是存在相应的*.txt文件。从表面上看，tesseract不会以hocr格式输出。我阅读了tesseract

浏览 0提问于2013-06-16得票数 1

回答已采纳

2回答

Tesseract -如何从图像中提取输入坐标的文本？

、、、、

输入坐标中的文本必须作为输出读取。如何使用node-tesseract完成此操作？

浏览 4提问于2016-12-19得票数 0

1回答

如何从PDF中提取hocr文件？

我正在通过tesseract创建一个OCR编辑的PDF：但我也需要hocr和txt文件。tesseract 已经解决了这个问题的最新版本，但是由于它需要编译leptonica和tesseract，所以我对它并不完全满意。我可以使用pdftotext提取文本文件，但我似乎找不到从PDF中提取hocr的方法。

浏览 0提问于2016-04-19得票数 6

回答已采纳

3回答

如何使用python-tesseract获取Hocr输出

、、

我使用pytesseract得到了非常好的结果，但它不能保留双空格，它们对我来说真的很重要。因此，我决定检索hocr输出，而不是纯text.But;there似乎不是使用pytessearct指定配置文件的任何方式。那么，是否可以使用pytesseract指定cofiguration文件，或者是否有一些默认的配置文件可以更改以获得hocr输出？`

浏览 4提问于2015-12-13得票数 5

2回答

检测Tesseract OCR Java实现的大小大小

、、、、

是否可以使用Tesseract OCR来OCR图片并识别图片中不同大小的字体。如果是，我需要使用任何其他第三方库还是可以使用纯Java。举个例子我想用字体大小来检测报纸的标题和内容。

浏览 3提问于2014-09-21得票数 3

1回答

从tika-server获取hocr输出

、、、

我正在使用对PDF文件执行OCR操作。在和之后，我尝试使用X-Tika-OCR... headers配置Tesseract。在本例中，我使用的是X-Tika-OCRoutputType: hocr header，但是我获得了纯文本输出或没有HOCR标记的html输出。我尝试了/tika和/rmeta端点。我

浏览 5提问于2020-01-09得票数 2

回答已采纳

6回答

如何使用Tesseract对文档进行分段，然后输出结果的边框和标签

、、

我试图让Tesseract输出一个带有标签的边框的文件，该文件由页面分割(pre )产生。我知道它必须能够做到这‘开箱’，因为在ICDAR比赛中显示的结果，参赛者必须分割和各种文件()。下面是论文中的一个例子，说明了我想要创造的东西：我使用brew，brew install tesseract --HEAD构建了tesseract的最新版本，并一直试图编辑

浏览 11提问于2015-02-18得票数 37

回答已采纳

1回答

在tiff文件有600-700页的情况下，是否有任何方法可以使用tesseract OCR引擎加速提取？

、、

在处理带有hocr选项的Tesseract OCR引擎的600 - 700页的tiff文件期间，我们监视到文件占用了40-50分钟。我们有办法加快这一进程吗？以下命令使用：- <Drive>:\Tesseract-OCR>tesseract.exe "Source_Tiff_File"

浏览 0提问于2015-04-18得票数 0

1回答

AttributeError:模块'pytesseract‘没有属性'run_tesseract’

、、、

我试图使用run_tesseract函数来获得一个hocr输出，用于从银行收据images.However的图像中提取文本，我得到了上述错误消息。我在我的笔记本电脑上安装了Tesseract-OCR，并将它的路径添加到我的系统路径变量中。我有一个windows 10 64位操作系统，pytesseract.pytesse

浏览 0提问于2019-05-24得票数 2

回答已采纳

1回答

tesseract OCR中的标记字体样式(斜体)

、、、

已在Windows 7上安装tesseract-ocr v3.02.02，并已通过命令行使用：我需要它能够标记输出文本或html文件中的任何斜体文

浏览 2提问于2014-09-22得票数 0

1回答

在图像中查找已知文本(引导OCR)

、

我在寻找一种在图像中定位已知文本的方法。具体来说，我正在创建一个工具，将一组扫描页面转换为支持搜索和copy+paste的PDF。我理解这通常是如何做到的: OCR页面，保留文本的位置，然后将文本作为不可见层添加到PDF中。Acrobat具有此功能，tesseract可以输出hOCR文件(包含识别的文本及其位置)，hocr2pdf可以使用这些<

浏览 3提问于2015-02-23得票数 4

5回答

如何在tesseract中保留文档结构

、

我使用tesseract ocr从图像中提取文本。保存这份文件的结构对我来说非常重要。目前，tesseract没有保留文本的结构，实际上它改变了文本的顺序。我的输入是下面的图片。Someto the leftSome in the middle Some with some t

浏览 4提问于2014-03-24得票数 25

回答已采纳

3回答

使用文本信息执行OCR时出错: read_params_file:无法打开deu

、

在指定用于执行OCR的语言包时，我得到以下错误(对应的每个语言包)：我使用了wiki中描述的命令：tessdata文件位于tessdata下，TESSDATA_PREFIX设置为tessdata的父目录。该过程在缺省情况下工作，没有给定的语言信息。我在Windows 10上安装了Tesseract

浏览 0提问于2016-07-15得票数 5

回答已采纳

1回答

Tesseract hocr字符输出

我正在使用Tesseract可移植版本3.02，并希望获得hocr输出的字符。问题是hocr输出只显示单词的购买框，而不显示字符，如果有人知道是否有一个选项可以更改tessdata/config，请告诉我。否则，让我知道，如果有另一种方法来解决这个问题。我无法在计算机上安装任何东西，所以我不能使用Tesseract API方法。只能使用dll文件。

浏览 1提问于2015-11-11得票数 1

回答已采纳

3回答

Php api用于从我们上传的图像中读取任何文本

、

我需要帮助从图像中读取文本，无论我们upload.Is有没有任何库为此。我正在使用Tesseract PHP OCR。但不知道如何使用它。我在这里附上了我的文件。Tesseract文件来自这里：和我的php我已经写了附加的图像。

浏览 3提问于2017-05-04得票数 0

2回答

Pytessaract image_to_pdf_or_hocr函数在AWS中不工作

、、、

我使用这个存储库将tesseract部署为lambda层：pdf = pytesseract.image_to_pdf_or_hocr(f'/tmp/{file_name}/{page.numberas output_fi

浏览 3提问于2021-03-15得票数 3

2回答

从具有不同结构的表单中提取字段

、、

例如，我希望能够指出以下资产负债表的“Inventory”值为1,277,838：目前，我正在使用Tesseract将图像转换为文本。但是，这种转换会产生文本流，因此很难将字段与它们的值相关联(因为这些值并不总是紧挨着其相应字段的文本)。经过一些搜索，我读到了Tesseract可以使用uzn文件来读取图像的区域。然而，资产负债表值的特定区域可能会从一

浏览 0提问于2017-03-29得票数 12

回答已采纳

2回答

如何获取识别字符的坐标

我有一个非常简单的基于Tesseract的OCR应用程序。在识别步骤之后，我还提供了一个用户验证步骤，允许在OCR错误的情况下进行纠正。为了改善用户界面，我计划在原始输入图像上的OCR编辑字符顶部绘制一个矩形，并将其与OCR输出并排放置。为了达到这个目的，我需要识别字符的坐标。output; text = tess->GetUTF8Text(); 现在，如果我访问output->c

浏览 10提问于2011-09-06得票数 5

1回答

如何在iOS中生成包含嵌入式hocr数据的pdf？

、、、、

我使用ocr客户端tesseract在hocr文件中生成ocr文本和位置数据。我想要顶部创建一个pdf从图像与一个不可见的一层文本，从tesseract内嵌入。我不知道该怎么做。生成一个不需要文本数据的pdf很容易：UIImage *image = [UIImagestringByAppe

浏览 7提问于2013-05-13得票数 0

点击加载更多