pdf ocr 图片中的文字_pdf文字ocr文字识别_识别pdf图片中的文字 - 腾讯云开发者社区

我见过一些pdf文件后，OCR有非常准确的文本(无论是在识别率，在文本对齐图像)。如果pdf文件中隐藏的文本层是否来自OCR，那么Unix/Linux工具会帮助我知道什么呢？

浏览 0提问于2014-12-07得票数 2

8回答

OCR文字识别技术有哪些应用？

OCR 是实时高效的定位与识别图片中的所有文字信息，返回文字框位置与文字内容。支持多场景、任意版面下整图文字的识别，以及中英文、字母、数字的识别。简单来说就是将图片上的文字内容，智能识别成为可编辑的文本，这么强大的功能在我们生活当中有哪些应用呢？

浏览 3631提问于2018-08-24

1回答

我注意到，当我使用OCR将扫描的PDF文档转换为文本时，根据我提取数据的方式，我会得到非常不同的输出。在上面的照片中-你可以看到一段PDF，它已经被OCR‘转换成相当高质量的文本。如果我在Adobe中选择它并将其复制到word或txt文档中，它会粘贴得非常好。但是，如果我使用Adobe将其导出为富文本格式，使用Python的PDFminer，或者Python Apache Tika，那么我就会得到上面的照片，正如你所看到的，它完全弄乱了它。两种方法的提取结果非常一致-基本上3种方法都以完全相同的方式对其进行了混淆。你们中有谁知道为什么OCR格式的PDF可以很好地复制到

浏览 12提问于2018-02-23得票数 1

回答已采纳

1回答

如何利用OpenCV使图像清晰清晰

、、

所以我想要OCR，一个有文字的图像但是输出总是很奇怪，与图片中的文本不匹配。所以我决定改变图像属性。我就这样改变它： image = cv2.imread("./image_frames/frame473.png") def get_grayscale(image): return cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) def blur(image): return cv2.medianBlur(image,3) def thresholding(image): return cv2.thres

浏览 0提问于2020-06-25得票数 2

1回答

PDFBox:区分透明文本和非透明文本

、、、

我有一个任务，在那里，我必须提取文本，是背后的图像，并已从图像本身OCR编辑。这一案文是透明的。问题是，有一个图像，它的背后有文字，不是OCR编辑的，它只是正常的文本，它是不透明的。如何区分所需(透明)和不需要(不透明)文本？这是一个具有代表性的pdf文件：图像OCR文本应该在第2页、第3页、第12页上提取，而文本也在第4页上提取。在第4页，图像后面没有OCR文本，但是图像下面有规则文本。我需要过滤掉它，因为我只需要OCR文本。

浏览 6提问于2021-07-13得票数 0

回答已采纳

1回答

如何将pdf文件从灰度转换为黑白？

、

我的操作系统是Ubuntu12.04。如何将pdf文件从灰度转换为黑白？灰度pdf文件来自于带有灰度选项的扫描，并且OCR需要黑白等级pdf。更新：根据Marco的答复，B pdf不是很好，原始文件是这里。

浏览 0提问于2013-07-28得票数 13

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。 pdftoppm version 4.00 Copyright 1996-2017 Glyph & Cog, LLC Usage: pdftoppm [options] <PDF-file> <PPM-root> -f <int> : first page to print -l <int> : last page to print -r <number> :

浏览 3提问于2017-09-20得票数 0

1回答

更新多个列，使其与另一列相等

、

我有一个要更新的表。在我的表中，如果一列有重复项，则将其与其匹配项分组在一起。其中一份文件是原件。我需要更新我的表，以使组Id等于原始文档。因此，如果所有文档属于同一组，则它们必须具有相同的统一标题。例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。下面是我的表格示例： DOCID Duplicate_Group Duplicate_Principal Duplicate_Similarity Unified_Title OCR0000000001 OCR0000000001 Yes

浏览 0提问于2014-03-22得票数 0

1回答

“iText7 PdfTextExtractor.GetTextFromPage”“StandardEncoding”不是受支持的编码名称。

我有一个方法，在我们的软件，从PDF，从扫描或文本生成的文本。我通常先尝试GetTextFromPage()方法。如果它不返回文本，那么我将移到页面的OCR上。我有一个特别的6页PDF，前三页是扫描文件，最后两页是一份表格。在这个PDF文件中，我得到了一个我无法解决的错误。 'StandardEncoding' is not a supported encoding name. For information on defining a custom encoding, see the documentation for the Encoding.RegisterProv

浏览 7提问于2020-04-27得票数 0

回答已采纳

3回答

用于阿拉伯语的开源OCR库

、、、

我四处寻找一个OCR库-最好是开源的-我可以在一些阿拉伯语pdf上使用它。在谷歌上搜索也没有找到任何有用的东西。我想知道是否有人知道相关的OCR库，甚至可以在相关语言(波斯语和乌尔都语可能是相关的)上工作的库，可以添加阿拉伯语支持。任何关于如何实现这一点的一般性建议都将不胜感激。

浏览 5提问于2011-01-15得票数 15

2回答

使用OCR [pdfbox]检测是否从扫描文档中创建PDF。

、、、

我想知道是否使用OCR从扫描文档中创建了PDF。为了使扫描文档中的文本可选，我想相同的文本是用透明的颜色，一种特殊的字体，. 我正在使用pdfbox，我查看了字体、颜色和许多其他属性，我没有发现任何特别的东西。

浏览 2提问于2014-06-12得票数 0

回答已采纳

1回答

如何在perl中安装PDF::OCR2模块？

、、、

我正在尝试使用perl从扫描的PDF中获取文本，所以我在perl中使用了PDF::OCR2模块，但我无法安装此模块，安装Image::OCR::Tesseract模块失败，我使用的是CentOS7，这是我在安装过程中的错误。 one dependency not OK (Image::OCR::Tesseract); additionally test harness failed /usr/bin/make test -- NOT OK //hint// to see the cpan-testers results for installing this module, try:

浏览 17提问于2016-08-19得票数 0

2回答

我怎样才能让Tesseract OCR识别电能表的大位数字？

、

我想使用RPi上的OCR程序来识别我的电表照片中的数字。这些数字很大，对我来说很明显，但Tesseract似乎根本认不出它们--充其量它能检测到一些随机错误的数字。我已经尝试过剪切这些数字，并分别对它们进行OCRing，但这并没有帮助。我试过其他几个OCR程序，它们也没有更好。请你给我一些建议，我怎样才能让Tesseract正确地识别出下图中的两个大数字？请注意，这是原始图片是~2.5MB -这个副本更小，以适应这个网站。 📷

浏览 0提问于2017-08-07得票数 0

1回答

执行OCR时出错- Microsoft Azure Computer Vision API

、

我正在使用Microsoft Azure Computer Vision进行OCR PDF提取。当我尝试执行OCR时，它给出的错误为 Read PDF With OCR: Error performing OCR: MicrosoftAzureComputerVisionErrorRunEngine 在这件事上，有人能支持我吗？

浏览 31提问于2020-07-01得票数 0

1回答

AttributeError:模块“ocrmypdf”没有属性“ocr”

、、

我正在使用ocrmypdf库将扫描的pdf转换成可搜索的pdf，但我得到了这个错误。这是我目前正在运行的代码 import ocrmypdf ocrmypdf.ocr('/content/drive/MyDrive/Dataset 2020/OCR/1081975.pdf', 'output.pdf') 错误:- AttributeError: module 'ocrmypdf' has no attribute 'ocr'

浏览 5提问于2020-11-24得票数 1

回答已采纳

2回答

将图像转换为可搜索的pdf

、、、

嗨，我正在寻找一个开源的java API，可以将tiff图像转换为可搜索的pdf (OCR)。我周围有研究，但到目前为止什么也没有发现。注意：，我看过这篇文章，但是这个API并没有将图像转换成pdf 。然而，我仍然在玩一些代码。

浏览 6提问于2012-02-01得票数 5

2回答

如何在uipath中使用google文本读取pdf

我在uipath是新的，我使用PDF活动来读取与Google的Pdf文本，因为我想得到包含图像的pdf文本。首先，我只使用Pdf文本，它工作得很好。然后，我使用Pdf与OCR，然后它显示了这个错误。但是当我运行它时，它给出了一个错误：- "Google OCR : Error performing OCR: TessErrorLoadEngine" Please help me to read the Pdf file.

浏览 9提问于2017-09-11得票数 0

3回答

为什么pdf2image给我一个空白的图像文件？

、、、、

我试图使用Tesseract OCR在多个大pdf文件上执行OCR (~400-600页)。我不一定要从所有页面中提取文本，但我只想要几页(页码已知)。PDF文件似乎已经在上面执行了某种OCR，但这不是一个好工作。当我运行用木星编写的代码时： import pdf2image from PIL import Image import pytesseract import cv2 import numpy as np pytesseract.pytesseract.tesseract_cmd = r"C:/Program Files/Tesseract-OCR/tesseract.ex

浏览 10提问于2021-06-06得票数 2

1回答

运行OCRmyPDF时出现的问题: WinError2和无效版本号

、、、、

因此，我将一个简单的Python脚本组合到OCR，一个PDF： from PIL import Image from tika import parser import argparse import img2pdf import ocrmypdf def main(): parser = argparse.ArgumentParser(description="Get text from image.") parser.add_argument("image_path", metavar="i", help="

浏览 3提问于2021-06-14得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令： Exec=bash -c 'f="%u"; ocrmypdf "$f" "${f%.pdf}_ocr.pdf";' 它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。但是，我更希望命令在终端(konsole)中运行，这样我就可以看到进程。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u" ocr_en.pdf 但是没有输出，保持输入的名称。像这样

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

使用python从PDF中提取扫描页面

、

我有很多PDF文件，基本上是扫描文档，所以每一页都是一个扫描图像。我想要执行OCR并从这些文件中提取文本。我尝试过pytesseract，但它不直接对pdf文件执行OCR，因此，作为一项工作，我希望从PDF文件中提取images，将它们保存在目录中，然后直接在这些图像上使用pytesseract执行OCR。在python中有没有从pdf文件中提取扫描图像的方法？或者有任何方法可以直接对pdf文件执行OCR？

浏览 1提问于2018-05-26得票数 0

回答已采纳

1回答

PIL.UnidentifiedImageError：_cannot标识图像文件

、、

我有下面的代码，它适用于大多数图像类型。但由于某些原因，它不适用于只包含1页和pdf的tiff图像。我有这个错误：回溯(最近一次调用)：文件"/Users/fatiatravaille/Downloads/ocr_json/test.py"，第8行，在"/Library/Frameworks/Python.framework/Versions/3.9/lib/python3.9/site-packages/PIL/Image.py"，= Image.open(r './radio_lomb_300.tiff‘)文件UnidentifiedImage

浏览 170提问于2021-09-23得票数 0

2回答

在PDF上使用Asprise和Java的OCR

、

在这里，我是新手，我在编译代码时遇到了这个错误： OCR ocr = new OCR(); PDFReader reader = new PDFReader(new File("C:\\Users\\pc\\Downloads\\chk1.pdf")); reader.open(); // open the file. int pages = reader.getNumberOfPages(); for(int i=0; i<pages; i++) { BufferedImage image

浏览 1提问于2014-02-24得票数 0

2回答

用java从PDF中提取文本的最佳方法

、、、、

我想制作一个能够读取PDF文件并解析其内容的程序。因此，我需要使用某种库来提取文本。我找到了三种方法。 OCR库(如Tesseract) ScanPdf库(如iText) 从PDF到文本的转换。我无法理解它们之间的巨大差异，因为它们最终都会从PDF中生成一个文本文件。那么，这件事的最佳方式是什么呢？

浏览 6提问于2020-12-28得票数 1

1回答

在子文件夹中批处理OCR文件，并以新名称保存新文件

、、、、

我有以下代码，OCR的所有PDF文件都在一个特定的文件夹中(d：\exttmp2)，但它没有按我的意愿重命名这些文件，也没有将新文件放在正确的位置。目前，所有文件都在‘exexttmp2’的子文件夹中。 OCR运行正常，但我希望将OCR‘’ed文件重命名为：<parent folder path>-<filename>_ocred.pdf。以这种方式命名它们将不会产生任何文件覆盖。当前，代码OCR是文件，但它将新文件保存到它们所在的文件夹之上的文件夹中。它还将文件名保存为"JAN_ocred.pdf"，例如，对于名为"JAN.pdf“的文件。

浏览 2提问于2021-06-09得票数 0

回答已采纳

1回答

如何将jpg文件目录转换为以文件名为书签的pdf？

、、

我有一个目录的jpg文件，是扫描我的手写笔记。如何将它们转换为一个将文件名作为书签的pdf文件？ (我最终也想加入ocr。如前所述，我们可以使用.jpg将.pdf文件转换为img2pdf .jp --output combined.pdf，然后可以使用ocrmypdf combined.pdf combined_ocr.pdf添加ocr。我的问题主要是如何确保pdf文件有书签(由文件名创建)，以便文档易于浏览。

浏览 0提问于2021-09-23得票数 0

1回答

Tesseract-OCR (3.02)识别精度和速度

、

我有一组非常小的图片(w:70-100；h:12-20)，如下所示：在这些图片中，除了组成员的昵称外，什么都没有。我想从简单的图片中阅读课文，它们都有一个背景，只是昵称不同。所以，我对这张照片所做的是：我正在使用下面的代码从第二个图像中获取文本： tesseract::TessBaseAPI ocr; ocr.Init(NULL, "eng"); PIX* pix = pixRead("D:\\image.png"); ocr.SetImage(pix); std::string result = ocr.GetUTF8Text();

浏览 1提问于2016-07-02得票数 6

回答已采纳

1回答

有没有办法检查FSCrawler会使用哪种pdf策略？

我正在使用FSCrawler的REST功能来扫描上传的PDF。我目前使用的是ocr pdf策略，但是ocr_and_text等待响应的时间太长了。我想把pdf同步地发送到fscrawler以使用文本提取，如果这不起作用，发送到一个异步的ocr后台任务。有没有办法用FSCrawler做到这一点？或者有没有办法拥有多个pdf策略？

浏览 6提问于2020-08-03得票数 1

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：开放Acrobat X Pro 批处理/ PDF -扫描中的PDF文件，并将"-OCR“追加到文件名在OCR之后，将文件移动到/PDF/ 删除PDF原始文件中的/PDF-扫描/ 我应该用自动售货机吗？有脚本可以做到这一点吗？它必须与iCal的重复事件联系在一起吗？谢谢。

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

带有OCR松散OCR的ps2pdf

我已经寻找了大量的时间来转换ps2pdf与OCR。我在我的GhostScript上安装了Windows10，并将一个带有OCR的pdf转换成GhostScript文件。然后，我从Post转换PDF以获得更好的结果。所发生的事失去了OCR。如何将OCRed pdf转换为Post脚本文件，然后返回到Post后脚本文件？我的命令是 pdf2ps test.pdf test.ps 然后 gswin64 -sDEVICE=pdfwrite -dCompatibilityLevel=1.4 -o test2.pdf test.ps

浏览 1提问于2020-05-26得票数 1

回答已采纳

2回答

CodeIgniter base_url()用于href，getcwd()用于file_exists()

、

我如何概括或中和base_url()和getcwd()之间的差异？在视图中，我希望同时显示一个内联PDF-查看器(使用<object src=''></object>)和OCR‘’ed输出。这两个文件都需要相同的源文件，该源文件位于project/public/corpus/<some_id>/file.pdf ( project是CodeIgniter根目录)中。控制器中的代码可以概括如下： /** * Fetch the path to the pdf of the document (OCR is preferre

浏览 3提问于2016-10-18得票数 0

回答已采纳

1回答

bash -检查字符串变量是否等于表单提要

、

我刚开始抨击，所以这很可能只是简单的回答，但我的研究还没有给我一个解决方案。我正在尝试编写一个简单的bash脚本来检查一个pdf是否需要OCR，它使用的是与Xpdf一起分发的pdftotext可执行文件。如果pdftotext没有输出任何文本，那么PDF需要是OCR的，问题是，如果一个PDF还没有输出，pdftotext就会返回一个表单Feed字符(而不仅仅是一个空字符串)。尽管我可能会尝试，但我无法让bash将从pdftotext返回的字符串与表单提要进行比较。这是我的密码： pdf_txt=$(pdftotext -q -l 5 '/Path/to/pdf/test.pdf

浏览 2提问于2014-07-21得票数 2

回答已采纳

4回答

如何识别需要OCR的PDF文件？

、

我有超过30,000个pdf文件。有些文件已经是OCR，有些则不是。有没有办法找出哪些文件已经OCR，哪些pdf只有图像？如果我通过OCR处理器运行每个文件，这将是永远不会发生的。

浏览 8提问于2011-10-12得票数 9

回答已采纳

1回答

在r中的if条件下的中断条件

、、、、

我试图从我从pdf文件中提取的文本中搜索一个单词，这是OCR的格式。这个pdf文件有多个页面，所以对于我正在搜索的每一页，如果找到一个单词，那么我不希望for循环继续，我使用了代码，但它只是停留在第一页。我在这段代码中遗漏了什么。这是代码 for(i in 1:8){ img_file <- pdftools::pdf_convert("D:/Files_OCR/test.pdf", format = 'tiff', pages = i, dpi = 400) text <- ocr(img_file) ocr_text <- ca

浏览 2提问于2017-09-22得票数 0

回答已采纳

1回答

检查是否已从Word/Google Docs导出PDF

、、、

我正在做一些OCRing PDF的工作，我很好奇是否有一种方法可以检查一个PDF是否已经从Word (或Google Docs)导出。我可以检查PDF是否已经用Xpdf的pdffonts进行了OCR。我知道Word和Google Docs会自动OCR导出的PDF，所以如果我发现PDF没有OCR，我就知道它没有导出。但是，如果它已经光学字符识别，有没有办法检查的PDF是否从Word/Google Docs导出，而不是简单的OCRd与类似的程序？具体地说，我使用的是JavaScript，但任何信息都是有用的。

浏览 2提问于2013-06-14得票数 0

1回答

将xml ocr/文本信息从一个pdf导入/嵌入到另一个pdf

、

我正在尝试优化图像扫描pdf的质量/文件大小，同时保持ocr质量。我可以尝试在高质量pdf文档的ocr之后进行下采样，但与使用photoshop和导出较低dpi/优化的页面并使用这些页面创建pdf相比，我使用的工具(主要是acrobat)不会创建较小的文件大小。如果可能的话，一个更好的解决方案是获取一个已经ocr的image-pdf文档(对于当前情况是800m)，并将ocr层应用于较低rez下采样的文档。我可以用pdfminer成功地提取坐标为xml的OCR信息，但我想将其应用于使用photoshop进行下采样的相同文件。我认为我读到这是可能的pdftk，但我再也找不到这个信息。任何建

浏览 3提问于2012-07-16得票数 1

1回答

检查PDF可搜索是否已被OCR或PDF可搜索的事实

、、、、

是否有任何Python方法来识别PDF是否是OCR的(文本的质量很差)和可搜索的PDF (文本的质量是完美的)？使用pdf元数据 import pprint import PyPDF2 def get_doc_info(path): pp = pprint.PrettyPrinter(indent =4) pdf_file = PyPDF2.PdfFileReader(path, 'rb') doc_info = pdf_file.getDocumentInfo() pp.pprint(doc_info) 我发现： result = get

浏览 6提问于2021-09-16得票数 0

回答已采纳

1回答

有没有办法区分原生和扫描的pdf？

我使用ocr技术从包含图像的pdf中提取文本，但我只想在pdf还不能搜索的情况下使用ocr，否则我想使用pdfminer或类似的库。有没有办法区分已经可以搜索的pdf和不能搜索的pdf？

浏览 5提问于2019-06-22得票数 1

1回答

OCR多幅图像合并成一个PDF格式

、、

有没有人有经验，如何OCR几个图像，并创建一个输出PDF文件与识别的文本在C#中的Nicomsoft OCR？看起来它可以做到，但是我的C#代码由于某些原因没有生成任何PDF： NSOCRLib.NSOCRClass NsOCR = new NSOCRLib.NSOCRClass(); NsOCR.Engine_InitializeAdvanced(out CfgObj, out OcrObj, out ImgObj); for (i = 0; i < ImageCnt; i++) { NsOCR.Img_LoadFile(ImgObj, ImageFiles[i]); N

浏览 13提问于2015-04-28得票数 1

回答已采纳

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。我需要对它们执行OCR处理，但我需要使用bash脚本重新格式化它们。我可以用pdfimages从PDF中提取图像，将它们与img2pdf放在一起，用ocrmypdf执行OCR处理。但是，我很难用的实用程序来检测它们的方向，如果必要的话，在纵向模式下将它们分割成两幅图像。你应该知道，并不是所有的扫描都是相同的大小和肖像和景观图像混合在同一个PDF中。从现在开始，我只有一个脚本的开头： #!/bin/bash for i in *.pdf; do # Créer le fichier PDF avec OCR

浏览 2提问于2020-04-20得票数 1

3回答

更改windows批处理中的文件扩展名

、、、

我正在尝试重命名很多文件。到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码 rem for /r myPDFfolder %%i in (*.pdf.OCR.pdf) do ren "%%i" "%%~ni.pdf" 但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

从可搜索的pdf中读取，不带ocr

我目前正在使用扫描仪将我的PDF转换为可搜索的PDF。OCR已经处理好了，因为我可以在PDF中使用ctrl-f。但是，我如何才能从我的程序中获取OCR的内容。我对使用java和ruby持开放态度，这个问题是编程语言不可知的。是否可以通过读取文件来公开访问OCR文本？

浏览 1提问于2011-12-15得票数 0

1回答

Pytesseract未按预期识别文本

、、、、

我正在做一个项目，使用OCR我想从图片中读取文本。我使用tesseract来进行OCR，为了获得更好的效果，我添加了图像增强代码。但OCR的结果在图像处理前是平均的，预处理后没有结果。如果有人能帮上忙，我会很高兴的。Pill Scheduling Project (可编辑)

浏览 34提问于2020-05-03得票数 0

2回答

在PDF文件中自动粗体显示整个文本

、

我收到了一组大的pdf文件(每个文件> 1000页)，我想在这些文件中“自动”粗体显示整个文本(以便以后执行OCR过程)。我可以通过手动、一页一页地完成这项任务。但我不知道是否可以通过工具或编写代码来自动完成这一任务？ P.S.：这些pdf文件是私有的，不允许将它们上传到在线服务(如果存在这种服务的话！)

浏览 1提问于2017-10-10得票数 0

2回答

OCR将覆盖HTML传输到图像？

、

我要找一个OCR软件，渲染覆盖HTML到一个图像。我目前正在使用一些未命名的产品。它有一个OCR功能，可以对带有图像的PDF文档进行内联OCR。内联OCR非常方便，它允许搜索带有图像的PDF文档中的文本。也可以直接在文档中突出显示文本，OCR文本与底层图像对齐。不幸的是，我无法从未命名的产品中导出或存储内联OCR。有没有其他软件可以执行和导出在线OCR？我特别感兴趣的是导出到HTML中，其中包含与底层图像对齐的定位段落。另请参阅：

浏览 3提问于2013-05-13得票数 5

2回答

如何通过API网关将AWS Lambda中的"pdf“和"html”文件作为“事件”传递？

、、、

我试图将"pdf“或"html”文件直接传递到lambda函数中。但是我不明白它应该以什么正确的格式接收？我能够理解如何使用以下代码通过lambda函数传递“图像”文件:但是如何发送pdf或html文件呢？ def write_to_file(save_path, data): with open(save_path, "wb") as f: f.write(base64.b64decode(data)) def ocr(img): ocr_text = pytesseract.image_to_string(img, config = &#

浏览 1提问于2020-05-06得票数 0

回答已采纳

5回答

将扫描的pdf转换为文本python

、、、

我有一个扫描的pdf文件，我试图从中提取文本。我尝试使用pypdfocr在其上进行ocr，但出现错误： “在通常的位置找不到ghostscript” 经过搜索，我找到了这个解决方案，，我尝试下载GhostScript并将其放入环境变量中，但它仍然有相同的错误。如何使用python在扫描的pdf文件中搜索文本？谢谢。编辑：以下是我的代码示例： import os import sys import re import json import shutil import glob from pypdfocr import pypdfocr_gs from pypdfocr import p

浏览 111提问于2017-08-03得票数 13

回答已采纳

2回答

如何区分扫描的PDF和常规的文本PDF

、、

我正在处理多个PDF文件的OCR任务。其中一些是扫描的(不可搜索的)，另一些只是原生的(可搜索的)PDF。为了收集文本数据，我有两个单独的代码执行。扫描的pdf文件 image1 = image_read_pdf (file.list1[1], density=150) image1 = image_ocr(image1, language = "spa") 用于文本的pdf text1 = pdf_text(file.list1[2]) 由于OCR功能在每个归档文件上都需要一段时间，因此在将它们转换为文本之前，我希望能够区分这两

浏览 7提问于2021-04-10得票数 1

1回答