pdf批量ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

将多个PDF文件转换为文本(R语言)

、、、

('myfile_1.pdf', dpi = 600)cat(text)#import and convert 1st file pngfile_1 <- pdftools::pdf_convert('myfile_1.pdf', dpi =

浏览 4提问于2021-07-31得票数 0

6回答

以编程方式将扫描仪创建的PDF分解为单独的PDF文档

、、、、

我有来自扫描仪的PDF文档。此PDF包含由员工为一天的工作填写和签名的表单。我想在每个表单类型上放置一个条形码或OCR文本的标准区域，以便批量扫描可以根据表单类型以编程方式分解为单独的PDF文档。

浏览 0提问于2008-12-03得票数 2

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

2回答

如何使用PDF OCR批量处理文件？

、、、

file.getOriginalFilename()).build(); InputConfig inputConfig = InputConfig.newBuilder().setMimeType("application/pdf

浏览 20提问于2019-08-02得票数 0

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

更新多个列，使其与另一列相等

、

例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000000004 OCR0000000006 No 95

浏览 0提问于2014-03-22得票数 0

1回答

两种输入文件类型同时在GNU并行？

、、、

然后它将使用tesseract对每个pgm (第二个输入文件类型)执行OCR。 export -f generate_pgm PGM="$1" find .{}; parallel --argsep ,,, ocr ,,, pgm/*.pgm'

浏览 2提问于2017-07-25得票数 1

5回答

命令行软件批量转换TIFF为可索引的PDF

、、、、

我需要一个实用程序来批量转换TIFF文件到可索引的PDF的。该软件需要在linux上运行，必须从命令行工作。该软件不需要是开源的。我已经尝试过使用tesseract和hocr2pdf进行转换，但是它们会产生乱码文本(注:只有在PDF中“选择所有”文本时，文本才会乱码)。

浏览 9提问于2012-05-29得票数 1

回答已采纳

1回答

将扫描的pdf转换为R中可搜索的pdf

、

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。有没有一种方法可以将扫描的pdf转换成可读的pdf，这样我就可以在tabulizer中抓取它了？还是另一种将扫描的pdfs抓取到表中的方法？

浏览 5提问于2022-11-16得票数 0

1回答

检测景观格式的图像，并将其分割成两幅肖像。

、、、、

我已经扫描了PDF格式的文件。这些文件包含一页纵向格式和两页横向格式的页面。for i in *.pdf; # Créer le fichier PDF avec OCR ocrmypdf --language fra

浏览 2提问于2020-04-20得票数 1

3回答

如何将PDF的内容以字符串的形式快速读取。我想稍后过滤这个字符串并从中获取特定的文本元素。PDF来自一个url，我将它加载到一个web视图中并使用NSURL扩展来缓存它。var urlAsString = String(contentsOfURL: NSURL(string: "http://web.shschools.org/shpid/pdfs/WXS5N48Z.pdf, encoding: NSUTF8StringEncoding, error: nil) 但是，我认为这是无

浏览 14提问于2015-08-02得票数 0

回答已采纳

1回答

如何在perl中安装PDF::OCR2模块？

、、、

我正在尝试使用perl从扫描的PDF中获取文本，所以我在perl中使用了PDF::OCR2模块，但我无法安装此模块，安装Image::OCR::Tesseract模块失败，我使用的是CentOS7，这是我在安装过程中的错误NOT OK reports LEOCHARRE/PDF-OCR2t

浏览 17提问于2016-08-19得票数 0

1回答