pdf ai ocr - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

在PDF上使用包含文本的文档AI仍然包括文本错误

、

使用文档AI处理器从PDF (英语、德语、意大利语)中提取文本非常好，但有时OCR不匹配。特别是在“单词”不是字典中的单词，而是包含字母和数字的部分数字有问题的情况下(主要是O0L1-5S)。有没有办法告诉文档AI使用PDF中包含的文本(作为文本)。对于我的知识文档，AI使用PDF页面的图像来对内容进行ocr。是否有任何标志可自定义文档AI以使用文本版本或任何其他想法？我需要使用文档AI，因为我希望以正确的方式提取

浏览 2提问于2021-07-05得票数 0

1回答

是否有方法将文件AI OCR响应解析为pdf格式？

我将扫描的PDF文件传递到Google文档AI OCR中。JSON响应(或者在使用Python时返回的文档对象)以结构化格式包含PDF的内容，正如所描述的。我也希望能够输出一个PDF文件(或者XML，如果更简单的话)。有这样的功能吗？任何关于可能的实现的提示都是非常感谢的。注意:在我执行任务之前，PDF已经是另一个工具的OCRed了，但是质量不如文件AI OCR那么好。谢谢

浏览 1提问于2021-04-07得票数 0

回答已采纳

2回答

从PDF中提取文本，并将提取的文本保存在Excel或其他地方

、

我想要一个简单的方法，从pdf中提取文本，并将文本保存到Excel中。谢谢!

浏览 16提问于2020-07-13得票数 0

2回答

我们如何在QnA制造者中显示一个pdf作为一个问题的答案？

我有PDF文档，它有很多截图和非常少的文本。当用户询问特定的问题时，我如何直接显示PDF本身。

浏览 2提问于2020-09-21得票数 0

回答已采纳

1回答

在PDF文件中查找文本消息的工具

、、、

目标：文本消息是PDF文件中的图片。你需要什么工具来使用我订购的工具？不管它付不付服务费。您只需要发送一个PDF文件和短信，然后检索答案，如果有匹配和结果是什么。

浏览 0提问于2018-08-18得票数 1

1回答

Applescript或Automator:运行Acrobat对OCR多个PDF文件进行批处理，更多

、、、、

我使用ScanSnap S1500M将所有纸质文档扫描到/PDF-S1500M/-我想使用对文本进行OCR。我想(每天)自动化这个过程：我应该用自动售货

浏览 5提问于2011-08-18得票数 1

回答已采纳

1回答

api.ai.qq.com这个域名解析不了, 请问是下架了还是什么原因？

、、、

浏览 261提问于2022-07-25

4回答

运行反引号/exec()时的PHP路径问题

、、

即$f = `java -jar /OCR/ocr.jar /Folder/$path /ocr/output.txt`;java -jar /OCR/ocr.jar /Folder/Sub\ Folder/filetoocr.pdf /

浏览 1提问于2010-04-15得票数 0

1回答

图像保留结构中的翻译语言

、、

我们希望将pdf文档中的图像从不同的语言转换为英语。它们是扫描过的图像，很多时候都有表格或一些结构。我们希望翻译成英语，但尽可能保留文档的结构。因此，仅仅基于纯文本的翻译是不够的。

浏览 6提问于2021-07-21得票数 0

1回答

Google平台-使用自定义数据格式的顶点AI培训

、、

我需要训练一个自定义的OCR在顶点AI。我的数据有裁剪图像的文件夹，每个图像都是一行，csv文件有2列:图像名和图像中的文本。但是当我试图将它导入到顶点AI的中时，我发现图像数据集只支持分类、分割和目标检测。我可以使用顶点AI进行训练，如何做到这一点？

浏览 9提问于2022-04-20得票数 1

回答已采纳

1回答

在终端中运行命令，并在输出中包含输入名

、、、、

我在Dolphin服务菜单文件中有这一行，该文件包含用于PDF处理的许多其他命令：它的优点是提供表单MY_PDF_ocr.pdf的输出文件，从而保留输入文件的名称。为此，我可以用这句话： Exec=konsole --noclose -e ocrmypdf "%u&

浏览 0提问于2022-11-30得票数 0

回答已采纳

1回答

在r中的pdf上执行ocr时出错

、、、、

在r中的pdf上尝试OCR，这给了我错误。运行代码后，也会生成"i.txt“文件，但仍然会出现错误。'"D:/Software_for_PDF_OCR/xpdf-tools-win-4.00/bin64/pdftoppm.exe D:/PDF_OCR_File/test.pdf -f 1 -lD:/PDF_OCR_File/t

浏览 3提问于2017-09-20得票数 0

3回答

更改windows批处理中的文件扩展名

、、、

到目前为止，我只想将扩展从".pdf.OCR.pdf“更改为".pdf”，我得到了以下代码但是它似乎不适用于有多个点的扩展--我做错了什么？

浏览 5提问于2015-08-27得票数 1

回答已采纳

1回答

带有图像的PDF文件的OCR

、、

我让Tika在PDF文件上使用Tesseract，但是如果我给它一个同时具有可搜索文本和图像的PDF文件，文本是OCRed两次。有什么办法可以避免这种情况吗？

浏览 4提问于2020-12-31得票数 1

回答已采纳

1回答

使用Python PyPDF2从扫描的pdf (图像)中提取文本

、、、

我一直在尝试从扫描的PDF中提取文本(具有不可选文本的图像)。我想要的信息，包含日期，发票编号从pdf链接()。from PIL import Imagepage = pdf_reader.getPage

浏览 2提问于2020-05-27得票数 1

回答已采纳

1回答

更新多个列，使其与另一列相等

、

例如，OCR0000000006和OCR0000000008都有统一的标题06000146.pdf。OCR0000000001 Yes 100 06000093.pdfOCR0000000004 OCR0000000006 No 95

浏览 0提问于2014-03-22得票数 0

1回答

两种输入文件类型同时在GNU并行？

、、、

然后它将使用tesseract对每个pgm (第二个输入文件类型)执行OCR。 export -f generate_pgm PGM="$1" find .{}; parallel --argsep ,,, ocr ,,, pgm/*.pgm'

浏览 2提问于2017-07-25得票数 1

3回答

如何调用腾讯AI开放平台API？

浏览 4662提问于2018-10-12

1回答

将扫描的pdf转换为R中可搜索的pdf

、

我有一个pdf，大约50页扫描表。我需要最终把它刮到R中，这样我就可以清理数据并将其导出为.csv。环顾在线，我所能得到的最远就是将扫描的pdf作为一个字符对象读取到R中，但这会使格式发生很大的变化，因此表中的列都错对齐了，并出现了无序。有没有一种方法可以将扫描的pdf转换成可读的pdf，这样我就可以在tabulizer中抓取它了？还是另一种将扫描的pdfs抓取到表中的方法？

浏览 5提问于2022-11-16得票数 0

1回答