pdf无法识别文字 - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

Acrobat XI Pro喜欢pdf阅读器

application-development、pdf、adobe-reader

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

1回答

使用Java和Itext编辑PDF文本

java、itext

有办法编辑PDF文档文本吗？比如找到和替换特定的文本？我能够编辑特定坐标(x，y)的pdf，但无法识别和替换。我看到的所有库都是从零开始创建的PDF和小的编辑功能。不管怎样，我可以用itext编辑上面的解释吗？请advise...thank你！ **例子:一份pdf文件载有以下的副翼。是最古老的古希腊和拉丁文，在单词或其他文字之间几乎没有空格，可以用bo

浏览 5提问于2014-07-10得票数 2

1回答

查找没有文本的PDF

find、pdf、ocr

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

android、firebase、firebase-mlkit

我正在开发一个Android应用程序来检测PDF文件中的文本。所有都是一样的，

浏览 1提问于2019-03-07得票数 0

2回答

可将OCR文本插入回源PDF的OCR库

pdf、ocr

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

pdf

我的PDF看起来很好，直到我编辑了它，现在它似乎仍然被破坏，即使我删除了我的编辑。文件diff程序表示这两个文件是相同的，但只有一个文件显示信息。复制：2)在文本编辑器中打开PDF并在顶部添加文本4)删除步骤2中添加的文本是否有任何方法可以将文本添加到PDF中，并使其不

浏览 5提问于2017-07-27得票数 0

回答已采纳

2回答

除PDF以外的所有文件链接的JS RegEx

javascript、regex

我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性，而不是PDF。我很难让它匹配，我有一个可以得到所有PDF的：但我排除PDF的尝试并没有让我走得太远。有没有办法做我想要的，或者我只是匹配所有的文件而不是使用条件语句来检查它是否是PDF？谢谢！达伦

浏览 1提问于2013-06-04得票数 0

2回答

柬埔寨字母表上的交货单

php、prestashop、prestashop-1.7

我得到了一个问题与Prestashop 1.7.4.2交货单，它不能识别高棉文字母。有谁可以帮助我用哪种字体来显示这些字母？我已经在\override\classes\pdf\PDFGenerator.php中添加了支持的字体，但它不起作用。

浏览 1提问于2020-06-10得票数 2

2回答

使用java从pdf中识别和提取表格

pdf、itext、pdfbox、java

我有不同类型的pdf，其中包含多个东西，如文字，表格等。该表可能存在任何地方的pdf(顶部，中部，底部)。我只想提取表数据(否)。列上的，不。在不传递位置的情况下使用java从pdf中提取行和表中的数据。有人能告诉我如何用iT

浏览 12提问于2017-03-31得票数 1

1回答

如何在Linux下使用批处理工具提高PDF上的JPEG压缩级别？显然，您可以使用gs -dPDFSETTINGS=/screen或/ebook，但这降低了PDF的采样量--它减少了DPI。在保持相同像素计数的同时使用JPEG压缩，效率更高(从PDF看起来每KB多好的角度来看)。例如：https://docupub.com/pdfcompress/允许你的一半大小的PDF，但当你放大它仍然有良好的质量，尽管与一些工件。什么样的Linux工具允许我们将JPEG压缩应

浏览 0提问于2021-01-08得票数 2

1回答

用PDF>JPG进行pdf2jpg转换

python、python-3.x

我正在尝试将一些PDF转换为JPG，并使用pdf2jpg进行此操作。to jpg in same folderprint(result，但在被pdf2jpg引用时被还原为反斜杠。ETA:切换到反斜杠而不是正斜杠，并使用原始文字。' 打印变量仍然给出正确的输出作为文件路径，只是这个部分无法识别</

浏览 1提问于2018-08-22得票数 3

回答已采纳

1回答

巨蟒中的Camelot不像预期的那样运行。

python-camelot

我有两个pdf文件，都在同一个布局与不同的信息。问题是:我可以很好地阅读其中一个，但另一个是无法识别的数据。这是一个我可以很好地阅读的例子，下载 from_pdf = camelot.read_pdf('2019_05_2.pdf', flavor='stream', strict=False) camelot.plot(from_pdf

浏览 4提问于2021-09-09得票数 0

回答已采纳

1回答

OCR可以识别PDF文件吗？

文字识别

浏览 254提问于2022-06-15

1回答

关于拆分PDF和OCR识别

python、pdf、split、ocr

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

os.walk是否适用于非转义反斜杠？

python、python-3.x

只是在我正在写的一小段代码中发现了一个bug，而实际上并没有bug？print('The current folder is ' + folderName) print('SUBFOLDER OF ' + folderName + ': ' + subfolder) print(

浏览 19提问于2016-09-12得票数 0

回答已采纳

2回答

Python2.7:在Windows 7中使用pypdfocr有困难

python、ocr、pypdf

C:\Users\chamar.stu>pypdfocr F:\test2.pdf开始转换F:\test2.pdf 'pdfimages‘不被识别为内部或外部命令、可操作的程序或批处理文件。警告:无法执行pdfimages来计算DPI (尝试安装xpdf或po ppler?)ValueError: int()的无效文字，基数为10：'00alpha‘ 我似乎错过了Poppler或XPDF，但我确实按照的建议通过安装了Poppler。

浏览 2提问于2017-03-17得票数 2

2回答

Jasper报告PDF不接受中文字符

java、jasper-reports、pdf-generation

我无法使用jasper报告将中文字符嵌入到pdf中。我得到的是英文字符，而不是中文文本。如果有人能为我提供这个问题的快速修复，我将不胜感激。

浏览 2提问于2015-06-01得票数 3

1回答

如何在将文档从PDF转换为文本时处理unicode字符编码问题

pdf、unicode、character-encoding、text-processing、pdf-conversion

我正在尝试从PDF中提取文本。PDF包含印地语(Unicode)文本。我使用的提取实用程序是Apache PDFBox ( )。提取器提取文本，但文本无法识别。我尝试了在多种编码和字体之间切换，但仍然无法识别预期的文本。下面是一个例子:假设PDF中的文本是:पवार有什么建议吗？

浏览 3提问于2011-09-20得票数 4

回答已采纳

1回答

Android:如何测试显示在WebView中的pdf

appium、appium-android、appium-java

在安卓系统中，我想测试包含条款和条件的PDF文件，但是这个文件显示在WebView中。我可以切换到WebView，我使用下面的代码。

浏览 4提问于2022-11-09得票数 -1

1回答

FPDF:没有正确输出俄文文本

php、pdf、fpdf

在本表中，俄罗斯数据用无法识别的字符表示，如下所示：在我的pdf中，不是输出相应的Cyrllic，而是输出这些无法识别的字符。->AddPage();$pdf->SetAuthor('John Miller'); $pdf

浏览 1提问于2016-01-23得票数 0

点击加载更多

Acrobat XI Pro喜欢pdf阅读器

使用Java和Itext编辑PDF文本

查找没有文本的PDF

如何使用Firebase ML工具包识别PDF文件中的文本？

可将OCR文本插入回源PDF的OCR库

直接编辑PDF然后删除编辑仍然会导致pdf损坏。

除PDF以外的所有文件链接的JS RegEx

柬埔寨字母表上的交货单

使用java从pdf中识别和提取表格

如何在PDF中压缩图像？

用PDF>JPG进行pdf2jpg转换

巨蟒中的Camelot不像预期的那样运行。

OCR可以识别PDF文件吗？

关于拆分PDF和OCR识别

os.walk是否适用于非转义反斜杠？

Python2.7:在Windows 7中使用pypdfocr有困难

Jasper报告PDF不接受中文字符

如何在将文档从PDF转换为文本时处理unicode字符编码问题

Android:如何测试显示在WebView中的pdf

FPDF:没有正确输出俄文文本

相关资讯

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐