识别pdf文件里文字 - 腾讯云开发者社区

、

是否有库(或可执行文件)可以OCR PDF (通常是通过扫描纸张创建的PDF )，并将识别出的文本重新注入到PDF中？很可能是扫描图像背后的隐形文字。最好是开源的。(目标:我有一个巨大的由Lucene索引的PDF文件库。如果PDF包含文本，Lucene将更容易找到哪些PDF是相关的。)

浏览 3提问于2011-02-28得票数 2

1回答

查找没有文本的PDF

、、

我有很多文件夹与很多PDF，我想要光学字符识别那些没有文字层。所以首先，我想找到他们。我以为也许用pdfgrep的烟斗就能做好这份工作，但我迷路了。如何找到没有文本的PDF？

浏览 0提问于2021-01-15得票数 5

回答已采纳

1回答

如何使用Firebase ML工具包识别PDF文件中的文本？

、、

我正在开发一个Android应用程序来检测PDF文件中的文本。看起来Firebase ML工具包不支持PDF文件，对吗？使用Firebase ML工具包是否不可能识别PDF文件中的文本？

浏览 1提问于2019-03-07得票数 0

2回答

除PDF以外的所有文件链接的JS RegEx

、

我正在尝试匹配HTML文档中包含特定文件夹链接的所有href属性，而不是PDF。我很难让它匹配，我有一个可以得到所有PDF的：但我排除PDF的尝试并没有让我走得太远。有没有办法做我想要的，或者我只是匹配所有的文件而不是使用条件语句来检查它是否是PDF

浏览 1提问于2013-06-04得票数 0

1回答

在Intellij中，文件图标中的问号意味着什么？

、

 我在官方文件里什么都没找到。我问这个问题是因为这两个文件都有.pdf扩展，也许IDE无法识别它们

浏览 6提问于2017-11-24得票数 5

回答已采纳

2回答

Acrobat XI Pro喜欢pdf阅读器

、、

我如何安装一个PDF阅读器，像“杂技XI专业”，让我突出文本，有文字识别，让我组合和转换PDF格式和其他格式？

浏览 0提问于2015-02-02得票数 0

1回答

OCR能否识别视频里的文字？

浏览 199提问于2022-06-15

1回答

在android中创建PDF时从右到左

、、、

我试图生成包含希伯来文字的PDF文件。在档案里。有人能帮我解决这个问题吗？

浏览 2提问于2013-09-16得票数 0

回答已采纳

1回答

odoo、PDF无法打印中文？

、

浏览 570提问于2021-08-23

1回答

OCR可以识别PDF文件吗？

浏览 187提问于2022-06-15

1回答

哪种中文字体是中国人民的PDF阅读器普遍支持的？

、

我正在生成PDF文件，其中包含英文和中文字符(使用Ruby对虾库)。我不想在生成的PDF文件中嵌入中文字体文件，因为这些文件需要保持较小。所以，我想知道我是否可以在PDF文件中提到一个中文字体名，让PDF阅读器正确地呈现汉字，因为PDF阅读器已经有了中文字体文件。这有道理吗？如果是这样的话，在大多数中国人使用的PDF<

浏览 2提问于2015-05-06得票数 2

回答已采纳

1回答

关于拆分PDF和OCR识别

、、、

我有很多pdf文档，它们都是扫描过的文字版本。我需要在pdf中拆分一个页面。例如，如果有1个页面。我需要将一页分成页眉部分，页脚部分，主体部分和侧面部分。我知道Python的PDF和OCR库，但我找不到任何关于拆分单个页面的内容。然后，最后希望将pdf页面的拆分部分传递给OCR，以识别字符并将输出转换为csv或文本文件。提前感谢您……

浏览 18提问于2021-04-20得票数 0

回答已采纳

1回答

使用Java和Itext编辑PDF文本

、

有办法编辑PDF文档文本吗？比如找到和替换特定的文本？我能够编辑特定坐标(x，y)的pdf，但无法识别和替换。我看到的所有库都是从零开始创建的PDF和小的编辑功能。不管怎样，我可以用itext编辑上面的解释吗？请advise...thank你！ **例子:一份pdf文件载有以下的副翼。是最古老的古希腊和拉丁文，在单词或其他文字之间几乎没有空格，可以用bo

浏览 5提问于2014-07-10得票数 2

2回答

pdf下划线

我想知道是否有办法在pdf文档中下划线。这段时间我有考试，如果我能在笔记下划线的话会很有帮助，因为这些笔记被扫描成照片。非常感谢！！

浏览 0提问于2016-01-15得票数 1

1回答

在PDF中找到文本不总是相同的文本

、、

我的PDF中有这样的文字：文本“全名”将始终在PDF中，但我不知道“全名”的值是什么，我需要找到它。是否有一种方法可以在PDF中搜索特定的文本并获取字段的值，而不只是查找字段名？我需要得到“鲍勃·史密斯”或者那个领域里的任何东西。名称"Bob Smith“将在每个PDF文件中位于相同的位置，在”全名“字段之后的空格数相同，我只是不知道如何捕获"Bob Smith”。

浏览 6提问于2014-05-21得票数 0

回答已采纳

2回答

CakePdf不读CSS

、

我的/View/Layouts/pdf/default.ctp与我的/View/Layouts/default.ctp相同，在其他页面上可以很好地工作。为什么这在pdf中没有被识别呢？是因为它在另一个目录里吗？如果是这样的话，它不会产生任何错误。它下载的pdf，因为它应该，但文件没有风格。怎么一回事？还有什么我需要改变的吗？

浏览 2提问于2014-11-29得票数 1

2回答

如何在用iTextSharp创建的pdf文件中显示汉字

、

我有字符串数据，其中包含一些英文字符和一些中文字符。我使用iTextSharp用这些数据创建了一个pdf文件。pdf文件创建后，当我打开它时，pdf只包含英文字符。它不显示汉字。你能告诉我如何在pdf文件中显示汉字吗？请注意，我写入pdf的字符串数据包含动态语言字符，即有时是英语，有时是中文，有时是日语等等。

浏览 2提问于2013-02-21得票数 3

回答已采纳

2回答

如何利用libharu库将泰文绘制成PDF文件

我正在使用免费的pdf库libharu生成PDF文件，但是我有一个编码问题，我不能在PDF文件上绘制泰语文字，所有的文字都显示“？..” 有人知道怎么修吗？谢谢

浏览 17提问于2010-07-31得票数 1

1回答

使用iTextSharp从PDF中提取盲文文本(图像)

、、、、

我正在尝试解码以盲文字体编写的PDF文件中的文本，并输出正常的文本。但是PDFTextExtractor (在iTextSharp中)不能处理这种字体。有没有可能用其他方式？我想知道如何从pdf文件中解码。我试着用，string text = PdfTextExtractor.GetTextFromPage(例如Arial)和盲文字</

浏览 3提问于2011-08-07得票数 1

回答已采纳

2回答

用python打开不带文本的pdf

、

我希望为Django视图打开一个PDF，但是我的PDF没有文本，python返回给我一个空白PDF。在每一页上，这是对一个页面的扫描： with open(path) as pdf: response = HttpResponse(pdf.read(),content_type='application/pdf</

浏览 1提问于2018-09-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

可将OCR文本插入回源PDF的OCR库

查找没有文本的PDF

如何使用Firebase ML工具包识别PDF文件中的文本？

除PDF以外的所有文件链接的JS RegEx

在Intellij中，文件图标中的问号意味着什么？

Acrobat XI Pro喜欢pdf阅读器

OCR能否识别视频里的文字？

在android中创建PDF时从右到左

odoo、PDF无法打印中文？

OCR可以识别PDF文件吗？

哪种中文字体是中国人民的PDF阅读器普遍支持的？

关于拆分PDF和OCR识别

使用Java和Itext编辑PDF文本

pdf下划线

在PDF中找到文本不总是相同的文本

CakePdf不读CSS

如何在用iTextSharp创建的pdf文件中显示汉字

如何利用libharu库将泰文绘制成PDF文件

使用iTextSharp从PDF中提取盲文文本(图像)

用python打开不带文本的pdf

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐