pdf文字提取软件 - 腾讯云开发者社区

、

我有一个pdf，这是由Ghostscript 8.15。我需要处理这个pdf从我的软件提取字体名称从pdf文件，然后执行一些操作。但是，当我从这个pdf文件中提取字体名称时，这些名字并不像应该的那样。实际上有一个名为的软件，它在印度和巴基斯坦最有名，可以用乌尔都语编写文档，因为在文字处理器支持unicode之前，这是在计算机中输入乌尔都语的唯一解决方案。现在从这个软件生成的pdf文件中复制并粘贴文本

浏览 4提问于2017-06-10得票数 1

回答已采纳

1回答

免费Windows OCR软件

、、

我有一些PDF，其中包含扫描打印-作为图像。有些是有插图或没有插图的书，有些是带有混合文字和图形的漫画(所有这些都没有版权)。是否有一些免费的Windows OCR软件，可以提取文本，最好保留字体大小，以便我能够区分章节等等？

浏览 0提问于2020-05-19得票数 0

回答已采纳

1回答

用pdfminer检测pdf的区段

、、、、

我基本上希望有一个结构更干净一点，比目前的pdf:没有行之前，一个句子的结尾和突出部分的文件。我目前正在处理的问题是尝试自动检测区段。我基本上让pdf矿工做它的工作，然后使用NTLK寻找句子。If you work with pdfLATEX, use files in the.pdf format.The file acmart. sample-

浏览 4提问于2018-11-09得票数 4

回答已采纳

1回答

pdf.js获取有关嵌入式字体的信息

、

我正在使用pdf.js。

浏览 2提问于2016-11-17得票数 2

回答已采纳

1回答

如何使用System.Drawing.Image将PDF页面绘制成iTextSharp？

、、、

我有一个PDF文档的存储库，我需要将其复制到图像中(每页一张图像)并对它们进行处理。这些PDF有文字，光栅图像和矢量图像，并可能，更多的东西在其中。我不是很熟悉PDF的结构，我宁愿使用iTextSharp之前，必须购买一些PDF软件包。我已经完成了使用iTextSharp在C#上从每个PDF文档中提取文本和光栅图像的工作，但是尝试将它们呈现成图像会产生混合的结果，如果有矢量图形，我就无法轻松地提取和呈现它们。对于我对PDF</

浏览 3提问于2014-07-29得票数 0

回答已采纳

1回答

一个简单的文档创建软件，带有PDF的导出选项..？

、

我检查过Word和其他PDF创建软件，如PDF元素、Foxit、Adobe。等等。但它们很难使用，而且臃肿。我想要一些简单易用的东西，比如妙语软件，或者Google，我需要这张图片中的特性，并且像俏皮话一样流畅。功能需要-文字颜色，高颜色，和子弹格式。

浏览 0提问于2020-04-25得票数 -1

5回答

从PDF* (google应用程序引擎)中提取文本*

、、

有没有免费的Java库可以从PDF中提取文本，与Google应用程序引擎兼容？有没有其他方法可以从PDF中提取文本？我试过，不幸的是他们不能正确处理非英文字符。

浏览 6提问于2010-03-28得票数 2

回答已采纳

1回答

PyPDF2无法读取非英语字符，在extractText()上返回空字符串

、、、、

我正在编写一个脚本，该脚本将从一个大型PDF文件(40-60多页)中提取中的数据，不是英文，但该文件包含希腊语字符，在我运行PyPDF2的extractText()函数获取页面内容之前，这一切看起来都很好

浏览 2提问于2020-02-24得票数 3

回答已采纳

1回答

PdfBox从pdf中提取具有相同字体的文本

、、、

我需要从pdf中提取一段文字。本文具有与特征相同的字体族。有什么想法吗？干杯编辑：，让我用另一种方式问这个问题:我如何才能从pdf页面中提取出“粗体”文本？

浏览 1提问于2013-09-18得票数 1

1回答

使用pyPDF读取时不能从PDF中获取正确格式的文本

、

我试图使用Python中的pyPDF包读取下面链接上的PDF文档。我使用了以下代码来读取PDF： import os from pyPdfPdfFileReader filename = os.path.abspath('F:/KG/per/Entr/equity research Text mining tool/HDFC_report.pdf</e

浏览 3提问于2015-08-03得票数 0

回答已采纳

1回答

有没有软件可以在PDF中找到相似的图像？

、、

我有一个截图的复杂数学方程(数字化)，我找不到包含它的pdf文件，只需在pdf查看器的查找框中键入方程(因为这是一个复杂的数学方程，必须写的Latex，不能写在搜索框)。有没有软件，我给PDF文件包含数学方程和截图的方程式，该软件将自动检测哪个页面上的相同外观的图像是定位的？请注意，它不是关于数字化的图像仅由OCR的pdf。有人能帮我找到这样的工具吗？

浏览 0提问于2023-02-25得票数 1

1回答

用俄文和tabula-py返回来解析PDF？结果是。(在窗户上)

、

当我解析俄语文本PDF时，我收到了结果文件？而不是俄国人。开发人员使用此修补程序解决此问题。 chcp 65001 import tabula tabula.convert_into(r"C:\Code\Active\kartoteka\misc\ExampleExtract.pdf",

浏览 0提问于2018-08-10得票数 1

2回答

pdf2json npm包没有提取段落中的数据，有没有其他的npm？

、、

我尝试用pdf2json npm软件包从pdf中提取数据，但它没有提取段落中的数据。我有一个pdf文件，其中包含表格，副词和图表在它，我想提取原始数据作为一个文本文件。是否有其他选项可以使用节点js从段落中的pdf中提取数据。

浏览 2提问于2022-09-19得票数 0

1回答

Python读取pdf文件

、

如何使用jupyter实验室从pdf文件中读取和提取表格？一个典型的pdf文件与文本之间的文字字幕和表格。我需要编码来提取特定标题下的表格，并清理一些不需要的文本，比如页码。

浏览 3提问于2022-09-19得票数 -1

2回答

从PDF中提取文本: PDFLib和PDF对pdf2xml

、、、

我正在寻找一个库(如果可能的话，在Java或PHP中可用)，以便从PDF中提取文本。有许多可用的软件，包括：你会选择哪种工具？你觉得他们怎么样？非常感谢您的帮助！

浏览 4提问于2010-09-21得票数 3

回答已采纳

1回答

使用Python从Latex导出的PDF的各个部分提取文本

、、、

我有科学研究论文的PDF，这是用乳胶写的。每篇研究论文都有“引言”、“相关工作”等部分，我想分别提取每个部分下的文本。这个PDF在第一页有“摘要”和“简介”两个部分。如果我有Latex源文件，我可以做一些数据挖掘，并根据\section{}关键字提取文本因此，我在Python3中尝试了一些方法，比如将pdf转换为latex ，但建议的软件要么与我的系统(Ubuntu16.04)不兼容，要么是付费软件。我尝试使用textract，但它没有从PDF</

浏览 4提问于2017-09-28得票数 0

1回答

用于搜索多个大文本文件或PDF内容的GUI？

、、、、

我有几十个PDF，每个都很大。具体地说：这些PDF主要是文本文档的扫描图像，但它们确实包含文本数据(因此不需要OCR)。我可以用pdftotext提取文本，以便单独查看。事实上，我目前正在这样做。允许您搜索多个PDF或文本文件的内容(这两者都不一定)，以查找特定的字符串。不会被数十万页的文字所窒息。没有必要修改这些文件，只是为了搜索它们。

浏览 0提问于2019-03-16得票数 2

1回答

如何从PDF文件中正确提取日文txt

、

我需要从pdf文件中提取文本。谁能给我一个如何处理的提示？

浏览 5提问于2022-02-22得票数 1

回答已采纳

1回答

如何使用pdflib逐句获取文本？

是一个很好的分析PDF的软件。当我使用它从PDF中提取文本时。如何逐句提取文本？现在我只能按单词、行、页进行提取。例如，在PDF中提供以下内容：Sentence by sentence. Is there anybody can help?，line模式每次返回一行(即我想从pdf中提取文本；句子在那里；任何男孩都可以帮助？)。页面模式返回整个段落。

浏览 3提问于2016-05-22得票数 0

3回答

给定一个PDF，如何从命令行提取图像及其在页面上的位置？*

、、

我有一个PDF，其中包括文字和图像。我想使用linux命令行从PDF中提取图像。我可以使用pdfimages提取图像，但我也希望在每个页面上找到该图像所在的位置。

浏览 4提问于2011-01-03得票数 16

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何从Ghostscript生成的PDF中获得原始字体名称？

免费Windows OCR软件

用pdfminer检测pdf的区段

pdf.js获取有关嵌入式字体的信息

如何使用System.Drawing.Image将PDF页面绘制成iTextSharp？

一个简单的文档创建软件，带有PDF的导出选项..？

从PDF* (google应用程序引擎)中提取文本*

PyPDF2无法读取非英语字符，在extractText()上返回空字符串

PdfBox从pdf中提取具有相同字体的文本

使用pyPDF读取时不能从PDF中获取正确格式的文本

有没有软件可以在PDF中找到相似的图像？

用俄文和tabula-py返回来解析PDF？结果是。(在窗户上)

pdf2json npm包没有提取段落中的数据，有没有其他的npm？

Python读取pdf文件

从PDF中提取文本: PDFLib和PDF对pdf2xml

使用Python从Latex导出的PDF的各个部分提取文本

用于搜索多个大文本文件或PDF内容的GUI？

如何从PDF文件中正确提取日文txt

如何使用pdflib逐句获取文本？

给定一个PDF，如何从命令行提取图像及其在页面上的位置？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐