使用PDFBOX读取pdf的文本时偶尔会返回\r\n

文章/答案/技术大牛

发布

1回答

java、pdfbox

我目前正在使用PDFBox来读取我继承的一组pdf的文本。 String documentText = sw.toString() 对于大多数文件，我在documentText字段中处理文本但是，对于24个文件中的3个，第一个文件的documentText内容是“\

浏览 21提问于2017-02-24得票数 0

2回答

用变量从生成的PDF文档中提取文本

java、pdf、pdfbox、apache-tika

我正在从PDF文档中提取文本。此PDF是使用WS从AS400读取数据生成的。因此，在打印文本时，输出如下：is 123、is 124是is 400中的变量。Java APi无法从变量及其打印变量名中读取值，而不

浏览 6提问于2017-11-13得票数 0

1回答

将TrueType编码的标识-H字符串在pdf中替换为PDFBox

java、pdfbox

我的任务是替换pdf中的字符串。不幸的是，该字符串是使用标识-H编码的TrueType CID字体。:COSDictionary{(COSName{Length}:COSInt{647})(COSName{Filter}:COSName{FlateDecode}) }) })COSStrin

浏览 1提问于2016-04-25得票数 2

1回答

我有一个关于pdfbox 1.8.13的问题。我正在试着从一个单页PDF文档中读取整个文本。Adobe Reader可以做到这一点，pdfbox可以读取几乎整个页面，但会将文档的前两行和最后两行打乱，以便字母互换。有没有人知道如何解决这样的问题？第一，问在哪里，第二，我如何与您共享PDF，第三，是否有人有可能检查是否问题也存在于版本2.0.7的pdfbox，我理解奇怪是完全不同<

浏览 3提问于2017-08-08得票数 1

回答已采纳

2回答

Java -从PDF文件中提取非重复单词

java、pdfbox、full-text-indexing

我用Java编写了一个简单的程序，使用PDFBox从PDF文件中提取单词。它从PDF中读取文本并逐字摘录。String[] args) throws Exception { Stri

浏览 0提问于2018-10-09得票数 0

回答已采纳

1回答

如何使用PDDocument.loadNonSeq，大型pdf剥离器/解析文本技术

java、pdf、pdfbox、pdftotext

我有一些关于解析pdf的问题以及如何：我有一个大的pdf，我需要解析它并获得文本内容。我使用PDDocument.load()和PDFTextStripper逐页提取数据(pdfstripper有setStartPage(n)和setEndPage(n)，n=n+1每一个页面循环)。是否<

浏览 5提问于2015-10-09得票数 1

回答已采纳

2回答

如何将pdf页面中文本的坐标从左下角更改为左上角

c#、pdf、itext、coordinates、pdfbox

我正在使用PDFBOX和itextsharp并处理一个pdf。这样我就可以得到矩形内文本的文本坐标。使用itextsharp.dll提取矩形坐标。基本上，我从itextsharp.dll获得矩形坐标，其中itextsharp使用坐标系统作为左下角。我从PDFBOX得到pdf页面文本，其中PDFBOX使用坐标系统作为左上角。并使用PDFBO

浏览 6提问于2014-12-31得票数 1

回答已采纳

1回答

同样地，在Apache创建中的字符空间

java、apache、pdf、pdfbox、text-formatting

我正在尝试使用Apache PDFBox创建PDF文件，其内容是每行80个字符的纯文本消息。当我试图创建PDF时，我注意到空格、_和其他字符占用了行的不同宽度，并且不能像在文本编辑器中那样格式化它们。import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDDocumentInformation;i

浏览 4提问于2016-12-08得票数 0

回答已采纳

3回答

PDF到文本问题- Python阿拉伯字符在某些位置被翻转

python、pdf、fonts、pdfbox、apache-tika

我有pdf文件，是使用Almohanad字体(发现)。我使用Python的Tika来提取这些pdfs中的文本。提取效果很好。然而，对于一些字符来说，结果会变得一团糟。是上面提到的pdf文件中的一个示例。import requestsfrom tika import parser from_path = ".实际上是可读的</em

浏览 3提问于2021-03-17得票数 1

5回答

如何使用Apache PDFBox从PDF文件中提取文本

java、pdfbox

我想用Apache PDFBox从给定的PDF文件中提取文本。main" java.lang.NullPointerException我将pdfbox编辑我在程序的开头添加了System.out.println("program starts");。我运行了它，然后我得到了上面提到的相同的错误，并且

浏览 121提问于2014-05-23得票数 31

回答已采纳

1回答

在java中通过pdfbox读取pdf

java、pdf、pdfbox

我在使用pdfbox阅读pdf时遇到了一个问题。我的实际pdf部分不可读，所以当我在编辑器中复制和粘贴不可读部分时，它会显示小方框符号，但当我试图通过pdfbox读取同一个文件时，这些字符就不会被读取(而且我也不希望它们被读取)。有一个pdfbox示例，其中我们在pdfTextStripper类下重写了pdfTextStripper方法，以获得一些额外的字体属性。

浏览 1提问于2016-06-16得票数 1

回答已采纳

2回答

在可见签名- pdfbox上写入unicode文本

pdf、pdfbox、adobe-reader

我们用PDFBox构建PDF。我也有明显的签名。s而不是文本。问题1)当我看到PDF结构时，有问题-标记而不是文本.是。我不知道怎么用unicode字符写？Tjendstream我有编码WinAsciEncoding的字体。我可以在pdfbox中使用另一种编码吗？.中嵌入了字体，但是文本是用这种字体编写的，而不是(在可见

浏览 1提问于2013-07-17得票数 1

2回答

Apache PDFBox删除字符之间的空格。

pdfbox、text-extraction、pdf-parsing

我们使用PDFBox从PDF中提取文本。在文本提取之后，我们得到以下文本：(空格加在'，‘和’8‘之间) 这是我们的代码：PDDocument pdf = PDDocument.load(reu

浏览 2提问于2015-04-10得票数 6

回答已采纳

1回答

当我尝试读取PDF时，PDFBox读取空字符串

c#、.net、parsing、pdf、pdfbox

我正在尝试使用pdf box从文件中读取文本，以便在文件系统中对其进行排序。我正在使用C#。我可以从互联网上读取示例pdf，但出于某种原因，我试图读取的pdf只返回一个没有实际字符的字符串。下面是我使用的代码：using org.apache.pdfbo

浏览 5提问于2018-08-09得票数 0

1回答

PDFBox getText未返回所有可见文本

pdf、pdfbox、text-extraction

我使用PDFBox从我的PDF文档中提取文本。它检索文本，但不是全部(具体而言，似乎缺少标题/页眉和页脚文本)。缺少的部分不是图像，而是在使用foxit阅读器中的文本视图时提取出来的。我使用的是1.8.12版本，并用2.0.2做了一个测试用例，看看它是否会返回更多的

浏览 6提问于2016-08-16得票数 0

回答已采纳

1回答

PDFBox 1.8.10:填充和签名PDF生成无效签名

java、pdf、pdfbox、sign、pdf-form

我在PDF文档中(以编程方式)填写一份表单(AcroPdf)，然后在文档上签名。我从doc.pdf开始，创建doc_filled.pdf，使用PDFBox的setFields.java示例。然后，我根据签名示例，使用一些代码签署doc_filled.pdf，创建doc?filled_signed.pdf，并在Acrobat中打开pdf。输入的字段数据是可见的，签名面板告诉我 “此签

浏览 5提问于2015-10-01得票数 6

回答已采纳

2回答

PdfBox PDF到图像转换linux (字符间距问题)

java、linux、image、pdf、pdfbox

我正在使用PdfBox-1.6.0.jar来执行从PDF到图像(.png)的转换。我注意到，当代码在Linux上执行时，与在Windows上执行的适当字符间距(与pdf相比)相比，有明显的字符间距差异(增加)。字体为Helvetica。寻找为什么存在行为差异的线索。任何帮助都是非常感谢的。

浏览 1提问于2012-01-28得票数 2

2回答

上传到IIS应用程序时PDF到文本转换？

.net、asp.net、pdf、text

我研究过几个C#动态链接库，但没有发现任何特别有效的方法。我的要求是： PDFBox是用Java编写的，因此我需

浏览 1提问于2009-04-30得票数 0

回答已采纳

1回答

无需互操作即可获取PDF* +中的所有单词及其位置*

c#、parsing、pdf、mono

我需要用C#代码解析一个PDF，并得到它的每一个字加上该字在文档中的位置。我不能使用互操作，因为这将在Mono上运行。非常感谢您的建议！

浏览 0提问于2011-02-22得票数 2

回答已采纳

2回答

字符串中的java十六进制数据

java、string、hex

我在JAVA中使用PDFBOX读取了一个PDF文件，并将数据转换为文本并保存为字符串。我发现很多文本数据被X‘C2A0包围。我使用PDFBOX如下： { this.pdDoc= null; parser

浏览 0提问于2016-11-27得票数 0

回答已采纳

点击加载更多