如何使用Java Apache PDFBox查找PDF中的所有内部链接

Java Apache PDFBox是一个开源的Java库，用于处理PDF文件。它提供了丰富的功能，包括创建、编辑、提取和操作PDF文档。

要使用Java Apache PDFBox查找PDF中的所有内部链接，可以按照以下步骤进行：

导入PDFBox库：首先，需要将PDFBox库添加到Java项目中。可以通过在项目的构建路径中添加PDFBox的JAR文件或使用构建工具（如Maven或Gradle）来导入依赖。
加载PDF文件：使用PDFBox库的PDDocument类加载PDF文件。可以使用PDDocument的静态方法load()来加载本地文件，或使用load(InputStream)方法从输入流加载文件。

PDDocument document = PDDocument.load(new File("path/to/pdf"));

遍历页面：通过PDDocument的getPages()方法获取PDF的所有页面，并使用迭代器遍历每个页面。

for (PDPage page : document.getPages()) {
    // 处理每个页面
}

提取链接：对于每个页面，可以使用PDPage的getAnnotations()方法获取页面上的所有注释（包括链接）。然后，可以通过检查注释的类型来确定是否为链接注释。

for (PDAnnotation annotation : page.getAnnotations()) {
    if (annotation instanceof PDAnnotationLink) {
        // 处理链接注释
    }
}

获取链接信息：链接注释包含了链接的目标URL或页面索引。可以使用PDAnnotationLink的getAction()方法获取链接的操作，并根据操作类型提取链接的信息。

PDAction action = ((PDAnnotationLink) annotation).getAction();
if (action instanceof PDActionURI) {
    // 处理URL链接
    String url = ((PDActionURI) action).getURI();
} else if (action instanceof PDActionGoTo) {
    // 处理页面链接
    PDPageDestination destination = ((PDActionGoTo) action).getDestination();
    int pageIndex = document.getPages().indexOf(destination.getPage());
}

关闭文档：处理完所有页面后，需要关闭PDDocument以释放资源。

document.close();

Java Apache PDFBox提供了丰富的功能和API，可以根据具体需求进行更复杂的操作，如提取文本、插入内容等。

腾讯云相关产品和产品介绍链接地址：

腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云云服务器（CVM）：https://cloud.tencent.com/product/cvm
腾讯云人工智能（AI）：https://cloud.tencent.com/product/ai
腾讯云区块链（BCS）：https://cloud.tencent.com/product/bcs
腾讯云音视频处理（VOD）：https://cloud.tencent.com/product/vod
腾讯云物联网（IoT）：https://cloud.tencent.com/product/iot
腾讯云移动开发（MPS）：https://cloud.tencent.com/product/mps

如何访问命令行上的Java依赖项？

、、

我有一个比较老的小型Java应用程序，它可以选择使用Apache库读取和导出PDFBox文件(下面是"pdfbox-app.jar")。所有文件，包括此资源，都存储在一个平面文件夹中。当从JAR文件调用它时，它工作得很好： D:\Prog\!GitHub\Arena>java -jar Athena.jar NPCGenerator -p OED NPC Generator ----------------- Writing Gwenllian-ElfFtr1Wiz1.pdf 当从我的IDE (jGrasp)运行时，它也同样工作得很好。但是，当从命令行调用它的JAR之

浏览 9提问于2022-07-21得票数 0

回答已采纳

1回答

"IOException: COSStream已关闭，无法读取“在添加PdfBox页面后试图保存

、、

我很难让这段代码正常工作。目标是将pdf与PDDocument对象中加载的pdf合并。我不想使用mergeUtility of PdfBox，因为它意味着关闭PDDocument对象。我有很多数据要处理，我使用一个循环来处理它。加载和关闭PDDocument将花费太多的时间和资源(也许我错了，但它的感觉是这样的)。这是我的方法： for (String path:pathList) { /* ... */ if(path.endsWith("pdf")){ File pdfToMerge = new File(path); tr

浏览 2提问于2019-07-30得票数 2

回答已采纳

1回答

PDFBox列出页面的所有命名目的地

、、、

对于我的Java项目，我需要列出PDF页面的所有命名目的地。 PDF及其命名的目的地是用LaTeX (使用)创建的，例如： \documentclass[12pt]{article} \usepackage{hyperref} \begin{document} \hypertarget{myImportantString}{} % the anchor/named destination to be extracted "myImportantString" Empty example page \end{document} 如何使用PDFBox库版本2.0.11

浏览 0提问于2018-09-05得票数 1

回答已采纳

1回答

阿拉伯PDF的Solr

、、、、

我试图在Apache中搜索阿拉伯PDF。问题似乎是Tika用相反的顺序索引PDF (从左到右)，而不是(从右到左)。我在这里找到了有关这个问题的参考资料：但是，我不知道如何在apache中包含最新版本的PDFBOX或ICU4J。我的Apache Solr Contrib/extraction/lib文件夹包含pdfbox-1.6.0.jar和icu4j-4.8.1.1.jar。从他们的项目页面中删除上述文件并用最新的库替换它们是否令人满意，从而迫使TIKA使用它们？请解释，因为我以前没有使用Java的经验。谢谢!

浏览 5提问于2012-11-27得票数 6

2回答

Apache PDFBox -无法解密PDF

、

我在用Apache PdfBox (v1.8.2) lib解密PDF文档时遇到了问题。加密工作，但使用相同密码的解密会引发异常。(Java 1.6) package com.test; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.encryption.AccessPermission; import org.apache.pdfbox.pdmodel.encryption.StandardDecryptionMaterial; import org.apache.pdfbox.pd

浏览 3提问于2014-10-10得票数 0

回答已采纳

1回答

Java -从PDF中提取数据的问题(PDFBox - 2.02)

、、

我试图从一个PDF文件中提取数据，该文件包含在不同的表中的数据&转换为excel。基于这个，由于我的需求大致相同，我使用PDFBOX进行提取。要测试是否可以首先从pdf中的不同表中提取数据，请尝试使用下面指定的代码。但是它不提取&给出一个错误，说明损坏的对象引用，不知道它意味着什么。为了查看pdf本身是否有任何问题，我与检查&它成功地将pdf文件转换为excel，所以我相信pdf文件没有问题。希望我所面临的问题是清楚的&等待关于从pdf中提取数据需要做些什么的投入。错误消息： 2016-07-21 13:49:11 WARN BaseParser:68

浏览 2提问于2016-07-21得票数 2

1回答

pdfbox 3.0装载机问题

、

我使用pdfbox3.0加载PDF，如下所示(Eclipse，java.runtime.version=17.0.4.1+1)： File pdfFile = new File("C:\\Users\SchroeT\\myPDF.pdf"); System.out.println("\n\nFile: " + pdfFile); PDDocument doc = Loader.loadPDF(pdfFile); 我将以下jar文件添加到Eclipse中的“库”下的Modulepath中:fontbox-3.0.0- added 3.jar pdfbox-3.0.

浏览 14提问于2022-09-07得票数 1

2回答

用PDFBox 2.0.0签名加密的PDF文档

、、、、

我试图签署一个加密的PDF文档，允许签名。本文档：使用PDFBox 2.0.0示例代码：但我有个例外： Exception in thread "main" java.lang.NullPointerException at org.apache.pdfbox.pdmodel.encryption.StandardSecurityHandler.computeRevisionNumber(StandardSecurityHandler.java:131) at org.apache.pdfbox.pdmodel.encryption.StandardSec

浏览 4提问于2015-03-24得票数 2

回答已采纳

3回答

如何修改类文件？

我当时正在处理eclipse中的项目，在这个项目中我为PDFBOX添加了这个maven依赖项。 Maven dependency <dependency> <groupId>org.apache.pdfbox</groupId> <artifactId>pdfbox</artifactId> <version>1.6.0</version> </dependency> 我在一些pdf文件上得到了如下错误： Parsing Error, Skipp

浏览 0提问于2011-09-21得票数 0

回答已采纳

1回答

适当的Java堆大小

、

在尝试合并多个PDF文档时，我遇到以下错误... PDFMerger failed with the following exception: org.apache.pdfbox.exceptions.WrappedIOException at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:278) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1220) at org.apache.pdfbox.pdmodel.P

浏览 2提问于2015-07-23得票数 0

1回答

使用java中的Apache从pdf文件中提取文本

、、

try { File file = new File("Example.pdf"); String content = new Tika().parseToString(file); System.out.println("The Content: " + content); } catch (Exception e) { e.printStackTrace(); } 我已经导入了java.io.File和导入了org.apache.tika.Tika；但是在运行这段代码时，我得到了如下错误：

浏览 3提问于2017-07-31得票数 4

回答已采纳

1回答

Onerror指令不能与Solr数据导入处理程序一起使用/ PDFBox

、、

我们正在尝试根据MySQL表为大约10,000个PDF建立索引。我们使用的是Solr 5.2.1、Tika 1.7和PDFBox 1.8.8。数据导入处理程序不断给出各种错误，这导致整个过程停止。大多数错误都与无法读取的内容或找不到PDF文件有关。我理解这一点，并希望该过程继续或跳过问题文件。但是，无论我如何设置onerror指令，它似乎都不起作用。我们已经使用相同的方法对较小的PDF集进行了索引，没有问题。但是这个更大的商店上的连续错误正在阻止我们的脚步！如果有任何建议，我将不胜感激。以下是来自data-config.xml的实体： <entity name="proceed

浏览 6提问于2018-08-22得票数 1

4回答

尝试使用.NoClassDefFoundError时的pdfBox

、、

在运行时，当我尝试使用一个PDFBox示例提取图像时，它给出了以下例外： Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/commons/logging/LogFactory at org.apache.pdfbox.pdfparser.BaseParser.<clinit>(BaseParser.java:68) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1218)

浏览 4提问于2015-01-27得票数 5

回答已采纳

7回答

将PDF文件转换为图像

、、、、

我想把PDF文档转换成图像。我在用Ghost4j。问题： Ghost4J在运行时需要gsdll32.dll文件，而不想使用dll文件。问题1:有没有办法，在ghost4j中没有dll的情况下转换图像？问题2:我在PDFBox API中找到了解决方案。org.apache.pdfbox.pdmodel.PDPagep have methodconvertToImage()`，它将PDF页面转换为图像格式。 PDDocument doc = PDDocument.load(new File("/document.pdf")); List<PDPage>pages

浏览 4提问于2013-08-12得票数 23

回答已采纳

2回答

PDFbox找不到字体: /Helv

、

我试图将表单字段添加到现有的PDF文件中，但下面的错误显示为PDFbox Could not find font: /Helv 我在Java中的代码有以下视图： PDDocument pdf = PDDocument.load(inputStream); PDDocumentCatalog docCatalog = pdf.getDocumentCatalog(); PDAcroForm acroForm = docCatalog.getAcroForm(); PDPage page = pdf.getPage(0);

浏览 7提问于2017-09-26得票数 1

回答已采纳

1回答

PDFBox命令行选项无法使用有效的用户密码解密

、、

我正在使用PDF2.0.8，并尝试使用提供给jar文件的命令行选项进行PDFBox解密。有几个PDF文件，这导致错误说，这些只能与所有者密码解密(好的)，但我能够删除使用QPDF的在线工具的PDF密码，我猜。现在我担心的是，我是否可以只使用PDFBox的一些相同的选项来解密PDF，而不用担心所有者/用户密码保留？(我想是的，因为相同的密码可以用Acrobat打开PDF，也可以通过提供相同的密码保存PDF副本)。我当前的命令行示例 java -jar "D:\pdfbox.jar" Decrypt -password xxxxxxxx "D:\uploads

浏览 0提问于2018-06-13得票数 1

1回答

在pdf读取中无法读取嵌入字体ESNOYH+Calibri-Bold

、、

我尝试了下面的代码来读取pdf： val byteArrayOutPutStream: ByteArrayOutputStream = new ByteArrayOutputStream val file = new File(path + name) val inputStream = new FileInputStream(file) val document = new PDFDocumentReader(inputStream) var result: List[BufferedImage] = Nil val numPgs = document

浏览 0提问于2013-10-24得票数 0

1回答

PDFBox: U+0054的字体AAAAAD+FreeSerifBold中没有字形

、、

我的PDFBox抛出以下错误:在字体AAAAAD+FreeSerifBold中U+0054没有字形。我在堆栈溢出上发现了几个类似的线程，但我无法用它们来解决我的问题。我的代码类似于代码示例： public QuoteWorkerPdf() throws IOException { // Create PDF with one blank page document = PDDocument.load( getClass().getResourceAsStream("data/quote_template.pdf"));

浏览 3提问于2018-09-25得票数 0

回答已采纳

1回答

PDFBox合并命令工具与Log4JLogger的问题

、、、

这是我的帖子的后续以下是我在调查PDFBox合并命令行工具和记录器时的注意事项和问题。我将在我的文章中引用以下jar文件： pdfbox-app-2.0.26.jar -这是从PDFBox站点下载的正式jar文件。 pdfbox-app-3.0.0-alpha3.jar -这是从PDFBox站点下载的正式jar文件。我从github源本地构建的pdfbox-app-3.0.0-SNAPSHOT.jar - jar文件我最初的目标是能够使用文件配置通过PDFBox合并工具控制日志记录的级别。具体来说，能够抑制PDFBox在合并过程中记录的大量PDF电子邮件文件的警告。在调查期间，由于缺乏

浏览 6提问于2022-05-26得票数 0

1回答

Matlab2017a是否改变了它导入外部java类的方式？

、、

我从Matlab打电话给PDFBox，想知道在一个PDF中有多少页。所有的工作与Matlba，2016年b和以前都很好。我可以导入库并加载PDF，而不会出现问题： import org.apache.pdfbox.pdmodel.PDDocument; pdfFile = PDDocument.load(filename); 当我在207 a运行相同的东西时，我会得到以下错误： No method 'load' with matching signature found for class 'org.apache.pdfbox.pdmodel.PDDocument&

浏览 4提问于2017-06-02得票数 1

回答已采纳

1回答

在org.apache.pdfbox.pdmodel.graphics.color.PDPattern.toRGB获得java.lang.UnsupportedOperationException

、、、

在我的java应用程序中，我使用pdfbox-2.0.9将PDF文件转换为html。但我得到了 java.lang.UnsupportedOperationException at org.apache.pdfbox.pdmodel.graphics.color.PDPattern.toRGB(PDPattern.java:95) at org.fit.pdfdom.PathDrawer.pdfColorToColor(PathDrawer.java:133) at org.fit.pdfdom.PathDrawer.clearPathGraphics(PathDraw

浏览 0提问于2018-09-17得票数 1

回答已采纳

1回答

在尝试解析具有文本包含图像的pdf时使用Apache tika解析器的问题

、、、、

我使用这两个依赖项：- tika核心2.6.0tika解析器标准包2.6.0 .Parsing在这些情况下很好地工作：- pdf文件和文本。pdf文件与图像。文本文件和其他扩展名。对于下面的用例- pdf文件和图像中的文本，pdf分析器运行时异常的解析失败。有人能在这里建议如何解决失败的案件吗？谢谢全错误堆栈跟踪：- org.apache.tika.parser.CompositeParser.parse(CompositeParser.java:312) ~org.apache.tika.tika-core-2.6.0.jar:2.6.0 at org.apache.tika.pars

浏览 19提问于2022-11-11得票数 0

1回答

Alfresco中的DOCX到PDF转换-大小限制

、、、

我写了一个自定义的Alfresco调度器来将DOCX文件转换为PDF。PS: Alfresco 5.2.3企业版我注意到Alfresco的OOTB配置只允许将那些DOCX文件转换为大小为768 KB的PDF。超过768 KB的DOCX文件无法转换为PDF，并在日志中抛出异常。为了克服这个问题，我尝试在alfresco global中设置以下属性，将限制增加到5MB。 content.transformer.JodConverter.extensions.docx.pdf.maxSourceSizeKBytes=5120 但是，当我上传一个1.5MB的DOCX文件进行测试时，日志中抛出了以

浏览 39提问于2020-01-10得票数 0

2回答

PDFBox打印:使用PDFBox打印时的空指针异常

在使用CentOS在linux中使用以下代码打印pdf文件时： PrinterJob job = PrinterJob.getPrinterJob(); PDDocument pdf = PDDocument.load(new ByteArrayInputStream(out.toByteArray())); job.setPageable(new PDPageable(pdf, job)); job.print(); 引发空指针异常： 2014-06-03 10:37:06警告PDFStreamEngine:542 - org.apache.pdfbox.p

浏览 11提问于2014-06-03得票数 0

1回答

PDFBox:拆分PDF并添加书签IOException

、、

在我的项目中，我用书签分割了一个pdf文件。应该创建一个新的pdf文件，其中包含分裂的页面和一些新的书签。这导致了以下例外情况：线程"main“中的异常java.io.IOException: COSStream已关闭，无法读取。也许它的附件PDDocument已经关闭了？。如果我删除行outline.addLast(pagesOutline);，新的pdf包含分裂的页面(也不例外)，但显然不是书签。我想我添加书签的方式有问题。我的代码： private void tryCreatePDF(List<String> listOfBookmarks) throws I

浏览 3提问于2017-07-27得票数 2

回答已采纳

2回答

PDFBox 2.0读取单个页面并将其写入/保存到新文件

、

基于，我试着阅读pdf文件中的每一页。这样做的背景是，我试图用完整的空白页替换不包含任何文本内容但包含图像的页面。其背景是pdf可以包含可能包含图像的空白页。这些页面确实需要在那里，因为它们即将使用双工打印。但是使用PDFBox 2.0，这似乎要复杂一些，因为每次我试图保存新生成的PDDocument时，都会遇到堆栈跟踪。这应该与新版本的PDFBox 2.0有什么不同吗？我是否应该避免关闭PDDocument buffer，因为通过把它排除在外，示例程序就会毫无例外地运行，这会产生什么潜在的副作用呢？这里可以看到一个简单的运行示例。您可以使用任意pdf文件，因为结果将是一个pdf文件，其页

浏览 7提问于2016-04-19得票数 2

回答已采纳

1回答

PDFBox错误无法加载字体文件

、、

我不确定这是否是PDFBox问题。但提到它可能有助于理解我的问题。所以我收到了很多来自PDFBox的警告： WARN No Unicode mapping for a37 (37) in font TCBLZV+LCIRCLE10 这是100年代中的一个。因此，我决定添加警告列表中提到的LCRICLE10字体和其他字体。以下是我下载的字体： LCRICLE10： CMEX：下面是我得到的PDFBox错误： 5517 ERROR Could not load font file: /home/$USER/.fonts/bakoma/pfb/eurb9.pfb

浏览 2提问于2018-03-07得票数 0

回答已采纳

1回答

在HDFS上将PDF文件转换为文本(JAVA)

、、

在这个过程中，我用PdfInputFormat类覆盖类FileInputFormat。这个类返回PdfRecordReader类的对象，该对象正在执行所有的PDF转换。我在这里面临一个错误。我在Eclipse中创建jar，方法是：工具> Eclipse -导出>导出>创建jar的方法。我在jar中选择所需的包库。我使用以下命令执行jar： hadoop jar /home/tcs/converter.jar com.amal.pdf.PdfInputDriver /user/tcs/wordcountfile.pdf /user/convert 运行此程序后，

浏览 5提问于2017-06-09得票数 0

1回答

Java: java.lang.NoSuchMethodError：'void org.apache.fontbox.cmap.CMapParser.<init>(boolean)

、、、

我正在尝试用Java读取PDF文档。我对此很陌生，也对配置依赖关系w/ intelliJ也很陌生。完全错误是： Exception in thread "main" java.lang.NoSuchMethodError: 'void org.apache.fontbox.cmap.CMapParser.<init>(boolean)' at org.apache.pdfbox.pdmodel.font.CMapManager.parseCMap(CMapManager.java:74) at org.apache.pdfbox.pd

浏览 1提问于2021-03-21得票数 0

回答已采纳

3回答

执行java jar文件时主线程中的异常。

、、、、

我有一个在ubuntu终端中执行时出错的java jar文件。 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/pdfbox/pdmodel/PDDocument at com.example.pdfbox.pdfbox.main(pdfbox.java:41) Caused by: java.lang.ClassNotFoundException: org.apache.pdfbox.pdmodel.PDDocument at java.net.URLClassLoad

浏览 5提问于2014-04-25得票数 1

回答已采纳

1回答

PDFBox:在对象COSObject{2，0}中给出循环

、、

我使用Apache PDFBox将不同的PDF文件合并到一个大文件中。它一直运转良好。但是最近，对于一个特定的文件，我已经开始收到下面的错误。 java.io.IOException: Loop within object COSObject{2, 0} at org.apache.pdfbox.multipdf.PDFCloneUtility.checkForRecursion(PDFCloneUtility.java:277) at org.apache.pdfbox.multipdf.PDFCloneUtility.cloneForNewDocument(PDFClone

浏览 13提问于2022-07-25得票数 1

回答已采纳

2回答

尝试运行pdfbox程序时出错

、、、

我尝试从这个页面运行Pdfbox示例：，并从一个PDF文件中提取文本。当我尝试运行它时，我有错误： org.apache.pdfbox.exceptions.WrappedIOException at org.apache.pdfbox.pdfparser.PDFParser.parse(PDFParser.java:245) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.java:1192) at org.apache.pdfbox.pdmodel.PDDocument.load(PDDocument.jav

浏览 6提问于2013-09-27得票数 0

1回答

Tika解析给出了达到最大限制的错误。

、

我使用Apache从PDF文件中获取内容。当我运行它，我得到以下错误。我在任何地方都没有看到这个错误被记录下来，这只是一个糟糕的惊喜。 org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your document contained more than 100000 characters, and so your requested limit has been reached. To receive the full text of the document, increase your limit.

浏览 0提问于2017-02-22得票数 0

回答已采纳

1回答

pdfbox字体TrueType导致stripper.getText()错误

、、、

我有一些pdf需要提取到文本，只有一个pdf是真实的类型，它会导致以下错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.fontbox.ttf.TrueTypeFont.getAdvanceWidth(I)I at org.apache.pdfbox.pdmodel.font.PDTrueTypeFont.getFontWidth(PDTrueTypeFont.java:677) at org.apache.pdfbox.pdmodel.font.PDSimpleFont.getFont

浏览 7提问于2014-12-04得票数 3

回答已采纳

1回答

用OutOfMemoryError注释constructAppearances()方法获取PDFBox

、、

简单地说，是我一直在做一个程序，得到一个pdf，高亮一些单词(通过pdfbox马克注释)，并保存新的pdf。为了使这些注释在这样的查看器上可见，需要在将标记注释添加到页面注释列表之前调用pdAnnotationTextMarkup.constructAppearances()。但是，通过这样做，在处理包含数千个标记注释的大型文档时，我会得到一个OutOfMemoryError。我想知道是否有办法防止这种情况发生。 (这是的续集，但与此没有多大关系) 技术规范： PDFBox 2.0.17 Java 11.0.6+10，AdoptOpenJDK MacOS Catalina 10.15.

浏览 2提问于2020-02-12得票数 0

回答已采纳

10回答

PDFBox:如何“压平”PDF格式？

、、

如何使用PDFBox“平平”PDF-表单(删除表单字段，但保留字段的文本)？要做到这一点，一个快速的方法是从顶格中移除字段。为此，您只需获得文档目录，然后从该样式中删除所有字段。图形表示与注释相链接，并留在文档中。所以我写了这段代码： import java.io.File; import java.util.ArrayList; import java.util.List; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDDocumentCatalog; imp

浏览 24提问于2013-01-22得票数 11

1回答

pdfbox找不到符号

、

我使用的是@ASu不久前建议的代码： package pdf_form_filler; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.pdmodel.PDDocumentCatalog; import org.apache.pdfbox.pdmodel.interactive.form.*; import java.io.File; import java.util.*; public class pdf_form_filler { public static void listFields(PD

浏览 21提问于2017-01-31得票数 0

1回答

pdfbox类强制转换异常

、、、

我想从下面的pdf文件中读取文本。我使用的是pdfbox版本1.8.8。我得到了以下错误。 2014-12-18 15:02:59 WARN XrefTrailerResolver:203 - Did not found XRef object at specified startxref position 4268142 2014-12-18 15:03:00 ERROR PDPageNode:202 - No Kids found in getAllKids(). Probably a malformed pdf. 2014-12-18 15:03:00 ERROR PDPageNode

浏览 1提问于2014-12-18得票数 2

1回答

无法添加PDF/A有效元数据

、、

Java: 1.8 pdfbox: 2.0.18 印前检查: 2.0.18 我可以创建一个工作的PDF，但我们的要求是它必须符合PDF/A标准。我已经设法修复了除元数据之外的所有验证问题。在没有添加任何元数据的情况下，我得到了错误： The fileexample.pdf is not valid, error(s) : 7.1 : Error on MetaData, Metadata is not a stream 下面是一些例子(在v2+下没有相关的文档)，我想出了以下几点： PDMetadata documentMetadata = new PDMetadata(document);

浏览 11提问于2020-02-19得票数 1

回答已采纳

1回答

使用grape从groovy脚本运行类main

、、、

我想通过使用@Grab来运行java类的main方法，以便自动处理需求。更具体地说，我想运行pdfbox示例https://github.com/apache/pdfbox/blob/trunk/examples/src/main/java/org/apache/pdfbox/examples/util/RemoveAllText.java 我编写了以下groovy脚本 #!/usr/bin/env groovy @Grab('org.apache.pdfbox:pdfbox-examples:2.0.20') import org.apache.pdfbox.example

浏览 11提问于2020-08-04得票数 1

回答已采纳

1回答

包org.apache.pdfbox不存在

、、、

当提取pdf (包org.apache.pdfbox不存在)时，我的java项目有问题。 import org.apache.pdfbox.PDFReader import org.apache.pdfbox.*; import org.apache.pdfbox.cos.COSDocument; import org.apache.pdfbox.pdmodel.PDDocument 我已经替换了add fontbox和pdfbox 2.0.26。但是仍然有一些错误，提取pdf不能工作

浏览 23提问于2022-06-08得票数 -2

1回答

为什么我不能在java ee项目中使用PDDOCUMENT PDFBOX？

、、、、

我尝试使用PDFBOX从pdf中获取文本，我在一个maven jee项目中工作，我已经包含了所有可能的依赖，但我仍然有下一个错误。 `2017-01-29T16:01:50.069+0100|Avertissement: StandardWrapperValve[ViewCrous]: Servlet.service() for servlet ViewCrous threw exception java.lang.NoClassDefFoundError: org/apache/pdfbox/pdmodel/PDDocument at ViewCrous.doGet(ViewCrou

浏览 2提问于2017-01-29得票数 0

4回答

创建pdf并与pdfbox合并

、、、

这就是我想要做的：使用pdfbox制作2个不同的pdf文件使用pdfmerger将这两个文件合并在一起如果我将#1保存到服务器端本地硬盘驱动器并为#2加载文件，我知道如何做到这一点，但我想要做的是使用“直接从内存中”。我从这个pdfboxes中搜索了所有的方法，但仍然找不到。这是我从本地文件中获取的代码谢谢。 import java.io.BufferedOutputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.OutputStream; imp

浏览 12提问于2012-12-10得票数 4

回答已采纳

1回答

如何使用Java Apache PDFBox查找PDF中的所有内部链接

、

我正在使用以下代码(Kotlin)来查找PDF中的超链接 import org.apache.pdfbox.pdmodel.PDDocument import org.apache.pdfbox.pdmodel.interactive.action.PDActionURI import org.apache.pdfbox.pdmodel.interactive.annotation.PDAnnotationLink import ... destination.PDPageXYZDestination import java.io.File

浏览 107提问于2021-10-27得票数 0

回答已采纳

6回答

PDFBOX : U+000A ('controlLF')在Helvetica编码: WinAnsiEncoding中不可用

、

当试图使用Java和org.apache.pdfbox库打印PDF页面时，我得到以下错误： PDFBOX : U+000A ('controlLF')在Helvetica编码: WinAnsiEncoding中不可用

浏览 11提问于2017-10-09得票数 15

回答已采纳

1回答

PDFBox PDAnnotation中的多边形注释

、、

我想在给定的坐标下在PDF中添加多边形，我引用了这个来添加圆圈和矩形的注释，但是它不包含任何多边形的注释。有人知道怎么做吗？或者有人知道我从哪里得到关于PDFBox注释的所有文档。在这里，我分享到现在为止我所做的一切。但我不能再继续下去了。 import java.io.IOException; import java.io.File; import java.io.FileReader; import java.util.Arrays; import java.util.Iterator; import java.util.List; import org.json.simple.pars

浏览 0提问于2018-07-02得票数 1

回答已采纳

3回答

使用PDFBox从单个PDF页面中提取多个嵌入图像

、、、

朋友们，我使用的是PDFBox 2.0.6。我已经成功地从pdf文件中提取图像，但现在它正在为单个pdf页面创建图像。但问题是，可以有任何不。在一个pdf页面中的图像，我希望每个嵌入的图像应该提取为一个单独的图像本身。这是代码， import java.awt.image.BufferedImage; import java.io.File; import javax.imageio.ImageIO; import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.rendering.PDFRenderer; pu

浏览 7提问于2017-08-08得票数 1

回答已采纳

1回答

U+FFFD在此字体的编码中不可用: WinAnsiEncoding

、、

我使用的是PDFBox 2.0.1。我尝试将一些(用户提供的) UTF8文本动态添加到表单字段中，并将结果显示给用户。不幸的是，pdf库无法正确编码特殊字符，如“aü”.或者我找不到任何有用的文档来帮助我解决这个问题。有人能告诉我给定的代码示例有什么问题吗？ try (PDDocument document = PDDocument.load(pdfTemplate)) { PDDocumentCatalog catalog = document.getDocumentCatalog(); PDAcroForm form = catalog.getAcroForm();

浏览 2提问于2016-09-27得票数 3

回答已采纳

2回答

如何修复由PDFBox设置的PDF/A元数据(使用Docx4j和XDocReport)

、、、、

为了达到可访问性级别PDF/A-1A，我使用PDFBox v2.0.13在PDF上设置XMP元数据。在设置元数据之前，我将文件从.docx转换为pdf。我尝试了两种方法进行转换:一种使用XDocReport v.2.0.1，另一种使用Docx4j v.6.1.0。在Java类中，我有以下代码： PDDocumentInformation info = pdf.getDocumentInformation(); info.setTitle("Apache PDFBox"); info.setSubject("Apache PDFBox adding meta-data

浏览 32提问于2019-02-05得票数 0

回答已采纳

2回答

PDFBox+bouncy castle签名

、、、、

我正在尝试数字签名(加密？)使用PdfBox (和BouncyCastle) 我已经创建了密钥库和证书： %java_home%\bin\keytool -genkey -alias razor -keypass testkeypass -storepass teststorepass -keystore test-keystore.jks -validity 360 -dname "CN=razor, OU=myorg, O=my.org, L=Mycity, C=PL" %java_home%\bin\keytool -export -alias razor -keypa

浏览 0提问于2011-06-01得票数 2