如何使用NodeJS/ReactJS/PHP提取PDF文件的书签(TOC)？

基础概念

PDF书签（TOC）：PDF书签是PDF文档中的导航元素，允许用户快速跳转到文档的特定部分。书签通常显示在PDF阅读器的侧边栏中。

提取PDF书签的方法

使用Node.js

Node.js可以通过第三方库pdf-lib来提取PDF书签。以下是一个示例代码：

const { PDFDocument } = require('pdf-lib');

async function extractBookmarks(pdfPath) {
  const pdfBytes = await fs.promises.readFile(pdfPath);
  const pdfDoc = await PDFDocument.load(pdfBytes);

  const bookmarks = pdfDoc.getOutlines();
  return bookmarks;
}

extractBookmarks('path/to/your/file.pdf').then(bookmarks => {
  console.log(bookmarks);
});

参考链接：pdf-lib GitHub

使用React.js

在React.js中，你可以使用react-pdf库来处理PDF文件，并通过Node.js后端提取书签。以下是一个示例：

import React, { useEffect } from 'react';
import { Document, Page } from 'react-pdf';
import { extractBookmarks } from './backend'; // 假设你有一个Node.js后端函数

function PDFViewer({ filePath }) {
  const [bookmarks, setBookmarks] = React.useState([]);

  useEffect(() => {
    extractBookmarks(filePath).then(setBookmarks);
  }, [filePath]);

  return (
    <div>
      <Document file={filePath}>
        {Array.from(new Array(10), (el, index) => (
          <Page key={`page_${index + 1}`} pageNumber={index + 1} />
        ))}
      </Document>
      <ul>
        {bookmarks.map((bookmark, index) => (
          <li key={index}>{bookmark.title}</li>
        ))}
      </ul>
    </div>
  );
}

export default PDFViewer;

参考链接：react-pdf GitHub

使用PHP

PHP可以通过FPDI和TCPDF库来处理PDF文件并提取书签。以下是一个示例代码：

require_once('vendor/autoload.php');

use setasign\Fpdi\Fpdi;

$pdf = new Fpdi();
$pageCount = $pdf->setSourceFile('path/to/your/file.pdf');
$bookmarks = [];

for ($pageNo = 1; $pageNo <= $pageCount; $pageNo++) {
    $templateId = $pdf->importPage($pageNo);
    $size = $pdf->getTemplateSize($templateId);

    $pdf->AddPage($size['orientation'], $size);
    $pdf->useTemplate($templateId);

    $bookmarks = array_merge($bookmarks, $pdf->getOutlines());
}

print_r($bookmarks);

参考链接：FPDI GitHub

应用场景

提取PDF书签的应用场景包括：

PDF导航：在PDF阅读器中提供更好的导航体验。
内容索引：为PDF文档生成内容索引，方便用户查找特定部分。
自动化处理：在自动化流程中提取书签信息，用于进一步处理或分析。

常见问题及解决方法

书签提取失败：
- 确保PDF文件没有损坏。
- 检查使用的库是否支持该PDF文件的版本和结构。
- 确保代码正确处理了PDF文件的路径和权限。

书签信息不完整：
- 有些PDF文件可能没有书签信息，或者书签信息不完整。
- 确保PDF文件的创建工具支持生成书签。
- 检查PDF文件的元数据是否包含书签信息。

通过以上方法和示例代码，你应该能够成功提取PDF文件的书签信息。如果遇到具体问题，可以根据错误信息进一步调试和排查。

如何使用NodeJS/ReactJS/PHP提取PDF文件的书签(TOC)？

、、、、

每个人都一定已经看到，当您在浏览器或acrobat pdf阅读器中打开pdf时，会出现一个书签标签，就像这样。 ? 如果pdf没有书签，列表将为空。因此，我希望使用nodejs/react/php从pdf中获取这些书签。

浏览 92提问于2020-11-11得票数 4

回答已采纳

1回答

如何从iPhone文件中检索目录？

、、

我正在使用VFR阅读器显示我的pdf。我需要在一个按钮上提取目录，点击并显示在一个表视图中，然后它应该会在点击每个页面时导致相应的页面。我明白了，要获得TOC，我们必须使用"CGPDFDocumentGetCatalog(pdf文档)“。但在我的读者中，"CGPDFDocumentGetCatalog(pdf文档)“根本没有被调用。现在我如何从我的pdf

浏览 11提问于2012-12-04得票数 0

回答已采纳

2回答

使用python从PDF中获取目录

、、、、

我正在尝试从PDF中获取目录。为此，我使用了PyMuPDF。但它只在ToC包含书签的情况下才提取出来。否则，它只会产生一个空列表。def get_Table_Of_Contents(doc): return toctoc

浏览 165提问于2020-11-05得票数 0

2回答

将目录从一份PDF复制到另一份

、、、、

我的场景就像我正在用一些编辑从现有的PDF创建一个PDF。一切都很好。我的问题是，我想在新创建的PDF中添加元数据、目录、书签，这在PDF元数据中被称为什么。我无法理解中建议的XMP格式。有没有办法直接将TOC添加到新的PDF中？我正在使用以下功能，但它根本不起作用。

浏览 10提问于2011-11-14得票数 12

回答已采纳

1回答

使用Pymupdf将书签添加到pdf中

、、

如何添加书签到pdf使用Pymupdf。我已经看到了许多使用PyPDF2的方法，但是由于我已经将pymupdf用于其他注释，所以我更希望使用pymupdf来添加书签。还想高亮显示文本和添加书签到它。

浏览 10提问于2021-11-16得票数 1

1回答

我试图创建一个PDF在BIRT，我需要有书签链接从一个摘要页到每个细节页。链接在HTML预览中运行良好，类似的http链接在已发布的PDF中工作。但是，内部链接不能以PDF格式工作。到目前为止，我尝试的是将书签属性设置为"detail_" + row["nodeid"]，并将超链接设置为相同。如前所述，这适用于HTML预览，但不适用于PDF导出。PDF已自动生成TOC项目，我更

浏览 2提问于2017-12-11得票数 0

5回答

我需要合并多个PDF到一个具有目录部分的PDF

、、、

将有50-100个PDF的，我们将与一个php脚本生成。PDF通常被分成10-20个组。每个组都需要有自己的目录或索引，然后还需要在开始时有一个主目录或索引。或者，如果这太难了，我们可以在开始时使用单一的目录。我们是否需要创建目录，然后将其导出为PDF，并将其附加到开头，然后对后面的其余文件进行mash？或者有更好的解决方案？我们合并pdf的

浏览 10提问于2010-03-11得票数 7

回答已采纳

1回答

向MigraDoc PDF中添加PDFsharp目录

、、

我试图使用PDFsharp和MigraDoc从许多其他文件创建一个PDF报告文件。用户选择要包含在TOC中的页面。现在，我能够轻松地将文档连接起来，并在PDFsharp中添加书签/大纲。我遇到问题的地方是在使用MigraDoc创建TOC时，将PDFsharp创建的书签/大纲作为超链接的</em

浏览 5提问于2016-04-28得票数 3

1回答

如何将PDF与PyMuPDF (用循环)拆分？

、

我想使用PyMuPDF :我想分割一个pdf，对于每个分裂的文件，一个名为书签名称的文件，只有一个页面 toc = doc.getToC(simple = True)

浏览 0提问于2020-11-01得票数 2

2回答

我可以在react项目中使用nodeJS库吗

、、、

我有一个项目，我正在使用React Typescript构建。我有一个反应表单，在提交时，我想更新一个可填写的PDF使用数组的值。我在这里遇到了这个库：https://www.npmjs.com/package/pdffiller 我能把这个整合到我的react项目中吗？如果是这样的话，是怎么做的？我将继续使用import PDFfiller还是使用var。如果没有，我最好的选

浏览 65提问于2020-07-07得票数 0

1回答

TCPDF目录和页码问题表

、、、

我使用TCPDF库来使用PHP/HTML生成PDF。可以在这里找到这些文档：。1)目录页码显示为文件的最后一页。(8中的8，实际上是8中的2，出现在封面后)。 2)其他页面上的页码不进行调整。TOC后面的一页应该是8的3，而不是8的2。3)目录中有正确的

浏览 0提问于2014-02-17得票数 1

回答已采纳

3回答

在pdf中创建书签

、

我已经注意到，在查看某些PDF时，其中一些PDF在Evince的左侧有一个索引，其中项目是可点击的。像这样 📷

浏览 0提问于2011-12-16得票数 9

回答已采纳

1回答

如何使用以内容项为标题的TCPDF创建内容部分的动态表？

、、

我正在使用TCPDF库在Laravel中动态生成一个PDF文件。Page 8 => Public Records 如果你能通过发送一些技巧来帮助我完成这个任务，这将是一个很大的帮助。谢谢!

浏览 2提问于2018-05-29得票数 1

1回答

将书签从一个pdf复制到另一个

、、、、

我希望将书签从一系列未压缩的pdf文件转移到它们的压缩副本(这些副本没有原始书签)。pdftk file.pdf dump_data output file.txtpdftk file_mrc.pdf update_infofile.txt output file_mrc_up

浏览 0提问于2022-04-17得票数 0

回答已采纳

2回答

如何使用PDFsharp + MigraDoc将书签动态链接到目录

、、、

我正在尝试使用MigraDoc和PDFsharp创建一个目录，我已经非常接近了，但我目前遇到的问题是，目录上的链接都将我带到PDF的第一页。我正在尝试将它们链接到各自的页面。PDFSharp书签可以很好地工作，但当试图基于合并的PDF创建目录时，它就不起作用了。in document.Outlines) paragraph = section.AddParagraph(); paragrap

浏览 9提问于2019-05-21得票数 0

1回答

将PDF文件与TOC元素合并

、、、

我使用GemBox.Pdf作为合并PDF文件。这是很好的工作，我可以很容易地添加轮廓。我是遗漏了什么，还是真的没有这样的PDF元素？我需要重建它吗?我可以添加一个书

浏览 3提问于2021-07-13得票数 1

回答已采纳

1回答

创建目录与Pechkin html到pdf

、、、、

我目前正在使用Pechkin库创建基于html的pdf文件。这一切都很好用。wkhtmltopdf toc --xsl-style-sheet toc.xsl index.html index.pdf 但对于Pechkin，它不会起作用我已经有了一个书签(可以在Adobe Reader中使用)，

浏览 2提问于2013-12-20得票数 0

1回答

iTextSharp内容表更新

、、

我一直未能找到我的问题的答案。我想知道是否可以在TOC的每一项上更新页面链接。据我目前所读，这是一个困难的过程，至少需要一个星期的编程工作。我有第一个pdf与5页。第一页是TOC。

浏览 1提问于2016-06-28得票数 1

1回答

如何使用GhostXPS将书签插入到新的PDF文件中？

、、

我想用把XPS转换成PDF。使用命令行：这些选项位于TestXPSWrite.txt文件中"S:\Temp\PS\XPS\Test2.xps" "S:\Temp\PS\XPS\Bookmarks.txt" Bookmarks.txt文件</

浏览 2提问于2015-10-20得票数 0

回答已采纳

1回答

使用PHP从PDF中提取元数据，如注释和书签

、

我需要在PHP应用程序中分析几个PDF文件的注释和书签。有没有办法提取这些信息？所有我需要的是书签名称+层次和注释内容+坐标。我更喜欢PHP库，但我也可以在服务器上安装额外的软件，并使用exec()调用它。

浏览 0提问于2017-03-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用NodeJS/ReactJS/PHP提取PDF文件的书签(TOC)？

基础概念

相关技术

提取PDF书签的方法

使用Node.js

使用React.js

使用PHP

应用场景

常见问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐