如何使用itext7从带标签的pdf中的结构元素中提取文本

iText 7 是一个强大的 Java 库，用于创建和处理 PDF 文档。要从带有标签的 PDF 中提取结构元素中的文本，你需要利用 iText 7 的结构化内容解析功能。以下是如何使用 iText 7 来实现这一功能的步骤：

基础概念

PDF 文档可以包含结构化内容，这意味着文档中的元素被组织成树状结构，其中每个节点代表一个结构元素（如段落、标题、列表等）。这些结构元素可以通过 PDF 的标签来识别。

类型与应用场景

类型：段落、标题、列表项、表格等。
应用场景：文档自动化、信息抽取、内容重构、PDF 文档的可访问性改进等。

示例代码

以下是一个简单的示例代码，展示了如何使用 iText 7 从带标签的 PDF 中提取结构元素中的文本：

import com.itextpdf.kernel.pdf.*;
import com.itextpdf.kernel.pdf.canvas.parser.PdfTextExtractor;
import com.itextpdf.kernel.pdf.canvas.parser.listener.LocationTextExtractionStrategy;
import com.itextpdf.kernel.pdf.xobject.PdfFormXObject;

import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;

public class ExtractStructuredText {
    public static void main(String[] args) throws IOException {
        String src = "input.pdf"; // 输入的PDF文件路径
        String dest = "output.txt"; // 输出的文本文件路径

        PdfDocument pdfDoc = new PdfDocument(new PdfReader(src));
        StringBuilder sb = new StringBuilder();

        for (int i = 1; i <= pdfDoc.getNumberOfPages(); i++) {
            PdfPage page = pdfDoc.getPage(i);
            PdfDictionary pageDict = page.getPdfObject();
            PdfArray contentArray = pageDict.getAsArray(PdfName.Contents);

            if (contentArray != null) {
                for (int j = 0; j < contentArray.size(); j++) {
                    PdfStream stream = contentArray.getAsStream(j);
                    PdfObject obj = stream.resolveReference();
                    if (obj.isDictionary()) {
                        PdfDictionary dict = (PdfDictionary) obj;
                        if (dict.contains(PdfName.S)) {
                            String structType = dict.getAsString(PdfName.S).toString();
                            if ("P".equals(structType)) { // 假设我们只关心段落
                                String text = PdfTextExtractor.getTextFromPage(page, new LocationTextExtractionStrategy());
                                sb.append(text).append("\n");
                            }
                        }
                    }
                }
            }
        }

        // 将提取的文本写入文件
        try (FileOutputStream fos = new FileOutputStream(new File(dest))) {
            fos.write(sb.toString().getBytes());
        }

        pdfDoc.close();
    }
}