社区首页 >专栏 >如何将PDF按页进行拆分，然后提取PDF区域内容改名或保存表格？基于iText.Kernel.Pdf 解决方案

如何将PDF按页进行拆分，然后提取PDF区域内容改名或保存表格？基于iText.Kernel.Pdf 解决方案

原创

不负众望

发布于 2025-03-26 07:46:38

19700

代码可运行

运行总次数：0

代码可运行

一、项目背景

随着数字化办公的普及，PDF文件因其固定格式和跨平台兼容性被广泛应用于文档传输和存档。然而，多页PDF文件在管理和处理时可能带来不便，特别是需要提取特定区域的内容进行进一步的分析或存档。

本项目旨在开发一个基于WPF（Windows Presentation Foundation）的桌面应用程序，帮助用户将PDF文件按页拆分成多个单独的PDF文件，并提取每页中的指定区域内容进行重命名或保存为表格，以提高文档处理的效率和准确性。

二、界面设计

WPF提供了丰富的UI组件和灵活的布局方式，适合构建功能强大且用户友好的桌面应用。以下是该应用的主要界面设计元素：

1. 主窗口布局

菜单栏：
- 文件：打开PDF文件、退出应用
- 帮助：关于、帮助文档
工具栏：
- 打开PDF按钮
- 拆分并提取按钮
主内容区：
- PDF文件信息显示：显示所选PDF的总页数、文件名等信息
- 区域选择区：用户可以通过输入或拖拽方式选择要提取的区域（如指定坐标、页面区域等）
- 进度条：显示当前操作进度
- 日志输出区：实时显示操作日志和错误信息
结果展示区：
- 保存路径选择：让用户选择拆分后PDF和提取内容的保存目录
- 表格预览（可选）：对提取的内容进行简单预览，支持导出为Excel或CSV

2. 用户流程

用户通过菜单或工具栏打开一个PDF文件。
在区域选择区设置需要提取的区域。
选择保存路径。
点击“拆分并提取”按钮，程序开始处理：
- 按页拆分PDF。
- 提取每页指定区域的内容。
- 将每一页另存为单独的PDF文件。
- 根据提取的内容对文件进行重命名或保存为表格。

三、详细代码

1. 项目结构

PDFSplitterExtractor/
├── PDFSplitterExtractor/
│   ├── MainWindow.xaml
│   ├── MainWindow.xaml.cs
│   ├── PdfHandler.cs
│   ├── RegionExtractor.cs
│   └── SaveManager.cs
├── Resources/
│   └── styles.xaml
└── App.xaml

2. 主要代码实现

2.1 MainWindow.xaml

xml<Window x:Class="PDFSplitterExtractor.MainWindow"
        xmlns="http://schemas.microsoft.com/winfx/2006/xaml/presentation"
        xmlns:x="http://schemas.microsoft.com/winfx/2006/xaml"
        xmlns:local="clr-namespace:PDFSplitterExtractor"
        Title="PDF拆分与内容提取器" Height="600" Width="800">
    <Grid>
        <!-- 菜单栏 -->
        <Menu Grid.Row="0">
            <MenuItem Header="文件">
                <MenuItem Header="打开PDF" Click="OpenFile_Click"/>
                <MenuItem Header="退出" Click="Exit_Click"/>
            </MenuItem>
            <MenuItem Header="帮助">
                <MenuItem Header="关于"/>
                <MenuItem Header="帮助文档"/>
            </MenuItem>
        </Menu>

        <!-- 工具栏 -->
        <ToolBarTray Grid.Row="1">
            <ToolBar>
                <Button Content="打开PDF" Click="OpenFile_Click"/>
                <Button Content="拆分并提取" Click="SplitAndExtract_Click"/>
            </ToolBar>
        </ToolBarTray>

        <!-- 主内容区 -->
        <Grid Grid.Row="2">
            <!-- PDF信息显示 -->
            <TextBlock x:Name="PdfInfo" Margin="10"/>

            <!-- 区域选择区 -->
            <StackPanel Orientation="Horizontal" VerticalAlignment="Top" Margin="10,50,10,10">
                <Label Content="区域选择（X,Y,Width,Height）："/>
                <TextBox x:Name="RegionTextBox" Width="200"/>
            </StackPanel>

            <!-- 保存路径选择 -->
            <StackPanel Orientation="Horizontal" VerticalAlignment="Bottom" Margin="10,0,10,10">
                <Label Content="保存路径："/>
                <TextBox x:Name="SavePathTextBox" Width="500"/>
                <Button Content="浏览" Click="Browse_Click"/>
            </StackPanel>

            <!-- 进度条 -->
            <ProgressBar x:Name="ProgressBar" Height="20" Margin="10" VerticalAlignment="Bottom" Height="25" />

            <!-- 日志输出 -->
            <TextBox x:Name="LogTextBox" Margin="10" 
                     IsReadOnly="True" ScrollViewer.VerticalScrollBarVisibility="Auto"
                     Height="100" VerticalAlignment="Bottom"/>
        </Grid>
    </Grid>
</Window>

2.2 MainWindow.xaml.cs

csharpusing Microsoft.Win32;
using System.Windows;

namespace PDFSplitterExtractor
{
    public partial class MainWindow : Window
    {
        public MainWindow()
        {
            InitializeComponent();
        }

        private void OpenFile_Click(object sender, RoutedEventArgs e)
        {
            OpenFileDialog openFileDialog = new OpenFileDialog
            {
                Filter = "PDF Files|*.pdf"
            };
            if (openFileDialog.ShowDialog() == true)
            {
                string filePath = openFileDialog.FileName;
                PdfHandler pdfHandler = new PdfHandler(filePath);
                PdfInfo.Text = $"已加载PDF: {pdfHandler.GetPageCount()} 页";
                // 这里可以进一步加载PDF信息显示
            }
        }

        private void SplitAndExtract_Click(object sender, RoutedEventArgs e)
        {
            // 获取区域信息
            string regionInput = RegionTextBox.Text;
            // 获取保存路径
            string savePath = SavePathTextBox.Text;
            if (string.IsNullOrEmpty(savePath))
            {
                MessageBox.Show("请选择保存路径！");
                return;
            }
            // 开始拆分和提取
            PdfHandler pdfHandler = new PdfHandler(/* 传入PDF路径 */);
            pdfHandler.SplitAndExtractRegions(regionInput, savePath, (progress) =>
            {
                // 更新进度条
                ProgressBar.Dispatcher.Invoke(() => ProgressBar.Value = progress);
            }, (log) =>
            {
                // 更新日志
                LogTextBox.Dispatcher.Invoke(() => LogTextBox.AppendText(log + "
"));
            });
        }

        private void Browse_Click(object sender, RoutedEventArgs e)
        {
            System.Windows.Forms.FolderBrowserDialog fbd = new System.Windows.Forms.FolderBrowserDialog();
            if (fbd.ShowDialog() == System.Windows.Forms.DialogResult.OK)
            {
                SavePathTextBox.Text = fbd.SelectedPath;
            }
        }

        private void Exit_Click(object sender, RoutedEventArgs e)
        {
            this.Close();
        }
    }
}

2.3 PdfHandler.cs

csharpusing iText.Kernel.Pdf;
using iText.Layout;
using System;
using System.IO;
using System.Threading.Tasks;

namespace PDFSplitterExtractor
{
    public class PdfHandler
    {
        private string _pdfPath;
        private PdfDocument _pdfDoc;

        public PdfHandler(string pdfPath)
        {
            _pdfPath = pdfPath;
            _pdfDoc = new PdfDocument(new PdfReader(_pdfPath));
        }

        public int GetPageCount()
        {
            return _pdfDoc.GetNumberOfPages();
        }

        public void SplitAndExtractRegions(string regionInput, string savePath, Action<int> progressCallback, Action<string> logCallback)
        {
            string[] regions = regionInput.Split(',');
            if (regions.Length != 4)
            {
                logCallback("区域输入格式错误，应为 X,Y,Width,Height");
                return;
            }

            float x = float.Parse(regions[0]);
            float y = float.Parse(regions[1]);
            float width = float.Parse(regions[2]);
            float height = float.Parse(regions[3]);

            int totalPages = GetPageCount();
            for (int i = 1; i <= totalPages; i++) // iText页码从1开始
            {
                logCallback($"处理第 {i} 页");
                PdfPage page = _pdfDoc.GetPage(i);

                using (MemoryStream ms = new MemoryStream())
                {
                    PdfWriter writer = new PdfWriter(ms);
                    PdfDocument newPdfDoc = new PdfDocument(writer);
                    PdfPage newPage = newPdfDoc.AddNewPage(i);

                    // 这里需要更复杂的逻辑来提取指定区域并生成新PDF，简化处理为复制页面
                    // 实际项目中应使用PdfCanvas或RenderContext提取特定区域内容

                    newPdfDoc.Close();
                    string newFileName = Path.Combine(savePath, $"Page_{i}.pdf");
                    File.WriteAllBytes(newFileName, ms.ToArray());
                }

                // 假设区域内容提取保存到表格
                ExtractRegionContent(page, x, y, width, height, savePath, i);

                progressCallback((i * 100) / totalPages);
            }

            _pdfDoc.Close();
            logCallback("拆分和提取完成！");
        }

        private void ExtractRegionContent(PdfPage page, float x, float y, float width, float height, string savePath, int pageIndex)
        {
            // 使用iText的PdfCanvasProcessor或相关方法提取区域内容
            // 此处简化处理
            // 例：提取文本并保存为CSV
            // 需要集成文本提取逻辑，例如使用iText的LocationTextExtractionStrategy
            // 并根据坐标过滤文本

            // 简化示例：保存空内容
            string content = $"第 {pageIndex} 页区域内容";
            string csvPath = Path.Combine(savePath, $"Page_{pageIndex}_Content.csv");
            File.WriteAllText(csvPath, content);
        }
    }
}