【干货】介绍Python中的模块，轻松将PDF转换成docx

用户6888863

发布于 2023-09-06 13:15:12

9120

可将 PDF 转换成 docx 文件的 Python 库。该项目通过 PyMuPDF 库提取 PDF 文件中的数据，然后采用 python-docx 库解析内容的布局、段落、图片、表格等，最后自动生成 docx 文件。

pdf2docx 同时解析出了表格内容和样式，因此也可以作为一个表格内容提取工具。

pip install pdf2docx

from pdf2docx import parse

pdf_file = '/path/to/sample.pdf'
docx_file = 'path/to/sample.docx'

# convert pdf to docx
parse(pdf_file, docx_file)

output

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-07-23，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自关于数据分析与可视化微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度