总之, 这里通过使用一些库, Python的python-docx, C#的pdfbox和npoi, 来让对Word和PDF的处理变得更加自动化一些....]
-----
NPOI提取Word内容
其实NPOI非常强大, 足以用来做和Word有关的一切了, 但是, 这里只演示一下提取Word中的内容, 因为后面有python-docx这样更加轻巧的库, 不需要...-----
读取PDF内容
同样, 这次用的是C#的库, 名为Pdfbox....是由Apache PDFBox团队为.NET生成的.
[006y8mN6ly1g83ob4iquwj316f0j4djf.jpg]
using org.apache.pdfbox.pdmodel;
using...第二行是设置字体大小, 你需要用from docx.shared import Pt进行导包. 当然, 你直接导入整个docx包就完事了.