下班之后。
冷清灯光下的街道。
十字路口拐角情侣的拥抱。
而我。
我一个狗吃饭,到处走走停停。
今天给大家介绍如何把html网页转换为PDF文件。这样就可以卖盗版书发家致富了。
下图是网上的一个python教程。
我们可以看到页面结构是左侧为目录,右侧为正文。把目录和正文提取出来就OK啦。
转换之后的效果是这样的。图片和细节的部分没有调整。大致能看。盗版书管那么多干嘛。
实现的关键是使用了pdfkit这个库。pdfkit是wkhtmltopdf这个软件的python封装,可以将HTML、CSS格式的文件转换成PDF格式文档。
先使用requests抓取每个目录的url,然后再通过目录的url抓取对应的正文页面源码。使用BeautifulSoup工具来解析页面源码,将需要的html结构提取出来保存为html文件。之后用pdfkit把html文件转为pdf文件。
代码长这样:
就是这样。通过卖盗版书我们距离发家致富又进了一步。
而我。
我一个狗看盗版书。
2017.12.15
领取专属 10元无门槛券
私享最新 技术干货