一.获取网页
获取网页就是获取网页的源代码。Python本身提供的库有:urllib, request等。
示例:获取知识星球登录页
二.提取信息
网页获取源代码后就是分析网页,提取到我们想要的数据。提取数据主要有以下方法:
1.使用正则表达式提取信息。方法万能,但是复杂。
2. 使用相关提取数据的库提取信息。如Beautiful Soap, pyquery, lxml等。
示例:获取知识星球登录页“”标签里面的内容。
三.保存数据
获取数据后为了方便以后使用,需要将数据保存。有以下几种保存方式:
1.保存为txt, json等文本。
2.保存到MySQL, MongoDB等数据库。
3.其他
示例:将title标签里面的内容保存到test.txt文本
四.参考资料
[1]Python官方文档url.request:
https://docs.python.org/3/library/urllib.html
[2]崔庆才,《Python3网络爬虫开发实战》
[3]HTTPResponseObjects:
https://docs.python.org/3/library/http.client.html#httpresponse-objects
领取专属 10元无门槛券
私享最新 技术干货