首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫的基本原理

一.获取网页

获取网页就是获取网页的源代码。Python本身提供的库有:urllib, request等。

示例:获取知识星球登录页

二.提取信息

网页获取源代码后就是分析网页,提取到我们想要的数据。提取数据主要有以下方法:

1.使用正则表达式提取信息。方法万能,但是复杂。

2. 使用相关提取数据的库提取信息。如Beautiful Soap, pyquery, lxml等。

示例:获取知识星球登录页“”标签里面的内容。

三.保存数据

获取数据后为了方便以后使用,需要将数据保存。有以下几种保存方式:

1.保存为txt, json等文本。

2.保存到MySQL, MongoDB等数据库。

3.其他

示例:将title标签里面的内容保存到test.txt文本

四.参考资料

[1]Python官方文档url.request:

https://docs.python.org/3/library/urllib.html

[2]崔庆才,《Python3网络爬虫开发实战》

[3]HTTPResponseObjects:

https://docs.python.org/3/library/http.client.html#httpresponse-objects

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190125G0C17J00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券