文章还是比较精简、易懂的。
爬取百度首页
Urlib.request是urlib的一个子模块 可以打开、处理一些复杂的网址
urlib中的request模块提供了模仿浏览器访问的功能 所以我们要添加上http头
这个http头 可以bp抓 可以f12里面找 当然你可以和我写的一样
爬下简书首页标题
发现文章标题均在标签中 并且 class="title" 这个特征 我们开始利用
解析器 Beautiful Soup支持Python标准库中的HTML解析器
那么我们获取的数据如何保存?
代码中的文件处理 之前在基础篇都提到过 主要就是只读方式打开 如果不存在就创建,最后结束 记得关闭文件
用with语句 也是可以实现的 这样就不用去关闭文件了
知乎上的壁纸很不错 如何一键保存下来?
https://www.zhihu.com/question/29784516 选择你的话题链接
找到网页中的图片地址 看看他们的标签有没有什么相同不同之处 发现class="origin_imagezh-lightbox-thumb lazy" class标签都是这样的
先看下我们的运行结果
最后附上代码 并不难 琢磨琢磨也就会了
领取专属 10元无门槛券
私享最新 技术干货