大家好,我是安果!
周末是与亲朋好友相聚的好时机,可以选择一部大家都喜欢的电影,彻底放松,共同度过一个愉快而难忘的周末
本篇文章将介绍如何使用 Scrapy 爬取最新上映的电影
目标对象:
aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=
1、创建爬虫项目
2、创建数据表及定义 Item
在数据库中创建一张表用于保存爬取下来的数据
以 Mysql 为例
然后,定义 Item 存储数据对象
3、编写爬虫解析主页面
这里以 Selenium 为例,首先创建一个浏览器对象
PS:为了在服务器上运行,这里对 CentOS 做了兼容处理
然后,分析网页结构,使用 Xpath 解析最近上映的电影数据
这里提取出电影的名称及上映时间(包含电影详情页面 URL)
4、电影详情页面解析
通过上面的步骤,我们可以拿到某一部电影的详情页面 URL
需要注意的是,如果使用 Selenium 直接打开该页面会触发反爬,这里我们需要修改浏览器特征值
接着,打开目标页面,爬取电影的类型及演员列表
最后,将数据将存储到 Item 中
5、编写数据库管道,将上面的数据存储到数据库表中
6、配置爬虫项目 settings.py
在 settings.py 文件中,对下载延迟、默认请求头、下载管道 Pipline等进行配置
7、运行入口
在项目根目录下创建一个文件,用于定义爬虫的运行入口
最后,我们将爬虫部署到服务器,设置定时任务及消息通知
这样我们可以及时获取最近上映的电影,通过电影类型及演员阵容,挑选自己喜欢的电影
文中所有的源码我已经上传到公众号后台,回复关键字230708获取完整源码
如果大家有任何疑惑,欢迎在评论区留言!
推荐阅读
如何利用 Selenium 对已打开的浏览器进行爬虫!
如何利用 Playwright 对已打开的浏览器进行爬虫!
最全总结 | 聊聊 Selenium 隐藏浏览器指纹特征的几种方式!
END
领取专属 10元无门槛券
私享最新 技术干货