首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

休闲时光:最近上映的电影与爬虫世界,带您彻底放松!

大家好,我是安果!

周末是与亲朋好友相聚的好时机,可以选择一部大家都喜欢的电影,彻底放松,共同度过一个愉快而难忘的周末

本篇文章将介绍如何使用 Scrapy 爬取最新上映的电影

目标对象:

aHR0cHM6Ly93d3cubWFveWFuLmNvbS8=

1、创建爬虫项目

2、创建数据表及定义 Item

在数据库中创建一张表用于保存爬取下来的数据

以 Mysql 为例

然后,定义 Item 存储数据对象

3、编写爬虫解析主页面

这里以 Selenium 为例,首先创建一个浏览器对象

PS:为了在服务器上运行,这里对 CentOS 做了兼容处理

然后,分析网页结构,使用 Xpath 解析最近上映的电影数据

这里提取出电影的名称及上映时间(包含电影详情页面 URL)

4、电影详情页面解析

通过上面的步骤,我们可以拿到某一部电影的详情页面 URL

需要注意的是,如果使用 Selenium 直接打开该页面会触发反爬,这里我们需要修改浏览器特征值

接着,打开目标页面,爬取电影的类型及演员列表

最后,将数据将存储到 Item 中

5、编写数据库管道,将上面的数据存储到数据库表中

6、配置爬虫项目 settings.py

在 settings.py 文件中,对下载延迟、默认请求头、下载管道 Pipline等进行配置

7、运行入口

在项目根目录下创建一个文件,用于定义爬虫的运行入口

最后,我们将爬虫部署到服务器,设置定时任务及消息通知

这样我们可以及时获取最近上映的电影,通过电影类型及演员阵容,挑选自己喜欢的电影

文中所有的源码我已经上传到公众号后台,回复关键字230708获取完整源码

如果大家有任何疑惑,欢迎在评论区留言!

推荐阅读

如何利用 Selenium 对已打开的浏览器进行爬虫!

如何利用 Playwright 对已打开的浏览器进行爬虫!

最全总结 | 聊聊 Selenium 隐藏浏览器指纹特征的几种方式!

END

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OvR333jzlRYCAe7jOs_IbeIA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券