前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬虫项目#4567电影网scrapy数据爬取moviePro/持久化储存handReqPro

爬虫项目#4567电影网scrapy数据爬取moviePro/持久化储存handReqPro

作者头像
全栈程序员站长
发布2022-09-17 13:03:08
4630
发布2022-09-17 13:03:08
举报
文章被收录于专栏:全栈程序员必看

大家好,又见面了,我是你们的朋友全栈君。

仅用与备忘录 ____movie.py import scrapy from moviePro.items import MovieproItem

class MovieSpider(scrapy.Spider): name = ‘movie’ #allowed_domains = [‘www.xxx.com’] start_urls = [‘http://www.4567kan.com/frim/index1.html’] url=‘http://www.4567kan.com/frim/index1-%d.html’ pageNum=2 def parse(self, response): li_list = response.xpath(’/html/body/div[1]/div/div/div/div[2]/ul/li’) for li in li_list: title=li.xpath(’./div/a/@title’).extract_first() detail_url=‘http://www.4567kan.com’+li.xpath(’./div/a/@href’).extract_first() item=MovieproItem() item[‘title’]=title #对详情页url发起请求,callback的self.parse用于反馈首页 #meta作用为可以将meta字典传递给callback yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={‘item’:item}) #拿到前四页页面源码数据 if self.pageNum<5: new_url=format(self.url%self.pageNum) self.pageNum+=1 yield scrapy.Request(url=new_url,callback=self.parse) #parse_detail用于解析详情页的数据 def parse_detail(self,response): #接受传递过来的meta,实现传递参数 item=response.meta[‘item’] desc=response.xpath(’/html/body/div[1]/div/div/div/div[2]/p[5]/span[2]’).extract_first() item[‘desc’]=desc yield item ____________________item.py import scrapy

class MovieproItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title=scrapy.Field() desc=scrapy.Field() ________________________pipeline.py

class MovieproPipeline: def process_item(self, item, spider): print(item) return item _______________________setting.py ITEM_PIPELINES = { ‘moviePro.pipelines.MovieproPipeline’: 300, } BOT_NAME = ‘moviePro’

SPIDER_MODULES = [‘moviePro.spiders’] NEWSPIDER_MODULE = ‘moviePro.spiders’

USER_AGENT = ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4343.0 Safari/537.36’

ROBOTSTXT_OBEY = False LOG_LEVEL=‘ERROR’ 持久化储存略————————————

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/159333.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档