下载器(Downloader)
用于下载网页的内容,并将网页内容返回给蜘蛛(Scrapy下载是建立在twisted这个高效的异步模型上的)。...爬虫(Spiders)
爬虫主要是干活的,用于从特定的网页中提取自己需要的信息,即所谓的实体(item).用户也可以从中取出链接,让Scrapy继续抓取下一个页面。...项目管道(Pipeline)
负责处理爬虫从网页中抽取的实体,主要的功能是持久化实体、验证实体的有效性,清楚不需要的信息,当页面被爬虫解析后,将被发送到项目管道,并经过几个特定的次序处理数据。...(url, callback=self.parse_model)
# 解析每个板块页面中对应新闻的标题和新闻详情页的url
def parse_model(self, response...(callback) 的解析操作
----
案例演示
爬取sun网站中的编号,新闻标题,新闻内容,标号
sun.py
import scrapy
from scrapy.linkextractors