首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Python爬虫——Scrapy简介

    Scrapy Engine(引擎):Scrapy框架的核心部分。负责在Spider和ItemPipeline、Downloader、Scheduler中间通信、传递数据等。 Spider(爬虫):发送需要爬取的链接给引擎,最后引擎把其他模块请求回来的数据再发送给爬虫,爬虫就去解析想要的数据。这个部分是我们开发者自己写的,因为要爬取哪些链接,页面中的哪些数据是我们需要的,都是由程序员自己决定。 Scheduler(调度器):负责接收引擎发送过来的请求,并按照一定的方式进行排列和整理,负责调度请求的顺序等。 Downloader(下载器):负责接收引擎传过来的下载请求,然后去网络上下载对应的数据再交还给引擎。 Item Pipeline(管道):负责将Spider(爬虫)传递过来的数据进行保存。具体保存在哪里,应该看开发者自己的需求。 Downloader Middlewares(下载中间件):可以扩展下载器和引擎之间通信功能的中间件。 Spider Middlewares(Spider中间件):可以扩展引擎和爬虫之间通信功能的中间件。

    02

    利用github+jsDelivr搭建图床

    图床是什么?图床就是图片存放的地址,用来节省服务器的资源,也可以变相的提升网站加载速度 你是否正在遭遇以下问题: 1.在用静态博客网站写文章,图片不知怎么保存,保存在哪里 2.网上复制的心仪图片链接,用着用着某一天就失效了 3.特意花钱租个云服务器托管图片,划不来,而且上传操作好繁琐 4.市面上形形色色的免费图床,但都有时间期限,要么就是速度慢,存储空间小,有的还限流量 现在可以利用jsdelivr加速github仓库来实现图床,无论是否使用jsdelivr你都可以利用github搭建一个图床,但缺点是国内加载速度非常慢,严重影响我们的需求,为此我们还需要利用jsdelivr的cdn加速,jsdelivr在国内的节点有上百个,这样我们就得到了一个访问速度贼快,且免费,空间无限的一个图床。 下面就是教程了,有疑问有错误请评论指出,谢谢,仅以此文章帮助烂记性的自己和正在观看此博客的你。

    02
    领券