Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >scrapy安装步骤_linux下安装scrapy

scrapy安装步骤_linux下安装scrapy

作者头像
全栈程序员站长
发布于 2022-09-28 03:27:20
发布于 2022-09-28 03:27:20
1.3K0
举报

大家好,又见面了,我是你们的朋友全栈君

1、Scrapy是什么 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理 或存储历史数据等一系列的程序中。 2、scrapy安装

安装过程中出错: 如果安装出现一下错误 building ‘twisted.test.raiser’ extension error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”: http://landinghub.visualstudio.com/visual‐cpp‐build‐tools

解决方案: http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 下载twisted对应版本的whl文件(如我的Twisted‐17.5.0‐cp37‐cp37m‐win_amd64.whl),cp后面是 python版本,amd64代表64位,运行命令: pip install C:\Users…\Twisted‐17.5.0‐cp37‐cp37m‐win_amd64.whl pip install scrapy

3、scrapy项目的创建以及运行 3.1scrapy项目的创建 在pycharm终端通过cd命令进入创建项目路径下的文件夹,然后创建一个名为spider_baidu项目(注意:项目名称的定义务必不出现中文)。

创建项目步骤如下图所示:

创建成功后该项目忽然多了5个python文件,如图所示: You can start your first spider with: cd spider_baidu scrapy genspider example example.com

因此该项目(spider_baidu)组成: spider_baidu init.py 自定义的爬虫文件.py ‐‐‐》 由我们自己创建,是实现爬虫核心功能的文件 init.py items.py ‐‐‐》定义数据结构的地方,是一个继承自scrapy.Item的类 middlewares.py ‐‐‐》中间件 代理 pipelines.py ‐‐‐》管道文件,里面只有一个类,用于处理下载数据的后续处理默认是300优先级,值越小优先级越高(1‐1000) settings.py ‐‐‐》配置文件 比如:是否遵守robots协议,User‐Agent定义等

4.创建爬虫文件: (1)进入到spiders文件夹 cd 目录名字/目录名字/spiders (2)scrapy genspider 爬虫名字 网页的域名 现以百度网站为例: eg:scrapy genspider baidu https://www.baidu.com/

spider文件目录下出现baidu.py文件,点击后可以看到自动生成内容: baidu.py爬虫文件的基本组成: 继承scrapy.Spider类 name = ‘baidu’ ‐‐‐》 运行爬虫文件时使用的名字 allowed_domains ‐‐‐》 爬虫允许的域名,在爬取的时候,如果不是此域名之下的url,会被过滤掉 start_urls ‐‐‐》 声明了爬虫的起始地址,可以写多个url,一般是一个 parse(self, response) ‐‐‐》解析数据的回调函数 5.运行爬虫文件: scrapy crawl 爬虫名称 eg:scrapy crawl baidu

以上出现报错,只需在settings.py文件把ROBOTSTXT_OBEY = True注释掉再运行即可

再运行之后,如下图所示:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/193742.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022年9月2日 下,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
爬虫框架Scrapy总结笔记
由于工作需要,学习一下爬虫框架,在网上看了别人的笔记和教学视频,想总结一下便于以后复习用,然后和大家分享一下。
木野归郎
2021/03/11
5150
爬虫框架Scrapy总结笔记
Scrapy框架基础
简介 Scrapy是一个高级的Python爬虫框架,它不仅包含了爬虫的特性,还可以方便的将爬虫数据保存到csv、json等文件中。 首先我们安装Scrapy。  其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy 使用了 Twisted异
人生不如戏
2018/07/04
6030
Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解
这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名 例子如下: localhost:spider zhaofan$ scrapy star
coders
2018/01/04
1.1K0
Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解
分布式爬虫scrapy+redis入门
利用分布式爬虫scrapy+redis爬取伯乐在线网站,网站网址:http://blog.jobbole.com/all-posts/ 后文中详情写了整个工程的流程,即时是新手按照指导走也能使程序成功运行。
潇洒坤
2018/09/10
1.4K0
分布式爬虫scrapy+redis入门
爬虫框架 Scrapy 知识点简介
Scrapy框架因为功能十分强大,所以依赖很多库,不能直接安装,需要先安装依赖库,因为我的电脑在Windows下,所以这里展示Windows下的安装方法(如果有其他平台的需要,欢迎给我留言我在发出来)。
数据STUDIO
2022/04/11
3470
爬虫框架 Scrapy 知识点简介
Scrapy框架(一):基本使用
本篇文章简单介绍一下Scrapy框架的基本使用方法,以及在使用过程中遇到的一些问题和解决方案。
花猪
2022/02/16
7200
Scrapy框架(一):基本使用
scrapy安装教程_玻璃幕墙安装介绍
Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛
全栈程序员站长
2022/10/02
3290
scrapy安装教程_玻璃幕墙安装介绍
Python之scrapy框架
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
鱼找水需要时间
2023/02/16
5310
Python之scrapy框架
爬虫框架Scrapy的安装与基本使用
下载地址:https://www.lfd.uci.edu/~gohlke/pythonlibs/
不断折腾
2019/09/23
9560
爬虫框架Scrapy的安装与基本使用
scrapy入门
scrapy是一个为了爬去网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速的抓取
py3study
2020/01/20
6010
scrapy常用命令
scrapy常用的命令分为全局和项目两种命令,全局命令就是不需要依靠scrapy项目,可以在全局环境下运行,而项目命令需要在scrapy项目里才能运行。 一、全局命令 ##使用scrapy -h可以看到常用的全局命令 [root@aliyun ~]# scrapy -hScrapy 1.5.0 - no active project Usage: scrapy <command> [options] [args] Available commands: bench Run qui
IT架构圈
2018/06/01
7250
Scrapy爬虫,华为商城商品数据爬虫demo
来自于华为云开发者大会,使用Python爬虫抓取图片和文字实验,应用Scrapy框架进行数据抓取,保存应用了mysql数据库,实验采用的是线上服务器,而这里照抄全是本地进行,如有不同,那肯定是本渣渣瞎改了!
二爷
2020/11/25
8180
Scrapy爬虫,华为商城商品数据爬虫demo
Scrapy库安装和项目创建建议收藏
  使用pip命令安装scrapy,在安装过程中可能会因为缺少依赖库而报错,根据报错提示依次下载需要的依赖库,下载过程中注意系统类型和Python版本
全栈程序员站长
2022/07/14
5210
爬虫之scrapy框架(一)
Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
GH
2020/03/19
8810
Python scrapy框架的简单使用
注意:Scrapy运行ImportError: No module named win32api错误。请安装:pip install pypiwin32
Python知识大全
2020/02/13
1.1K0
Python scrapy框架的简单使用
Scrapy 爬虫完整案例—从小白到大神(银行网点信息为例)
采用selenium界面抓取信息,需要渲染界面,并且也是单线程操作,效率极低,一晚上只爬去了一个工行的数据。
全栈程序员站长
2022/09/07
4540
Scrapy 爬虫完整案例—从小白到大神(银行网点信息为例)
Python 爬虫框架Scrapy安装汇总
练习了基本的操作之后,当然就要找框架来进行爬虫实验啊。于是就在网上找Windows 64安装Scrapy的方法,查到的都是非常繁琐的安装方式,由于Scrapy有很多个依赖,所以在安装Scrapy之前你就要先安装他的所有的依赖啊,下面列举出部分依赖库:
Lansonli
2021/10/09
6640
web爬虫-用Scrapy抓个网页
Scrapy是一种快速的高级Web爬虫和Web抓取框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。
XXXX-user
2019/07/25
8540
web爬虫-用Scrapy抓个网页
一、scrapy的下载安装---Windows(安装软件太让我伤心了) 总的来说:
写博客就和笔记一样真的很有用,你可以随时的翻阅。爬虫的爬虫原理与数据抓取、非结构化与结构化数据提取、动态HTML处理和简单的图像识别已经学完,就差整理博客了 开始学习scrapy了,所以重新建了个分类。 scrapy的下载到安装,再到能够成功运行就耗费了我三个小时的时间,为了防止以后忘记,记录一下。 我用的是Python3.6.        Windows    需要四步 1、pip3 install wheel 2、安装Twisted a. http://www.lfd.uci.edu/~gohlke
酱紫安
2018/04/16
9500
一、scrapy的下载安装---Windows(安装软件太让我伤心了)
		总的来说:
Scrapy爬虫框架,入门案例(非常详细)「建议收藏」
Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试.
全栈程序员站长
2022/09/13
14.2K0
相关推荐
爬虫框架Scrapy总结笔记
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档