Scrapy crawl类跳过链接，不返回响应正文

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地抓取和提取网页数据。它提供了强大的功能和灵活的配置选项，使开发者能够轻松地构建和管理爬虫程序。

在Scrapy中，可以通过编写Spider类来定义爬取规则和数据提取逻辑。Spider类是Scrapy的核心组件之一，用于指导爬虫程序的行为。在Spider类中，可以通过编写start_urls和parse方法来实现对网页的抓取和数据提取。

当爬虫程序遇到某些链接不需要返回响应正文时，可以通过在Spider类中的parse方法中跳过这些链接。具体的实现方式是在parse方法中判断链接是否需要跳过，如果需要跳过，则直接返回空的响应对象，不进行后续的数据提取和处理。

以下是一个示例代码，演示了如何在Scrapy中跳过链接，不返回响应正文：

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://www.example.com']

    def parse(self, response):
        # 判断链接是否需要跳过
        if self.should_skip(response.url):
            return scrapy.http.Response(url=response.url, body='', status=200)

        # 进行数据提取和处理
        # ...

    def should_skip(self, url):
        # 根据具体的需求判断链接是否需要跳过
        # 返回True表示需要跳过，返回False表示不需要跳过
        # ...

在上述示例代码中，通过在should_skip方法中判断链接是否需要跳过。如果需要跳过，则返回一个空的响应对象，状态码为200，表示请求成功但没有返回正文。这样就可以实现跳过链接，不返回响应正文的功能。

Scrapy的优势在于其高度可定制化和灵活性，可以根据具体需求进行配置和扩展。它适用于各种类型的网页抓取和数据提取任务，包括但不限于数据采集、搜索引擎、数据挖掘等。腾讯云提供了云服务器、云数据库、云存储等相关产品，可以与Scrapy结合使用，实现高效的数据采集和处理。

腾讯云相关产品推荐：

云服务器（CVM）：提供弹性计算能力，支持按需购买和预付费模式，适用于部署和运行Scrapy爬虫程序。详细信息请参考：腾讯云云服务器
云数据库MySQL版（CDB）：提供稳定可靠的云数据库服务，适用于存储和管理爬取到的数据。详细信息请参考：腾讯云云数据库MySQL版
对象存储（COS）：提供安全可靠的云存储服务，适用于存储爬取到的文件和图片等数据。详细信息请参考：腾讯云对象存储

以上是关于Scrapy crawl类跳过链接，不返回响应正文的完善且全面的答案。希望对您有帮助！

页面内容是否对你有帮助？

有帮助

没帮助

如何正确运行cron中的刮刮爬行

在运行命令所需的特定文件夹中，如何在scrapy crawl empt.com作业中运行像cron这样的命令，例如： /downloads/my_crawler/empt/empt/然后是命令scrapy crawl empt.com 我当前的crontab条目如下：0 */2 * * * * root /downloads/my_cralwer/empt/empt/ scrapy crawl empt.com，谢谢！

浏览 0提问于2010-10-23得票数 1

回答已采纳

1回答

用多进程运行多个Scrapy的最佳方式是什么？

、、、、

目前，我使用Scrapy进行多进程处理。我做了一个POC，为了跑很多蜘蛛。我的代码是这样的： #!/usr/bin/python # -*- coding: utf-8 -*- from multiprocessing import Lock, Process, Queue, current_process def worker(work_queue, done_queue): try: for url in iter(work_queue.get, 'STOP'): status_code = run_spider(acti

浏览 0提问于2015-08-14得票数 3

1回答

在通过shell脚本运行时出现"scrapy: command not found“

、、、、

我有一个shell脚本，通过它我可以运行多个测试脚本，使用Scrapy抓取数据并导航到多个目录。该脚本如下所示： export PATH=$PATH echo $PATH cd wait/test/ScrapyCrawl python runner.py #Test file scrapy crawl Flipkart scrapy crawl shopin1 scrapy crawl Happily scrapy crawl Healthkart scrapy crawl Dezains scrapy crawl Fnp scrapy crawl Vmate scrapy crawl Exl

浏览 5提问于2014-03-14得票数 0

1回答

Scrapy ` `ReactorNotRestartable`：运行两个(或多个)蜘蛛的一个类

、、

我正在用Scrapy两阶段爬行来聚合日常数据。第一阶段从索引页面生成URL列表，第二阶段为列表中的每个URL编写HTML到Kafka主题。尽管爬行的两个组件是相关的，但我希望它们是独立的：url_generator将作为预定任务每天运行一次，page_requester将持续运行，在可用时处理URL。为了“礼貌”，我将调整DOWNLOAD_DELAY，使爬虫在24小时内很好地完成，但把最小的负荷在网站上。我创建了一个CrawlerRunner类，它具有生成URL和检索HTML的函数： from twisted.internet import reactor from scrapy

浏览 3提问于2015-06-21得票数 5

回答已采纳

4回答

从命令列表中调用shell命令，直到所有命令都完成为止

、、

我有要调用的shell命令列表。最多可有四个进程同时运行。我的基本想法是将命令发送到shell，直到4个命令处于活动状态。然后，脚本通过查找一个常见的字符串，例如“”，不断检查所有进程的进程计数。一旦进程计数降到4以下，下一个命令就会发送到shell，直到所有命令都完成为止。有什么方法可以用shell脚本来完成这个任务吗？我想这会涉及到某种无穷无尽的循环，中断条件以及检查活动进程的方法。不幸的是，我并不擅长shell脚本，所以也许有人能引导我走向正确的方向？ nohup scrapy crawl urlMonitor -a slice=0 & nohup scrapy crawl

浏览 8提问于2014-12-15得票数 3

回答已采纳

1回答

在Klein/Twisted中运行多个scrapy爬虫

、、、

目前我正在做一个作为API运行的爬虫项目，因此我做了一些关于在HTTP服务器中运行scrapy的研究。为了简单起见，我选择了Python Klein，基本上遵循以下内容： https://github.com/betinacosta/scrapy-klein-tutorial/blob/master/README%5BEN-US%5D.md 目前，我的代码看起来像这样(Python 3.9)： import json import os from klein import Klein from scrapy import signals from scrapy.crawler import

浏览 32提问于2021-07-30得票数 0

1回答

Scrapy API - Spider类init参数变为无

、

在我获得Scrapy的Windows 7上重新安装了用于Windows和Python2.7的Miniconda 64位exe安装程序之后，下面是安装的内容： Python 2.7.12 刮伤1.1.1 扭曲16.4.1 这个最小的代码，从"python“运行(使用Scrapy )： #!/usr/bin/env python2.7 # -*- coding: utf-8 -*- import scrapy.spiders.crawl import scrapy.crawler import scrapy.utils.project class MySpider(

浏览 0提问于2016-09-22得票数 2

回答已采纳

1回答

Scrapy: TypeError: start_requests()只需要2个参数(1给定)

、

我正在着手一个新的项目。到目前为止，我已经： class ContactSpider(Spider): name = "contact" allowed_domains = ["http://www.domain.com/"] start_urls = [ "http://web.domain.com/DECORATION" ] def start_requests(self,response): l = response.selector.xpath('//

浏览 1提问于2016-08-17得票数 0

回答已采纳

1回答

linux上的shell脚本

、、

这是我的shell脚本 #!/bin/bash crawlers(){ nohup scrapy crawl a & nohup scrapy crawl b & wait $! nohup scrapy crawl f & nohup scrapy crawl g & wait $! nohup scrapy crawl h & nohup scrapy crawl i & wait $! nohup scrapy crawl i & nohup

浏览 2提问于2012-11-03得票数 2

回答已采纳

1回答

如何使用pip在Scrapinghub上安装中间件

、、、

我有一个很粗糙的项目，它通过pip使用中间件安装。更具体地说，。设置文件#-编码: utf-8 -- # Scrapy settings for batdongsan project # # For simplicity, this file contains only settings considered important or # commonly used. You can find more settings consulting the documentation: # # http://doc.scrapy.org/en/latest/topics/settings.

浏览 4提问于2017-09-02得票数 0

1回答

如何将运行scrapy的默认设置设置为python脚本？

、、、

我想将scrapy作为python脚本运行，但我不知道如何正确设置设置或如何提供它们。我不确定这是否是个设置问题，但我想是的。我的配置： Python2.7 x86 (作为虚拟环境) 刮伤1.2.1 Win 7 x64 我听取了的建议，让它运行起来。我对以下建议有一些意见：如果您在Scrapy项目中，可以使用一些额外的帮助程序在项目中导入这些组件。您可以自动导入将名称传递给CrawlerProcess的蜘蛛，并使用get_project_settings获取带有项目设置的设置实例。那么，“在项目内部”意味着什么？当然，我必须导入库并安装依赖项，但我希望避免使用

浏览 4提问于2016-11-18得票数 1

回答已采纳

1回答

已使用scrapy和pyquery登录到Stackoverflow，但无法进行进一步的抓取

、、

我目前正在学习使用scrapy进行web抓取，并尝试/学习各种登录stackoverflow的方法，然后提取一些问题来练习web抓取。我已经使用scrapy和pyquery成功登录到stackoverflow，使用的代码如下： import scrapy import requests import getpass from pyquery import PyQuery from scrapy import FormRequest from scrapy.utils.response import open_in_browser class QuoteSpider(scrapy.Spide

浏览 3提问于2020-10-13得票数 1

1回答

cron作业不会输出到nohup.out

、、、、

我有start.sh bash脚本，它通过ubuntu服务器上的CRON作业运行。 start.sh包含下面提到的代码行 start.sh的路径是/home/ubuntu/folder1/folder2/start.sh #!/bin/bash crawlers(){ nohup scrapy crawl first & nohup scrapy crawl 2nd & wait $! nohup scrapy crawl 3rd & nohup scrapy crawl 4th & wait } cd /ho

浏览 2提问于2013-01-03得票数 15

回答已采纳

2回答

Scrapy代码无法接受Python脚本中的参数

、

我正在尝试在Python脚本中运行Scrapy。相关代码如下： import scrapy from scrapy.crawler import CrawlerProcess class PostSpider(scrapy.Spider): name = "post crawler" allowed_domains = ['test.com'] def __init__(self, **kwargs): super(PostSpider, self).__init__(**kwargs) url =

浏览 0提问于2016-03-25得票数 2

2回答

如何将爬行的数据从Scrapy存储到FTP作为csv？

、、

我的刮痕settings.py from datetime import datetime file_name = datetime.today().strftime('%Y-%m-%d_%H%M_') save_name = file_name + 'Mobile_Nshopping' FEED_URI = 'ftp://myusername:mypassword@ftp.mymail.com/uploads/%(save_name)s.csv' 当我运行我的蜘蛛抓取my_project_name时出错.我可以创建一条管道吗？ \scrapy\

浏览 3提问于2021-04-28得票数 0

4回答

AttributeError：“module”对象没有属性“”update_settings“”scrapy 1.0.5“”

、、、

crawler在命令行中运行良好，并显示以下错误： 2016-03-30 03:47:59 [scrapy] INFO: Scrapy 1.0.5 started (bot: scrapybot) 2016-03-30 03:47:59 [scrapy] INFO: Optional features available: ssl, http11 2016-03-30 03:47:59 [scrapy] INFO: Overridden settings: {'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Window

浏览 3提问于2016-03-30得票数 5

1回答

如何将多个参数传递给Scrapy蜘蛛(不再支持运行多个蜘蛛的“抓取爬行”错误)？

、

我希望将多个用户定义的参数传递给我的scrapy，因此我尝试遵循以下文章：。然而，当我遵循建议时，我会得到一个错误： root@ scrapy crawl dmoz -a address= 40-18 48th st -a borough=4 Usage ===== scrapy crawl [options] <spider> crawl: error: running 'scrapy crawl' with more than one spider is no longer supported 我还尝试了各种引号排列： root@ scrapy craw

浏览 1提问于2015-06-23得票数 6

回答已采纳

1回答

使用scrapy将数据刮到一个变量，而不是文件/数据库

、

我正在尝试将scrapy作为python脚本运行，并希望处理被刮掉的数据，而不是存储在文件/数据库中。代码看起来就像 import scrapy import scrapy.crawler as crawler from scrapy.utils.log import configure_logging from multiprocessing import Process, Queue from twisted.internet import reactor # spider class QuotesSpider(scrapy.Spider): name = "quotes

浏览 5提问于2022-06-16得票数 2

2回答

Django自定义管理命令运行Scrapy:如何包含Scrapy的选项？

、、

我希望能够在Django内部运行。Scrapy本身只提供一个命令行工具scrapy来执行其命令，也就是说，该工具不是有意从外部程序中调用的。用户提出了一个，即从Django自定义管理命令调用Scrapy。为了方便起见，我在此重复他的解决办法： # -*- coding: utf-8 -*- # myapp/management/commands/scrapy.py from __future__ import absolute_import from django.core.management.base import BaseCommand class Command(BaseCom

浏览 6提问于2012-05-12得票数 11

回答已采纳

1回答

刮掉的SgmlLinkExtractor推荐人无

、

我想让我的蜘蛛发挥作用。这是我在蜘蛛里的代码： start_urls = ["http://www.khmer24.com/"] rules = ( Rule(SgmlLinkExtractor(allow=(r'ad/\w+/67-\d+\.html',), ), callback='parse_items'), ) 示例url如下所示：我想保留“广告”和"67-“ scrapy crawl khmer24的输出是： Crawled (200) <GET http://www.khmer24.com/&

浏览 1提问于2013-02-28得票数 1

1回答

请向“抓取爬行”命令解释第一个参数

、

在中，我们看到正在运行的项目命令crawl： scrapy crawl quotes 我想知道quotes的论点，因为蜘蛛被命名为quotes_spider.py。

浏览 1提问于2020-05-09得票数 0

回答已采纳

2回答

Scrapy在当前爬网之前命中登录爬虫

、、、

我有三只蜘蛛，如下所示 Class LogInSpider(scrapy): name = 'DomainLogin' allowed_domains = ['domain.io'] start_urls = ['https://www.domain.io/signin'] def parse(self, response): return FormRequest.from_response(response,formdata={ 'email':email,

浏览 19提问于2021-06-04得票数 1

4回答

scrapyd部署按scrapyd-client显示0个爬行器

、

我发现我的问题和非常相似。我也尝试了几次被接受的答案，但它对我不起作用，所以我来寻求一些帮助。项目目录为timediff_crawler，目录的树视图为： timediff_crawler/ ├── scrapy.cfg ├── scrapyd-deploy ├── timediff_crawler │ ├── __init__.py │ ├── items.py │ ├── pipelines.py │ ├── settings.py │ ├── spiders │ │ ├── __init__.py │ │ ├── prod │ │ │ ├

浏览 2提问于2015-11-11得票数 0

4回答

如何从php脚本执行shell

、、、

我想从php脚本执行这个命令。 scrapy crawl example -a siteid=100 我试过这个： <?php $id = 100; exec('scrapy crawl example -a siteid= $id' $output, $ret_code); ?>

浏览 7提问于2016-06-17得票数 0

回答已采纳

3回答

深度大于1的无法爬行抓取

我无法将scrapy配置为在深度大于1的情况下运行，我尝试了以下3个选项，它们都不起作用，摘要日志中的request_depth_max始终为1： 1)添加： from scrapy.conf import settings settings.overrides['DEPTH_LIMIT'] = 2 到爬虫文件(网站上的例子，只是不同的网站) 2)运行带-s选项的命令行： /usr/bin/scrapy crawl -s DEPTH_LIMIT=2 mininova.org 3)添加到settings.py和scrapy.cfg DEPTH_LIMIT=2 如何将其配置为大于1

浏览 0提问于2012-08-15得票数 5

2回答

从脚本中运行多个蜘蛛

、

我正在做刮擦项目，我想一次运行多个蜘蛛--这是脚本中运行蜘蛛的代码。我错了..。怎么做？ from spiders.DmozSpider import DmozSpider from spiders.CraigslistSpider import CraigslistSpider from scrapy import signals, log from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy.settings import Settings TO_CRAWL

浏览 4提问于2016-03-07得票数 1

1回答

让两个函数同时并行运行？

、、、

我有一个数组 myArray = array(url1,url2,...,url90) 我想并行执行这个命令3次。 scrapy crawl mySpider -a links=url 并且每次使用1个url， scrapy crawl mySpider -a links=url1 scrapy crawl mySpider -a links=url2 scrapy crawl mySpider -a links=url3 当第一个人完成他的工作时，他会得到另一个url，比如 scrapy crawl mySpider -a links=url4 我读了，然后和我尝试了一下： import t

浏览 11提问于2016-09-09得票数 0

回答已采纳

1回答

包含子字符串的URL的Scrapy DropItem

、、、

我对Python非常陌生，我正在使用scrapy。现在，我有两种蜘蛛，一种用于谷歌，另一种用于网页本身。我计划将它们组合在一起，但尚未完成，因为我希望对这些页面分别进行故障排除。这两种蜘蛛都能正常工作，但我希望能够将内部链接从刮掉的链接列表中删除(因此那些包含“#”符号的链接)。我尝试了无数种不同的方法，包括使用find & regex，更改变量名，而不是使用变量，在表达式中添加"self“，但似乎没有任何影响。输油管道启用了--它似乎什么也没做。任何帮助都是非常感谢的。 pipelines.py from scrapy.exceptions import DropItem

浏览 2提问于2022-10-16得票数 -1

1回答

scrapy-spash: SplashRequest响应对象在刮擦爬行调用与CrawlerProcess调用之间有所不同

、、、、

我想使用scrapy来获取目标页面的html和屏幕快照png。我需要能够以编程方式调用它。根据，指定 endpoint='render.json' 和传递的论点 'png': 1 应该会产生一个响应对象('scrapy_splash.response.SplashJsonResponse')，其中包含一个.data属性，该属性包含表示目标页面的png屏幕快照的解码JSON数据。当蜘蛛(此处命名为'search')被调用时 scrapy crawl search 结果与预期的一样，response.data' png‘包含

浏览 2提问于2019-03-10得票数 1

2回答

vscode debug python scrapy不进入回调函数

、、

测试爬虫： class QuotesSpider(scrapy.Spider): name = "quotes" def start_requests(self): urls = [ 'http://quotes.toscrape.com/page/1/', 'http://quotes.toscrape.com/page/2/', ] for url in urls: yield scrapy.Request(url=url, callback=self.parse)

浏览 34提问于2019-01-25得票数 1

5回答

如何使用py文件运行scrapy

、

嗨，我在scrapy上工作，我用scrapy startproject example创建了一个scrapy文件夹，并编写了爬行器来抓取url中的所有数据，我已经使用scrapy crawl spider_name命令运行了爬行器，它工作得很好，能够提取数据。但是我有一个要求，我需要用创建的单个爬虫文件运行scrapy，我的意思是单个py文件，类似于 python -u /path/to/spider_file_inside_scrapy_folder_created.py 在创建包含spider.py文件的scrapy项目文件夹后，是否可以在没有scrapy crawl命令的情况下运行爬行

浏览 1提问于2012-09-29得票数 8

回答已采纳

2回答

从java调用时，bash脚本不等待命令完成

、、、、

我正在运行以下bash脚本 scrapy crawl flipkart -a key="$1" -o "$2"flipkart.xml scrapy crawl myntra -a key="$1" -o "$2"myntra.xml scrapy crawl jabong -a key="$1" -o "$2"jabong.xml echo " scrapy completed" bash脚本在通过终端执行时如预期的那样运行，它完成了scrapy命令的一次执行，然后是另一次执行，

浏览 0提问于2015-05-26得票数 2

6回答

如何动态设置Scrapy规则？

、

我有一个类在init之前运行一些代码： class NoFollowSpider(CrawlSpider): rules = ( Rule (SgmlLinkExtractor(allow=("", ),), callback="parse_items", follow= True), ) def __init__(self, moreparams=None, *args, **kwargs): super(NoFollowSpider, self).__init__(*args, **kwargs)

浏览 2提问于2014-12-16得票数 4

回答已采纳

1回答

Scrapy crawl类跳过链接，不返回响应正文

、、

现在我正试着抓取这个网页：http://search.siemens.com/en/?q=iot 为此，我需要提取链接并解析它们，这应该可以通过Crawl类来实现。然而，我的实现似乎不起作用。出于测试目的，我尝试从每个网站返回响应正文。不幸的是，爬虫每隔三分之一左右才打开一次链接，并且不会给我返回响应体。你知道我做错了什么吗？ import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Rule class SiemensCrawlSSpide

浏览 23提问于2019-05-08得票数 0

回答已采纳

1回答

Apscheduler+scrapy信号仅在主线程中工作

、

我想结合一个调度器与scrapy.but我的代码是错误的。该怎么修改呢？ settings = get_project_settings() configure_logging(settings) runner = CrawlerRunner(settings) @defer.inlineCallbacks def crawl(): reactor.run() yield runner.crawl(Jobaispider)#this is my spider yield runner.crawl(Jobpythonspider)#this is my spider

浏览 4提问于2018-12-04得票数 4

1回答

刮擦蜘蛛通过参数

、、

我有一只这样的蜘蛛 def __init__(self, FirstDateString, LastDateString): 我打电话给CMD如果是这样的话： scrapy crawl Test -a FirstDateString=1st February 2014 -a LastDateString=31th January 2014 但我有个例外： scrapy crawl [options] <spider> crawl: error: running 'scrapy crawl' with more than one spider is no lon

浏览 3提问于2014-02-01得票数 2

回答已采纳

1回答

Scrapy - TypeError:此构造函数不带参数

、、

在尝试运行我的刮取程序时，我一直收到以下错误: TypeError:此构造函数不带参数。我四处寻找，但找不到任何东西来帮助解决我的问题。我不知道我是否只是有一个错误，我错过了或类似的东西，但任何帮助将不胜感激。附加的代码是middlewares.py中给出错误的部分，而不是整个文件。 # middlewares.py import random from copy import copy class ProfileMiddleware: @classmethod def from_crawler(cls, crawler, *args, **kwargs):

浏览 0提问于2019-05-23得票数 1

回答已采纳

1回答

如何将start_urls传递给scrapy

、

基于here的建议，我正在尝试： scrapy crawl spider-name -a start_urls="https://start-url.com/" 我得到了： Traceback (most recent call last): File "/usr/local/lib/python3.9/site-packages/scrapy/core/engine.py", line 129, in _next_request request = next(slot.start_requests) File "/usr/local/

浏览 47提问于2021-09-08得票数 0

4回答

在批处理文件中使用scrapy crawl命令时继续批处理脚本命令

、、

我使用scrapy从网页抓取信息。我已经写了爬虫代码，它工作得很好。我还有一些其他的python代码文件来优化抓取的数据。总而言之，我有一个批处理文件，我首先在其中使用"Scrapy Crawl“命令，然后运行我的python文件来优化抓取的信息。问题是，批处理脚本在"Scrapy Crawl“命令的末尾停止，并且不会继续执行批处理文件中后面的行。我该如何解决这个问题？批处理文件的内容： CD "spiders_folder" scrapy crawl mySpider -o outputData.json -t json python refineDat

浏览 1提问于2013-05-09得票数 1

回答已采纳

1回答

抓取:错误:没有这样的选项：-o

、

当我运行本教程中提到的命令scrapy crawl openings -o items.json -t json时，我得到： Usage ===== scrapy crawl [options] <spider|url> ... crawl: error: no such option: -o 我只是简单地遵循scrapy教程，当我运行没有输出选项的命令时，它工作得很好。 scrapy crawl openings 运行正常，我看到爬行输出，但是如果我想将爬行导出为JSON，它就不能工作。在网上广泛搜索，没有关于这个问题的帮助或提及。

浏览 1提问于2011-11-01得票数 2

回答已采纳

2回答

使命令提示符等待所有进程完成执行

、、

我正在通过java代码运行一个批处理文件。我的批处理文件由几个命令组成。我希望该进程仅在所有进程执行后才终止。我的java代码是 String command = "cmd /c start /wait C:\\python27\\tutorial\\check.bat "+key+" "+formattedDate; Process p=Runtime.getRuntime().exec(command); p.waitFor(); 在此之后，我想在完成批处理文件中的所有进程之后执行一些功能。我的批处理文件 cd\ cd python27 cd tutoria

浏览 6提问于2015-03-27得票数 0

回答已采纳

2回答

抓取相对urls的抓取LxmlLinkExtractor

、、

我想抓取中标记下的所有相对urls 我的代码是： import scrapy from scrapy.selector import Selector from homework.items import HomeworkItem from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.lxmlhtml import LxmlLinkExtractor class News1Spider(scrapy.Spider): name = "News1"

浏览 23提问于2016-08-29得票数 1

1回答

scrapy爬行在命令方面运行良好，但在从脚本运行时有一些担心。

、、

我有点刮痕的问题。当我运行命令scrapy crawl album -o test.xml时，蜘蛛运行得很好。但是当我从脚本中爬行时，我给蜘蛛提供了一个不同的 start_urls，但是使用命令获得了相同的结果。两个网址都有。这是我写的代码。请指出我做错了什么，谢谢。蜘蛛文件 xiami_scrapy.py import scrapy empty_referer = { 'Referer': '' } class AlbumSpider(scrapy.Spider): name = 'album' start_urls

浏览 1提问于2017-08-05得票数 0

1回答

在CrawlerRunner中输入多个蜘蛛变量

、、、

我编写了以两个类变量开头的刮伤蜘蛛，然后希望从Runner运行它。我确实试过： yield runner.crawl(MySpider1, variable1, variable2) 或 yield runner.crawl(MySpider1, [variable1, variable2]) 或 yield runner.crawl(MySpider1, (variable1, variable2)) 或 yield runner.crawl(MySpider1(variable1, variable2)) 但得到缺少1必需的假设论证这是我的代码： from twisted.in

浏览 0提问于2019-03-16得票数 0

1回答

如何让Scrapy在python项目中爬行？

、

我有一个个人项目，它导致我使用Selenium，以便从一对私人邮件，密码夫妇那里获得一个公共url地址。我想在这个url上保存信息，我按照Scrapy教程学习了如何使用这个工具。但是，有没有一种方法可以在MyScrapClass.crawl()这样的Python项目中启动爬行，而不是使用linux命令scrapy crawl MyScrapProject？

浏览 1提问于2016-03-21得票数 0

1回答

使用scrapy顺序运行两个爬行器时仅得到一个结果

、

我的spider.py类中有两个爬行器，我想运行它们并生成csv文件。下面是我的spider.py的结构 class tmallSpider(scrapy.Spider): name = 'tspider' ... class jdSpider(scrapy.Spider): name = 'jspider' ... configure_logging() runner = CrawlerRunner() @defer.inlineCallbacks def crawl(): yield runner.crawl(tm

浏览 16提问于2020-07-08得票数 1

2回答

运行命令"scrapy crawl quotes“时，scrapy教程中出现无效语法错误

、、、

我试图运行这里给出的代码，但是我得到了下面的错误： Deeps-MacBook-Pro:tutorial project$ scrapy crawl quotes 2018-07-24 17:16:24 [scrapy.utils.log] INFO: Scrapy 1.5.1 started (bot: tutorial) 2018-07-24 17:16:24 [scrapy.utils.log] INFO: Versions: lxml 4.2.3.0, libxml2 2.9.4, cssselect 1.0.3, parsel 1.5.0, w3lib 1.19.0, Twisted

浏览 35提问于2018-07-24得票数 1

2回答

在python3.x上启动scrapy项目时发生了一些错误

、、、

python version=3.5.1 scrapy version=1.1.0 rc1 Twisted version =16.1.0(scrapy said Twisted version just need>=15.5) 我知道scrapy 1.1.0完全支持Python3.x，我已经成功地创建了一个项目。但是，当我试图引导程序:scrapy crawl dmoz时，我得到了以下错误： 2016-04-09 21:15:17 [scrapy] INFO: Scrapy 1.1.0rc1 started (bot: doub) 2016-04-09 21:15:17 [scra

浏览 9提问于2016-04-09得票数 1

1回答

cronjob等待问题

、、、

我正在ubuntu服务器上运行python脚本，尽管cron作业下面是我的bash文件内容。 #!/bin/bash cd /home/ubuntu/ PATH=$PATH:/usr/local/bin export PATH nohup scrapy crawl first_job & nohup scrapy crawl second_job & nohup scrapy crawl third_job & wait $(pgrep third_job) nohup scrapy crawl fourth_job & 我想要的是fourth_job在thir

浏览 4提问于2012-10-05得票数 0

回答已采纳

2回答

长时间运行过程中刮擦爬行多次

、、、

因此，我创建了这个类，以便可以使用Scrapy按需爬行： from scrapy import signals from scrapy.crawler import CrawlerProcess, Crawler from scrapy.settings import Settings class NewsCrawler(object): def __init__(self, spiders=[]): self.spiders = spiders self.settings = Settings() def crawl(self, sta

浏览 8提问于2016-02-09得票数 2

回答已采纳