如何查看scrapy中启动的每个爬虫的IP？

在Scrapy中，可以通过编写一个自定义的中间件来查看每个爬虫的IP。

首先，需要在Scrapy项目中创建一个中间件文件。在命令行中进入项目目录，运行以下命令来生成一个名为middlewares.py的文件：

scrapy genspider middlewares

然后，打开生成的middlewares.py文件，并添加以下代码：

class SpiderIPMiddleware(object):
    def process_request(self, request, spider):
        ip = request.meta.get('REMOTE_ADDR')
        spider.logger.info(f"Spider IP: {ip}")

这个中间件会在每次发送请求之前被调用，并获取请求的IP地址。然后，将中间件添加到Scrapy的中间件配置中。在项目的settings.py文件中，添加以下代码：

DOWNLOADER_MIDDLEWARES = {
    'your_project_name.middlewares.SpiderIPMiddleware': 543,
}

请将your_project_name替换为你的Scrapy项目名称。

之后，重新运行爬虫，你将能够看到每个爬虫的IP地址。这些信息会显示在Scrapy日志中。

注意：由于本问答要求不能提及具体的云计算品牌商，无法提供与腾讯云相关的产品和链接。

如何在Scrapy中的同一进程中运行多个爬行器

、、

我是Python & Scrapy的初学者。我刚刚创建了一个带有多个爬虫的Scrapy项目，在运行"scrapy crawl ..“它只运行第一个爬虫。如何在同一进程中运行所有爬行器？提前谢谢。

浏览 0提问于2014-04-11得票数 2

1回答

Crawler进程意外死亡

、、

我正面临爬虫进程意外死亡的问题。我使用的是scrapy 0.14，这个问题也存在于0.12中。其他人有没有遇到过类似的情况？我如何追踪这些过程消失的原因，有什么想法，建议吗？

浏览 1提问于2012-04-13得票数 2

1回答

我有一个脚本设置如下： try: from Xinhua import Xinhua except: error_message("Xinhua") try: from China_Daily import China_Daily except: error_message("China Daily") try: from Global_Times import Global_Times except: error_message("Global Times") try: from P

浏览 5提问于2022-08-06得票数 1

回答已采纳

0回答

Scrapy:一个项目中的多个爬虫

、

我已经写了一个网络爬虫与代理使用scrapy。因为我总是需要一个随机的代理池来避免被禁止，我决定编写另一个爬虫来抓取一个提供免费IP的网站。目前，我在两个独立的scrapy项目中使用了这两个爬行器，它们具有不同的设置、管道和中间件。每次开始爬虫过程时，我都需要首先抓取IP，将它们导出到一个文件中，然后转到另一个爬虫的根目录并将IP读取到setting.py中。我想知道是否有可能将两个爬虫合并到一个项目中，这样我只需要运行一个命令就可以开始整个爬行过程。非常感谢!

浏览 7提问于2016-07-07得票数 0

3回答

Scrapy -如何启动同一爬虫进程的多个实例？

、、、

我在启动同一爬虫的多个实例时被卡住了。我想让它像一个爬虫实例的1url一样运行。我必须处理50k个urls，为此，我需要为每个urls启动单独的实例。在我的主要爬虫脚本中，我设置了7分钟的closedpider超时，以确保我不会爬行很长时间。请参考下面的代码： from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings import urlparse for start_url in all_urls: domain = urlparse.urlpars

浏览 1提问于2015-11-13得票数 6

1回答

如何根据单个scrapy.Spider的不同命令设置不同的IP？

、、、、

我有一大堆页面要抓取，大约20万页。我通常使用Tor和Polipo代理来隐藏我的蜘蛛行为，即使它们是有礼貌的，我们永远不知道。因此，如果我登录，这是无用的使用一个帐户和更改IP。因此，这就是为什么我可以在网站上创建几个帐户，并用如下所示的参数设置我的爬虫： class ASpider(scrapy.Spider): name = "spider" start_urls = ['https://www.a_website.com/compte/login'] def __init__ (self, username=None, pass

浏览 13提问于2019-02-12得票数 1

1回答

scrapy shell在添加第二个爬行器时不显示>>>

、

刚开始做一个差劲的项目。我使用以下命令创建了一个新的scrapy项目： scrapy startproject <projectname> 在爬虫文件夹中，我正在创建我的scrapy类，它包含了抓取数据的所有逻辑。我正在使用Scrapy Shell进行测试。当我创建第一个爬虫时，scrapy shell运行得很好。但在创建第二个爬虫时，scrapy shell不起作用。使用以下命令调用scrapy shell： scrapy shell <url> 我看到了以下几点： [s] Useful shortcuts: [s] fetch(url[, redirect=

浏览 2提问于2020-04-08得票数 1

1回答

在多台机器上运行scrapy spider (并行抓取)

、

我使用Scrapy已经有一段时间了，我一直在寻找是否有可能在不同的机器(相同的IP)上同时使用一个或多个爬虫(并行抓取)来加速Scrapy；但我还没有找到任何与此相关的东西。有人知道这件事吗？任何帮助都将不胜感激，谢谢。

浏览 3提问于2014-08-13得票数 0

1回答

如何查看scrapy中启动的每个爬虫的IP？

、、、

关于以前的question，我想知道什么时候启动爬虫： scrapy crawl spider -a username=Bidule -a password=TMTC #cmd1 scrapy crawl spider -a username=Truc -a password=TMTC #cmd2 如何获取每个IP的当前IP？注:在另一个论坛上，一位成员告诉我，代理将管理它，但我想检查一下这是不是真的，以便知道我是否必须在我的代码中更改一些东西。

浏览 44提问于2019-02-12得票数 0

2回答

是否可以使用虚拟机/机器IP代替Scrapy的代理服务器

、、

我有一个Scrapy爬虫，我想轮换IP，这样我的应用程序就不会被阻塞。我正在使用request.meta['proxy'] = 'http://51.161.82.60:80'在scrapy中设置IP，但这是一个VM的IP。我的问题是，虚拟机或机器的IP是否可以用于scrapy，或者我需要代理服务器？目前我正在做这件事。这不会抛出任何错误，但当我从http://checkip.dyndns.org得到响应时，它是我自己的IP，而不是我在meta中设置的更新IP。这就是为什么我想知道我是否需要代理服务器。

浏览 9提问于2018-12-06得票数 0

1回答

使用多个爬行器运行Selenium无头

、、

我有许多使用scrapyd并行运行的scrapy爬虫。我正在做的事情类似于下面的代码。我的问题是，我真的需要为每个爬虫启动一个显示器吗?司机如何知道开始使用哪个显示器？我是否应该全局启动一个显示器，并在同一显示器中启动多个webdriver实例？ def __init__(self): dispatcher.connect(self.spider_closed, signals.spider_closed) def spider_closed(self, spider): if self.driver: self.driver.quit() if

浏览 1提问于2016-03-04得票数 7

1回答

从脚本scrapy开始

、、

日安！向您展示如何从scrapy运行脚本，scrapy位于项目的根目录中，如果spider文件夹位于其他位置。这两本手册我都看不懂，或者只有关于启动脚本爬虫的描述。对不起，我的英语做得不好，所以能听不懂的东西。提前谢谢你。

浏览 0提问于2016-11-14得票数 0

1回答

将刮伤结果保存到csv文件中

、、、

我在网络爬虫上遇到了一些问题。我想保存我获取的数据。如果我从刮伤教程中理解了，我只需要生成它，然后使用scrapy crawl <crawler> -o file.csv -t csv启动爬虫，对吗？由于某些原因，文件仍然是空的。这是我的密码： # -*- coding: utf-8 -*- from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class PaginebiancheSpider(CrawlSpider): name = 'p

浏览 0提问于2018-10-20得票数 0

回答已采纳

2回答

如何将新的URL传递给Scrapy Crawler

、、、、

我想让一个抓取爬虫在芹菜任务工人内部不断运行，可能使用。或者，正如所建议的，这个想法是使用爬虫程序来查询返回XML响应的外部API。我希望将我想要查询的URL (或查询参数并让crawler构建URL)传递给crawler，crawler将进行URL调用，并将提取的项返回给我。一旦爬虫程序开始运行，我如何将我想要获取的这个新URL传递给爬虫程序。我不想在每次想要给爬虫一个新的URL时都重新启动爬虫，而是希望爬虫无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行爬虫程序。我不希望每次我想要抓取一个URL时，都必须派生和拆卸一个新的进程，因

浏览 0提问于2013-05-23得票数 2

1回答

linux上的shell脚本

、、

这是我的shell脚本 #!/bin/bash crawlers(){ nohup scrapy crawl a & nohup scrapy crawl b & wait $! nohup scrapy crawl f & nohup scrapy crawl g & wait $! nohup scrapy crawl h & nohup scrapy crawl i & wait $! nohup scrapy crawl i & nohup

浏览 2提问于2012-11-03得票数 2

回答已采纳

1回答

从Flask路由开始scrapy

、、

我想建立一个爬虫，需要抓取网页的网址，并将结果返回给一个网页。现在，我从终端启动scrapy并将响应存储在一个文件中。当一些输入发布到Flask、处理并返回响应时，我如何启动爬虫？

浏览 1提问于2015-07-24得票数 5

1回答

用Scrapy创建站点地图

、、

是否可以使用Scrapy生成一个网站的站点地图，包括每个页面的URL及其级别/深度(我需要从主页上跟踪的链接数量)？站点地图的格式不一定是XML，它只是关于信息。此外，我希望保存爬行页面的完整HTML源代码，以供进一步分析，而不是只从其中抓取某些元素。有经验使用Scrapy的人能告诉我，对于Scrapy来说，这是否是一个可能的/合理的场景，并给我一些关于如何找到指令的提示？到目前为止，我只能找到更复杂的场景，而没有解决这个看似简单的问题的方法。对有经验的网络爬虫者的评论:考虑到这是可能的，你认为Scrapy甚至是正确的工具吗？或者用请求之类的库来编写自己的爬虫会更容易吗？

浏览 0提问于2017-11-07得票数 5

2回答

Scrapy在页面上找不到表单

、、、、

我正在尝试编写一个自动登录到的爬虫。但是，当我尝试在shell中使用scrapy.FormRequest.from_response时，我得到了错误： No <form> element found in <200 https://www.athletic.net/account/login/?ReturnUrl=%2Fdefault.aspx> 当我在网站上检查元素时，我肯定可以看到表单，但当我尝试使用response.xpath()查找它时，它也没有在Scrapy中显示出来。有没有可能以某种方式对我的爬虫隐藏表单内容？如果是这样，我该如何修复它？

浏览 0提问于2018-06-30得票数 1

2回答

使用websocket在烧瓶中排队

、、、、

我正在为一个项目使用Flask，Gevent和scrapy。基本的想法是，你输入一个url，它就会以输入作为参数启动一个爬虫进程。目前，它似乎可以很好地处理通过websocket传输的输出。我很好奇什么是最好的方式来处理多个爬虫同时运行，所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统，理想情况下，我只希望同时运行数量可控的爬虫。有没有关于如何使用我已经在使用的库的建议？或者可能会提出一种不同的方法？

浏览 1提问于2012-12-16得票数 0

1回答

在Scrapy中顺序运行多个爬虫

、、、

我正在试图找出一种同时运行多个Scrapy爬虫的方法，而不会遇到内存问题等。目前，这是我的运行脚本： from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log from CSTest.spiders.CStest import MySpider from scrapy.utils.project import get_project_settings def setup_crawler(urls): spider = MySpider(urls=ur

浏览 2提问于2014-11-28得票数 4

1回答

Scrapy:每个蜘蛛一个工作目录

、

我有一个包含多个爬虫的Scrapy项目。我如何使用自己的jobdir运行所有的爬行器？在下面的代码中，我展示了如何使用单个jobdir执行所有爬行器。 from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings settings = get_project_settings() settings.set('JOBDIR', 'saved_crawl', priority='cmdline') process

浏览 26提问于2019-05-16得票数 0

3回答

避免重复的URL爬行

我编写了一个简单的爬虫。在settings.py文件中，通过参考scrapy文档，我使用了 DUPEFILTER_CLASS = 'scrapy.dupefilter.RFPDupeFilter' 如果我停止crawler并再次重新启动crawler，它将再次抓取重复的urls。我做错了什么吗？

浏览 0提问于2013-07-16得票数 15

回答已采纳

1回答

如何配置法国在Crawlera的IP地址？

、、、、

我在我的Selenium中使用。但我只需要使用法国的IP。如何配置我的爬虫来完成这个任务。 custom_settings = { 'DOWNLOADER_MIDDLEWARES' : {'scrapy_crawlera.CrawleraMiddleware': 600}, 'CRAWLERA_ENABLED' : True, 'CRAWLERA_APIKEY' : //my appikey, 'DOWNLOAD_DELAY' : 0,

浏览 0提问于2016-07-13得票数 1

回答已采纳

1回答

从一个页面中抓取多篇文章，每篇文章都有单独的href

、

我是个新手，写了我的第一个爬虫，为类似的网站做了一个爬虫。我想要抓取标题，然后导航到每篇文章，抓取每篇文章的文本内容。我已经尝试使用规则和链接提取器，但它不能导航到下一页和提取。我得到错误:爬行器错误处理 (referer: None) 下面是我的代码 import scrapy from scrapy.spiders import Rule from scrapy.linkextractors import LinkExtractor class MedicalSpider(scrapy.Spider): name = 'medical' allowe

浏览 1提问于2019-07-09得票数 1

1回答

Scrapy找不到爬行器错误

、、

我一直在尝试让一个简单的爬虫与scrapy一起运行，但一直得到错误： Could not find spider for domain:stackexchange.com 当我使用表达式scrapy-ctl.py crawl stackexchange.com运行代码时。蜘蛛如下所示： from scrapy.spider import BaseSpider from __future__ import absolute_import class StackExchangeSpider(BaseSpider): domain_name = "stackexchange.co

浏览 3提问于2010-05-22得票数 4

回答已采纳

1回答

以独立脚本的形式运行时，使用jobdir重新启动scrapy

我像这样运行我的爬虫 if __name__ == "__main__": from scrapy.crawler import CrawlerProcess from scrapy.utils.project import get_project_settings s = get_project_settings() process = CrawlerProcess(s) process.crawl(MySpider) process.start() 并且我使用自定义设置，它具有 "JOBDIR": "

浏览 3提问于2022-11-04得票数 1

回答已采纳

2回答

如何为scrapy编写规则以添加访问过的urls

、、

当scrapy关闭时，它会忘记所有的urls。我想给scrapy一组网址，已抓取，当它是开始。如何向爬虫添加规则，让爬虫知道哪些urls被访问过？当前函数： SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None) 只需使用parse告诉爬虫抓取哪个

浏览 0提问于2012-11-28得票数 3

1回答

以编程方式调用同一个蜘蛛

、、

我有一个蜘蛛，爬行链接的网站通过。当同一个蜘蛛用不同的数据完成执行时，我想再次启动它。如何重新启动同一爬虫？这些网站是通过数据库传递的。我希望爬虫在一个无限循环中运行，直到所有的网站都被爬行。目前，我必须一直启动爬虫scrapy crawl first。是否有任何方法启动爬虫一次，它将停止时，所有的网站爬行？我搜索了同样的，并找到了一个解决方案，一旦它关闭/完成了抓取器。但我不知道如何以编程方式调用蜘蛛表单closed_handler方法。以下是我的代码： class MySpider(CrawlSpider): def __init__(self, *args, **k

浏览 7提问于2016-05-03得票数 0

回答已采纳

1回答

如何在满足管道条件后立即停止所有蜘蛛和引擎？

、、

我们有一个系统，用刮擦来抓取几个网站。有几个蜘蛛，还有一个几个级联管道，用于所有爬虫传递的所有项目。管道组件之一查询google服务器的地理编码地址。谷歌规定，每天每个IP地址的请求不得超过2500个，并威胁说，即使在谷歌发出警告信息：‘OVER_’之后，如果它继续查询谷歌，它也将禁止使用IP地址。因此，我想知道我可以从管道中调用的任何机制，这些机制将使完全立即停止，所有蜘蛛和主机都将进一步爬行/处理。我曾核对过其他类似的问题，但这些问题的答案并没有奏效：从scrapy.project导入爬虫crawler._signal_shutdown(9,0) #，如果cnxn失败

浏览 5提问于2012-03-14得票数 14

回答已采纳

2回答

在Scrapy中返回复杂项目(webcrawler)

、、

我正在尝试用scrapy制作一个专门针对网络爬虫的爬虫，它会返回我的结果的一个对象。我被卡住了，可能会把事情搞得一团糟。更具体地说，对于上的每个子论坛(数学、物理等)，我希望获得每个子论坛中所有线程的标题，并以一个对象结束，该对象具有论坛名称和论坛中所有线程的标题列表。最终目标是对帖子标题进行文本分析，以确定与每个论坛相关的最常见的术语/术语。最后，我还想对线程本身进行分析。我有一个定义如下的类项： from scrapy.item import Item, Field class ProjectItem(Item): name = Field() #the forum nam

浏览 1提问于2013-11-01得票数 1

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy splash和Selenium的比较如何？

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

从烧瓶应用程序中运行刮擦

、、、、

我有一个爬虫，我想运行每次一个人去链接。因为所有其他模块都在水瓶中，所以我也被告知要在烧瓶中构建这个模块。我已经在虚拟环境中安装了scrapy和selenium，并在带有root的机器上安装了全局。当我在终点站运行爬行器时，一切正常。当我启动Flask应用程序并在浏览器中访问xx.xx.xx.xx:8080/whats时，它也可以正常工作，运行我的爬虫并为我获取文件。但是，一旦我活了下来，只要一个人去链接，它就会给我浏览器中的内部错误。为了运行爬虫，我们必须在终端输入“刮刮爬行”。我使用Python的os模块完成了这个任务。这是我的酒瓶代码： import sys from flask

浏览 4提问于2015-08-17得票数 3

回答已采纳

4回答

在多个网站上使用一个Scrapy爬虫

、、

我需要创建一个用户可配置的网络蜘蛛/爬虫，我正在考虑使用Scrapy。但是，我不能硬编码域和允许的URL regex:es --这将在GUI中配置。如何(尽可能简单地)使用Scrapy创建一个爬行器或一组爬行器，其中域和允许的URL regex:es是动态可配置的？例如，我将配置写到一个文件中，然后爬行器以某种方式读取它。

浏览 2提问于2010-03-07得票数 12

回答已采纳

1回答

链接提取器无法获取超出特定路径的路径

、

我需要一点关于Scrapy的帮助和你的指导。我的Start_Url是:：已经粘贴了下面的代码，它能够获得链接/路径，直到下面的url。但不能超越这一点。我需要转到每个产品的页面，在下面的路径下列出。在"productsinfamily“页面中列出了特定的产品(可能在一个java脚本中)。我的爬虫无法访问这些单独的产品页面。下面是爬虫蜘蛛的代码- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Produ

浏览 5提问于2018-01-27得票数 0

1回答

通过脚本运行Scrapy spider并配置输出文件的设置

、

我已经用scrapy编写了一个爬虫&在python脚本(而不是scrapy cmd提示)中运行它。我想要配置设置，以便获得特定文件(例如output.json)中的废弃数据。如果我在提示符下运行以下命令就可以得到结果：“scrapy crawl myspider -o scrapedData.json -t json” 但我希望通过运行脚本而不是通过cmdline工具获得相同的输出。谢谢你的帮助！

浏览 0提问于2014-02-18得票数 3

1回答

在python中启动Twisted.internet.reactor

、

我正在尝试运行一个爬虫(用scrapy框架编写)，以便从python脚本而不是命令行工具运行。Scrapy是在扭曲的互联网框架上编写的，该框架有一个无法在过程中重新启动的反应器。我一定是在赶上spider_closed signal & the REACTOR HAS STOPPED的时候把它停了。它给出了以下错误消息： twisted.internet.error.ReactorNotRestartable 我的问题是“如何启动twisted.internet.reactor?” 我现在甚至不能从命令行工具运行我的爬行器。

浏览 1提问于2014-02-17得票数 1

2回答

Scrapy忽略每个爬行器的自定义设置

、

在scrapy 2.0.1中，我尝试设置每个爬行器的深度设置。虽然它可以在全局设置中工作，但它不适用于每个爬行器的单独设置： class GetbidSpider(CrawlSpider): name = 'test' custom_settings = { 'DOWNLOAD_DELAY': 5, 'DEPTH_LIMIT': 1, } 还有这个中间件： from scrapy import signals class BidSpiderMiddleware(object):

浏览 1提问于2020-04-22得票数 1

1回答

Python Scrapy代理在几轮之后就死了？

、

我想建立一个与scrapy亚马逊爬虫。它起作用了，但在经过大约10个好的代理之后，每个下一个代理都会获得Proxy <IP:PORT> is DEAD 我不明白为什么..。那是我的中间件 DOWNLOADER_MIDDLEWARES = { 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None, 'scrapy_user_agents.middlewares.RandomUserAgentMiddleware': 400, 'rota

浏览 18提问于2019-11-07得票数 1

1回答

如何建立我的抓取蜘蛛到一个可执行文件使用py2exe？

、、、

我使用scrapy创建一个项目，并在"spiders“文件夹中添加我自己的爬行器，比如"spider_us.py"，我想构建一个可在其他计算机上执行的可执行文件，而不需要安装scrapy。当我按照py2exe的指示操作时，我在同一个文件夹中创建了一个新文件"Setup.py“，内容如下： from distutils.core import setup import py2exe setup(console = ["spider_us.py"]) 然而，它不起作用，因为当我运行我的爬虫时，我使用命令"scrapy crawl spid

浏览 1提问于2013-10-18得票数 6

2回答

如何将多个爬虫放在同一个文件中

、

我正在向我的scrapy程序中添加第二个爬虫，我想将它放在与我的其他爬虫相同的python文件中，并使用相同的设置和所有东西，但我很难弄清楚这一点，因为当我创建新的蜘蛛时，它会为新的蜘蛛创建新的设置，依此类推。 # Spider class class MySpider(Spider): # Name of Spider name = 'splash_spider' # getting all the url + ip address + useragent pairs then request them def start_requests

浏览 30提问于2019-06-19得票数 0

回答已采纳

1回答

如何防止刮伤从伐木？

、、

我正在从一个更大的框架中调用一个基于Scrapy的爬虫。在爬行过程中，Scrapy记录所有事件。抓取之后，抓取应该停止日志记录，调用框架应该接管日志记录任务，并再次打印出来。如何阻止Scrapy 控制所有日志并将其传递回我的框架？如何管理Python?中的多个记录器更新：我将crawler.spider.settings.overrides['LOG_ENABLED'] = False添加到我的爬虫中。刮痕一直在阻止我打印到标准版。

浏览 2提问于2013-12-10得票数 1

2回答

从python脚本调用scrapy而不是创建JSON输出文件

、、、

下面是我用来调用scrapy的python脚本，答案是 def stop_reactor(): reactor.stop() dispatcher.connect(stop_reactor, signal=signals.spider_closed) spider = MySpider(start_url='abc') crawler = Crawler(Settings()) crawler.configure() crawler.crawl(spider) crawler.start() log.start() log.msg('Running react

浏览 4提问于2013-03-19得票数 3

1回答

如何在Heroku云上部署Scrapy spider

、、、

我在scrapy中开发了几个爬虫&我想在Heroku云上测试它们。有没有人知道如何在Heroku云上部署Scrapy spider？

浏览 1提问于2012-10-08得票数 11

回答已采纳

1回答

Scrapy:如何检查之前抓取的页面是否已被删除？

、、、、

我做了一个简单的抓取我所在城市房价广告的Scrapy爬虫。它收集以下数据:广告标题、价格和URL。然后输出CSV文件。每周我运行爬虫程序，我想让它将最新的CSV文件与之前的文件进行比较，以检查是否有广告被删除。如果有，我希望在CSV文件输出的最后一列中包含今天的日期。我不知道这是否可以用CSV文件来完成，或者这项工作是否需要一个数据库。我也不知道是否需要创建一个项目管道。这是我目前的爬虫代码。 import scrapy class ExampleSpider(scrapy.Spider): name = 'example' start_urls

浏览 9提问于2017-02-22得票数 2

回答已采纳

1回答

用Scrapy爬行多个页面

、、、

目标使用Scrapy和Python制作两级深度web爬虫。问题该网站是在一个结构，在1页，有大约10个项目，爬虫是跟随链接和提取正确的数据。问题是这个结构对于10页是递归的，但是这些最后的页面的链接是更改的，并且是指向home1的，但是指向home2的。对于第2页到第10页，我们希望爬虫执行相同的例程，因为爬虫所尊重的模式对于这些页面是递归重复的。网站结构 ->website.com --> /home1 ---> /page/2 --> /home2/doc/item 我可以使用下一个爬虫访问第一

浏览 2提问于2017-07-17得票数 0

2回答

在Scrapy上使用python请求库

、、

如何在Scrapy中的爬虫上使用？ import scrapy, requests def parse(self, response): # do things... # then yield requests.get(response.url, callback=self.parse, dont_filter=True)

浏览 0提问于2019-08-21得票数 1

1回答

在某个时间运行Python程序

、

我已经建立了一个爬虫使用Scrapy爬行到一个网站并提取链接。我想让爬虫在每天的某个时间运行。我找到了python的来执行调度，但是我找不到从哪里开始。任何帮助都是非常有用的。

浏览 0提问于2014-04-08得票数 0

2回答

运行抓取爬虫的最简单方法，这样它就不会阻止脚本

、

给出了从代码中运行scrapy爬虫的许多方法： import scrapy from scrapy.crawler import CrawlerProcess class MySpider(scrapy.Spider): # Your spider definition ... process = CrawlerProcess({ 'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)' }) process.crawl(MySpider) process.

浏览 3提问于2016-02-26得票数 3

回答已采纳

1回答

从脚本中运行Scrapy :模块未找到错误- projectname.items不是一个包

、

我试着运行多个爬虫，就像中说的那样。脚本是通过调用scrapy crawl crawler运行的。现在，通过python crawler.py调用它，我得到了以下错误：从crawler.items导入LinkItem ModuleNotFoundError:没有名为“爬行器”的模块；“爬虫”不是一个包 import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.crawler import CrawlerP

浏览 3提问于2017-09-28得票数 1

回答已采纳

1回答

运行新的爬行器或获取新的urls列表以进行抓取

、

我刚刚用Scrapy写了一个简单的爬虫。现在我在想，有没有办法一块一块地抓取链接，并在之前的爬虫完成工作后重新启动蜘蛛？我的意思是，在蜘蛛的__init__中，我从数据库中获得了100个起始URL，当所有这些链接都被爬行并且蜘蛛终止时，我想要自动启动一个新的蜘蛛。我该怎么做呢？或者可能有一种方法可以在不重新启动爬行器的情况下获得新的URL块？

浏览 1提问于2015-02-27得票数 1