使用Scrapy可以处理多少个URL？

、、、

我有一个包含许多URL的文件。我愿意从这些网址中提取链接，然后提取不同页面的标题和metas。for link in le.extract_links(response): yield scrapy.Request(l

浏览 4提问于2017-02-10得票数 0

回答已采纳

1回答

刮擦:不重复地连续地刮某些链接图案

、

listed": false, "end": "2012-08-06", "url

浏览 2提问于2020-01-02得票数 0

回答已采纳

1回答

抓取-不能列出更深层次的链接

、、、、

为此，我使用了Scrapy2.3.0。问题是结果('item_scraped_count')是63个链接，但我知道还有更多。from scrapy.spiders import CrawlSpiderfrom scrapy.linkextractorsimport LinkExtractor from <

浏览 3提问于2020-08-19得票数 1

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

(self.start_urls[0],callback=self.parse2) print(response.url) 当您运行该程序时，parse2方法不起作用，并且它不打印response.url。，他们从未在scrapy.Request方法中使用dont_filter = True参数，并且他们的第二个解析函数仍然有效。# this would log http://www.example.com/so

浏览 1提问于2016-08-15得票数 8

回答已采纳

2回答

如何获取刮伤壳中的刮伤响应

、、、、

我对Scrapy项目很陌生，我读过很多教程。它们似乎都假设您知道如何立即解析响应对象，并且可以立即调用响应回调(例如scrapy.Request(url=url, callback=self.parse))。但在现实中，我需要使用试用和错误的CSS选择器。如何取回Scrapy响应对象，以便能够交互地操作它？scrapy.Request(url=url)的响应似乎是我无法处理的(见屏幕截图)--不需

浏览 4提问于2017-04-09得票数 2

回答已采纳

1回答

如何使Selenium与Scrapy并行运行？

、、

我试着用Scrapy和Selenium来刮一些urls。有些urls由Scrapy直接处理，而其他urls则首先使用Selenium处理。问题是: Selenium在处理url时，Scrapy没有并行处理其他url。它等待work驱动程序完成它的工作。我尝试在不同的进程中使用不同的init参数(使用多处理池)来，但是我得到了twisted.internet.err

浏览 5提问于2020-04-13得票数 3

回答已采纳

1回答

如何使用Scrapy项并以json格式存储输出？

、、、

url": "www.url.com"},但是在使用项目之后，我看到了一些值，"], "kategorie": ["xyz"], "url": &q

浏览 2提问于2022-01-31得票数 0

回答已采纳

1回答

Scrapy有物品限制吗？

、、、、

在那些日子里，我用Python用Scrapy制作了一个蜘蛛。它基本上是一个简单爬行器类，用于对Html页面中的某些字段进行简单的解析。我不使用starts_url[] Scrapy字段，但我使用如下的个性化列表：def __init__(self, url, data): self.urlself.url_to_scrape.append(start_urls_mod(url_

浏览 3提问于2015-10-16得票数 0

2回答

在scrapy项目加载器上使用正则表达式

、、、

我正在尝试弄清楚如何在scrapy项目加载器中使用regex。我曾尝试将lambda函数与split()一起使用，但得到了以下错误。无法定义拆分。您可以看到该函数在项目加载器类中被注释掉了。日期项是我刚刚解析的url。如何将正则表达式与scrapy项目加载器一起使用？我可以将正则表达式传递给项目加载器，还是必须在爬行器中处理它？"]

浏览 4提问于2018-02-20得票数 0

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

一旦我使用规则并将“callback=”解析“”更改为“callback=”“parse_item”，任何事情都不再起作用。制定规则似乎是可行的。因此，我实际上希望它能够运行，而不是在解析函数中处理输出。response_dictionary): print(response_dictionary["ur

浏览 2提问于2019-11-18得票数 2

回答已采纳

2回答

在刮刮中嵌套项数据的正确方法

例如，我想要一个产品的输出：'price': price,'meta': { 'added_on': added_onclass ProductItem(scrapy.Item): url = scrapy.Field(output_processor=TakeFirs

浏览 1提问于2014-08-02得票数 13

回答已采纳

3回答

使用第一个URL的结果刮取多个URL

、、

我使用Scrapy从第一个URL中抓取数据。 list = ["http://a.com", "h

浏览 3提问于2015-03-11得票数 1

回答已采纳

1回答

在引用url时调用Scrapy* - POST请求，而不是初始请求。*

、、

当我使用scrapy时，Post请求会通过：> 2017-05-21 22200) <POST> (referer: None) True`>>> from <

浏览 3提问于2017-05-21得票数 1

回答已采纳

1回答

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

、、

我现在正试图从其他网站上获取其他的数据，这一次是使用SCRAPY。我尝试了以下URLS： name = "whisky" yield scrapy.Request(url=url, callback=self.parse) def parse

浏览 4提问于2020-10-22得票数 0

1回答

Splash的响应不会将javascript呈现为html

、、、

import scrapy2017-10-28 11:53:43 [scrapy.utils.log] INFO: Overridden: ['scrapy.extensions.corestats.Cor

浏览 0提问于2017-10-28得票数 0

2回答

如何使用Python Scrapy模块列出我网站上的所有URL？

、、

我想使用Python从我的网站抓取所有的，并将列表写入一个文件。我查看了示例，但没有看到任何简单的示例来完成此操作。

浏览 23提问于2012-03-05得票数 24

回答已采纳

1回答

scrapy selenium驱动程序没有遵循

、、

start_urls=['http://httpbin.org/ip'] print(response.body) yield SeleniumRequest(url=url,callback

浏览 68提问于2019-05-17得票数 1

1回答

在scraper.py中使用粗糙的自定义设置

、、、

我想使用scrapy runspider scrapy.py运行这个scrapy文件，它没有任何如何使用自定义设置的文件，比如'CONCURRENT_ requests '：1，但是当start_requests请求 for urlin self.urls: reque

浏览 0提问于2018-06-20得票数 0

0回答

如何在同一位置使用Scrapy请求和获取响应？

、、

我尝试过使用请求，但速度很慢，有时无法加载页面。response = scrapy.Request(url=variantUrl) si

浏览 2提问于2018-07-13得票数 3

1回答

Scrapy.request没有获得新的url

、

我发现hte scrapy.request并没有得到新的url，并且在项目‘url’中总是只有基url被追加并因此下载。import scrapy from scrapy.selector import Selector print url, 'go to scrapy</

浏览 6提问于2016-12-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

刮擦:不重复地连续地刮某些链接图案

抓取-不能列出更深层次的链接

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

如何获取刮伤壳中的刮伤响应

如何使Selenium与Scrapy并行运行？

如何使用Scrapy项并以json格式存储输出？

Scrapy有物品限制吗？

在scrapy项目加载器上使用正则表达式

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

在刮刮中嵌套项数据的正确方法

使用第一个URL的结果刮取多个URL

在引用url时调用Scrapy* - POST请求，而不是初始请求。*

用Python3 (Scrapy，BS4)抓取网站确实会产生不完整的数据。找不到原因

Splash的响应不会将javascript呈现为html

如何使用Python Scrapy模块列出我网站上的所有URL？

scrapy selenium驱动程序没有遵循

在scraper.py中使用粗糙的自定义设置

如何在同一位置使用Scrapy请求和获取响应？

Scrapy.request没有获得新的url

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐