scrapy js 解析处理_scrapy 处理js翻页_Scrapy多处理 - 腾讯云开发者社区

、

我在爬行以下简单的蜘蛛： import scrapy from tutorial.items import QuoteItem class QuotesSpider(scrapy.Spider): name = "quotes" custom_settings = { 'CLOSESPIDER_ITEMCOUNT': 2, 'FEED_URI': 'quotes.jl', }

浏览 1提问于2017-05-16得票数 2

回答已采纳

1回答

刮除爬行蜘蛛不跟随链接

、、、

所以我写了一个网络爬虫从walmart.com中提取食物。这是我的蜘蛛。我似乎不明白为什么它不跟随在左边的链接，直到。它将主页面拉出，然后完成。我的预期目标是，它遵循所有的链接在左边的飞出栏，然后从这些页面中的每一个食品项目。我甚至尝试使用allow=()，这样它就可以跟踪页面上的每个链接，但仍然不能工作。 from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector import HtmlXPathSelector from scrapy.contrib.loader import XPathItemL

浏览 9提问于2014-12-03得票数 3

1回答

解析中的scrapy回调未调用

、

我正在尝试刮伤，结果被卡住了。我希望这个脚本能够运行回调。 import scrapy from scrapy.spiders import Spider class ASpider(Spider): name = 'myspider' allowed_domains = ['wikipedia.org','en.wikipedia.org'] start_urls = ['https://www.wikipedia.org/'] def parse(self, response):

浏览 5提问于2016-05-31得票数 1

回答已采纳

2回答

使用scrapy的项加载程序填充数据时，它在shell中工作，而在蜘蛛中不工作

、

下面这个简单的蜘蛛由三个文件组成。我的目标是正确地使用项目加载器来填充我目前正在销毁的数据。pipeline.py是一个简单的json文件创建者，如scrapy文档中所解释的那样。 items.py from scrapy.loader import ItemLoader class FoodItem(scrapy.Item): brand = scrapy.Field( input_processor=TakeFirst(), output_processor=Identity() ) name = scrapy.Field(

浏览 0提问于2018-10-09得票数 2

回答已采纳

1回答

解析回调没有定义--简单的Webscraper (Scrapy)仍然没有运行

、、

我在谷歌上搜索了半天，但还是没能正常工作。也许你有洞察力？我试着开始我的刮刀不是从终端，而是从一个脚本。这在没有规则的情况下工作得很好，只需要生成正常的解析函数。一旦我使用规则并将“callback=”解析“”更改为“callback=”“parse_item”，任何事情都不再起作用。我尝试在我的解析函数中生成请求的基础上创建一个爬虫。结果是:我只刮了一个URL，但没有刮到域。制定规则似乎是可行的。因此，我实际上希望它能够运行，而不是在解析函数中处理输出。 import scrapy from scrapy.crawler import CrawlerProcess from bs4

浏览 2提问于2019-11-18得票数 2

回答已采纳

1回答

Scrapy.request没有获得新的url

、

嗨，我下面有这段代码(我删除了很多if循环，并将其简化为易于理解)。problem是这个刮伤，擦伤只是网站的第一页。我发现hte scrapy.request并没有得到新的url，并且在项目‘url’中总是只有基url被追加并因此下载。 import scrapy from collections import Counter from scrapy.selector import Selector from Mycode.items import * class ExampleSpider(scrapy.Spider): name = "full_sites"

浏览 6提问于2016-12-14得票数 1

回答已采纳

1回答

使用scrapy抓取时处理pdf文档

、、、、

我想解析的PDF文件，遇到时，爬行网站使用scrapy。我使用下面的代码从PDF文档中提取HTML页面源代码，但它不起作用 a = response.xpath("//html").extract() 如何从PDF文档中获取内容并将其合并到scrapy工作流中？

浏览 1提问于2015-02-13得票数 0

1回答

刮除-提交表格与刮除其他网站的结果

、

我正试图用我在另一个电视指南网站上刮过的电影来刮themoviedb.org网站。其背后的想法是获得电影信息(评级，发行日期，.)将在未来几天上映的电影。因此，我从第一个网站上刮起电影标题，并希望通过使用themoviedb.org上的搜索表单获得额外的信息。 def parse(self, response): for col_inner in response.xpath('//div[@class="grid__col__inner"]'): chnl = col_inner.xpath('.//div[@clas

浏览 0提问于2015-10-25得票数 0

回答已采纳

1回答

刮掉键错误和下一页url不工作

、

我正在尝试刮，使用这个页面作为启动url：这个页面有3个列表，其中一个列表有100+项。我的代码只抓取100项，而不从下一页获取数据。请检查代码有什么问题。 import scrapy from urllib.parse import urljoin class lisTopSpider(scrapy.Spider): name= 'ImdbListsSpider' allowed_domains = ['imdb.com'] start_urls = [ 'https://www.imdb.com/lists/t

浏览 5提问于2020-05-06得票数 0

回答已采纳

1回答

刮伤基本抓取器不工作？

、、、

因此，我最近刚开始为一个项目尝试Scrapy，我非常困惑于各种旧的语法(SgmlLinkExtractor等)。但我设法把我认为是可读的代码拼凑在一起，这对我来说是有意义的。但是，这并不是遍历网站中的每个页面，而是只访问start_urls页面，而不生成输出文件。有人能解释一下我错过了什么吗？ import scrapy import csv from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class RLSpider(CrawlSpider):

浏览 4提问于2016-12-07得票数 1

回答已采纳

1回答

在scrapy.Request中添加dont_filter=True参数是如何使我的解析方法工作的？

、、

这是一个简单的抓取蜘蛛 import scrapy class ExampleSpider(scrapy.Spider): name = "dmoz" allowed_domains = ["https://www.dmoz.org"] start_urls = ('https://www.dmoz.org/') def parse(self,response): yield scrapy.Request(self.start_urls[0],callback=self.parse2)

浏览 1提问于2016-08-15得票数 8

回答已采纳

1回答

可以将pyexecjs与scrapy一起使用吗？

、、、、

不久前我偶然发现了pyexecjs，我想知道它是否可以与scrapy一起用于抓取JS生成的数据。我检查了应该如何使用该库的示例，但我不确定如何将其与scrapy集成。

浏览 4提问于2014-10-12得票数 0

1回答

Scrapy和rules

、、

我是从Scrapy开始的，我成功地制作了几个蜘蛛攻击同一个网站。第一个获取整个站点中列出的产品，除了它们的价格(因为价格对未登录的用户是隐藏的)，第二个登录网站。我的问题看起来有点奇怪，当我合并两个代码时:结果不起作用！主要的问题是规则没有被处理，就像它们不被Scrapy调用一样。因为程序必须登录到网站，所以我必须覆盖start_requests，但当我覆盖它时，规则不会被处理。我正在研究文档，但我不明白框架是如何调用方法/函数的，以及为什么不处理规则。这是我的爬虫代码： # -*- coding: utf-8 -*- import scrapy from scrapy.spiders

浏览 15提问于2020-06-05得票数 0

回答已采纳

2回答

刮伤机构或规则不起作用

、、、

我一直试图让Scrapy的链接提取器工作，但没有结果。我想要它找到任何链接，然后调用一个不同的方法，它只是打印出一些东西，以表明它是有效的。这是我的蜘蛛 from scrapy.spiders import Rule, CrawlSpider from scrapy.linkextractors import LinkExtractor class TestSpider(CrawlSpider): name = 'spi' allowed_domains = ['https://www.reddit.com/'] start_url

浏览 8提问于2017-08-01得票数 0

回答已采纳

1回答

刮完网站后没有数据

、、、

我想刮刮所有的名字从一个网站的使用Scrapy。这是在项目文件中。 import scrapy class ItwItem(scrapy.Item): name = scrapy.Field() 这是我的蜘蛛。 import scrapy from itw.items import ItwItem class ItwSpider(scrapy.Spider): name = 'itw' allowed_domains = ['https://www.internationaltelecomsweek.com']

浏览 1提问于2017-05-22得票数 0

回答已采纳

1回答

响应在Scrapy Shell中有效，但在代码中不起作用

、、

我是新来Scrapy的。我为这个网站写了我的第一个爬虫，它工作得很好。 import scrapy class BookSpider(scrapy.Spider): name = 'book24' start_urls = ['https://book24.ru/knigi-bestsellery/'] def parse(self, response): for link in response.css('div.product-card__image-holder a::attr(href)'):

浏览 11提问于2021-10-15得票数 0

1回答

Splash - Scrapy - HAR数据

、、、、

总的来说，我知道如何使用Scrapy和x-path来解析html。但是，我不知道如何获取HAR数据。 mport scrapy from scrapy_splash import SplashRequest class QuotesSpider(scrapy.Spider): name = 'quotes' allowed_domains = ['quotes.toscrape.com'] start_urls = ['http://quotes.toscrape.com/js'] def start_req

浏览 32提问于2020-01-17得票数 3

1回答

如何解决使用scrapy时的排序问题？

、、

我相信这是一个简单的问题，我愿意学习更多。事情是，我想通过网址抓取网站标题。其目的是预测在线新闻的受欢迎程度，数据来自UCI机器学习存储库。这是the link。我按照Scrapy的教程修改了"quotes spider“中的代码，如下所示。在终端中运行"scrapy crawl quotes“之后，我使用"scrapy crawl quotes -o quotes.json”将所有的标题保存到JSON中。有158人失踪。我有39,486个URL，但有39,644个网站标题。此外，每个网站的顺序并不适合每个URL。例如，最终的标题对应于倒数第三的URL。你能帮我找

浏览 36提问于2019-04-01得票数 2

回答已采纳

3回答

在与用户代码记录器不同的级别设置刮擦内置记录器。

、、

粗糙的内置伐木者： scrapy.utils.log scrapy.crawler scrapy.middleware scrapy.core.engine scrapy.extensions.logstats scrapy.extensions.telnet scrapy.core.scraper scrapy.statscollectors 非常冗长。我试图设置一个不同的日志级别，调试，与用户蜘蛛日志级别，INFO。这样我就能减少噪音。这个助手函数可以工作，有时： def set_loggers_level(level=logging.DEBUG

浏览 0提问于2018-04-25得票数 1

1回答

不能爬行

、、

我试图抓取一些网站使用刮刮。下面是一个示例代码。方法解析没有被调用。我试图通过一个反应堆服务运行代码(代码提供)。所以，我从有反应堆的startCrawling.py运行它。我知道我错过了什么。你能帮帮忙吗。谢谢, Code-categorization.py from scrapy.contrib.spiders.init import InitSpider from scrapy.http import Request, FormRequest from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from s

浏览 0提问于2014-12-03得票数 0

回答已采纳

1回答

如何获得响应文本，即使有301状态？

、、、

我用剪贴写了一个脚本，从网页中获取响应文本。问题是，我的脚本总是因为有None而打印301 status。，我是否可以从301开始控制状态，并在控制台中打印响应？以下是我尝试过的： import scrapy from scrapy.crawler import CrawlerProcess class ResponseSpider(scrapy.Spider): name = "transfermarkt" handle_httpstatus_list = [301] start_urls = ["https://www.transfer

浏览 0提问于2019-04-29得票数 1

回答已采纳

1回答

Python请求在以下链接中不执行回调

、、、、

我创建了以下名为test.py的python文件： import scrapy class EventsSpider(scrapy.Spider): name = "test" start_urls = [ 'https://www.granteatrocc.com/programacion.php', ] def parse(self, response): print "\nBEFORE-------------------------------------------------\n"

浏览 3提问于2017-10-24得票数 1

回答已采纳

1回答

如何从清单中循环URL，并仅输出要下载到XML/TXT文件中的响应体

、、、、

我有这个问题，我已经尝试过管道方法，但我不确定我是否做得对，基于教程，因为大多数选择器从response.body中选择一些部分。但是，我可以在一个独立的脚本上解析它，该脚本为我提供了我所需要的所有数据，因为数据被其他变量混淆了。因此，我只需要将response.body转储到.XML或.TXT中即可。当它是一个url时，我可以这样做，但是当我介绍各种URL时，它会覆盖最终的解析。我相信如果不使用管道/Items.py，可能会有一个更简单的解决方法，因为我只需要response.body。原谅契约，因为它很难复制。 linkarr = df['URLOUT'].tolis

浏览 17提问于2022-06-28得票数 0

回答已采纳

1回答

使用Scrapy和Splash在动态的JavaScript网页中刮取图像

、、、、

我正在尝试刮从的高分辨率图像的链接，但高分辨率版本的图像只能在点击页面上的中等大小的链接时才能被检查，即在单击“单击此处以放大图像”(在页面上，它是土耳其语)之后。然后，我可以使用Chrome的“开发工具”检查它，并获得xpath/css选择器。到目前为止一切都很好。但是，您知道在JS页面中，您不能输入response.xpath("//blah/blah/@src")并获取一些数据。我安装了Splash (与Docker拉)，并配置了我的Scrapy setting.py文件等，以使它工作(这个帮助。不需要访问链接，除非你想学习如何做)。...and它在其他JS网页上工作

浏览 2提问于2021-06-24得票数 0

回答已采纳

2回答

“请求url中的缺失方案”

、、、

下面是我的代码- import scrapy from scrapy.http import Request class lyricsFetch(scrapy.Spider): name = "lyricsFetch" allowed_domains = ["metrolyrics.com"] print "\nEnter the name of the ARTIST of the song for which you want the lyrics for. Minimise the spelling mistakes, if p

浏览 1提问于2016-01-24得票数 5

回答已采纳

1回答

爬虫突然死亡时如何保持状态？

、、

这个公式是引用的我按照下面的链接来保持爬虫的状态现在，当爬行器在中断或Ctrl+C中正确结束时，这是非常好的工作方式。我注意到蜘蛛没有在你击中了Ctrl +C多次。服务器容量被击中。它突然结束的任何其他原因当蜘蛛再次运行时，它会在爬起来的第一个url上关闭自己。当发生上述情况时，如何实现爬行器的持久状态？否则它就会再次爬上一整堆urls。当蜘蛛再次运行时记录： 2016-08-30 08:14:11 [scrapy] INFO: Scrapy 1.1.2 started (bot: maxverstappen) 2016-08-30 08:14:11 [s

浏览 3提问于2016-08-30得票数 1

3回答

Scrapy与多处理兼容吗？

、、

所以我一直在用硒做刮擦。但是我想把所有的代码都改成Scrapy。我唯一不确定的是，我正在使用multiprocessing (python库)来加快我的进程。我做了很多研究，但我不太明白。我已经找到了：，但是它对我没有帮助，因为它说可以用Twisted来完成它，但是我还没有找到一个例子。在其他论坛上，它说Scrapy可以使用多处理。最后，在scrapy选项中，CONCURRENT_REQUESTS (设置)与多处理有某种联系？

浏览 0提问于2018-12-11得票数 11

回答已采纳

1回答

如何在<ol> <li>下利用抓取蜘蛛蟒蛇获得价值

、、

我是网络爬虫新手，我只关注这篇文章。很容易理解。我有一个网站目标来做它。其目的是获取ais-Hits-list.类下的产品价格和名称列表。例如->价格(259)和名字(XT7女子小径跑鞋，深蓝色和粉红色) <header id="header"> <div id="search-suggestions-algolia" style="display:none"> <div> <div class="ais-Hits">

浏览 4提问于2019-12-11得票数 1

回答已采纳

1回答

用MONGODB刮刮管道的问题

、、、

我想刮一下这个网站。这是一个真正的国家网站，但出于同样的原因，当开始改变页面只得到相同的数据，我真的不知道发生了什么。有人能帮帮我吗？ init.py import scrapy from realstatedata.items import RealstatedataItem class RsdataSpider(scrapy.Spider): name = 'realstatedata' allowed_domains = ['vivareal.com.br'] start_urls = ['https://www.viv

浏览 1提问于2021-08-21得票数 0

回答已采纳

1回答

在爬行器中配置规则时，跟随参数似乎不起作用

、、

我只想在第一页提取我想要的链接，我在爬虫中将DEPTH_LIMIT设置为1，并在匹配规则follows=False中将参数rule()设置为1，但我仍然发起了多个请求，我不知道为什么。我希望有人能回答我的疑问。提前谢谢。 # -*- coding: utf-8 -*- import scrapy from scrapy.http import Request from scrapy.spiders import CrawlSpider,Rule from scrapy.linkextractors import LinkExtractor class OfficialSpider(Craw

浏览 2提问于2018-10-19得票数 1

1回答

Scrapy下载HTML模板，而不是页面源代码

、、、

我是Scrapy的新手，所以请原谅这个愚蠢的问题。 import scrapy from bs4 import BeautifulSoup from scrapy_proj.scrapy_proj.items import PageSourceLoc, ItemField from scrapy.loader import ItemLoader from scrapy.http.response import Response from scrapy import Selector class MySpider(scrapy.Spider): name = 'websou

浏览 36提问于2021-07-03得票数 0

2回答

CrawlerRunner不使用钩针抓取页面

、、、

我正在尝试使用CrawlerRunner()从脚本启动一个剪贴画，以便在AWS Lambda中启动。我在Stackoverflow中看了钩针库的解决方案，但它对我不起作用。链接：代码如下： import scrapy from scrapy.crawler import CrawlerRunner from scrapy.utils.project import get_project_settings from scrapy.utils.log import configure_logging # From response in Stackoverflow: https://st

浏览 0提问于2019-01-29得票数 0

1回答

爬行请求的FIFO顺序与刮刮

、

我希望scrapy按FIFO顺序处理爬行，例如，在该循环中有一个循环每个元素处理3个深度节点，第二个元素在完成第一个元素3深度调用之后开始。

浏览 2提问于2016-05-06得票数 0

回答已采纳

1回答

递归爬行不适用于Scrapy Spider

、、

我一直在尝试从美食网络抓取菜谱标题，我想递归地移动到下一页。我使用的是python 3，所以scrapy中的一些函数对我来说是不可用的，但这是我到目前为止所拥有的： import scrapy from scrapy.http import Request from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor from scrapy.selector

浏览 1提问于2016-04-19得票数 0

1回答

链接提取器无法获取超出特定路径的路径

、

我需要一点关于Scrapy的帮助和你的指导。我的Start_Url是:：已经粘贴了下面的代码，它能够获得链接/路径，直到下面的url。但不能超越这一点。我需要转到每个产品的页面，在下面的路径下列出。在"productsinfamily“页面中列出了特定的产品(可能在一个java脚本中)。我的爬虫无法访问这些单独的产品页面。下面是爬虫蜘蛛的代码- import scrapy from scrapy.spiders import CrawlSpider, Rule from scrapy.linkextractors import LinkExtractor class Produ

浏览 5提问于2018-01-27得票数 0

1回答

在Scrapy的ItemLoader中，如何将自定义解析方法与TakeFirst()结合使用？

、

我将重构我为抓取等APK下载页面而编写的爬行器。这是目前为止的蜘蛛： DEBUG = True import scrapy from scrapy.spiders import SitemapSpider from apkmirror_scraper.items import ApkmirrorScraperItem, ApkmirrorItemLoader class ApkmirrorSitemapSpider(SitemapSpider): name = 'apkmirror-spider' sitemap_urls = ['http://w

浏览 2提问于2017-04-25得票数 1

1回答

对于Scrapy，如何从robots.txt文件中检查单个页面上的链接？

、

使用Scrapy，我将刮除单个页面(通过脚本，而不是从控制台)来检查这个页面上的所有链接(如果robots.txt文件允许的话)。在scrapy.robotstxt.RobotParser抽象基类中，我找到了方法，但我不知道如何使用它。 import scrapy class TestSpider(scrapy.Spider): name = "TestSpider" def __init__(self): super(TestSpider, self).__init__() def start_re

浏览 0提问于2020-10-23得票数 3

1回答

如何在使用Scrapy爬行数据时处理身份验证和验证码

、、、、

我正在尝试使用从抓取一堆文本消息，但目前在执行抓取之前，我被困在身份验证阶段。更具体地说，我无法通过目标网站的登录屏幕，其中有一个reCAPTCHA复选框，如下图所示。问题是，它总是被重定向回原始登录链接，以及机器人复选框的验证错误。我在社区中搜索了所有类似的问题，并尝试使用从浏览器复制带有身份验证会话的cookie的解决方案(在我手动登录后)，以便我可以在Scrapy中使用它们，但它仍然不起作用。到目前为止，我的代码如下： import ... class CrawlerSpider(scrapy.Spider): name = "test" allowe

浏览 0提问于2020-03-16得票数 0

1回答

无法使用刮伤登录

、

我正在尝试刮一个我必须先登录的页面，但是由于某种原因，在我使用FormRequest之后，刮除会爬上另一个没有什么关系的页面。请参阅下面的代码： # coding: utf-8 import scrapy from scrapy.http import Request, FormRequest usuario = 'myemail' senha = 'mypassword' urllogin = 'https://ludopedia.com.br/login' urlnotificacoes = 'https://ludopedia.c

浏览 1提问于2017-07-25得票数 0

回答已采纳

2回答

如何从一长串带有刮伤的urls列表中提取所有内容？

、、、、

我想访问，然后从一个urls列表中提取内容。例如，考虑到这个，我想提取每个帖子的内容。因此，在发布的答案中，我尝试了以下几点： # -*- coding: utf-8 -*- import scrapy from selenium import webdriver import urllib class Test(scrapy.Spider): name = "test" allowed_domains = ["https://sfbay.craigslist.org/search/jjj?employment_type=2"] sta

浏览 0提问于2016-10-31得票数 0

1回答

scrapy、splash、lua、按钮单击

、、、、

我对这里的所有乐器都是新手。我的目标是从大量页面中提取所有的URLS，这些页面通过一个"Weiter"/"next“按钮连接在一起--对于几个URLs。我决定用scrapy来试一试。该页面是动态生成的。然后我了解到我需要更多的仪器，并为此安装了Splash。安装工作正常。我根据教程设置了安装。然后，我设法通过在search-input-field中发送"return“来获得第一个页面。浏览器会给出我需要的结果。我的问题是，我试图点击生成的页面上的“下一步”按钮，但不知道具体怎么做。正如我在几页上读到的那样，这并不总是那么容易。我尝试了建议的解决方案，但没有成功。

浏览 2提问于2017-11-05得票数 6

2回答

使用xpath拉取信息

、、、

有人知道如何使用scrapy从这里获取日期吗？ '<a href="/realDonaldTrump/status/988856839893897222" class="tweet-timestamp js-permalink js-nav js-tooltip" title="12:06 PM - 24 Apr 2018" data-conversation-id="988856839893897222"><span class="_timestamp js-short-timestamp &#

浏览 1提问于2018-04-28得票数 0

1回答

刮擦不返回元素

、、

我试图从这里检索数据是徒劳的：。假设我想先得到昵称元素。它以以下格式出现在HTML源代码中：<div _ngcontent-bqd-c27="" automation-id="trade-item-name" class="symbol">markaungier</div> 我尝试了以下三种方法：使用CSS选择器nickname = response.css("[automation-id=trade-item-name]") 使用XPATH相对路径nickname = response.xpat

浏览 2提问于2020-10-14得票数 0

回答已采纳

1回答

函数，返回值返回到哪里？

、、、

我是“飞毛腿”的新手，如果这个问题微不足道，我很抱歉。我从官方网页上读到了“刮刮”上的文件。当我翻阅文档时，我遇到了这个例子： import scrapy from myproject.items import MyItem class MySpider(scrapy.Spider): name = ’example.com’ allowed_domains = [’example.com’] start_urls = [ ’http://www.example.com/1.html’, ’http://www.example.com/2.html’, ’http:/

浏览 1提问于2014-10-04得票数 7

回答已采纳

3回答

Scrapy shell XPATH不工作

我在Chrome的XPATHHelper和火狐的XPather中尝试了下面的XPATH，它总是在谷歌搜索结果页面中显示所有的片段(即搜索结果的描述)，但它在Scrapy shell中不起作用： //span[@class='st'] 如果很重要，我会像这样调用scrapy shell： scrapy shell "http://www.google.com/search?q=myQuery" 我说的是hxs.select("//span[@class='st']")。这总是返回一个空列表。有什么线索可以解释为什么会发生这种情况

浏览 2提问于2012-06-08得票数 1

回答已采纳

1回答

twitter scrapy未返回

、

我刚接触scrapy，只是在收集我的抓取数据时遇到了一些问题。到目前为止，我已经.. import scrapy class userScrape(scrapy.Spider): name = 'uscraper' allowed_domains = ['twitter.com'] def start_requests(self): url = 'https://www.twitter.com/' tag = getattr(self, 'username', None

浏览 0提问于2018-02-27得票数 0

1回答

如何利用抓取递归抓取整个网站

、、、

我想用刮伤来抓取完整的网站，但是现在它唯一的爬行单页。 import scrapy from scrapy.http import HtmlResponse from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.selector import HtmlXPathSelector from scrapy.contrib.exporter import JsonItemExporter cla

浏览 0提问于2014-11-27得票数 1

1回答

从未使用Scrapy调用的回调函数

、、、

我是Scrapy和python的新手。我花了几个小时尝试调试并寻找有用的响应，但我仍然卡住了。我正在尝试从www.pro- from reference.com中提取数据。这是我现在拥有的代码 import scrapy from nfl_predictor.items import NflPredictorItem class NflSpider(scrapy.Spider): name = "nfl2" allowed_domains = ["http://www.pro-football-reference.com/"] start_

浏览 0提问于2016-01-14得票数 0

2回答

等待Scapy回调函数

、、、

我对一般的Scrapy和Python都很陌生。以下是代码： import scrapy import json class MOOCSpider(scrapy.Spider): name = 'mooc' start_urls = ['https://www.plurk.com/search?q=italy'] custom_settings = { 'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter', } gl

浏览 3提问于2020-12-03得票数 1

回答已采纳

1回答

无法从有刮痕的网站下载图片

、、、

我从Scrapy开始，以便自动从网站下载文件。作为一个测试，我想从网站下载jpg文件。我的代码基于和Scrapy网站上的。我的代码是：在settings.py中，我添加了以下几行： ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} IMAGES_STORE = '/home/lucho/Scrapy/jpg/' 我的items.py文件是： import scrapy class JpgItem(scrapy.Item): image_urls = scrapy.Fiel

浏览 3提问于2015-12-07得票数 1