如何抓取Scrapy教程中的“下一页”？

文章/答案/技术大牛

发布

1回答

、

我正在做scrapy tutorial，并且我在“Craigslist Scrapy Spider #3 - Multiple Pages”部分，但在遵循给定的说明后无法获得多个页面。我所做的和教程显示的唯一区别是我使用了“所有工作”，而不仅仅是工程工作(因为只有一页的工程工作)。下面是我的代码 import scrapy class Job

浏览 10提问于2020-07-28得票数 0

回答已采纳

1回答

如何使用selenium python自动分页？(无需手动选择next按钮)

、、、、

我正在抓取图像的网站列表，使用selenium webdriver+scrapy，但每个网站的下一步按钮都有不同的类/div名称，如何自动查找不同网站中的下一页进行抓取？

浏览 11提问于2020-06-20得票数 0

1回答

如何在python中使用selenium或scrapy点击“下一步”按钮

、、、、

我正在尝试使用scrapy从flipkart.com中抓取一些数据。除了翻到下一页，我什么都拿到了。首先，我尝试使用scrapy，然后使用selenium。实际上，一个类有上一页和下一页的两个链接。使用scrapy:我无法获取任何结果。我得到的是空白输出。使用selenium:每当我尝试点击下一页时，从第一页到第二页

浏览 45提问于2021-02-10得票数 1

1回答

关于Scrapy，我在使用链接提取规则导航页面时遇到了问题，我认为这与允许参数有关。

、、

对不起，我对Scrapy非常陌生，在寻找递归抓取和规则定义的资源时遇到了困难。我只是想刮起所有的工作列表在开始-url，以及跟随下一页链接，直到没有更多。我能够遵循一个教程和刮一页成功。然而，要实现CrawlSpider而不仅仅是页面，这是很棘手的。代码：from scrapy.contrib.linkextr

浏览 2提问于2015-03-23得票数 0

回答已采纳

1回答

如何报废网站上的所有页面(第1页直到无穷大)

、、、、

伙计们，我想从上抓取一切都好，我抓取它的成功import datetimeimport socketfrom scrapy</e

浏览 1提问于2016-07-25得票数 0

回答已采纳

1回答

如何在Scrapy中有条件地重试和重新整理当前页面？

、、

我是Scrapy的新手，对Python也不是很熟悉。我已经设置了一个抓取器来从网站上抓取数据，但是虽然我使用的是代理，但如果同一个代理被使用太多次，那么我的请求就会显示一个页面，告诉我访问太多页面太快(HTTP状态代码200)。因为我的抓取器看到的是页面的状态代码为on，它找不到所需的数据并移动到下一页。我可以确定何时通过HtmlXPathSelector显示这些页面，但是我<e

浏览 1提问于2013-03-25得票数 3

回答已采纳

1回答

我正在使用scrapy在一个网站上抓取多个页面。变量start_urls用于定义要爬行的页面。我最初会从第一页开始，因此在文件example_spider.py中定义start_urls = [1st page] 在从第一页获得更多信息后，我将确定下一页将被抓取，然后将相应地分配start_urls因此，我必须用对start_urls = [1st page, 2nd page, ..., Kth page]的更改覆

浏览 1提问于2012-01-10得票数 12

回答已采纳

3回答

如何在抓取网页时单击“下一步”按钮

、、、

我正在用scrapy抓取一个有多页信息的网页，我需要程序点击下一步按钮，然后抓取下一页，然后继续这样做，直到所有的页面都被抓取。但我想不出该怎么做，我只能把第一页刮掉。from scrapy_splash import SplashRequest class MySpider(Spider):

浏览 18提问于2019-05-22得票数 1

回答已采纳

2回答

我想通过属性来标识特定的urls，但是如果感兴趣的属性是外文字符呢？

、、

我想使用Scrapy来递归地刮取数据--在下一个页面之后从一个页面中抓取数据。我的蜘蛛需要遵循“下一页”按钮。原则上，response.xpath("a[@title = 'next page']")可以识别“下一页”urls。然而，由于网站是中文()，我使用的选择器命令是response.xpath("a[@title = '下一

浏览 7提问于2015-10-18得票数 0

回答已采纳

1回答

Scrapy无限滚动-无分页指示

、

我是网络抓取的新手，当我尝试用无限滚动抓取网站时，我遇到了一些问题。我看了一些其他的问题，但我找不到答案，所以我希望有人能在这里帮助我。然而，我不知道如何转到下一页。cat=all&newstime=905169272&newsi

浏览 0提问于2019-09-10得票数 0

1回答

如何让scrapy遵循javascript生成的url？

、、、、

我想抓取这个网站的新闻：new.scut.edu.cn，但在它的子网站，如，右下角的下一页(中文下一页) url是由javascript生成的。下一页的html源代码是<a name="_l_p_n" href="javascript:if(true){a_next('/s/22/t/4/

浏览 6提问于2015-06-07得票数 2

1回答

python抓取规则在google结果中进行网络抓取

、、、、

我正在尝试让scrapy (1.0)遍历所有google结果，并且我可以毫不费力地抓取结果的第一页，但是我不能让抓取器遍历下面的页数(我认为这叫做遍历？)。我尝试使用“规则”：但我一直收到错误： NameError: name 'Rule' is no

浏览 2提问于2015-07-11得票数 0

2回答

运行结果很差

刚刚开始使用Scrapy，我希望能在正确的方向上有所作为。我想从这里抓取数据： import scrapy name = 'sportstatsresults.append(result) print(result) 现在我需要转到下一个页面，我可以

浏览 2提问于2016-05-12得票数 0

2回答

scrapy -如果关注无限网站，则终止爬行

、、、

假设我有一个像这样的网页。>但是，如果我想像这样使用scrapy抓取这个页面并跟随链接，scrapy永远不会停止抓取。) urls.append(response.url) 我可以使用什么样<e

浏览 9提问于2018-10-29得票数 3

1回答

使用Scrapy对网站进行分页和获取价格

、、

我开始关注Scrapy，想要一个蜘蛛来获得MTG卡的一些价格。首先，我不知道我是否100%正确地使用了在函数开始时选择所有可用卡片的链接：allowed_domains = ['www.bazardebagda.com.br2-然后，如果你访问网站，我找不到如何获得卡的单位和价格，它们是空白的DIV的…titles = response

浏览 0提问于2019-12-07得票数 0

2回答

Scrapy Page不重定向

、、

我正在尝试抓取MercadoLibre的产品列表。我使用的是Scrapy 1.5.0。当Scrapy尝试转到下一页时，它会循环第一页和第二页。代码# Scrapy 1.5.0 from scrapy.http import Request class MercadoLibreSpider(scrapy.S

浏览 10提问于2018-10-11得票数 0

1回答

为什么我在运行Scrapy时得到空的“消息：”记录输出？

、、、、

:43:05 scrapy.extensions.logstats信息:抓取381页( 140页/分钟)，刮掉350项( 136项/分钟) 2017-08-25 13:44:05 scrapy.extensions.logstats信息:爬行688页(每分钟307页)，刮除659项( 309项/分) 2017-08-25 13:45:05 scrapy.extensions.logstats信息:抓取99

浏览 2提问于2017-08-25得票数 0

2回答

如何在Scrapy* Crawler中跟踪下一页以抓取内容*

、、

我能够从第一页抓取所有的故事，我的问题是如何移动到下一页，继续抓取故事和名字，请检查下面的代码。# -*- coding: utf-8 -*-from cancerstories.items import CancerstoriesItem name = scrapy.Field() story = scrap

浏览 2提问于2016-02-10得票数 2

回答已采纳

1回答

抓取:网页下一步按钮使用WebForm_DoPostBackWithOptions()

、、

我是个新手，正在尝试抓取href="javascript:WebForm_DoPostBackWithOptions(new WebForm_PostBackOptions("ctl00$Content$rptPaging$ctl02$lbPaging", "", true, "", "", false, true))" 数据是动态加载的。我正在尝试查找要加载的数据的源

浏览 3提问于2020-08-12得票数 1

2回答

使用Scrapy编写instagram爬虫。我怎样才能转到下一页？

、、

作为练习，我决定编写一个python脚本来获取指定用户的所有图像。我对Scrapy比较熟悉，这就是为什么我选择它作为抓取工具。目前，该脚本只能从第一页(最大12)下载图像。据我所知，instagram页面是由javascript生成的。Scrapy的response.body (类似于从Chrome上看到的源代码)不像Chrome的Inspector那样显示html结构。在Chrome浏览器中，在12张图片之后，底部

浏览 15提问于2016-07-19得票数 3

回答已采纳

点击加载更多