Scrapy:如何获取分页链接？

、

我尝试在这个site上获取分页链接，但无济于事。if next_page is not None: yield scrapy.Request

浏览 24提问于2020-06-08得票数 0

1回答

使用curl抓取大页面

、、

我正在尝试从一个流行的新闻网站上收集评论，以便使用curl进行学术研究。对于评论少于300条的文章，它可以很好地工作，但在此之后，它就会陷入困境。curl_setopt($handle, CURLOPT_RETURNTRANSFER, true);curl_close($handle);目前，这个页面运行良好：为什么它在拥有大量评

浏览 2提问于2012-08-23得票数 0

1回答

如何使用Scrapy进行分页并访问每个页面上的所有链接

、、

我有下面的蜘蛛，我尝试结合分页和规则访问每个页面上的链接。import scrapyfrom scrapy.spiders import CrawlSpider,(response.urljoin(next_page_url))从第1页https://ausschreibungen-deutschland.de/1/开始，访问所有10个链接

浏览 3提问于2022-03-04得票数 0

回答已采纳

2回答

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

、

我是一个初学者，正在学习如何在Python中使用Scrapy进行网络抓取。有人能指出哪里出了问题吗？我的目标是抓取所有后续的页面。from indeed.items import IndeedItem name = "indnext_page_extension is not None: next_page = response.urljoin(next_page_extension

浏览 27提问于2021-04-25得票数 3

2回答

不需要下一个链接的抓取解析分页

、、

我试图在没有下一个链接的情况下解析分页。response.xpath('//div[@class="pagination"]/ul/li/a/@href/following-sibling::a[1]/@href').extract() 有一个解析这个分页的好方法吗

浏览 2提问于2020-08-04得票数 1

回答已采纳

2回答

提取所有分页链接到有刮痕的网页？

、、

import scrapy name = 'quotes' next_page_url = response.urljoin(next_page_url) yield scrapy.Request(url=next_page_url, callback=self.pa

浏览 8提问于2017-12-11得票数 1

回答已采纳

1回答

Scrapy在分页中提供模棱两可的结果

、、、

我已经创建了一个可以分页的抓取蜘蛛。使用相同的脚本与不同的链接，从相同的网站和分页被“过滤异地请求”停止。在scrapy中打开功能"dont_filter“会在页面上运行infity循环。想知道脚本如何在不做任何更改的情况下提供不同的结果？

浏览 10提问于2020-10-21得票数 0

回答已采纳

2回答

使用scrapy递归地爬行站点

、、

这是我到目前为止基于编写的代码(原始代码根本不工作，所以我尝试重新构建它)from scrapy.linkextractorsimport LinkExtractorfrom scrapy.selector importHtmlXPathSelector from nettuts.items impor

浏览 2提问于2015-12-28得票数 8

1回答

当根页面上没有链接分页时，Scrapy* Crawler无法工作。*

、、

我从一个包含每个类别页内分页的webshop中删除一些类别，但有时它不包含链接分页，因为只有一个页面。我的规则只有当链接分页在我选择的页面中时才有效，但是当类别的根页面是唯一的一个时，我不知道如何使它工作。这是我的规矩。restrict_xpaths=('//a[@class="button button_gris button_medium"]',)), callback='parse_item', fo

浏览 1提问于2016-02-29得票数 0

回答已采纳

1回答

使用scrapy不起作用地从网站上抓取所有链接

、、、

我试图废弃所有的链接，这些链接在网站上也是分页的。下面给出的是我的拼凑代码，但代码不工作。它只删除了第一页中的urls链接。如何删除所有链接？谢谢import scrapy name = 'dummyspider'if next_page_url: next_page_url =

浏览 2提问于2018-08-19得票数 0

回答已采纳

1回答

Scrapy中的下一页爬行

、、

我试图从网站获取一些数据，但我的蜘蛛没有爬行到下一页，即使在一个适当的分页链接。import scrapy name = "nspider" ).extract_first() # extracting next page link if next

浏览 16提问于2021-03-25得票数 0

回答已采纳

1回答

Scrapy CrawlSpider下一页不工作

、

我想要从每张卡片中抓取所有项目，第一个规则工作正常，但第二个规则意味着分页规则不起作用。这是我的代码： import scrapyfrom scrapy.spiders import CrawlSpider

浏览 12提问于2021-07-04得票数 1

回答已采纳

1回答

按照页面的每个链接和刮除内容，Scrapy* + Selenium*

、、

我的方法是让我的蜘蛛刮掉5页中的所有链接，然后遍历它们以获得内容。因为“下一页”按钮和每个帖子中的特定文本都是由JavaScript编写的，所以我使用Selenium和Scrapy。Scrapy也不返回错误消息。1)不将链接存储到all_links中。我的诊断可能是错的，我需要帮助找出问题。非常感谢!这是我的蜘蛛from bjdaxing.items_bjdaxing import Bjdaxing

浏览 1提问于2016-01-23得票数 1

回答已采纳

2回答

抓取爬行蜘蛛ajax分页

、、、

我正在尝试取消具有ajax分页调用的链接。我正在尝试爬行链接。在.py文件中，我提供了限制XPATH的代码，并编写了以下代码：import scrapy from scrapy.contrib.spiders import sumSpider, Rule from scrapy.selector importi

浏览 1提问于2014-12-16得票数 4

回答已采纳

2回答

外壳和蜘蛛中的Scrapy处理ajax连续响应数据

、、、、

我可以获得ajax链接，但是使用Scrapy特性提取剩余数据/“分页”的最佳方法是什么？启动外壳：获取用于ajax延续的url：url = "https:/

浏览 1提问于2015-10-24得票数 1

1回答

使用scrapy框架刮取monster.com

、、、

如何为monster.com创建一个抓取所有页面的爬虫。对于“下一页”链接，monster.com调用javascript函数，但scrapy不识别javascript。 import scrapy name = 'monster.com' allowed_domains= response.css('h2.seotitle &

浏览 3提问于2017-08-15得票数 0

回答已采纳

2回答

Scrapy:按照分页链接到刮取数据

、、、

我正在尝试从页面中抓取数据，并在分页链接之后继续抓取。我要刮的页面是-> import scrapy name = 'alibabanext_page_url = response.xpath('//link[@rel="next"]/@href').extract_first() if next_

浏览 3提问于2018-09-09得票数 0

回答已采纳

3回答

scrapy -解析已分页的项

、

我基本上想从所有页面中获取所有行，即~53*20个项目。response): # item['address'] = figure out xpath问题是，我如何抓取每个页面

浏览 0提问于2012-10-12得票数 30

回答已采纳

2回答

刮除:不要在其他域页面上爬行链接。

、、、

下面是我创建的蜘蛛，用于获取NecToday.com上的所有链接。import socketfrom scrapy.contrib.linkextractors.sgmlresponse.xpath("//title/text()").extract() item["url"] = r

浏览 0提问于2016-06-16得票数 2

回答已采纳

1回答

如何使用Scrapy和Splash处理分页，如果按钮的href为javascript:void(0)

、、、

我正试图从这个网站：中抓取大学的名称和链接，并且在处理分页时遇到了一个问题，因为指向下一页的按钮的href是javascript:void(0)，所以我无法用scrapy.Request()或response.follow()到达下一页，有什么方法可以这样处理分页吗？此网站的URL不包含params，如果单击下一个页面按钮，URL将保持不变，因此我无法通过更改URL来处理分页。下面的代码片段只能在第一页和第二页获取大学的名称和链接： import scrapy<

浏览 9提问于2022-05-12得票数 -1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用curl抓取大页面

如何使用Scrapy进行分页并访问每个页面上的所有链接

Scrapy:谁能告诉我为什么这段代码不能让我抓取后面的页面？

不需要下一个链接的抓取解析分页

提取所有分页链接到有刮痕的网页？

Scrapy在分页中提供模棱两可的结果

使用scrapy递归地爬行站点

当根页面上没有链接分页时，Scrapy* Crawler无法工作。*

使用scrapy不起作用地从网站上抓取所有链接

Scrapy中的下一页爬行

Scrapy CrawlSpider下一页不工作

按照页面的每个链接和刮除内容，Scrapy* + Selenium*

抓取爬行蜘蛛ajax分页

外壳和蜘蛛中的Scrapy处理ajax连续响应数据

使用scrapy框架刮取monster.com

Scrapy:按照分页链接到刮取数据

scrapy -解析已分页的项

刮除:不要在其他域页面上爬行链接。

如何使用Scrapy和Splash处理分页，如果按钮的href为javascript:void(0)

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐