Web抓取:下一个页面以Javascript呈现，我如何使用Scrapy获取它

文章/答案/技术大牛

发布

1回答

、、、、

我一直在尝试使用Scrapy https://www.remax.com/homes-for-sale/ny/new-york/city/3651000来抓取这个网站。我可以获取页面上的内容，但不能转到下一个页面，因为它似乎是用javascript呈现的。如何做到这一点呢？

浏览 4提问于2020-11-30得票数 0

1回答

如何使用scrapy进行分页

、

我有这个目标url：<ul class="pagination pagination-lg"><a hrefNext" class="xh-highlight"></l

浏览 1提问于2018-07-02得票数 0

1回答

等待带有scrapy的加载页面

、

我正在尝试使用FormRequest获取网页内容以绕过表单。但问题是，在这个表单之后，有一个页面与加载栏，只有在这个栏是满后，网站显示我想要的内容。scrapy脚本在响应对象中给出了加载页面，而不是具有我想要的结果的最终网页。我能做些什么来解决这个问题？我认为，也许我需要设置一个计时器，让爬虫等待加载的页面完成他的工作。

浏览 1提问于2015-07-10得票数 0

2回答

为什么我不能在Scrapy中解析响应？

我是新的抓取和使用它从拉扎达网站刮数据。我得到了200条HTTP消息，这意味着响应将成功返回。但是我不能解析响应，尽管xpath查询是正确的。有谁可以帮我？谢谢。这是代码：name = 'lazada' allowed_domains = ['lazada.com.myUPDATE：我确实尝试过获取存储在

浏览 19提问于2020-10-28得票数 0

1回答

抓取不能抓取链接-- vnexpress网站评论

、

我是Scrapy & Python的新手。我尝试从以下URL获取注释，但结果始终为null：from scrapy.spiders import Spider item['like'] = comment.xpath('//span[@class="txt_666 tx

浏览 4提问于2016-05-12得票数 0

回答已采纳

2回答

Scrapy、Selenium或机械化来抓取web数据？

、、、

我想从一个网站上抓取一些数据。我应该

浏览 1提问于2014-01-06得票数 11

1回答

抓取外壳看起来不同于用户界面，网站的一部分是不可抓取的

、、、、

问题是我不能抓取网站的一部分。如果我使用chrome devmode，我无法在xpath或选择器中复制正确的位置。我将获得其他选项卡或div的正确路径，例如正文标题：body > div.header.home-header > div 然而，当我试图获得包含我想要的信息的标签时，我只得到了：#htmlContent如果我手动编写它，它应该是：body > div.main.mai

浏览 24提问于2019-04-24得票数 0

回答已采纳

2回答

Scrapy:提取数据(css-selector)

、、

我正在尝试从这个获取数据(标题)。我的代码不能工作。我做错了什么？scrapy shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3

浏览 1提问于2020-08-03得票数 0

1回答

使用scrapy splash对抓取速度有显著影响吗？

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取</em

浏览 3提问于2018-04-18得票数 12

回答已采纳

1回答

Scrapy脚本并不能在电子商务网站页面上获得所有的产品

、

我对刮刮还很陌生，我正在尝试刮一个产品列表页面(来自: nordstromrack.com)。我使用了几乎相同的脚本在其他网站上没有问题，但在这个网站上，它似乎只给我的前6项的网页，我想刮。我在同一个站点上使用了不同的页面，结果相同(Ex：)。我用刮壳看看我是否得到了不同的结果，但我只得到前6个链接。该页面源只显示6个链接以及。所以我有点搞不懂到底是什么问题。我在

浏览 1提问于2018-07-11得票数 0

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

2回答

Scrapy crawler无法从多个页面爬行数据

、、、

我正在尝试删除以下页面的结果： `import sys from scrapy.selector import HtmlXPathSelectorfrom scrapy.contrib.spiders import CrawlSpider,

浏览 1提问于2013-06-01得票数 1

2回答

在web服务器上使用java内容的抓取

、、

我想从一个显然使用javascript生成表的站点(这个站点是oddsportal.com)中抓取内容。我看到Scrapy无法加载动态内容，我阅读selenium可以处理它，但我计划使用web服务器。有什么方法可以解析这个站点或获取动态请求并使用scrapy解析它吗？例如，我想从这个页面导入完整的表，包括标题

浏览 3提问于2016-01-28得票数 1

回答已采纳

1回答

Rasbperry Pi上的Scrapy和Javascript站点

、、

我试图抓取一个页面，这是由javascript修改后，在Raspberri Pi上使用Scrapy的初始加载。我试图安装docker和scrapinghub/splash来渲染页面，然后再将其传递给scrapy，但我意识到Splash还不支持ARM。在Raspberry Pi上使用javascript和Scrapy来抓取页面还有其他选择

浏览 15提问于2017-08-13得票数 0

回答已采纳

2回答

在Python代码中获取的HTML与显示的网页不同

、、、

我最近开始用Scrapy学习web抓取，作为练习，我决定从this url抓取一个天气数据表。通过检查页面的XPath元素，我将其表复制到我的代码中，但在运行代码时只得到一个空列表。我尝试使用以下代码检查HTML中存在哪些表： from scrapy import Selectorimport pandas as pd url = 'https:dat

浏览 122提问于2020-09-06得票数 0

回答已采纳

1回答

如何在google的网络商店搜索结果上抓取动态生成的数据

、、、、

我想抓取一个网页，它显示了在谷歌的网络商店的搜索结果，该链接是静态的，为特定的关键字。问题是我无法呈现由Javascript代码生成的动态数据，以响应服务器。我尝试使用Scrapy和Scrapy-Splash呈现所需的页面，但仍然得到相同的响应。我使用Docker在端口8050

浏览 12提问于2019-07-07得票数 0

1回答

如何将javascript呈现模块集成到scrapy中？

、、、

我正在做一个网络抓取程序，但我遇到了一个问题，使用刮擦与javascript生成的内容。我知道scrapy不是为进行这种类型的抓取而构建的，但我一直试图使用或来完成我所需要的工作。但是，我无法让这两个模块中的任何一个正确地使用scrapy。我的问题是，如果有人有一个最小的示例，他们可以显示使用scrapyjs或splash来呈现

浏览 0提问于2014-02-04得票数 4

回答已采纳

1回答

在搜索Google时转到下一页

、、、

我正试着在网上搜索谷歌酒店上的酒店列表。然而，我找不到一种方法绕过谷歌的分页，因为URL几乎保持不变，只是有一些事情发生了变化。我想知道这里有没有人以前通过过这个问题？我已经成功地从第一页抓取了数据，但我需要为那里的每一页做这件事请看下面我的当前代码。我已经注释掉了下一页的部分，因为我不知道如何让它工作 from bs4 import BeautifulSoupimport sy

浏览 10提问于2019-12-18得票数 0

2回答

Python Scrapy动态网站

、、、、

我试图在Scrapy和xpath选择器的帮助下刮一个非常简单的网页，但出于某种原因，我的选择器在Scrapy中不工作，但它们在其他xpath实用程序中工作<select//select[@id="chapterMenu"]/option[@selected="selected"]/text()')S

浏览 4提问于2014-01-19得票数 1

回答已采纳

1回答

从报纸到txt的剥落

、

我对抓取有点陌生，我需要为一份工作提取一些报纸信息，我尝试过一些教程，但没有一个像我预期的那样有效，目标是获取一个给定的url，提取关于前4个ou 5主题的信息(当我们点击链接时的内部信息)。我试着浏览链接，首先，我失败了，输出是空的，显示0爬行页面。import scrapy name = 'blogspider'

浏览 1提问于2017-05-03得票数 0

回答已采纳

点击加载更多