从scrapy中的javascript onclick元素获取url

、

我想从onclick javascript函数中获取href url。这是我的按钮元素 <button class="module_bnt" onclick="window.location.href='https://someurl.org/module/'"> ClickHere to Start Quiz</butto

浏览 32提问于2020-04-13得票数 0

回答已采纳

1回答

无法使用样式组件javascript刮除网站。

、、、

我的目标问题responseresponse.xpath('//h1/

浏览 4提问于2020-12-15得票数 0

回答已采纳

1回答

从包含scrapy python中的javascript的div中通过xpath抓取数据

、、、

但是一些div元素包含javascript，所以当我使用xpath时，直到包含javascript代码的div id返回一个空列表，并且不包含该div元素(包含javascript)也能够获取HTML数据div id="contentDetails"> <h2> <a hr

浏览 3提问于2012-06-12得票数 2

2回答

Scrapy:提取数据(css-selector)

、、

我正在尝试从这个获取数据(标题)。我的代码不能工作。我做错了什么？scrapy shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3

浏览 1提问于2020-08-03得票数 0

0回答

来自Techcrunch的Python/Scrapy抓取

、

我正在尝试构建一个蜘蛛来从网站中抓取一些数据 url = url + '?s=' + tag de

浏览 5提问于2017-06-08得票数 0

回答已采纳

1回答

获取与每个标记对应的每个文本

我正试图从网页的左边栏中获取一些数据。其目的是使用show more单击所有scrapy_playwright按钮，并获取属于show more列表的每个元素的标题。但是，当我运行刮板时，它会对所有列表迭代相同的头make。我需要得到这些独特的每一组名单。这是我的刮刀：from scrapy.item import

浏览 12提问于2022-01-27得票数 0

回答已采纳

1回答

如何使用scrapy进行分页

、

我有这个目标url：<ul class="pagination pagination-lg"><a hrefxh-highlight"></li>< </ul&

浏览 1提问于2018-07-02得票数 0

1回答

多元素的elem.onlick

、

我试图在Javascript中的一个段落中添加几个链接。我试图向每个元素添加一个onclick，但它只将其添加到创建的第一个元素中。我的Javascript代码是： var elem = document.createElement('a'); ele

浏览 0提问于2019-02-18得票数 0

回答已采纳

1回答

抓取蜘蛛在单击时找不到加载的URL

、、、

我试着从这个页面- 中抓取数据 from scrapy.spiders import CrawlSpider, Rule, BaseSpider, Spider from scrapy.selector import Selector fr

浏览 2提问于2017-03-24得票数 3

回答已采纳

3回答

获取正确的分页的Scrapy Xpath

、、

为了收集一些小数据，我已经收集了一段时间，但是我想获得一些额外的信息，但是我被一个分页卡住了。我想获得链接的数据-href，但是它需要包含我一直在

浏览 0提问于2018-08-07得票数 0

回答已采纳

1回答

刮痕没有爬行所有的链接

、、、

Scrapy是有效的，但它似乎只刮start_urls，不爬行任何链接。from scrapy.spider import BaseSpiderfrom scrapy.contrib.spidersimport CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml impo

浏览 2提问于2014-02-01得票数 3

2回答

Scrapy爬虫没有跟随链接来获取新页面

、、、

我正在从一个使用Javascript链接到新页面的页面获取数据。我正在使用Scrapy + splash来获取这些数据，然而，由于某些原因，这些链接没有被遵循。下面是我的爬行器的代码： import scrapy functionmain(splash, args) loca

浏览 15提问于2019-02-25得票数 2

2回答

在Python代码中获取的HTML与显示的网页不同

、、、

我最近开始用Scrapy学习web抓取，作为练习，我决定从this url抓取一个天气数据表。通过检查页面的XPath元素，我将其表复制到我的代码中，但在运行代码时只得到一个空列表。我尝试使用以下代码检查HTML中存在哪些表： from scrapy import Selectorimport pandas as pd table = s

浏览 122提问于2020-09-06得票数 0

回答已采纳

1回答

Scrapy:从脚本标记中提取数据

、、

我是Scrapy的新手。出于工作目的，我正在尝试从'https://www.tysonprop.co.za/agents/‘中抓取内容。特别是，我正在寻找的信息似乎是由脚本标记生成的。我正在尝试访问在运行时在h2元素中生成的文本。然而，Scrapy响应对象似乎获取了原始源代码。agents-list-right" class="agents-l

浏览 11提问于2020-09-23得票数 0

1回答

刮破的蜘蛛不能陷入不和谐

、

我试图制造一个不和谐的刮刀来获取服务器的所有成员，但是我被卡在登录上了，但是我在页面的源代码中任何地方都找不到csrf令牌--也许这就是我得到这个错误的原因，因为有几个消息来源说它是必需的，但我不确定，这是我的蜘蛛造成问题的原因 name = "Recru

浏览 0提问于2021-11-08得票数 0

1回答

Scrapy Splash单击带有javascript href的链接

、

我正在使用Scrapy Splash抓取一个包含如下元素的页面：第1页，共349页 1|2|3|4|5|6|7|8|9| 10 |下一步> 我想‘点击’锚与文本‘下一步’，并让javascript执行以获取下一页。这是我的刮刀的样子： script = """ splash:init_cookies(splash.args.cookies)endpoint=

浏览 29提问于2019-02-16得票数 1

回答已采纳

2回答

从selenium/browser切换到单一蜘蛛的默认机制

、、、、

我遇到过带有Ajax隐藏元素的页面，我需要爬行这些元素。我发现了这个简洁的教程，它展示了如何在没有对服务器的额外调用的情况下使用Selenium来完成此操作(我也是这样)。然而，这个和其他来源提到了为此目的使用Selenium的性能成本。在本例中，驱动程序是在构造函数中启动的，所以我假设对蜘蛛的所有请求都将通过Firefox进行？我只涉及到一小部分Ajax调用，其余的都是标准<em

浏览 5提问于2015-11-20得票数 0

回答已采纳

1回答

动态内容抓取

、、

我们可以使用Scrapy从由Javascript加载的网页中获取内容吗？我正在尝试从页面中抓取使用示例，但是由于它们是使用Javascript作为JSON对象加载的，所以我无法使用Scrapy获取它们。你能提出什么是处理这些问题的最佳方法吗？

浏览 5提问于2016-11-22得票数 0

回答已采纳

1回答

用刮伤下载整页

、、、、

获取它的一些页面，并将它们与所有CSS文件和图像一起存储。就像在浏览器中保存页面一样。我尝试过selenium，但是使用selenium，我只能保存html不完整的页面，所以不可能用selenium来实现这一点。我想知道我能用Scrapy做这个吗？如果不可能使用Scrapy，我还能使用什么？

浏览 0提问于2018-10-18得票数 1

回答已采纳

2回答