无法使用scrapy splash选择元素

文章/答案/技术大牛

发布

1回答

、、

我使用这段代码来提取特定链接类中的文本。我可以选择.extract_first()类中的一个元素，但我不能选择同一个类的所有元素，我希望能够选择所有元素并将它们存储在列表中。下面是我的代码：import scrapy class MySpider(scrapy.Spid

浏览 7提问于2020-02-27得票数 0

1回答

Scrapy + splash:无法选择元素

、、、、

我有以下的lua代码： local url = splash.args.url assert(splash"description": "Error happened while executing Lua script"不知何故，我的css表达式是假的，结果导致尝试访问一个未定义/零的元素编辑:尽管我仍然想知道如何实际单击元素

浏览 2提问于2017-01-13得票数 3

回答已采纳

2回答

Scrapy:提取数据(css-selector)

、、

scrapy shell https://www.indiegogo.com/projects/functional-footwear-run-pain-free#/ response.css('.t-h3

浏览 1提问于2020-08-03得票数 0

1回答

如何从已经选定的元素对象中选择带有splash的元素

、、、、

在使用splash:select选择一个元素之后，如何选择它下面作为子元素的所有锚元素？我已经尝试过这个lua脚本，并使用了scrapy/splash： assert(splash:go(splash.args.url))

浏览 0提问于2017-05-17得票数 1

回答已采纳

2回答

多个Selenium实例的Scrapy (并行)

、、

我需要用Selenium和Scrapy抓取很多网址。为了加快整个过程，我正在尝试创建一组共享的Selenium实例。

浏览 84提问于2019-01-23得票数 0

1回答

当我使用selenium在zomato上抓取菜品数据时，我找不到节标签。

、、

我无法使用此方法刮除部分元素，请帮助我解决此问题。

浏览 8提问于2022-05-17得票数 -1

1回答

ScrapyJs (scrapy + splash)无法加载脚本，但splash服务器运行良好

、、、、

我正在尝试应用Scrapy (scrapyjs)来抓取带有脚本的页面，以便获得完整的加载页面。我应用splash + scrapy用下面的代码来渲染它。这与直接使用localhost:8050服务器的参数完全相同。) 'scrapy_splash.SplashMiddleware'

浏览 1提问于2017-05-11得票数 1

1回答

scrapy splash并不会返回所有数据

、、、、

我需要这个div元素:它包含了很多包含航班细节的div元素，但是当我使用scrapy-splash时，我只得到这个div元素，没有他的子元素-存储数据。' : 'http://localhost:8050', 'scrapy_splash.SplashCoo

浏览 9提问于2022-03-14得票数 0

1回答

返回HTML响应前不要解析JS

、、

在由Scrapy和Splash服务器组成的爬行器中，我在这个站点上遇到了问题：splash.private_mode_enabled = false 返回的HTML如下： <!src="main.076dbf684e565ed2798b.js" defer=""></script

浏览 7提问于2021-08-02得票数 0

回答已采纳

1回答

使用Scrapy和Splash抓取javascript内容

、、

我正在使用刮伤和splash：来抓取这个链接 import scrapy class ManuPySpider(scrapy.Spider):': 723, 'scrapy.down

浏览 1提问于2017-10-25得票数 0

回答已采纳

0回答

使用scrapy-splash选择依赖下拉列表

、、、、

它有一个两个下拉菜单，第二个取决于第一个，所以我选择通过scrapy-splash使用scrapy和splash。import scrapy from scrapy_splash import SplashRequest, Splash

浏览 0提问于2017-11-30得票数 2

回答已采纳

1回答

我使用Python、Scrapy、Splash和scrapy_splash包来废弃网站。我能够在scrapy_splash中使用scrapy_splash对象登录。在门户页面上，有一个表单元素包装了许多按钮。单击时，将更新操作URL，并触发表单提交。表单提交导致302重定向。我在SplashRequest中尝试了同样的方法，但是，我无法捕获重定向返回的SSO查询参数。我尝试读取标

浏览 3提问于2017-05-18得票数 2

回答已采纳

1回答

在点击事件之后，如何在没有任何屈服请求的情况下从splash + scrapyjs + scrapy获得html源代码？

、、

我正试图改变使用selenium幻影抓取动态网站的方法。但问题是，如果我们写一个点击事件在飞溅，它将需要一个屈服要求的工作。如果我们给出一个屈服请求，它将呈现第一页。在splash中也有同样的功能吗？

浏览 2提问于2016-03-28得票数 1

1回答

如何在google的网络商店搜索结果上抓取动态生成的数据

、、、、

这是我尝试使用Scrapy和Scrapy-Splash呈现所需的页面，但仍然得到相同的响应。我使用Docker在端口8050上运行scrapinghub/splash容器的一个实例。我甚至访问了网页http://localhost:8050并手动输入了我的网址，但它无法呈现数据，尽管消息显示成功。这是我为爬虫写的代码。import scr

浏览 12提问于2019-07-07得票数 0

1回答

Scrapy Splash单击带有javascript href的链接

、

我正在使用Scrapy Splash抓取一个包含如下元素的页面：第1页，共349页 1|2|3|4|5|6|7|8|9| 10 |下一步> 我想‘点击’锚与文本‘下一步’，并让javascript:get_cookies(), }""" class MySpider(scrapy.Spider'scrapy

浏览 29提问于2019-02-16得票数 1

回答已采纳

1回答

无法使用样式组件javascript刮除网站。

、、、

我的目标问题responseresponse.xpath('//h1/p')获取响应：在获取响应时，我看到了一个结

浏览 4提问于2020-12-15得票数 0

回答已采纳

1回答

Scrapy:从脚本标记中提取数据

、、

我是Scrapy的新手。出于工作目的，我正在尝试从'https://www.tysonprop.co.za/agents/‘中抓取内容。特别是，我正在寻找的信息似乎是由脚本标记生成的。我正在尝试访问在运行时在h2元素中生成的文本。然而，Scrapy响应对象似乎获取了原始源代码。agents-list right grid_6"> </div><&#

浏览 11提问于2020-09-23得票数 0

2回答

Scrapy :屏幕截图特定元素

、、、、

有没有办法在splash中截图一个特定的元素？我似乎找不到解决方案，我找到的唯一选择是使用"render.png“，这会截取整个页面的屏幕截图，我只需要一个特定的元素，例如"//table”。我找到了我目前正在使用的 (selenium中的解决方案)，Splash看起来更快，开销更小。非常感谢。

浏览 3提问于2018-04-23得票数 2

1回答

拒绝访问:您没有在此服务器上访问"http://www.airbnb.ca/rooms/48058366/“”的权限

、、、

我正在使用splash获取HTML，但是返回的response.body给了我一个拒绝访问的机会。我可以在工具中查看数据，但是由于这个错误，HTML无法提取。另外，当我只使用splash时，我会看到完整的HTML！我为任何人放置了我的github链接：访问被拒绝‘import scrapy from scrapy_spl

浏览 7提问于2022-01-31得票数 0

回答已采纳

1回答

使用scrapy* splash对抓取速度有显著影响吗？*

、、、、

到目前为止，我一直在使用scrapy和编写自定义类来处理使用ajax的网站。但是，如果我使用scrapy-splash，据我所知，它会在javascript之后抓取呈现的html，爬虫的速度会受到严重影响吗？使用scrapy抓取一个普通的html页面所需的时间与使用scrapy-splash抓取javascript渲染的html所需的时间进行了怎样的比较？最后，scrapy <em

浏览 3提问于2018-04-18得票数 12

回答已采纳

点击加载更多