腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scrapy
和
selenium
抓取
分页
内容
、
、
我正在
使用
selenium
和
scrapy
来
抓取
一个包含ajax
内容
的网站。首先,由于"csrf“的原因,我无法模拟ajax请求。page=230 a::text'
浏览 20
提问于2017-12-24
得票数 0
回答已采纳
1
回答
如何并行运行
Selenium
-
scrapy
、
、
、
、
我正在尝试
使用
scrapy
和
selenium
来
抓取
javascript网站。我
使用
selenium
和
一个chrome驱动程序打开javascript网站,
使用
scrapy
从当前页面
抓取
到不同列表的所有链接,并将它们存储在一个列表中(到目前为止,这是最好的方法,因为尝试
使用
seleniumRequest然后,我循环遍历URL列表,在
selenium
驱动程序中打开它们
浏览 36
提问于2021-02-05
得票数 0
回答已采纳
1
回答
使用
Scrapy
和
selenium
抓取
网站
、
、
我打算用
Scrapy
在上
抓取
html
内容
。 </div> </div> <
浏览 2
提问于2016-11-26
得票数 0
1
回答
在搜索Google时转到下一页
、
、
、
然而,我找不到一种方法绕过谷歌的
分页
,因为URL几乎保持不变,只是有一些事情发生了变化。请参阅以下链接
和
屏幕截图 Hotel List Dublin on Google ? 我已经成功地从第一页
抓取
了数据,但我需要为那里的每一页做这件事 请看下面我的当前代码。
浏览 10
提问于2019-12-18
得票数 0
1
回答
抓取
句柄302重定向
、
、
、
、
我正在尝试用一个粗糙的CrawlSpider
抓取
一个网站,问题是这个网站一直在随机地重定向我,这意味着一个url有时可能会加载,有时会被重定向到某个页面。我试着改变我的用户代理,尝试通过创建一个类似于浏览器发送的http头来模仿浏览器的行为,即使我
使用
crawlera发送请求,也没有解决我的问题。如果有人能帮我度过难关,我将不胜感激2017-11-06 02:11:14 [
scrapy
.core.engine] INFO: Spider opened 2017-11-06 02:11:14 [
scrapy
.ex
浏览 2
提问于2017-11-06
得票数 0
2
回答
selenium
ajax动态
分页
基蜘蛛
、
、
、
、
我试图运行我的基础蜘蛛的动态
分页
,但我没有获得成功的爬行。我
使用
了
selenium
ajax动态
分页
。我
使用
的网址是:。这是我的代码:import
scrapy
def
浏览 4
提问于2014-12-17
得票数 1
回答已采纳
3
回答
如何使
selenium
在页面加载后对页面进行刮擦
、
、
、
、
我
使用
scrapy
来
抓取
所有的链接,用
selenium
抓取
所有的页面。
Selenium
抓取
了大部
分页
面,但在加载页面时留下了几个页面。我尝试了timeout(),但似乎不起作用,然后我尝试了
使用
execute_script driver.execute_script(“返回document.readyState==”完成“;”)WebDriverWait.until(expected_conditions.execute_scrip
浏览 4
提问于2020-08-23
得票数 0
1
回答
使用
scrapy
splash对
抓取
速度有显著影响吗?
、
、
、
、
到目前为止,我一直在
使用
scrapy
和
编写自定义类来处理
使用
ajax的网站。但是,如果我
使用
scrapy
-splash,据我所知,它会在javascript之后
抓取
呈现的html,爬虫的速度会受到严重影响吗?
使用
scrapy
抓取
一个普通的html页面所需的时间与
使用
scrapy
-splash
抓取
javascript渲染的html所需的时间进行了怎样的比较?最后,<
浏览 3
提问于2018-04-18
得票数 12
回答已采纳
2
回答
使用
python
scrapy
抓取
动态
内容
、
我想
抓取
这个链接中的“日历”
内容
:我想知道我是否可以在不
使用
selenium
的情况下
使用
python
scrapy
来
抓取
这些
内容
。因为我无法从网络选项卡中找到任何信息。谢谢!
浏览 0
提问于2017-11-15
得票数 0
1
回答
Scrapy
:如何开始从
使用
Javascript的搜索结果中
抓取
数据
、
、
我是新手
使用
scrapy
和
python我想开始从搜索结果中
抓取
数据,如果你会加载页面默认
内容
将会出现,我需要
抓取
的是过滤后的
内容
,同时做
分页
?下面是我需要从时间过滤器中
抓取
项目的URL:"Today“我所做的就是这些,但更多的是关于布局结构。class TmcnfSpider(
scrapy
.Spider):allowe
浏览 1
提问于2019-05-10
得票数 0
2
回答
在web服务器上
使用
java
内容
的
抓取
、
、
我想从一个显然
使用
javascript生成表的站点(这个站点是oddsportal.com)中
抓取
内容
。我看到
Scrapy
无法加载动态
内容
,我阅读
selenium
可以处理它,但我计划
使用
web服务器。 有什么方法可以解析这个站点或获取动态请求并
使用
scrapy
解析它吗?例如,我想从这个页面导入完整的表,包括标题、匹配名
和
赔率。
浏览 3
提问于2016-01-28
得票数 1
回答已采纳
1
回答
带有刮刀的Web爬行器,
使用
木偶
和
刮除器
、
、
、
、
我必须
抓取
和
刮相当多的网站,这些网站是由React / javascript / html技术组合而成的。这些网站在所有地方都有大约。10万至50万页。我计划
使用
Selenium
和
Scrapy
来完成爬行
和
抓取
。单是
Scrapy
就不能对页面进行
抓取
,
使用
Selenium
来
抓取
常规的javascript/html是非常耗时的。
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
2
回答
Scrapy
:谁能告诉我为什么这段代码不能让我
抓取
后面的页面?
、
我是一个初学者,正在学习如何在Python中
使用
Scrapy
进行网络
抓取
。有人能指出哪里出了问题吗?我的目标是
抓取
所有后续的页面。from indeed.items import IndeedItem name = "indnext_page_extension is not None: next_page = response.urljoin(n
浏览 27
提问于2021-04-25
得票数 3
1
回答
如何从
使用
AJAX
和
JavaScript的网站中刮取数据?
如果网站
使用
AJAX
和
JavaScript加载
内容
,则可能很难从站点中
抓取
数据。数据可以动态生成并存储在JavaScript变量中,使web刮刀无法访问数据。
浏览 7
提问于2022-05-11
得票数 0
1
回答
如何
使用
Scrapy
自动获取请求头?
、
我们知道,在浏览器中,可以查看->网络-> XHR -> Headers
和
get Request Header。然后可以将这些标头添加到
Scrapy
请求中。但是,有没有一种方法可以
使用
Scrapy
请求自动获取这些请求头,而不是手动获取?我尝试
使用
:response.request.headers,但此信息还不够: {b'Accept': [b'text/html,application/xhtml+xml,application/
浏览 50
提问于2021-05-21
得票数 0
回答已采纳
1
回答
在web上出现
抓取
时找不到表格
内容
(隐藏表)
、
我正在尝试
抓取
以下url (),表
内容
是我感兴趣的
内容
,但是看起来表隐藏在某个地方: 右键单击表上的检查,我可以得到表(后面是),但是在
scrapy
shell中,如果我执行response.xpath(‘//*@ ==$0’),它不会返回任何
内容
,这意味着我不能通过这种方式
抓取
内容
……请在这个问题上提供帮助,谢谢。更新:最终的解决方案是
使用
Selenium
(伟大的工具)来完成这个任务,当网页
内容</em
浏览 58
提问于2018-05-17
得票数 0
回答已采纳
3
回答
scrapy
能像
Selenium
一样控制
和
显示浏览器吗?
、
、
当我
使用
Selenium
时,我可以看到浏览器GUI,是否可以
使用
scrapy
或严格基于
scrapy
命令行?
浏览 4
提问于2015-11-03
得票数 1
回答已采纳
1
回答
未在
Scrapy
解析函数中定义的响应
、
、
我正试图结合
Selenium
编写一个
Scrapy
蜘蛛,以访问我正在
抓取
的页面上的一些JavaScript
内容
。我已经成功地
使用
Selenium
打开了页面,并等待
内容
出现。现在,我想从完全加载的页面构建一个
Scrapy
TextResponse。我的代码看起来如下(我删除了URL
和
选择器字符串,它们并不重要):from
scrapy
import signals from
浏览 2
提问于2016-02-29
得票数 1
回答已采纳
2
回答
使用
python
scrapy
抓取
同一链接的下一页
、
、
我想
抓取
链接的下一页:https://www.thetoptens.com/animals/,
使用
scrapy
-
selenium
点击next按钮,但它
抓取
了链接的第一页。我也尝试过
使用
webdriver,但显示了相同的结果。
使用
scrapy
-
selenium
的代码: import
scrapy
from
scrapy
_
selenium
imp
浏览 35
提问于2020-12-17
得票数 1
1
回答
使用
selenium
时处理
分页
(POST请求)
、
、
、
、
**from
scrapy
_
selenium
import SeleniumRequest name
浏览 7
提问于2020-09-09
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券