腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
localhost
上
的
Scrapy
splash
连接
被
拒绝
:
8050
、
、
、
我已经按照Windows8.1
的
官方文档安装了
scrapy
-
splash
,但是当我访问时,我得到了
连接
被
拒绝
的
错误以下是docker cmd日志:2019-08-14 02:09:1
浏览 21
提问于2019-08-14
得票数 1
2
回答
刮溅活动内容选择器在shell中工作,但不与蜘蛛一起工作。
、
、
、
、
我刚刚开始使用
scrapy
从opentable.com检索预订
的
数量。以下内容在shell中工作得很好: 'Booked 17 times today', 'Booked 29 times today',] 然而
浏览 0
提问于2018-06-16
得票数 2
回答已采纳
2
回答
刮擦+飞溅=
连接
被
拒绝
、
、
、
' '
scrapy
_
splash
.SplashCookiesMiddleware': 723,'
scrapy
_
splash
.SplashDeduplicateArgsMiddleware': 100,
SPLASH
_URL = 'http:/&
浏览 1
提问于2017-06-29
得票数 2
2
回答
连接
到Kubernetes,GKE
上
的
Splash
服务
、
、
、
我有一个Python控制器,它使用
scrapy
-
splash
库将SplashRequest发送到service。 Kubernetes版本1.7 (也在1.9
上
试
浏览 0
提问于2018-03-08
得票数 2
回答已采纳
1
回答
ScrapyJs (
scrapy
+
splash
)无法加载脚本,但
splash
服务器运行良好
、
、
、
、
我正在尝试应用
Scrapy
(scrapyjs)来抓取带有脚本
的
页面,以便获得完整
的
加载页面。我应用
splash
+
scrapy
用下面的代码来渲染它。这与直接使用
localhost
:
8050
服务器
的
参数完全相同。)
浏览 1
提问于2017-05-11
得票数 1
1
回答
Scrapy
-
Splash
如何实现代理配置文件?
、
、
我在使用
Scrapy
-
Splash
和HTTP proxy (参见)时遇到了一些问题,即使我试图在之后设置一个代理配置文件。为了更好地理解发生了什么,我正在寻找
Scrapy
-
Splash
源代码
的
一部分,,它解析/etc/
splash
/proxy-profiles中
的
.ini文件中指定
的
代理host和port。有人能给我解释一下代理分析是如何在
Scrapy
-
Splash
中实现
的</e
浏览 5
提问于2017-07-13
得票数 3
1
回答
如何在google
的
网络商店搜索结果
上
抓取动态生成
的
数据
、
、
、
、
我尝试使用
Scrapy
和
Scrapy
-
Splash
呈现所需
的
页面,但仍然得到相同
的
响应。我使用Docker在端口
8050
上
运行scrapinghub/
splash
容器
的
一个实例。我甚至访问了网页http://
localhost
:
8050
并手动输入了我
的
网址,但它无法呈现数据,尽管消息显示成功。 这是我为爬虫写
的
代码。它实际
上<
浏览 12
提问于2019-07-07
得票数 0
1
回答
擦伤飞溅错误:放弃重试504网关超时
、
、
、
、
我正在接收这个504网关错误,当我在尝试爬行这个
的
时候使用
splash
和
scrapy
一起学习
splash
。
Splash
正在
8050
港口
的
一个码头集装箱
上
运行。蜘蛛文件from
scrapy
_
splash
import SplashRequest name=
浏览 5
提问于2022-02-16
得票数 0
回答已采纳
1
回答
绕过start_urls
、
、
在运行这个蜘蛛时,
scrapy
告诉我,正在刮
的
页面是'http://192.168.59.103:
8050
/render.html' (在start_requests "meta“参数中定义
的
启动呈现端点当然,这是我想传递给start_urls
的
url,而不是我想刮
的
那个。我猜想问题在于我如何将urls从start_urls传递到start_requests以进行解析,但我无法准确地找到问题所在。这也是我
的
提
浏览 0
提问于2016-05-08
得票数 0
回答已采纳
1
回答
来自守护进程- scrapinghub/
splash
的
错误响应
、
、
、
、
我已经为windows7安装了
scrapy
和docker工具箱,以便能够使用javascript从网站中抓取数据。安装似乎是好
的
,因为所有的检查都是预期
的
结果。Docker已经成功地提取了scrapinghub/
splash
,但是当我使用docker run -p
8050
:
8050
scrapinghub/
splash
运行它时,我得到了以下错误: docker:来自守护进程
的
错误响应:驱动程序在端点zen_elion
上<
浏览 3
提问于2020-01-23
得票数 0
回答已采纳
1
回答
ScrapySlash“掩码”404
、
我有一些问题,试图管理404响应与我
的
蜘蛛。ScrapySlash似乎用200掩盖了404
的
响应。这是我
的
密码 request = Request(url, self.parse, meta={'
splash
': { 'html': 1,: dbid
浏览 2
提问于2017-01-11
得票数 1
回答已采纳
1
回答
刮擦-
Splash
不呈现此页面
、
、
、
、
中拥有的与
Splash
相关
的
设置: '
scrapy
_
splash
.SplashCookiesMiddleware= '
scrapy
_
splash
.SplashAwareDupeFilter' HTTPCACHE_STO
浏览 0
提问于2018-07-20
得票数 1
1
回答
Scrapy
总是返回同一页
、
、
、
、
对于几个Disqus用户中
的
每一个,他们
的
个人资料urls都是预先知道
的
,我想要抓取他们
的
姓名和追随者
的
用户名。我正在使用
scrapy
和
splash
do来实现此目的。08-07 23:09:12 [
scrapy
.core.engine] DEBUG: Crawled (200) <POST http://
localhost
:
8050
/render.html> (refere
浏览 12
提问于2017-08-08
得票数 4
回答已采纳
3
回答
如何到达一个非常深嵌套
的
A HREF为我
的
蜘蛛找到下一个按钮?
、
、
、
、
我正在做我
的
第二只蜘蛛,我发现这个特殊
的
结构对我来说非常复杂,我希望你能帮我。我有这个html页面(请注意,所有不必要
的
数据都被删除了,我只留下了我感兴趣
的
链接: <head>现在,具体来说,我需要我
的
蜘蛛遵循这个链接(在表中,在3跨下,在9A标记之后)。提取逻辑
的
其余部分都完成了。 具有讽刺意味
的
是,除了表和I感兴趣
的
表之外,所有标签都没有任何类或id。但是
浏览 1
提问于2018-04-05
得票数 1
回答已采纳
1
回答
刮擦-等待页面加载
的
飞溅
、
、
、
基本
上
,SplashRequest和
scrapy
.Request似乎都会运行并产生结果。然后,我了解了LUA脚本作为这些请求
的
参数,并尝试了使用不同形式
的
wait()形式
的
LUA脚本,但看起来这些请求实际
上
从未运行过LUA脚本。它马上就完成了,我
的
HTMl选择器找不到我要找
的
东西。我在这里遵循
的
指导,并让它们
的
docker实例在
localhost
上
运行:
8050
并
浏览 0
提问于2019-08-30
得票数 0
回答已采纳
1
回答
用旋转
的
代理程序运行刮擦飞溅
、
、
、
': 723, '
scrapy
.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,} #
Splash
se
浏览 1
提问于2018-01-22
得票数 3
1
回答
抓取开机画面设置:"
SPLASH
_URL“
、
、
我
的
电脑上有一个
scrapy
spider
的
工作实例。然后,我将其迁移到我
的
linux服务器
上
。爬行器工作得很好,检索结果时不会飞溅。然而,对于相同
的
网站,当我使用
splash
()时,我
的
爬行器不会检索任何东西,并返回404错误。我在我
的
服务器
上
设置了nginx和django,我想知道这是否与
splash
的
"
SPLASH
_URL“设置冲突。1)我已经尝
浏览 1
提问于2017-06-17
得票数 1
1
回答
拒绝
访问:您没有在此服务器上访问"http://www.airbnb.ca/rooms/48058366/“”
的
权限
、
、
、
我正在使用
splash
获取HTML,但是返回
的
response.body给了我一个
拒绝
访问
的
机会。我可以在工具中查看数据,但是由于这个错误,HTML无法提取。另外,当我只使用
splash
时,我会看到完整
的
HTML!我为任何人放置了我
的
github链接:访问
被
拒绝
‘
浏览 7
提问于2022-01-31
得票数 0
回答已采纳
1
回答
为什么刮痕不发送正确
的
url?
、
、
、
、
我正在使用
Splash
来呈现javascript。但是它发送
的
URL不正确。准确地说,它发送前面的url。看看这段代码。, '
splash
_url': 'http:
浏览 4
提问于2020-08-02
得票数 0
回答已采纳
1
回答
尝试抓取网站时出现
连接
被
拒绝
错误
、
、
、
、
我认为这可能与我
的
Splash
_url有关,即使我验证了
localhost
8050
已经启动并运行。因为如果不是这样,我就不知道问题是什么了。': 810,
SPLASH
_URL = 'http://
localhost
:
8050
'HTTPCACHE_
浏览 67
提问于2019-05-29
得票数 0
回答已采纳
点击加载更多
相关
资讯
【Python3网络爬虫开发实战】7.3-Splash负载均衡配置
走近代码之Python-爬虫框架Portia
功能比Scrapy强,却使用最方便的Gerapy分布式爬虫管理框架
分布式爬虫的部署之Scrapyd对接Docker
Scrapy对接Docker
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券