腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用AWS接收无休止的
WebSocket
数据源?
、
、
我想从
WebSocket
数据源中抓取数据,通常
WebSocket
数据是一个没完没了的流,而allowed函数有Timout限制,最大允许值为900秒。如果我的Lambda函数充当
WebSocket
客户端并连接到
WebSocket
url (例如wss://ws-feed-public.sandbox.pro.coinbase.com ),它将开始接收数据现在,我正在Linux中运行我的
爬虫
,可以将它迁移到AWS吗?
浏览 6
提问于2019-11-19
得票数 1
回答已采纳
2
回答
使用
websocket
在烧瓶中排队
、
、
、
、
基本的想法是,你输入一个url,它就会以输入作为参数启动一个
爬虫
进程。目前,它似乎可以很好地处理通过
websocket
传输的输出。我很好奇什么是最好的方式来处理多个
爬虫
同时运行,所以如果两个人在同一时间输入一个网址。我认为最好的方法是使用队列系统,理想情况下,我只希望同时运行数量可控的
爬虫
。
浏览 1
提问于2012-12-16
得票数 0
1
回答
带有Java
Websocket
客户端的Java
websocket
服务器
、
、
我正在尝试编写一个基于java的
爬虫
程序,它通过https进行身份验证,然后一旦身份验证完成,客户端必须调用https请求将连接升级到
websocket
。application/xml;q=0.9,*/*;q=0.8 Accept-Language: en-US,en;q=0.5 Accept-Encoding: gzip, deflate, br Sec-
WebSocket
-Version: 13 Origin: <host> Sec-
WebSocket
-Extensions: perme
浏览 14
提问于2017-06-19
得票数 0
1
回答
试图弄清楚为什么Google Analyics报告的用户比我们自己的堆栈更多
、
、
、
、
如果iframe看起来像
爬虫
程序,则不会加载useragent。iframe中的代码创建一个
websocket
连接,然后在我们的后端插入一个用户。使用新的Google Analytics UI,我不清楚到底有多少
爬虫
被过滤掉了(例如Google Analytics总是过滤Google Crawler吗?)这可以解释很多。额外的加载时间和
websocket
连接可能可以解释一些原因(不支持TLS1.2的旧浏览器,光头配置的代理,等等)可以解释一些原因,但1/3似乎很大。
浏览 17
提问于2018-07-26
得票数 0
1
回答
无法在Lambda中创建AWS胶水爬行器,Lambda由Step函数触发
、
、
、
、
该查询成功运行,并在给定的S桶中生成结果 要在Lambda中创建AWS
爬虫
,下面是我在Lambda (NodeJS)中的代码: };}; Problem createCrawler是一个异步调用,La
浏览 2
提问于2021-08-14
得票数 1
2
回答
浏览器限制会影响网页
爬虫
吗?
、
、
return Redirect("/h"); return View(); 问题:如果我限制一些浏览器访问我的主视图,它也会限制对网络
爬虫
的访问吗
浏览 0
提问于2013-02-21
得票数 0
回答已采纳
1
回答
在python web
爬虫
中使用
websocket
-- rsv还没有实现。
、
、
、
我使用
websocket
成功地与目标wss-url建立了长时间的连接。但是在收到一条消息后,代码捕获了一个名为"rsv尚未实现“的错误,并关闭了连接。而且
websocket
的API文档也没有提到这个问题。###") ws =
websocket
.WebSocketApp(url, on_message = on_message
浏览 0
提问于2018-10-17
得票数 1
1
回答
EJB未注入
、
、
、
我的Java应用程序使用,它使用以下代码开始抓取:config.setCrawlStorageFolder("C:/crawler4j_storage");RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtC
浏览 3
提问于2012-07-01
得票数 0
回答已采纳
1
回答
AWS雅典娜分区键变成“varchar”
、
、
、
例如,我有两个分区键,account_id作为int,record_date作为date。当我执行一个查询时,雅典娜说这些是varchar。我得用“键”来查询。是平常的情况还是我做错了什么?
浏览 5
提问于2022-09-29
得票数 0
1
回答
使用noindex no追随者修复来自Google的移动可用性警告
、
我有一个移动网站,它确实显示使用是移动友好的,但我收到一条消息说,日历页面上有可用性错误,这是网站的一部分,但不是移动友好的。我最终将使这一页移动友好,但就目前而言,我只是希望谷歌,而不是将其视为移动网站的一部分。所以我的问题是,通过在页面上使用noidex,Google会忽略它,而不会对它的可用性进行评估。
浏览 4
提问于2015-03-22
得票数 0
1
回答
如何在一个python脚本中运行不同的scrapy项目
、
、
我是Scrapy的新手,在同一个脚本中调用多个
爬虫
项目时遇到了一些困难。我有三个抓取项目,分别抓取不同的网页,并将数据存储到SQLite中。但是我不知道如何使用一个Python脚本来管理这些项目。
浏览 3
提问于2016-04-21
得票数 0
1
回答
爬虫
和
爬虫
架构
、
、
、
、
当我遇到这个设计问题时,我一直在用php构建一个刮板和
爬虫
。我想知道创建一个分离爬行和抓取任务的系统(大多数专业系统似乎都是这样做的)和一个在
爬虫
爬行时抓取任务的系统之间的权衡。
浏览 4
提问于2012-04-16
得票数 2
回答已采纳
1
回答
Scrapy spider不存储状态(持久状态)
、
嗨,我有一个基本的蜘蛛,运行来获取给定的域上的所有链接。我希望确保它保持其状态,以便可以从它离开的地方恢复。当我第一次尝试时,我遵循了给定的url .But,它运行得很好,我以Ctrl+C结束它,当我试图恢复它时,爬行会在第一个url上停止。2016-08-29 16:51:08 [scrapy] INFO: Dumping Scrapy stats: 'downloader/request_count': 4, 'downloader/request_m
浏览 20
提问于2016-08-30
得票数 3
1
回答
HTML流的SEO/爬行性影响
、
、
随着HTML流(例如反应18流)的兴起,我想知道
爬虫
是如何处理HTML的。谷歌
爬虫
是如何处理这个问题的?谷歌确实提到了流这里,但它没有说明谷歌
爬虫
如何处理HTML。 其他
爬虫
(DuckDuckGo,Bing,Facebook,Twitter等)怎么样?我假设
爬虫
会等到HTML流结束时,这个假设安全吗?
浏览 0
提问于2021-07-27
得票数 7
4
回答
如何停止云主机上的
爬虫
?
我在云主机上运行了一个scrapy
爬虫
,这个
爬虫
可以一直运行,假如我没有停止
爬虫
就和主机断开了连接,是不是除了关机就没有办法停止
爬虫
了?
浏览 485
提问于2018-01-27
1
回答
两个开放图形图像(facebook大小和google大小)
、
、
、
我如何包括开放图形图像(两个不同的;两个不同的大小)
浏览 0
提问于2015-05-27
得票数 1
回答已采纳
1
回答
AWS Glue -在处理XML文件时保留前导零
、
、
、
我将XML文件存储在s3桶中,并运行
爬虫
来生成目录表中的模式。生成了目录表,但是当我在AWS Glue Studio中检查输出时,我可以看到以0开头的数据正在被删除。
浏览 4
提问于2022-01-15
得票数 2
1
回答
如何为我的网站编制索引
、
我刚刚遇到了Elastic Search,我已经完成了安装和示例索引以及搜索。现在我想把这个用在我的网站上。为此,如何为我的网站创建索引?我是否需要将整个网页内容存储为索引??
浏览 0
提问于2011-06-07
得票数 1
回答已采纳
1
回答
如何在docker中使用此文件?
我想使用
爬虫
实验室仪表板与我的
爬虫
代码。
爬虫
实验室是
爬虫
仪表板。链接为 我要安装(?)docker(?)中的chromedriver。
浏览 44
提问于2021-03-11
得票数 0
2
回答
如何将新的URL传递给Scrapy Crawler
、
、
、
、
我想让一个抓取
爬虫
在芹菜任务工人内部不断运行,可能使用。或者,正如所建议的,这个想法是使用
爬虫
程序来查询返回XML响应的外部API。一旦
爬虫
程序开始运行,我如何将我想要获取的这个新URL传递给
爬虫
程序。我不想在每次想要给
爬虫
一个新的URL时都重新启动
爬虫
,而是希望
爬虫
无所事事地等待URL爬行。我发现的在另一个python进程中运行scrapy的两个方法使用一个新进程来运行
爬虫
程序。我不希望每次我想要抓取一个URL时,都必须派生和拆卸一个新的进程,因为这
浏览 0
提问于2013-05-23
得票数 2
点击加载更多
相关
资讯
Websocket
websocket
WebSocket 协议介绍及 WebSocket API 应用
WebSocket实战
手摸手教你使用WebSocket其实WebSocket也不难
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
实时音视频
活动推荐
运营活动
广告
关闭
领券