腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Python
爬虫
:连接
超时
、
、
我正在尝试实现一个简单的web
爬虫
,我已经编写了一个简单的代码来开始:有两个模块fetcher.py和crawler.py。)) return fdes defaultSeed = "http://www.
python
.orgpy", line 169, in __init__ self.builder.prepare_markup(markup, from_encoding
浏览 1
提问于2013-01-23
得票数 0
回答已采纳
1
回答
Java -线程优先和套接字
、
我正在开发一个网络
爬虫
。程序的每个线程尝试读取3主机/秒(330 of连接和读取
超时
)。每个线程的优先级为10 (Ubuntu12.04)。当我设置10个线程时,
爬虫
将返回150个活动主机(主机没有
超时
)。 当我设置400个线程时,
爬虫
只返回20个活着的主机。我不知道到底有多少个主机还活着或存在。我的问题是,线程是否有可能在短时间内没有执行,并且当它确实需要时间继续(从CPU调度)套接字到已经
超时
?(因为线程处理请求花费的时间太长)。
浏览 4
提问于2015-02-12
得票数 0
回答已采纳
2
回答
在
Python
中,如何为有时挂起的函数调用强制
超时
?
、
、
、
、
我正在使用
Python
爬虫
通过urllib2 OpenerDirector在互联网上爬行。问题是,连接将不可避免地挂起在https地址上,显然忽略了
超时
值。显然,
Python
不支持杀死线程,而且由于垃圾收集和其他问题,它被认为是一个坏主意。然而,这个解决方案对我来说更可取,因为它很简单。我要么需要一种方法来强制中断调用,要么需要修复urllib2 OpenerDirector处理
超时
的方式。谢谢。
浏览 3
提问于2011-12-28
得票数 2
2
回答
在
python
拆分web
爬虫
中设置
超时
、
、
、
尝试在
python
中设置一个
超时
,就像在ruby中一样。 我有一个链接,当我点击它打开一个弹出式窗口,但我无法访问它,因为它会导致脚本冻结,直到我杀死它。我正在尝试
超时
调用弹出窗口,然后访问弹出窗口。
浏览 0
提问于2013-02-19
得票数 3
2
回答
避免挂在conn.getresponse() ( httplib.HTTPConnection )上
、
、
我用
python
编写了一个
爬虫
,根据给定的urls从一个网站下载一些网页。我注意到我的程序偶尔挂在"conn.getresponse()“一行。没有任何异常被抛出,程序只是在那里等待到永远。+ component.query)我读了api文档,它说(添加一个
超时
): conn = httplib.HTTPConnection
超时
后重试爬行的最佳实践是什么?
浏览 2
提问于2011-12-20
得票数 4
1
回答
Angular js网站社交分享
、
、
、
、
我已经创建了Angularjs应用程序并托管在IIS服务器中。我使用prerender.io进行搜索引擎优化,它工作得很好。web.conf <match url="(.*)/$" />
浏览 6
提问于2015-07-17
得票数 0
1
回答
timeoutSecs用于RequestQueue忽略用户配置?
.);WARN CheerioCrawler: Reclaiming failed request back to the list or queue.
浏览 11
提问于2022-10-21
得票数 0
1
回答
使用HttpWebRequest.BeginGetResponse实现
超时
的最佳方法
、
、
、
、
HttpWebRequest.BeginGetResponse不尊重来自HttpWebRequest的任何
超时
属性( Timeout或ReadWriteTimeout)。我读了一些方法来获得相同的结果,但我不知道这是不是最好的方法,我是否应该使用几个调用,或者我可以在循环中扩展它(我正在做一个网络
爬虫
)。
浏览 4
提问于2012-05-08
得票数 4
3
回答
避免在
Python
中下载文件
、
我正在使用
python
构建一个网络
爬虫
。但是urlopen(url)下载页面中的文件。我只想读取html,如果url指向可下载的文件,则跳过。我试过使用
超时
这样就可以避免大文件,但这似乎行不通。 我还想列出一个常见的文件扩展名,并在url以扩展名结尾时跳过url。
浏览 12
提问于2016-06-12
得票数 2
回答已采纳
1
回答
php脚本
超时
、
我已经修改了一个基本的网络
爬虫
来收集一个网站的链接列表,这很可能会遇到我遇到的thousands.The问题,一旦我尝试通过浏览器运行它,脚本就会
超时
。我应该如何解决这些问题,或者我应该使用开源
爬虫
,如果是这样,我应该使用哪个
爬虫
,因为我找不到足够具体的东西,因为phpDig站点关闭了:/
浏览 0
提问于2011-04-13
得票数 0
回答已采纳
1
回答
PuppeteerCrawler与任务设置的区别
我已经迁移了一个
爬虫
到一个任务与遗留-幻影-
爬虫
(任务版本)和,出于效率和更好的设计的原因,重新开发它作为一个纯粹的行为使用PuppeterCrawler (行为版本)。我怀疑这与设置的差异有关,特别是根据导航
超时
。但我不确定。 为什么刮刀作为一项任务比作为一项行为更快,具有大致相同的逻辑?使用PuppeterCrawler的动作和使用遗留幻影
爬虫
的任务之间的设置有什么不同?如何使用PuppeterCrawler设置动作,以便获得与使用遗留幻影
爬虫
的任务相同的性能? 干杯沃尔夫冈
浏览 11
提问于2019-10-08
得票数 0
1
回答
Python
3 urlopen中的
超时
值?
、
、
、
我有一个小
爬虫
,我正在提取一个网页内容的一个简单的网页。在这里,说默认情况下没有
超时
(timeout = None) (至少对于
Python
3.4版本是这样): 好的,我仔细检查了这个问题,记住:如果从未调用过socket.setdefaulttimeout,那么默认的
超时
是None (没有
超时
)。如果没有
超时
设置,为什么会出现错误504?那么,(如果没有指定,将使用全局默认
超时
设置)是否意味着,如果我定义了一个名为
超时
值的全局变量,那么它将用作<e
浏览 1
提问于2020-02-27
得票数 1
1
回答
如何检测收到的网络
超时
是由请求端点引起的,还是由中间节点(如http代理)引起的?
、
、
、
作为编写
爬虫
程序(用Node.js编写,但实际上不是重点)的一部分,我有时会收到
超时
和其他网络异常。某些异常(如http errorcode)可以正确地归因于目标请求端点。其他的,比如我自己配置的
超时
就更难了(不可能?)至属性。 例如,当使用http代理抓取时,如何检查异常(如前面提到的
超时
)是由于代理还是由于请求端点?
浏览 5
提问于2013-06-29
得票数 0
回答已采纳
1
回答
弹性豆杆不运行的克隆约伯
、
、
、
、
我在一个弹力豆茎应用程序上有一个抓取器,我可以像这样运行SSH: 我想帮我安排一个任务来处理这个问题。Cron won't r
浏览 0
提问于2015-04-13
得票数 0
2
回答
AWS:动态分配和关联新的IP地址到EC2实例?
、
、
、
爬虫
从eCommerce网站抓取数据,但最近
爬虫
从网站中获得“
超时
错误”。根据我的IP地址,该网站可能限制了我的访问频率。分配一个新的弹性IP地址可以解决这个问题,但不会持续很长时间。
浏览 4
提问于2014-04-08
得票数 9
回答已采纳
1
回答
在执行GET请求时,程序在连续
超时
后停止
、
、
、
我正在制作一个抓取html、css和js页面的
爬虫
。爬行器是一个典型的爬行器,它有4个并行运行的围棋例程来获取资源.为了学习,我已经使用了3个测试站点。
爬虫
工作良好,并在测试其中两个程序时显示程序完成日志。 然而,在第三个网站中,有太多的
超时
发生在获取css链接。这最终导致我的程序停止。它获取链接,但在20+连续
超时
之后,程序将停止显示日志。我需要单独处理
超时
吗?我不会发布完整的代码,因为它与我正在寻找的概念性答案无关。
浏览 0
提问于2015-08-14
得票数 1
回答已采纳
1
回答
在Chrome 79中运行缓慢的Selenium请求
、
、
、
、
我用selenium,
python
3.6scrapinghub
爬虫
在ubuntu18.04上建立了一个刮板机,到目前为止运行良好。然而,最近我注意到,由于页面加载时间超过600秒,selenium驱动程序
超时
,导致速度减慢。我确实有一个
超时
异常,它处理
超时
并退出url,但是每次加载图像要花费10分钟以上。
浏览 3
提问于2020-01-24
得票数 0
回答已采纳
1
回答
如何将AWS Lambda与AWS胶同步使用
、
、
、
、
我有一个lambda函数,它执行
爬虫
、SNS作业和ETL。有没有办法让lambda函数等待
爬虫
在SNS和ETL之前先完成?我目前还没有对step函数的IAM访问,但仍然需要这样做。
浏览 6
提问于2022-11-01
得票数 0
2
回答
AWS Glue:对于新内容,我真的需要一个Crawler吗?
、
事实上,如果我知道文件的模式,我可以手动创建表,而不需要
爬虫
,对吗?
浏览 0
提问于2018-11-03
得票数 6
回答已采纳
1
回答
使用Jsoup抓取带有加载图像的网页?
、
、
、
我在建一个网络
爬虫
来搜索。因为我只需要文章的标题来索引。我使用Jsoup连接URL目的地。Jsoup.connect(url).timeout(20000).execute(); 但是我遇到了一个问题,连接
超时
。我想知道
超时
是否是因为在该URL上加载了许多图像而发生的。
浏览 0
提问于2018-06-13
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用代理IP爬虫出现超时
导致爬虫动态代理IP超时的原因有哪些?
Python爬虫入门3 爬虫必备Python知识
Python爬虫
python爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券