腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
Python中的
多线程
爬虫
真的可以提高速度吗?
、
、
我想用python写一个小的网络
爬虫
。我开始研究将其编写为
多线程
脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?基本上我想问的是,用python做一个
多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
需要web爬网帮助
我想知道是否有人知道他们使用过的一个像样的健壮的开源网络
爬虫
?新手应该很容易安装和使用。 感谢您没有搜索网络
爬虫
和粘贴列表。
浏览 2
提问于2010-02-21
得票数 4
1
回答
使用
多线程
改进网络
爬虫
/
爬虫
、
我已经开始学习网络
爬虫
,在一篇文章的帮助下,我构建了下面这个简单的
爬虫
。此外,如果您有任何其他建议或改进,请随时分享这个
爬虫
。
浏览 3
提问于2013-03-10
得票数 0
回答已采纳
1
回答
学习
多线程
Java
爬虫
的良好开端
、
、
我正在用Java开发一个网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的
多线程
documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
5
回答
.Net 4中的
多线程
C#队列
、
、
我正在开发一个简单的网页
爬虫
。我搜索并找到了很多实现
多线程
爬虫
的解决方案。创建线程安全队列以包含唯一URL的最佳方法是什么? 编辑:.Net 4.5中有没有更好的解决方案?
浏览 3
提问于2012-04-10
得票数 1
回答已采纳
3
回答
Python线程模块的处理顺序
、
、
我正在编写一个web
爬虫
,它同时处理多个URL,并以下列方式工作:就像大多数网络
爬虫
一样。当我使其为单线程时,我可以以与seed_list.txt中的URL相同的顺序获得seed_list.txt中的数据,但当它是
多线程
时,我似乎无法控制它,因为每个线程都会在数据完成后将数据写入data.txt有没有办法使我的网页
爬虫
多线程
,但保持原来的秩序? @Lance,Ignacio和Maksym
浏览 5
提问于2012-04-02
得票数 2
回答已采纳
2
回答
网络
爬虫
对服务器的连续请求之间的最小延迟
、
、
、
、
我已经建立了一个
多线程
的网络
爬虫
,使请求从相应的服务器获取网页。因为它是
多线程
的,所以会使服务器不堪重负。由于哪个服务器可以阻止
爬虫
(礼貌)。 我只想添加功能的结果请求之间的最小延迟到相同的服务器。
浏览 2
提问于2012-10-10
得票数 0
1
回答
Python
多线程
爬虫
、
、
、
我正在尝试用python编写网络
爬虫
。我想使用python
多线程
。即使在阅读了之前的建议论文和教程之后,我仍然有问题。
浏览 5
提问于2012-05-29
得票数 5
回答已采纳
4
回答
构建web
爬虫
、
、
我目前正在开发一个内置网络
爬虫
的自定义搜索引擎。由于某种原因,我不喜欢
多线程
,因此到目前为止,我的索引器是以单线程的方式编写的。现在,我在构建
爬虫
时遇到了一个小难题。
浏览 2
提问于2009-05-14
得票数 1
4
回答
实现
多线程
爬虫
、
我想实现一个多步
爬虫
使用我现在拥有的单线程
爬虫
代码。基本上,我从文本文件中读取urls,获取每个urls,并对其进行爬行和解析。
浏览 0
提问于2010-02-02
得票数 1
回答已采纳
2
回答
多线程
网络
爬虫
、
、
、
、
我在一个
多线程
的网络
爬虫
上工作。这很简单,但我想征求一些建议。程序从一个web地址(在此代码中为http://google.com)开始,并在给定的响应中查找所有有效的URL。然后,
爬虫
将继续在队列中的URL中爬行。通过设计,
爬虫
将变得越来越慢,因为列表/地图变得越来越大。我真想不出有什么办法能提高那里的表现。我在这里能改进什么?我更新了我的代码以使用线程,正如我在其中一个问题中所指定的那样。
浏览 0
提问于2016-08-20
得票数 6
3
回答
如何处理中多个线程的内存不足错误
、
我对编程相当陌生,并且正在为我在网络
爬虫
上的论文而工作。我已经提供了一个网络
爬虫
,但我发现它太慢,因为它是单线程。花了30分钟才爬上1000个网页。在不给出错误的情况下
多线程
java爬行器的正确方法是什么?说到这一点,
多线程
是否解决了我的问题?
浏览 10
提问于2009-07-18
得票数 2
回答已采纳
3
回答
具有线程支持的python web
爬虫
、
这些天我做了一些网络
爬虫
脚本,但其中一个问题是我的互联网非常慢。所以我在想,是否可以通过使用mechanize或urllib之类的方法来实现
多线程
的网络
爬虫
。如果任何人有经验,分享信息非常感谢。
浏览 3
提问于2009-12-05
得票数 2
回答已采纳
1
回答
基于PHP crawler的IP切换
、
、
、
、
我正在寻找一个解决方案,以切换IP时自动运行PHP
爬虫
。我有一个自定义的
爬虫
,它运行100个线程,但由于油门限制,我经常被阻塞。因为PHP不支持
多线程
,所以我设置了windows调度程序来并行运行PHP应用程序。 我想为每个线程分配一个不同的IP地址,并欢迎任何建议来克服这个问题。
浏览 1
提问于2014-04-14
得票数 0
2
回答
避免重复结果
多线程
Python
、
我想让我真正的
爬虫
多线程
。实例:import requests page, {'class': 'vote-cou
浏览 1
提问于2016-08-16
得票数 1
回答已采纳
4
回答
并发web
爬虫
通常是将访问的URL存储在并发映射中,还是使用同步来避免两次爬行相同的页面?
、
、
、
、
我在玩写一个简单的
多线程
网络
爬虫
。我看到很多消息来源都说网络
爬虫
很明显是并行的,因为你可以从不同的URL开始爬行,但我从未见过他们讨论web
爬虫
是如何处理他们之前见过的URL的。
浏览 1
提问于2017-07-30
得票数 1
回答已采纳
3
回答
Perl并行
爬虫
多线程
、
我有一个
多线程
的Perl
爬虫
,它可以很好地工作,如果我在array.How中声明URL,即使我从数据库中读取URL,我得到了“分段失败”error.Please帮助我修复这个issue.Thanks 直接
浏览 0
提问于2015-01-22
得票数 0
2
回答
多线程
Python FS
爬虫
、
、
、
然后我尝试了
多线程
,因为一些卷在网络共享上,并且我想最大限度地减少IO阻塞。我从使用多进程Pool类开始,因为这是最方便的……(说真的,没有线程的Pool类?)
浏览 0
提问于2011-01-26
得票数 4
回答已采纳
3
回答
如何管理
爬虫
URL边界?
、
、
、
伙计们
爬虫
实现是
多线程
的,假设如果我访问了10万个urls,如果我没有终止这个
爬虫
,它就会一天比一天长。
浏览 10
提问于2015-11-18
得票数 0
回答已采纳
2
回答
如何建立一个基于Scrapy的网络
爬虫
来永久运行?
、
、
我想建立一个基于Scrapy的网络
爬虫
,从几个新闻门户网站抓取新闻图片。我想让这个
爬虫
: 这意味着它将定期重新访问一些门户页面,以获得更新。 我读过Scrapy文档,但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗?或者给出一些想法/例子。谢谢!
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
多线程爬虫
Python 多线程爬虫实战
小白爬虫之爬虫快跑,多进程和多线程
Python3爬虫与多线程
Python爬虫实现多线程数据采集
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券