腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
Python中的
多线程
爬虫
真的可以提高速度吗?
、
、
我想用python写一个小的
网络
爬虫
。我开始研究将其编写为
多线程
脚本,一个线程下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对
网络
爬虫
有什么影响?基本上我想问的是,用python做一个
多线程
爬虫
真的比单线程能给我带来更多的性能吗? 谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
2
回答
多线程
网络
爬虫
、
、
、
、
我在一个
多线程
的
网络
爬虫
上工作。这很简单,但我想征求一些建议。程序从一个web地址(在此代码中为http://google.com)开始,并在给定的响应中查找所有有效的URL。然后,
爬虫
将继续在队列中的URL中爬行。public CrawlThread(Crawler
c
, int num) { this.num = num; this.t通过设计,<em
浏览 0
提问于2016-08-20
得票数 6
1
回答
使用
多线程
改进
网络
爬虫
/
爬虫
、
我已经开始学习
网络
爬虫
,在一篇文章的帮助下,我构建了下面这个简单的
爬虫
。此外,如果您有任何其他建议或改进,请随时分享这个
爬虫
。
浏览 3
提问于2013-03-10
得票数 0
回答已采纳
3
回答
具有线程支持的python web
爬虫
、
这些天我做了一些
网络
爬虫
脚本,但其中一个问题是我的互联网非常慢。所以我在想,是否可以通过使用mechanize或urllib之类的方法来实现
多线程
的
网络
爬虫
。如果任何人有经验,分享信息非常感谢。
浏览 3
提问于2009-12-05
得票数 2
回答已采纳
3
回答
在
C
#或VB.net中寻找
爬虫
、
、
我正在寻找一个在
c
#或Vb.net编写的工作
爬虫
示例代码。
浏览 4
提问于2009-07-24
得票数 2
回答已采纳
1
回答
学习
多线程
Java
爬虫
的良好开端
、
、
我正在用Java开发一个
网络
爬虫
。我正在寻找一个很好的项目开发这个
爬虫
的基础上。然而,实际上有超过几百个用Java编写的
爬虫
程序。我要找的是一个相当简单的
爬虫
,它有: 基于最新的Java构建和新的functionalityGood performanceImplemented好documentationNot的
多线程
documentationNot
浏览 1
提问于2012-04-16
得票数 0
回答已采纳
3
回答
非常简单的
C
++
网络
爬虫
/蜘蛛?
、
我试图在
C
++中做一个非常简单的网页
爬虫
/蜘蛛应用程序。我一直在使用谷歌搜索一个简单的,以了解这个概念。我发现了这个: 然而,这是复杂的理解对我来说,因为我开始学习
C
++大约一个月前。
浏览 15
提问于2010-11-25
得票数 22
回答已采纳
3
回答
如何处理中多个线程的内存不足错误
、
我对编程相当陌生,并且正在为我在
网络
爬虫
上的论文而工作。我已经提供了一个
网络
爬虫
,但我发现它太慢,因为它是单线程。花了30分钟才爬上1000个网页。在不给出错误的情况下
多线程
java爬行器的正确方法是什么?说到这一点,
多线程
是否解决了我的问题?
浏览 10
提问于2009-07-18
得票数 2
回答已采纳
4
回答
构建web
爬虫
、
、
我目前正在开发一个内置
网络
爬虫
的自定义搜索引擎。由于某种原因,我不喜欢
多线程
,因此到目前为止,我的索引器是以单线程的方式编写的。现在,我在构建
爬虫
时遇到了一个小难题。
浏览 2
提问于2009-05-14
得票数 1
4
回答
并发web
爬虫
通常是将访问的URL存储在并发映射中,还是使用同步来避免两次爬行相同的页面?
、
、
、
、
我在玩写一个简单的
多线程
网络
爬虫
。我看到很多消息来源都说
网络
爬虫
很明显是并行的,因为你可以从不同的URL开始爬行,但我从未见过他们讨论web
爬虫
是如何处理他们之前见过的URL的。
浏览 1
提问于2017-07-30
得票数 1
回答已采纳
3
回答
Python线程模块的处理顺序
、
、
我正在编写一个web
爬虫
,它同时处理多个URL,并以下列方式工作:就像大多数
网络
爬虫
一样。当我使其为单线程时,我可以以与seed_list.txt中的URL相同的顺序获得seed_list.txt中的数据,但当它是
多线程
时,我似乎无法控制它,因为每个线程都会在数据完成后将数据写入data.txt有没有办法使我的网页
爬虫
多线程
,但保持原来的秩序? @Lance,Ignac
浏览 5
提问于2012-04-02
得票数 2
回答已采纳
2
回答
C
# web和ftp爬网程序库
、
我需要一个库(希望是在
C
#中!)它作为web
爬虫
程序来访问HTTP文件和FTP文件。原则上,我喜欢阅读HTML,我想把它扩展到PDF,WORD等。
浏览 0
提问于2010-10-19
得票数 3
回答已采纳
2
回答
网络
爬虫
对服务器的连续请求之间的最小延迟
、
、
、
、
我已经建立了一个
多线程
的
网络
爬虫
,使请求从相应的服务器获取网页。因为它是
多线程
的,所以会使服务器不堪重负。由于哪个服务器可以阻止
爬虫
(礼貌)。 我只想添加功能的结果请求之间的最小延迟到相同的服务器。
浏览 2
提问于2012-10-10
得票数 0
5
回答
如何将动态站点转换为可从CD演示的静态站点?
、
、
有没有人对
爬虫
有什么好的建议,可以处理像链接清理,flash,一些ajax,css等等?我知道机会很小,但我认为在我开始编写自己的工具之前,我应该在这里抛出这个问题。
浏览 3
提问于2008-09-22
得票数 9
回答已采纳
2
回答
如何建立一个基于Scrapy的
网络
爬虫
来永久运行?
、
、
我想建立一个基于Scrapy的
网络
爬虫
,从几个新闻门户网站抓取新闻图片。我想让这个
爬虫
: 这意味着它将定期重新访问一些门户页面,以获得更新。 我读过Scrapy文档,但没有发现与我列出的内容相关的东西(也许我不够小心)。这里有人知道怎么做吗?或者给出一些想法/例子。谢谢!
浏览 8
提问于2010-02-28
得票数 11
回答已采纳
5
回答
多线程
网络
爬虫
的最快架构
、
、
应该有一个边界对象-持有一组访问和等待抓取网址的。应该有一些线程负责抓取网页。也会有某种类型的控制器对象来创建爬行线程。如果控制器对象负责向工作线程提供新的URL-这意味着工作线程将需要爬行所有给定的URL,然后休眠未定义的时间。控制器将解释这个线程,因此爬行线程应该处理InterruptedException (在Java语言中它是多么昂贵-似乎异常处理不是很快)。或者也许控制器应该只启动线程,让爬行线程自己获取边界?
浏览 0
提问于2011-12-18
得票数 3
回答已采纳
3
回答
多线程
网络
爬虫
线程限制
、
我可以访问一个用.NET
C
#编写的应用程序,该应用程序主要使用“原始”http请求、部分web服务和xml请求(仍然是通过http)连接到许多外部系统,并更新其中的一些内容。其背后的逻辑是:因为大多数时候我们都在等待
网络
回复,所以我们可以同时等待更多的
网络
回复。cpu和ram似乎没有达到它们的极限。 尽管如此,创建大约300个线程使得所有的工作都比低线程数慢。
浏览 7
提问于2014-10-06
得票数 3
回答已采纳
1
回答
selenium作为webCrawler的实现
、
、
、
我正在通过java中的Selenium编写一个
网络
爬虫
。以前我使用jsoup和HtmlUnit这样的库来制作它们,但最近我在javascript和ajax依赖的页面上遇到了麻烦。
浏览 1
提问于2013-06-14
得票数 0
1
回答
用Java在分布式体系结构上实现Web
爬虫
、
、
、
朋友们,我用Java实现了一个
多线程
的
网络
爬虫
。为了使它更高效,我想将其转换为分布式架构,即在3台机器上。据我所知,主从架构是最好的。
浏览 0
提问于2013-02-26
得票数 0
6
回答
c
#
网络
爬虫
优化
、
我有用
C
#写的
网络
爬虫
,它使用
多线程
。目前,它可以下载和解析大约1000个链接/分钟,但当我运行ex。3个实例同时,每个实例可以达到1000个链接/分钟,所以我有3000个链接/分钟。一个实例使用高达2%的CPU,100MB内存,1%的
网络
速度。现在我想知道,当我有可用的资源(cpu,ram,
网络
)时,一个实例是否有可能达到3000个链路/分钟或更多?
浏览 1
提问于2013-10-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
多线程爬虫
Python 多线程爬虫实战
多线程网络爬虫:递归爬取并为页面创建 Markdown 文件
小白爬虫之爬虫快跑,多进程和多线程
论如何提升格调——多线程网络爬虫了解一下?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券