腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
5
回答
Python
中的多
线程
爬虫
真的可以提高速度吗?
、
、
我想用
python
写一个小的网络
爬虫
。我开始研究将其编写为多
线程
脚本,一个
线程
下载池和一个池处理结果。由于有了GIL,它真的可以同时下载吗?GIL对网络
爬虫
有什么影响?会不会每个
线程
从套接字中提取一些数据,然后转到下一个
线程
,让它从套接字中提取一些数据,等等?谢谢!
浏览 4
提问于2010-05-14
得票数 10
回答已采纳
5
回答
快速网络
爬虫
、
、
、
为此,我需要一个快速
爬虫
。所有我需要的是下载一个网页,提取链接和递归跟随他们,但不访问相同的网址两次。基本上,我想避免循环。编辑:解决方案是组合multiprocessing和thre
浏览 4
提问于2011-10-05
得票数 8
回答已采纳
1
回答
Python
多
线程
爬虫
、
、
、
我正在尝试用
python
编写网络
爬虫
。我想使用
python
多
线程
。即使在阅读了之前的建议论文和教程之后,我仍然有问题。i in range(5): t.setDaemon(True)它没有按照需要工作,它在
线程
浏览 5
提问于2012-05-29
得票数 5
回答已采纳
2
回答
多
线程
Python
FS
爬虫
、
、
、
我已经编写了一个
python
函数,它使用提供的目录模式遍历文件系统,并在每个级别提供可选的“操作”。然后我尝试了多
线程
,因为一些卷在网络共享上,并且我想最大限度地减少IO阻塞。我从使用多进程Pool类开始,因为这是最方便的……(说真的,没有
线程
的Pool类?)我的函数尽可能地解开提供的FS模式,并将新返回的路径提交到池中,直到没有新路径返回为止。为了简化,我使用
线程
而不是进程重写了函数,甚至编写了一个简单的ThreadPool类……同样的问题。>>findAllMyPaths() >>>...
浏览 0
提问于2011-01-26
得票数 4
回答已采纳
1
回答
如何用
python
多进程检查网页是否存活
、
我想使用
Python
的多处理库并行执行这些检查。我写了以下代码(主要基于
Python
文档示例),但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗?
浏览 0
提问于2011-08-06
得票数 0
回答已采纳
1
回答
Python
中的多
线程
爬虫
、
有可能创建尽可能多的
线程
来使用100%的CPU吗?它真的很高效吗?我计划用
Python
创建一个
爬虫
,为了使程序高效,我想创建尽可能多的
线程
,每个
线程
将下载一个网站。
浏览 16
提问于2019-10-27
得票数 0
回答已采纳
7
回答
对于我的应用程序,多少个
线程
会是最优的?
、
我有一个简单的
Python
网络
爬虫
。它使用SQLite来存储它的输出,也用来保存一个队列。我想让
爬虫
是多
线程
的,这样它就可以一次抓取几个页面。我想我应该创建一个
线程
,一次只运行类的几个实例,这样它们都可以同时运行。但问题是,我应该一次运行多少次?我是不是应该坚持到两个?我能再高一点吗?
线程
数量的合理限制是多少?请记住,每个
线程
转到一个网页,下载html,运行几次正则表达式搜索,将找到的信息存储在SQLite数据库中,然后从队列中弹出下一个url。
浏览 2
提问于2009-03-08
得票数 3
回答已采纳
2
回答
基于PHP的Web
爬虫
或基于JAVA的Web
爬虫
、
、
我对基于PHP的网络
爬虫
有些怀疑,它能像基于java
线程
的
爬虫
一样运行吗?我之所以问这个问题,是因为在java中,
线程
可以一次又一次地执行,我不认为PHP有类似
线程
的功能,你们能说一下,哪个网络
爬虫
更能充分利用吗?基于PHP的
爬虫
还是基于Java的
爬虫
浏览 1
提问于2010-07-27
得票数 0
回答已采纳
5
回答
当任一
线程
完成任务时,终止多个
线程
、
我对
python
和
线程
都是新手。我已经编写了
python
代码,作为一个网络
爬虫
和搜索网站的特定关键字。我的问题是,如何使用
线程
同时运行我的类的三个不同的实例。keyword Crawl = Crawler() main() 如何使用
线程
让
浏览 0
提问于2011-06-09
得票数 33
回答已采纳
1
回答
响应前的
Python
urllib2请求
我正在尝试用
python
写一个快速
爬虫
,但我不想用
线程
。我读过一些文章,说Scrapy是单
线程
的,可以在响应返回之前发出请求。
浏览 0
提问于2012-05-06
得票数 0
1
回答
python
中的多
线程
爬虫
、
、
、
我正在尝试实现一个多行爬行器,它接受初始url并搜索该链接中的链接,并显示每个链接,同时查找每个链接中的链接。import urllib.request, re, threading, csvfrom bs4 import BeautifulSoup __html_q = Queue() __visited_urls = [] def __
浏览 3
提问于2015-11-13
得票数 0
回答已采纳
1
回答
java.out.lang.outofmemory无法创建本机
线程
、
、
我目前正在构建这个网络
爬虫
来获取起始url的所有链接,并从这些链接中爬取所有链接,等等。我使用
线程
,所以每次完成这个过程时,都会调用一个新的
线程
,我加载了大约1000个
线程
,我使用了thread.interrupt函数,但它仍然没有删除和创建
线程
。我尝试每次只使用一个
线程
,或者最多使用两个
线程
。我还注意到,一旦我运行我的
爬虫
,我的互联网开始崩溃,这意味着网站不会加载,直到我打开我的网络
爬虫
。我想我发送了太多的http请求。如果有人知道
浏览 1
提问于2012-05-02
得票数 0
回答已采纳
2
回答
爬虫
会在这个服务器配置上工作吗?
、
、
、
、
我正在建造一个小
爬虫
作为一个业余项目。我所要做的就是爬行大约一百万页,并将它们存储在数据库中。(是的,它将不时更新,但任何特定时间的条目将仅为100万),仅仅是为了了解这些东西是如何工作的。
浏览 4
提问于2011-04-13
得票数 0
1
回答
Java -
线程
优先和套接字
、
我正在开发一个网络
爬虫
。程序的每个
线程
尝试读取3主机/秒(330 of连接和读取超时)。每个
线程
的优先级为10 (Ubuntu12.04)。当我设置10个
线程
时,
爬虫
将返回150个活动主机(主机没有超时)。 当我设置400个
线程
时,
爬虫
只返回20个活着的主机。我不知道到底有多少个主机还活着或存在。我的问题是,
线程
是否有可能在短时间内没有执行,并且当它确实需要时间继续(从CPU调度)套接字到已经超时?(因为
线程
处理请求花费的时
浏览 4
提问于2015-02-12
得票数 0
回答已采纳
2
回答
在
Python
中,如何为有时挂起的函数调用强制超时?
、
、
、
、
我正在使用
Python
爬虫
通过urllib2 OpenerDirector在互联网上爬行。问题是,连接将不可避免地挂起在https地址上,显然忽略了超时值。一种解决方案是在
线程
中运行它,然后在
线程
挂起时终止并重新启动该
线程
。显然,
Python
不支持杀死
线程
,而且由于垃圾收集和其他问题,它被认为是一个坏主意。
浏览 3
提问于2011-12-28
得票数 2
2
回答
Python
多
线程
爬虫
内存继续增长
、
、
我用
Python
3写了一个简单的脚本。它枚举POST请求的所有可能的输入。我遇到的问题是,在创建了所有
线程
之后,内存一直在增长,最后,由于内存不足,它将被系统终止。
浏览 1
提问于2015-03-18
得票数 0
1
回答
未知大小的
Python
多
线程
爬虫
、
、
、
、
我有一个要使用selenium抓取的页面列表 假设网站是example.com/1...N (大小未知) from concurrent.futures import ThreadPoolExecutor, as_completed driver = webdriver.Chrome(ChromeDriverManager().install()) driver.get(f"example.com/{page}&
浏览 7
提问于2021-05-07
得票数 0
回答已采纳
5
回答
.Net 4中的多
线程
C#队列
、
、
我正在开发一个简单的网页
爬虫
。我搜索并找到了很多实现多
线程
爬虫
的解决方案。创建
线程
安全队列以包含唯一URL的最佳方法是什么? 编辑:.Net 4.5中有没有更好的解决方案?
浏览 3
提问于2012-04-10
得票数 1
回答已采纳
1
回答
Python
如何处理多个
线程
批?
、
我正在用
Python
构建一个简单的webcrawler
爬虫
。我将不得不通过~50k网站,我想加快进程与一些多
线程
。我定义了一个
爬虫
类作为
线程
的元对象在每个网站上爬行: def __init__(self, url, depth, wait): ...为了优化工作,最好从10个Crawler
线程
开始,然后,每次完成一个Crawler
线程
时,使用列表中的下一个url创建一个新的Crawler,直到列表完成为止。我正在研究
p
浏览 2
提问于2017-10-27
得票数 3
回答已采纳
1
回答
在爬行器中穿线的最佳选择是什么?
、
、
我用
Python
写了一个
爬虫
脚本,运行得很好。然而,它需要很长的时间来完成(超过9个小时,取决于网站有多少链接)。 我想在其中实现
线程
,以减少时间,但我很难确定哪个部分是最好的
线程
。乍一看,我会创建
线程
来获取每个页面的页面内容,然后锁定visited_urls和to_visit_urls数组,以确保所有内容都使用相同的列表。但是它似乎花费了最多的时间来检查visited_urls和to_visit_urls数组中的重复项,那么以这种方式进行
线程
处理是否真的可以节省那么多时间呢?有没有更好
浏览 0
提问于2014-10-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 多线程爬虫实战
Python3爬虫与多线程
Python爬虫实现多线程数据采集
Python多线程豆瓣影评API接口爬虫
爬虫进阶Python多线程和多进程
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券