python爬虫线程_Python中的多线程爬虫_爬虫多线程 - 腾讯云开发者社区

、、

我想用python写一个小的网络爬虫。我开始研究将其编写为多线程脚本，一个线程下载池和一个池处理结果。由于有了GIL，它真的可以同时下载吗？GIL对网络爬虫有什么影响？会不会每个线程从套接字中提取一些数据，然后转到下一个线程，让它从套接字中提取一些数据，等等？谢谢!

浏览 4提问于2010-05-14得票数 10

回答已采纳

5回答

快速网络爬虫

、、、

为此，我需要一个快速爬虫。所有我需要的是下载一个网页，提取链接和递归跟随他们，但不访问相同的网址两次。基本上，我想避免循环。编辑:解决方案是组合multiprocessing和thre

浏览 4提问于2011-10-05得票数 8

回答已采纳

1回答

Python多线程爬虫

、、、

我正在尝试用python编写网络爬虫。我想使用python多线程。即使在阅读了之前的建议论文和教程之后，我仍然有问题。i in range(5): t.setDaemon(True)它没有按照需要工作，它在线程

浏览 5提问于2012-05-29得票数 5

回答已采纳

2回答

我已经编写了一个python函数，它使用提供的目录模式遍历文件系统，并在每个级别提供可选的“操作”。然后我尝试了多线程，因为一些卷在网络共享上，并且我想最大限度地减少IO阻塞。我从使用多进程Pool类开始，因为这是最方便的……(说真的，没有线程的Pool类？)我的函数尽可能地解开提供的FS模式，并将新返回的路径提交到池中，直到没有新路径返回为止。为了简化，我使用线程而不是进程重写了函数，甚至编写了一个简单的ThreadPool类……同样的问题。>>findAllMyPaths() >>>...

浏览 0提问于2011-01-26得票数 4

回答已采纳

1回答

如何用python多进程检查网页是否存活

、

我想使用Python的多处理库并行执行这些检查。我写了以下代码(主要基于Python文档示例)，但运行速度似乎相当慢。有什么方法可以让这个脚本运行得更快吗？

浏览 0提问于2011-08-06得票数 0

回答已采纳

1回答

Python中的多线程爬虫

、

有可能创建尽可能多的线程来使用100%的CPU吗?它真的很高效吗？我计划用Python创建一个爬虫，为了使程序高效，我想创建尽可能多的线程，每个线程将下载一个网站。

浏览 16提问于2019-10-27得票数 0

回答已采纳

7回答

对于我的应用程序，多少个线程会是最优的？

、

我有一个简单的Python网络爬虫。它使用SQLite来存储它的输出，也用来保存一个队列。我想让爬虫是多线程的，这样它就可以一次抓取几个页面。我想我应该创建一个线程，一次只运行类的几个实例，这样它们都可以同时运行。但问题是，我应该一次运行多少次？我是不是应该坚持到两个？我能再高一点吗？线程数量的合理限制是多少？请记住，每个线程转到一个网页，下载html，运行几次正则表达式搜索，将找到的信息存储在SQLite数据库中，然后从队列中弹出下一个url。

浏览 2提问于2009-03-08得票数 3

回答已采纳

2回答

基于PHP的Web爬虫或基于JAVA的Web爬虫

、、

我对基于PHP的网络爬虫有些怀疑，它能像基于java线程的爬虫一样运行吗？我之所以问这个问题，是因为在java中，线程可以一次又一次地执行，我不认为PHP有类似线程的功能，你们能说一下，哪个网络爬虫更能充分利用吗?基于PHP的爬虫还是基于Java的爬虫

浏览 1提问于2010-07-27得票数 0

回答已采纳

5回答

当任一线程完成任务时，终止多个线程

、

我对python和线程都是新手。我已经编写了python代码，作为一个网络爬虫和搜索网站的特定关键字。我的问题是，如何使用线程同时运行我的类的三个不同的实例。keyword Crawl = Crawler() main() 如何使用线程让

浏览 0提问于2011-06-09得票数 33

回答已采纳

1回答

响应前的Python urllib2请求

我正在尝试用python写一个快速爬虫，但我不想用线程。我读过一些文章，说Scrapy是单线程的，可以在响应返回之前发出请求。

浏览 0提问于2012-05-06得票数 0

1回答

python中的多线程爬虫

、、、

我正在尝试实现一个多行爬行器，它接受初始url并搜索该链接中的链接，并显示每个链接，同时查找每个链接中的链接。import urllib.request, re, threading, csvfrom bs4 import BeautifulSoup __html_q = Queue() __visited_urls = [] def __

浏览 3提问于2015-11-13得票数 0

回答已采纳

1回答

java.out.lang.outofmemory无法创建本机线程

、、

我目前正在构建这个网络爬虫来获取起始url的所有链接，并从这些链接中爬取所有链接，等等。我使用线程，所以每次完成这个过程时，都会调用一个新的线程，我加载了大约1000个线程，我使用了thread.interrupt函数，但它仍然没有删除和创建线程。我尝试每次只使用一个线程，或者最多使用两个线程。我还注意到，一旦我运行我的爬虫，我的互联网开始崩溃，这意味着网站不会加载，直到我打开我的网络爬虫。我想我发送了太多的http请求。如果有人知道

浏览 1提问于2012-05-02得票数 0

回答已采纳

2回答

爬虫会在这个服务器配置上工作吗？

、、、、

我正在建造一个小爬虫作为一个业余项目。我所要做的就是爬行大约一百万页，并将它们存储在数据库中。(是的，它将不时更新，但任何特定时间的条目将仅为100万)，仅仅是为了了解这些东西是如何工作的。

浏览 4提问于2011-04-13得票数 0

1回答

Java -线程优先和套接字

、

我正在开发一个网络爬虫。程序的每个线程尝试读取3主机/秒(330 of连接和读取超时)。每个线程的优先级为10 (Ubuntu12.04)。当我设置10个线程时，爬虫将返回150个活动主机(主机没有超时)。当我设置400个线程时，爬虫只返回20个活着的主机。我不知道到底有多少个主机还活着或存在。我的问题是，线程是否有可能在短时间内没有执行，并且当它确实需要时间继续(从CPU调度)套接字到已经超时？(因为线程处理请求花费的时

浏览 4提问于2015-02-12得票数 0

回答已采纳

2回答

在Python中，如何为有时挂起的函数调用强制超时？

、、、、

我正在使用Python爬虫通过urllib2 OpenerDirector在互联网上爬行。问题是，连接将不可避免地挂起在https地址上，显然忽略了超时值。一种解决方案是在线程中运行它，然后在线程挂起时终止并重新启动该线程。显然，Python不支持杀死线程，而且由于垃圾收集和其他问题，它被认为是一个坏主意。

浏览 3提问于2011-12-28得票数 2

2回答

Python多线程爬虫内存继续增长

、、

我用Python3写了一个简单的脚本。它枚举POST请求的所有可能的输入。我遇到的问题是，在创建了所有线程之后，内存一直在增长，最后，由于内存不足，它将被系统终止。

浏览 1提问于2015-03-18得票数 0

1回答

未知大小的Python多线程爬虫

、、、、

我有一个要使用selenium抓取的页面列表假设网站是example.com/1...N (大小未知) from concurrent.futures import ThreadPoolExecutor, as_completed driver = webdriver.Chrome(ChromeDriverManager().install()) driver.get(f"example.com/{page}&

浏览 7提问于2021-05-07得票数 0

回答已采纳

5回答

.Net 4中的多线程C#队列

、、

我正在开发一个简单的网页爬虫。我搜索并找到了很多实现多线程爬虫的解决方案。创建线程安全队列以包含唯一URL的最佳方法是什么？编辑：.Net 4.5中有没有更好的解决方案？

浏览 3提问于2012-04-10得票数 1

回答已采纳

1回答

Python如何处理多个线程批？

、

我正在用Python构建一个简单的webcrawler爬虫。我将不得不通过~50k网站，我想加快进程与一些多线程。我定义了一个爬虫类作为线程的元对象在每个网站上爬行： def __init__(self, url, depth, wait): ...为了优化工作，最好从10个Crawler线程开始，然后，每次完成一个Crawler线程时，使用列表中的下一个url创建一个新的Crawler，直到列表完成为止。我正在研究p

浏览 2提问于2017-10-27得票数 3

回答已采纳

1回答

在爬行器中穿线的最佳选择是什么？

、、

我用Python写了一个爬虫脚本，运行得很好。然而，它需要很长的时间来完成(超过9个小时，取决于网站有多少链接)。我想在其中实现线程，以减少时间，但我很难确定哪个部分是最好的线程。乍一看，我会创建线程来获取每个页面的页面内容，然后锁定visited_urls和to_visit_urls数组，以确保所有内容都使用相同的列表。但是它似乎花费了最多的时间来检查visited_urls和to_visit_urls数组中的重复项，那么以这种方式进行线程处理是否真的可以节省那么多时间呢？有没有更好

浏览 0提问于2014-10-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python中的多线程爬虫真的可以提高速度吗？

快速网络爬虫

Python多线程爬虫

多线程Python FS爬虫

如何用python多进程检查网页是否存活

Python中的多线程爬虫

对于我的应用程序，多少个线程会是最优的？

基于PHP的Web爬虫或基于JAVA的Web爬虫

当任一线程完成任务时，终止多个线程

响应前的Python urllib2请求

python中的多线程爬虫

java.out.lang.outofmemory无法创建本机线程

爬虫会在这个服务器配置上工作吗？

Java -线程优先和套接字

在Python中，如何为有时挂起的函数调用强制超时？

Python多线程爬虫内存继续增长

未知大小的Python多线程爬虫

.Net 4中的多线程C#队列

Python如何处理多个线程批？

在爬行器中穿线的最佳选择是什么？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐