抓取数千个urls

、、、

我有一个抓取urls列表的函数，200k个urls，花了很多时间，有没有办法加速这个过程？= BeautifulSoup(response.text,'html.parser') "do stuff.." ids是一个list

浏览 17提问于2021-11-15得票数 0

回答已采纳

1回答

使用多线程的Asyncio请求

、、、、

我有一个很大的公司列表，我正在调用一个REST API来获取每个公司的每日股价。详细信息存储在PostgreSQL数据库中。因为我的列表中有超过20万家公司，所以我创建了一个最多10个员工的ThreadPoolExecutor。其目的是以异步方式将每个公司id (compid)和日期范围内的两个连续日期传递给'fetch‘函数，从而加快整个数据收集过程。例如，对于compid = 1，应该正好有600个每日价格。但是，每次运行脚本时，我都会得到一个不同的结果，

浏览 18提问于2020-03-04得票数 0

回答已采纳

1回答

下载数千个urls

、、

如你所知，我的服务每小时下载数千个URL。其中一些URL来自相同的域。为了使这个过程更快，我的应用程序包含100个线程。每个线程下载一个URL并处理它的内容。这将使被请求的web服务器感觉像是另一个请求信息的客户端。不好的一面是TOR is是公开的，一些服务器正在阻止这些is。因此，对于那些特定的服务器，解决方案将不起作用。

浏览 0提问于2014-02-21得票数 0

2回答

抓取数千个网页

、、

我正在做一个需要cron在一次运行中抓取数千个网页的项目。我在谷歌上找到了很多链接，但找不到任何合适的解决方案。我使用过file_get_contents、cURL等，但脚本总是在两次执行之间失败。我也想每天抓取网页的数据。如果有人能为我的问题找到正确的解决方案，那将是一个很大的帮助。

浏览 0提问于2014-02-12得票数 0

1回答

如何为列表中的每个URL创建列表/结果？

、、

因此，我正在尝试从一个网站上抓取数千个网页。也就是说，一个域名和路径，以及数千个参数。对于下面我给出的例子，'https://A.com'是我的域名。在本例中，我在['a', 'b', 'c']列表中有数千个字符串形式的参数。所有这些页面都有相同的结构，我想从他们所有的页面相同的部分。scrapy.Spider): name =

浏览 10提问于2021-05-04得票数 0

1回答

当我在debian上使用Python进行web抓取时，连接错误，超时。

、、、、

我有一个网络抓取脚本，这是工作的数千个链接。但有时我会收到连接错误、超时错误、错误的网关错误，而我的脚本只是停止。在这里，我的部分代码(在urls中，我有一个循环运行的链接)： browser = webdriver.Firefox() browser.get(url) html = browser.page_s

浏览 1提问于2017-09-20得票数 2

回答已采纳

2回答

rapidminer是否可以从URLS列表中提取xpath，而不是先保存HTML页面？

、、、、

我想让程序从我用另一个程序生成的URL列表中抓取xpath匹配项。(与RapidMiner中的“爬网”操作符相比，它有更多的选项) 我看过Neil Mcguigan的以下教程：。但我试图抓取的网站有数千个页面，我不想把它们都存储在我的pc上。而且网络爬虫缺乏关键功能，所以我无法使用它来达到目的。有没有一种方法可以让它读取URLS，然后从每个URLS中抓取xpath？

浏览 1提问于2012-01-28得票数 2

1回答

PCollection中的项目数不会影响已分配的工作进程数

、、、

我有一个包含三个步骤的管道。在第一步中，它是接受PCollection中的5个urls的ParDo。这5个项目中的每一个都会生成数千个urls并输出。所以第二步的输入是另一个PCollection，大小可以是100-400k。在最后一步中，每个url的抓取输出被保存到存储服务中。我注意到，从5个输入url中生成url列表的第一步分配了5个工作进程，并生成了一组新的

浏览 25提问于2020-11-05得票数 0

1回答

在Python中抓取大量urls

、、

我有630,220个urls需要打开和抓取。这些urls本身已经被抓取了，而且抓取它们要容易得多，因为每个抓取的页面将返回大约3500个urls。为了抓取这630,220个urls，我目前正在使用线程在Python中进行并行抓取。使用16个线程，抓取200个urls需要51秒。因此，我需要44

浏览 4提问于2016-11-17得票数 0

2回答

如何强制scrapy抓取重复的网址？

、、

我正在学习，一个网络爬行框架。如何让Scrapy抓取重复的urls或已经抓取的urls？

浏览 1提问于2014-04-17得票数 25

回答已采纳

2回答

Web刮刀在多处理时静默挂起

、

我正在抓取一个包含几十个基本urls的站点，这些urls最终链接到我解析的数千个xml页面，转化为Pandas数据，并最终保存到SQLite数据库中。= [url1, url2, url3, ... ] results = pool.map(collect_xml_links, start_urls) url_list.exte

浏览 2提问于2017-08-30得票数 0

回答已采纳

1回答

如何处理海量的web抓取请求

、、、、

当我们的网页被许多客户抓取时，我们的服务器承受着巨大的压力。有时我们的网页是从许多不同的IP地址抓取的，这些IP地址不属于一些著名的蜘蛛，如Google，Bing。例如，我们有一些urls的模式为"“。此页面显示了有关手机的产品列表。单个搜索词的搜索结果有数千个页面。所以缓存的命中率可能不是很高。因此，我想知道是否有其他解决方案来减轻我们服务器的压力。

浏览 2提问于2018-12-09得票数 1

2回答

将file_get_contents与数组一起使用？

、、

一个相当简单的场景；我有一个用户输入的url数组(可以是从1到1000+的任何数字)，我想对所有的url执行file_get_contents();，然后如果可能的话，将所有这些都绑定/绑定到一个变量中

浏览 0提问于2011-08-07得票数 0

回答已采纳

1回答

如何确保在我的Scrapy爬行器中解析每个URL

、、、

我尝试在美食博客上抓取食谱列表的每一页，抓取每一页上的食谱URL，然后将它们全部写入一个.txt文件。就我目前的代码而言，它可以正常工作，但只适用于start_requests方法中urls中列出的第一个网址。我已经添加了一个.log()来检查urls是否确实包含了我试图从其中抓取的所有正确的URL，当我在命令提示符中执行Scrapy时，我得到了以下确认： 2019-01-31 22:16:17 [recipesfwp_paged=%s" %

浏览 21提问于2019-02-01得票数 1

1回答

如何从数千个经过身份验证的urls中抓取相同的数据？

、

我需要从超过50000个不同的urls(....com0\?cid=1&aid=23&...)中抓取数据，只有“cid”和"aid“在变化。总是需要相同的数据字段，具有相同的选择器。你有什么建议吗？网页将SSO身份验证作为浏览器提示我正在考虑使用scrapy库，但之前没有使用scrapy的经验，这可能是一个遥不可及的目标。

浏览 9提问于2020-05-15得票数 0

3回答

迭代地重新检查一个巨大的列表

我的计算机中保存了大约100,000个URL的列表。(这10万人很快就会增加到几百万人。)对于每个url，我会检查该网页并收集该页面上的所有其他url，但前提是每个额外的链接都不在我的大列表中。这里的问题是反复地将这个巨大的列表重新加载到内存中，这样我就可以始终拥有一个准确的列表。其中使用的内存量可能很快就会变得太多，更重要的是，重新加载列表之间所需的时间变得更长，这严重阻碍了项目的进度。一种格式是将所有链接包含在一个文本文件中，在这个文件中，我打开(Filetext).readlines()将其直接转换为一个列表。我保存

浏览 0提问于2018-09-10得票数 0

3回答

通过mod重写创建数千个urls

、、、

我正在编写一个网站，其中有很多用户存储在mysql_database中，其中每个用户都有一个ID和profilename (比如jim.Buon.1)等字段。我想要一个具有以下结构的url (它通过配置文件(例如，在www.mysite.com/jim.button.1上的一个mysql_select )：现在我知道我可以用一个mod_rewrite_rule来完成这个任务，但是对于成千上万的用户，我会得到一个非常大的.htaccess文件。有什么方法可以做到这一点，比如在一

浏览 2提问于2012-10-12得票数 5

1回答