大数据爬虫_python爬虫三大_数据爬虫 - 腾讯云开发者社区

、、、

我正试着写一个网络爬虫。当我浏览一个大页面时，我的arraylist变量无法保存所有数据。它被抛到了异常之下。线程java.lang.StackOverflowError".中的异常" thread -0“ 保存这些urls的最佳方法是什么，因为我需要访问那些urls和子urls等等。我想保存到数据库或写入文件，但这些机制可能会减慢爬虫性能。

浏览 0提问于2015-11-19得票数 0

1回答

Python站点爬虫，使用Scrapy保存文件

、、、

我正在尝试编写一个爬虫，它将接受某个搜索条目，并保存一大堆与结果相关的.CSV文件。我已经让爬虫登录了，解析了我需要的所有html数据，现在我要做的就是弄清楚如何保存我需要的文件。因此，搜索返回如下的链接然后在web浏览器中提示您保存相关的.csv文件。我如何写我的爬虫能够加载这个页面和下载文件？或者，有没有一种方法可以捕获指向信息的静态链接？

浏览 0提问于2011-08-19得票数 2

1回答

KnockoutJS搜索引擎优化是否友好

、、

我的问题很简单: KnockoutJS搜索引擎优化友好吗？我有一个网站，并大量使用淘汰机数据模板，但我怀疑谷歌爬虫是否会发现我的网站，因为页面是一大堆模板，没有真正的超文本标记语言是present.And我怎么才能改进这一点？使用RSS？

浏览 0提问于2012-10-26得票数 8

回答已采纳

1回答

nodejs爬虫response.body与响应转换为jquery？

、、、

在我的nodejs项目中，我使用 how是一个内置的啦啦队爬虫。我的爬虫从这样的函数开始(就像doc中的示例)： let c = new Crawler({ maxConnections: 10, callback: (error, res, done) => { if (error) { throw err; } else { let $ = res.$; let content_test1 = $("*").toString(); let content_test2 = res.bod

浏览 3提问于2021-09-11得票数 0

回答已采纳

2回答

PHP爬虫遍历整个网站

、、、、

我想从一个网站检索文章和其他内容。我得到了爬虫的概念，并假设我可以打开遥远的页面，并根据一些正则表达式获得文本部分。我想知道的是，我如何不仅可以搜索单个页面(或分页)，还可以搜索整个网站，而不必逐个为每个元素运行爬虫，并且在搜索过程中不会忘记任何现有的url。请注意，我不需要这个是干净的，因为它是一次性的事情。与我有合同的网络代理公司想要向我收取一大笔钱来转储我自己的数据库，这是没有办法的，所以我必须找到一个快速的解决办法。为了让我开始，你能带我走一遍吗？谢谢。

浏览 0提问于2013-06-24得票数 0

2回答

编写脚本下载服务器上的所有内容

、、、

我想下载本网站上可公开访问的所有文件： https://www.duo.uio.no/ 这是奥斯陆大学的网站，在这里我们可以找到从大学档案中公开的每一篇论文/论文。我试过爬虫，但网站设置了一些机制来阻止爬虫访问他们的文档。还有其他方法吗？在最初的问题中没有提到这一点，但我想要的是服务器上的所有pdf文件。我试过SiteSucker，但这似乎只是下载网站本身。

浏览 6提问于2014-10-01得票数 0

回答已采纳

2回答

管理大型日志文件

、、

我们有一个持续爬行我们的目标网站的爬虫，它的日志文件变得相当大。超过1 GB在某些情况下，我不太习惯删除或覆盖它们。有关于如何管理大型日志文件的示例吗？

浏览 2提问于2010-06-28得票数 4

回答已采纳

1回答

在多台计算机上运行crawler4j

、

我正在尝试使用实现一个爬虫。一切都很好直到：我只运行了一份。我不重新启动就连续运行它。如果我重新启动爬虫，url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时，它将删除根数据文件夹.的内容。是否可以：防止根数据文件夹锁定。(因此，我可以同时运行多个爬虫副本。) 重新启动后，根数据文件夹的内容不会删除。(这样我就可以在停下来后恢复爬行器了。)

浏览 3提问于2014-05-11得票数 0

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

2回答

使用Storm爬行器为每个域设置不同的域特定爬行(例如速度)

、、、

我最近才发现了Storm爬虫，从过去的经验和研究中，我发现这个基于Apache的项目非常健壮，适合于许多用例和场景。我已经阅读了一些教程，并测试了风暴爬行器的一些基本设置。我想在我的项目中使用爬虫，但是有一些事情我不确定爬虫是否有能力做，甚至它是否适合这样的用例。我想做小的和大的递归爬行在许多web域与特定的速度设置和限制取回urls的数量。爬行可以在任何时候以不同的设置单独启动(不同的速度，忽略该域的robots.txt，忽略外部链接)。问题：风暴爬行器适合这种情况吗？是否可以将限制设置为爬虫获取的最大页数？我可以为不同的域设置获取页面数的限制吗？是否可以单独监

浏览 5提问于2017-05-22得票数 1

回答已采纳

2回答

用爬虫更新手工创建的aws胶水数据目录表

、、

我正在使用AWS胶水和s3上的许多文件，每天都会追加新的文件。我尝试创建并运行一个爬虫来推断出那些csv文件的模式。爬虫不只是一个带有模式的数据目录表，而是创建许多表(即使为所选的每个S3 path选项创建一个模式)，这意味着爬虫识别不同的模式，不能将它们组合成一个。但是，我只需要一个表在数据目录中的所有这些文件！因此，我手动创建了单独的数据目录表，当我将这个表与胶水作业一起使用时，没有一个s3 csv文件被处理。我猜这是因为每次爬虫运行时，它都会检查新的文件和分区(如果是单个模式表，我们可以通过单击表中的视图分区按钮来查看这些文件和分区)。因此，在中，可以使用爬虫更新手动创建的表，我希望

浏览 8提问于2020-03-27得票数 1

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

1回答

Python请求库的上限下载大小

、、

我正在使用Python的请求库抓取一大堆网页，但偶尔爬虫会偶然发现一个绝对巨大的页面，无论是PDF、视频还是其他巨大的文件。有没有一个好方法来限制它将下载的文件的最大大小？

浏览 0提问于2013-04-09得票数 0

回答已采纳

4回答

自动网络爬虫

、

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？什么逻辑和实现的工具可以用来提高自动网络爬虫挖掘的数据的质量(许多网站涉及不同的结构)？谢谢!

浏览 0提问于2012-07-20得票数 1

2回答

爬虫是如何从网页中解析文本的？

、、、

有像DOM这样的标准方法可以有选择地解析html页面，但我想知道爬虫(从小到大)如何检测要分析的正文在哪里？主要文本，将被分析以捕获其关键字，与菜单，侧边栏，页脚等混合在一起。爬虫如何知道从菜单和侧边部分跳过关键字？我正在做一个小的PHP项目来捕获来自各种HTML页面的关键字，我不知道如何避免从侧面内容捕获关键字。谁能描述一下，或者至少给我一个提示，如何区分HTML页面中的主要内容和其他内容？

浏览 5提问于2012-05-13得票数 4

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

如何存储网站内容？

、、、

我编写了脚本PHP，它应该抓取一个域的所有子页面，将文本(所有关键字)从子页面上传到数据库(MySQL)。接下来，我想快速查找具有特定关键字的url's。在我的例子中，如何保存和处理大文本数据？它应该像谷歌的网站爬虫一样工作我找到了两个解决方案：将文本上载到带有全文的一列中创建两个表:关键字，关键字子页面，关键字:关键字id，子页面id。你能推荐另外的解决方案和方法吗？

浏览 6提问于2014-03-25得票数 0

1回答

用于爬虫应用的数据库系统

、

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。为此，我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统，因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。很少有人建议我像mongodb那样使用no-sql，但我只想确保它是这类系统的最佳选择。

浏览 2提问于2012-01-06得票数 1

回答已采纳

1回答

Solr将数据从“爬行器”核心复制到“搜索”核心

、

我们正在寻找一个Solr 4.9设置，其中我们有一个非常简单的爬虫清除和加载一个“爬虫”核心，然后触发一个数据副本到“搜索”核心时，爬行完成。这样做的目的是，我们的爬虫非常简单，不真正跟踪文档的方式，将有助于进行更新和删除。基本上，爬虫将清除整个“爬虫”核心，撕毁大约50k个文档(提交1000多个文档)，然后触发一些东西将数据复制到另一个“搜索”核心。假设我们必须重新启动搜索核心，如何通过命令行或代码实现这一点？

浏览 9提问于2014-08-25得票数 0

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

2回答

如何防止bot/googlebot索引促销主页？

、

我们有一个电子商务网站。由于一些营销和宣传活动，我们正在显示应用下载页面/横幅/促销/大图像(和其他任何东西)在我们的主页上，如果用户是第一次访问网站，这是基于cookie的。但是我不希望机器人/爬虫看到这个内容(大图像)，相反，他们应该看到设置cookie之后的真实内容。URL对于两个内容都是相同的。我可以对此做更多的澄清。如何避免机器人看到促销内容？

浏览 3提问于2014-04-11得票数 0

回答已采纳

1回答

如何从同一网站的多个网页中发现公共信息块？

、

这是网络爬虫中的一个模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以让爬虫变得有点智能，就像只是识别和捕获信息部分。

浏览 0提问于2015-05-29得票数 0

3回答

HtmlAgilityPack和大型HTML文档

、、

我已经建立了一个小爬虫，现在当我尝试它时，我发现当我的爬虫爬行某些网站时，我的爬虫使用了98-99%的CPU。我使用dotTrace查看问题所在，它为我的httpwebrequest方法指明了方向--在之前关于stackoverflow的一些问题的帮助下，我对它进行了一些优化。但问题仍然存在。然后我去看看是什么URL导致了CPU负载，并发现实际上是网站的大小非常大-去图:)所以，现在我99%确定它与以下代码段有关： HtmlAgilityPack.HtmlDocument documentt = new HtmlAgilityPack.HtmlDocument(); HtmlAgility

浏览 0提问于2012-10-10得票数 2

回答已采纳

1回答

Matlab:从矢量创建三维数组

我想我还不知道如何在Matlab中使用爬虫技术。我尝试了一些组合，但我无法达到我所需要的。我有一个大小为1x20的向量A，我只想叠加A来创建3x5x20大小的矩阵。你能帮忙吗？

浏览 0提问于2013-10-24得票数 0

回答已采纳

2回答

AWS胶爬行器是做什么的？

、

我读过AWS胶水文档re:爬虫在这里：，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

浏览 1提问于2018-12-04得票数 3

回答已采纳

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

import.io如何将爬行的数据实时写入文件

、

目前，我在import.io中设置了一个爬虫，它可以通过非常多的页面(数万页)进行爬行。一旦这个爬虫完成，我试图查看数据，但只看到它已经全部丢失，我认为这是由于纯粹的量。是否有一种方法来设置我的爬虫，以便在收集数据时实时地将数据写入我的硬盘上的文件？

浏览 0提问于2015-07-23得票数 2

回答已采纳

1回答

将数据-大列表存储到实体属性中

、、、

我运行一个爬虫后端在我的应用程序，每天挖掘一些网站的数据。对于我爬行的每一个网站，我都创建一个实体，存储一个大的字符串id列表。近似约为每个实体的2.000。大约每天1000个实体。我现在的方法是使用一个重复的ndb.StringProperty()，而不是索引。运行3天后，它消耗了我70%的数据存储。下一步该怎么办？用压缩的json存储吗？把它们存放在小商店里，每次读到水珠，等等？还有别的吗？另一种选择？

浏览 1提问于2013-01-23得票数 0

回答已采纳

6回答

什么是好的Web爬虫工具

、

我需要索引一大堆网页，有哪些好的网络爬虫工具？我最好找的是.NET能跟我交流的东西，但这不是什么花哨的东西。我真正需要的是一些东西，我可以给一个网站的网址&它将遵循每个链接，并存储索引的内容。

浏览 0提问于2008-10-07得票数 16

回答已采纳

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

、、、、

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫填充的数据。请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8提问于2012-11-14得票数 2

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

1回答

AWS Glue Crawler不追加数据

、

我已经创建了aws爬虫，它使用分类器将csv文件导入数据表。效果很好。问题:每次爬虫覆盖旧数据。我想保留以前的数据，并附加csv文件的新内容。也就是说，我已经上传了250个记录的csv文件。当我执行那个爬虫时，它填充了250行的表。现在，如果我用其他内容替换csv文件，那么它将覆盖旧的250行，并且只使用最新的数据填充表。有谁能帮我吗?我如何保存旧记录和附加新数据。谢谢,

浏览 0提问于2019-11-04得票数 1

回答已采纳

1回答

分布式系统中的任务分配

、

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

1回答

python检查url类型

我用python写了一个爬虫，抓取的url有不同的类型:它可以是带有html的url，也可以是带有图像或大档案或其他文件的url。所以我需要快速确定这种情况，以防止读取大文件，如大档案，并继续爬行。如何在页面加载开始时确定url类型的最佳方式？我知道我可以做什么，网址名称(结尾是.rar，.jpg等)，但我认为这不是完整的解决方案。我需要检查标题或类似的东西来做这个？此外，我需要一些页面大小的预测，以防止大的下载。换句话说，设置下载页面大小的限制，以防止快速占用内存。

浏览 0提问于2010-09-12得票数 3

回答已采纳

2回答

如何防止AWS胶爬虫读取错误的数据类型？

、、、

我正在运行一个CSV文件上的AWS胶爬虫。这个CSV文件有一个字符串列，该列具有alpahanumeric值。爬虫将此列的数据类型设置为INT (而不是string)。这导致我的ETL失败了。有没有强制胶水来纠正这个问题？我不想手动将模式放入爬虫中，因为这违背了自动数据编目的目的。

浏览 6提问于2022-07-25得票数 1

1回答

爬行，爬行，获取数据

我想写一个爬虫来做一些基础设施(路由器，WAPS，系统等)的清单。所以我理解爬虫，实现是另一回事。所以，我在服务器上安装了一个应用程序，以及如何部署它。爬虫是怎么开始的？比如说我想盘点未知子网等等？爬虫是如何返回数据的？

浏览 5提问于2008-12-05得票数 0

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

2回答

AWS Athena -查询从Glue crawler生成的大型外部表？

、

我在亚马逊网络服务s3上有一大堆历史日志文件，总共有几十亿行，我使用了一个带有grok反序列化程序的胶水爬虫在雅典娜上生成了一个外部表，但是查询它被证明是不可行的。我的查询超时了，我正在尝试寻找另一种方法来处理这些数据。据我所知，通过Athena，外部表不是实际的数据库表，而是文件中数据的表示，并且查询是在文件本身上运行的，而不是数据库表。如何将这个大型数据集转换为查询友好的结构？编辑1:为了澄清，我对重塑这里的日志文件不感兴趣，那些已经处理好了。相反，我想要一种方法来处理我在s3上现有的文件库。我需要查询这些旧的日志，在它当前的状态下这是不可能的。我正在寻找一种方法，要么将这些文件

浏览 0提问于2019-09-26得票数 0

1回答

如何从crawler获取数据到我的站点？

、、

从外部爬虫获取数据到我的数据库的最好方法是什么，到我的网站我在LAMP环境中工作，web服务是个好主意吗？爬虫每15分钟运行一次。

浏览 2提问于2009-06-15得票数 0

回答已采纳

2回答

具有大型静态数组的PHP递归函数

、

我有一个爬虫函数，像这样： function crawl_page($url) { static $j; echo "recur no:".++$j."\n"; static $seen = array(); if (isset($seen[$url]) ) { return; } $seen[$url] = true; // some more code foreach($links as $link) { $link .= '?sta

浏览 2提问于2013-07-26得票数 2

1回答

基于Crawler输出的触发Lambda

、、、

我有一个设置，在我的胶水爬虫运行和数据准备红移时，我需要触发lambda函数。有办法制造这样的触发器吗？编辑：我为爬虫状态更改添加了一个事件桥规则，它可以工作并触发lambda函数，但是当我的任何爬虫程序运行时它都会触发。我想隔离它，只有在运行了特定的爬虫之后才触发。我用下面的代码进行了测试，但它似乎没有选择我的爬虫名称。是否有其他方法在规则中指定爬虫名称，或者我是否犯了语法错误？ { "source": ["aws.glue"], "detail-type": ["Glue Crawler State Change"

浏览 6提问于2022-10-04得票数 0

回答已采纳

2回答

AWS Glue ApplyMapping从double到string

、

我在胶水作业上遇到了一些令人沮丧的问题。我有一个从爬虫创建的表。它检查了一些CSV数据并创建了一个模式。模式的某些元素需要修改，例如，将数字转换为字符串并应用标题。我似乎在这里遇到了一些问题--一些字段的模式似乎被当作了替身。当我尝试将其转换为我需要的字符串时，它包含一些空精度，例如1234 --> 1234.0。我拥有的映射代码类似于： applymapping1 = ApplyMapping.apply( frame = datasource0, mappings = [ ("col1","double",

浏览 0提问于2018-06-20得票数 0

1回答

完成后删除AWS Glue Crawler

、、

我有一个用例，在这个用例中，我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据，启动爬虫，然后在完成抓取数据后删除爬虫。我遇到的难题是，爬虫可能需要很长时间才能完成，有时需要20-30分钟来完成对实际数据的爬行，然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题，这样就不会阻塞调用线程20-30分钟，我只需要写一个回调，这样当爬虫完成时，它就会立即被删除。这样做的问题是，如果服务器在爬虫完成所需的20-30分钟时间内关闭或中断，它将不再被删除。什么是保持crawler删除步骤的好方法，以便即使服务器关闭，它仍会在重新启动后尝试删除c

浏览 27提问于2021-05-26得票数 0

回答已采纳

1回答

网络爬虫无法从https://steemit.com/trending获取链接

、、

当我运行我的爬虫程序的主文件时，我得到这个'utf-8‘编解码器无法解码位置1中的字节0x8b :无效的起始字节。我会发布代码，但这是一个大程序，我不确定在哪里或什么问题。这个网站是硬核加密的，这会是问题所在吗？

浏览 0提问于2017-05-17得票数 1

1回答

风暴爬行器爬行和分度

、、、

我曾与Nutch1x合作爬行网站，并使用Elasticsearch索引数据。我最近遇到了风暴爬虫，并且喜欢它，特别是它的流性质。我必须插入并创建风暴爬虫发送数据到的ES服务器的映射吗？有了Nutch，只要我启动和运行ES索引，映射就会自行处理.除了一些微调。风暴爬虫也是一样的吗？或者我必须插入索引和之前的映射吗？

浏览 3提问于2017-05-31得票数 2

回答已采纳

1回答

检查网页是否已经下载

、、、、

上下文我编写了一个Java爬虫，它定期下载Google上列出的页面，并包含一组关键字。这些页面要么是静态的(即其内容不改变)，要么是动态的(即，由于其内容是用户生成的，或者意味着每天更新/ecc.)。爬虫将每个页面存储在MongoDB数据库中，保存：标题 URL 内容(即整个页面的HTML内容) 问题但是，页面可能会被多次下载，我的目标是了解一个页面是否已经存在于我的数据库中，并防止爬虫再次下载它。我的解决方案因此，我使用以下哈希函数散列页面的内容： private long hashFunction(String text) { long h = 112

浏览 3提问于2015-02-04得票数 1

回答已采纳

1回答

抓取情况:项目的增量更新

、、

请帮我解决以下问题：想象一个典型的分类类别页面。包含项目列表的页面。当你点击你在内部pages.Now上登陆的项目时，我的爬虫刮掉了所有这些URL，进一步刮掉这些URL以获取项目的细节，检查初始种子URL是否作为下一页。如果有，它将转到下一页并执行相同的操作。我将这些项存储在sql数据库中。假设三天后，种子URL中有新的项目，我只想报废新的项目。可能的解决办法是：在抓取每个项目时，我在数据库中查看URL是否已经被抓取。如果有，我只是要求Scrapy不要再爬行了。问题:我不想每次都查询数据库。我的数据库将非常大，它最终将使爬行超级慢。我试图存储最后一次刮过的URL，并在开始时传递

浏览 5提问于2013-03-20得票数 3

2回答

与多个小脚本相比，使用一个大脚本更好吗？

、、

我在学习爬行着巨蟒的网络。我有一个有很多URL的CSV文件。使用python2.7和selenium，我目前正在抓取这些网站的数据，如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。然后，我将脚本的结果导出到CSV文件中，每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。我的当前脚本如何将数据导出到CSV文件-> CSV文件，如下所示： Website | body width | HTTP response | load speed (in secs)

浏览 2提问于2017-03-10得票数 1

回答已采纳

1回答

分布式爬行与速率限制/流量控制

、、、、

我正在运行一个利基搜索产品，与网络爬虫工作。当前的爬虫是一个单独的(PHP Laravel)工作人员，它爬行urls并将结果放入一个弹性搜索引擎。系统连续地以X毫秒的间隔对找到的url进行重新爬行。这为我提供了很好的服务，但随着一些新的大客户的到来，爬虫将达到极限。我需要重新设计一个分布式爬虫系统，以加快爬行速度。问题是下面的规范组合。该系统必须遵守以下两项规则：多个工作人员(并发问题) 每个客户的可变利率限制。我需要非常肯定的是，系统不会每隔X毫秒再爬行一次客户机X。我尝试过的：我尝试将url放在MySQL表中，让工作人员根据客户机和url表中的last_cra

浏览 1提问于2018-07-23得票数 1

1回答

使用自定义资源Lambda运行Crawler

、、、、

我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。我如何使用云形成来实现所有这些？例如，从s3中存在的cod创建λ函数，在创建lambda函数后，应该触发它来创建爬虫程序，然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。参考链接：Is it possible to trigger a lambda on creation from CloudFormation template

浏览 21提问于2019-09-17得票数 0