爬虫数据挖掘_php爬虫数据挖掘_java爬虫数据挖掘 - 腾讯云开发者社区

、

这是网络爬虫中的一个模式识别任务。传统的爬虫获取整个页面的数据。如果有任何方法可以让爬虫变得有点智能，就像只是识别和捕获信息部分。

浏览 0提问于2015-05-29得票数 0

4回答

自动网络爬虫

、

我正在编写一个爬虫，需要从许多网站获取数据。问题是每个网站都有不同的结构。我如何才能轻松地编写一个从(许多)不同网站下载(正确)数据的爬虫？如果网站的结构发生变化，我是否需要重写爬虫，或者是否有其他方法？什么逻辑和实现的工具可以用来提高自动网络爬虫挖掘的数据的质量(许多网站涉及不同的结构)？谢谢!

浏览 0提问于2012-07-20得票数 1

4回答

我寻找一个网络爬虫解决方案，可以是足够成熟的，可以简单地扩展。我对以下特性感兴趣..。或扩展爬行器以迎接它们的可能性：部分是为了阅读几个站点的提要浏览这些网站的内容如果这个站点有一个归档文件，我也想爬行和索引它。爬虫应该能够为我探索Web的一部分，并且它应该能够决定哪些站点符合给定的标准如果发现符合我兴趣的东西，应该能通知我爬虫不应该通过过多的请求攻击服务器，它应该是聪明的爬行。爬虫应该对异常站点和服务器具有很强的鲁棒性。上面的这些事情可以一个一个地完成，而无需付出很大的努力，但我对提供可定制的、可扩展的爬虫的任何解决方案都感兴趣。我听说过A

浏览 1提问于2010-01-18得票数 7

回答已采纳

3回答

在Solr中使用Nutch爬行器

、、

我是否能够将Apache爬虫与Solr索引服务器集成？编辑：我们的一个开发人员从这些帖子中找到了一个解决方案。答案是

浏览 3提问于2008-10-17得票数 13

1回答

项目推荐服务

、、

我应该用MyMediaLite提供图书推荐服务。到目前为止，我已经使用Nutch爬虫从网站上收集了书籍，并将信息存储到hbase中。问题是，我实际上并不完全理解这些东西是如何工作的。通过示例，我必须通过测试数据和训练数据文件，以及用户-项目id对和评级。但书中的其他信息，如类别和作者呢？如何在没有用户信息的情况下，通过他们的信息等找到“相似”的书籍？是否有可能直接从hbase传递数据，而无需将其存储到文件中然后导入？或者这项工作更适合Apache Mahout或LibRec？

浏览 1提问于2015-08-31得票数 0

2回答

如何为网络爬虫找到一个“好的”种子页面？

、、

我开始构建一个网络爬虫，在某个地方读到要为爬虫找到一个好的种子页面是一个非常困难的问题。有谁能解释我是否有任何预定义的程序/指导方针找到一个好的种子页？或者你怎么说一个特定的页面是一个好的种子页？

浏览 0提问于2013-02-01得票数 7

回答已采纳

4回答

当有比查询多得多的插入时，必须应用数据库规范化吗？

、、

我做了一个网络爬虫，它在数据库中插入各种页面和链接。目前，爬行的URL的域是页面和链接表中的一个属性。我正在考虑为域创建一个表，但我担心这会减慢插入速度。目前，我已经下载了1,200,000个链接，数据库中有70,000个页面，而且这个数字还会增加。更好的解决方案是什么？是否创建域表？在域属性(它是varchar)中创建索引？ PS:我开发的另一个程序将在这个数据库中进行查询。

浏览 2提问于2011-07-15得票数 1

1回答

更新搜索结果中的结构化数据需要多长时间？

、、

我们已经更新了网站中评级的结构化数据，爬虫也检测到了它，但是我无法在搜索结果页面中查看评级。我可以在搜索结果中看到面包屑结果，而在搜索结果中看不到其他结构化数据。请让我们知道是否有任何问题需要从我们的最终解决。谢谢

浏览 0提问于2013-02-19得票数 5

1回答

在多台计算机上运行crawler4j

、

我正在尝试使用实现一个爬虫。一切都很好直到：我只运行了一份。我不重新启动就连续运行它。如果我重新启动爬虫，url的收集并不是唯一的。这是因为爬虫锁定根文件夹(存储中间爬虫数据并作为参数传递)。当爬虫重新启动时，它将删除根数据文件夹.的内容。是否可以：防止根数据文件夹锁定。(因此，我可以同时运行多个爬虫副本。) 重新启动后，根数据文件夹的内容不会删除。(这样我就可以在停下来后恢复爬行器了。)

浏览 3提问于2014-05-11得票数 0

1回答

如果我为我的python脚本做了一个简单的gui，它会影响它的效率吗？

、、

嗨，我想做一个网页爬虫，检查URL的数据，如果我做一个简单的Gui，使脚本更容易查找变量的数据，添加代码的gui会使我的网络爬虫效率降低吗？我需要爬虫尽可能高效，能够尽可能快地处理数据。为这个Python脚本制作一个gui，会不会妨碍web爬虫的性能？

浏览 3提问于2015-01-27得票数 0

回答已采纳

1回答

网页爬网<！--禁止HtmlUnknownAttribute -->

、、

我试着抓取链接："“。我使用给定的两行来读取所有参赛者的名字： table1 = soup.find("table", {'class':'standings'}) table2 = table1.find_all("tr") 但是，table2并不打印所有的表行。我发现“<--suppress HtmlUnknownAttribute -->”写在我不能抓取的所有行之前。有没有什么特别的原因。我只是个网络爬虫的初学者

浏览 1提问于2015-10-25得票数 0

2回答

用爬虫更新手工创建的aws胶水数据目录表

、、

我正在使用AWS胶水和s3上的许多文件，每天都会追加新的文件。我尝试创建并运行一个爬虫来推断出那些csv文件的模式。爬虫不只是一个带有模式的数据目录表，而是创建许多表(即使为所选的每个S3 path选项创建一个模式)，这意味着爬虫识别不同的模式，不能将它们组合成一个。但是，我只需要一个表在数据目录中的所有这些文件！因此，我手动创建了单独的数据目录表，当我将这个表与胶水作业一起使用时，没有一个s3 csv文件被处理。我猜这是因为每次爬虫运行时，它都会检查新的文件和分区(如果是单个模式表，我们可以通过单击表中的视图分区按钮来查看这些文件和分区)。因此，在中，可以使用爬虫更新手动创建的表，我希望

浏览 8提问于2020-03-27得票数 1

2回答

爬行时管理URL的常见方法是什么？

我正在尝试编写一个网络爬虫程序，但现在我想知道:存储所有urls的最佳方法是什么，这样爬虫就可以一起工作，但不会干扰。示例：爬虫1找到一个包含100个URL的页面。爬虫2找到一个没有任何URL的页面。爬虫1和2共享爬虫1发现的100个URL 我的想法(两种不同的方法) 让Crawler扫描页面寻找新的URL 将所有已找到的URL保存在由所有Queue实例共享的PriorityQueue( Crawler )中一旦Queue变得太大(例如，最大大小的80% )，就将URL外包给数据库让Crawler保存Analyzer，并在之后

浏览 5提问于2011-12-28得票数 0

回答已采纳

2回答

对于蟒蛇爬虫，我应该使用无限循环还是cron作业？

、、

我用python编写了一个爬虫，它可以访问60多个网站，解析HTML，并将数据保存到数据库。现在，我正在使用cron作业，每15分钟运行一次爬虫。问题是，我无法知道爬虫要花多少时间才能完成(有时可能需要超过15分钟)，如果已经在运行，我不想再运行另一个爬虫。我一直在想，我是否最好使用一个无限循环，并使爬虫成为一个永久运行的进程(但是如何确保爬虫不会失败并退出呢？以及如何在每次退出时重新启动？)。哪一个更有效率？无限循环还是cron作业？

浏览 7提问于2021-05-14得票数 0

1回答

用于爬虫应用的数据库系统

、

我在一个基于java的爬虫上工作。我想在我的爬虫恢复功能，用户可以在任何时候暂停爬虫，在他想要的情况下，爬虫崩溃的情况下，他应该能够开始从爬虫停止的点上一次爬行。为此，我必须在数据库中存储所有outlink (在任何页面找到的链接)。我不确定哪个数据库是最好的这类系统，因为它需要非常快的插入和检索的链接从数据库和频率插入和检索将非常高。很少有人建议我像mongodb那样使用no-sql，但我只想确保它是这类系统的最佳选择。

浏览 2提问于2012-01-06得票数 1

回答已采纳

1回答

Solr将数据从“爬行器”核心复制到“搜索”核心

、

我们正在寻找一个Solr 4.9设置，其中我们有一个非常简单的爬虫清除和加载一个“爬虫”核心，然后触发一个数据副本到“搜索”核心时，爬行完成。这样做的目的是，我们的爬虫非常简单，不真正跟踪文档的方式，将有助于进行更新和删除。基本上，爬虫将清除整个“爬虫”核心，撕毁大约50k个文档(提交1000多个文档)，然后触发一些东西将数据复制到另一个“搜索”核心。假设我们必须重新启动搜索核心，如何通过命令行或代码实现这一点？

浏览 9提问于2014-08-25得票数 0

回答已采纳

1回答

如何提取我的爬虫目前所站的网址？

、、

我正在使用python中的scrapy框架制作一个web爬虫。其主要思想是，爬虫从页面中提取一些数据，如果数据符合某些条件，爬虫应该提取其当前所处的URL。是否有一些方法/函数可以获得当前的URL？谢谢。

浏览 5提问于2016-11-27得票数 0

回答已采纳

2回答

AWS胶爬行器是做什么的？

、

我读过AWS胶水文档re:爬虫在这里：，但我仍然不清楚glue爬虫到底做了什么。爬虫是否遍历S3存储桶，并创建指向这些存储桶的指针？当文档说“爬行器的输出由数据目录中定义的一个或多个元数据表组成”时，这些元数据表的目的是什么？

浏览 1提问于2018-12-04得票数 3

回答已采纳

2回答

网络爬虫的最佳数据库设计

、、、

许多数据库系统适合与网络爬虫一起工作，但是有没有专门为网络爬虫开发的数据库系统(在.net中)。我的经验告诉我，网络爬虫有许多部分和服务，每个部分都需要一些特定的功能。例如，要缓存网页，我们需要一些东西，比如sql server的。或者检查db中是否已经存在URL，最好的选择是。事实上，我有两个问题 1)与网络爬虫一起工作的最好的数据库系统是什么？ 2)是否有涵盖所有功能的数据库系统！

浏览 2提问于2011-07-05得票数 1

1回答

import.io如何将爬行的数据实时写入文件

、

目前，我在import.io中设置了一个爬虫，它可以通过非常多的页面(数万页)进行爬行。一旦这个爬虫完成，我试图查看数据，但只看到它已经全部丢失，我认为这是由于纯粹的量。是否有一种方法来设置我的爬虫，以便在收集数据时实时地将数据写入我的硬盘上的文件？

浏览 0提问于2015-07-23得票数 2

回答已采纳

2回答

在heroku上使用网络爬虫的经验

、

是否有人有使用海葵等宝石编写网页爬虫的经验，并将它们部署到heroku供您自己使用？这样一个持续运行的程序会违反heroku的TOA/TOS吗？

浏览 2提问于2013-05-09得票数 4

2回答

如何使用asp.net mvc3和c#构建网络爬虫？

、、、、

我需要建立一个小的搜索引擎，如谷歌使用ASP.NET MVC3。对于这一个，我还需要建立网络爬虫，其中填充搜索引擎的数据。总而言之，我需要以下内容：如何使用Asp.net MVC3和C#构建网络爬虫。我开始建立一些基本的，但我需要一些指南，资源和书籍。使用这个网络爬虫，我轮询搜索引擎的数据，并使用Lucene.Net对数据应用索引。我需要建立小型搜索引擎，搜索由网络爬虫填充的数据。请任何人有任何想法或资源或书籍。请与我们分享。

浏览 8提问于2012-11-14得票数 2

1回答

AWS Glue Crawler不追加数据

、

我已经创建了aws爬虫，它使用分类器将csv文件导入数据表。效果很好。问题:每次爬虫覆盖旧数据。我想保留以前的数据，并附加csv文件的新内容。也就是说，我已经上传了250个记录的csv文件。当我执行那个爬虫时，它填充了250行的表。现在，如果我用其他内容替换csv文件，那么它将覆盖旧的250行，并且只使用最新的数据填充表。有谁能帮我吗?我如何保存旧记录和附加新数据。谢谢,

浏览 0提问于2019-11-04得票数 1

回答已采纳

1回答

如何从网站的数据库中抓取链接？

、、

我是搜索引擎新手，我发现googlenews非常有趣。我想写一个简单的爬虫只解析三个不同新闻网站的文章链接。将链接保存在数据库(mysql)中，并使用链接在网站上公布的时间戳(而不是爬虫检测到链接的时间)。如您所知，新闻网站每天都会生成链接(我想基本上解析它们的所有链接(不仅仅是今天打印的链接，还包括生成before...and的所有链接--所有这些链接都保存在新闻网站数据库中)。我不知道我想爬的新闻网站使用的是哪个数据库，我也没有访问它的权限。那么googlenews如何能够解析所有新闻网站的所有文章链接，包括很久以前生成的链接呢？googlenews可以访问

浏览 4提问于2014-06-06得票数 3

回答已采纳

1回答

分布式系统中的任务分配

、

我想抓取网站和写入输出到Solr与我的应用程序。我的爬虫使用卡夫卡把爬行的网站对象的一个主题和水槽将重定向输出到Solr。有多个爬虫产生数据卡夫卡。我的问题是:当一个爬虫想要爬一个网站，其他爬虫不应该尝试爬行它。如何在分布式环境中与它们通信？

浏览 0提问于2017-06-01得票数 2

2回答

如何防止AWS胶爬虫读取错误的数据类型？

、、、

我正在运行一个CSV文件上的AWS胶爬虫。这个CSV文件有一个字符串列，该列具有alpahanumeric值。爬虫将此列的数据类型设置为INT (而不是string)。这导致我的ETL失败了。有没有强制胶水来纠正这个问题？我不想手动将模式放入爬虫中，因为这违背了自动数据编目的目的。

浏览 6提问于2022-07-25得票数 1

1回答

通过htaccess重定向文件夹的所有子目录

我到处找遍了，还没找到这个问题。我需要将目录的所有“子文件夹”重定向到父目录。例如，父目录是example.tld/directory，所有子目录(如example.tld/directory/subdirectory-1和example.tld/directory/subdirectory-2等)都需要重定向到example.tld/directory。澄清一下，这些不是实际的目录，而是Drupal子路径，但我认为它应该通过htaccess来实现。为了让它变得清晰，URL example.tld/directory/subdirectory-1 example.tld/directo

浏览 0提问于2019-02-26得票数 2

1回答

爬行，爬行，获取数据

我想写一个爬虫来做一些基础设施(路由器，WAPS，系统等)的清单。所以我理解爬虫，实现是另一回事。所以，我在服务器上安装了一个应用程序，以及如何部署它。爬虫是怎么开始的？比如说我想盘点未知子网等等？爬虫是如何返回数据的？

浏览 5提问于2008-12-05得票数 0

1回答

如何使用Jsoup登录ASPX网站

、、、

我一直在尝试使用Jsoup爬虫登录aspx网站，到目前为止我找到的所有东西都是表单，但是这个aspx网站here没有任何表单。我该怎么做呢？这是我到目前为止所知道的： Connection.Response loginForm = Jsoup.connect(LOGARUN_URL) .method(Connection.Method.GET) .execute(); Connection.Response currentPage = Jsoup.connect(LOGIN_FORM_URL) .

浏览 23提问于2020-01-01得票数 2

3回答

将数据从PHP脚本传递到Python Web Crawler

、、、、

我有一个python爬虫，每隔几分钟就抓取几个网页。我现在正在尝试实现一个可以通过web访问的用户界面，并显示爬虫获得的数据。我将使用php/html作为接口。无论如何，用户界面需要某种类型的按钮来触发爬虫程序立即抓取特定的网站(而不是等待下一次抓取迭代)。现在，有没有一种方法可以将数据从php脚本发送到正在运行的python脚本？我在考虑标准输入/输出，但找不到一种方法可以做到这一点(从一个进程写入另一个进程stdin)。然后我在考虑使用一个共享文件，php在其中写入数据，python从中读取数据。但是，我需要一些方法来让python脚本知道，新数据已经写入文件，以及让php脚本知道爬虫何

浏览 1提问于2011-03-31得票数 1

1回答

如何从crawler获取数据到我的站点？

、、

从外部爬虫获取数据到我的数据库的最好方法是什么，到我的网站我在LAMP环境中工作，web服务是个好主意吗？爬虫每15分钟运行一次。

浏览 2提问于2009-06-15得票数 0

回答已采纳

1回答

基于Crawler输出的触发Lambda

、、、

我有一个设置，在我的胶水爬虫运行和数据准备红移时，我需要触发lambda函数。有办法制造这样的触发器吗？编辑：我为爬虫状态更改添加了一个事件桥规则，它可以工作并触发lambda函数，但是当我的任何爬虫程序运行时它都会触发。我想隔离它，只有在运行了特定的爬虫之后才触发。我用下面的代码进行了测试，但它似乎没有选择我的爬虫名称。是否有其他方法在规则中指定爬虫名称，或者我是否犯了语法错误？ { "source": ["aws.glue"], "detail-type": ["Glue Crawler State Change"

浏览 6提问于2022-10-04得票数 0

回答已采纳

1回答

完成后删除AWS Glue Crawler

、、

我有一个用例，在这个用例中，我需要创建一个AWS Glue crawler来抓取存储在S3中的一些数据，启动爬虫，然后在完成抓取数据后删除爬虫。我遇到的难题是，爬虫可能需要很长时间才能完成，有时需要20-30分钟来完成对实际数据的爬行，然后才能将其删除。最初我打算用AWSGlueAsyncClient来解决这个问题，这样就不会阻塞调用线程20-30分钟，我只需要写一个回调，这样当爬虫完成时，它就会立即被删除。这样做的问题是，如果服务器在爬虫完成所需的20-30分钟时间内关闭或中断，它将不再被删除。什么是保持crawler删除步骤的好方法，以便即使服务器关闭，它仍会在重新启动后尝试删除c

浏览 27提问于2021-05-26得票数 0

回答已采纳

1回答

风暴爬行器爬行和分度

、、、

我曾与Nutch1x合作爬行网站，并使用Elasticsearch索引数据。我最近遇到了风暴爬虫，并且喜欢它，特别是它的流性质。我必须插入并创建风暴爬虫发送数据到的ES服务器的映射吗？有了Nutch，只要我启动和运行ES索引，映射就会自行处理.除了一些微调。风暴爬虫也是一样的吗？或者我必须插入索引和之前的映射吗？

浏览 3提问于2017-05-31得票数 2

回答已采纳

1回答

使用自定义资源Lambda运行Crawler

、、、、

我正在尝试使用云构造来创建和调用AWS Glue爬虫。爬虫的创建部分(作为目标的发电机数据库)在lambda函数中。我如何使用云形成来实现所有这些？例如，从s3中存在的cod创建λ函数，在创建lambda函数后，应该触发它来创建爬虫程序，然后应该调用爬虫程序来创建目标表。我希望所有这些都是云的形成。参考链接：Is it possible to trigger a lambda on creation from CloudFormation template

浏览 21提问于2019-09-17得票数 0

1回答

粘合作业失败，出现连接超时错误

、、

我有一个Glue ETL作业，它从目录中读取数据并写入s3。完成此操作后，需要触发爬虫程序来更新雅典娜中的数据。所以，我使用glue_client.start_crawler(Name='crawler_name')方法来启动一个爬虫程序。但是，每当我尝试从ETL胶水作业启动爬虫程序时，它都会失败，并显示以下错误 ConnectTimeoutError: Connect timeout on endpoint URL: "https://glue.eu-central-1.amazonaws.com/"

浏览 37提问于2020-08-03得票数 2

回答已采纳

2回答

与多个小脚本相比，使用一个大脚本更好吗？

、、

我在学习爬行着巨蟒的网络。我有一个有很多URL的CSV文件。使用python2.7和selenium，我目前正在抓取这些网站的数据，如:车身宽度(以像素为单位)、HTTP响应、页面加载速度和meta name="viewport"标记。然后，我将脚本的结果导出到CSV文件中，每个列都包含提取的数据类型(参见下面)。我计划通过编写新的爬虫来提取更多类型的数据。我的当前脚本如何将数据导出到CSV文件-> CSV文件，如下所示： Website | body width | HTTP response | load speed (in secs)

浏览 2提问于2017-03-10得票数 1

回答已采纳

1回答

分布在不同地理位置的爬虫

、、

我在不同的地理位置有几台台式机。我需要创建一个爬虫与客户端在每个台式机和一个中央服务器，其中的数据是索引。有没有可能在Nutch中创建这样的爬虫？还有没有别的选择。基于Python的爬虫会更好。

浏览 2提问于2011-07-04得票数 0

回答已采纳

1回答

AWS雅典娜从GLUE Crawler输入从S3创建的表返回零记录

、、、

我已经阅读了问题的答案还有的问题按建议我给Glue爬虫提供了S3中的文件夹路径，而不是文件名。I已删除并重新创建了爬虫但这没什么用我的案子：来自s3存储中csv的示例数据：云监视日志显示成功创建了胶水表：模式结构如下所示： Sizekey 333匹配csv数据大小：但是当我运行雅典娜查询时，我得到的结果是：只返回列，不返回记录。扫描数据:0 KB 有人知道为什么胶水爬虫不能转换数据吗？谢谢!

浏览 1提问于2019-12-12得票数 2

回答已采纳

1回答

定期运行python程序作为防火墙中的后台服务。

、、

只要开始使用firebase + react就可以建立一个网站。我的网站的一个设计特点是爬行和显示从另一个网站分析的数据(例如，股票价格的变化)。我已经有了负责解析数据的python爬虫，但是我不知道如何(在后台)在firebase中执行服务器的这个python爬虫(或者根本不可能)？下面是我的系统的示例用法用户登录和订阅网站/数据他们很感兴趣我的爬虫将每1小时解析该网站并将数据更新到数据库。用户可以从数据库中看到网站变更的摘要。我想到的一个选择是在本地机器上运行爬虫，并使用REST将解析的数据更新到firebase数据库。然而，这似乎是一种非常低效/天真的方法，

浏览 0提问于2018-01-25得票数 3

1回答

强制Glue Crawler使用预定义的Glue表

如何配置Glue爬虫，使其不创建自己的模式，而是在Glue表中使用预定义(手动输入)模式/cols？每次我试一次，爬虫就会创建一个新的表。我需要这样做的原因是因为CSV文件没有头记录，所以我不希望爬虫猜测每个文件的科尔和数据类型。

浏览 7提问于2022-03-04得票数 0

1回答

向远程MySQL提供数据的模式

、、

我想从社区中听到一个很好的模式来解决下面的问题。我有一个“无所不包”的服务器，它是were服务器，mysql，爬虫服务器。由于使用监视工具的两三周时间，我发现当我的爬虫运行时，我的平均负载总是超过5(一个4核心服务器，可以一直使用到4.00作为负载)。所以，我有另一台服务器，我想把我的爬虫移到那里。我的问题是。一旦我在我的爬虫服务器中爬行数据，我必须插入我的数据库。我不想打开远程连接并将其插入数据库中，因为我更喜欢使用Rails框架，顺便说一句，我使用rails，以便更容易地创建所有关系，等等。有待解决的问题：服务器，有爬行的数据(一堆csv文件)，我希望将它移动到远程服务器，并使用ra

浏览 2提问于2011-05-01得票数 0

1回答

Parse.com如何在Json中同步网络数据

、、、、

我已经创建了一些爬虫，这些爬虫可以使用kimonolabs.com和parsehub.com从一些网站收集数据。我想根据爬虫获得的数据创建一个iPhone应用程序，并通过他们的api同步爬虫提供给我的数据。因此，如果爬虫发现从网站的任何新的数据，我希望在这些数据的变化同步。我尝试过kimonolabs.com和parsehub.com从一些网站上抓取一些数据。两种爬行器几乎是一样的。 json文件可能至少为10 be，因此我认为最好尝试将所有数据与其他服务(如parse.com)同步，并查询特定数据，以最小化iPhone应用程序的带宽。这是来自kimonolabs：的json的数据示例

浏览 3提问于2014-12-07得票数 0

回答已采纳

1回答

如何使用aws爬虫在数据目录表中只加载元数据

、

我创建了AWS爬虫来读取s3 (csv)中的数据，并将输出配置作为目录表。当我运行爬虫时，我可以看到从csv文件中填充到目录表中的数据和元数据。是否有方法只将元数据信息填充到目录表中？请告知，因为我是新来的AWS世界

浏览 13提问于2022-11-16得票数 0

回答已采纳

2回答

我需要为特定的用户代理编写一个网络爬虫

、

我需要编写一个网络爬虫，并希望能够爬行使用一个已知的用户代理。例如，我希望我的爬虫程序充当iphone来抓取网站的移动站点，然后使用Mozilla PC代理再次抓取，等等。这样，我将能够抓取每一个“类型”的网站(移动和个人电脑)。然而，我也希望能够设置我的爬虫的用户代理，这样网站管理员也可以在他们的统计数据中看到访问整个网站的是一个爬虫，而不是真正的用户。所以我的问题是，你们知道如何在PHP中同时设置一个移动代理和一个爬虫代理吗？这有可能吗？

浏览 1提问于2011-05-14得票数 3

回答已采纳

1回答

如何将风暴爬行器与弹性连接起来？

、、、

我在两个独立的服务器上有风暴爬行器和弹性爬虫，我如何连接它们才能索引风暴爬虫数据？有这个插件吗？

浏览 7提问于2022-08-01得票数 0

1回答

java--跟踪运行java应用程序时所使用的带宽和其他参数的库/方法

、

我正在努力创建一个Java的网络爬虫。爬虫访问网站，使用JDBC访问/存储数据库中的数据，还将文件存储在本地或云存储上。作为爬行的一部分，我想记录爬虫使用的确切细节-- 参数，如-- Number of sites visited (HTTP+HTTPS) Number of bytes of data received over one run of the crawler Number of bytes of data sent over one run of the crawler Number of rows updated/inserted/deleted/selected via

浏览 1提问于2012-06-28得票数 0

回答已采纳

1回答

S3上连续到达数据的AWS增量爬行

、、、、

我正在寻找一种为S3数据设置增量Glue爬虫的方法，其中数据连续到达并按捕获日期进行分区(因此包含路径中的S3路径包含日期=yyyy)。我担心的是，如果我在一天内运行这个爬虫，它的分区将被创建，并且不会在后续的爬行中被重新访问。是否有一种方法可以强制某个给定的分区(我知道该分区可能仍在接收更新)，在逐步运行爬虫时进行爬行，而不将资源浪费在历史数据上？

浏览 3提问于2021-06-07得票数 0

回答已采纳

1回答

使用实体框架C#限制到数据库的连接

、、、、

我有一个Azure数据库，它仅限于60个并发连接。我的问题是，我有几个爬虫填充这个数据库，以供我们的网站使用实体框架。很快，多个爬虫就会耗尽所有的连接和错误。我尝试在连接字符串中设置最大池大小值，但这似乎没有对实际的数据库连接强制执行任何限制。我可以将DbContext封装在一个单例中，但这样我就会将整个爬虫限制在一个连接上。还有其他方法来实现这一点吗？

浏览 2提问于2016-08-03得票数 5

回答已采纳

1回答

用Scrapy爬行多个页面

、、、

目标使用Scrapy和Python制作两级深度web爬虫。问题该网站是在一个结构，在1页，有大约10个项目，爬虫是跟随链接和提取正确的数据。问题是这个结构对于10页是递归的，但是这些最后的页面的链接是更改的，并且是指向home1的，但是指向home2的。对于第2页到第10页，我们希望爬虫执行相同的例程，因为爬虫所尊重的模式对于这些页面是递归重复的。网站结构 ->website.com --> /home1 ---> /page/2 --> /home2/doc/item 我可以使用下一个爬虫访问第一

浏览 2提问于2017-07-17得票数 0