php蜘蛛爬行记录 - 腾讯云开发者社区

、、、、

我有一个刮擦的脚本，它将运行多个蜘蛛。我想从PHP/HTML代码中爬行单个蜘蛛或运行多个蜘蛛脚本。这有可能吗？如果是这样的话，是怎么做的？

浏览 2提问于2015-11-22得票数 0

回答已采纳

1回答

如何防止Scrapy爬行“拒绝”页面

、、

我正在尝试爬行一个域的所有页面，除了那些从/go.php开始的页面，但是我不知道如何让Scrapy理解它。我尝试过这个规则(这是我的CrawlSpider中定义的唯一规则)，但是它仍然爬行像domain.tld/go.php?key=value这样的URL。.*' '\\/go\\.php(.*)', '

浏览 3提问于2014-01-11得票数 0

1回答

htaccess选项-Indexes会防止蜘蛛和搜索引擎在目录中爬行文件吗？

、

设置带有-Indexes选项的htaccess文件会防止蜘蛛和搜索引擎爬行这些目录中的文件吗？仅仅在目录中有一个index.html或index.php会阻止目录被爬行吗？

浏览 3提问于2018-02-11得票数 0

回答已采纳

3回答

普通浏览器中的用户代理是否包含“bot”或“爬行”？

普通浏览器中的用户代理是否包含“bot”或“爬行”？我检查我的网站上的用户代理，看看它是否来自一个机器人。如果是的话，我可以做一些小的优化，因为他们没有登录。所以我想知道它是只包含“机器人”还是“爬行”。我知道这不会得到所有的机器人，但它会得到很多。但如果这可能导致任何错误，那么它将完全混乱的能力，添加到购物车，下订单，并登录。

浏览 0提问于2010-10-11得票数 12

回答已采纳

3回答

为什么所有搜索引擎都收录就360不收呢？

做个了蜘蛛爬行记录一个360的都没。在他站长工具什么天极加了一倍的蜘蛛爬行可就是不行。难道360做小动作禁止了腾讯云的ip?不知道有没有遇到过？

浏览 579提问于2015-12-30

1回答

BaseSpider和CrawlSpider在一起

、

我想知道是否有一种方法同时使用基础蜘蛛以及爬行蜘蛛在同一蜘蛛在刮刮！假设我只想爬行start_url中提到的一个start_url，并对同一个start_url中提到的另一个页面使用爬行蜘蛛，那么我将如何在同一个程序中使用它们？

浏览 0提问于2014-02-04得票数 1

回答已采纳

1回答

问题是，我正在使用代理刮一个网站，所以网站将关闭一些我需要的信息，当我向网站请求后，一些计数。所以我要做的是，在没有登录+代理的情况下，尽可能多地抓取，但是经过一些抓取之后，我才知道这个站点不允许数据。所以现在我必须登录！(现在登录+代理)，所以在登录后我继续刮。现在的问题是，队列(Scheduler)中已经有一些URL没有登录就会被抓取(所以我想用登录获取那个URL，这样我就可以成功地抓取数据)。所以，，我想要空调度程序，它包括不需要登录的url .。1。我登录(成功)。3并将优先级1设置为登录URl1。重新加载所有排

浏览 1提问于2020-01-16得票数 0

1回答

Scrapy如何多次编写CSV文件

、、

我用抓取和python 2.7.9，我的蜘蛛可以正常地爬行数据。我该怎么做？我只能用“蜘蛛”来做吗？或者是在“管道”里？我的代码链接：

浏览 3提问于2015-03-13得票数 0

回答已采纳

2回答

蜘蛛只在站点地图中爬行urls吗？

、、、、

我在我的网站上有一些限制部分供蜘蛛爬行。或者我应该将下面的元标记添加到我想限制访问的页面中？

浏览 1提问于2014-10-29得票数 0

回答已采纳

1回答

如何生成由我的站点服务的所有有效URL的列表

、

这份名单是由另一个系的一所学院出于记录原因而要求的。如果不需要代码更改(因为它是生产站点)，而代码更改需要通过代码评审并要求发布，那么答案将特别有用，但是如果有必要的话，那么它就是必要的。

浏览 0提问于2014-03-14得票数 2

回答已采纳

1回答

共享访问访问的urls在多个蜘蛛之间的刮刮？

、、、

我正在使用scrapyd运行多个蜘蛛作为作业跨越同一领域。我以为scrapy有一个访问urls的哈希表，当它爬行时，它与其他蜘蛛共享和协调。当我创建同一蜘蛛的实例时 curl http://localhost:6800/schedule.json -d project=projectname -d spider=spidername.它只是爬行相同的urls，重复的数据正在被抓取。以前有人处理过类似的问题吗？

浏览 0提问于2014-04-13得票数 0

回答已采纳

1回答

将请求传递给不同的蜘蛛

、、

我正在开发一个使用两种不同蜘蛛的网络爬虫(使用scrapy)：将所有的功能移到蜘蛛1，

浏览 2提问于2017-08-09得票数 1

1回答

一只一只地跑多只蜘蛛

、、

我正在使用Scrapy框架让蜘蛛爬过一些网页。基本上，我想要的是刮网页并将它们保存到数据库中。我每个网页都有一只蜘蛛。但是我很难同时运行这些蜘蛛，以至于一只蜘蛛在另一只蜘蛛完成爬行后才开始爬行。

浏览 3提问于2014-02-11得票数 0

回答已采纳

2回答

抓取Django限制链接爬行

、、

首先，我应该说，我对刮擦和蜘蛛网站完全陌生。你能限制爬行的链接数量吗？我有一个网站，不使用分页，只是列出了很多链接(我爬行)在他们的主页。当我真的需要爬行前10个左右的时候，我感觉很糟糕爬行所有这些链接。如何同时运行多个蜘蛛？现在，我使用的是命令scrapy crawl example.com，但我还为example2.com和example3.com提供了蜘蛛。我想用一个命令来运行我所有的蜘蛛。这有可能吗？

浏览 2提问于2010-11-24得票数 6

1回答

网页爬行技术的信息

、

我正在构建一个小型的网络爬虫，我想知道是否有人对实际的实现有一些有趣的信息(只是爬行，没有搜索，没有排名，没有分类，只是爬行，亲吻:)。为了记录在案，我已经有了O‘’Reilly“蜘蛛黑客”和“无淀粉出版社”的“网络机器人、蜘蛛和屏幕刮刀”。这些书很好，但是它们倾向于保持简单，对于缩放、存储数据、并行的东西和其他更高级的主题不详细。

浏览 5提问于2009-05-18得票数 2

1回答