抓取爬行器只返回列表中的最后一项

、、

我正在构建一个抓取器来抓取一个页面，并从一个div中返回多个项目(h3 &p标签)。由于某些原因，当被调用时，抓取器将打印所有“name”字段，但只保存页面上最后一项的信息。下面是我的代码： import scrapy name = 'food' allowed_dom

浏览 32提问于2019-03-24得票数 0

回答已采纳

3回答

避免重复的URL爬行

我编写了一个简单的爬虫。在settings.py文件中，通过参考scrapy文档，我使用了如果我停止crawler并再次重新启动crawler，它将再次抓取重复的urls。

浏览 0提问于2013-07-16得票数 15

回答已采纳

2回答

Python Scrapy -如何同时从2个不同的网站抓取？

、

我需要从Excel中给出的域列表中抓取数据；问题是我需要从原始网站(让我们举个例子：)和从similartech ()抓取数据。我希望它们同时被抓取，这样我就可以接收它们，并在最后格式化它们一次，之后我将直接转到下一个域。理论上，我应该在scrapy中以异步方式使用2个爬行器？

浏览 2提问于2020-02-10得票数 1

1回答

我的网络爬行器只返回最后一句引号

、、、

我写了这个粗糙的网页抓取器来抓取this website上前10页的所有引文，在运行代码后，我发现只有一些页面的最后一个引文会返回给我。我需要建议，我如何才能让抓取蜘蛛返回所有页面上的所有引文。以下是我的代码 import scrapy start_urls=['https:/&#

浏览 9提问于2020-10-22得票数 0

回答已采纳

1回答

Scrapy，python:无法使用在firebug中看到的xpath提取数据

、、

我对网络抓取、刮擦和巨蟒相当陌生。我正试图从这个中抓取数据。我想提取页面页脚中给出的电子邮件id : info@bikramyogasg.com，并尝试使用两个x路径来提取刮伤蜘蛛中的电子邮件id：绝对: /html/body/div4/div/div/div

浏览 2提问于2015-07-06得票数 0

回答已采纳

2回答

Scrapy:在两个爬行器之间传递数据

、、

我需要创建一个蜘蛛，从网站抓取一些数据。数据的一部分是外部URL。向第二个爬行器传达start_url列表的推荐方式是什么？我的想法是为这些项生成一个js

浏览 1提问于2012-07-19得票数 1

回答已采纳

2回答

Nutch渐进式爬行

我是新来的纳奇，我正在做的POC与纳奇1.9。我只是想爬我自己的网站来建立一个搜索。我发现我做的第一次爬行只爬了一页。第二个爬行40页，第三个300页。增量减少，它总共爬行约400页。有谁知道为什么它不只是在网站的第一次运行的全部抓取？我使用了nutch教程()，并按照3.5节使用脚本运行。我也发现多次运行，它不会抓取整个网站无论如何- GSA为同一网站带回900多页，nutch带

浏览 4提问于2014-11-17得票数 0

回答已采纳

1回答

循环只返回列表中的最后一项。

、、、

当我运行这段代码时，我只得到从列表中下载的最后一个文件。大约有400多个链接要下载。我是不是遗漏了什么？

浏览 0提问于2017-10-26得票数 0

回答已采纳

1回答

根据通过python脚本传递给爬行器的URL列表运行scrapy spider

、、、

我从数据库中获得了1000个URL，以及2个字段，如name和id[{'name':'name1','id':'id1,'link':'myurl1'},

浏览 0提问于2015-11-09得票数 0

1回答

Scrapy如何保存爬网状态？

、

我能够保存我的抓取状态，并且Scrapy成功地从我切断的地方继续。每次重新启动爬行器时，我都保持start_urls不变，即每次重新启动爬行器时，提供的start_urls的顺序和列表都是恒定的。但我需要对我的start_urls做一个随机的洗牌，因为我有来自不同域的URL，以及来自相同域的URL，但由于它们是有序的</

浏览 0提问于2019-07-04得票数 0

1回答

如何将Scrapy管道中的批量更新写入mongodb

、、

我有一个基于Scrapy的连续运行的爬虫。这些请求可能会时不时地失败，我需要记录成功和失败。我目前正在制作一个关于成功的项目和一个关于失败的特殊ErrorItem。 write_to_mongo(success_query, {"$set":

浏览 0提问于2020-05-12得票数 0

2回答

在Python中设计多进程爬行器

、、

我正在用Python开发一个多进程爬行器。它应该开始抓取一个页面的链接，并从那里开始工作。具体地说，顶级页面包含类别列表、这些类别中的第二级页面事件以及事件中的最终第三级页面参与者。我有点困惑于如何最好地设计这样一个爬虫，尤其是如何知道它何时完成爬行(它应该继续爬行，直到它发现并检索到所有相关的页面)。理想情况下，第一次抓取应该是同步的，其他一切都是异步的

浏览 1提问于2009-11-24得票数 3

回答已采纳

1回答

Scrapy Spider分页提前结束

、

我正在为一个项目做一个抓取蜘蛛。我抓取的大多数网站都有一个带有列表页面的搜索页面的一般格式。我编写了一个爬行器来从搜索页面和列表页面中抓取每个列表的数据。然而，我遇到的问题是，在抓取时，我的爬行器将抓取所有的搜索页并排队等待抓取的列表页面，

浏览 36提问于2021-01-12得票数 2

1回答

在scrapy下载图像时获取钩子失败

、、

我的爬虫运行得很好，数据库里也有东西2012-12-20 09:25:23+0800 [working] DEBUG: Crawled (200) <GET http://www.example.com: [u'5710'], 'title': [u'test1']} 我已经在设置和IMage商店中

浏览 1提问于2012-12-19得票数 0

回答已采纳

1回答

从Django视图启动Scrapy

、、、

我对Scrapy的经验是有限的，每次我使用它，它总是通过终端的命令。我如何从django模板中获取表单数据(一个要被刮掉的url )来与scrapy通信，从而开始进行抓取？到目前为止，我只考虑从django的视图中获取表单的返回数据，然后尝试将表单数据的url添加到爬行器的spider.py中。从那里开始，我真的不知道如何触发实

浏览 1提问于2014-11-14得票数 11

回答已采纳

3回答

用不同的刮板抓取跟随链接

、

我正在用Scrapy抓取一个网页。我写了我的爬行器，它工作得很好，它抓取一个页面上的项目列表(让我们称它为主页)。在主页中，我考虑的每个项目都有一个链接，该链接指向详细项目页面(让我们这样叫它)，在那里可以找到关于每个项目的详细信息。现在我也想抓取细节页面，但蜘蛛会不同，在不同的地方会有不同的信息。是否可以告诉scrapy在特定位置查找链接，然后抓取那些链接到我

浏览 2提问于2013-09-16得票数 2

4回答

Googlebot要花多长时间才能抓取一个页面？

、、

Googlebot每天爬行一定数量的页面，这取决于站点的大小。但是，对于一个特定的页面需要多长时间。换句话说，在扫描到下一页之前，它在当前扫描页面上花费了多少秒或分钟。这有固定的时间吗？

浏览 0提问于2022-07-25得票数 2

2回答

抓取爬行器没有收集第一页数据，并且每页上的第一项可能也不正确

、

这个爬行器从Funny subreddit页面上拉出标题。我认为问题可能出在允许的url上，因为/funny主页与此不匹配。如果我在允许的列表中添加“/r/ from /”，它会变得疯狂，爬行太多。另外，不确定如何处理每一页的第一项错误(有时可能是前一页的最后一项。

浏览 0提问于2017-05-28得票数 0

1回答

删除带有scrapy的文件时出现winError 32权限错误

、、

我有一把破烂的蟒蛇刮刀。The process cannot access the file because it is being used by another process: 'file2.json' if os.path.exists(filename):我尝试了一些方法来解决这个问题，但没有帮助，第一个是在删除之前的代码os.chmod(filename, 0o777) 第二个是在删除之

浏览 12提问于2018-02-26得票数 0

3回答

在HBase中使用PHP和Mapreduce添加/查看/删除数据？

、、、

嗨，朋友们1)我可以使用Map reduce从网络获取数据吗 2)是否可以将拉取的数据保存到HBase？3)我可以用PHP写一个从HBase中获取数据的应用吗?如果可以，你能给我一个代码片段吗?我如何使用PHP从HBase中添加/查看/删除数据？

浏览 1提问于2010-11-14得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

避免重复的URL爬行

Python Scrapy -如何同时从2个不同的网站抓取？

我的网络爬行器只返回最后一句引号

Scrapy，python:无法使用在firebug中看到的xpath提取数据

Scrapy:在两个爬行器之间传递数据

Nutch渐进式爬行

循环只返回列表中的最后一项。

根据通过python脚本传递给爬行器的URL列表运行scrapy spider

Scrapy如何保存爬网状态？

如何将Scrapy管道中的批量更新写入mongodb

在Python中设计多进程爬行器

Scrapy Spider分页提前结束

在scrapy下载图像时获取钩子失败

从Django视图启动Scrapy

用不同的刮板抓取跟随链接

Googlebot要花多长时间才能抓取一个页面？

抓取爬行器没有收集第一页数据，并且每页上的第一项可能也不正确

删除带有scrapy的文件时出现winError 32权限错误

在HBase中使用PHP和Mapreduce添加/查看/删除数据？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐