我试图使用scrapy来浏览几个不同的urls,但问题是我不想再看一遍。我想要能够循环通过相同的网址“永远”。下面的代码是我到目前为止所掌握的,但是它不起作用,我也不知道为什么。for word in words: yield scrapy.Request(url=url, callback=self.parse)假设我有两个<e
如何使用Scrapy遍历站点?我想提取与http://www.saylor.org/site/syllabus.php?cid=NUMBER匹配的所有站点的正文,其中数字从1到400左右。我写了这个蜘蛛:from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor
from scrapy
我正在尝试让一个抓取蜘蛛抓取归档中的几个页面,目的是打开每个单独的链接并抓取链接页面的内容。解析函数的第一部分使用parse_art函数遍历归档页面中的href,以获取要抓取的页面。第二部分是在归档中查找下一页,并一直跟踪到该页以继续爬行。我试图将程序更改为遍历初始URL,但似乎无法正确执行。任何帮助都将不胜感激。url_number = 1
class SpiderOne(scrapy<