我需要使用抓取一个页面的所有内部网页链接抓取,以便所有的链接,例如,www.stackovflow.com是爬行。这种代码类型的工作如下:
extractor = LinkExtractor(allow_domains=self.getBase(self.startDomain))
for link in extractor.extract_links(response):
self.registerUrl(link.url)
但是,存在一个小问题,所有相关路径(如/meta或/questions/ask )都不会被爬行,因为该路径不包含基本域stackover