使用Scrapy遍历链接

、

关于Scrapy我有个奇怪的问题。我遵循了遍历链接的教程，但由于某种原因，什么都没有发生。import scrapyfrom scrapy.linkextractors import LinkExtractorfrom bs4 import BeautifulSoupfrom time import strftime class Covid_Crawle

浏览 37提问于2020-12-14得票数 1

回答已采纳

1回答

Scrapy遍历所有链接

、

我正在使用scrapy抓取我的整个页面。不知何故，正则表达式是错误的。titles.xpath("a/@href").extract() return(items) 我想解析<li>中的所有链接

浏览 0提问于2016-04-18得票数 0

1回答

如何让Scrapy只抓取Xpath中的链接？

、、

我是Scrapy的新手，我想做的是做一个爬虫，它只会跟踪给定start_urls上的HTML元素中的链接我不想抓取URL中的所有链接，而是只想抓取xpath中的链接 from scrapy.selector importH

浏览 0提问于2012-12-25得票数 6

回答已采纳

1回答

通过相同的Urls执行Python Scrapy循环

、、、、

我试图使用scrapy来浏览几个不同的urls，但问题是我不想再看一遍。我想要能够循环通过相同的网址“永远”。下面的代码是我到目前为止所掌握的，但是它不起作用，我也不知道为什么。for word in words: yield scrapy.Request(url=url, callback=self.parse)假设我有两个<e

浏览 1提问于2021-12-28得票数 0

回答已采纳

1回答

使用Python Scrapy遍历站点

、

如何使用Scrapy遍历站点？我想提取与http://www.saylor.org/site/syllabus.php?cid=NUMBER匹配的所有站点的正文，其中数字从1到400左右。我写了这个蜘蛛：from scrapy.contrib.linkextractors.sgmlimport SgmlLinkExtractor from scrapy

浏览 0提问于2012-12-29得票数 10

2回答

提取所有分页链接到有刮痕的网页？

、、

import scrapy name = 'quotes' next_page_url = response.urljoin(next_page_url) yield scrapy.Request(url=next_page_url, callback=self.pa

浏览 8提问于2017-12-11得票数 1

回答已采纳

2回答

Scrapy‘知道’什么时候它爬行了整个网站？

、、、

当我在一个网站的单个页面上爬行时，我已经成功地使用了“美丽汤”，但是我有一个新的项目，在这个项目中，我必须检查一个大的网站列表，看看它们是否包含一个提到或链接到我的网站。

浏览 0提问于2017-09-12得票数 1

回答已采纳

1回答

使用css时，Scrapy返回空列表

我获得了所有的项目链接(存储在本地mongodb db中)，现在正在遍历它们，下面是一个示例链接https://www.nordstrom.ca/s/leith-ruched-body-con-tank-dressdiv._26GPU").css("div::text").extract() yield items 我也尝试过scrapy我也在<em

浏览 23提问于2020-05-02得票数 0

1回答

如何从这个XPath获取链接文本？

、、

使用Python库Scrapy，我执行以下操作：从那里，我想获得每个返回项目的单独链接+文本： response.xpath('//div[@class="title-and-desc"]/a'

浏览 1提问于2016-11-28得票数 0

2回答

使用Scrapy迭代footballdb上的Boxscore链接

、

我需要使用scrapy遍历所有的boxscore链接，然后从每个boxscore中提取通过表、冲刺表和接收表，以创建一个数据集。主要问题是我的代码在运行时不返回任何内容。import scrapyfrom scrapy.spiders import CrawlSpider,需要帮助清理它，以便它只提取文本，并只去到boxscore链接。谢谢你的帮助。

浏览 24提问于2020-12-29得票数 1

回答已采纳

2回答

使用Scrapy抓取递归页面数据

、、

我正在尝试使用python和Scrapy从中抓取商店位置数据。我已经设法抓取了单个页面，但我想将其设置为遍历链接末尾的1000个递归id的列表。任何帮助都将不胜感激。免责声明:我不知道我在做什么from scrapy.selector import HtmlXPathSelector from

浏览 0提问于2014-02-13得票数 0

1回答

我对scrapy框架是个新手。他们有一个很棒的文档，我在里面学到了各种东西。到目前为止，我的代码如下：from scrapy.selector import HtmlXPathSelector from我想导入csv文件并遍历每个URL。我该怎么做呢？如果他们有cs部门，这些链接应该写在csv文件中。如何修改我的XPath以在每个网站中找到cse部门(尝试在该页面上抓取的链接中找到cse或计算机或单词列表)，以

浏览 2提问于2012-11-08得票数 0

1回答

刮痕不停地爬行，永不停止.CrawlSpider规则

、、

我对python和scrapy非常陌生，我决定尝试建造一只蜘蛛，而不是仅仅害怕新的/具有挑战性的语言。这是第一只蜘蛛，它的目的是：from scrapy<

浏览 1提问于2020-07-04得票数 1

回答已采纳

1回答

如何让scrapy使用url遍历归档文件？

、、

我正在尝试让一个抓取蜘蛛抓取归档中的几个页面，目的是打开每个单独的链接并抓取链接页面的内容。解析函数的第一部分使用parse_art函数遍历归档页面中的href，以获取要抓取的页面。第二部分是在归档中查找下一页，并一直跟踪到该页以继续爬行。我试图将程序更改为遍历初始URL，但似乎无法正确执行。任何帮助都将不胜感激。url_number = 1 class SpiderOne(scrapy<

浏览 18提问于2019-07-08得票数 1

回答已采纳

2回答

如何在csv中删除抓取数据之间的空格？

、、、

这是我的链接提取器。它遍历链接并将其保存在csv文件中，但值之间有空格，即如果在第1行保存了一个值，则在第3行将第2行保存为空。我可以将其从excel中删除，但当有大量数据时，excel会挂起。它创造了我的问题，当我试图加载链接到抓取它的数据。如何以不留空格的方式保存数据？谢谢。import scrapy name = 'dummyspider' allowed_domains =

浏览 74提问于2018-08-20得票数 0

1回答

Scrapy无法解析链接

、、、

无法正确收集链接。保持从页面获取部分链接。如何让我的解析器工作？import scrapy name = 'globaldriveru' #yield scrapy.Request&#x

浏览 20提问于2019-04-29得票数 1

回答已采纳

1回答

抓取多个域和起始urls

、、、

大多数人建议为每个站点编写不同的爬行器，但考虑到我所请求的信息是如此简单，我认为弄清楚如何遍历一系列域是有意义的。最终将有数以千计的域名，我想从那里获得链接，所有都有非常不同的结构，所以我希望蜘蛛规模。下面是爬虫从csv中提取域名的几行代码：这是我最近的尝试：from scrapy.spiders import CrawlSpider, Rulefrom NONPROF

浏览 12提问于2018-09-01得票数 1

1回答

如何使用javascript抓取在弹出窗口中呈现的内容:使用scrapy的链接

、、、、

我正在尝试使用scrapy只在单击javascript: link之后才能呈现内容。由于这些链接似乎没有遵循系统的编号方案，我不知道如何2-激活(现在可见) javascript:链接，以便呈现弹出窗口，以便可以抓取其内容(摘要)我没有处理这个bug，而是转向了scrapy，才意识到我已经超出了我的能力范围。我读过：但我不认为我能把这些点联系起来。我也看到有人提到了硒，但我不确定我是否必须求助于此。如何使用

浏览 0提问于2014-05-24得票数 2

1回答

刮擦-等待页面加载的飞溅

、、、

基本上，SplashRequest和scrapy.Request似乎都会运行并产生结果。然后，我了解了LUA脚本作为这些请求的参数，并尝试了使用不同形式的wait()形式的LUA脚本，但看起来这些请求实际上从未运行过LUA脚本。它马上就完成了，我的HTMl选择器找不到我要找的东西。spider.pyimport scrapyfromscrapy_splash

浏览 0提问于2019-08-30得票数 0

回答已采纳

1回答

Scarpy outoput json

我正在努力让Scrapy只将“点击”输出到一个json文件。我是新手，所以如果只有一个我应该检查的链接，这可能会有帮助(我已经花了相当多的时间在谷歌上搜索，仍然在努力)，尽管代码更正技巧更受欢迎：)。我只想包括找到的链接，并输出他们没有域名到一个文件。"scrapy crawl quotes2 -o quotes.json")。在本例中，作为实验，我只想在URL中包含字符串"Jane“时返回URL (例如，/author/Jane-Austen)： import s

浏览 5提问于2018-08-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Scrapy遍历所有链接

如何让Scrapy只抓取Xpath中的链接？

通过相同的Urls执行Python Scrapy循环

使用Python Scrapy遍历站点

提取所有分页链接到有刮痕的网页？

Scrapy‘知道’什么时候它爬行了整个网站？

使用css时，Scrapy返回空列表

如何从这个XPath获取链接文本？

使用Scrapy迭代footballdb上的Boxscore链接

使用Scrapy抓取递归页面数据

使用scrapy抓取各种网站并找到特定的单词

刮痕不停地爬行，永不停止.CrawlSpider规则

如何让scrapy使用url遍历归档文件？

如何在csv中删除抓取数据之间的空格？

Scrapy无法解析链接

抓取多个域和起始urls

如何使用javascript抓取在弹出窗口中呈现的内容:使用scrapy的链接

刮擦-等待页面加载的飞溅

Scarpy outoput json

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐