Scrapy ::attr(href)返回#

文章/答案/技术大牛

发布

0回答

、

我是使用scrapy 1.4和python的新计时器...仅返回['#'] 原始链接为：<a class="link_pagination next" id="pagination-next" title="Next Page" href="/directory

浏览 10提问于2017-11-28得票数 2

1回答

为什么选择器循环中的xpath仍然返回本教程中的列表

、

import scrapy name = "dmoz" print title, link, descimport scrapyclass DmozSpider(scrapy.Spider):

浏览 1提问于2016-02-26得票数 5

回答已采纳

2回答

不需要下一个链接的抓取解析分页

、、

html是belove： <ul> <a href="//www.demopage.compage=4" class="page-4 active">4</a> <li>

浏览 2提问于2020-08-04得票数 1

回答已采纳

1回答

如何通过链接爬行到我需要的ifnormation

、

import scrapy name = 'automatic' yield response.follow(href, self.parse_link) #

浏览 15提问于2019-06-11得票数 1

回答已采纳

1回答

刮除蜘蛛没有跟随到另一个页面的链接

、

在此之后，我希望scrapy返回到主页，并在该页面上的其余19个列表中重复这个过程。): phonenumber = scrapy.Field() item['website'] = business.css(&

浏览 0提问于2018-03-08得票数 0

回答已采纳

1回答

Scrapy - TypeError：'Request‘对象不可迭代

、

我试图迭代传递给scrapy请求的回调的URL返回列表，但是我得到了以下错误：下面的工作。{ 'url': genre.css('::attr(href)').extract_fir

浏览 4提问于2017-07-30得票数 1

回答已采纳

3回答

抓取:嵌套的url数据抓取

、、

我想得到每个产品的网址和废弃的data.For，我写这样…from scrapy.item import Item, Field producturl=Field() description=Field()import scrapy

浏览 0提问于2017-02-15得票数 0

1回答

在加入克沃德和第二步后，刮伤停止工作。

、、、

(href)').get() url == quote.css('li.rp-np9kb1 a::attr(href)').get(), PAGETEST = response.css('a.rp-mmikj9::attr

浏览 4提问于2022-06-24得票数 2

回答已采纳

3回答

在Scrapy中使用css选择器获取href

、、

我想要获取href值： <a href="https://www.example.com"></a>我试过这个： Link = Link1如何获取href中的链接

浏览 4提问于2014-01-17得票数 46

回答已采纳

1回答

让Scrapy跟踪链接并收集数据

、、、

我正在尝试用Scrapy编写程序来打开链接并从这个标签收集数据：<p class="attrgroup"></p>。我已经设法让Scrapy从给定的URL收集所有链接，但不遵循它们。

浏览 0提问于2015-05-10得票数 16

回答已采纳

1回答

抓取时不处理所有页面

、、、、

有些页面返回所有页面，而另一些页面只返回23或180页(每个URL的结果不同)。"]::attr(href)').extract(), if next_page_url is not None:

浏览 3提问于2017-04-07得票数 1

1回答

Python scrapy不会深入

、

我使用的是Python2.7和Scrapy 1.0.4。下面的抓取在Shell中逐个测试并运行。然而，当我把它们放在一起时，似乎Scrapy在第一关之后不会更深入。import scrapy name = "trb"start_urlsin response.css('a.volLink::attr("href

浏览 1提问于2016-01-30得票数 1

1回答

刮擦不收集数据

、、、

我使用scrapy从craiglist收集一些电子邮件，当我运行它时，它会返回.csv文件中的空白行。我能够提取标题，标签和链接。只有电子邮件才是问题。= scrapy.Field() title = scrapy.Field() def parse(self, resp

浏览 1提问于2015-06-19得票数 1

回答已采纳

0回答

如何使用scrapy从主脚本中获取抓取的项目？

、

我希望在主脚本中获得一个抓取的项目列表，而不是使用scrapy shell。我找到了很多关于这方面的帖子，但我不明白他们在说什么。作为背景，我在这里放了正式的示例代码 class DmozSpider(scrapy.Spid

浏览 3提问于2016-07-04得票数 8

1回答

scrapy脚本在shell中运行良好，但在crawler上不起作用

、、、

但当我把它放在scrapy中时，它完全疯了，什么也没有显示。脚本应该写入在json文件中生成的内容，但该文件只是声明为空或由空逗号填充。导入scrapy class SgbdSpider(scrapy.Spider): "http://www.sante.gouv.sn= link.css("a::attr(href)").extract()

浏览 21提问于2021-03-20得票数 0

1回答

我正在尝试抓取Startup-印度网站

、、

我知道这不是一个错误，但我不明白如何抓取启动印度网站，我试图点击一些网站在启动印度，但我不能点击他们，因为scrapy不能点击网站，无论我有什么信息都只能通过按那个链接来抓取。import scrapyimport os name1]') next.click() # get the d

浏览 14提问于2020-01-16得票数 1

2回答

该链接是div中的href链接。我的简陋代码是 response.css("div.col-xs-6 col-sm-4 col-mgbtm a::attr(href)").extract() 但这是行不通的。我甚至尝试过使用xpath response.xpath("//div[@class='col-xs-6 col-sm-4 col-mgbtm']/a/@href").extract() 但这也不起作用

浏览 20提问于2019-12-15得票数 1

回答已采纳

2回答

抓取下一页的抓取循环

、、、

import scrapy from scrapy import* print("test") url = response.xpath("href").ex

浏览 27提问于2021-03-31得票数 0

回答已采纳

1回答

为什么不调用这个函数呢？

、、、

如果search_prod变量为空，则需要返回一步。所以总的来说，这是可能的吗？我的错误在哪里？/@href").get()) for i in search_prod: cb_k

浏览 7提问于2021-10-14得票数 0

2回答

使用scrapy提取特定数据时出错

、

来往" data-pn="com.alibaba.android.babylon" class="install-btn " rel="nofollow" style="display:block;" href/download" download="来往.apk" data-track="taginfo-ndownload-com.alibaba.android.babylon">下载</a> 我想

浏览 2提问于2014-03-21得票数 0

回答已采纳

点击加载更多