粗糙的Python response.css循环

文章/答案/技术大牛

发布

1回答

、、

我正在尝试循环这个网站上的每一个报价： args={'wait': 5.0} for item in response.cssMarina Holiday Village', 'Semeli

浏览 14提问于2018-08-23得票数 1

回答已采纳

1回答

我有一个urls列表，我将它们作为start_urls导入到一个粗糙的项目中。我想在输出中添加生成这些结果的查询(url)。例如，如果我有"First title results“、"Address”等->生成此输出的URL。这是我的代码 import scrapy class GmapsclosedlocationsSpider(scrapy.Spider):' : response.css(&

浏览 28提问于2021-11-01得票数 0

回答已采纳

3回答

是否从集合元素中删除unicode字符？

、、、

python新手。我正在写一个刮板，它产生了一组值，这些值都有unicode字符。

浏览 0提问于2017-08-10得票数 0

1回答

包含几个绝对urls“urljoin”的列表

、

我想下载所有的文件从第一篇文章，几个论坛主题的一个特定的。我已经设置了自己的文件管道，用于获取项目file_url、file_name和source(主题名称)，以便将它们保存到文件夹.但是，文件链接是相对的，我需要使用绝对路径。我尝试了response.urljoin，它给了我一个绝对url的string，但是只给出了帖子的最后一个文件。start_urls = [base_url + subforum_url]

浏览 11提问于2019-10-31得票数 0

回答已采纳

2回答

如何在scrapy中从后面的函数中获取数据

、、、

我在构建我想要的粗糙数据时遇到了麻烦。我的爬行器从一个页面获取一些数据，然后沿着该页面上的链接列表获取下一个页面的链接。def parse_page(self, response): links = response.css(LINK_SELECTOR).extract() 'name': response.css(NAME_SELECTOR).extract_first(),

浏览 63提问于2020-11-03得票数 1

回答已采纳

1回答

抓取项只保存循环中的最后一个元素。

、

我从爬行网站得到的结果，我想把它保存到数据库。我使用刮除物品和管道。def parse(self, response): total_results = response.css('.cl-filters-summary-counterreference_url'] = item[1] car['data

浏览 5提问于2018-06-07得票数 0

回答已采纳

1回答

如何在html脚本中从href获取嵌入式http - scrapy

、、

我想从这个html脚本中获得嵌入的http链接。我是的一个粗糙的外壳，那么如果我使用response.css(‘p.mb-0a：：attr(Href)’).get()，我只会得到'/architectbath/menus/‘，而不是如图所示的完整http不幸的是，我不能仅仅把这个添加到我已经拥有的url中。

浏览 2提问于2022-10-28得票数 0

2回答

Scrapy Page不重定向

、、

我正在尝试抓取MercadoLibre的产品列表。我使用的是Scrapy 1.5.0。当Scrapy尝试转到下一页时，它会循环第一页和第二页。代码# Scrapy 1.5.0 from scrapy.http import Request def parse(self, respon

浏览 10提问于2018-10-11得票数 0

1回答

无法使用Scrapy获取响应

、、

我是scrapy的新手，我正在尝试从一个网站获取一个列出名字的简单csv文件。在一个粗糙的shell中，它似乎可以工作，但使用爬行器没有任何响应。我使用的是以下代码：name = "jupiter"

浏览 11提问于2017-08-06得票数 0

回答已采纳

1回答

刮除-每个星形单独的输出文件

、、、、

我有一只皮肤粗糙的蜘蛛运行良好：import scrapy urls = response.cssurl=url,callback=self.parse_detai

浏览 0提问于2017-11-18得票数 3

1回答

为什么选择器循环中的xpath仍然返回本教程中的列表

、

我发现，尽管它已经在选择器列表中循环，但我从sel.xpath('a/text()').extract()获得的平铺仍然是一个列表，其中包含一个字符串。比如[u'Python 3 Object Oriented Programming']而不是u'Python 3 Object Oriented Programming'。在后面的示例中，将列表分配给作为item['title'] = sel.xpath('a/te

浏览 1提问于2016-02-26得票数 5

回答已采纳

1回答

用Scrapy提取问题

、、

p=1&q=React+Django&type=Users response.css(".mr-1::text").get() response.css(".mb-1::text").get() response.css("#user_search_results .mr-3:nth-child(1)::text").get()# Email response.css(&

浏览 3提问于2021-07-10得票数 1

回答已采纳

1回答

Scrapy输出空的JSON / CSV文件

、

我对scrapy和python非常陌生，真的需要一些帮助。我已经让这段代码在命令行中工作了。我可以看到它在浏览不同的页面时提取了所有正确的信息。我的问题是，当我试图将脚本的输出保存到一个文件中时，它是空的。我已经在这里看了很多其他问题，但找不到任何有帮助的东西。('div'): title: (response.css('title::text')

浏览 49提问于2020-04-30得票数 0

回答已采纳

2回答

如何在抓取数据时遍历同级标记

、、

我试图使用python框架从中抓取编辑器数据。response.css("#editors-section>div.row.align-items-center")但是如何收集各自的roles.How来循环遍历所有的标记。

浏览 14提问于2022-09-02得票数 1

回答已采纳

3回答

数据抓取:如何使用Scrapy从样式标记中选择宽度？

、、、

我试图通过使用width从div中选择CSS Selector，但这对我来说是不可能的。我尽力寻找解决方案，但每次我都喜欢用xpath而不是css选择器解决方案。class="stars" style="width: 60.606%"> Rating</div>在通过width获得response之后，我尝试从上面的html中选择html： response.css('.stars-container .stars ::attr(width)&

浏览 4提问于2017-10-23得票数 2

1回答

刮擦属性错误:类型对象没有属性get

、、

我一直在处理一个在shell中运行它时使用的刮取脚本，但是当我设置从python运行它时，我会得到这个错误。(错误第一，代码第二)。错误： it

浏览 3提问于2022-01-17得票数 0

1回答

如何获取id对应的值

、、、

我想要获取"id“和它在锚标签中的相应值。import HtmlResponse item = {} item['value'] = x.css('a.tim::text').extract

浏览 0提问于2017-09-19得票数 1

1回答

通过刮除管道组织项目

、

(这个部分是可以的)，并通过条目和管道来解析结果。下面是解析函数的代码： item = ScrapybotItem() price_list = response.css("li.lvprice.prc span::text").extract() item[&#x

浏览 1提问于2018-11-06得票数 0

回答已采纳

1回答

Python和Scrapy - Scraper不返回结果。

、、

您好，并感谢您在此问题上的任何帮助，我有。我从来没有张贴过编码帮助，我是非常新的编程。自学成才的老家伙，他试图学习一些新的东西，也许建立一些东西来拯救世界(或者只是建立一些东西。)：) 我已经抓取了启动，当我运行我的终端命令“抓取爬行合作社”，我总是得到调试:爬行(200)，没有看到任何“找到的细节：”入口。我能够运行刮擦外壳"“，并手动获得结果的外壳。当我尝试向.jl或.js文件屈服时，它们也是空的。(我用刮伤教程的引号把

浏览 1提问于2020-04-29得票数 1

回答已采纳

1回答

遍历字典: TypeError:列表索引必须是整数或片，而不是str

、、

我是Python的新手，试图用Scrapy构建一个web刮刀，结果我得到了很多非打印和空白。我正在尝试使用for循环迭代字典，其中的值是列表，然后运行.strip()方法来消除所有非打印字符。('.jobtitle::text').extract() company = response.css('span.company::text').extract()location = response.css('.locatio

浏览 1提问于2020-03-31得票数 0

回答已采纳

点击加载更多