从scrapy中的多个类获取文本

在Scrapy框架中，如果你需要从多个类中提取文本数据，通常会涉及到使用XPath或CSS选择器来定位这些元素。以下是一些基础概念和相关步骤，以及如何解决可能遇到的问题。

基础概念

Scrapy: 一个用于网络爬虫的开源Python框架。
XPath: 一种在XML文档中查找信息的语言，也适用于HTML文档。
CSS选择器: 用于选择HTML元素的样式表语言的一部分。

提取文本的步骤

创建Spider: 在Scrapy中，你需要创建一个或多个Spider来定义如何抓取网站。
使用XPath或CSS选择器: 在Spider的parse方法中，使用这些选择器来定位和提取所需的数据。
处理数据: 提取后，可以对数据进行清洗和处理。

示例代码

假设我们有一个网页，其中有两个不同的类.class1和.class2，我们想从这两个类中提取文本。

import scrapy

class MySpider(scrapy.Spider):
    name = 'myspider'
    start_urls = ['http://example.com']

    def parse(self, response):
        # 使用XPath选择器提取.class1中的文本
        texts_from_class1 = response.xpath('//div[@class="class1"]//text()').getall()
        
        # 使用CSS选择器提取.class2中的文本
        texts_from_class2 = response.css('.class2::text').getall()
        
        # 合并两个列表中的文本
        all_texts = texts_from_class1 + texts_from_class2
        
        # 输出或进一步处理文本
        for text in all_texts:
            self.log(f'Extracted text: {text}')

可能遇到的问题及解决方法

选择器不匹配: 如果你的选择器没有正确匹配到元素，可能是因为类名错误或者HTML结构变化。
- 解决方法: 使用浏览器的开发者工具检查实际的HTML结构，并相应地调整选择器。

提取到多余的空格或换行符: 文本提取可能包含不必要的空白字符。
- 解决方法: 使用Python的strip()方法去除每段文本的前后空白。

cleaned_texts = [text.strip() for text in all_texts if text.strip()]

异步加载内容: 如果页面内容是通过JavaScript异步加载的，Scrapy默认不会执行JavaScript。
- 解决方法: 使用像Splash这样的工具来渲染JavaScript，或者分析AJAX请求并直接抓取数据。

应用场景

数据挖掘: 从多个网站收集特定信息。
监控: 定期检查网站内容的变化。
自动化测试: 验证网页内容的正确性。

通过以上步骤和方法，你可以有效地从Scrapy中的多个类获取文本数据，并处理可能出现的各种问题。

从scrapy中的多个类获取文本

、、

我使用下面的代码 name = "kamusset_spider"有什么问题吗？如何解决？我把我的代码改成了这样： for kamusset in response.css("

浏览 7提问于2017-07-06得票数 3

2回答

从具有多个元素的类中获取文本

、、

我正在尝试从以下元素中获取文本： <h1 class="entry-title single-title typesquare_option" itemprop="headline" rel="bookmark">Target Text Here</h1> 但我不知道如何告诉scrapy“从H1获取文本，但跳过itemprop和rel元素”。'>

浏览 65提问于2021-11-06得票数 -1

回答已采纳

3回答

如何从产量中得到结果并保存到文件中？

、、

我正在练习使用Scrapy网络爬虫包，并有一个2部分的问题，因为我有点挣扎，不知道下一步该做什么：从scrapy导入cmdline类TCSpider(scrapy.Spider)导入scrapy : name = "techcrunch“def start_requests(self)：urls =”url中的url:TCS

浏览 4提问于2020-06-04得票数 1

回答已采纳

1回答

在scrapy中从html获取多个类。

、、

我有这样的html我试图在python中获得如下内容中的所有文本，但完全失去了它的工作方式

浏览 2提问于2020-06-16得票数 0

回答已采纳

1回答

如何利用刮擦获得工作描述？

、、

我希望使用scrapy从页面email、name of the person making the offer和phone中获取https://www.germanystartupjobs.com/job正如您所看到的，电子邮件和电话是在<p>标签中作为文本提供的，因此很难提取。我的想法是首先在Job Overview中获取文本，或者至少在

浏览 5提问于2016-12-16得票数 1

回答已采纳

2回答

使用Python从web文章中查找结构

我正在寻找一些Python工具，可以帮助我确定从文章网站，如的内容结构。我使用样板移除库- Boilerpipe来清除网页中不需要的东西(横幅、链接、图片等)。问题是，我不会只在透明的文章页面上使用它，它的大多数信息都在<title>Title</title>这样的超文本标记中。我希望能够通过像<div>28.11.2011<p>John Cusack on Syria con

浏览 1提问于2013-02-28得票数 0

回答已采纳

1回答

抓取大容量插入

、

我有一个爬虫，从多个网站获取数据，并更新到mysql表的信息。我使用scrapy编写的crawler.The爬虫将插入/更新大量的列。是否可以批量插入/更新scrapy中的项目？

浏览 0提问于2015-02-07得票数 0

1回答

关于XPath选择器的问题(用于Scrapy)

、、、

目的:从div类list_area daily_all中抓取文本数据。使用scrapy shell，我首先“抓取”了我想要抓取数据的网站：https://comic.naver.com/webtoon/weekday.nhn 使用'scrapy shell‘脚本：scrapyshell 'https://comic.naver.com/webtoon/w

浏览 18提问于2019-06-10得票数 2

1回答

使用类查找锚标记内的文本的Xpath

、、

我正在使用scrapy并尝试使用xpath提取锚标记中的文本。例如，锚标记有一个名为test的类。示例：这就是我目前所拥有的：//a[@class="test"]/ 我如何使用锚标签和类来获取这里的文本？

浏览 0提问于2018-01-22得票数 0

2回答

如何使用Scrapy循环浏览网站的多个页面

、、、

我一直在为我的刮刮项目与BeautifulSoup合作。现在我在学刮子。我用BeautifulSoup编写了一段代码，在一个使用for循环的网站的多个页面上循环。我使用下面的代码循环了10多个页面，并从这些页面中获取了博客文章的URL。我也想在Scrapy做同样的事，但不知道怎么做。同样的方法(代码)可以和scrapy一起使用来做同样的事情吗？href=re.co

浏览 6提问于2021-12-07得票数 1

回答已采纳

1回答

使用XPATH刮取属性值？

、、、

我试图从以下源代码片段中提取url：from scrapy.spider import BaseSpiderK

浏览 2提问于2017-06-25得票数 1

回答已采纳

1回答

Scrapy脚本没有将设置传递给爬行器

、、

我试图通过一个脚本运行一个scrapy，但我认为get_project_settings()并没有指向我的settings.py，不管它们是在同一个目录中。由于某些原因，当我在VSCODE中选择“运行代码”而不是“在终端中运行”时，它有时会起作用。import CrawlerProcess from spiders.amazon_spider作为活动状态运行时，我的流水线不会显

浏览 16提问于2021-08-03得票数 0

1回答

运行刮除蜘蛛的多个进程

、

我有一个Scrapy项目，它从数据库中读取100万个产品ID，然后根据一个网站的ID开始刮取产品详细信息。我想运行10个Spider实例，每个实例分配相同数量的产品ID。我可以这样做，SELECT * FROM product_ids LIMIT 0, N等等我有一个想法，我可以在终端中通过在刮擦命令中传递LIMIT，比如scrapy</em

浏览 0提问于2016-10-13得票数 1

2回答

如何抓取多个网站并用纯文本创建文本文件

、、

我开始了一个新项目，并且我还是个新手，正在使用python scrapy。我试着抓取多个网站，并从中获取纯文本。之后，我想用原始文本创建一个文本文件。 allowed_domai

浏览 0提问于2016-08-22得票数 0

1回答

Scrapy并不能获取所有内容。

我必须从获取客户评论。我知道我可以用Scrapy，但我没有相当的经验爬行，我没有使用它。所以，我是新学刮子的。我在壳上运行Scrapy。虽然我可以访问""，但无法获取评论文本内容。

浏览 5提问于2022-01-04得票数 0

1回答

如何记录Scrapy设置？

、、

Scrapy从多个来源获取它的设置--环境参数、配置文件、编程设置--所以我想记录有效的设置，看看它得到了什么。我该怎么做？我会简单地迭代Scrapy的Settings对象中的键和值，但是它不会像人们所期望的那样公开一个dict的完整接口。

浏览 4提问于2016-01-24得票数 0

回答已采纳

1回答

xpath:如何使用父元素

、、

因为网站的结构不是固定的。我的想法是首先知道p.title/text()包含“位置”然后找到<p><span class="add

浏览 2提问于2014-08-06得票数 1

回答已采纳

9回答

BeautifulSoup和Scrapy* crawler有什么区别？*

、、、

我想做一个网站，显示亚马逊和易趣产品价格的比较。其中哪一个会工作得更好?为什么？我对BeautifulSoup比较熟悉，但对Scrapy crawler不太熟悉。

浏览 323提问于2013-10-30得票数 146

回答已采纳

3回答

尝试使用Scrapy从表中提取数据

、、

我在Vista64位上使用的是Python.org 2.7版本。我有目前的Scrapy代码，现在可以很好地提取文本，但我有点卡住了，因为我不知道如何从网站的表格中获取数据。举个例子，我想获取下表中包含的韦恩·鲁尼的得分统计数据：from scrapy.spider import Spider from

浏览 0提问于2014-07-13得票数 1

1回答

刮取非包装数据

、、、

我试图提取特定的价格数据与刮刮，但价格没有包装在一个标签。"".join(response.xpath("//section[@class='order order--new order--left']//div[@class='spec

浏览 5提问于2017-02-02得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从scrapy中的多个类获取文本

基础概念

提取文本的步骤

示例代码

可能遇到的问题及解决方法

应用场景

相关·内容

从scrapy中的多个类获取文本

从具有多个元素的类中获取文本

如何从产量中得到结果并保存到文件中？

在scrapy中从html获取多个类。

如何利用刮擦获得工作描述？

使用Python从web文章中查找结构

抓取大容量插入

关于XPath选择器的问题(用于Scrapy)

使用类查找锚标记内的文本的Xpath

如何使用Scrapy循环浏览网站的多个页面

使用XPATH刮取属性值？

Scrapy脚本没有将设置传递给爬行器

运行刮除蜘蛛的多个进程

如何抓取多个网站并用纯文本创建文本文件

Scrapy并不能获取所有内容。

如何记录Scrapy设置？

xpath:如何使用父元素

BeautifulSoup和Scrapy* crawler有什么区别？*

尝试使用Scrapy从表中提取数据

刮取非包装数据

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐