scrapy编辑mysql数据库

Scrapy是一个基于Python的开源网络爬虫框架，用于快速、高效地从网页中提取所需数据。它提供了强大的数据提取功能和灵活的数据处理管道，可用于各种网络爬取任务。

MySQL是一种开源的关系型数据库管理系统（RDBMS），它提供了高效可靠的数据存储和查询功能。它广泛用于各种Web应用程序中，包括大型的企业级系统。

将Scrapy与MySQL集成，可以将爬取到的数据直接保存到MySQL数据库中，以便后续的数据分析、处理和展示。

具体实现步骤如下：

安装MySQL数据库并创建一个数据库和表，用于存储爬取到的数据。
在Scrapy项目中，创建一个数据处理管道（Pipeline）来连接MySQL数据库。
在数据处理管道中，编写代码将爬取到的数据存储到MySQL数据库中。

以下是一个简单示例：

安装MySQL数据库： MySQL官网：https://www.mysql.com/
创建数据库和表：可以使用MySQL的客户端工具（如MySQL Workbench）或命令行工具创建数据库和表。例如，创建一个名为"scrapy_db"的数据库和一个名为"items"的表，包含"title"和"url"两个字段。
在Scrapy项目中创建数据处理管道（pipeline）：在Scrapy项目的settings.py文件中添加以下代码：

ITEM_PIPELINES = {
    'your_project.pipelines.MySQLPipeline': 300,  # 设置优先级，数字越小优先级越高
}

MYSQL_HOST = 'localhost'  # MySQL主机
MYSQL_PORT = 3306  # MySQL端口
MYSQL_DATABASE = 'scrapy_db'  # 数据库名
MYSQL_USER = 'your_username'  # MySQL用户名
MYSQL_PASSWORD = 'your_password'  # MySQL密码

编写数据处理管道：在Scrapy项目中创建一个pipelines.py文件，编写以下代码：

import pymysql

class MySQLPipeline(object):
    def __init__(self, host, port, database, user, password):
        self.host = host
        self.port = port
        self.database = database
        self.user = user
        self.password = password

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            host=crawler.settings.get('MYSQL_HOST'),
            port=crawler.settings.get('MYSQL_PORT'),
            database=crawler.settings.get('MYSQL_DATABASE'),
            user=crawler.settings.get('MYSQL_USER'),
            password=crawler.settings.get('MYSQL_PASSWORD')
        )

    def open_spider(self, spider):
        self.db = pymysql.connect(
            host=self.host,
            port=self.port,
            database=self.database,
            user=self.user,
            password=self.password
        )
        self.cursor = self.db.cursor()

    def close_spider(self, spider):
        self.db.close()

    def process_item(self, item, spider):
        sql = "INSERT INTO items(title, url) VALUES(%s, %s)"
        values = (item['title'], item['url'])
        self.cursor.execute(sql, values)
        self.db.commit()
        return item

修改爬虫代码：在Scrapy项目的爬虫代码中，将爬取到的数据存储到item对象中。例如，假设爬取到的数据包括标题和URL，可以在爬虫代码中添加以下代码：

from your_project.items import YourItem

class YourSpider(scrapy.Spider):
    name = 'your_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://www.example.com']

    def parse(self, response):
        item = YourItem()
        item['title'] = response.css('h1::text').get()
        item['url'] = response.url
        yield item