scrapy 数据存入mysql

基础概念

Scrapy 是一个用于抓取网站并从中提取结构化数据的 Python 框架。它非常适合于数据挖掘、信息处理或历史档案等大量的网络爬虫任务。

MySQL 是一个关系型数据库管理系统，由瑞典 MySQL AB 公司开发，后被 Sun 公司收购，最终被 Oracle 公司收购。它是最流行的关系型数据库管理系统之一，广泛应用于各种规模的应用中。

类型

数据存储类型：MySQL 支持多种数据类型，包括整数、浮点数、字符串、日期和时间等。
连接类型：在 Scrapy 中连接到 MySQL 可以通过异步数据库连接器，如 aiomysql 或同步连接器如 pymysql。

应用场景

Scrapy 通常用于网络爬虫项目，而 MySQL 则用于存储这些爬虫抓取的数据。这种组合非常适合于需要大量数据抓取并存储到数据库中的场景，例如：

电子商务网站的产品数据抓取。
社交媒体分析。
新闻聚合器的内容抓取。

如何将 Scrapy 数据存入 MySQL

以下是一个简单的示例，展示如何在 Scrapy 中使用 pymysql 将数据存入 MySQL 数据库。

安装依赖

首先，你需要安装 pymysql：

pip install pymysql

创建 MySQL 数据库和表

在 MySQL 中创建一个数据库和表来存储数据：

CREATE DATABASE scrapy_db;
USE scrapy_db;

CREATE TABLE items (
    id INT AUTO_INCREMENT PRIMARY KEY,
    title VARCHAR(255),
    url VARCHAR(255)
);

Scrapy Pipeline 示例

在 Scrapy 项目中，你可以创建一个自定义的 Pipeline 来处理数据的存储：

import pymysql

class MySQLPipeline(object):

    def __init__(self, db_host, db_user, db_password, db_name):
        self.db_host = db_host
        self.db_user = db_user
        self.db_password = db_password
        self.db_name = db_name

    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            db_host=crawler.settings.get('MYSQL_HOST'),
            db_user=crawler.settings.get('MYSQL_USER'),
            db_password=crawler.settings.get('MYSQL_PASSWORD'),
            db_name=crawler.settings.get('MYSQL_DBNAME'),
        )

    def open_spider(self, spider):
        self.connection = pymysql.connect(host=self.db_host,
                                         user=self.db_user,
                                         password=self.db_password,
                                         db=self.db_name,
                                         charset='utf8mb4',
                                         cursorclass=pymysql.cursors.DictCursor)
        self.cursor = self.connection.cursor()

    def close_spider(self, spider):
        self.connection.close()

    def process_item(self, item, spider):
        query = "INSERT INTO items (title, url) VALUES (%s, %s)"
        self.cursor.execute(query, (item['title'], item['url']))
        self.connection.commit()
        return item

配置 settings.py

在 Scrapy 项目的 settings.py 文件中配置数据库连接信息和启用 Pipeline：

# settings.py

# MySQL settings
MYSQL_HOST = 'localhost'
MYSQL_USER = 'your_username'
MYSQL_PASSWORD = 'your_password'
MYSQL_DBNAME = 'scrapy_db'

ITEM_PIPELINES = {
    'your_project_name.pipelines.MySQLPipeline': 300,
}