PySpark 是 Apache Spark 的 Python API,它允许开发者使用 Python 编写 Spark 应用程序。Spark 是一个快速、通用的大规模数据处理引擎,支持多种数据处理模式,包括批处理、交互式查询、流处理和机器学习。
MySQL 是一种流行的关系型数据库管理系统(RDBMS),广泛用于存储和管理结构化数据。
PySpark 读取 MySQL 数据主要有两种方式:
spark.read.jdbc
方法:这是最常用的方法,通过 JDBC 驱动程序连接到 MySQL 数据库并读取数据。PySpark 读取 MySQL 数据常用于以下场景:
以下是一个使用 spark.read.jdbc
方法读取 MySQL 数据的示例代码:
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder \
.appName("Read MySQL Data") \
.getOrCreate()
# 读取 MySQL 数据
url = "jdbc:mysql://localhost:3306/mydatabase"
table = "mytable"
properties = {
"user": "myuser",
"password": "mypassword",
"driver": "com.mysql.jdbc.Driver"
}
df = spark.read.jdbc(url=url, table=table, properties=properties)
# 显示数据
df.show()
# 停止 SparkSession
spark.stop()
jars
目录下,或者在 spark-submit
命令中使用 --jars
参数指定驱动程序路径。cast
方法进行数据类型转换。通过以上方法,可以有效地解决 PySpark 读取 MySQL 数据时遇到的常见问题。
领取专属 10元无门槛券
手把手带您无忧上云