MySQL 识别中文主要涉及字符集和排序规则(Collation)的设置。字符集定义了可以存储在数据库中的字符集合,而排序规则定义了这些字符如何比较和排序。
utf8
、utf8mb4
等。utf8_general_ci
和 utf8_unicode_ci
都是 utf8
字符集的排序规则,但它们的比较方式略有不同。MySQL 中常见的字符集包括:
latin1
:支持西欧语言。utf8
:支持大部分主流语言,但不支持存储 4 字节的 Unicode 字符(如某些表情符号)。utf8mb4
:支持所有 Unicode 字符,包括 4 字节的字符。在处理中文数据时,通常推荐使用 utf8mb4
字符集和相应的排序规则(如 utf8mb4_general_ci
或 utf8mb4_unicode_ci
)。
在创建数据库、表或列时,可以通过指定字符集和排序规则来确保 MySQL 正确识别中文。以下是一些示例:
CREATE DATABASE mydb
CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;
CREATE TABLE mytable (
id INT PRIMARY KEY,
name VARCHAR(100)
) CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;
ALTER TABLE mytable
CONVERT TO CHARACTER SET utf8mb4
COLLATE utf8mb4_unicode_ci;
原因:可能是数据库、表或列的字符集设置不正确。
解决方法:
utf8mb4
。utf8mb4
。可以在连接字符串中添加 charset=utf8mb4
参数。import mysql.connector
config = {
'user': 'your_user',
'password': 'your_password',
'host': 'your_host',
'database': 'your_database',
'charset': 'utf8mb4'
}
cnx = mysql.connector.connect(**config)
通过正确设置字符集和排序规则,MySQL 可以很好地支持中文数据的存储和检索。
领取专属 10元无门槛券
手把手带您无忧上云