DataFrame 是 pandas 库中的一个核心数据结构,用于处理和分析结构化数据。DataFrame 可以看作是一个二维表格,类似于 Excel 表格或 SQL 表。DataFrame 中的每一列可以有不同的数据类型(dtype),这些数据类型决定了数据的存储方式和可以进行的操作。
DataFrame:
Dtype:
int64
, float64
, object
(通常用于字符串), datetime64
, bool
等。int8
, int16
, int32
, int64
float16
, float32
, float64
object
(通常用于存储文本数据)bool
datetime64[ns]
category
(用于存储有限数量的类别数据)import pandas as pd
# 创建一个 DataFrame
data = {
'name': ['Alice', 'Bob', 'Charlie'],
'age': [25, 30, 35],
'height': [165.5, 175.0, 180.5],
'is_student': [True, False, True]
}
df = pd.DataFrame(data)
# 查看 DataFrame 的 dtype
print(df.dtypes)
问题: DataFrame 中某一列的数据类型不正确,导致某些操作失败。
原因:
解决方法:
# 显式指定列的数据类型
df = pd.DataFrame(data, dtype={'age': 'int32', 'height': 'float32'})
astype()
方法转换列的数据类型。# 将 'age' 列转换为 int32 类型
df['age'] = df['age'].astype('int32')
通过这些方法,可以确保 DataFrame 中的数据类型符合预期,从而避免因数据类型不匹配导致的错误。
领取专属 10元无门槛券
手把手带您无忧上云