import pandas
food_info = pandas.read_csv(file_name)# 返回一个DataFrame对象
n_rows = food_info.head(n) #获取前n行数据,返回的依旧是个DataFrame
column_names = food_info.columns #获取所有的列名
dimensions = food_info.shape #获取数据的shape
默认情况下,使用pandas.read_csv()
读取csv
文件的时候,会默认将数据的第一行当做列标签,还会为每一行添加一个行标签。我们可以使用这些标签来访问DataFrame中的数据。
DataFrame
pandas
的核心组件,构成DataFrame
的基本单元。
Series
data = food_info.loc[0] #使用loc[n]获取第n行数据,如果只是获取一行数据的话,返回Series
#如何选择多行呢,和numpy的语法是一样的
datas = food_info.loc[1:2] #返回DataFrame,返回行标签为1,2的,这个和numpy不一样,而且loc[]也不支持-n
data = food_info.loc[i][j] # i-th row, j-th column
DataFrame.dtypes
获取每列的数据类型DataFrame[indices]
获取列数据。注意,要是获取多个列的话selenium_thiamin = food_info[["Selenium_(mcg)",'Thiamin_(mg)']]
,不要少了个中括号。len(data_frame) # 是data_frame的行数
len(data_frame.loc[0]) #是data_frame的列数
set(data_frame) # 返回column name
set(data_frame["column1"]) # 返回第一列中不重复的值
set(data_frame.loc[0]) #返回第一行中不重复的值