首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

针对SAS用户:Python数据分析库pandas

我们说明一些有用NumPy对象来作为说明pandas方式。 对于数据分析任务,我们经常需要将不同数据类型组合在一起。...可以认为Series是一个索引、一维数组、类似一值。可以认为DataFrames包含行和二维数组索引。好比Excel单元格按行和列位置寻址。...此外,一个单列DataFrame一个Series。 像SAS一样,DataFrames不同方法来创建。可以通过加载其它Python对象值创建DataFrames。...解决缺失数据分析典型SAS编程方法是,编写一个程序使用计数器变量遍历所有使用IF/THEN测试缺失值。 这可以沿着下面的输出单元格中示例行。...fillna()方法返回替换空值Series或DataFrame。下面的示例所有NaN替换为零。 ? ?

12.1K20

15个基本且常用Pandas代码片段

df['Age'] = df['Age'].apply(lambda x: x * 2) 5、连接DataFrames 这里连接主要是行连接,也就是说两个相同结构DataFrame进行连接...这里合并指的是合并,也就是说根据一个或若干个相同,进行合并 # Merge two DataFrames left = pd.DataFrame({'key': ['A', 'B', '...下面是一个示例,演示如何使用 melt() 函数宽格式数据转换为长格式,假设有以下宽格式数据表格 df: ID Name Math English History 0 1...10、分类数据 astype('category') 是用于数据类型转换为分类(Category)类型方法。...数据换为分类类型有助于节省内存和提高性能,特别是当数据包含有限不同取值时。

27410
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何在Python 3中安装pandas包和使用数据结构

    Python词典提供了另一种表单来在pandas中设置Series。 DataFrames DataFrame是二维标记数据结构,其具有可由不同数据类型组成。...第一个系列将是我们之前avg_ocean_depth系列,第二个max_ocean_depth系列包含地球上每个海洋最大深度数据,以米为单位。...在我们示例中,这两个系列都具有相同索引标签,但如果您使用具有不同标签Series,则会标记缺失值NaN。 这是以我们可以包含标签方式构造,我们将其声明为Series'变量键。...DataFrame进行比较,并在将其视为一个组时更好地了解地球海洋平均深度和最大深度。...让我们创建一个名为user_data.py新文件使用一些缺少值数据填充它并将其换为DataFrame: import numpy as np import pandas as pd ​ ​ user_data

    18.9K00

    【精心解读】用pandas处理大数据——节省90%内存消耗小贴士

    由于不同类型数据是分开存放,我们检查不同数据类型内存使用情况,我们先看看各数据类型平均内存使用量: 由于不同类型数据是分开存放,我们检查不同数据类型内存使用情况,我们先看看各数据类型平均内存使用量...这对我们原始dataframe影响有限,这是由于它只包含很少整型。 同理,我们再对浮点型进行相应处理: 我们可以看到所有的浮点型都从float64换为float32,内存用量减少50%。...我们再创建一个原始dataframe副本,将其数值赋值为优化后类型,再看看内存用量整体优化效果。 可以看到通过我们显著缩减数值型内存用量,我们dataframe整体内存用量减少了7%。...下面我们写一个循环,对每一个object进行迭代,检查其唯一值是否少于50%,如果是,则转换成类别类型。...总结 我们学习了pandas如何存储不同数据类型,利用学到知识将我们pandas dataframe内存用量降低了近90%,仅仅只用了一点简单技巧: 数值型降级到更高效类型 字符串列转换为类别类型

    8.7K50

    Pandas实用手册(PART I)

    使用pd.util.testing随机建立DataFrame 当你想要随意初始化一个DataFrame测试pandas功能时,pd.util.testing就显得十分好用: ?...剪贴簿内容转换成DataFrame 你可以从Excel、Google Sheet 或是网页上复制表格并将其转成DataFrame。...定制化DataFrame显示设定 虽然pandas 会尽可能地一个DataFrame 完整且漂亮地呈现出来,有时候你还是会想要改变预设显示方式。这节列出一些常见使用情境。...完整显示所有 有时候一个DataFrame 里头栏位太多, pandas 会自动省略某些中间栏位以保持页面整洁: ?...为特定DataFrame加点样式 pd.set_option函数在你想要把某些显示设定套用到所有 DataFrames时很好用,不过很多时候你会想要让不同DataFrame不同显示设定或样式(styling

    1.8K31

    整理了25个Pandas实用技巧

    让我们再复制另外一个数据至剪贴板: ? 神奇是,pandas已经第一作为索引了: ? 需要注意是,如果你想要你工作在未来复制,那么read_clipboard()并不值得推荐。...isna()会产生一个由True和False组成DataFrame,sum()会将所有的True值转换为1,False转换为0并把它们加起来。...如果我们只想保留第0作为city name,我们仅需要选择那一保存至DataFrame: ? Series扩展成DataFrame 让我们创建一个示例DataFrame: ?...该DataFrame包含了与MultiIndexed Series一样数据,不同是,现在你可以用熟悉DataFrame函数对它进行操作。...然后将其传递给DataFramestyle.format()函数: ? 注意到,Date是month-day-year格式,Close包含一个$符号,Volume包含逗号。

    2.8K40

    整理了25个Pandas实用技巧(下)

    : 神奇是,pandas已经第一作为索引了: 需要注意是,如果你想要你工作在未来复制,那么read_clipboard()并不值得推荐。...比如说,让我们以", "来划分location这一: 如果我们只想保留第0作为city name,我们仅需要选择那一保存至DataFrame: Series扩展成DataFrame 让我们创建一个示例...如果我们想要将第二扩展成DataFrame,我们可以对那一使用apply()函数传递给Series constructor: 通过使用concat()函数,我们可以原来DataFrame和新...一样数据,不同是,现在你可以用熟悉DataFrame函数对它进行操作。...然后将其传递给DataFramestyle.format()函数: 注意到,Date是month-day-year格式,Close包含一个$符号,Volume包含逗号。

    2.4K10

    Pandas图鉴(三):DataFrames

    DataFrames 数据框架剖析 Pandas主要数据结构是一个DataFrame。它捆绑了一个二维数组,并为其行和加上标签。...所有的算术运算都是根据行和标签来排列: 在DataFrames和Series混合操作中,Series行为(和广播)就像一个行-向量,相应地被对齐: 可能是为了与列表和一维NumPy向量保持一致...如果DataFrames不完全匹配(不同顺序在这里不算),Pandas可以采取交集(kind='inner',默认)或插入NaNs来标记缺失值(kind='outer'): 水平stacking...默认情况下,Pandas会对任何远程求和东西进行求和,所以必须缩小你选择范围,如下图: 注意,当对单列求和时,会得到一个Series而不是一个DataFrame。...要将其换为宽格式,请使用df.pivot: 这条命令抛弃了与操作无关东西(即索引和价格),并将所要求信息转换为长格式,客户名称放入结果索引中,产品名称放入其中,销售数量放入其 "

    40020

    强烈推荐Pandas常用操作知识大全!

    如想下载到本地访问以下地址 https://github.com/SeafyLiang/Python_study pandas常用操作大全 pandas常用速查 引入依赖 # 导入模块 import...数据分析函数 df #任何pandas DataFrame对象 s #任何pandas series对象 从各种不同来源和格式导入数据 pd.read_csv(filename) # 从CSV...从一个迭代序列创建一个序列 my_list df.index = pd.date_range('1900/1/30', periods=df.shape[0]) # 添加日期索引 查看、检查数据...替换为所有1 'one' , 3 用 'three' df.rename(columns=lambda x: x + 1) # 重命名 df.rename(columns={...# 创建一个数据透视表组通过 col1 ,计算平均值 col2 和 col3 df.groupby(col1).agg(np.mean) # 在所有中找到每个唯一col1 组平均值

    15.9K20

    独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

    读取 CSV 获取 PANDAS DATAFRAME 所需时间 如果我们通过 Dask 和 DataTable 读取 CSV,它们分别生成 Dask DataFrame 和 DataTable DataFrame...假设我们想坚持传统 Pandas 语法和函数(由于熟悉),我们必须首先将它们转换为 Pandas DataFrame,如下所示。...但是,要从 Dask 和 DataTable 创建 CSV,我们首先需要将给定 Pandas DataFrame换为它们各自 DataFrame,然后将它们存储在 CSV 中。...出于实验目的,我在 Python 中生成了一个随机数据集,其中包含可变行和三十——包括字符串、浮点数和整数数据类型。 2....Dask 和 DataTable 读取 CSV 文件生成 Pandas DataFrame 所花费时间(以秒为单位)。

    1.4K30

    直观地解释和可视化每个复杂DataFrame操作

    包含换为:一用于变量(值名称),另一用于值(变量中包含数字)。 ? 结果是ID值(a,b,c)和值(B,C)及其对应值每种组合,以列表格式组织。...Unstack 取消堆叠获取多索引DataFrame对其进行堆叠,指定级别的索引转换为具有相应值DataFrame。在表上调用堆栈后再调用堆栈不会更改该堆栈(原因是存在“ 0 ”)。...合并不是pandas功能,而是附加到DataFrame。始终假定合并所在DataFrame是“左表”,在函数中作为参数调用DataFrame是“右表”,带有相应键。...因此,它接受要连接DataFrame列表。 如果一个DataFrame另一包含,默认情况下包含,缺失值列为NaN。...串联是附加元素附加到现有主体上,而不是添加新信息(就像逐联接一样)。由于每个索引/行都是一个单独项目,因此串联将其他项目添加到DataFrame中,这可以看作是行列表。

    13.3K20

    奇妙问题集 # 直接保存“DataFrame表格”为图片到本地?我他喵

    因此,我做了一个简单学习,并将其整理后,供大家学习和参考。 ? 比如说:我们得到了一个df_new表格,我们想要将其保存在本地,应该怎么办呢?保存图片,你可能用多。...这个数字被传递给DataFrameto_html方法。为防止意外创建具有大量行图像,具有100行以上DataFrame引发错误。显式设置此参数以覆盖此错误,对所有行使用-1。...max_cols:表示DataFrame输出最大数。这个数字被传递给DataFrameto_html方法。为防止意外创建具有大量图像,包含30以上DataFrame引发错误。...DataFrames通过Chrome或matplotlib转换为png。除非无法正常使用,否则请使用chrome。matplotlib提供了一个不错选择。...可以看到:这个方法其实就是通过chrome浏览器,这个DataFrames换为png或jpg格式。 举例说明 我们先随意构造或读取一个DataFrame

    3.8K10

    1w 字 pandas 核心操作知识大全。

    ]) # 对不同执行不同计算 df.agg({"salary":np.sum,"score":np.mean}) 时间格式转换 # 时间戳时间字符串 df_jj2['cTime'] =df_jj2...数据分析函数 df #任何pandas DataFrame对象 s #任何pandas series对象 从各种不同来源和格式导入数据 pd.read_csv(filename) # 从CSV文件...从一个迭代序列创建一个序列 my_list df.index = pd.date_range('1900/1/30', periods=df.shape[0]) # 添加日期索引 查看、检查数据...替换为所有1 'one' , 3 用 'three' df.rename(columns=lambda x: x + 1) # 重命名 df.rename(columns={...# 创建一个数据透视表组通过 col1 ,计算平均值 col2 和 col3 df.groupby(col1).agg(np.mean) # 在所有中找到每个唯一col1 组平均值

    14.8K30

    pandas

    DataFrame任意一行或者一就是一个Series对象 创建Series对象:pd.Series(data,index=index)   其中data可以是很多类型: 一个列表----------...) 与Series不同是,DataFrame包括索引index和表头columns:   其中data可以是很多类型: 包含列表、字典或者Series字典 二维数组 一个Series对象 另一个DataFrame...日期转换为没有时分秒日期 df.to_excel("dates.xlsx") 向pandas中插入数据 如果想忽略行索引插入,又不想缺失数据与添加NaN值,建议使用 df['column_name..._append(temp, ignore_index=True) pandas数据置 与矩阵相同,在 Pandas 中,我们可以使用 .transpose() 方法或 .T 属性来置 我们DataFrame...通常情况下, 因为.T简便性, 更常使用.T属性来进行置 注意 置不会影响原来数据,所以如果想保存置后数据,请将值赋给一个变量再保存。

    12410

    通宵翻译Pandas官方文档,写了这份Excel万字肝货操作!

    DataFrame Pandas DataFrame 类似于 Excel 工作表。虽然 Excel 工作簿可以包含多个工作表,但 Pandas DataFrames 独立存在。 3....在 Pandas 中,索引可以设置为一个(或多个)唯一值,这就像在工作表中有一用作行标识符一样。与大多数电子表格不同,这些索引值实际上可用于引用行。...我们可以用多种不同方式构建一个DataFrame,但对于少量值,通常将其指定为 Python 字典会很方便,其中键是列名,值是数据。...在 Pandas 中,您需要在从 CSV 读取时或在 DataFrame 中读取一次时,纯文本显式转换为日期时间对象。 解析后,Excel电子表格以默认格式显示日期,但格式可以更改。...pandas DataFrames一个 merge() 方法,它提供了类似的功能。数据不必提前排序,不同连接类型是通过 how 关键字完成

    19.5K20

    是时候和pd.read_csv(), pd.to_csv()说再见了

    读取 CSV 获取 PANDAS DATAFRAME 所需时间 如果我们通过 Dask 和 DataTable 读取 CSV,它们分别生成 Dask DataFrame 和 DataTable DataFrame...假设我们想坚持传统 Pandas 语法和函数(由于熟悉),我们必须首先将它们转换为 Pandas DataFrame,如下所示。...但是,要从 Dask 和 DataTable 创建 CSV,我们首先需要将给定 Pandas DataFrame换为它们各自 DataFrame,然后将它们存储在 CSV 中。...出于实验目的,我在 Python 中生成了一个随机数据集,其中包含可变行和三十——包括字符串、浮点数和整数数据类型。 2....Dask 和 DataTable 读取 CSV 文件生成 Pandas DataFrame 所花费时间(以秒为单位)。

    1.1K20
    领券