前言
抽样调查在统计学与 Python数据分析/数据挖掘/数据科学 中非常常用,在实际业务中更是高频刚需,而 Python 并没有专有的抽样方法库,所以笔者将自己以前的笔记汇总到自写库中,用到时直接调用函数即可,快速且精确。
进行统计学分析,假设检验,方差分析,单因素xx,t 检验,xx 检验的时候,样本量数据如果过大,计算出来的统计检验力如 p 值等就不可信。即假如我们的整体数据有 10 万,进行假设检验的时候只需要根据数据分布情况分层抽样一小部分就行了,所以分层抽样用得也是最多的,但很可惜 Python 并没有这样的库,只能自己写,一个品性优良的抽样方法库将使分析效率大大提高。
需求
本文将专注于实现前两个非常常用的抽样方法
效果实现
这里以一份电商数据为例进行演示
数据预览(只显示前五行)
随机抽样的两种方法
分层抽样
按照个数抽:每层抽 n 个
按比例抽,每层抽 n%