采样

原创

邵维奇

修改于 2024-09-09 23:58:38

1301

采样的作用：
1. 采样的本质是对随机现象的模拟，根据给定的概率分布，来模拟产生一个对应的随机事件。采样因此可以让人们对随机事件及其产生过程有更直观的认识。比如，通过二项分布采样，可以模拟抛硬币出现正面还是反面，这个随机事件，进而模拟产生一个多次抛硬币出现的结果序列，或者计算多次抛硬币后出现正面的频率。
2. 采样所得到的样本集本身也可以看作是一种非参数模拟，即用较少量的样本点来近似总体分布，并刻画总体中的不确定性。从这个角度来说，采样也是一种信息降维，可以用于模型训练，在总体分布有无穷多个点的情况下。
3. 对当前数据进行重采样，如自助法和刀切法，可以充分利用已有数据，挖掘更多信息，可以通过多次重采样来估计统计量的偏差，方差等。而且还可以通过重采样，可以保持特定的信息下，有意识地改变样本分布，以更适应后续模型训练和学习。例如用重样本来处理分类模型的训练样本不均衡问题。
4. 此外，很多模型由于结构复杂，含有隐变量等情况下，导致对应求解公式比较复杂，没有显式解析解，难以进行精确的求解或推理，这种情况下，可以利用采样进行随机模拟，从而对这些复杂模型进行近似求解或推理。这一般会转换为某些函数在特定分布下的积分或是期望，或是求某些随机变量或参数在给定数据下的后验分布。
均匀分布随机数
1. 均匀分布含义：均匀分布是指整个样本空间中的每一个样本对应的概率都是相等的。根据样本空间是否连续，又分为离散均匀分布和连续均匀分布。
2. 均匀分布采样方法：唯一可以确定的是，计算机程序都是确定性的，因此不能产生真正意义上的完全均匀分布随机数，只能产生伪随机数，所以虽然这些伪随机数是通过确定性程序产生的，但是它们能通过近似的随机性测试。另外，由于计算机的存储和计算单元只能处理离散状态值，因此也不能产生连续均匀分布的伪随机数，只能通过离散分布来近似逼近连续分布，通过增加离散空间来提供足够的精度。
  1. 线性同余法来生成离散均匀分布伪随机数。

也就是根据当前生成的随机数X_t来进行适当变换，进而产生下一次的随机数X_t+1，如果想要得到区间[0,1]上的连续均匀分布随机数，用X_t除以m即可。这样导致生成的数字并不是相互独立的，下一次的随机数只能根据当前的随机数来产生。它的缺点在于，对于特定的种子，很多数无法取到，循环周期达不到m。如果要让循环周期尽可能的接近m，这就需要选择合适的乘法因子和模数m。