前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布

采样

原创
作者头像
邵维奇
修改2024-09-10 07:58:38
900
修改2024-09-10 07:58:38
  1. 采样的作用:
    1. 采样的本质是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样因此可以让人们对随机事件及其产生过程有更直观的认识。比如,通过二项分布采样,可以模拟抛硬币出现正面还是反面,这个随机事件,进而模拟产生一个多次抛硬币出现的结果序列,或者计算多次抛硬币后出现正面的频率。
    2. 采样所得到的样本集本身也可以看作是一种非参数模拟,即用较少量的样本点来近似总体分布,并刻画总体中的不确定性。从这个角度来说,采样也是一种信息降维,可以用于模型训练,在总体分布有无穷多个点的情况下。
    3. 对当前数据进行重采样,如自助法和刀切法,可以充分利用已有数据,挖掘更多信息,可以通过多次重采样来估计统计量的偏差,方差等。而且还可以通过重采样,可以保持特定的信息下,有意识地改变样本分布,以更适应后续模型训练和学习。例如用重样本来处理分类模型的训练样本不均衡问题。
    4. 此外,很多模型由于结构复杂,含有隐变量等情况下,导致对应求解公式比较复杂,没有显式解析解,难以进行精确的求解或推理,这种情况下,可以利用采样进行随机模拟,从而对这些复杂模型进行近似求解或推理。这一般会转换为某些函数在特定分布下的积分或是期望,或是求某些随机变量或参数在给定数据下的后验分布。
  2. 均匀分布随机数
    1. 均匀分布含义:均匀分布是指整个样本空间中的每一个样本对应的概率都是相等的。根据样本空间是否连续,又分为离散均匀分布和连续均匀分布。
    2. 均匀分布采样方法:唯一可以确定的是,计算机程序都是确定性的,因此不能产生真正意义上的完全均匀分布随机数,只能产生伪随机数,所以虽然这些伪随机数是通过确定性程序产生的,但是它们能通过近似的随机性测试。另外,由于计算机的存储和计算单元只能处理离散状态值,因此也不能产生连续均匀分布的伪随机数,只能通过离散分布来近似逼近连续分布,通过增加离散空间来提供足够的精度。
      1. 线性同余法来生成离散均匀分布伪随机数。

也就是根据当前生成的随机数X_t来进行适当变换,进而产生下一次的随机数X_t+1,如果想要得到区间[0,1]上的连续均匀分布随机数,用X_t除以m即可。这样导致生成的数字并不是相互独立的,下一次的随机数只能根据当前的随机数来产生。它的缺点在于,对于特定的种子,很多数无法取到,循环周期达不到m。如果要让循环周期尽可能的接近m,这就需要选择合适的乘法因子和模数m。

b. 1.线性同余法中的随机种子一般怎么选择。

2.如果需要产生高维样本或大量样本,线性同余法会存在什么问题?

3.如何证明上述线性同余法(linear congruential generator)得到的序列可近似为均匀分布。

质数M

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档