前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具

采样

原创
作者头像
邵维奇
修改于 2024-09-09 23:58:38
修改于 2024-09-09 23:58:38
1301
举报
  1. 采样的作用:
    1. 采样的本质是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样因此可以让人们对随机事件及其产生过程有更直观的认识。比如,通过二项分布采样,可以模拟抛硬币出现正面还是反面,这个随机事件,进而模拟产生一个多次抛硬币出现的结果序列,或者计算多次抛硬币后出现正面的频率。
    2. 采样所得到的样本集本身也可以看作是一种非参数模拟,即用较少量的样本点来近似总体分布,并刻画总体中的不确定性。从这个角度来说,采样也是一种信息降维,可以用于模型训练,在总体分布有无穷多个点的情况下。
    3. 对当前数据进行重采样,如自助法和刀切法,可以充分利用已有数据,挖掘更多信息,可以通过多次重采样来估计统计量的偏差,方差等。而且还可以通过重采样,可以保持特定的信息下,有意识地改变样本分布,以更适应后续模型训练和学习。例如用重样本来处理分类模型的训练样本不均衡问题。
    4. 此外,很多模型由于结构复杂,含有隐变量等情况下,导致对应求解公式比较复杂,没有显式解析解,难以进行精确的求解或推理,这种情况下,可以利用采样进行随机模拟,从而对这些复杂模型进行近似求解或推理。这一般会转换为某些函数在特定分布下的积分或是期望,或是求某些随机变量或参数在给定数据下的后验分布。
  2. 均匀分布随机数
    1. 均匀分布含义:均匀分布是指整个样本空间中的每一个样本对应的概率都是相等的。根据样本空间是否连续,又分为离散均匀分布和连续均匀分布。
    2. 均匀分布采样方法:唯一可以确定的是,计算机程序都是确定性的,因此不能产生真正意义上的完全均匀分布随机数,只能产生伪随机数,所以虽然这些伪随机数是通过确定性程序产生的,但是它们能通过近似的随机性测试。另外,由于计算机的存储和计算单元只能处理离散状态值,因此也不能产生连续均匀分布的伪随机数,只能通过离散分布来近似逼近连续分布,通过增加离散空间来提供足够的精度。
      1. 线性同余法来生成离散均匀分布伪随机数。

也就是根据当前生成的随机数X_t来进行适当变换,进而产生下一次的随机数X_t+1,如果想要得到区间[0,1]上的连续均匀分布随机数,用X_t除以m即可。这样导致生成的数字并不是相互独立的,下一次的随机数只能根据当前的随机数来产生。它的缺点在于,对于特定的种子,很多数无法取到,循环周期达不到m。如果要让循环周期尽可能的接近m,这就需要选择合适的乘法因子和模数m。

b. 1.线性同余法中的随机种子一般怎么选择。

2.如果需要产生高维样本或大量样本,线性同余法会存在什么问题?

3.如何证明上述线性同余法(linear congruential generator)得到的序列可近似为均匀分布。

质数M

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
1 条评论
热度
最新
可以,大佬,互粉一下
可以,大佬,互粉一下
回复回复点赞举报
推荐阅读
编辑精选文章
换一批
机器学习9:采样
采样本质上是对随机现象的模拟,根据给定的概率分布,来模拟产生一个对应的随机事件。采样可以让人们对随机事件及其产生过程有更直观的认识。
用户5473628
2019/08/08
1.9K0
一文了解采样方法
作者 | DarkScope,蚂蚁金服高级算法工程师,致力于算法技术的创新和实际应用,乐于通过博客的方式对技术进行分享和探讨。
AI科技大本营
2018/07/23
4.1K0
一文了解采样方法
机器学习数学基础:随机事件与随机变量
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/02
1.1K0
MLK | 机器学习采样方法大全
其实我们在训练模型的过程,都会经常进行数据采样,为了就是让我们的模型可以更好的去学习数据的特征,从而让效果更佳。但这是比较浅层的理解,更本质上,数据采样就是对随机现象的模拟,根据给定的概率分布从而模拟一个随机事件。另一说法就是用少量的样本点去近似一个总体分布,并刻画总体分布中的不确定性。
Sam Gor
2019/07/30
1.2K0
马尔可夫链蒙特卡洛(MCMC)算法
在之前的推送中我们了解到什么是马尔可夫链(Markov Chain)。下面我们来介绍一下马尔可夫链蒙特卡洛算法(Markov Chain Monte Carlo), 在此之前,我们需要回顾一下马尔可夫
量化投资与机器学习微信公众号
2018/01/29
3.2K0
任何时候你都不应该忽视概率统计的学习!
基于概率论的数理统计也即概率统计是现代科学研究的基础工具与方法论,错误的理解与使用概率统计也可能会导致完全错误的研究结果。即使现在,我们随便抽出一篇微生物组学研究的paper,都有可能发现其中概率统计的瑕疵,诸如线性回归算法样品数少于变量数、R2与P值未作校正、聚类结果未作检验等。无论任何时候,我们都应该尝试去反思:我的概率统计知识够吗?
SYSU星空
2022/05/05
8340
任何时候你都不应该忽视概率统计的学习!
专栏 | 贝叶斯学习与未来人工智能
机器之心专栏 作者:邓仰东 发射资本 人人都喜欢美剧《生活大爆炸》。Sheldon 和朋友们的生活看似单调,但是自有其独特的精彩。捧腹之余,理工科出身的观众不免也想看看 Sheldon 到底在做怎样
机器之心
2018/05/08
1K0
专栏 | 贝叶斯学习与未来人工智能
统计系列(一)统计基础
在开篇中曾推荐过大家学习《商务与经济统计 精要版 原书第7版》,不知道大家有没有这种感觉,学完了不一定理解了,理解了不一定能正确应用。笔者并非统计科班出身,对其理解也是一点一滴逐步加深的。
HsuHeinrich
2023/03/15
9660
统计系列(一)统计基础
MCMC之蒙特卡罗方法
马尔可夫链蒙克卡罗(Markov Chain Monte Carlo,MCMC)是一种随机采样方法,在机器学习、深度学习及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础,例如受限玻尔兹曼机(RBM)便是用MCMC来做一些复杂算法的近似求解。在具体讲解什么是MCMC之前,我们先看看MCMC可以解决什么样的问题,为什么需要MCMC方法。
小一
2019/08/14
7290
MCMC之蒙特卡罗方法
机器学习数学基础之概率统计
1、我们借助概率论来解释分析机器学习为什么是这样的,有什么依据,同时反过来借助概率论来推导出更多机器学习算法。很多人说机器学习是老中医,星座学,最主要的原因是机器学习的很多不可解释性,我们应用概率知识可以解释一部分,但还是很多值得我们去解释理解的东西,同时,什么时候机器学习更多的可解释了,反过来,可以用那些理论也可以继续为机器学习的,对人工智能创造推出更多的理论,等到那一天,也许真的能脱离更多的人工智障了。
统计学家
2019/05/06
7900
机器学习数学基础之概率统计
算法入门(三) -- 概率论基础
概率知识是算法学习中较为重要的一环,下面我们就来回顾一下算法中需要用到的概率基础知识,以及他们的公式和分布图像。
万事可爱^
2025/01/23
1140
算法入门(三) -- 概率论基础
MCMC(一)蒙特卡罗方法
    作为一种随机采样方法,马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,以下简称MCMC)在机器学习,深度学习以及自然语言处理等领域都有广泛的应用,是很多复杂算法求解的基础。比如我们前面讲到的分解机(Factorization Machines)推荐算法,还有前面讲到的受限玻尔兹曼机(RBM)原理总结,都用到了MCMC来做一些复杂运算的近似求解。下面我们就对MCMC的原理做一个总结。
刘建平Pinard
2018/08/14
1K0
MCMC(一)蒙特卡罗方法
随机数是如何生成的
在现实中, 会有抛硬币猜正反的操作, 硬币要么是正, 要么是反, 在揭晓之前, 我们谁也不知道它现在的状态. 而这, 是因为其中存在着很大的不确定因素, 如抛硬币的力度、抛硬币的角度、接硬币的力度和角度、硬币的重量、当前风速等等.
烟草的香味
2020/06/17
1.6K0
概率学中的随机变量与分布
随机变量 Random Variables 如果一个变量的值存在一个与之相关联的概率分布,则称该变量为“随机变量(Random Variable)”。数学上更严谨的定义如下: 设随机试验的样本空间为S={e},X=X(e)是定义在样本空间S上的实值单值函数,称X=X(e)为随机变量。 一个最常见的随机数例子就是扔硬币,例如可以记正面为1,反面为0。更复杂的情况是扔10次硬币,记录出现正面的次数,其值可以为0到9之间的整数。 通常可以将随机变量分为离散型随机变量(Discrete Random Varia
张逸
2018/03/07
2K0
概率学中的随机变量与分布
数学建模--蒙特卡罗随机模拟
蒙特卡罗方法(Monte Carlo Method)是一种基于随机抽样和统计模拟的数值计算技术,广泛应用于数学建模、优化问题、概率密度函数积分等领域。其理论基础是大数定律,即通过大量重复试验来估计事件发生的频率作为其概率的近似值。
用户11315985
2024/10/16
1880
数学建模--蒙特卡罗随机模拟
对真实的世界建模-概率论(分布&计算)
前段时间觉得概率论不可理喻,再拿起的时候已经少了些许晦涩之感。(我们的自然语言不明确,概率论是离真实建模最近的学科,所以觉得难学,是因为我们逐渐走向精确)
云深无际
2024/10/08
1910
对真实的世界建模-概率论(分布&计算)
【笔记】《计算机图形学》(14)——采样
本章的用意在于为未来更深一步的光线追踪探索(第23章介绍路径追踪,第24章介绍反射模型)打下数学基础,介绍了计算机中常用的采样和积分理论,且核心是采样方法。内容量适中,字数6.8k。
ZifengHuang
2021/04/13
1.9K1
机器学习数学基础:常见分布与假设检验
所谓机器学习和深度学习, 背后的逻辑都是数学, 所以数学基础在这个领域非常关键, 而统计学又是重中之重, 机器学习从某种意义上来说就是一种统计学习。
Datawhale
2020/07/09
3.3K0
机器学习数学基础:常见分布与假设检验
数据科学17 | 统计推断-期望方差和常见概率分布
随机变量的分布的中心就是其均值或期望值。均值改变,分布会如同均值向左或向右移动。统计推断中,用样本均值估计总体分布的均值(期望值),样本量越多,样本均值约接近总体均值。
王诗翔呀
2020/07/03
1.7K0
数据科学17 | 统计推断-期望方差和常见概率分布
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 信息论是应用数学的一个分支,主要研究的是对一个信号包含信息的多少进行量化。它最初被发明是用来研究在一个含有噪声的信道上用离散的字母表来发送消息,例如通过无线电传输来通信。而本文主要探讨信息熵在 AI 或机器学习中的应用,一般在机器学习中,我们可以将信息论应用在连续型变量上,并使用信息论的一些关键思想来描述概率分布或者量化概率分布之间的相似性。 因此在机器学习中,通常要把与随机事件相关信息的期望值进行量化,此外还要量化不同概率分布之间的相似性
IT派
2018/03/27
8560
从香农熵到手推KL散度:一文带你纵览机器学习中的信息论
相关推荐
机器学习9:采样
更多 >
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文