Loading [MathJax]/jax/input/TeX/jax.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >论训练集的设计:概念问题

论训练集的设计:概念问题
EN

Data Science用户
提问于 2019-08-25 17:27:07
回答 1查看 47关注 0票数 5

我很想知道如何构造培训数据,以便将其扩展到不属于培训数据的示例。例如,我现在面临的问题是如何识别或区分从不同分布产生的时间序列的频率响应。所以我用高斯,均匀,泊松和一种颜色的噪声,比如粉红色,构造了p数的例子。白噪声例子(高斯、均匀和泊松)标记为1,有色噪声标记为0。利用神经网络进行分类,效果良好。现在我想做灵敏度分析,检查训练后的网络是否能将白噪声和其他分布的白噪声分类,比如红色。两次测试都失败了。NN没有对它们进行分类。但是,一旦我在训练数据中加入了红色和新型白噪声,并在不同的路径(时间序列)上进行测试,神经网络就可以对其进行分类。

问:这种行为让我怀疑机器学习算法是否无法区分不同系统中的示例,尽管测试中的示例具有与训练中使用的相似的特性。在这种情况下,虽然白噪声看起来很相似,但由于它们是从不同的分布或说系统产生的,所以训练数据必须包括所有生成机制或系统的示例,否则在测试ML模型时无法识别它。这是通常的行为吗?

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-08-26 07:23:14

管理机器学习的基本假设之一是,来自培训集的样本必须遵循与测试集中的样本相同的基本分布(以及您想要输入到模型中的任何其他样本)!

这就是为什么,通常,我们将相同的数据集随机地划分为训练集和测试集。

这实际上是ML模型在某些实际应用程序中表现不佳的主要原因之一。您可能已经在特定的数据集中对模型进行了培训,但超时时,数据稍微改变了其特性,新数据与用于培训已部署模型的旧数据有所不同。在这种情况下,您需要在新数据上重新培训您的模型。

票数 5
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/58184

复制
相关文章
【集合论】集合概念与关系 ( 集族 | 集族示例 | 多重集 )
文章目录 一、 集族 二、 集族示例 三、 多重集 一、 集族 ---- 集族 : 除 P(A) 幂集之外 , 由 集合构成的集合 , 称为集族 ; 带指标集的集族 : 集族中的集合 , 都赋予记号 , 就是带指标集的集族 ; \mathscr{A} 是一个集族 , S 是一个集合 对于任意 \alpha \in S , 存在 唯一的 A_\alpha \in \mathscr{A} ( \alpha 是 S 中的元素 , A_\alpha 是集族 \mathscr{A} 中
韩曙亮
2023/03/28
8670
mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集
这篇博客是 基于 Google Colab 的 mask rcnn 训练自己的数据集(以实例分割为例)文章中 数据集的制作 这部分的一些补充
全栈程序员站长
2022/09/23
8340
mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集
信息论 - 基础概念
信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。 信息 信息是用来消除事情的不确定性的,不确定性的减少量等于**信息的信息量。* 信息论背后的原理是:从不太可能发生的事件中能学到更多的有用信息。 发生可能性较大的事件包含较少的信息。 发生可能性较小的事件包含较多的信息。 独立事件包含额外的信息 。 熵 对于事件 X=x , 定义自信息 (self-information) 为: I(x)=-\log P(x) 自信息仅
为为为什么
2022/08/05
6020
信息论 - 基础概念
数据集的划分--训练集、验证集和测试集
        在机器学习中,经常提到训练集和测试集,验证集似有似无。感觉挺好奇的,就仔细查找了文献。以下谈谈训练集、验证集和测试集。
Flaneur
2020/03/25
5.3K0
训练集准确率很高,验证集准确率低问题
训练集在训练过程中,loss稳步下降,准确率上升,最后能达到97% 验证集准确率没有升高,一直维持在50%左右(二分类问题,随机概率) 测试集准确率57% 在网上搜索可能打的原因: 1.learning rate太小,陷入局部最优
全栈程序员站长
2022/11/04
3.6K0
训练集准确率很高,验证集准确率低问题
【集合论】等价类 ( 等价类概念 | 等价类示例 | 等价类性质 | 商集 | 商集示例 )★
商集的本质 : 商集 本质是一个 集合 , 集合中的元素是 等价类 , 该等价类是基于
韩曙亮
2023/03/28
1.3K0
【集合论】等价类 ( 等价类概念 | 等价类示例 | 等价类性质 | 商集 | 商集示例 )★
如何把设计问题转化为数学问题,方法论
图像本质上是一个二维的矩阵,于是,我们可以把问题转化为寻找二维矩阵中的最大子矩阵这么一个数学问题:
mixlab
2020/06/04
5350
一些范畴论上的概念
函子与函数不同,函数描述的是类型之间的映射,而函子描述的是 范畴(category) 之间的映射
Orlion
2024/09/02
960
一些范畴论上的概念
信息论中的基本概念
1 信息量 定义:信息量是对信息的度量。 就跟时间的度量是秒一样,当我们考虑一个离散的随机变量x的时候,当我们观察到的这个变量的一个具体值的时候,我们接收到了多少信息呢? 多少信息用信息量来衡量,我
用户1432189
2019/02/25
1K0
概率论温习-基础概念
P(∐Kk=1Ak)=∑kk=1P(Ak) P(\coprod^K_{k=1}A_k) = \sum^k_{k=1}P(A_k)
干货满满张哈希
2021/04/12
3170
概率论基本概念
文章目录 文章目录 1. 随机试验 2. 样本空间 3. 随机事件 4. 事件间的关系和事件的运算 5. 频率与概率 6. 古典概率模型 7. 条件概率 8. 独立性 1. 随机试验 ---- 具有以下特征的试验,被称作「随机试验」 可以在相同条件下重复地进行 每次试验的可能结果不止一个,并且能实现明确试验的所有可能结果 进行一次试验之前不能确定哪一个结果会出现 2. 样本空间 ---- 随机试验 的所有可能结果组成的集合称为 的样本空间,记做 样本空间的元素,即 的每个结果,称为样
Java宝典
2021/01/14
7930
训练集、验证集、测试集以及交验验证的理解
在人工智能机器学习中,很容易将“验证集”与“测试集”,“交叉验证”混淆。
全栈程序员站长
2022/08/27
19.5K0
训练集、验证集、测试集以及交验验证的理解
【集合论】集合概念与关系 ( 真子集 | 空集 | 全集 | 幂集 | 集合元素个数 | 求幂集步骤 )
全集 : 限定所讨论的集合 , 都是某个集合的子集 , 则称该集合为全集 , 记作
韩曙亮
2023/03/28
1.5K0
一个值得深思的问题?为什么验证集的loss会小于训练集的loss
在本教程中,您将学习在训练自己的自定义深度神经网络时,验证损失可能低于训练损失的三个主要原因。
AI算法与图像处理
2019/11/07
8.7K0
一个值得深思的问题?为什么验证集的loss会小于训练集的loss
训练集(Training dataset)
在机器学习中,一般将样本分成独立的三部分训练集(train set),验证集(validation set)和测试集(test set)。其中,训练集用于建立模型。
easyAI
2019/12/18
1.2K0
概率论基础 - 1 - 基础概念
本系列记录概率论基础知识,本文介绍最基本的概率论概念。 概率与分布 条件概率与独立事件 条件概率 已知A事件发生的条件下B发生的概率,记作P(B \mid A) ,它等于事件AB的概率相对于事件A的概率,即: P(B \mid A)=\frac{P(A B)}{P(A)} 其中 {P(A)} > 0 条件概率分布的链式法则 对于n个随机变量{X_{1}, X_{2}, \cdots, X_{n}} ,有: P\left(X_{1}, X_{2}, \cdots, X_{n}\right)=P\left
为为为什么
2022/08/05
5810
概率论基础 - 1 - 基础概念
Autosar知识:方法论-概念概述
AUTOSAR使用EnterpriseArchitect建模工具来绘制文档图形,图形的定义是通过《软件过程工程元模型规范SPEM》制定。
MungBean
2020/03/04
1.2K0
Autosar知识:方法论-概念概述
【机器学习】划分训练集和测试集的方法
在机器学习中,我们的模型建立完成后,通常要根据评估指标来对模型进行评估,以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此,我们在模型训练之前,要对训练集和测试集进行划分。一般数据集划分的方法有四种:留出法、交叉验证法、留一法、自助法。
Twcat_tree
2023/11/20
1.6K0
【机器学习】划分训练集和测试集的方法
论解决问题的“姿势”
我遇到难题了,为此困惑了多日,解决不了,关于Electron在ASAR包中可以使用二进制文件的问题,这个问题解决起来非常的痛苦,但还是得去解决,找办法。
icepy
2019/06/24
7210
论解决问题的“姿势”
tensorflow对象检测框架训练VOC数据集常见的两个问题
Tensorflow自从发布了object detection API这套对象检测框架以来,成为很多做图像检测与对象识别开发者手中的神兵利器,因为他不需要写一行代码,就可以帮助开发者训练出一个很好的自定义对象检测器(前提是有很多标注数据)。我之前曾经写过几篇文章详细介绍了tensorflow对象检测框架的安装与使用,感兴趣可以看如下几篇文章!
OpenCV学堂
2019/04/29
2.1K2
tensorflow对象检测框架训练VOC数据集常见的两个问题

相似问题

扩充训练集的潜在问题

10

不平衡训练集还是较小的平衡训练集?

20

二值分类问题中训练数据集的分布

10

训练集和测试集大小

20

训练和测试集

10
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文