Loading [MathJax]/jax/input/TeX/jax.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >论训练集的设计:概念问题

问论训练集的设计:概念问题
EN

Data Science用户

提问于 2019-08-25 17:27:07

回答 1查看 47关注 0票数 5

我很想知道如何构造培训数据，以便将其扩展到不属于培训数据的示例。例如，我现在面临的问题是如何识别或区分从不同分布产生的时间序列的频率响应。所以我用高斯，均匀，泊松和一种颜色的噪声，比如粉红色，构造了 $p$ 数的例子。白噪声例子(高斯、均匀和泊松)标记为1，有色噪声标记为0。利用神经网络进行分类，效果良好。现在我想做灵敏度分析，检查训练后的网络是否能将白噪声和其他分布的白噪声分类，比如红色。两次测试都失败了。NN没有对它们进行分类。但是，一旦我在训练数据中加入了红色和新型白噪声，并在不同的路径(时间序列)上进行测试，神经网络就可以对其进行分类。

问:这种行为让我怀疑机器学习算法是否无法区分不同系统中的示例，尽管测试中的示例具有与训练中使用的相似的特性。在这种情况下，虽然白噪声看起来很相似，但由于它们是从不同的分布或说系统产生的，所以训练数据必须包括所有生成机制或系统的示例，否则在测试ML模型时无法识别它。这是通常的行为吗？

machine-learning

语音识别特惠，低至14.9元！

提供业界非常具有性价比的语音识别服务，超高识别准确率，适用多场景

EN

回答 1

Data Science用户

回答已采纳

发布于 2019-08-26 07:23:14

管理机器学习的基本假设之一是，来自培训集的样本必须遵循与测试集中的样本相同的基本分布(以及您想要输入到模型中的任何其他样本)！

这就是为什么，通常，我们将相同的数据集随机地划分为训练集和测试集。

这实际上是ML模型在某些实际应用程序中表现不佳的主要原因之一。您可能已经在特定的数据集中对模型进行了培训，但超时时，数据稍微改变了其特性，新数据与用于培训已部署模型的旧数据有所不同。在这种情况下，您需要在新数据上重新培训您的模型。

票数 5

EN

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/58184

复制

相关文章

【集合论】集合概念与关系 ( 集族 | 集族示例 | 多重集 )

文章目录一、集族二、集族示例三、多重集一、集族 ---- 集族 : 除 P(A) 幂集之外 , 由集合构成的集合 , 称为集族 ; 带指标集的集族 : 集族中的集合 , 都赋予记号 , 就是带指标集的集族 ; \mathscr{A} 是一个集族 , S 是一个集合对于任意 \alpha \in S , 存在唯一的 A_\alpha \in \mathscr{A} ( \alpha 是 S 中的元素 , A_\alpha 是集族 \mathscr{A} 中

韩曙亮

2023/03/28

8670

mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集

java https 网络安全

这篇博客是基于 Google Colab 的 mask rcnn 训练自己的数据集（以实例分割为例）文章中数据集的制作这部分的一些补充

全栈程序员站长

2022/09/23

8340

mask rcnn训练自己的数据集_fasterrcnn训练自己的数据集

信息论 - 基础概念

serverless https 网络安全

信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。本文介绍基本概念。信息信息是用来消除事情的不确定性的，不确定性的减少量等于**信息的信息量。* 信息论背后的原理是：从不太可能发生的事件中能学到更多的有用信息。发生可能性较大的事件包含较少的信息。发生可能性较小的事件包含较多的信息。独立事件包含额外的信息。熵对于事件 X=x , 定义自信息（self-information）为： I(x)=-\log P(x) 自信息仅

为为为什么

2022/08/05

6020

数据集的划分--训练集、验证集和测试集

腾讯云测试服务神经网络

在机器学习中，经常提到训练集和测试集，验证集似有似无。感觉挺好奇的，就仔细查找了文献。以下谈谈训练集、验证集和测试集。

Flaneur

2020/03/25

5.3K0

训练集准确率很高，验证集准确率低问题

批量计算 spring https 网络安全 keras

训练集在训练过程中，loss稳步下降，准确率上升，最后能达到97% 验证集准确率没有升高，一直维持在50%左右（二分类问题，随机概率）测试集准确率57% 在网上搜索可能打的原因： 1.learning rate太小，陷入局部最优

全栈程序员站长

2022/11/04

3.6K0

训练集准确率很高，验证集准确率低问题

【集合论】等价类 ( 等价类概念 | 等价类示例 | 等价类性质 | 商集 | 商集示例 )★

商集的本质 : 商集本质是一个集合 , 集合中的元素是等价类 , 该等价类是基于

韩曙亮

2023/03/28

1.3K0

【集合论】等价类 ( 等价类概念 | 等价类示例 | 等价类性质 | 商集 | 商集示例 )★

如何把设计问题转化为数学问题，方法论

图像本质上是一个二维的矩阵，于是，我们可以把问题转化为寻找二维矩阵中的最大子矩阵这么一个数学问题：

mixlab

2020/06/04

5350

一些范畴论上的概念

函数 cube int list string

函子与函数不同，函数描述的是类型之间的映射，而函子描述的是范畴(category) 之间的映射

Orlion

2024/09/02

960

信息论中的基本概念

1 信息量定义：信息量是对信息的度量。就跟时间的度量是秒一样，当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢? 多少信息用信息量来衡量，我

用户1432189

2019/02/25

1K0

概率论温习-基础概念

机器学习神经网络深度学习人工智能

P(∐Kk=1Ak)=∑kk=1P(Ak) P(\coprod^K_{k=1}A_k) = \sum^k_{k=1}P(A_k)

干货满满张哈希

2021/04/12

3170

概率论基本概念

文章目录文章目录 1. 随机试验 2. 样本空间 3. 随机事件 4. 事件间的关系和事件的运算 5. 频率与概率 6. 古典概率模型 7. 条件概率 8. 独立性 1. 随机试验 ---- 具有以下特征的试验，被称作「随机试验」可以在相同条件下重复地进行每次试验的可能结果不止一个，并且能实现明确试验的所有可能结果进行一次试验之前不能确定哪一个结果会出现 2. 样本空间 ---- 随机试验的所有可能结果组成的集合称为的样本空间，记做样本空间的元素，即的每个结果，称为样

Java宝典

2021/01/14

7930

训练集、验证集、测试集以及交验验证的理解

腾讯云测试服务编程算法神经网络 java https

在人工智能机器学习中，很容易将“验证集”与“测试集”，“交叉验证”混淆。

全栈程序员站长

2022/08/27

19.5K0

训练集、验证集、测试集以及交验验证的理解

【集合论】集合概念与关系 ( 真子集 | 空集 | 全集 | 幂集 | 集合元素个数 | 求幂集步骤 )

全集 : 限定所讨论的集合 , 都是某个集合的子集 , 则称该集合为全集 , 记作

韩曙亮

2023/03/28

1.5K0

一个值得深思的问题？为什么验证集的loss会小于训练集的loss

python 神经网络文件存储

在本教程中，您将学习在训练自己的自定义深度神经网络时，验证损失可能低于训练损失的三个主要原因。

AI算法与图像处理

2019/11/07

8.7K0

一个值得深思的问题？为什么验证集的loss会小于训练集的loss

训练集（Training dataset）

在机器学习中，一般将样本分成独立的三部分训练集(train set)，验证集(validation set)和测试集(test set)。其中，训练集用于建立模型。

easyAI

2019/12/18

1.2K0

概率论基础 - 1 - 基础概念

本系列记录概率论基础知识，本文介绍最基本的概率论概念。概率与分布条件概率与独立事件条件概率已知A事件发生的条件下B发生的概率，记作P(B \mid A) ，它等于事件AB的概率相对于事件A的概率，即： P(B \mid A)=\frac{P(A B)}{P(A)} 其中 {P(A)} > 0 条件概率分布的链式法则对于n个随机变量{X_{1}, X_{2}, \cdots, X_{n}} ，有： P\left(X_{1}, X_{2}, \cdots, X_{n}\right)=P\left

为为为什么

2022/08/05

5810

概率论基础 - 1 - 基础概念

Autosar知识：方法论-概念概述

AUTOSAR使用EnterpriseArchitect建模工具来绘制文档图形，图形的定义是通过《软件过程工程元模型规范SPEM》制定。

MungBean

2020/03/04

1.2K0

Autosar知识：方法论-概念概述

【机器学习】划分训练集和测试集的方法

机器学习测试集合模型数据

在机器学习中，我们的模型建立完成后，通常要根据评估指标来对模型进行评估，以此来判断模型的可用性。而评估指标主要的目的是让模型在未知数据上的预测能力最好。因此，我们在模型训练之前，要对训练集和测试集进行划分。一般数据集划分的方法有四种：留出法、交叉验证法、留一法、自助法。

Twcat_tree

2023/11/20

1.6K0

【机器学习】划分训练集和测试集的方法

论解决问题的“姿势”

https 网络安全 github git 开源

我遇到难题了，为此困惑了多日，解决不了，关于Electron在ASAR包中可以使用二进制文件的问题，这个问题解决起来非常的痛苦，但还是得去解决，找办法。

icepy

2019/06/24

7210

tensorflow对象检测框架训练VOC数据集常见的两个问题

tensorflow python

Tensorflow自从发布了object detection API这套对象检测框架以来，成为很多做图像检测与对象识别开发者手中的神兵利器，因为他不需要写一行代码，就可以帮助开发者训练出一个很好的自定义对象检测器(前提是有很多标注数据)。我之前曾经写过几篇文章详细介绍了tensorflow对象检测框架的安装与使用，感兴趣可以看如下几篇文章!

OpenCV学堂

2019/04/29

2.1K2

tensorflow对象检测框架训练VOC数据集常见的两个问题

相似问题

扩充训练集的潜在问题

10

不平衡训练集还是较小的平衡训练集？

20

二值分类问题中训练数据集的分布

10

训练集和测试集大小

20

训练和测试集

10

活动推荐

腾讯云BI 特惠专场

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验