对于深度学习而言,合适的数据集以及合适的模型结构显得至关重要。选择错误的数据集或者错误的模型结构可能导致得到一个性能不佳的网络模型,甚至可能得到的是一个不收敛的网络模型。这个问题无法通过分析数据得到很好的解决,只能是通过一次次的制作数据集、搭建模型并进行仿真实验才能发现如何最好地利用数据集以及选取什么样的模型结构。 本文讲解一些有关于数据集的实用知识,通过本文你将了解以下三点:
用多种方法建模预测问题。问题的框架是指:
数据越多越好,只要是与预测结果相关的数据都是可以的。因为对于某个具体任务而言,不清楚多少数据量才算合适。数据是开发模型期间使用的货币! 数据一般花费在以下任务上:
将能够想到数据都可视化,从各个角度来看收集的数据。
使用少量的数据样本做敏感性分析,看看实际需要多少数据,可参考博客《机器学习中训练需要多少样本》。此外,不要认为训练数据越多越好,适合的才是最好的。因此,需要做到以下两点:
创建许多不同的输入特征视图并对其测试,因为我们不知道哪些变量对预测模型问题有所帮助。
设计实验并仔细测试和比较各个特征视图,通过实验数据来告诉我们哪些特征和哪些视图是最具代表性的。有关特征选择的更多内容,可参考博客《特征选择导论》。
使用特征工程在预测建模问题上创建附加的特征和视图。 例子包括:
可以用能想到的任何一种方式预处理数据,以满足算法的要求。预处理的方法有很多,比如特征选择、特征工程以及在输入特征上创建附加视图。常用的预处理操作比如:
如果你想更加深入的研究,可以查看更多关于该主题的资源:
通过这篇文章,你将学到一些小的技巧,可以最大限度地利用数据。具体而言,学到以下三点:
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有