Loading [MathJax]/jax/input/TeX/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >机器学习新手常犯的6大错误

机器学习新手常犯的6大错误

作者头像
IT派
发布于 2018-07-30 09:11:45
发布于 2018-07-30 09:11:45
5400
举报
文章被收录于专栏:IT派IT派

机器学习中有很多构建产品或解决方案的方式,每种方式的假设情况都不一样。很多时候,如何找到合理的假设并不容易。机器学习初学者经常会犯一些事后觉得蠢爆了的错误。本文作者创建了一个机器学习新手工程师常犯的错误清单。希望大家可以从中学习,创建更鲁棒的解决方案。

理所当然地使用默认损失函数

在刚入门的时候,均方误差作为损失函数是很好的默认选择。但是当需要处理现实问题的时候,这种未经专门设计的损失函数很少能给出最优解。

拿欺诈检测为例。为了与你真正的商业目标一致,需要按照欺诈造成的损失美元金额的比例惩罚假负类。使用均方误差能给你一个还不错的结果,但不会是当前最佳的结果。

要点:每一次都自定义损失函数,使之紧密匹配你的目标。

对所有问题都使用一种算法/方法

很多人一旦完成了入门教程之后,就开始在所有的案例中都使用同一种算法。这很常见,他们觉得这种算法的效果和其它算法是一样的。这种假设是很糟糕的,最终会带来很差的结果。

解决办法是让数据为你选择模型。当你把数据预处理之后,将其馈送到多个不同的模型中去,看看结果如何。你将会了解哪些模型最适用,而哪些模型并不适合。

要点:如果你一直使用同一种算法,这可能意味着你的结果并不是最好的。

忽略异常值

异常值有时候很重要,有时候又可以忽略不计,视情况而定。以收入预测为例,有时候收入会突然出现很大的变动,观察这种现象并了解其原因是很有帮助的。有时候异常值由某种误差造成,那么这时可以放心地忽略它们,并将其从你的数据中删除。

从模型的角度来看,有些模型对异常值更加敏感。以 Adaboost 为例,它会将异常值当做重要的例子,并给予异常值极大的权重,而决策树可能只是简单的把异常值当做一个错误分类(false classification)。

要点:每一次开始工作之前,先仔细观察数据,决定异常值是否应该被忽略,如果无法决定,就更仔细地观察。

未正确处理周期特征

一天 24 小时、一周七天、一年 12 个月,以及风向都是周期特征。很多机器学习新手工程师不知道把这些特征转换成表示能够保存信息,如 23 时和 0 时很接近。

以小时为例,最佳处理方式是计算它的 sin 和 cos,这样你可以将该周期特征表示为一个圆的 (x,y) 坐标。在以这种方式表示的时间中,23 时和 0 时就是在数值上紧挨着的两个数,仅此而已。

要点:如果你在研究中遇到周期特征,但没有将其转换成表示,那你就是在给模型添加垃圾数据。

未经归一化的 L1/L2 正则化

L1 和 L2 正则化惩罚较大的系数,是一种对线性或 logistic 回归进行正则化的常用方式。但是,很多机器学习工程师没有意识到使用正则化之前对特征进行归一化的重要性。

假设你有一个线性回归模型,其中一个特征是「交易金额」。如果交易金额的单位是美元,那么它的系数应该是单位为美分的系数的 100 倍。这可能会引起偏差,使模型惩罚实际较小的特征。为了避免该问题,需要将这些特征进行归一化,这样正则化对于所有特征都是平等的。

要点:正则化很好用,但是如果你不把特征归一化,会出现很让人头疼的问题。

把线性回归或 logistic 回归的系数绝对值当作判断特征重要性的依据

很多现成的线性回归器为每个系数返回 p 值,一些机器学习新手工程师认为对于线性模型而言,系数的值越大,则该特征越重要。这并不准确,因为变量的大小会改变系数的绝对值。如果特征是共线的,则系数可以从一个特征转换到另一个特征。数据集的特征越多,特征是共线的可能性就越大,这种对特征重要性的简单解释的可信度就越低。

要点:了解哪些特征对结果的影响力最大非常重要,但是仅凭系数无法确定。

做一些项目并且获得好的结果,感觉就像赢了一百万!你努力工作,研究结果证明你做的不错,但是和任何行业一样,魔鬼总是隐藏在细节中,精密的图表也可能隐藏偏差和误差。本文列出的错误并不是全部,只是想刺激读者思考你的解决方案中可能隐藏哪些细微问题。要想获取好的结果,按照流程工作很重要,并且仔细检查确保不犯常见错误。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 IT派 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习初学者常犯的六大错误总结
AiTechYun 编辑:yining 在机器学习中,有很多方法来构建产品或解决方案,而且每种方法都有不同的假设。很多时候,如何识别哪些假设是合理的并不是件容易的事情。在最初的操作中,机器学习新手总会犯一些事后看来往往会觉得很傻的错误。所以,本文列举出了机器学习初学者所犯的6大错误。希望你可以从这些常见错误中学习,并创建更具鲁棒性的解决方案,从而带来真正的价值。 1.认为使用默认损失函数是理所当然的 均方误差很大!在刚开始的时候,这确实是一个令人惊讶的默认值。但是当它涉及到实际应用时,这个现成的损失函数对于
企鹅号小编
2018/01/31
6060
新手机器学习工程师最容易犯的错误Top6
在机器学习中,有许多方法来构建产品或解决方案,每种方法都假设不同的东西。很多时候,如何识别哪些假设是合理的并不明显。刚接触机器学习的人会犯错误,事后想想,这些错误往往会让人觉得愚蠢。我列了一个清单,上面列出了机器学习工程师新手最常犯的错误。希望你能从这些常见的错误中吸取教训,创建更健壮的解决方案,从而带来真正的价值。
石晓文
2019/11/15
3960
值得一看——机器学习中容易犯下的错
前言 在工程中,有多种方法来构建一个关键值存储,并且每个设计都对使用模式做了不同的假设。在统计建模,有各种算法来建立一个分类,每一个算法的对数据集有不同的假设。 在处理少量的数据时,尽量多的去尝试更多的算法是合理的,并且去选择最好的算法建立在实验成本低的情况下。但是,当我们碰到“大数据”时,就需要对数据进行前期分析,然后相应的设计建模流程。(例如预处理、建模、优化算法、评价,产品化) 现在出现了很多的算法,而且有几十种方法来解决给定的建模问题。每个模型假设不同的东西,如何使用和验证哪些假设是否合理的其实并不
计算机视觉研究院
2018/04/17
9940
机器学习实践中应避免的七种常见错误
摘要:在机器学习领域,每个给定的建模问题都存在几十种解法,本文作者认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤其是“大数据”)的模型算法。 1. 想当
用户1332428
2018/03/08
8690
机器学习实践中应避免的七种常见错误
机器学习实践中应避免的七种常见错误
【编者按】在机器学习领域,每个给定的建模问题都存在几十种解法,每个模型又有难以简单判定是否合理的不同假设。在这种情况下,大多数从业人员倾向于挑选他们熟悉的建模算法,本文作者则认为,模型算法的假设并不一定适用于手头的数据;在追求模型最佳性能时,重要的是选择适合数据集(尤其是“大数据”)的模型算法。 以下为正文: 统计建模和工程开发很相似。 在工程开发中,人们有多种方法搭建一套键-值存储系统,每种设计针对使用模式有一套不同的假设。在统计建模中,也有很多算法来构造一个分类器,每种算法对数据也有各自的假设集合。 当
用户1737318
2018/06/05
4060
【机器学习】机器学习实践中的7种常见错误
本文作者是 Codecademy 的分析主管 Cheng-TaoChu,其专长是数据挖掘和机器学习,之前在 Google、LinkedIn和Square就职。 ---- 统计建模非常像工程学。 在工程学中,有多种构建键-值存储系统的方式,每个设计都会构造一组不同的关于使用模式的假设集合。在统计建模中,有很多分类器构建算法,每个算法构造一组不同的关于数据的假设集合。 当处理少量数据时,尝试尽可能多的算法,然后挑选最好的一个的做法是比较合理的,因为此时实验成本很低。但当遇到“大数据”时,提前分析数据,然后设计相
陆勤_数据人网
2018/02/27
7780
机器学习回归模型的最全总结!
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将介绍回归分析概念、7种重要的回归模型、10 个重要的回归问题和5个评价指标。
算法进阶
2023/09/21
2.1K0
机器学习回归模型的最全总结!
机器学习回归模型相关重要知识点总结
来源:机器学习研习院本文约3200字,建议阅读10+分钟本文为你总结10个重要的回归问题和5个重要的回归问题评价指标。 回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。 一、线性回归的假设是什么? 线性回归有四个假设: 线性:自变量(x)和因变量(y)之间应该存在线性关系,这意味着x值的变化也应该在相同方向上改变y值。 独立性:特征应该相互独立,这意味着最小的多重共线性。 正态性:残差应该是正态分布的。 同方差性:回归线周围数据点的
数据派THU
2022/09/14
1.5K0
机器学习回归模型相关重要知识点总结
算法工程师-机器学习面试题总结(1)
损失函数是在机器学习和优化算法中使用的一种衡量模型预测结果与真实值之间差异的函数。其目标是最小化模型的预测误差,从而提高模型的性能。
机器学习AI算法工程
2023/09/04
6460
算法工程师-机器学习面试题总结(1)
【机器学习笔记】:解读正则化,LASSO回归,岭回归
在机器学习的学习过程中,我们会经常听到正则化这个词,在开始入门学习的时候还经常与标准化混淆。到底什么是正则化呢?本篇我们将由浅入深详细解读什么是正则化,以及LASSO回归和岭回归的介绍。
Python数据科学
2018/12/28
5K0
【机器学习笔记】:解读正则化,LASSO回归,岭回归
【机器学习】——【线性回归模型】——详细【学习路线】
线性回归是最基本的机器学习模型之一,广泛应用于各种科学研究和工程领域。它通过找到数据之间的线性关系来进行预测和解释。本教程将详细介绍线性回归的理论基础、数学原理、实现方法及应用案例,帮助读者全面掌握线性回归模型。
小李很执着
2024/06/19
3540
【机器学习】——【线性回归模型】——详细【学习路线】
线性回归的正则化改进(岭回归、Lasso、弹性网络),最小二乘法和最大似然估计之间关系,正则化
对于最小二乘法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值和观测值之差的平方和最小。而对于最大似然法,当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大。显然,这是从不同原理出发的两种参数估计方法。
zhangjiqun
2024/12/14
5120
线性回归的正则化改进(岭回归、Lasso、弹性网络),最小二乘法和最大似然估计之间关系,正则化
长文!机器学习笔试精选 100 题【附详细解析】
机器学习是一门理论性和实战性都比较强的技术学科。在应聘机器学习相关工作岗位时,我们常常会遇到各种各样的机器学习问题和知识点。为了帮助大家对这些知识点进行梳理和理解,以便能够更好地应对机器学习笔试包括面试,红色石头将之前连载的一些笔试题进行整理,并额外增加了一些典型题目,汇总成 100 道选择题,每道题都有答案和详细的解析!建议收藏!
红色石头
2022/01/12
5.5K0
长文!机器学习笔试精选 100 题【附详细解析】
算法工程师-机器学习面试题总结(2)
线性回归是一种用于建立和预测变量之间线性关系的统计模型。其基本思想是假设自变量(输入)和因变量(输出)之间存在线性关系,通过建立一个线性方程来拟合观测数据,从而进行预测和推断。
机器学习AI算法工程
2023/09/04
6340
算法工程师-机器学习面试题总结(2)
突破最强算法模型,回归!!
读者问:“我听说在某些回归算法中,如岭回归和LASSO,数据标准化或归一化非常重要。但是,我不太清楚什么时候以及为什么需要进行这些步骤。方便大概解释一下吗?”
Python编程爱好者
2023/12/18
3880
突破最强算法模型,回归!!
《自然语言处理实战入门》 ---- 笔试、面试题:机器学习基础(51-100)
若 λ 较大时,意味着模型复杂度较低,这时候容易发生欠拟合,对应偏差增大,方差减小。做个简单总结:
流川疯
2021/03/15
2K0
回归问题的评价指标和重要知识点总结
回归分析为许多机器学习算法提供了坚实的基础。在这篇文章中,我们将总结 10 个重要的回归问题和5个重要的回归问题的评价指标。
deephub
2022/11/11
1.9K0
回归问题的评价指标和重要知识点总结
【干货】机器学习中的五种回归模型及其优缺点
【导读】近日,机器学习工程师 George Seif 撰写了一篇探讨回归模型的不同方法以及其优缺点。回归是用于建模和分析变量之间关系的一种技术,常用来处理预测问题。博文介绍了常见的五种回归算法和各自的特点,其中不仅包括常见的线性回归和多项式回归,而且还介绍了能用于高维度和多重共线性的情况的Ridge回归、Lasso回归、ElasticNet回归,了解它们各自的优缺点能帮助我们在实际应用中选择合适的方法。 编译 | 专知 参与 | Yingying 五种回归模型及其优缺点 线性和逻辑斯蒂(Logistic)回
WZEARW
2018/04/08
9.6K0
【干货】机器学习中的五种回归模型及其优缺点
机器学习损失函数、L1-L2正则化的前世今生
前言: 我们学习一个算法总是要有个指标或者多个指标来衡量一下算的好不好,不同的机器学习问题就有了不同的努力目标,今天我们就来聊一聊回归意义下的损失函数、正则化的前世今生,从哪里来,到哪
机器学习算法工程师
2018/03/06
2K0
机器学习损失函数、L1-L2正则化的前世今生
机器学习算法(一):逻辑回归模型(Logistic Regression, LR)[通俗易懂]
2.1.1 为什么损失函数不用最小二乘?即逻辑斯蒂回归损失函数为什么使用交叉熵而不是MSE?
全栈程序员站长
2022/09/14
4.4K0
机器学习算法(一):逻辑回归模型(Logistic Regression, LR)[通俗易懂]
推荐阅读
相关推荐
机器学习初学者常犯的六大错误总结
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档