首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习中有哪些特征选择的方法呢?

上次的内容中我们介绍了什么是特征,特征对于机器学习中模型训练的重要性不言而喻,但是特征选择的步骤亦不能掉以轻心。机器学习模型训练时,我们有必要选择合适的、有意义的特征来输入到模型中。那么,机器学习中有哪些常用的特征选择方法呢?

显而易见的,特征选择时我们主要考虑特征值与目标的相关性,特征值跟目标越相关越有必要选择。

机器学习中常用的特征选择的方法有:

方差选择法:方差选择法通过计算各个特征的方差,根据事先设定好的阈值来进行特征的筛选,选取特征方差大于一定阈值的,毕竟那些方差接近于零的特征在样本中分布并没有明显差异。此外,方差选择法只需要特征值即可,并不需要样本标签的参与。

相关系数法:不管是皮尔森系数、还是距离相关系数等等。都是在定义了特征之间相关性计算方式的前提下,以此来衡量特征值与样本标签之间的相关性,以此作为特征选择的基础。不同的相关性的定义会存在一定的局限性,比如皮尔森系数只能衡量变量间的线性相关,而有些相关系数表征的空间不够丰富等。

卡方检验法:经典的卡方检验是检验类别型变量之间的相关性的。在假设自变量和因变量取值范围的情况下,通过考虑自变量与因变量样本出现的频数与期望的差距,来衡量自变量与因变量之间的相关性。

基于树模型的方法:决策树类模型天然具有特征选择的能力,不管是GBDT、XGBoost、LightGBM,都可以用作基模型来进行特征选择,从而选择出高效的特征进一步训练其他模型。

注意力机制:在深度学习中,通过将特征值转化为向量表示输入到神经网络中,通过添加注意力机制来学校不同输入值的相对于样本标签的权重值,也可以看作是一个特征选择的过程。

好了,今天就讲到这里,后续更精彩哦~

码字不易,欢迎点赞、关注+收藏

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210213A00VAJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券