前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >2.1.3 特征工程

2.1.3 特征工程

原创
作者头像
用户10270559
修改于 2023-01-01 14:32:54
修改于 2023-01-01 14:32:54
3670
举报

特征工程是什么?

数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。

特征工程定义

特征工程是指在机器学习中,在数据准备阶段之后,在构建模型和算法训练之前,对已经经过预处理的原始数据进一步提取和选择(数据的)(对本次任务)有效的特征,以供模型和算法来使用。

顾名思义,特征工程是一种工程活动,有很多对数据的处理在一定程度上都可以算法是特征工程,比方说数据清洗、数据选择、数据构造、数据提取等。

所谓数据的特征,被抽象出来的信息,可以被机器或人类加以利用和识别。机器学习如何识别人脸,我们需要为机器学习汇总和整理好人脸的特征,交给机器来学习,这就是特征工程需要做的事情。

本质对数据的降维

把“数据样本”拆解为“多个特征的组合”的过程就是降维的过程。例如把图片分解为像素,进而意识到像素就是50x50个像素点,每一个像素都是一个维度,就是对图像数据的降维;再比如,对立方体的关键点进行取样,而不是整个立方体取样,也是一种降维,亦即抓住主要特征、能够在数学上足够定义一个立方体的数据点来描述一个立方体,而不是对立方体空间内的所有点取样。

特征工程的基本方法

特征工程非常依赖实践,在项目实战中学习特征工程才最有效。

特征提取

在特征选择之前,对原始数据提取(转换),“自动”构建新的特征,即具有明显物理意义或统计意义的特征,例如文本处理当中的词袋模型。后续在实战项目中会详细讲到。

深度学习每一个隐藏层就相当于是在对数据特征进行提取,只是每一层都是在进行不同层次的提取。在后续实战项目中会看到,浅层是边缘特征,深层是整体轮廓特征。

特征选择

在数据集中,从特征集合中选择出有用的子集,就是特征选择。

主要目的是为了去除无关特征,降低学习任务的难度,模型也会变得简单,降低复杂度。

这会牺牲一部分性能,但这就是取舍,模型复杂度和性能职之间的取舍。

特征构建

人工构建新的特征,观察原始数据,洞察力和分析能力,思考问题的潜在形式和数据结构,主要是混合、组合、分解、切分,需要对业务领域和数据来源非常熟悉。完全人为的人工构建数据特征。例如日期分拆为年月日或者极度,语音数据映射到频域等

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
特征工程(完)
这也是特征工程系列最后一篇文章,介绍特征提取、特征选择、特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据&特征预处理部分都加入到这个系列。
kbsc13
2019/08/16
9730
特征工程
特征工程本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。一般来说包含以下几个方面的内容:
爱编程的小明
2022/09/06
1.1K0
特征工程
【转载】机器学习之特征工程(有删改)
本文是一篇关于特征工程的总结类文章,如有不足之处或理解有偏差的地方,还望大家多多指点。
marsggbo
2019/02/23
8380
【转载】机器学习之特征工程(有删改)
特征工程7种常用方法
向AI转型的程序员都关注了这个号👇👇👇 机器学习AI算法工程   公众号:datayx 一、特征工程 简单说,特征工程是能够将数据像艺术一样展现的技术。因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力; 本质上说,呈现给算法的数据应该能拥有基本数据的相关结构或属性 。当你做特征工程时,其实是将数据属性转换为数据特征的过程,属性代表了数据的所有维度,在数据建模时,如果对原始数据的所有属性进行学习,并不能很好的找到数据的潜在趋势,而通过特征工程对你的数据进行预处理的话,你的算法模型能够减少受到噪声
机器学习AI算法工程
2022/09/20
2.5K0
特征工程7种常用方法
使用sklearn做单机特征工程
出自博客园 链接:http://www.cnblogs.com/jasonfreak/p/5448385.html 1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,
智能算法
2018/04/02
9730
使用sklearn做单机特征工程
专题 | 特征工程简介 (文末免费送AI币)
作者 | AI小昕 编辑 | 磐石 出品 | 磐创AI技术团队 【磐创AI导读】:本文主要介绍特征工程中的数据预处理、特征选择、降维等环节。欢迎大家点击上方蓝字关注我们的公众号:磐创AI。 特征工程是
磐创AI
2018/07/03
6200
【机器学习】特征工程
作者:JasonDing1354 引言 在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。 特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义 数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。 影响预测结果好坏的因素:模型的选择、可用的数据、特征的提取。 优质的特征往往描述了数据的固有
陆勤_数据人网
2018/02/27
1.8K0
【机器学习】特征工程
特征工程全过程
  有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面:
机器学习AI算法工程
2019/10/29
1.5K0
特征工程全过程
机器学习 | 特征工程综述
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。
week
2021/11/29
4090
机器学习 | 特征工程综述
《深度剖析:特征工程—机器学习的隐秘基石》
在机器学习的宏大版图中,特征工程宛如一座隐藏在幕后却又至关重要的基石。它默默发挥着作用,将原始数据雕琢成模型能够有效学习和理解的形态,深刻影响着机器学习模型的性能与表现。
程序员阿伟
2025/02/28
1890
特征工程
特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面
week
2019/08/29
7870
使用sklearn做特征工程
目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换   2.6 回顾 3 特征选择   3.1 Filter     3.1.1 方差选择法     3.1.2 相关系数法     3.1.3 卡方检验     3.1.4 互信息法   3.2 Wrapper     3.2.1 递归特征
机器学习AI算法工程
2018/03/14
2.3K0
使用sklearn做特征工程
特征工程完全总结
目录 1 特征工程是什么? 2 数据预处理   2.1 无量纲化     2.1.1 标准化     2.1.2 区间缩放法     2.1.3 标准化与归一化的区别   2.2 对定量特征二值化   2.3 对定性特征哑编码   2.4 缺失值计算   2.5 数据变换 3 特征选择   3.1 Filter     3.1.1 方差选择法     3.1.2 相关系数法     3.1.3 卡方检验     3.1.4 互信息法   3.2 Wrapper     3.2.1 递归特征消除法   3.3
用户1332428
2018/03/09
1.6K0
特征工程完全总结
机器学习:基于scikit-learn进行特征工程
今天给大家分享如何基于机器学习建模全能包scikit-learn进行特征工程feature-engineering。
皮大大
2024/07/22
2740
特征工程
特征工程和数据清洗转换是比赛中至关重要的一块,因为数据和特征决定了机器学习的上限,而算法和模型只是逼近这个上限而已,所以特征工程的好坏往往决定着最后的结果
mathor
2020/03/31
5320
特征工程
《C++解锁机器学习特征工程:构建智能数据基石》
在当今机器学习蓬勃发展的浪潮中,特征工程犹如一座坚实的基石,奠定了模型成功的基础。而 C++以其卓越的性能和强大的底层控制能力,在实现机器学习特征工程方面发挥着独特且关键的作用。
程序员阿伟
2024/12/18
1440
​特征工程系列:特征构造之概览篇
关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~
木东居士
2019/10/08
1.1K0
​特征工程系列:特征构造之概览篇
独家 | 一文读懂特征工程
本文结构 1. 概述 机器学习被广泛定义为“利用经验来改善计算机系统的自身性能”。事实上,“经验”在计算机中主要是以数据的形式存在的,因此数据是机器学习的前提和基础。数据来源多种多样,它可以是结构数据,如数值型、分类型,也可以是非结构数据,如文本、语音、图片、视频。对于所有机器学习模型,这些原始数据必须以特征的形式加入到机器学习模型当中,并进行一定的提取和筛选工作。所谓特征提取,就是逐条将原始数据转化为特征向量的形式,此过程涉及数据特征的量化表示;而特征筛选是在已提取特征的基础上,进一步对高维度和
数据派THU
2018/01/29
1.2K0
独家 | 一文读懂特征工程
图解机器学习特征工程
上图为大家熟悉的机器学习建模流程图(扩展阅读:一文全览机器学习建模流程(Python代码)),整个建模流程非常重要的一步,是对于数据的预处理和特征工程,它很大程度决定了最后建模效果的好坏。
算法进阶
2023/09/01
1.4K0
图解机器学习特征工程
七种常用特征工程
像一个优秀的工程师一样使用机器学习,而不要像一个机器学习专家一样使用机器学习方法。 ---google 当在做数据挖掘和数据分析时,数据是所有问题的基础,并且会影响整个工程的流程。相比一些复杂的算法,如何灵活的处理好数据经常会取到意想不到的效益。而处理数据不可或缺的需要使用到特征工程。 一、什么是特征工程 简单的说,特征工程是能够将数据像艺术一样展现的技术。为什么这么说呢?因为好的特征工程很好的混合了专业领域知识、直觉和基本的数学能力。但是最有效的数据呈现其实并不涉及任何的数据运算。
智能算法
2018/04/02
1.6K0
七种常用特征工程
相关推荐
特征工程(完)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档