Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >特征工程

特征工程

作者头像
全栈程序员站长
发布于 2021-05-20 01:38:59
发布于 2021-05-20 01:38:59
4550
举报

1.特征工程

  • 特征归一化 问:为什么需要对数值类型的特征做归一化? 分析解答: 为了消除数据特征之间的量纲影响,对特征进行归一化处理,使得不同指标之间具有可比性。 常用方法: (1)线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到【0,1】范围,实现对原始数据的等比缩放。 (2)零均值归一化(Z-Score Normalization)将原始数据映射到均值为0、标准差为1的分布上。

举例梯度下降实例说明归一化的重要性,若两个特征的取值范围不一样,则在学习速率相同的情况下,范围小的特征更新速度会大于取值范围大的特征,需要较多的迭代才能找到最优解。若将两个特征归一化到相同的数值区间,两特征的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

实际运用中,通过梯度下降法求解的模型通常需要归一化,包括线性回归、逻辑回归、支持向量机、神经网络等。但对决策树不适用。 2.类别型特征

  • 类别型特征指在有限选项内取值的特征。
  • 类别型特征原始输入通常是字符串形式
  • 决策树可以直接处理字符串形式的输入
  • 逻辑回归、支持向量机等模型,类别型特征必须经过处理转换成数值型特征才能正确工作。

问题:在对数据进行预处理时,应该怎样处理类别型特征? 知识点:

  • 序号编码:用于处理类别间具有大小关系的数据。高3,中2,低1
  • 独热编码:用于处理类别间不具有大小关系的特征。 对于类别取值较多的情况下使用独热编码需要注意: (1)使用稀疏向量来节省空间。 (2)配合特征选择来降低维度。高维度特征会带来的问题:一:在K近邻算法中,高维空间下两点之间的距离很难得到有效衡量;二逻辑回归中,参数的数量会随着维度的增高而增加,容易引起过拟合;三通常只有部分维度对分类、预测有帮助。
  • 二进制编码:先给每个类别赋予一个类别ID,然后将类别ID对应的二进制编码作为结果。

3 高维组合特征的处理 问题:什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在特征工程中疆场会把一阶离散特征两两组合,构成高阶组合特征。 将组合的特征分别用k维的低维向量表示。

4 组合特征 问题:怎样有效找到组合特征? 基于决策树的特征组合寻找方法。 给定原始输入该如何有效地构造决策树?可采用梯度提升树,该方法的思想是每次都在之前构建的决策树的残差上构建下一颗决策树。

5 文本表示模型 问题:有哪些文本表示模型?它们各有什么优缺点?

  • 词袋模型和N-gram模型 最基础的文本表示模型是词袋模型。就是将每篇文章看成一袋子词,并忽略每个词出现的顺序。用TF-IDF计算每个词的权重,如果一个单词在很多的文章里出现,那么它可能是一个比较通用的词汇,对于区分某篇文章特殊语义的贡献较小,因此对权重做一定惩罚。 将连续出现的n个词组成的词组也作为一个单独的特征放到向量表示中去,构成N-gram。
  • 主体模型 用于从文本库中发现有代表性的主题,并且能够计算出每篇文章的主题分布。
  • 词嵌入与深度学习模型 词嵌入是一类将词向量化的模型的统称,核心思想是将每个词都映射成低维空间上的一个稠密向量。

深度学习模型提供了一种自动地进行特征工程的方式,模型中的每个隐层都可以认为对应着不同抽象层次的特征。 与全连接的网络结构相比,卷积神经网络循环神经网络一方面很好地抓住了文本的特性,另一方面也减少了网络中待学习的参数,提高了训练速度,并且减低了过拟合的风险。

6 Word2Vec Word2Vec是目前最常用的词嵌入模型之一,实际是一种浅层的神经网络模型,有两种网络结构:CBOW,Skip-gram

知识点:Word2Vec,因狄利克雷模型LDA,CBOW,Skip-gram

问题:Word2Vec是如何工作的?它和LDA有什么区别和联系? CBOW的目标是根据上下文出现的词语来预测当前词的生成概率; Skip-gram是根据当前词来预测上下文中各词的生成概率。

区别和联系:

  • LDA是利用文档中单词的共现关系来对单词按主题聚类,也可以理解为对“文档-单词”矩阵进行分解,得到“文档-主题”和“主题-单词”两个概率分布。
  • Word2Vec是对“上下文-单词”矩阵进行学习,其中上下文由周围的几个单词组成,由此得到的词向量表示更多地融入了上下文共现的特征。也就是说,如果两个单词所对应的Word2Vec向量相似度较高,那么他们很可能经常在同样的上下文中出现。

主题模型和词嵌入两方法的差异: 主题模型和词嵌入两类方法最大的不同在于模型本身

  • 主题模型是一种基于概率图模型的生成式模型,其似然函数可以写成若干条件概率连乘的形式
  • 词嵌入模型一般表达为神经网络的形式

7 图像数据不足时的处理方法

知识点:迁移学习、生成对抗网络、图像处理、上采样技术、数据扩充 问题:在图像分类任务中,训练数据 不足会带来什么问题?如何缓解数据量不足带来的问题? 分析: 一个模型所能提供的信息一般来源于两个方面:

  • 训练数据中蕴含的信息;
  • 在模型的形成过程中,人们提供的先验信息。

当训练数据不足时,则需更多先验信息。先验信息可以作用在模型上,数据集上。

具体到图像分类任务上,训练数据不足会导致过拟合。 对应的处理方法:

  • 基于模型的方法,主要是采用降低过拟合风险的措施 包括简化模型(如将非线性模型简化为线性模型)、添加约束项以缩小假设空间(如L1/L2正则化)、集成学习、Dropout超参数等。
  • 基于数据的方法,数据扩充(Data Augmentation)

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/100184.html原文链接:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MLK | 那些常见的特征工程
为了消除不同数据特征之间的量纲影响,我们需要对数据特征进行归一化处理,使得不同指标之间有一定的可比性。常用的归一化方法有:
Sam Gor
2019/07/08
7230
MLK | 那些常见的特征工程
《百面机器学习》笔记-特征工程相关面试题2
例如,特征a有m个取值,特别b 有n个取值,将二者组合就有m*n个组成情况。这时需要学习的参数个数就是 m×n 个
杨熹
2019/05/17
9170
《百面机器学习》读书笔记之:特征工程 & 模型评估
对数值类型的特征做归一化可以将所有的特征都统一到一个大致相同的数值区间内。这样做的目的是消除数据特征之间的量纲影响,使得不同的指标之间具有可比性,帮助在进行迭代优化(如梯度下降)时更快地收敛至最优解。最常用的归一化方法有以下两种:
口仆
2020/08/20
1.7K0
《百面机器学习》读书笔记之:特征工程 & 模型评估
机器学习100问|Word2Vec是如何工作的?它和LDA有什么区别与联系?
CBOW的目标是根据上下文出现的词语来预测当前词的生成概率,如图(a)所示;而Skip-gram是根据当前词来预测上下文中各词的生成概率,如图(b)所示。
Ai学习的老章
2019/07/17
1.3K0
机器学习100问|Word2Vec是如何工作的?它和LDA有什么区别与联系?
算法工程师-机器学习面试题总结(1)
损失函数是在机器学习和优化算法中使用的一种衡量模型预测结果与真实值之间差异的函数。其目标是最小化模型的预测误差,从而提高模型的性能。
机器学习AI算法工程
2023/09/04
6360
算法工程师-机器学习面试题总结(1)
机器学习day2
为了能够使得组合特征避免出现参数过多,过拟合等问题,因此,我们需要找到有效的方法帮助我们进行特征的组合。 以预测问题举例。 输出特征有年龄,性别,购买物品类别,用户类型 组合特征可以如下,满足下面的条件为1,不满足则为0,特征为4维向量。
福贵
2020/06/01
3720
机器学习day2
特征工程(完)
这也是特征工程系列最后一篇文章,介绍特征提取、特征选择、特征构建三个工作,通常特征工程被认为分为这三方面的内容,只是我将前面的数据&特征预处理部分都加入到这个系列。
kbsc13
2019/08/16
9730
NLP(1)——词向量one hot编码词向量编码思想Word2VecEmbeddingSkip-gram的原理负采样
前言:深度学习网络rnn能解决有序的问题,我们就生活在这样一个有序的世界。比如时间,音乐,说话的句子,甚至一场比赛,比如最近正在举办的俄罗斯世界杯。 one hot编码 我们在做分类任务的时候经常用到
DC童生
2018/06/19
4.3K0
资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平
选自Analyticsvidhya 作者:Shivam Bansal 机器之心编译 参与:黄小天、李亚洲、Smith 近日,analyticsvidhya 上出现了一篇题为《30 Questions to test a data scientist on Natural Language Processing [Solution: Skilltest – NLP]》的文章,通过 30 道题的测试,帮助数据科学家了解其对自然语言处理的掌握水平。同时文章还附上了截至目前的分数排行榜,最高得分为 24(超过 25
机器之心
2018/05/09
1.6K0
资源 | 你是合格的数据科学家吗?30道题测试你的NLP水平
词嵌入Word2Vec
⾃然语⾔是⼀套⽤来表达含义的复杂系统。在这套系统中,词是表义的基本单元。顾名思义,词向量是⽤来表⽰词的向量,也可被认为是词的特征向量或表征。**把词映射为实数域向量的技术也叫词嵌⼊(word embedding)。**近年来,词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。
大数据技术与机器学习
2019/11/20
9770
NLP概述和文本自动分类算法详解 | 公开课笔记
文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。
用户1737318
2019/11/19
1.9K0
NLP概述和文本自动分类算法详解 | 公开课笔记
Word2Vec,LDA 知识普及
Word2vec,Word2vec,是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
热心的社会主义接班人
2018/10/22
6790
深度学习核心技术实战 NLP-word2vec
多分类的逻辑回归- softmax模型 word2vec:词向量 one-hot representation 对应位置为1,但不能表达词之间的关系 本质上是对词的一种表示,但是是结合了上下文内容的。无监督模型 词的两种表示: One-hot Representation(独热表示) “苹果”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] 优点:简介,缺点:词之间是孤立的,维数灾难。 Distributed Representation(分布式表示) 词向量或者词嵌入(word embedding)是用一个向量来表示一个词,一定程度上可以用来刻画词之间的语义距离。 给出一个文档,用一个单词序列比如 “我喜欢苹果”,然后对文档中每个不同的单词都得到一个对应的低维向量表示,“苹果”表示为 [0.11, −0.77, −0.71, 0.10, −0.50, …]。 优点:低维、相似词的词向量距离相近,缺点:计算复杂。
微风、掠过
2018/10/09
3520
课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例
新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的热潮来临,有许多新方法来到了NLP领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。 近期,达观数据文本挖掘组负责人张健应邀在雷锋网AI研习社分享了一些NLP方面的知识和案例。 1 达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用
达观数据
2018/03/30
1.5K0
课堂总结 |  达观数据文本挖掘负责人分享文本分类方法和应用案例
算法金 | 没有思考过 Embedding,不足以谈 AI
在当今的人工智能(AI)领域,Embedding 是一个不可或缺的概念。如果你没有深入理解过 Embedding,那么就无法真正掌握 AI 的精髓。接下来,我们将深入探讨 Embedding 的基本概念。
算法金
2024/06/27
7910
算法金 | 没有思考过 Embedding,不足以谈 AI
词向量表示[通俗易懂]
语音中,用音频频谱序列向量所构成的矩阵作为模型的输入;在图像中,用图像的像素构成的矩阵数据作为模型的输入。这些都可以很好表示语音/图像数据。而语言高度抽象,很难刻画词语之间的联系,比如“麦克风”和“话筒”这样的同义词,从字面上也难以看出这两者意思相同,即“语义鸿沟”现象。
全栈程序员站长
2022/09/01
1.5K0
词向量表示[通俗易懂]
NLP从词袋到Word2Vec的文本表示
在NLP(自然语言处理)领域,文本表示是第一步,也是很重要的一步,通俗来说就是把人类的语言符号转化为机器能够进行计算的数字,因为普通的文本语言机器是看不懂的,必须通过转化来表征对应文本。早期是基于规则的方法进行转化,而现代的方法是基于统计机器学习的方法。
mantch
2019/07/30
1.4K0
NLP从词袋到Word2Vec的文本表示
超详细总结之Word2Vec(一)原理推导[通俗易懂]
本章是介绍Word2Vec的原理推导部分,后面还会有基于TensorFlow的Word2Vec代码实现讲解。
全栈程序员站长
2022/08/30
2.4K0
超详细总结之Word2Vec(一)原理推导[通俗易懂]
doc2vec和word2vec(zigbee简介及应用)
在本文中,你将学习什么是doc2vec,它是如何构建的,它与word2vec有什么关系,你能用它做什么,并且没有复杂的数学公式。
全栈程序员站长
2022/08/02
1K0
doc2vec和word2vec(zigbee简介及应用)
全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe
选自arXiv 作者:Vineet John 机器之心编译 参与:吴攀、李亚洲、蒋思源 文本特征提取是自然语言处理的核心问题之一,近日,加拿大滑铁卢大学的 Vineet John 在 arXiv 发布
机器之心
2018/05/07
1.8K0
全面解读用于文本特征提取的神经网络技术:从神经概率语言模型到GloVe
相关推荐
MLK | 那些常见的特征工程
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档