Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >天造地设的主成分与神经网络

天造地设的主成分与神经网络

作者头像
许卉
发布于 2019-07-15 09:29:46
发布于 2019-07-15 09:29:46
5020
举报
文章被收录于专栏:Data AnalystData Analyst

主成分与聚类能否自由切换?

分析架构中常常会涉及到主成分分析的环节,我常常会想,这部分主成分分析能不能用聚类分析去替代呢?结论是不能~

首先,两者强调的重点不同,聚类分析强调的是列与列之间的整合关系,其强项是抽象因子的提取,而主成分分析并不擅长因子的解释,其强项为压缩技术

其次,如果分析架构中嵌入了聚类分析,则很进行新样本的预测数据流转到此环节,分析便戛然而止,数据无法继续向下流动,这种情况便导致嵌入聚类分析的目标不再是新样本的预测,转而变成了老样本的预测,并且解决的是结构性的问题;如果分析架构中嵌入了主成分分析,则此环节的分析虽可以对新老样本进行预测,但是却无法解决结构性的问题

我将他们理解为完全不一样的分析手段。

data analyst

到底用哪个?

聚类分析与主成分分析的分析目的、侧重点不同:

  • 如果分析目的是构建规则与规则筛选,则聚类更为适用;
  • 如果分析目的是预测样本,则主成分分析更为适用。

data analyst

神仙眷侣的主成分与神经网络

主成分与神经网络CNN结合即为主成分神经网络,他们既有相似的地方,也有互补的地方。

相似之处,例如,主成分与神经网络都可以进行新老样本的预测,主成分不擅长解释X之间的关系,没关系,神经也不擅长,神经网络甚至根本无法解释模型中间的暗箱技术

互补之处,例如主成分解决的就是列的压缩问题,而神经网络对于样本列的压缩求之不得,正好,一拍即合

所以啊,主成分与神经网络真的是天造地设的一对儿,主成分中最具有代表性的并不是主成分回归,而是主成分神经网络

data analyst

主成分与决策树方法相克

通常,很少将主成分与决策树结合使用。

决策树专攻结构性问题,然而结构性问题却不是主成分的强项,决策树与主成分结合后虽可以解决预测性的问题,但是与神经网络CNN、logistic相比,效果一定是大打折扣。究其原因在于决策树对于X的要求更加苛刻,X的数量不能过多,而神经网络则对变量的数量无过多限制,因此决策树与主成分相结合并不能对新样本进行预测

所以主成分与决策树很少一起使用。

data analyst

主成分如何预测新样本?

主成分预测新样本并不复杂,下图是基本的预测流程。

即:

  • 通过带Y的原始数据生成碎石图,确定主成分的个数,并保存主成分结构;
  • 利用主成分结构对新样本进行处理,目的在于得到新样本的主成分分值
  • 将主成分结构封装成模型,对新样本的主成分分值进行预测,从而得到最终的预测概率
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Data Analyst 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
机器学习基础知识点全面总结!
有监督学习通常是利用带有专家标注的标签的训练数据,学习一个从输入变量X到输入变量Y的函数映射。Y = f (X),训练数据通常是(n×x,y)的形式,其中n代表训练样本的大小,x和y分别是变量X和Y的样本值。
Ai学习的老章
2023/12/12
4680
机器学习基础知识点全面总结!
教程 | 算法太多挑花眼?教你如何选择正确的机器学习算法
机器学习既是一门科学,也是一种艺术。纵观各类机器学习算法,并没有一种普适的解决方案或方法。事实上,有几个因素会影响你对机器学习算法的选择。
机器之心
2018/07/26
4190
教程 | 算法太多挑花眼?教你如何选择正确的机器学习算法
统计学中常用的数据分析方法汇总
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
Ai学习的老章
2019/08/23
3.6K0
【干货!】统计学最常用的「数据分析方法」清单(下)
根据已掌握的一批分类明确的样品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。
1480
2020/06/01
8090
机器学习模型,全面总结!
附注:除了以上两大类模型,还有半监督学习和强化学习等其他类型的机器学习模型。半监督学习是指在有部分标签数据的情况下,结合监督学习和无监督学习的方法进行模型训练。强化学习是指通过让计算机自动与环境交互,学习出如何最大化奖励的策略。
算法进阶
2023/11/08
4270
机器学习模型,全面总结!
机器学习——集成学习、聚类分析、降维学习
性能优劣不一的个体学习器放在一块儿可能产生的是更加中庸的效果,即比最差的要好,也比最好的要差。那么集成学习如何实现“1 + 1 > 2”呢?这其实是对个体学习器提出了一些要求。
闻说社
2022/09/21
4140
推荐收藏 | 统计学常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
1480
2019/10/10
9850
推荐收藏 | 统计学常用的数据分析方法大总结!
推荐收藏 | 统计学 常用的数据分析方法大总结!
描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。
Sam Gor
2019/09/09
1.5K0
R语言主成分PCA、因子分析、聚类对地区经济研究分析重庆市经济指标|附代码数据
最近我们被客户要求撰写关于地区经济研究分析的研究报告,包括一些图形和统计输出。 建立重庆市经济指标发展体系,以重庆市一小时经济圈作为样本,运用因子分析方法进行实证分析,在借鉴了相关评价理论和评价方法的基础上,本文提取出经济规模、人均发展水平、经济发展潜力、3个主因子,从重庆市统计年鉴选取8个指标构成的指标体系数据对重庆市38个区县经济发展基本情况的八项指标进行分析,并基于主因子得分矩阵对重庆市38个区县进行聚类分析。
拓端
2022/12/12
7380
客户画像中的聚类分析
实际工作中,最常使用的当属回归类模型,其次便是客户画像。即便是评分模型也会涉及到客户画像,由于首富客户的违约特征与普通百姓不同,故需进行区分,信用分池即为客户画像。
许卉
2019/07/15
1.8K0
客户画像中的聚类分析
Python数据分析与实战挖掘
基础篇 书推荐:《用python做科学计算》 扩展库 简介 Numpy数组支持,以及相应的高效处理函数 Scipy矩阵支持,以及相应的矩阵数值计算模块 Matplotlib强大的数据可视化工具、作图库 Pandas强大、灵活的数据分析和探索工具 StatsModels 统计建模和计量经济学,包括描述统计、统计模型估计和推断 Scikit-Learn支持回归、分类、聚类等的强大机器学习库 Keras深度学习库,用于建立神经网络以及深度学习模型 Gensim 文本主题模型的库,文本挖掘用 ----- 贵阳大
企鹅号小编
2018/02/07
3.9K0
Python数据分析与实战挖掘
机器学习工程师需要了解的十种算法
原文:The 10 Algorithms Machine Learning Engineers Need to Know 翻译:KK4SBB 责编:周建丁(zhoujd@csdn.net) 毫无疑问,近些年机器学习和人工智能领域受到了越来越多的关注。随着大数据成为当下工业界最火爆的技术趋势,机器学习也借助大数据在预测和推荐方面取得了惊人的成绩。比较有名的机器学习案例包括Netflix根据用户历史浏览行为给用户推荐电影,亚马逊基于用户的历史购买行为来推荐图书。 那么,如果你想要学习机器学习的算法,该如何入
用户1737318
2018/06/06
5100
Python农产品产量预测数据分析:神经网络、PCA、随机森林、模型融合建模实践
在农业数字化转型浪潮中,如何通过数据驱动提升农产品产量预测精度,成为现代农业发展的核心议题之一(点击文末“阅读原文”获取完整智能体、代码、数据、文档)。
拓端
2025/05/27
1630
Python农产品产量预测数据分析:神经网络、PCA、随机森林、模型融合建模实践
R语言k-means聚类、层次聚类、主成分(PCA)降维及可视化分析鸢尾花iris数据集|附代码数据
最近我们被客户要求撰写关于鸢尾花iris数据集的研究报告,包括一些图形和统计输出。
拓端
2023/02/24
1.9K0
人工智能-机器学习总结
数山有路,学海无涯:机器学习概论 ---- 机器学习的基本原理与基础概念,其要点如下: 机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科; 根据输入输出类型的不同,机器学习
iOSDevLog
2018/06/13
2K0
盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了
推荐理由 对于机器学习算法的盘点,网上屡见不鲜。但目前,还没人能结合使用场景来把问题说明白,而这一点正是本文的目的所在。 在文章中,作者将结合他的实际经验,细致剖析每种算法在实践中的优势和不足。 本文的目的,是务实、简洁地盘点一番当前机器学习算法。尽管人们已做过不少盘点,但始终未能给出每一种算法的真正优缺点。在这里,我们依据实际使用中的经验,将对此详加讨论。 归类机器学习算法,一向都非常棘手,常见的分类标准是这样的:生成/判别、参数/非参数、监督/非监督,等等。 举例来说,Scikit-Learn
AI科技大本营
2018/04/27
1.3K0
盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了
机器学习11:机器学习算法目录(前)
1,误差:误差由偏差(bias)、方差(variance)和噪声(noise)组成;
用户5473628
2019/08/08
8080
python数据分析——在面对各种问题时,因如何做分析的分类汇总
Python数据分析是指使用Python编程语言对数据进行收集、处理、分析和可视化的过程。Python是一种非常流行的编程语言,具有简单易学、代码可读性高、生态系统强大的特点,因此在数据科学领域得到广泛应用。
鲜于言悠
2024/03/20
4020
python数据分析——在面对各种问题时,因如何做分析的分类汇总
算法工程师-机器学习面试题总结(3)
FM(因子分解机)模型和逻辑回归是两种常见的预测建模方法,它们在一些方面有不同的优缺点
机器学习AI算法工程
2023/09/04
9860
算法工程师-机器学习面试题总结(3)
数据挖掘在金融风险预警中的应用!
金融风险预警是金融数据挖掘中的一个重要研究方向,由于金融数据具有类型多样、关系复杂、数据动态性、数据量大等一般特征,此外还有高噪音、非 正态等特征。因此,金融风险预警更有挑战性。运用数据挖掘技术能够从海量的金融数据中发现隐藏在其背后的规律,有效地降低金融机构的运营风险。因此数据挖 掘在金融风险预警有着广阔的应用价值和市场前景。 一、金融风险管理 金融风险指任何可能导致企业或机构财物损失的风险,是企业未来收益的不确定性与波动性。按照金融风险产生根源可将金融风险分为静态与动态两类;按风险涉及 范围可分为微观金融
CDA数据分析师
2018/02/11
1.3K0
数据挖掘在金融风险预警中的应用!
推荐阅读
相关推荐
机器学习基础知识点全面总结!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档