Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >数据科学相关的一些概念及适合初学者的框架

数据科学相关的一些概念及适合初学者的框架

原创
作者头像
老码小张
发布于 2019-01-26 07:51:15
发布于 2019-01-26 07:51:15
7850
举报
文章被收录于专栏:玩转全栈玩转全栈

一、一些基本概念

1、K近邻法(属于哪个区域\领域的问题)

最近邻法是最简单的预测模型之一,它没有多少数学上的假设,也不要求任何复杂的处 理,它所要求的仅仅是:

• 某种距离的概念

• 一种彼此接近的点具有相似性质的假设

最近邻法却非常有意地忽略了大量信息,因为对每一个新的数据点进行预测只依赖于少量 最接近它的点

2、朴素贝叶斯(是或者不是的问题)

朴素贝叶斯算法也是一个比较简单的模型,基于他最广泛的应用莫过于鉴别垃圾邮件了,他的原理也是相对来说比较好用文字描述的,一个样本中具备某些特征值

3、线性回归(数据与数据之间的等式关系)

• 最小二乘(每个样本的等式左边于右边差值的平方和最小问题)

• 梯度下降(倒数慢慢变小的方向的那个最小值,想想一下x平方这个函数吧,最小值点在哪呢?)

• 极大使然估计(方差和最小,和最小二乘原理有点类似)

4、多重回归分析(不是简单地y=ax+b的问题啦,设计多个参数,因此,又牵扯到降维)

5、逻辑回归,逻辑函数(seigema函数的意思,并非离散的不是0,就是1,换句话说,就是可以求导被)

6、支持向量机,当地维度无法区分的时候,尝试将数据放到一个更高维度处理。

7、决策树,同样是可以做成一个预测模型,计算量比较大,而且往往对于测试数据来说,拟合比较完美,最怕出现黑天鹅。

8、随机森林,多个决策树不就是一个森林吗?你一个决策树容易造成过拟合现象,那好,多个决策树来被投票,看那个效果比较好。

二、数据科学必学框架Scikit-learn

Scikit-learn的六大功能

Scikit-learn的基本功能主要被分为六大部分:分类回归聚类数据降维模型选择数据预处理

分类是指识别给定对象的所属类别,属于监督学习的范畴,最常见的应用场景包括垃圾邮件检测和图像识别等。目前Scikit-learn已经实现的算法包括:支持向量机(SVM),最近邻,逻辑回归,随机森林,决策树以及多层感知器(MLP)神经网络等等。

需要指出的是,由于Scikit-learn本身不支持深度学习,也不支持GPU加速,因此这里对于MLP的实现并不适合于处理大规模问题。有相关需求的读者可以查看同样对Python有良好支持的Keras和Theano等框架。

回归是指预测与给定对象相关联的连续值属性,最常见的应用场景包括预测药物反应和预测股票价格等。目前Scikit-learn已经实现的算法包括:支持向量回归(SVR),脊回归,Lasso回归,弹性网络(Elastic Net),最小角回归(LARS ),贝叶斯回归,以及各种不同的鲁棒回归算法等。可以看到,这里实现的回归算法几乎涵盖了所有开发者的需求范围,而且更重要的是,Scikit-learn还针对每种算法都提供了简单明了的用例参考。

聚类是指自动识别具有相似属性的给定对象,并将其分组为集合,属于无监督学习的范畴,最常见的应用场景包括顾客细分和试验结果分组。目前Scikit-learn已经实现的算法包括:K-均值聚类,谱聚类,均值偏移,分层聚类,DBSCAN聚类等。

数据降维是指使用主成分分析(PCA)、非负矩阵分解(NMF)或特征选择等降维技术来减少要考虑的随机变量的个数,其主要应用场景包括可视化处理和效率提升。

模型选择是指对于给定参数和模型的比较、验证和选择,其主要目的是通过参数调整来提升精度。目前Scikit-learn实现的模块包括:格点搜索,交叉验证和各种针对预测误差评估的度量函数。

数据预处理是指数据的特征提取和归一化,是机器学习过程中的第一个也是最重要的一个环节。这里归一化是指将输入数据转换为具有零均值和单位权方差的新变量,但因为大多数时候都做不到精确等于零,因此会设置一个可接受的范围,一般都要求落在0-1之间。而特征提取是指将文本或图像数据转换为可用于机器学习的数字变量。

需要特别注意的是,这里的特征提取与上文在数据降维中提到的特征选择非常不同。特征选择是指通过去除不变、协变或其他统计上不重要的特征量来改进机器学习的一种方法。

总结来说,Scikit-learn实现了一整套用于数据降维,模型选择,特征提取和归一化的完整算法/模块,虽然缺少按步骤操作的参考教程,但Scikit-learn针对每个算法和模块都提供了丰富的参考样例和详细的说明文档。

入门姿势最佳方式是学习他的example啦,举个栗子:手写数字是识别的例子

直接就把文件链接中的

ipynb文件下载了,在jupyterlab中打开跑起即可,可以一步一步的看执行结果,便于理解。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Scikit-learn
基于SciPy,目前开发者们针对不同的应用领域已经发展出了为数众多的分支版本,它们被统一称为Scikits,即SciPy工具包的意思。而在这些分支版本中,最有名,也是专门面向机器学习的一个就是Scikit-learn。 Scikit-learn项目最早由数据科学家 David Cournapeau 在 2007 年发起,需要NumPy和SciPy等其他包的支持,是Python语言中专门针对机器学习应用而发展起来的一款开源框架。 和其他众多的开源项目一样,Scikit-learn目前主要由社区成员自发进行维护
iOSDevLog
2018/07/05
8000
大数据测试学习笔记之Python工具集
这是2018年度业余主要学习和研究的方向的笔记:大数据测试 整个学习笔记以短文为主,记录一些关键信息和思考 预计每周一篇短文进行记录,可能是理论、概念、技术、工具等等 学习资料以IBM开发者社区、华为开发者社区以及搜索到的相关资料为主 我的公众号:开源优测 大数据测试学习笔记之Python工具集 简介 在本次笔记中主要汇总Python关于大数据处理的一些基础性工具,个人掌握这些工具是从事大数据处理和大数据测必备技能 主要工具有以下(包括但不限于): numpy pandas SciPy Scikit-L
苦叶子
2018/04/09
1.6K0
归一化的作用,sklearn 安装
1)概率模型不需要归一化,因为这种模型不关心变量的取值,而是关心变量的分布和变量之间的条件概率;
zhangjiqun
2024/12/14
1020
归一化的作用,sklearn 安装
Scikit-learn从入门到放弃
Scikit-learn(也称sklearn)是基于Python编程语言的机器学习工具,是简单高效的数据挖掘和数据分析工具,它建立在NumPy、SciPy和matplotlib等库的基础上,可在各种环境中重复使用。其基本功能主要被分为六大部分:分类、回归、聚类、数据降维、模型选择以及数据预处理。
愷龍
2024/08/19
2390
Scikit-learn从入门到放弃
【机器学习】在【PyCharm中的学习】:从【基础到进阶的全面指南】
机器学习中的监督学习方法种类繁多,适用于不同类型的任务和数据集。下面详细介绍几种常见的监督学习方法,包括它们的基本原理、适用场景以及优缺点。
小李很执着
2024/07/02
5210
【机器学习】在【PyCharm中的学习】:从【基础到进阶的全面指南】
深入Scikit-learn:掌握Python最强大的机器学习库
在人工智能大潮的推动下,机器学习作为一项核心技术,其重要性无需过多强调。然而,如何快速高效地开展机器学习实验与开发,则是许多科研工作者和工程师们面临的挑战。Python作为一种简洁易读、拥有丰富科学计算库的编程语言,已广泛应用于机器学习领域。而在Python的众多机器学习库中,Scikit-learn以其全面的功能、优良的性能和易用性,赢得了众多用户的喜爱。在本篇文章中,我们将深入探讨Scikit-learn的使用方法和内部机制,帮助读者更好地利用这一工具进行机器学习实验。
TechLead
2023/10/21
1.7K0
深入Scikit-learn:掌握Python最强大的机器学习库
从入门到精通Python机器学习:scikit-learn实战指南
在数据科学和机器学习领域,Python以其简洁的语法和强大的库支持,成为了许多开发者和研究者的首选语言。而在众多Python机器学习库中,scikit-learn以其易用性、灵活性和强大的算法集合,成为了最受欢迎的库之一。本文将深入探讨scikit-learn的原理和应用,并通过项目案例展示其在实际问题解决中的强大能力。
颜淡慕潇
2024/07/17
1.3K0
从入门到精通Python机器学习:scikit-learn实战指南
数据科学系列:sklearn库主要模块功能简介
作为一名数据分析师,当我初次接触数据分析三剑客(numpy、pandas、matplotlib)时,感觉每个库的功能都很多很杂,所以在差不多理清了各模块功能后便相继推出了各自教程(文末附链接);后来,当接触了机器学习库sklearn之后,才发现三剑客也不外如是,相比sklearn简直是小巫见大巫;再后来,又开始了pyspark的学习之旅,发现无论是模块体积还是功能细分,pyspark又都完爆sklearn;最近,逐渐入坑深度学习(TensorFlow框架),终于意识到python数据科学库没有最大,只有更大……
luanhz
2020/09/08
2.1K0
数据科学系列:sklearn库主要模块功能简介
资源 | 你需要的Scikit-learn中文文档:步入机器学习的完美实践教程
机器之心整理 参与:思源 Scikit-learn 中文文档已经由 ApacheCN 完成校对,这对于国内机器学习用户有非常大的帮助。该文档自 2017 年 11 月初步完成校对,目前很多细节都已经得到完善。该中文文档包含了分类、回归、聚类和降维等经典机器学习任务,并提供了完整的使用教程与 API 注释。入门读者也可以借此文档与教程从实践出发进入数据科学与机器学习的领域。 中文文档地址:http://sklearn.apachecn.org Scikit-learn 是基于 Python 的开源机器学习库,
机器之心
2018/05/08
8720
资源 | 你需要的Scikit-learn中文文档:步入机器学习的完美实践教程
盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了
推荐理由 对于机器学习算法的盘点,网上屡见不鲜。但目前,还没人能结合使用场景来把问题说明白,而这一点正是本文的目的所在。 在文章中,作者将结合他的实际经验,细致剖析每种算法在实践中的优势和不足。 本文的目的,是务实、简洁地盘点一番当前机器学习算法。尽管人们已做过不少盘点,但始终未能给出每一种算法的真正优缺点。在这里,我们依据实际使用中的经验,将对此详加讨论。 归类机器学习算法,一向都非常棘手,常见的分类标准是这样的:生成/判别、参数/非参数、监督/非监督,等等。 举例来说,Scikit-Learn
AI科技大本营
2018/04/27
1.3K0
盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了
Scikit-learn中文文档发布,Python爱好者们准备好了吗?
近日,Scikit-Learn中文文档已由开源组织ApacheCN完成校对,这对于国内机器学习用户有非常大的帮助。该中文文档依然包含了Scikit-Learn基本功能的六大部分:分类、回归、聚类、数据降维、模型选择和数据预处理,并提供了完整的使用教程与API注释。入门读者也可以借此文档与教程从实践出发进入数据科学与机器学习的领域。 中文文档地址:http://sklearn.apachecn.org Scikit-learn是以Python的开源机器学习库和NumPy和SciPy等科学计算库为基础,支持
AiTechYun
2018/04/17
7230
Scikit-learn中文文档发布,Python爱好者们准备好了吗?
基于Python的机器学习工具包:Scikit-learn
Scikit-learn是一个基于Python的机器学习工具包,旨在为用户提供简单而高效的工具来进行数据挖掘和数据分析。作为Python数据科学生态系统中最受欢迎的机器学习库之一,Scikit-learn提供了广泛的机器学习算法和工具,还包括数据预处理、特征选择、模型评估等功能。本文将详细介绍Scikit-learn库的特点、常见功能和应用场景,并通过具体案例演示其在Python数据分析中的具体应用。
网络技术联盟站
2023/07/03
7770
基于Python的机器学习工具包:Scikit-learn
初学者的十大机器学习算法
“哈佛商业评论”(Harvard Business Review)的文章将“数据科学家”称为“21世纪最性感的工作”,对ML算法的研究获得了极大的吸引力。因此,对于那些从ML领域开始的人,我们决定重新启动我们非常受欢迎的黄金博客10个算法机器学习工程师需要知道 - 虽然这篇文章是针对初学者的。
iOSDevLog
2018/12/11
7420
初学者的十大机器学习算法
机器学习以及相关算法
机器学习是人工智能的一个分支。机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。现实问题抽象为数学问题,机器解决数学问题从而解决现实问题。
分母为零
2020/05/24
6340
解决sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted
在使用scikit-learn中的StandardScaler进行数据预处理时,有时会遇到​​NotFittedError​​错误。这个错误是由于没有对StandardScaler进行适当的拟合导致的。本篇文章将介绍如何解决这个问题。
大盘鸡拌面
2023/10/21
6030
机器学习专题
随着人工智能的火热,机器学习和深度学习技术再一次进入了大众的视野。python的scikit-learn模块专注于机器学习领域,提供了数据集构建,数据预处理,模型算法,效果评估等各个环节的接口,是入门机器学习的最佳模块。
生信修炼手册
2021/07/06
3640
Anaconda配置机器学习库scikit-learn
  本文介绍在Anaconda环境中,安装Python语言scikit-learn模块的方法。
疯狂学习GIS
2024/04/13
5660
Anaconda配置机器学习库scikit-learn
入门 | 从概念到案例:初学者须知的十大机器学习算法
选自kdnuggets 作者:Reena Shaw、KDnuggets 机器之心编译 参与:Nurhachu Null、黄小天 本文先为初学者介绍了必知的十大机器学习(ML)算法,并且我们通过一些图解和实例生动地解释这些基本机器学习的概念。我们希望本文能为理解机器学习基本算法提供简单易读的入门概念。 机器学习模型 在《哈佛商业评论》发表「数据科学家是 21 世纪最性感的职业」之后,机器学习的研究广受关注。所以,对于初入机器学习领域的学习者,我们放出来一篇颇受欢迎的博文——《初学者必知的十大机器学习算法》,尽
机器之心
2018/05/10
6230
Python机器学习:通过scikit-learn实现集成算法
企鹅号小编
2018/01/08
1.2K0
Python机器学习:通过scikit-learn实现集成算法
【机器学习】机器学习基础概念与初步探索
综上所述:监督学习、无监督学习与强化学习各有其特点和优势,适用于不同的应用场景。在实际应用中,我们需要根据具体问题和数据特点来选择合适的机器学习类型。
Eternity._
2024/06/14
1340
【机器学习】机器学习基础概念与初步探索
推荐阅读
相关推荐
Scikit-learn
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档