最大似然估计:
最大似然估计是一个学习数据挖掘模型参数的坚实工具。这个方法试图做两件事情。一是,当你想从数据中了解某些类型的模型时,它是一个确定应该做什么样的计算的合理的有原则的方法;二是,它往往是相当计算上容易处理。在任何情况下,最重要的事情是,为了了解像多项式回归、神经网络、混合模型、隐藏马尔科夫链和别的其它事情,熟悉MLE,这是对它们有真正帮助的。
高斯贝叶斯网络:
一旦你与高斯算法结缘,你会在贝叶斯分类器的子集中运用自如。而这本教程就是说这个事情。
交叉验证:
交叉验证是其中一种可用于估计一个你刚从一些训练数据中所建立的模型的好坏,而这些数据将在未来执行的尚未看不见数据。我们会回顾测试集验证,LOOCV和k折交叉验证,然后我们会在一个广阔的层面上讨论其多样性。我们同样也会讨论过度拟合……一个不好的现象是CV出现了。到了最后,我们的头发会竖起来了,因为我们认识到,即使在使用CV,你仍然可以随意过度拟合严重。 神经网络:
我们会通过讨论线性回归分析来介绍神经网络…..神经网络的始祖。我们观察到线性回归分析可以通过简单的矩阵操作来获悉数据。正当我们看到为什么一个原始的假设,不可避免的导致我们决定去尝试使方阵最小化的错误时,我们会稍微的咕嘟一下。然后我们换一种方式来计算线性的参数—梯度下降。然后我们又从中利用下降程度来允许使用分类器进行回归分析,最终可以使其变成一个高度非线性模型——全神经网络在其所有的荣耀。
基于实例的学习(即基于案例或存储或基于非参数):
经过了一个世纪的洗礼,这种数据挖掘形式依然被统计学家和机器学习者这样的人广泛的使用。我们探索最近邻学习,k最近邻、核方法和部分加权回归分析。这个算法的软件和数据在这本教程中,它可以从这里获得http://www.cs.cmu.edu/~awm/vizier。一个幻灯集的一个样例数被同样的软件和数据所创造。
8个回归分析算法:
你会不得不等待安德鲁在这方面的排序,但基于所有目前你已经学习的基础内容,我们会很快可以认识它们:回归分析树、级联相关、集团法数据处理(GMDH),多元自适应回归样条(MARS)、多线性插值、径向基函数、稳健回归,以及级联关系+投影寻踪。
预测真值的输出:
回归分析导论:本次讲座由完整的神经网络讲义和部分“最喜欢回归算法”讲义组合而成。我们谈论回归分析、以及这样的一些话题变噪声,非线性回归(很简单),多项式回归,径向基函数,稳健回归,回归树,多线性插值和MARS。
贝叶斯网络:
这本教程首先回顾了基本的概率(但为了能更好的完成这过程,请看早期安德鲁的关于概率方面的数据挖掘的相关课程)。然后,关于不确定知识讨论以联合分布进行表示和推理的应用。在讨论当联合分布作为一种常用工具时的明显的缺点(维数灾)时,我们访问了这个世界的诀窍,包含独立性和有条件的独立性,从而让我们在表达一些我们不知道的知识时显得更加的简洁。然后我们会面露喜色,因为我们意识到,我们已经得到了大多数我们需要了解和欣赏贝叶斯网络的知识。而教程余下的部分介绍了一些重要的问题,如怎样在贝叶斯网络中进行推断(请看接下来安德鲁的课程)。
品言译,陆勤审,ppv课原创翻译文章,转载请注明出处链接!
点击下方“阅读原文”查看PDF下载
↓↓↓
1、回复“数据分析师”查看数据分析师系列文章
2、回复“案例”查看大数据案例系列文章
3、回复“征信”查看相关征信的系列文章
4、回复“可视化”查看可视化专题系列文章
5、回复“SPPS”查看SPSS系列文章
6、回复“答案”查看hadoop面试题题目及答案
7、回复“爱情”查看大数据与爱情的故事
8、回复“笑话”查看大数据系列笑话
9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载
PPV课大数据ID: ppvke123 (长按可复制)
大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!