分类:IT>数据库
本节课主要进行机器学习概述,包含:
机器学习的基本概念
机器学习的发展历程
机器学习的前沿方向
大数据机器学习的基本概念
大数据机器学习的实现平台
大数据机器学习的总结与反思
1什么是机器学习?
机器学习是一门人工智能的科学,主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。
机器学习是对能通过经验自动改进的计算机算法的研究。
机器学习是使用数据或以往的经验,以此优化计算机程序的性能标准
总结如下:
人工智能的重要组成部分。
利用经验数据改善系统自身性能。
2机器学习的问题与模型有哪些?
三大类机器学习问题
有监督:分类、回归
无监督:概率密度估计、聚类
半监督:EM、Co-training
两大机器学习模型
单模型:SVM、k-means
混合模型:bagging、boosting
3深度学习与机器学习的关系是什么?
深度学习是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,本质上是机器学习中特征学习方法的一类。
至今已有多种深度学习框架:深度神经网络、卷积神经网络、深度信念网络
已被应用于多个领域:计算机视觉、语音识别、自然语言处理
4大数据与机器学习的关系是什么?
机器学习无处不在,即便我们没有专程调用它,也经常出现在大数据应用中。机器学习对大数据应用的贡献主要在于:
促进数据科学家们的多产性
发现一些被忽视的方案
上述价值来自于机器学习的核心功能:让分析算法无需人类干预和显示程序即可对最新数据进行学习。
5机器学习的派别有哪些?
机器学习有两大派别:
第一派别,是把机器学习看作人工智能分支的一个群体,这群人的主体是计算机科学家。
第二派别,是把机器学习看作“应用统计学”的一个群体,这群人的主体是统计学家。
综合来看,机器学习=神经科学与认知科学+数学+计算
6机器学习的研究历程是什么样的?
都是基于神经科学
神经科学→Barlow:功能单细胞假设→Rosenblatt:感知机(1956)→线性不可分问题(Minsky 1969)Rumelhart:BP(1986)→Vapnik:SVM(1991)iid问题一致性假设
神经科学→Hebb:神经集合体假设→Widrow:Madline(1960)→PAC(Valiant 1984)Schapire:弱学习定理(1990)→Freund:AdaBoost(1996)泛化理论
7机器学习的两大热点是什么?
(1)无监督深度学习
深度学习的原意是特征学习,应该是无监督的。但是,目前表现最好的深度学习算法都是监督的,在实际使用中有很多限制。
无监督学习是一种类似人类的学习方式,目前已经取得初步研究进展,特别是生成对抗网络(GAN)在很多应用中表现出色。
(2)深度强化学习
强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大。不同于监督学习中的教师信号,环境提供强化信号是对产生动作好坏的一种评价,并没有告诉如何去产生正确的动作。
深度学习与强化学习结合,给强化学习带来了新的活力,目前强度学习最成功的应用例子是AlphaGo,已经在围棋比赛中横扫人类高手。
8传统机器学习的局限性是什么?
数据量小,可以一次性全部处理。
过分注重算法的精度,而对于算法的效率关注不够。
假设数据独立同分布,没有考虑数据分布发生变化的情况。
针对大数据的特点,需要从算法效率、模型假设等方面进行机器学习的研究。
9大数据给机器学习的挑战有哪些?
数据源多样化,能否自动地从每种数据源中提取中提取特征?
数据量非常大,算法的运行效率能否满足实际需求?
数据分布会发生变化,学习模型假设是否还成立?
10大数据机器学习的特点是什么?
(1)各种技术的融合
单一技术难以满足大数据分析多样性需求
多种技术融合,有助于提高系统稳定性
(2)数据理解是难点
海量数据高度非结构化,数据的快速准确理解成为关键
深度学习和在线学习在大数据理解领域显得尤为重要。
(3)分类会逐渐弱化
快速检索是有效利用海量数据的前提
大数据时代,分类问题会逐渐弱化,而检索则会变得更重要。
11大数据机器学习的关键技术有哪些?
深度学习:很好的利用GPU等高性能计算设备;解决多源特征的自动提取问题
在线学习:解决传统算法更新模型代价过大问题;有效的应对大数据分布发生变化的难题。
近似近邻搜索:使得在大数据检索上成为可能;常用方法:哈希索引和基于树的索引。
并行计算:GPU并行计算:CUDA分布式系统:Spark
参考资料:
MOOC中国人民大学《数据库系统概论(新技术篇)》
第18讲大数据与机器学习卢志武
领取专属 10元无门槛券
私享最新 技术干货