首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

免费好书:理解机器学习、从理论到算法

我们在“机器学习背后的男人们”和“机器学习经典人物关系[全]”里面介绍了神一样的Valiant和Vapnik!如果你对这两个人不熟悉, 那么一定要看一下这本推荐的2014年的书《Understanding Machine Learning: From Theory to Algorithms》!这么好的书,可能偏理论多些, 国内没有翻译。

前言

一般人学习机器学习的方法是先从具体算法开始, 譬如逻辑回归、支持向量机和随机森林, 然后慢慢接触背后的理论:计算学习理论,凸优化理论等等。 其中, 计算学习理论有包括PAC学习, 泛化理论, 结构风险最小等等好多理论。而这些理论背后还有类似公理的原则:NFL、Occam‘s Razor等等。 但是, 如果学完这些理论, 再回过来看这些算法, 就会变得很神奇。 好比AdaBoost有两种解读, 一种是通过迭代优化, 另外一种是Margin理论。 而Margin理论能够比较好的解释, AdaBoost不太容易过拟合的实践。 再好比, SVM, LR和AdaBoost都弄纳入统一框架去解读。 因为这样的解读会让机器学习入门变得可怕,所以周志华老师《机器学习》的书不会铺开太多, 但是却让机器学习像老酒一样,让你回味无穷。

所以这本《从理论到算法》不是给初学者用的, 而是给想深入理解机器学习算法的人来看的, 或许这也是为什么国内没有翻译的原因之一!但是也正是因为这样, 所以床头放这样一本书, 想想看看,才会觉得故事后面的精彩。

来自以色列的耶路撒冷希伯来大学The Hebrew University of Jerusalem的老师Shai Shalev-Shwartz和他的好友Universitys of Waterloo大学的Shai Ben-David。 奇怪的事, 他们都非常关注机器学习的实际应用, 譬如自动驾驶,领域结合。 但是他们的书却是那么的理论!

Shai Shalev-Shwartz

Shai Ben-David

前后呼应的好书

这本书分为四大块, 前后呼应, 在第一块基础理论里面介绍了很多基石理论的东西。 主要是计算学习理论范畴, 以泛化理论为背景,PAC学习为基础, 来说明神奇的Bias-Complexity平衡, VC维, 可学习性。

然后,第二块就是基于第一块的理论基础去介绍各种算法, 正是因为基于PAC学习, 所以一上来最合适讲的是AdaBoost的理解, 这个从理论中走出来的算法, 在表数据处理领域一直表现的最好。然后告诉你如何选择不同算法。 之后,就是罗列了从计算学习角度理解的SVM, Kernel, 决策树, 最近邻, 和神经网络。

几个你感兴趣的话题, 譬如:

1. 我们知道决策树节点数非常重要的参数,那么, 决策树或者随机森林里面,节点数和学习能力是不是线性关系?

2. 你学过1-NN最近邻算法, 那么你知道什么情况下,连1-NN算法也不太适用了? 假设单个样本向量的维度为d, 那么样本数必须不少于:

, 这里c是什么东西?

3. 神经网络的VC维(神经网络的学习能力)和网络里面的点更相关还是和边更相关, 是不是线性或者二次方增长的?

如果这些问题, 你都不能回答, 你说你对一个算法懂得透彻, 是不是有点心虚?!

第三部分, 突破了PAC学习的框架, 讨论起来在线学习, 聚类,降维度, 生成模型和特征选择 等等。

第四部分, 又呼应第一部分, 重新回到计算学习理论, 讨论

Rademacher,Multiclass Learnability,PAC-Bayes等思考。

非常值得看的一本好书!

神配合的机器学习理论课件

如果这本书和Cornell大学的Machine Learning Theory (CS 6783) 的课件结合起来看, 简直神了。 课件比书更为开阔! 把在线学习的框架也很好的纳入了。

你知道PAC学习并不太适用于在线学习么?所以VC维也不太适合描述在线学习, 有个新的维度,叫Littlestone’s Dimension。 那么Rademacher描述呢? 是可以的, 但是得修改到sequential Rademacher complexity。

为什么呢? 因为顺序不再能被忽略, 生长函数完全不一样了。 考虑的对象不再是集合, 而是一颗树。

这个课程是可爱的Karthik Sridharan印度小哥开设的。 他从15年开始不在教授这个课程, 转而教授Machine Learning for Data Sciences (CS 4786/5786), 莫非太难了, 没人选, 所以搞个容易的吸引人气?!

课后,还有个Leon Bottou链接,讨论Sauer Lemma 到底是不是Sauer发明的, 也非常有意思。 反正Sauer很成功啦!

小结

这么好的书, 哪位教授给翻译下下!

书的链接:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/

下载连接:http://www.cs.huji.ac.il/~shais/UnderstandingMachineLearning/copy.html

课程连接:http://www.cs.cornell.edu/courses/cs6783/2015fa/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171217G0L5KZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券