机器学习入门感想 CorpusTalk分享雷蕾 博士 教授 [华中科大外国语学院]CorpusTalk 应用语言学与学术写作 原创故事
My homepage: http://sfl.hust.edu.cn/info/1139/5993.htm
机器学习入门感想 CorpusTalk分享
今天偶然翻到了下面的文章。
文章比较详细、清晰地介绍了机器学习的基本概念,是了解机器基本内容的好文。
Jarvis, S. (2011). Data mining with learner corpora: Choosing classifiers for L1 detection. In F. Meunier, S. De Cock, G. Gilquin, &M. Paquot (Eds.), A taste for corpora. In honour of Sylviane Granger (pp. 127–154). Amsterdam: John Benjamins.
最近两年,机器学习火得一塌糊涂。于是也凑热闹,在过去半年多时间,陆陆续续翻了一些机器学习的材料,也尝试着运用几个算法做了两个小项目。
最开始运用逻辑回归(logistic regression)进行分类,后来尝试了聚类分析(cluster analysis)。
再后来,情感分析(sentiment analysis)和话题模型 (topic modelling)。
最近,尝试实现了其他数种分类算法 (LDA, SVM, naive bayes, bayes network, knn, neural network …)。
看起来是不是感觉很高大上 ^_^
其实,只是囫囵吞枣、只知其然不知所以然。
还谈不上入门,但仍有几点感想:
首先需要大致了解基本原理,如阅读上面的论文或找其他入门书翻阅。
大胆尝试、多动手,让程序跑起来,一定要先有些感性认识、成就感,而不是陷入技术细节 (见第3点)。
对于文科生,我们需要了解各种算法的运用场景,即在哪种场景用哪种算法即可。
至于算法的技术细节,能深入了解固然好,但估计大多看不太懂 (至少我是这样),也似乎没必要太深入技术细节。
打个比方,如我们运用各种统计方法做统计检验一样,我们知道了在哪种场景使用哪种统计方法、如何实现、如何解读结果即可。
关于工具。
上文提到的weka,是基于Java的机器学习包,几年前大火,现在似乎使用者寥寥。
当前主流的机器学习工具,大多基于Python 或 R 语言 开发。所以,推荐感兴趣的看官尝试 Python 或 R 语言的包。
由于最近半年在学习 R,所以上述所有尝试均在 R 中实现,几乎所有主流算法,均容易找到相应的R package,也容易实现。
半年的学习尝试,感觉脑洞大开,似乎有很多新的想法或选题可做。
是记之。
领取专属 10元无门槛券
私享最新 技术干货