R语言最近在TIOBE排名上取得了不小的进步,上升到了第13名。因为机器学习的火爆的程度和R语言特殊的语法,使得它的关注度越来越高。好多人对于R语言的特性和语法不太了解,而因我在上学的时候学习了Data Mining(数据挖掘)相关的课程,用R语言做了些初步的数据挖掘项目,所以现简单介绍下什么是R语言。
R语言简介
R语言是专门用来作统计计算和数据可视化的编程语言。由新西兰奥克兰大学的Ross Ihaka和Robert Gentleman两人开发。它的灵感来自于John Chambers开发的S语言,虽然两种语言有很多不同之处,但是据说用S语言开发的程序可以直接在R环境下运行。R语言的名字一半是由作者名字首字母而来,一半是受S语言启发,取自它的前一个字母。因R语言由有统计学背景的人物研发,所以R语言具有统计学特性,包括线性和非线性建模(linear and nonelinear modeling),时间序列分析(time-series analysis),分类(classification),聚类(clustering)等等。所以学习R语言需要一点统计学基础,但是它的语法相对比较简单。所以可以通过一边熟悉它的语法一边巩固统计学知识。
特性
数据处理和存储设施。
用于计算数组,特别是矩阵的运算符。
对于数据分析,提供多种中间工具。
可供显示和打印的图形,图表。
结构完整的编程语言,包括条件,循环,自定义递归函数,输入输出功能。
社区和生态
R语言具有很强的扩展性,通过扩展函数来增加新的功能,并以『包』的形式发布在R社区仓库里,其中最大的仓库是Comprehensive R Archive Network (CRAN) ,还有一些其它的第三方库,Bioconductor, Github等等。在这些仓库里能找到所有数据挖掘所需要的工具和算法实现。其中,R语言的plot函数用来生成图表和公式极为方便,几乎所有统计方法都扩展了此函数用来可视化统计结果。
总结
R语言作为一门统计学语言,虽然需要跨学科的知识,但是这正是印证了编程语言的可适用范围是无限的,几乎可以渗透各行各业。后面的篇章中会详细介绍R语言的语言,并在以后给出实际的项目示例来介绍它的具体用途。
参考
https://en.wikipedia.org/wiki/R_(programming_language)
领取专属 10元无门槛券
私享最新 技术干货