要尝试入门数据分析,不如从数据拟合入手,毕竟操作起来非常非常非常简单!
按照百度给出的定义,数据拟合是这样的:
数据拟合又称曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。
这个解释看起来好像不太直白,我是这么理解的:数据拟合就是想办法给一堆散点画一条函数曲线。至于这条曲线怎么画的问题大家有兴趣的可以去搜索一下,的确不简单,但是电脑这种东西太强大了,我们想要做这个还是非常简单的!
接下来给大家介Excel\R\Python下的三种实现方法,为便于展示,首先给到一个示例数据——国家统计局发布的近20年经济活动人口的数据(http://data.stats.gov.cn/easyquery.htm?cn=C01)。
在这里首先要强调的一点是劳动力人口的预测不可以简单地用拟合的方式来做(不然还要专家做什么),之所以用这个数据是为了方便大家去下载数据。
根据由易到难的原则,首先来介绍最简单的Excel的实现。
我们从统计局下载到的数据是这样的:
方便起见,我们在一个新的工作表中对数据进行一个转置(复制,右键粘贴时选择转置)和重新排列顺序,调整为这样的形式:
接下来选中数据绘制一个柱形图
接下来点击图表,在右侧加号展开项中的选中趋势线并展开更多选项。
在右侧的去实现格式设置中可以看到一系列的选项,趋势线选项这里的选项就是指不同的趋势线类型啦~
建议大家第一件事情就是把显示R方给勾上,不知道R方是什么的小伙伴也不用担心,只要记住R方越接近1拟合效果越好就可以啦~
我们使用Excel的趋势线进行拟合得到的结果是: y=435.39x+72762,R方是0.9927,拟合效果相当完美!
理论上来说,如果想知道2018年的经济活动人口数的话,把x=2018带入公式就可以估计啦,但实际上影响经济活动人口数量的因素是非常多的,单纯看数据的趋势肯定是有偏差的。
今天的教程就到这里啦~R语言和Python的实现下次再讲