晚上和一个大学实验室的好友谈到前后端的工作,谈了各自的看法,关于程序员的辛酸和奋斗过程,发现做出重大决定需要很大的勇气和信心,我也坚信,我能坚持下去,所以,开始技术的学习。
大概看了看 Python 数据分析的前几章,了解到数据分析的基础分析需要有一定的数学基础,比如:概率论,统计学,随机变量分布,大数定律,参数估计等等,这些大学时候学过的理论知识,现在已经忘得差不多了,该捡起来了。
工程师一般需要在特定场景下对数据做有理有据的分析和解释,那么,如何实现呢?
针对不同的业务场景需要才有用不同的建模策略,而简单的基础分析策略比复杂的分析策略要高效许多,一般用到的简单的策略有:统计量和概率分布。
统计量在统计学定义为一个总体参数的点估计量,说白了就是一组数据的特点。
其中,描述这些特点主要有以下几个词:均值、方差、中位数等,我们主要通过这些指标来描述一组数据的特点,从各个角度来分析,得出不一样的结论,最终服务于我们的实际生活,帮助我们做出正确的决策。
均值:其实就是一组数据的平均值,描述一组数据的平均水平。比如,一个班级的男女生身高组成一组数据,然后通过求均值来判断一个班级的平均身高是否处于正常水平。
中位数:反映数据集的中间程度;
众数:出现的次数最多的数据,比如,一群人中有喜欢吃苹果,香蕉和西瓜的,但是80%的人喜欢吃西瓜,那么西瓜在这组数据中出现的次数最多,西瓜即为这组数据的中位数。
方差:判断一组数据的稳定性。比如:A和B的均值一样,但是同样条件下,A的方差比B的小,说明A更稳定,A更值得信赖。
协方差和相关系数:方差反映的是一组数据自身的波动情况,协方差则反映了两组数据之间的线性相关性。协方差为正时,说明两组数据正相关,导致数据同时变化的可能是其他未知的原因。
第一次写技术文,介绍了数据分析中的基础分析的一些概念,后面会陆续介绍数据分析的相关知识,并根据实际情况增加一些小项目,增加趣味性,让大家在有趣生活中学到一点东西。
一点点改变,有很大的差别。
Python 数据分析初探
领取专属 10元无门槛券
私享最新 技术干货