文章/答案/技术大牛

发布

一位 TalkingData 员工学习人大统计学课程的笔记及感想

文章来源：企鹅号 - TalkingData数据学堂

引言

新的一年，想必不少人都给自己树立了学习目标，要想学习上得去，先得学会做笔记。记笔记是我们在学习过程中消化总结的好方式，良好的记笔记习惯能起到事半功倍的效果。

本文为 TalkingData 何兴权在学习 TDU 为 TDer 准备的人大统计学课程所做的学习笔记及感想，不妨一起来学习一下吧。

前段时间学习了人大薛薇老师的统计学基础课程，最近刚交了统计学作业，得到了 TDU 同学和薛老师的高度评价，并与薛老师交流了关于“原假设”的问题。在这里和大家分享一下这段学习历程，与大家共勉，也欢迎大家提一些建议哈。

薛老师这次课程主要是基于案例探讨统计分析方法的基本原理，她带来的第一个案例是北京市空气监测。

开头便告诉我们从统计视角看案例数据，确定研究的样本、步骤、问题，只研究供暖季的数据，数据处理的两种方式：

第一，计算该时段各站点各变量均值，样本量 35

第二，忽略时间上的差异，视数据为截面数据。优势:有效扩大了样本量(采纳)

研究步骤和问题：

第一步，样本数据的描述统计。

涉及问题：

了解数据缺失状况

基本描述统计

诊断极端值：从统计视角检测 PM2.5 爆表情况

第二步，依据样本，对样本来自的总体参数进行估计和对比。

涉及问题：

估计北京市供暖季 PM2.5(一个总体)的平均值

交通污染对 PM2.5 的影响：对比西直门北(区域)和定陵(区域)供暖季的 PM2.5(两总体)的平均值

第三步，基于样本数据的深入研究

探讨 PM2.5 成因，对比北京四个不同区域(西北、西南、正南、东/东南)PM2.5 总体均值差异

探讨 PM2.5 的空间特征和空气质量的区域划分

探讨 AQI 的全面性问题

接下来针对研究步骤和问题展开讲解，从最基础的直方图、概率密度函数、四分位数等内容到十分经典的假设检验、Bootstrap、多元线性回归、聚类分析、主成分分析都有讲解。

然后为我们带来了第二个案例，基于 HR 的调查研究 IT 员工离职问题，研究离职主要因素并预测是否离职。

因为这里研究的二分类变量与其他变量之间的关系，对二分类的被解释变量不可以直接采用一般多元线性回归分析方法，因此进行改进如下：

建立二项 Logit 模型，并讲解二分类模型的评价问题，查准率和查全率(覆盖率)和 ROC 曲线。

正所谓“实践是检验真理的唯一标准”，在上完课后就进入作业环节。

说实话，薛老师布置的作业并不难，只要好好复习课件，一般都能答出来，但复习课件不仅仅是为了完成作业，同时也是一个理解吸收提高的过程。（PS：自己的作业也十分荣幸的得到了 TDU 同学和薛老师满分+的评价，哈哈。）

以第一题为例，原题如下：

某大型企业 HR 通过随机调查获得了 2720 名技术员工对企业满意度的打分（取值范围：0~1）数据。对该样本的基本描述统计结果如下。

请问：

1. 请基于上述计算结果，粗略绘制满意度打分的概率密度分布曲线，并在图中画出有相同均值和标准差的正态分布曲线。

考察基础知识，概率密度分布曲线和正态分布曲线，这两个知识点虽然薛老师没有直接讲解，但都比较基础，要求我们有一定的 R 自学能力，查一下就能知道结果。

通过 plot 绘制出 density 概率密度分布曲线，通过 mean 和 sd 求出均值和方差，然后通过 curve 绘制出 dnorm 正态分布曲线。

核心代码如下：

个人解答如下：

（1）满意度打分的概率密度分布曲线如图所示，可以看出，并不符合正态分布。

（2）求得均值为 0.6078971，标准差为 0.2541932，相应的正态分布曲线如图。

2. 基于上述计算结果，你认为满意度打分中是否存在异常数据？为什么？

正所谓外行看热闹，内行看门道，异常数据不是你觉得有异常就异常，需要理论依据，理论依据是啥？答：阈值，大于 1.5 倍的四分位差，详见 PPT 第 17 页。

个人解答如下：

答：满意度打分不存在异常数据。为非对称分布。

（1）先计算 1.5 倍的四分位差：

得到标准 0.585。

（2）在计算上四分位数和下四分位数：

得到 0.43（25%）和 0.82（75%）

（3）计算出最值：

得到 0.09（min）和 1（max）因(0.43-0.585)不存在和(0.82+0.585)不存在，故无异常点。

3. 基于上述计算结果，如果希望刻画满意度打分的样本分布特征，应给出哪些最基本的描述统计结果？它们的含义是什么？

这道题考的十分基础，最基本的描述统计结果，可以参考 Basic descriptive statistics useful for psychometrics 里的描述统计量，但背后是统计方法中的描述统计，是统计学的基石，也是个人统计学的基本功，虽然简单，但必须重视。

个人解答如下：

答：可以有以下描述统计结果：

n：2720，一共有 2720 名技术员工的满意度数据；

mean：0.61，满意度的平均值为 0.61 分；

sd：0.25，满意度的标准差为 0.25，反映满意度的离散程度；

min：0.09，满意度的最值，最低分 0.09；

max：1，满意度的最值，最高分 1；

skew：-0.48，左偏，偏离度-0.48；

se：0，均值的标准误差 Standard Error

备注：标准误=标准差/√n，n 是样本量。公式意思是：标准误等于标准差除以样本量的平方根。

其他题目类似，十分经典，不在一一展开。

之后，我还与薛老师进一步交流了关于“原假设”的问题。

我们先看问题以及我的解答：

员工甲认为：企业技术员工的工作压力大，他们对企业满意度打分的总体平均值不会高于 0.5 分。基于第一题的随机样本数据，员工乙利用假设检验方法对员工甲的观点进行了验证，分析结果如下。

请问：

1. 员工乙采用的是哪种统计检验方法？请给出假设检验的原假设。

答：采用的是单个总体均值的假设检验；由 alternative hypothesis: true mean is not equal to 0.5 知原假设为真实的均值等于 0.5。

但薛老师认为原假设是 H0：μ0≤0.5

我：如果按题意他们对企业满意度打分的总体平均值不会高于 0.5 分和最终结果平均值高于 0.5 分，那么原假设 H0：μ0≤0.5。

但如果看 R 执行的结果 alternative hypothesis: true mean is not equal to 0.5，那么原假设为真实的均值等于 0.5，即μ0 = 0.5。在这里是不是应该以 R 执行的结果为准。

薛老师：程序给出的都是双侧检验的概率 P 值，单侧检验用它的 1/2 即可

最后我提出加上 alternative = "greater"这个参数，这样 alternative 被则假设、原假设、R 结果、题意都统一，就没有歧义了。

得到了薛老师的肯定，最终达成一致。

一场精彩的统计学课程结束了，但我们的学习之旅还有很长的路要走。

在此，感谢薛老师的精彩讲解，感谢 TDU 引入这样一门好课，希望能和大家共同进步。

发表于: 2018-01-022018-01-02 21:43:18
原文链接：http://kuaibao.qq.com/s/20180102G0WR7S00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

一位 TalkingData 员工学习人大统计学课程的笔记及感想

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐