要找统计学家分析数据,当然要把数据交给统计学家。这一步可能对你很简单,就是把数据发过来就行了。然而对于统计学家而言,就不是这么简单了。
作为一名统计学家,我期望的数据库是这样的:
当然,你给我数据的时候,可能觉得整理的也不错了,起码你认为你的数据库是这样的:
然而,当我看到你的数据的时候,(虽然我不想打击向我咨询的人的信心,然而不少人给我的数据)大多数时候是这样的:
你可能觉得:怎么会呢?我已经整理的挺好的了。
让我们看看几个实际例子,可能大家会更清楚一些:
(1)先看下面这个表格(姓名一列我把它盖住了):
对于上面这个表格,我只能非常庆幸自己不是处女座,否则估计要抓狂。其实变量名有一行就行了,而这里试验组和对照组分别都有自己的变量名,实际中只要在第一行有个变量名就行了,没必要把两组数据分别隔开;单元格左上角的绿色三角看起来也挺难受,其实可以很容易去掉;然后每一列中最好只有数字,不要有字母。
(2)再看第二个表格:
对于上面这个表格,我真的不敢盯太久,怕眼睛就此晃瞎。
(3)再看第三个表格:
这个表格其实真的挺整齐,可是真正分析的时候,还是得花时间把它们都整理“行是观测、列是变量”的形式。
(4)再看第四个表格:
上面这个表格,我如果想按TSH排个序,真的很困难,因为有合并单元格的存在,结果排个序都不行。
(5)再看第五个表格:
对于上面这个表格,如果我直接用这个数据进行分析的话,软件不会自动认为第三行性别也是“男”,只会认为第三行的性别缺失了。虽然我明白表格中的意思,但是软件不懂。软件是“所见即所得”,越单纯朴素越好。真正用来分析的时候必须把它们都填补上。
那么,到底什么样的表格是统计学家最希望看到的呢?我总结了一些需要注意的问题,不过有点多,就留到下文详细介绍吧。
觉得本公众号有用的朋友,如果想赞助,无需赞赏,帮忙点一下广告即可。只要点开即可,是否购买无所谓。也算是对本人时间和精力付出的一点回报吧。
领取专属 10元无门槛券
私享最新 技术干货