众所周知,统计学是关于数据的科学,就是为数据的收集、整理和分析提供方法论。很显然,从狭义上理解,这里所说的数据是任何可以收集到的实际数据、不是抽象的数字。这是统计学区别于数学之所在。那么,作为统计学研究对象的数据具有什么样的属性?是否如目前统计学教材对统计数据的分类那样,要么属于确定性数据、要么属于随机性数据?我认为,这个问题值得认真研讨,因为按照定义,绝大多数统计数据都将被归属于随机性数据,并且确定性数据不属于统计学研究范围。所以,有些论著干脆把统计学定义为以随机性数据为研究对象的方法论科学。
所谓随机性数据,是指受多种不确定性因素影响、无法根据影响因素判断其结果的数据。基于随机性的判断,我们常常以概率论来描述现象的数据分布特征,形成了若干种代表性的概率分布函数;基于随机性的假设,我们习惯用统计方程来拟合现象之间的关系,形成了各种线性与非线性、一元与多元的统计模型;基于随机性的认识,我们往往以置信水平或显著性水平来判断统计模型的拟合程度、统计推断与统计预测的可靠程度,形成了各种条件下的统计检验规则。所有这些,构建了推断统计学或者说数理统计学的基本框架,为基于样本数据的统计分析提供了基本遵循,在实践中解决了许多确实以随机性数据为基础的统计推断问题,例如产品质量控制等。
然而,现实中的统计数据是否真的大都属于随机性数据?我认为这是值得商榷的。统计数据是否属于随机性数据,可以从以下两个角度来考察:一是数据的产生过程;二是数据的获取过程。
从数据的产生过程看,常规的判断原则是:受内在可控的确定性因素影响而产生的数据,就属于确定性数据;不存在内在可控的确定性因素、受多种不确定因素影响而产生的数据,就属于随机性数据。有例子说,一个单位的工资总额受职工人数和平均工资两个确定性因素影响,所以是确定性数据;一块农地的作物产量受土质、种子质量、水分、阳光、病虫害、施肥种类及数量,以及管理水平等多种不确定性因素的影响,所以是随机性数据。这样的判断原则与举例,似乎非常符合逻辑,也非常清晰明了,但仔细一究却问题不少。(1)在确定性数据中,什么是内在可控的确定性因素?它本身受不受不确定性因素的影响?例如,前述的职工人数与平均工资有没有不确定性变化?再如,圆的面积惟一取决于半径R,但是半径的测定有没有随机性?(2)在随机性数据的众多影响因素中,有没有一个或几个具有决定性作用的因素?例如在影响作物产量的诸多因素中,种子、土质和施肥是不是其中最主要的因素?从整体上看,作物产量是不是存在一定的可预测性和把控性?特别是作物本身,其种子的遗传基因有没有确定性?(3)统计数据的众多影响因素,是如何发挥作用的?各自的作用、交互的作用有没有一定的规律?例如作物种子对土质有什么要求?对肥料有什么要求?土质与肥料之间有没有交互作用?综上所述,我认为任何统计数据,其背后都有确定性规律,同时也都受各种随机性因素的影响,只不过确定性因素与随机性因素的作用程度和观测的难易程度不同罢了。但是,要想区分各类各种因素的作用大小,几乎是不可能的,这也正是统计分析的难点所在。
从数据的获取过程看,如果是获取全体数据,那么理论上不存在随机性问题,但在数据的测度、登记、计算过程中可能会产生各种误差,所以实践中任何统计数据都会受到包括随机误差在内的各种误差的干扰。如果从一个确定的总体中按照随机原则获取样本,那么样本数据无疑是随机性数据,这一点不存在什么争议,我们现有的统计推断理论就是以此为基础构建的。但如果总体抽样框有问题、数据观测或登记不准确、抽样违反随机原则,那么随机性就会受到破坏,样本数据也就不是真正意义上的随机数据,就会产生有一定“确定性”的系统性偏差。所以,任何统计数据都可能同时隐含着随机性误差和系统性偏差,然而要甄别和测度它们却极其困难,这就进一步加重了统计分析的难度。
显而易见,经由产生过程和获取过程的叠加,任何我们手头所掌握的统计数据都是值得“怀疑”的,简单地把它们归属于确定性数据或随机性数据,特别是把绝大多数数据当作随机数据去处理,是有问题的。为什么很多统计推断、统计模拟、统计预测的结果与实际情况相差甚远,甚至方向相反?原因恐怕就在这里,这也是统计推断方法的最大瓶颈所在。
在这里,不得不重点说说社会经济统计数据的随机性。社会经济统计数据,是人类开展社会经济活动所产生的数据,所以它归根结底是由人决定的,是整个国家、整个地区、整个世界的人共同作用的结果。只有人类活动才会产生社会经济统计数据,但不同的人所起的作用不同,无论是方向还是力度都有差别,这取决于不同类型、不同阶层的人所产生的影响不同。单个的人组成团体、形成阶层、构成社会以后,就既具有差异化的个性特征和独立之思想,又要遵守共同的法律规则和社会规范,同时还会相互模仿、相互制约、相互影响。因此,人既是独立的又是社会的,既是有差异的又是趋同的,既是理性的又是非理性的,既是利己的也在一定程度上利他的。换言之,尽管人的行为取决于众多因素而具有随机性,但人群的趋同性效应又使得个人的行为具有一定的系统性,这就是“物以类聚、人以群分”的社会属性,所以反映人的行为的数据并非完全确定也非完全随机。所以任何社会经济统计数据都是全社会所有人的思想、意志和行为经过动态博弈、协调、竞争的结果,既具有一定的方向性和确定性,又具有一定的不确定性和随机性。例如,经济不断发展、生活水平不断提高、科技水平不断更新、文明素养不断提升等是大趋势,具有确定性,但发展变化的速度与节奏是非均匀的、具有不确定性,甚至在某个时段会出现逆趋势现象。经济周期就是经济发展之确定性与随机性交互的结果。换个角度,也可以把社会经济统计数据理解为由无形的手(市场竞争)与有形的手(政府干预)共同决定。市场竞争充满着不确定性,但有一定规则;宏观调控具有明确的方向导向,但在不同的条件下具有不同的政策效应。所以,社会经济统计数据既非确定性数据,也非随机性数据,而是属于半确定半随机的数据。故此,以适用于自然科学领域的随机性统计方法去研究社会经济问题,往往得不出应有的结论,因为大量的基于随机性的假设条件都是不成立的。凯特勒把概率论引入统计学是一个伟大的贡献,并把统计学称为社会物理学,但把自然科学领域的随机理论照搬应用于社会经济现象的研究,把与人有关的统计数据完全当作随机数据进行统计推断与分析,则是一个值得总结和反思的问题。为什么大量有关社会经济问题的、基于数理模型的分析结论都与实际情况有很大差距?为什么对经济发展趋势的判断经常会出现错误?主要原因之一就在于把所用的统计数据作为随机数据来构建模型。这种情况,目前普遍存在,必须加以重视。
顺便指出,大数据也存在类似的情况。不确定性和涌现性使得大数据既具有随机性又具有系统性,特别是社交网络大数据一定存在某种系统性,一定不是纯随机数据而是程度不同的半随机数据,这也是我们开展大数据分析时必须加以注意的。
总之,如何判断统计数据的随机性程度、如何研究分析半确定半随机数据,是值得我们高度重视的问题之一,也统计方法所要面临的挑战之一。
(已发表于《中国统计》2018年第7期)
领取专属 10元无门槛券
私享最新 技术干货