作者|Nature
出品|AI机器思维
大自然具有一种约束力,从而避免了两极分化,正如人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。
英国著名的生物学家达尔文的表弟著名生物学家兼统计学家弗朗西斯·高尔顿(Francis Galton,1822~1911)在研究人类遗传问题时发现了大自然的法则,孩子身高与父母身高的回归关系。
通过对1074对父母和孩子身高关系的研究,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们的父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们的父母的平均身高高。
高尔顿把这种后代的身高向中间值靠近的趋势称为“回归现象”亦称“高尔顿定律”。可以说高尔顿最著名的发现之一是他发现了父亲的身高和儿子的身高之间存在着某种给定的关系,他通过进一步的研究发现子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和。
给我们后代做研究的人员启发是群体研究也是很重要的,单看个体有时发现不了规律,单看一组父亲和孩子的身高,两个人的身高可能差异很大,但是从整个族群上来看,父亲和孩子的身高分布应该是很相近的,趋向回归中间值靠近。
纵观高尔顿的一生,博学多才,早年在剑桥大学学习医学,由于对医生的职业并无吸引力,后来他接受了一笔遗产,这使他可以放弃医生的生涯,并与 1850-1852年期间去非洲考察,他所取得的成就使其在1853年获得英国皇家地理学会的金质奖章。高尔顿爱好广泛,研究过多种学科如气象学、心理学、社会学、 教育学和指纹学等,在1865年后他的主要兴趣转向遗传学。
其也可能受其表哥达尔文的影响,他非常痴迷达尔文的进化论说,所以一直希望把进化论的理论应用到实证中,来证明不同人为什么会具有不同的特性。高尔顿当时研究了人的各种特征,并且从指纹到颜值进行了各种打分。作为学者的他在当时也是人种优生论的支持者之一(类似于现在支持基因改造人)。他将统计学基础引入到了社科人文类当中,提出了定量研究的理念,从很大程度上来说引领了整个人文社科大类的发展。
从19世纪80年代高尔顿就开始思考并研究父代和子代相似关系,这里的相似高尔顿认为如身高、性格及其它种种特制的相似性问题,说明受父辈遗传影响。其对父母与孩子升高的研究实验帮助其发现孩子身高与父母身高的回归关系。他选择了父母平均身高X与其一子身高Y的关系作为研究对象,通过观察了1074对父母及每对父母的一个儿子,将结果描成散点图,发现趋势近乎一条直 线。总的来说是父母平均身高X增加时,其子的身高Y也倾向于增加,这是意料中的结果。
但有意思的是高尔顿发现父母身高都很高时孩子身高并没有超过父母身高的平均值,父母身高都很矮时,他们孩子的平均身高高于父母平均身高的值。于是他推想得出的解释是自然界有一种约束力,使人类身高在一定时期是相对稳定的。
如果父母身高(或矮了),其子女比他们更高(矮),则人类身材将向高、矮两个极端分化。自然界却不是这种情况,它让身高有一种回归到中心的作用,趋向父母身高均值的趋势,离这个值不会太远。因此,身高有回归于中心的趋势,由于这个性质,高尔顿就把“回归”这个词引进到问题的讨论中,这就是“回归”名称的由来。
高尔顿通过种豆子的实验也发现了回归现象,趋向父辈均值的中心。通过大量数据统计,他发现个体小的豆子往往倾向于产生比其更大的子代,而个体大的豆子则倾向于产生比其小的子代,然后高尔顿认为这是由于新个体在向这种豆子的平均尺寸“回归”,从而得出规律就是事物总是倾向于朝着某种“平均”发展。
通过这些实验,对收集很多研究个体的数据进行数据分析发现大自然的规律。对身高和豆子绘制的这些数据的散点图大致呈直线状态,它反映了一个规律,即这两种身高父亲的儿子的身高,有向他们父辈的平均身高回归的趋势,大自然具有一种约束力,使人类身高的分布相对稳定而不产生两极分化,这就是所谓的回归效应。亲子关系身高以及豆子子代与父代大小发现的生物数量性状的“回归现象”,即平均来说,子代的表型值比亲代更接近于群体的平均值。
回归在尤勒的研究下得到迭代发展,尤勒(其老师是皮尔逊,皮尔逊的老师是高尔顿,皮尔逊可以说是从数学上对生物学进行统计研究的第一人,著名的卡方检验就是他发现的,他和高尔顿一起创办了《生物统计学》(Biometrika)杂志。)对高尔顿的回归其加入了控制变量,发展了回归模型的其他场景应用。
他在高尔顿的基础上提出了回归模型中应当加入尽可能多的控制变量的理念。在他1899年发表在英国皇家统计协会期刊上的论文“An Investigation into the Causes of Changes in Pauperism inEngland,Chiefly during the Last Two Intercensal Decades"中,他研究了英国济贫法在不同的地区对于当地贫困率起到的影响。在论文中,尤勒把地区的人口以及年龄的分布加入到了控制变量当中去,研究的结果在当时起到了非常深远的影响。
济贫法可以说是世界上第一部有关社会救济的法律,当时英国“圈地运动”之后,偷盗者、乞讨者增多,社会不安定因素急剧增加,为了稳定社会情绪,维持统治,英国王室在1601年颁布了《济贫法》。这部法律规定:凡年老者可在家中接受救济;贫困儿童可在他人家中寄养,成年后可去做学徒;流浪者被关进监狱或送去教养院。
尤勒在论文中着重研究了户外救济(outdoor relief)政策(给穷人补助,不强求他们去工作)是不是反而会因为让穷人觉得更安逸了,从而反向增加社会的贫困率。其研究应用对我们当今回归应用很有启发,有时需要逆向研究。高尔顿的回归发现在尤勒的迭代研究发展下应用的更加广泛。
回归分析的内容包括:
• 确定响应变量与预报变量间的回归模型,即变量间相关关系的数学表达式(通常称为经验公式);
• 根据样本估计并检验回归模型及未知参数;
• 从众多的预报变量中,判断哪些变量对响应变量的影响是显著的,哪些是不显著的;
• 根据预报变量的已知值或给定值来估计或预测响应变量的平均值并给出预测精度或根据响应变量的给定值来估计预报变量的值,即所谓的预报与控制问题。
回归重点考虑其他一个或多个变量与目标变量之间的关系,如大学生毕业年限和平均工资之间的关系。回归方程通过对观察数据进行计算,找出变量之间的关系,从而拟合出最小误差的回归方程,近一步根据回归方程以及自变量来实施对目标变量的预测。因此可以通过回归算法,输入自变量、目标变量,选择回归方式,从而拟合出回归方程并得到预测数据。回归模型更像是显示了两个变量的统计关联度,而非因果关系。
自然科学研究需要更多的实验,设计实验,观察实验,对收集到的数据用数学和统计学分析至关重要,这样才能发现规律。未来万物皆数,数链一切。智能靠数据,智慧靠数据。