首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

幂律分布模型|跬步027

今天我们学习幂律分布。

幂律分布的曲线图是一条向下的曲线,拖着一条长长的尾巴。

幂律分布含义——在随机变量中,越小的数值,出现的概率越大;越大的数值,出现的概率越小。

幂律分布特征——无标度,也叫“无尺度”“尺度无关”,意思是,在任何观测尺度下,幂律分布都呈现同样的分布特征。

幂律分布没有尺度的限制,不管截取哪个部分的数据,都会呈现出幂律分布的特征,比如,图书销量是服从幂律分布的,最畅销那本书的销量在前10名图书总销量中占的比例,前10名图书销量在前100名销量中占的比例,前100名图书销量在前1000名图书总销量中占的比例,大体都是相同的。

二八法则是幂律分布最直接的表现。

比如,全社会80%的财富集中在20%的人手里,一个行业80%的市场被20%的头部公司占据,一家公司80%的生意来自20%的重点客户。

幂律分布魔鬼的一面

第一,幂律分布让平均值失去意义。

正态分布是一种均匀对称分布,大多数数据都集中在平均值附近,所以平均值非常有用,因为它代表大多数。而幂律分布,它的数据变化幅度非常大,平均值毫无意义。拿个人收入来说,有一贫如洗的穷人,也有富可敌国的富豪,把这两群人的资产平均起来完全没有意义。

财富服从幂律分布,是高度不对称的。

如果说正态分布是概率分布的神,构建了一个稳定的秩序,那幂律分布就是一个喜怒无常的魔鬼,让已有的秩序和工具全部失效,使一切变得难以捉摸。

第二,幂律分布让原本不会发生的极端事件发生。

在数学上,那些出现概率很低的极端数据叫长尾,也叫肥尾、厚尾。简单来说,这些极端数据出现的概率虽然很低,但这个值永远不会趋近于0,永远不会小到可以忽略不计。

这一点和正态分布不同,在正态分布里,数据非常集中,非常极端的数据几乎不可能出现,可以直接忽略不计。而在幂律分布里,再极端的数据都有出现的可能性。

第三,幂律分布完全不可预测。

幂律分布产生的原因

目前没有统一答案。

有一个观点是幂律分布给人类对抗熵增、对抗世界的宿命,提供了新的希望。

这里出现了一个熵增的概念。

熵最大原理

信息论中的熵是对信息不确定性的度量,熵最大原理则是指,一个孤立系统总是朝着不确定性最大的方向发展,也就是说,在一个孤立系统中,熵总是在不断增大的。

在均值和方差确定的条件下,信息熵最大的分布方式就是正态分布。如果熵不断增长是孤立系统确定的演化方向,那熵的最大化,即正态分布,就是孤立系统演化的必然结果。

无序是熵值最大,有序是熵值最小,所以这也说明,在无序到有序这个熵减的过程中,幂律分布必然发生。

如果说熵减是幂律分布产生的原因,那幂律分布就是我们对抗熵增的必经状态。

可能大家对这段熵增、熵减的描述不太明白,我曾在《王立铭进化论》中看到过熵增的概念,下面谈谈我的理解。

一个系统是朝着不确定性最大的方向发展,这叫熵增,熵增的结果是正态分布,但是生命的存在或一个系统的演化是有序的,所以需要熵减,从不确定性向有序,这时候幂律分布出现,也就是说因为有了幂律分布才阻止了正态分布。

我的这段理解可能错误,没事,以后我们还会讨论这个问题。

上期我们学习了正态分布,这期我们学习了幂律分布,现在我们对这两个重要的概率分布有了基本认识,之后我们还会讨论正态分布和幂律分布的应用。

继续推荐刘嘉老师的《刘嘉概率论通识讲义》。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230103A08TML00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券