首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言-饼图和线图的起源

R语言-饼图和线图的起源

作者头像
黑妹的小屋
发布2020-08-06 11:40:06
发布2020-08-06 11:40:06
9990
举报

“这易如反掌,”他说,“我看到你左脚穿的那只鞋的内侧,也就是炉火刚好照到的地方,皮面上有六道几乎平行的划痕。显然,这些划痕是有人为了去掉沾在鞋跟上的泥疙瘩,极其粗心大意地顺着鞋跟刮泥而造成的。 因此,现在你就明白了我得出的这两个推断:其一,你曾经在恶劣的天气外出过;其二,你穿的皮靴上面的特别难看的划痕是伦敦的女佣所为。 至于你开业行医,这么说吧,如果一位先生走进我的房间,身上带有碘的气味,右手食指上有硝酸银腐蚀的黑斑,高顶黑色大礼帽的右侧鼓起一块,那里面藏着听诊器,而我不断言他是医务界的一位活跃分子,那我不是太迟钝了吗?”

柯南·道尔《波希米亚丑闻》

用John Tukey的话来讲,统计的意义就是“图形的最大价值就是使我们注意到我们从来没有料到过的信息”(The greatest value of a picture is when it forces us to notice what we never expected to see)。从这个意义上讲,统计图形的重要性自然不言而喻。在统计图形历史上,能够达到“揭示人们不曾料到的信息”这种高度的图形并不多,那么这里我们首先欣赏四幅前人创造出的名垂青史的统计图形。

有着“统计图形奠基人”之称的苏格兰工程师兼政治经济学家William Playfair发明当今社会中常用的统计图形-饼图和线图

图1: Playfair (1786)绘制的线图。这幅图主要展示了1700年至1780年间英格兰的进出口时序数据,左边表明了对外贸易对英格兰不利,而随着时间发展,大约1752年后,对外贸易逐渐变得有利 图片来源源:https://en.wikipedia.org/wiki/William_Playfair

在“The Commercial and Political Atlas”(Playfair, 1786)一书中,他用线图展示了英格兰自1700年至1780年间的进出口数据(如图1.1),从图中可以很清楚看出对英格兰有利和不利(即顺差、逆差)的年份;而在“The Statistical Breviary”(Playfair, 1801)一书中,他第一次使用了饼图来展示一些欧洲国家的领土比例,图1.2即为史上第一例饼图。从左下方的饼图中我们可以清楚看出当时的土耳其帝国分别在亚洲、欧洲和非洲的领土面积比例。这两幅图在今天看来似乎没有什么惊世骇俗之处,但在当时统计图形种类极为稀少的年代,能以这种方式清晰展示数据结构,也实属难能可贵。事实上,除了这两种图形之外,他还发明了条形图和圆环图。

霍乱传染之谜

袭击欧洲大城市最严重的天灾要数19世纪的霍乱。由于垃圾没有得到及时清理,清洁水源的缺少,以及下水管道系统的不足,伦敦成为无药可 医的流行病滋生的最佳地点。公众一致认为霍乱是由空气传播的,如果呼吸到了“瘴气”或者接触到霍乱患者,就会染上这种病。医生兼自学成才的科学家John Snow对这个观点颇为怀疑,他决心通过彻底调查这种致命疾 病的根源来证实他的怀疑

通过和当地居民交谈,他确定了霍乱爆发的源头是位于Broad大街的公 共水泵。他对这种疾病类型的研究看起来很可信,因此他成功说服了当地政府废弃那个水泵。他所利用的主要证据就是图1.3:死亡发生的地点有明 显的地理规律,在这种规律的指引和相关调查证据的支持下,他最终确定了霍乱的源头。后来证实离这口井仅三英尺远的地方有一处污水坑,坑内释放出来的细菌正是霍乱发生的罪魁祸首。

2: Playfair (1801)绘制的饼图。这是历史上第一幅饼图,描述了法国大革命前后一些欧洲国家的统计数据。 上方的大图展示了各个国家的领土面积(和圆圈成比例)以及人口(左垂线)、 税收(右垂线)、 国土在各大洲分布比例等数据,两条垂线连线的斜率可表示税负的轻重(这一点颇有争议,因为斜率与圆的半径有关)。 左下方的饼图展示了土耳其帝国在三大洲的国土面积分布。 图片来源:http: // www. psych. utoronto. ca/ users/ spence/ Spence% 202005. pdf

提灯女士的玫瑰图

南丁格尔(Florence Nightingale)是我们耳熟能详的“提灯女士”,她不仅是现代护理的鼻祖及现代护理专业的创始人,而且是历史上使用极坐标面积图的先驱。这种图形外形如玫瑰,因此后来也称之为玫瑰图,其主要构思是用“花瓣”的面积表示统计数值的大小。图1.4反映了克里米亚战争(英国等与俄国争夺巴尔干半岛的战争)中英国军队自1854年4月至1856年3月的逐月死亡人数(Nightingale, 1858);其中,右图为1854年4月至1855年3月的死亡人数,左图为1855年4月至1856年3月的死亡人数。玫瑰图不仅清楚展示了这两年军队死亡人数的变化,而且更重要的是,她将每个月中三种死亡情况也分别用不同颜色标记出来:蓝色表示死于可预防的疾病、红色表示死于战争伤害、黑色表示死于其它原因。这样我们可以清楚知道军队伤亡原因的结构,尤其是“绝大多数士兵死于可预防的疾 病 ”( 图 中 最 高 的 花 瓣 )。 凭 借 这 一 条 重 要 信 息 , 她 让 英 国 政 府 意 识 到 , 真正影响战争伤亡的并非战争本身,而是由于军队缺乏有效的医疗护理!

图3: 南丁格尔的极坐标面积图:两幅图分别是1854年和1855年的军队伤亡人数,一年12个月恰好可以将极坐标分为12等分,每一瓣代表一个月。 图中用颜色标记出了三种死亡原因。 南丁格尔的重大贡献在于使得英国政府意识到真正影响战争伤亡的并非战争本身,而是由于军队缺乏有效的医疗护理,导致大量的士兵死于可预防的疾病。 1857年,在她的努 力下,英国皇家陆军卫生委员会成立。 同年,军医学校成立。 图片来源:http: // en. wikipedia. org/ wiki/ Florence_ Nightingale

拿破仑的俄罗斯远征

1812年6月24日,拿破仑率领的691,501人的大兵团—同时也是欧洲历史上集结的最大规模的部队—开赴莫斯科。但等他们到达那里,看到的只是一座空城。城里的人都被遣散,所有的供给也被中断。由于没有正式的投降,拿破仑觉得俄国人从他那儿剥夺了一场传统意义上的胜利。

4: 1854年英国Broad大街大规模爆发霍乱,当时了解微生物理论的人很少,人们不清楚霍乱传播途径,而“瘴气传播理论”是当时的主导理论;John Snow对这种理论表示了怀疑,于1849年发表了关于霍乱传播理论的论文,本图即其主要依据。 图中心东西方向的街道即为Broad大街,黑点表示死亡的地点。 这幅图形揭示了一个重要现象,就是死亡发生地都在街道中部一处水源(水井)周围,市内其它水源周围极少发现死者。 进一步调查他发现这些死者都饮用过这里的井水。 图片来源:http: // upload. wikimedia. org/ wikipedia/ commons/ 2/ 27/ Snow-cholera-map-1. jpg

统计图形领域还有大批卓有成就的研究者,为统计图形的发展做出了不少贡献。早在上个世纪八九十年代,国外已经有比较全面的图示书籍文献资料,如“数据达芬奇”(Tufte, 1992, 2001),Wainer and Thissen (1981),Wilkinson (2005),以及贝尔实验室的Cleveland (1985, 1993)等,其中尤其是Cleveland在数据可视化和统计图示方面撰写了大量的论文,还提出了不少原创图形类型,感兴趣的读者可以访问他在贝尔实验室的个人主页http://cm.bell-labs.com/cm/ms/departments/sia/ wsc/。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 菜鸟学数据分析之R语言 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档