Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >空间分析 | 莫兰指数的计算

空间分析 | 莫兰指数的计算

作者头像
全栈程序员站长
发布于 2022-09-12 09:32:07
发布于 2022-09-12 09:32:07
6.4K0
举报

大家好,又见面了,我是你们的朋友全栈君。

什么是莫兰指数?

根据百度百科的定义是“空间自相关系数的一种,其值分布在[-1,1],用于判别空间是否存在自相关。”

简单的说就是判定一定范围内的空间实体相互之间是否存在相关关系,比如:一座座居民楼它们是聚集在一块还是离散分布在各处。

莫兰指数数值分布在[-1,1],[0,1]说明各地理实体之间存在正相关的关系,[-1,0]之间说明存在负相关的关系,而0值则无相关关系。


  • 因为位置的确定是相对的,相对于基点而言。如:高程的确定需要黄海基准,地理位置的确定需要西安80坐标系。
  • 一簇数据点的空间的分布是聚集还是离散也是相对的,是相对于更大空间范围而定的。如:霍乱病例的发病地点数据,它的空间分布,是聚集还是离散,是相对于更大尺度的空间范围而言,相对于街区它是离散的,相对于城市它是集聚的。
  • 空间自相关的分析方法是通过假设检验进行的,对于霍乱病例数据,它首先假设病例的分布符合某种分布关系,比如:离散或聚集,这种进行统计检验时预先建立的假设,称为零假设或原假设。零假设成立时,有关统计量应服从已知的某种概率分布
  • 空间自相关工具同时根据要素位置和要素值来度量空间自相关。在给定一组要素及相关属性的情况下,该工具评估所表达的模式是聚类模式、离散模式还是随机模式。该工具通过计算 Moran’s I 指数值、z 得分和 p 值来对该指数的显著性进行评估。p 值是根据已知分布的曲线得出的面积近似值(受检验统计量限制)。

在理解莫兰指数之前需要一些先验知识的支撑:

假设检验/统计检验:统计检验亦称“假设检验”。根据抽样结果,在一定可靠性程度上对一个或多个总体分布的原假设作出拒绝还是不拒绝(予以接受)结论的程序。决定常取决于样本统计量的数值与所假设的总体参数是否有显著差异。这时称差异显著性检验。检验的推理逻辑为具有概率性质的反证法。例如,在参数假设检验中,当对总体分布的参数作出原假设 H0 后,先承认总体与原假设相同,然后根据样本计算一个统计量,并求出该统计量的分布,再给定一个小概率(一般为 0.05,0.01 等,视情况而定),确定拒绝原假设 H0 的区域(拒绝域)。

零假设:统计学术语,又称原假设,指进行统计检验时预先建立的假设。 零假设成立时,有关统计量应服从已知的某种概率分布

计算公式

以下通过一个详细的实验具体说明。


实验

实验目的

通过Arcgis空间自相关工具分析旧金山区域犯罪与地区位置的关系,从而熟悉空间自相关工具的使用和莫兰I指数的判读。

数据准备

  • 旧金山区域行政区划数据
  • 区域破坏、抢劫、毒品、偷车犯罪点数据

部分数据展示(来源于Center for Spatial Data Science):

图1 旧金山行政区划数据

图2 毒品犯罪矢量数据

实验步骤

基于空间位置与另一图层作连接,计算各区域面内犯罪数量,结果如下:

图3 区域面犯罪数量统计

2、生成空间权重矩阵

参数设置:空间关系的概念化选择INVERSE_DISTANCE(一个要素对另一个要素的影响随着距离的增加而减少),距离法选择MANHATTAN(计算每个要素与邻近要素之间的距离的方式为城市街区计算类型)。

图4 权重矩阵设置

空间关系的概念化:

空间统计分析和传统(非空间)统计分析的一个重要区别是空间统计分析将空间和空间关系直接整合到算法中。因此,空间统计工具箱中的很多工具都要求用户在执行分析之前为空间关系的概念化表述参数选择一个值。

常见的概念化包括:

反距离/反距离平方、距离范围、无差别的区域、面邻接、K最近领域、Delaunay三角测量

空间关系的概念化参数选择:

对要素在空间中彼此交互方式构建的模型越逼真,结果就越准确。空间关系的概念化参数的选择应反映要分析的要素之间的固有关系。考虑到所用数据为犯罪数据,目的为分析旧金山区域犯罪与地区位置的关系,因而选择反距离空间关系的概念化方法能更好的达到分析目的。

“反距离的平方”与“反距离”两者的概念是一样的,只是“反距离的平方”的曲线的坡度更陡,相邻要素之间的影响下降得更快,并且只有目标要素的最近相邻要素会对要素的计算产生重大影响。

对于反距离幂的影响,幂越大,距离近的点的作用越大,插值的结果越陡峭;幂越小,距离的间隔作用越小,插值的结果越平滑;常规上幂值不应该太大。

距离法:

指定计算每个要素与邻近要素之间的距离的方式。分为两种:

EUCLIDEAN —两点间的直线距离

MANHATTAN —沿垂直轴度量的两点间的距离(城市街区);计算方法是对两点的 x 和 y 坐标的差值(绝对值)求和。

指数:

选择幂值。

阈值距离:

为空间关系的反距离和固定距离概念化指定中断距离。使用在环境输出坐标系中指定的单位输入此值。为空间关系的空间时间窗概念化定义空间窗的大小。零值表示未应用任何距离阈值。此参数留空时,将根据输出要素类范围和要素数目计算默认阈值。

相邻要素的数目:

用于表示相邻要素最小数目或精确数目的整数。

对于 K_NEAREST_NEIGHBORS,每个要素的相邻要素数目正好等于这个指定数目。对于 INVERSE_DISTANCE 或 FIXED_DISTANCE,每个要素将至少具有这些数目的相邻要素(如有必要,距离阈值将临时增大以确保达到这个相邻要素数目)。选中一个邻接空间关系的概念化后,将向每个面分配至少该最小数目的相邻要素。对于具有少于此相邻要素数目的面,将根据要素质心邻近性获得附加相邻要素。

3、通过空间权重矩阵计算莫兰I指数,分析毒品犯罪与空间位置的相关性。

图5 空间自相关工具设置

图6 运行结果

图7 报表文件

4、选择INVERSE_DISTANCE空间关系概念化方法分析区域破坏犯罪与空间位置的相关性。

图8 参数设置

图9 报表文件

5、选择INVERSE_DISTANCE_SQUARED空间关系概念化方法分析抢劫犯罪与空间位置的相关性。

图10 报表文件

6、选择FIXED_DISTANCE_BAND空间关系概念化方法分析偷盗车辆犯罪与空间位置的相关性。

图11 报表文件

结果分析

参数解释

标准差:在概率统计中最常使用作为统计分布程度(statistical dispersion)上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度。

置信区间:置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度,即前面所要求的“一个概率”。

  1. 在置信水平相同的情况下,样本量越多,置信区间越窄。
  2. 置信区间变窄的速度不像样本量增加的速度那么快。
  3. 样本量相同的情况下,置信水平越高,置信区间越宽。

P值:p 值表示概率。对于模式分析工具来说,p 值表示所观测到的空间模式是由某一随机过程创建而成的概率。当 p 很小时,意味着所观测到的空间模式不太可能产生于随机过程(小概率事件),因此您可以拒绝零假设。

Z得分:Z 得分表示标准差的倍数。

莫兰指数:

Moran’s I 值范围在(-1,1)之间。Moran’s I >0表示空间正相关性,其值越大,空间相关性越明显。Moran’s I <0表示空间负相关性,其值越小,空间差异越大,否则,Moran’s I = 0,空间呈随机性。

报表分析

以选择FIXED_DISTANCE_BAND空间关系概念化方法生成的报表为例分析,

其Moran’I指数为0.18,表明犯罪事件具有强烈的空间相关性、聚集性即某地的犯罪率与该地区的位置有关。Z得分约为15,表明是标准差的15倍,结果分布在正在正态分布的两端,结合Moran’I值为正,可以得出结果分布在正态分布的右端,为聚集型。P值为0,表明该结果百分百不为随机数据生成,结果具有可信度。

发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/153054.html原文链接:https://javaforall.cn

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
全局莫兰指数_空间自相关 | 莫兰指数
空间自相关:是指一些变量在同一个分布区内的观测数据之间潜在的相互依赖性。其中,自相关中的“自”表示当你进行相关性观察统计量,是来源于不同对象的同一属性。Tobler(1970)曾指出“地理学第一定律:任何东西与别的东西之间都是相关的,但近处的东西比远处的东西相关性更强”。
全栈程序员站长
2022/09/12
1.9K0
白话空间统计番外:再谈莫兰指数(Moran’s I)
大家好,又见面了,我是你们的朋友全栈君。以前写文章的时候,有些过于草率,本来以为作为科普,把这个名词告诉大家就可以了,结果应该是这个东西国内的科普性文章太少,很多同学都拿来做入门读物了,而且还多次阅读,读着读着,就发现,虾神你文章里面好多坑啊……该说的没有说清楚,关键还有很多说错的地方…… 每次遇见这种情况,我都想这样:
全栈程序员站长
2022/09/12
2K0
白话空间统计番外:再谈莫兰指数(Moran’s I)
白话空间统计之:Moran’s I(莫兰指数)
大家好,又见面了,我是你们的朋友全栈君。前两天聊了空间统计学里面的两个经典概念,今天来说说第一篇文章留下的大坑: Moran’s I 。
全栈程序员站长
2022/09/12
12.9K0
白话空间统计之:Moran’s I(莫兰指数)
【ArcGIS】基础教程:全域莫兰指数与局域莫兰指数的计算
莫兰指数(Moran’s I)是研究变量在同一个分布区内的观测数据之间潜在的相互依赖性的一个重要研究指标,在本文中,我们将探讨局域(Anselin Local Moran I)与全域两种莫兰指数(Moran I)计算在Arcgis中的实现。 作者才疏学浅,如有任何错误欢迎指正。
全栈程序员站长
2022/09/07
11.4K1
【ArcGIS】基础教程:全域莫兰指数与局域莫兰指数的计算
莫兰指数(Moran’s I)的小总结
莫兰指数分为全局莫兰指数(Global Moran’s I)和局部莫兰指数(Local Moran’s I),前者是Patrick Alfred Pierce Moran开发的空间自相关的度量;后者是美国亚利桑那州立大学地理与规划学院院长 Luc Anselin 教授在1995年提出的。
全栈程序员站长
2022/09/12
6.1K0
莫兰指数(Moran’s I)的小总结
基于SPSS和ArcGIS的地区社会弱势性空间格局分析
社会弱势性是指个人、家庭或群体因资源缺乏,难以获取充足的食物、良好的住房条件、平等的教育机会、充分的就业机个、适量的社会服务或消费型娱乐活动,从而影响其拥有正常水平的日常生活、消费和娱乐的不平等社会现象。综合中部五省(河南、安徽、湖北、湖南、江西)各地市收入、教育、住房、人口结构等多方面因素、本实验利用主成分分析构建社会弱势性综合评价指数,结合空间自相关分析和聚类分析,研究社会弱势性空间分布格局及分布模式,借助空间回归模型探究社会弱势性与城市化水平间的关系。通过本实验希望达到以下目的:
陈南GISer
2022/01/05
3.1K0
基于SPSS和ArcGIS的地区社会弱势性空间格局分析
空间多组 | NG | 使用多组学和生态空间分析对组织状态进行量化表征
◉ 多组学空间分析整合了空间组学数据(例如,CODEX、MIBI、IMC和MERFISH)与单细胞数据集(例如,scRNA-seq和scATAC-seq),使用算法如MaxFuse22。◉ 该框架设计得非常通用,允许利用各种其他数据整合方法以适应不同的分析需求。◉ 这种整合丰富了空间组学数据,并创建了用于下游分析的虚拟多组学空间剖面。◉ 接下来是邻域识别,通过将每个细胞的k最近邻(k-NN)中的多组学信息聚合成邻域特征向量(NFV),捕捉局部细胞环境。◉ k-NN基于空间距离确定。◉ 计算不同类型的NFV,包括细胞组成、局部平均蛋白质表达和局部平均RNA表达(通过scRNA-seq数据的虚拟匹配)。◉ 这些NFV作为聚类的基础,以识别不同的、保守的细胞邻域。◉ MESA进行差异表达分析和GSEA以获得对识别出的细胞邻域的功能性见解。◉ 生态学启发的空间分析使用MDI量化不同空间尺度上的多样性变化。◉ 它的工作原理是将组织样本划分为不同大小的斑块,评估每个斑块内的多样性,并随后计算对应于每个尺度的平均多样性得分。◉ MDI测量跨尺度的多样性变化率:低MDI值表示跨尺度的细胞多样性一致,较高的值表明更多样性的变化,这可能意味着某些细胞类型在组织中的分布不均。◉ 为了表示这一点,MESA通过计算局部斑块的熵生成一个多样性热图。◉ 基于多样性热图,GDI评估具有相似多样性的斑块之间的空间相邻性,而LDI则识别多样性热点(由高多样性定义的区域)和冷点(由低多样性定义的区域)。◉ MESA通过检查这些区域内的细胞类型盛行度和共存情况来分析热点和冷点,有可能揭示在整个组织中考虑时可能不明显的模式。◉ DPI衡量热点和冷点之间的空间接近性和大小关系,较高值表示较大的且更接近的多样性斑块。◉ 由BioRender创建。
生信菜鸟团
2025/05/09
1710
空间多组 | NG | 使用多组学和生态空间分析对组织状态进行量化表征
数据分析面试手册《统计篇》
数据分析面试手册《统计篇》 Q1 : 描述假设检验? 考频:🔥🔥🔥 难度:🔥🔥🔥🔥 分析 对于假设检验概念类叙述问题,掌握如下的几个问题: 为什么要进行假设检验? 如何证明假设检验? 假设检验的步骤? 如何衡量假设检验的结果? 为什么要进行假设检验? 想要了解假设检验,就要先知道为什么要进行假设检验,学术上讲假设检验的目的在于判断原假设的总体和现在实际的总体是否发生了显著差异;简单的说就是我们想要去判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的时候需要进行假设检验。 举例:根据之前的
数据山谷
2022/11/11
8960
数据分析面试手册《统计篇》
回归分析详解及matlab实现
当人们对研究对象的内在特性和各因素间的关系有比较充分的认识时,一般用机理分析方法建立数学模型。如果由于客观事物内部规律的复杂性及人们认识程度的限制,无法分析实际对象内在的因果关系,建立合乎机理规律的数学模型,那么通常的办法是搜集大量数据,基于对数据的统计分析去建立模型。本章讨论其中用途非常广泛的一类模型——统计回归模型。回归模型常用来解决预测、控制、生产工艺优化等问题。
全栈程序员站长
2022/11/17
2.4K0
斯坦福 Stats60:21 世纪的统计学:第十章到第十四章
在上一章中,我们讨论了如何使用数据来检验假设。这些方法提供了一个二元答案:我们要么拒绝要么未能拒绝零假设。然而,这种决定忽略了一些重要的问题。首先,我们想知道答案有多大的不确定性(无论结果如何)。此外,有时我们没有一个明确的零假设,因此我们想看到与数据一致的估计范围。其次,我们想知道效应实际上有多大,因为正如我们在上一章中的减重示例中看到的,统计上显著的效应未必是实际上重要的效应。
ApacheCN_飞龙
2024/01/16
3710
斯坦福 Stats60:21 世纪的统计学:第十章到第十四章
R语言Stan贝叶斯空间条件自回归CAR模型分析死亡率多维度数据可视化
在空间数据分析领域,准确的模型和有效的工具对于研究人员至关重要。本文为区域数据的贝叶斯模型分析提供了一套完整的工作流程,基于Stan这一先进的贝叶斯建模平台构建,帮助客户为空间分析带来了新的解决方案。
拓端
2025/02/21
1880
R语言Stan贝叶斯空间条件自回归CAR模型分析死亡率多维度数据可视化
【SAS Says】基础篇:基本统计、相关分析与回归分析
特别说明:本节【SAS Says】基础篇:SAS宏初步,用的是数说君学习《The little SAS book》时的中文笔记,我们认为这是打基础的最好选择 SAS是一个专业的统计软件,前面我们介绍了很多数据管理、输出美化的东西,本节终于要介绍一点SAS做统计的知识了,不过,在基础篇中我们只大概介绍一下,更多统计分析的东西放在进阶篇中。 本节目录: 1. 用proc univariate检验数据分布 2. 用proc means产生统计量 3. 用proc freq检验数据分类 4. 用proc corr检
数说君
2018/04/04
4.3K0
【SAS Says】基础篇:基本统计、相关分析与回归分析
R语言有极值(EVT)依赖结构的马尔可夫链(MC)对洪水极值分析|附代码数据
为了帮助客户使用POT模型,本指南包含有关使用此模型的实用示例。本文快速介绍了极值理论(EVT)、一些基本示例,最后则通过案例对河流的极值进行了具体的统计分析
拓端
2023/01/06
7430
python数据分析——数据分析的统计推断
数据分析的统计推断是科学研究中的重要环节,它通过对样本数据的分析,对总体参数进行估计,并对假设进行检验。这一过程旨在从数据中提取有意义的信息,为决策提供科学依据。
鲜于言悠
2024/03/20
4720
python数据分析——数据分析的统计推断
统计学(3)|AB测试—实验结果分析
在上一篇文章统计学(2)|A/B测试—理论基础中,我们理清了AB测试的理论基础——假设检验的思想,并且严格推导了为什么现在公司做AB测试基本全都使用
用户8612862
2021/05/13
1.7K0
统计学(3)|AB测试—实验结果分析
【独家】考察数据科学家和分析师的41个统计学问题
作者:Dishashree Gupta 翻译:闵黎 卢苗苗 校对:丁楠雅 本文长度为6500字,建议阅读20分钟 本文是Analytics Vidhya所举办的在线统计学测试的原题,有志于成为数据科学家或者数据分析师的同仁可以以这41个问题测试自己的统计学水平。 介绍 统计学是数据科学和任何数据分析的基础。良好的统计学知识可以帮助数据分析师做出正确的商业决策。一方面,描述性统计帮助我们通过数据的集中趋势和方差了解数据及其属性。另一方面,推断性统计帮助我们从给定的数据样本中推断总体的属性。了解描述性和
数据派THU
2018/01/29
1.9K0
【独家】考察数据科学家和分析师的41个统计学问题
【Python量化统计】——『置信区间』全角度解析(附源码)
一、置信区间 置信区间是指由样本统计量所构造的总体参数的估计区间。在统计学中,一个概率样本的置信区间(Confidence interval)是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。 样本均值和总体均值是不同的。一般来说,我们想知道一个总体平均,但我们只能估算出一个样本的平均值。那么我们就希望使用样本均值来估计总体均值。我们使用置信区间这一指标,试图确定我们的样本均值是如何准确地估计总体均值的。
量化投资与机器学习微信公众号
2018/01/29
3.5K0
【Python量化统计】——『置信区间』全角度解析(附源码)
Matlab马尔可夫链蒙特卡罗法(MCMC)估计随机波动率(SV) 模型
波动率是一个重要的概念,在金融和交易中有许多应用。这是期权定价的基础。波动率还使您可以确定资产分配并计算投资组合的风险价值(VaR)。甚至波动率本身也是一种金融工具,例如CBOE的VIX波动率指数。但是,与证券价格或利率不同,波动不能直接观察到。
拓端
2020/10/24
2.7K0
【机器学习】乱象中寻序,虚实间求真:统计学连接数据与真理的桥梁
在机器学习的学习旅程中,统计学作为支撑理论之一,是理解数据与模型之间关系的关键。无论是在数据分析、模型评估还是假设检验中,统计学都有着举足轻重的作用。在之前的博客中,我们已经介绍了线性代数和概率论的基础,这些都为进一步的学习奠定了基础。今天,我们将深入讲解统计学基础,特别是在机器学习中的应用。
半截诗
2025/01/09
2540
【机器学习】乱象中寻序,虚实间求真:统计学连接数据与真理的桥梁
干货分享--统计学知识大梳理(第三部分-最终篇)
现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。
1480
2020/03/06
1.2K0
干货分享--统计学知识大梳理(第三部分-最终篇)
推荐阅读
相关推荐
全局莫兰指数_空间自相关 | 莫兰指数
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档