在这个数字化的时代,空间地理信息技术的创新突破可谓是大有用武之地,当云计算、大数据、互联网、人工智能、物联网等诸多新技术与地理信息数据发生关联的时候,技术产生了融合,发展形成了合力,新的天地得以开辟,空间信息技术应用领域一时为之开阔。MapGIS空间矢量大数据分布式分析方案结合当下技术热点,解决大数据存储、分析等问题!
空间地理大数据的处理模式可分为批量空间地理大数据分析和实时流式地理大数据处理。批量空间地理大数据分析采用批量处理的方式来加快海量空间地理大数据的空间查询、叠置、统计等传统分析功能,实现时空分布、时空模式挖掘等新型分析场景,常用的框架有MapReduce、Spark、Flink等。实时流式地理事件处理通常将空间地理大数据看成连续不断的稳定地理事件流,系统需随着时间流逝,一直持续不断的处理,并将处理结果及时反馈,常用的框架有Storm、Samza、Flink、SparkStreaming/Spark StructredStreaming等。
常用大数据分析技术框架
前沿spark内存框架 + GIS计算核心
MapGIS空间矢量大数据分析是基于Spark框架的批量空间矢量大数据分析技术,将GIS内核与Spark分布式内存计算框架深度融合,提供海量矢量数据的分布式计算服务。基于分布式存储,能够快速构建分布式要素数据集FeatureRDD,将GIS基础算法融入Spark计算框架,实现分布式空间运算,并将结果通过FeatureRDD快速写回分布式存储。
矢量大数据分析模式
新型空间分析功能
MapGIS空间矢量大数据计算服务能够提供数据处理、数据汇总、空间分析、位置查找、模式分析五大类20多种空间矢量大数据分析方法,打破传统单机静态分析模式,创建了新型动态时空分析的应用。
矢量大数据分析功能
千万级矢量要素分布式查询
场景:在PG-XL集群环境下,查询千万级土地利用现状数据,实现秒级查询,有效解决了传统关系型数据库千万条数据查询瓶颈(如浏览器压力瓶颈等)。
传统方式:基于传统的关系型数据库进行土地利用现状数据查询,在存储1千多万条记录的时候进行属性字段查询时,需要1小时20分钟才能得到查询结果;
分布式查询:基于PG-XL分布式数据库进行土地利用现状数据查询,在存储1千多万条记录的时候进行属性字段查询时,约1秒能够得到60多万条查询结果。
土地利用现状数据属性查询
千万级矢量要素分布式高效计算
场景:在PG-XL集群环境下,基于国土行业某省数据,对不同年度间市级、省内城市群、省级不同空间规模下全覆盖地类图斑空间叠加分析,进而得到土地利用流向等分析报告,性能显著提升。
传统空间分析:采用传统桌面端的空间分析功能,市级规模约200万要素,4.5GB体量,空间叠加分析约18分钟;城市群规模约500万要素,10GB体量,耗时约54分钟;省级规模约1000万要素,21GB体量,耗时约190分钟;
分布式空间分析:采用Spark分布式并行空间分析算法,市级规模约200万要素,4.5GB体量,空间叠加分析约3分钟;城市群规模约500万要素,10GB体量,耗时约5分钟;省级规模约1000万要素,耗时约18分钟;省级规模约3000万要素,90GB体量,耗时约120分钟;
土地利用现状数据分布式叠加分析
安全认证、国产化产品
基于国产化MapGIS空间GIS核心算法,支持中标麒麟、优麒麟、银河麒麟等ARM64架构的服务器环境,自主可控。
与华为FusionInsightHD等国产化大数据平台无缝对接,基于kerberos双向、可传递信任的高效认证访问控制,保障整个存储计算分析环境的安全性。
领取专属 10元无门槛券
私享最新 技术干货