基于大数据技术的海量空间数据处理系统简介V.docx_第1页
基于大数据技术的海量空间数据处理系统简介V.docx_第2页
基于大数据技术的海量空间数据处理系统简介V.docx_第3页
基于大数据技术的海量空间数据处理系统简介V.docx_第4页
基于大数据技术的海量空间数据处理系统简介V.docx_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于大数据技术的海量空间数据处理技术简介一、项目框架数据库由主节点和子节点通过网络总线互联组成。主节点主机负责:建立与客户端的连接和管理;执行信息查询任务的解析并形成执行计划;执行计划向子节点的分发收集子节点的执行结果;主节点不存储业务数据,只存储数据字典。 子节点主机负责:业务数据的存储和存取;用户查询任务的执行。 二、主要功能1、提供矢量数据基本空间分析函数,包括空间对象间Distance、Within、Intersect、Touch、Crosses、Overlaps、Contains、Covers等。2、提供矢量数据几何空间数据处理函数,包括获取几何对象质心(Centroid)、长度(Length)、面积(Area)、缓冲区(Buffer)、裁剪(Clip)、坐标投影(Transform)、坐标变换(Translate)等。3、提供属性、空间信息(如面积、长度)等的统计分析功能(包括动态裁剪出来的对象)。4、提供对shapfile、GeoCSV等文件快速分节点导入导出。5、提供对数据字段增加、删除、修改;提供对数据内容增加、删除、修改。三、优势1、高性价比:系统可以运行在普通的x86 Server上就能达到很高的性能,因此性价比很高。2、线性扩展强:架构中增加节点就可以线性提高系统的存储容量和处理能力。同时在扩展节点时操作简单,在很短时间内就能完成数据的重新分布。3、系统易用:系统提供完整的调用接口,用户可以方便的获取数据,不用编写复杂的mapreduce调度。4、 应用前景1、可以用于全省地理国情数据的实时统计、分析。2、适用国土、公安、环保等强GIS部门对海量GIS数据的管理与应用。3、智慧城市空间数据管理与应用。五、性能测试结果5.1测试环境 主节点:VM虚拟机4核8G,实体机操作系统WIN10。 子节点:n 操作系统:Centos7.3.1661n CPU:E5-2660 至强8核16线程,主频2.2 , 1颗n 内存:三星DDR3 16G RECC1600 x 2 = 32Gn 硬盘:三星850EVO 500G x 3【没有做成逻辑卷,系统在sda上,占用60G,剩余空间单独挂载到目录,另外sdb、sdc单独挂载到目录】n 网络:主板(华硕Z9PA-U8)集成千兆网卡 测试数据:四川省地理国情全省地表覆盖数据(共计:19327066条,原始数据60G,导入成分布式架构后:200G),数据分布如下图(图1,图2,图3)。图1:整体图图2:局部放大图图3:局部放大图5.2性能测试对比表操作2台4台返还结果数备注无空间索引有空间索引无空间索引有空间索引1统计总数1.165s1.137s0.612s0.709s193270662按区域统计个数1.552s1.649s1.28s1.375s181按地区分类码分别统计各个地区的结果总数3空间分析(Within)22.025s1.372s1.668s0.834s518137只返回了CC和id(图4、图5、图6)4裁剪33.514s29.707s28.691s29.285s521316使用一个面进行裁剪,返还裁剪后的几何对象(图7)(和第3项使用同一个面)5全部数据的单独面积91.222s92.278s47.439s47.115s19327066对面进行实时动态投影,结果返还单个面面积6全部数据面积求和88.105s88.642s44.885s44.054s1包括动态投影,统计面积,结果只返回一个总数(和第3项使用同一个面)7统计某个属性字段1.226s1.627s0.734s0.784s1数据录入过程中原始数据的Shape_Leng值,结果只返回一个总数8裁剪后统计总面积19.741s9.298s6.165s5.861s1包括裁剪、动态投影、统计面积,结果返回一个面积总数(和第3项使用同一个面)9统计一个要素个数最多的地区面积2.593s2.613s1.261s1.354s1记录条数为:37323010查询一个点在哪个面内2.433s0.132s1.383s0.012s1输入一个点坐标,判断点落在哪个面内表:性能测试表图4:空间分析面和所有数据的位置关系图5:空间分析(Within)结果(总体)图6:空间分析(Within)结果(放大图,红色为空洞部分,即数据只是相交,没有包含在面内)图7:裁剪结果图图8:裁剪边界截图六、和arcgis对比测试6.1测试环境ArcGIS(10.1)型号兼容机配置CPU:I5-7600 4核内存:16G单机环境型号兼容机配置CPU:I5-7600 4核内存:16G集群环境(旧环境)总览6台物理机,在6台物理机中开启9台虚拟机,其中1台为主节点(master),8台为从节点(segment)配置物理机,一台为单机环境的兼容机,一台dell笔记本(i7-7500U,16G内存),4台dell品牌机(i7-67004核,4G内存),所有虚拟机均分配为2CPU、2G内存网络1000M集群环境(新环境)具体参数详见文档5.16.2测试数据数据为美国水系面数据,共计约2292765条数据,空间分析面(红色部分)3100km长20km的面,数据分布见图9、图10、图11。图9:数据分布图(红色为空间分析使用的面)图10:数据局部(红色为空间分析面放大后样式,黑色点都是一个个面)图11:数据再放大后样式(红色为空间分析面放大后局部)6.3测试结果对比ArcGIS单机(单线程)单机(8个并行任务)分布式(旧环境)分布式(新环境)备注数据量230万个面230万个面230万个面230万个面230万个面2292765条数据,3100km长20km缓冲区的面缓冲区分析(秒)33.9715.6244.3481.760.781ArcGIS、单机(单线程) CPU使用率35%左右,单机(8并行任务)CPU使用率100%,分布式暂未做监测缓冲区裁剪(秒)441126.532.77.83.25 ArcGIS使用toolbox clip工具 单机:不做优化,636.7秒 单机(8并行任务):不做优化637.5【这种方式虽然设置了8并行,实际还是执行单线程任务】 ArcGIS、单机(单线程) CPU使用率35%左右,单机(8并行任务)CPU使用率100%,分布式暂未做监测统计面积-实时计算(秒)43.7911.82.8920.164arcgis实时计算需要编写程序,暂未做测试统

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论