基于大数据下GIS的发展(陈俊言).doc_第1页
基于大数据下GIS的发展(陈俊言).doc_第2页
基于大数据下GIS的发展(陈俊言).doc_第3页
基于大数据下GIS的发展(陈俊言).doc_第4页
基于大数据下GIS的发展(陈俊言).doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

. . . . .基于大数据下的GIS发展姓名:陈俊言班级:1323101学号:201320310118指导老师:郭先春2015年11月28日一、概述 随着人类对客观世界认知的提高与技术水平的不断进步,所获取的描述客观世界的数据呈爆炸式增长,大数据已经成为了Google、亚马逊等大公司的竞争资本,通过大数据的有效利用和深入分析,可以挖掘巨大的商业价值和社会价值。根据维基百科的定义,大数据是由巨大且复杂的数据集组成的集合,且这些数据集因其巨大和复杂而难以用现有的数据库管理工具和传统的数据处理程序来进行处理。近些年我国开展的土地调查、数字城市建设等项目,取得了丰硕的成果,收集了大量的测绘数据和自然、人文数据,在今后大力开展的测绘工作中,还将获得更加丰富的地理信息数据,与此同时,如何有效地存储、管理和利用这些地理信息数据成为需要解决的问题。 自20世纪60年代的诞生以来,GIS(地理信息系统)行业飞速发展,广泛应用于资源调查、环境评估、灾害预测、国土管理、城市规划、邮电通讯、交通运输、军事公安、水利电力、公共设施管理、农林牧业、统计、商业金融等几乎所有领域,为人们的生活提供了极大的便利。随着GIS发展的实践,人们发现,GIS拥有海量的非结构化的空间数据,这些数据采集困难,存储不便,处理起来也十分繁琐。如何更加高效地读写和分析GIS的海量数据,这个问题困扰了一代又一代的GIS从业者。大数据概念的诞生及大数据时代的到来,提供了从本质上解决这个问题的希望。旨在处理越来越多的数据特别是非结构化数据的大数据技术,恰好契合了GIS发展了近半个世纪以来所面临的最大的难题。在大数据时代,GIS庞大的数据量不再显得臃肿,反而是一份巨大的资产,能够带来可观的价值,这使得GIS与大数据的结合是GIS发展的必然趋势。二、 什么是大数据 大数据其实并不是什么新鲜的事物,人们在大数据的概念被提出之前就已经开始在用大数据解决实际的问题了。沃尔玛通过分析大量的数据从而得出将啤酒和尿布放在一起能提高啤酒的销量的结论,这个人们耳熟能详的案例在本质上就是一种典型的大数据的分析思路虽然那时候人们并不称之为大数据。近年来大数据的概念空前火爆,各个研究机构、百科网站、大型公司都对大数据有不同的认识从而引出了不同的定义。而现在普遍认为大数据具有5V的特征属性,即Volume(数据体量大)、Velocity(数据的更新速度、处理速度快)、Variety(具有多样性)、Veracity(真实性)、Value(具有价值)。 随着社交网络的诞生,LBS(基于位置的服务)的出现,世界上的数据达到了前所未有的规模并且还在高速递增,这就是大数据的Volume;而现在的数据不再仅仅是传统的结构化数据,更多的是空间数据、视频数据、网站点击流数据等等这样的不能存储在传统数据库中的非结构化数据,这就是大数据的Variety;随着物联网的发展,如何优秀地处理实时更新地传感器数据是人们面临的新的挑战,同时传统的处理数据的方式必然会随着数据量的增加从而导致数据的写入和查询速度越来越慢,如何提高数据读写的速度,也是人们必将面临的问题,这就是大数据的Velocity;IBM认为,由于数据的噪音、缺失、不一致性、歧义等问题会导致数据的不确定性,因此大数据必然要具有真实性,这就是大数据的Veracity;与此同时,人们必须要认识到,现今的数据不再仅仅是获取信息的媒介,而是一种资源,是能够获取经济利益和挖掘相关知识的一种有价值的资产,这就是大数据的Value。大数据技术的进步必将对世界产生巨大的推动作用,同时人们的观念也要发生改变。维克托迈尔-舍恩伯格认为,在大数据时代人们将发生三个巨大的思维变革:人们对数据的操作不再是针对随机的样本,而是面对全体的数据;人们不再过多地要求数据的精准性,而是需要数据纷繁复杂,种类多样;人们不再追求事物的因果关系,转而关注数据之间的相关关系。这种观念上的改变会随着大数据的发展而逐渐作用于各个行业中,对整个人类社会的发展产生巨大的推动作用。三、GIS的定义 GIS(Geographic Information System)是地理信息系统的简称。陈述彭认为地理信息系统是以定位数据库为基础,具有多层次数据结构,多功能分析能力的空间型信息系统,李德仁从多级格网理论的角度出发,认为GIS数据存储的形式为不同尺度的空间数据库。综上所述,GIS是以计算机软硬件为基础,结合地理学、测绘学、地图学、计算机科学、运筹学等多门学科的,以获取、存储、管理、展示、分析地理空间数据为主的计算机系统,可以用于区域规划、决策分析等。四、 GIS数据的特征 从定义可看出,数据是GIS的血液。从通过图件扫描、格式转换、实地测绘等方法的数据获取,到采用各种先进数据库技术对数据进行存储、管理,再到利用计算机图形学、地图学等综合可视化技术对数据进行展示,以及最终以数据为基础的借助于计量地理学、拓扑学、图论等学科的决策分析等,这些过程都是以数据为核心的。随着GIS的发展,其数据呈现出数量大、种类多和结构复杂的特征。 4.1 数量大 GIS的数据量大具有两层含义,第一层含义是指数据占用的字节数多,这主要是针对栅格数据及多媒体数据而言的。比如“天地图”在2011年正式上线的时候,集成了海量的基础地理信息资源数据,总数据量约有30TB,处理后的瓦片数近30亿。资源三号测绘卫星是中国第一颗民用高分辨率光学传输型测绘卫星,截止到2013年6月底,在运行的不到一年半的时间中,总共存档卫星影像37万多景,数据量达到249TB。而GIS空间数据产生的商业价值每年正以15.5%的速度增加,是GIS软件和服务的两倍。GIS数据量大的第二层含义是指数据单位个数多。比如“天地图”各类地名和PO(IPoint of Interest,兴趣点)有1100多万条,2011年8月竣工的国家西部150000地形图空白区测图工程和国家150000基础地理信息数据库更新工程两个国家级重大测绘工程,成果有20多万航片和8000多景卫星遥感影像,地名近600万条,描绘了1.4亿个地理要素。另外,其他专业领域比如土壤数据、气象数据在全数据模式下数量也是非常可观的。 4.2 数据种类多 GIS的数据种类多样,从大的方面看,具有矢量数据、栅格数据、属性数据,以及与地理位置相关的音频、视频等多媒体数据等;而从小的角度看,主要是因为数据来源广泛和不同应用的需求而体现为数据格式多样,这里我们主要从数据格式多样来看GIS数据种类多。比如测绘方式产生的dxf数据,经常需要导入到GIS系统中,其他的还有扫描得到的tiff或jpeg图像,具有空间坐标信息的GeoTIFF文件,数字制图中数字化后的ESRI shapefiles数据或MapInfo的TAB数据,格式转换后用于web的png、SVG或GeoJson数据等。资源三号卫星TLC(三线阵相机)标准产品中的1A级产品(预处理级辐射校正影像产品)包括的文件格式就有tiff、rpb、xml、jpeg等四种格式的15个文件。GDAL/OGR是地理空间数据转换的类库,多用来读取地理空间数据,根据GDAL官方网站的资料显示,GDAL/OGR支持的栅格数据多达132种,矢量数据有71种,这其中也包括了PostGIS、Spatialite、ArcSDE这样的数据源。 4.3 数据结构复杂 随着科技的发展,人们获取信息的方式越来越多,获取的数据量也呈爆炸式增长,而这些信息中大概85%是非结构化的。传统的GIS主要有空间数据和属性数据两类数据,最具代表性的是ESRI shapefiles文件,空间数据以二进制文件的方式进行存储,属性数据以二维表的方式进行存储,具有固定字段,另外还有以文本存储的投影信息等。如今在GIS中,非结构化的数据越来越多,如Google Earth中用户可以上传基于地理位置的图片,iOS的相册提供了在地图上显示照片和视频信息的功能,像是LBS(LocationBased Service,基于位置的服务)一类的应用,更是需要在地理信息的基础上,集成周边不同类型POI的详细信息、用户实时发布的文本或多媒体信息等,这些信息绝大多数都是非结构化的。在用于人口普查的GIS系统中,基本的人口信息是结构化的,但是如果详尽一些的信息或是存储个性化的信息,比如加入个体从小到大的教育经历、特长及奖项等信息,可能数据就会变为非结构化的了,因为不是每个人都会有大学的教育经历,也不是每个人具有某种特长并得过奖项,这在数据库中表现为每个人需要有不同的数据项来记录这些细化的信息。五、大数据时代下GIS的发展 作为一门从计算机科学衍生出来的综合性学科,地理信息系统(GIS)从诞生起就跟计算机科学的发展密切相关。在pc机时代,桌面GIS是主流;在互联网时代,WEBGIS大行其道;在云的概念诞生后,国内外的GIS公司也陆续推出了云GIS。而大数据时代的到来也将极大地促进GIS的发展:物联网的发展和传感器的普遍使用为GIS提供了丰富的数据来源;云计算降低了GIS的海量数据存储和处理的成本;而大数据的相关技术会使GIS数据的存储更加便捷和高效,同时使人们可以从海量的GIS数据中挖掘出相关的知识,并运用这些知识为国家治理、企业决策及个人生活服务。传统的GIS处理的数据分为属性数据和空间数据。属性数据会随着时间的推移而导致其数据量越来越大从而具备结构化大数据的属性,而在大数据概念未被提出来之前,庞大的非结构化的空间数据在本质上就是某种意义上的大数据。虽然大数据时代下GIS数据依旧是属性数据和空间数据,但是GIS数据的许多问题都需要用新的思路考虑和解决。笔者试着从GIS大数据的采集、GIS大数据的存储与管理和GIS大数据的分析与挖掘三个方面思考大数据时代下GIS数据需要解决的问题。 5.1 GIS大数据的采集 大数据环境下GIS数据采集方式不再局限于全站仪、水准仪、扫描仪、卫星遥感影像等传统设备与方式,而是来源于各种传感器、街景图片、网页贴吧、视频监测数据、历史数据、社会动态等复杂多样的数据源,凸现大数据的多样性特征,这给GIS数据的采集增加了难度。而通常我们认为,高质量的数据通常具有精确性、一致性、完整性、同一性、实效性和真实性这6大特性。精确性是指数据符合规定的精度,不超出规定的误差范围;一致性是指数据之间不存在相互矛盾;完整性指数据格式和数据内容的完整;同一性指数据具有统一的标识;时效性是指数据的值在不同的时间拥有不同的效果;真实性是指数据必须是真实可靠的,不能是伪造的。 因此数据的获取者需要从高质量的数据源中提取数据,建立完善的数据精度评价模型,逐步提高数据的精度,以获取更精准的数据。而GIS数据源的种类各异,获取数据的方法也各不相同,从而需要建立多源数据的实体关联模型和识别模型、多源多模态数据的实体自动识别方法、实体识别效果的评估模型等,形成高质量的数据整合方法,将不同来源的GIS数据结合起来用于从多角度、全面地描述事物对象,保证数据的一致性。同时还需要建立完善的正确性条件和约束性规则以确保数据的完整性和同一性。GIS数据源中虽然有着传感器数据这样的实时性数据,也有地图数字化数据这种低实时性的数据。我们需要运用所有能用到的数据来对事物进行分析,故而需要建立数据时效性分析模型,形成完善的时效性评价机制。与此同时,对于数据真实性的监督必不可少,不仅仅要对数据进行溯源管理,还需要成立专门的数据监管部门,确保数据的真实性。 5.2 GIS大数据的存储与管理 存储是分析的基础,管理是挖掘的保障,随着数据量的增加,数据的存储和管理也需要发生从量变到质变的改进。海量的数据虽然可以为分析和挖掘提供丰富的数据来源使分析和挖掘更加准确和全能,但是也对数据的存储和管理提出了新的要求。分布式的存储和管理是处理大数据的一个基本的思路。大数据时代下GIS数据的存储与管理有如下几个问题: 随着数据的规模越来越大,数据库如何存储大规模的结构化数据和非结构化数据:分布式文件系统将数据分散存储在各个节点上,存储资源通过网络连接:分布式数据库可以用并行处理的方式解决传统数据库中数据增加的问题,像NoSQL这样的数据库通过放松对事务 ACID 语义的方法来增加系统的性能以及可扩展性。同时构建在 Hadoop 之上的类数据库系统可以提供各自存储模型所对应的查询语言和访问接口,既借用了SQL的优点,又能够适应大数据时代下新的挑战。 数据存储的格式:传统的GIS以矢量数据和栅格数据的格式对非结构化的空间数据进行了很好的存储,但是矢量数据和栅格数据由于数据结构的差异在表达不同的地理信息方面 各有所长,将矢量数据和栅格数据的优势结合起来,将数据用矢栅一体化的技术存储起来,将这种矢栅一体化的技术转化为存储格式的标准,则可以对矢量数据和栅格数据各取所长,以便数据能够更方便高效地进行表达。 在数据库与应用层之间建立良好的接口:大数据环境下的存储与管理软件栈,需要从上层应用中读取 PB甚至 EB量级的数据,同时还需使上层应用能够快速、准确、高效地访问数据库的各个节点以读取数据,建立良好的访问接口是必不可少的。而数据在数据层和应用层之间的流动过程中必须保证其正确性和准确性,则需要建立数据评价模型和数据保障模型以确保数据的可用性。 在传统的分布式空间数据库环境下数据虽然可以存放在不同节点上,但这种相对传统的分布式文件系统所支持的扩展性有限,针对GIS大体量、多样性的空间数据存储问题仍需深入研究,从而寻找更加有效的方案 5.3 GIS大数据的分析与挖掘 传统的空间数据虽然具备大数据的属性,但是由于缺乏足够的大数据的理论支撑,空间数据并不像如今的大数据时代所提到的大数据那样的全能。其主要功能是用于展示和描述性分析,在预测分析和决策支持的相关方面比较弱势。而在大数据时代,建立在相关关系分析法基础上的预测是大数据的核心,同时人们需要从传统的决策模式过渡到数据指导决策的新的模式中,在大数据持续发展的过程中,会渐渐地进化为数据即决策的行为模式。同时随着智慧城市、智慧地球等概念的兴起和推广,遥感数据、卫星航图影像数据随着技术的更新而日益增加,传感器数据随着时间的推移不断的累积,GIS的数据越来越多,然而与之相对应的是现在GIS行业面临着一个问题:“数据庞杂,知识匮乏”。即人们拥有很多的数据,但是缺乏从数据中提取出来用于预测和决策支持的相关知识。在数据库知识发现兴起之后,随着数据挖掘技术的不断发展,人们将陆续从GIS庞大的数据库中挖掘出相关的知识用于指导实践。 大数据环境下是处处连接的时代,英特尔预测2020年全球将有500亿个连接。每个连接都是一个传感器,这些传感器无时无刻都在进行采集数据,其自身状态也随养社会环境、自然环境的变化而变化这样的背景下,迫切需要GIS能够做到低延退的分析处理工作,因为分析模型也需要随养变化而动态变化。另外大体量和多样性的GIS数据同样给分析处理带来巨大挑战数据体量越大,分析模型的建立就越困难,加上GIS数据包含街景地图、遥感影像、矢量数据等多样性的、价值密度很低数据,从中快速提炼有价值数据无疑是一项无比艰巨的任务 六、 大数据时代GIS的分析与挖掘面临着如下的转变和挑战: 庞杂的数据使分析和挖掘变得更加复杂:大数据时代的到来使GIS本身就庞大的数据量急剧膨胀,同时由于大数据时代下的空间分析的分析对象从“样本”转换成了全体数据,这导致参与分析的数据量跟之前的样本数据不能同日而语,人们需要对更加复杂、更大规模的数据进行分析和挖掘。大数据时代下空间分析的对象通常是TB级别的大数据,如何对其进行分析是一个巨大的挑战。 数据深度分析需求的增长:要从浩如烟海的数据中挖掘出相关的知识用于指导实践,必须对大数据进行深入的分析而不仅仅是生成报表。复杂的空间分析依赖复杂的模型,很难用SQL来表达,称之为深度分析。人们不仅仅需要知道发生了什么,还需要对将要发生的事情进行预测,为将要发生的事情做好准备。 自动化分析出现:对大量的数据进行有效的分析,分析过程需要按照标准化的自动分析流程进行,这就要求计算机能够分辨数据在数据结构上的差异,明白语义并自动地进行分析。 七、大数据环境下GIS技术发展 大数据环境下GIS数据体量大、增长速度快、形态多样、不精确、价值密度低等诸多特征必将引起(;1S数据采集、存贮、分析等阶段的变革。大数据环境下GIS技术在空间数据采集、存储、分析处理等方而存在诸多挑战,应运而生的大数据分析技术则为根木上解决大数据环境GIS所而临的挑战提供了可能 7.1存储去结构化 相对于有限的数据集,大体量数据需要可扩展的数据存储架构,以满足数据无限增长的需要。针对大数据时代(;1S数据的多样性,诸如HBase、Redis、MongoDB、lnfoGrid等非关系型NoSQL数据库显然是不错的选择 这些数据库存储不需要预先定义模式,并且可在系统运行的时候动态增加或删除节点,避免停机维护,提高了拓展性和可靠性;另外非关系型数据库没有共享架构,数据往往被划分后存储在各个木地服务器上,方便就近从木地磁盘上读取数据,提高数据读取性能 7.2计算内存化 Hadoop系统是近几年比较经典的开源大数据解决方案,但Hadoop主要进行离线数据的计算,应对低延退的应用场景比较困难;另外Hadoop使用的是MapReduce模型,而该模型将复杂的问题用简单的映射、归约方式,对复杂的算法逻辑支持不充分。Hadoop方案中数据存在硬盘上,因此容易受10瓶颈的影响,故实时处理GIS数据乏力。幸运的是大数据领域一批又一批新生技术出现,Spark是其中的一个代表。Spark启用了内存分布式数据集,它支持更多范式,且配有一个流数据处理模型,因此在处理GIS数据上能达到更低延退,性能更高的效果 7.3分析去模型化 传统的GIS空间数据分析需要先建立分析模型,比如影响因子有哪些,权重各是多少,然后才能进行分析,做出评价。然而大数据环境下,分析模型愈发跟不上或不适应数据的快速增长与变化,以数据为最终驱动力的去模型化则必然是GIS技术的发展方向 7.4地图全息化 传统的地图越来越不适应大数据环境下用户的个性化定制需求,以人为木的全息化地图可帮助用户任何时间、任何地点获取所需要的数据信息。其宗旨是以“人”为木,根据用户的应用需求,基于位置来集成和关联适宜的地理范围、内容类型、细节程度、时间点或间隔的泛在信息,通过适应于特定用户的表达方式为用户提供信息服务八、 GIS大数据提出的新要求 GIS数据的三个特点很符合大数据时代的大数据特征。将大数据特点归结为“3V”:Volume指数据量大,Variety指数据类型多样,Velocity指数据的产生是快速的,同时处理数据以满足当前应用的需求也应当是快速的。大数据时代一书也指出,虽然大数据的“大”多数情况下指的是绝对意义上的大,即量上的大,但还有一层意思是指不用随机数据而采用所有数据的方法,即“样本=总体”的模式。可见,GIS已经进入了大数据时代,大数据时代对GIS数据的存储也提出了新的要求。 8.1 海量GIS数据的高效存储 随着计算机硬件成本的降低,特别是存储设备成本的降低,对于海量数据的存储已经不是问题,现在个人计算机标配硬盘容量多数为1TB,单个普通的磁盘阵列服务器的容量不算装载系统的SSD,也有30TB左右。但是在瞬息万变的客观世界,GIS经常服务于应急保障、实时导航、分析决策等,数据存储的效率也需要提高,否则会影响整个系统的性能,因此在大数据时代,GIS系统应具有海量数据高效存储的能力。 8.2 支持丰富的数据类型 GIS数据的来源广泛、类型丰富,对于少量数据或在个别领域的应用,可以采用数据转换、人工整理等方法使数据规范化,统一数据结构,使其符合传统关系型数据库的存储要求。但是对于海量GIS数据而言,需要存储很多原始的非结构化的数据,或是不同来源的结构不统一的数据,因此数据库应该对多种类型、非结构化的数据具有良

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论