空间信息系统原理08_第1页
空间信息系统原理08_第2页
空间信息系统原理08_第3页
空间信息系统原理08_第4页
空间信息系统原理08_第5页
已阅读5页,还剩82页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第八讲空间元数据1、元数据的基本概念2、元数据的内容及标准 3、元数据的表达4、元数据系统5、元数据应用1、元数据的基本概念元数据(Metadata)是关于数据集的数据,是数据集的说明或描述。在地理信息系统中用于描述地理数据集的内容,质量等数据的一些特征。它可以帮助人们查找和理解数据。

1、元数据的基本概念 ——实例元数据并不是一个新的概念,以下各例均可以看成是元数据:传统的图书馆卡片

出版图书的版权说明

磁盘的标签

纸制地图的元数据表示为:地图类型、地图图例、图名、空间参照系统和图廓坐标地图内容说明、比率尺和精度、编制出版单位日期或更新日期、销售信息

…1、元数据的基本概念 ——数据存储我们所讨论的元数据是以数据的形式存储的,这不同于以往的元数据。它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。

科学界关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利用,并为计算机辅助软件工程(CASE)服务。

1、元数据的基本概念 ——空间元数据空间元数据(GeoMetadata),是关于地理相关数据和信息资源的描述性信息。它通过对地理空间数据的内容、质量、条件、位置和其他特征进行描述与说明,帮助和促进人们有效地定位、评价、比较、获取和使用地理相关数据。对空间数据某一特征的描述,称为一个空间元数据项。

空间元数据是一个由若干复杂或简单的元数据项组成的集合。空间元数据是对地理空间数据的一个抽象映射。从这个意义上来说,空间元数据和地理空间数据是对地理空间实体不同抽象层次的描述,是对地理信息的不同深度的表达,它们统一于它们所反映的客观内容。

1、元数据的基本概念 ——空间元数据概念列举空间数据(GeospatialData):用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息;类型(Type):在元数据标准中,数据类型指该数据能接收的值的类型;对象(Object):对地理实体的部分或整体的数字表达;实体类型(EntityType):对于具有相似地理特征的地理实体集合的定义和描述;点(Point):用于位置确定的零维地理对象;结点(Node):拓扑连接两个或多个链或环的一维对象;标识点(LabelPoint):显示地图后图表时用于特征标识的参考点;线(Line):一维对象的一般术语;线段(LineSegment):两个点之间的直线段;串(String):由相互连接的一系列线段组成的没有分支线段的序列,它可与自身或与其它线相切;弧(Arc):由数学表达式确定的点集组成的弧状曲线;链(Link):两个结点之间的拓扑关联;链环(Chain):非相切线段或由结点区分的弧段构成的有方向无分支序列;环(Ring):封闭状不相切链环或弧段序列;多边形(Ploygon):在二维平面中由封闭弧段包围的区域;1、元数据的基本概念 ——空间元数据概念列举(续一)外多边形(UniversePolygon):数据覆盖区域内最外侧的多边形,其面积是其它所有多边形的面积之和;内部区域(InteriorArea):不包括其边界的区域;格网(Grid):组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌的点集合;格网单元(GridCell):表示格网最小分为要素的二维对象;矢量(Vector):有方向线的组合;栅格(Raster):同一格网或数字影像的一个或多个叠加层;像元(Pixel):二维图形要素,它是数学影像最小要素;栅格对象(RasterObject):一个或多个影象或格网,每个影象或格网表示一个数据层,各层之间相应的格网单元或像元一致且相互套准;图形(Graph):与预定义的限制规则一致的零维(如node)、一维(link或chain)和二维(T多边形)有拓扑相关的对象集;数据层(Layer):集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合;层(Stratum):在有序系统中数据层、级别或梯度序列;纬度(Latitude):在中央经线上度量,以角度单位度量离开赤道的距离;经度(Longitude):经线面到格林尼治中央经线面的角度距离;1、元数据的基本概念 ——空间元数据概念列举(续二)经圈(Meridian):穿过地球两极的地球的大圆圈;坐标(Ordinate):在笛卡尔坐标系中沿平行于X轴和Y轴测量的坐标值;投影(Projection):将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学转化方法;投影参数(ProjectionParameters):对数据集进行投影操作时用于控制投影误差、变形实际分布的参考特征;地图(Map):空间现象的空间表征,通常以平面图形表示;现象(Phenomenon):事实、发生的事件、状态等;分辨率(Resolution):由涉及到或使用的测量工具或分析方法能区分开的两个独立测量或计算的值的最小差值;质量(Quality):数据符合一定使用要求的基本或独特的性质;详述(Explicit):由一对数或三个数分别直接描述水平位置和三维位置的方法;介质(Media):用于记录、存储或传递数据的物理设备。2、元数据的内容及标准 ——元数据的内容元数据的内容包括:对数据集的描述;对数据集中各数据项、数据来源、数据所有者及数据序代(数据生产历史)等的说明;对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等;对数据处理信息的说明,如量纲的转换等;对数据转换方法的描述;对数据库的更新、集成等的说明。

2、元数据的内容及标准 ——空间元数据的内容

确定一套地理空间数据的存在性及其位置确定一套地理空间数据对某种应用的适宜性确定获取一套地理空间数据的手段确定成功地转换一套地理空间数据的方法和途径确定一套地理空间数据的存储与表达方法确定一套地理空间数据的使用方法

2、元数据的内容及标准 ——元数据的分类(按内容划分)科研型元数据:这类元数据的任务是帮助科研工作者高效获取所需数据,内容包括数据源名称、作者、主体内容等传统的、图书管理式的元数据,以及数据拓扑关系。评估型元数据:主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。模型元数据:用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。2、元数据的内容及标准 ——元数据的分类(按对象划分)数据层元数据:指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。属性元数据:是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据处理规则(协议),如采样说明、数据传输线路及代数编码等。实体元数据:是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。2、元数据的内容及标准 ——元数据的分类(按系统作用划分)系统级别元数据:指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。应用层元数据:指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。2、元数据的内容及标准 ——元数据的分类(按作用划分)说明元数据:是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。控制元数据:是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。

2、元数据的内容及标准 ——建立元数据标准的必要性空间数据是一种结构比较复杂的数据类型。它涉及到对于空间特征的描述,也涉及到对于属性特征及其它们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作;由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。2、元数据的内容及标准 ——元数据的标准

当前,人们对于空间元数据的研究已形成了两个标准:美国联邦数据委员会(FGDC)的空间元数据标准国际标准化组织(ISO/TC211)的空间元数据标准这两个标准从不同侧面对地理空间数据进行了比较详细的描述。

2、元数据的内容及标准 ——FGDC空间元数据标准

美国联邦地理数据委员会(FederalCongraphicDataCommittee,FGDC)成立于1990年,由来自16个单位的17位专家组成。1994年8月FGDC通过并发布第一版CSDGM。此后,美国联邦政府内外的许多单位根据12906号总统令的要求,从1995年开始执行这一标准。FDGC于1997年完成了第二版CSDGM,并于1998年6月认可了该标准(FGDC-STD-001-1998)。

2、元数据的内容及标准 ——FGDC空间元数据标准 根据最新的FGDC的用户手册,标准中定义了三类元素:子集(Sectoins):标准中主要的章节被称为子集,其实它也是复合元素。复合元素(CompoundElement):一组相关的数据元素或者其它复合元素。

数据元素(DataElement):从逻辑上不可再分割的数据项。

每个元素可以是必选的,可选的,或者是一定条件下可选的(如元数据的实例包含了某个子集、复合元素或具有了某个属性,就必须提供信息)。2、元数据的内容及标准 ——FGDC空间元数据标准 FGDC元数据标准的各个子集的示意图

其中1到7是主要子集,而8到10属于次要子集,它们不能单独存在,只能在主要子集中被引用。2、元数据的内容及标准 ——FGDC空间元数据标准信息项说明标识信息(Identification)是关于数据集的基本信息。主要包括:引用,描述信息,状态信息,空间范围,关键词,访问限制,使用限制等。数据质量信息(DataQuality)

对数据质量进行总体评价的信息。包括属性精度,逻辑可靠性报告,完整性报告,位置精度,继承信息(数据源+处理步骤)等。

空间数据表示信息(SpatialDataOrganization)

数据集中空间信息的组织方法。由空间表示类型,矢量空间表示信息,栅格空间表示信息等组成。

空间参照系信息(SpatialReference)数据集中坐标的参考框架以及编码方式的描述,是反映现实世界和地理数字世界之间关系的通道。包括平面坐标系定义和垂直坐标系定义。2、元数据的内容及标准 ——FGDC空间元数据标准 信息项说明实体和属性信息(EntityandAttribute)

是关于数据集内容的细节信息,包括实体类型,它们的属性及属性的值域。

发行信息(Distribution)

是关于数据发行和获取的信息。包括发行部门,数据资源描述,发行部门责任,获取手段等。

元数据参考信息(MetadataReference)

元数据当前状况及其负责部门的信息,包括元数据日期信息、联系地址,制定元数据所使用的标准、版本、限制条件、安全信息以及元数据扩展信息等,是当前数据集所作元数据的描述的依据。引用信息(Citation)

引用和参考数据集时所需的简要信息。包括标题、作者信息和参考时间等。

2、元数据的内容及标准 ——FGDC空间元数据标准 信息项说明时间范围信息(TimePeriod)

有关事件的日期和时间信息,被主要子集的元素引用。

联系信息(Contact)

在主要子集中被引用的有关个人或组织的联系信息。【注】:美国FGDC元数据标准除在美国国内广泛使用外,加拿大、印度等国也同等采用,作为各自的国家标准。ISO/TC211利用该标准文本作为基础,正在制定相应的国际标准。

2、元数据的内容及标准 ——ISO/TC211空间元数据标准 国际标准化组织ISO作为全球标准的权威机构,对地理数据标准化问题一直比较重视。1994年后期,国际标准化组织面对地理信息数据标准化的趋势,成立了地理信息/地球信息业技术委员会,即ISO/TC211编号为15046,用于专门研究和建立一个处理与地球位置有直接或间接关系的地理对象或现象的标准体系。ISO/TC211的元数据标准以FGDC等现有标准为基础,按照国际标准化组织制定的标准导则要求制定。其工作范围是:定义说明地理信息和服务所需要的信息。提供有关数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系统和发行信息。该标准适用于数据集编目、数据交换网络,以及数据集的详尽说明。适用于地理数据集、数据集系列、地理要素和属性。2、元数据的内容及标准 ——ISO/TC211空间元数据标准TC211于1998年9月发布了地理信息元数据元数据标准的草案TC21115046-15。标准

一共有400多个元素分为:必选、可选或一定条件下必选几种,同时标准还提出了用户自己扩充元数据的方法。标准中定义了两级元数据:一级元数据:主要用于支持数据编目和空间信息交换中心的数据发现服务,包含了53个元数据元素。二级元数据:提供了更完全的数据集描述,包含了13种类型的元数据。2、元数据的内容及标准 ——ISO/TC211空间元数据标准二级元数据标识信息(Identificationinformation)数据质量信息(DataQualityinformation)谱系信息(Lineageinformation)空间数据表示(Spatialdatarepresentation)参考系统信息(Referencesysteminformation)

特征目录信息(Featurecatalogueinformation)

发布信息(Distributioninformation)元数据参考信息(Metadatareferenceinformation)引用信息(Citationinformation)

数据负责者信息(Responsiblepartyinformation)

地址信息(Addressinformation)

范围信息(Extentinformation)在线资源信息(

On-lineresourceinformation)

其中前8个是元数据的子集而后5个是可重复的实体,它们不能单独使用,总是作为一个单元出现在8个子集中。

2、元数据的内容及标准 ——ISO/TC211空间元数据标准ISO/TC211空间元数据标准是至今最完整、也是最为复杂的元数据标准方案。另外,还有一个英国Dublin元数据核心标准。它是1995年3月由有关图书馆、数字图书馆、标记语言等方面的专家们制定的一个有关网络电子资源的发现标准(RFC2413)。有关这一标准的详细说明请参考实验室张颖硕士论文。2、元数据的内容及标准 ——我国元数据的发展与国外相比,我国对地理信息元数据的研究以及对相关标准的制定和实施刚刚起步。按照国家“九五”科技攻关计划“中国可持续发展信息共享示范”和“国土资源与地区经济信息系统和国家空间信息基础设施关键技术研究”两个项目的相关专题设计,通过对前两个国际标准的研究分析,初步制定了项目内部使用的《中国可持续发展信息共享元数据标准》和《NREDIS信息共享元数据内容标准草案》。2、元数据的内容及标准 ——NREDIS信息共享元数据标准我国在元数据方面的标准主要是参考美国的FGDC地理空间元数据标准。NREDIS信息共享元数据标准是有代表性的一个。在该标准中,各个元素的选择主要基于以下四方面来考虑:数据集的可用性数据集的适用性如何获取数据集如何使用数据集2、元数据的内容及标准 ——NREDIS信息共享元数据标准

NREDIS信息共享元数据标准的标准组织结构:章节部分 标明该标准是由何样层状结构组织元数据元素和复合元素。复合元素 由数据元素和其它符合元素组成,表示较高层次的概念。元素 元数据的最基本信息单元,包括元素名、定义、类型、值域、域名缩写。类型有integer、real、text、date、time五种。域名缩写由少于八个字符组成。值域指明了元素的取值范围。日期 用不同的时间格式表示不同的公元时间段。如,公元元年到公元9999年12月31日,用YYYYMMDD表示。2、元数据的内容及标准 ——NREDIS信息共享元数据标准

NREDIS信息共享元数据标准的标准组织结构:时间 有地方时、带时差的地方时和统一时三种表示。例如带时差的地方时可以表示为HHMMSSSSshhmm,其中HHMMSSSS表示地方时,s表示时间差符号(+/-),hhmm表示时间差的时和分。经纬度 用十进制小数表示经纬度。维度在赤道以北,用+标明,以南用-标明;经度在主子午线以东用+(或不加符号)标明,以西用-标明。网址和文件名 文件名和网址遵循Internet的URL规定。元素的可选条件 包括必选(Mandatory)、条件必选(Mandatory-if-Applicable)和可选(Optional)。2、元数据的内容及标准 ——NREDIS信息共享元数据标准

NREDIS信息共享元数据标准的标准组织结构:产生规则 用于确定一个复合元素和它的下一级的数据元素和复合元素之间的关系。例如:

a=b+c:a由b和c组成;

a=[b|c]:a由b或c组成;

a=4{b}6:a由b重复4到6次组成。扩展性 数据集生产者和共享用户可以定义扩展元素,它是不包括在标准中的元素。定义时,必须符合标准的继承结构,不能改变标准元素的名称、定义。类型和域,可以定义为符合元素,也可以包括扩展和标准元素。3、元数据的表达 ——XML和元数据现今网络时代,XML即将成为网上信息交换的基本格式。XML本身具有的特点使它很自然的成为元数据表达的基本方式(我们假定大家对XML本身已经有了一定了解):纯文本表示,具有平台无关性

信息的内容与信息的表示是分开的,可满足各种不同的需求

系统可以利用XML来方便地表达元数据

系统可以利用XML的样式语言来实现元数据间的转换和显示

可以方便地查询系统元数据

业界对XML技术有广泛的支持

3、元数据的表达 ——DTD和XMLSchema上面已经提到,XML的优势之一在于数据和描述的分离。而用来描述XML数据本身的DTD(DocumentTypeDefinition)和XMLSchema成为元数据定义的主要表达方式。DTD(DocumentTypeDefinition)

由XML1.0规范提出,它是XML文档的文档类型声明段。它规定了元素的结构和属性列表以及元素间的逻辑关系,以对XML文档进行有效性检查。

XMLSchema XMLSchema是定义XML标记集合和应用的元语言,它的功能就类似于XML1.0中的文档类型定义(DTD)。

但是给出了更多的扩展,而且本身也用XML表达。3、元数据的表达 ——DTD和XMLSchema数据XML数据文件Schema文件XML1.0DTD或XMLSchema内容信息结构和限制信息保证文档是格式良好的保证文档的有效性DTD、XMLSchema对XML的格式定义3、元数据的表达 ——DTD对XML文档的定义带有DTD定义的XML数据文件3、元数据的表达 ——XMLSchemaXMLSchema是定义XML标记集合和应用的元语言,它的功能就类似于XML1.0中的文档类型定义(DTD)。XMLSchema中增加许多新的机制,包括可以规定元素和属性的数据类型(比如整型,日期类型)、可以明确地支持名域,以及比DTD更为强大的内容模型(包括简单类型和复杂类型)等。XMLSchema在声明的时候使用的也是XML,而不是其它特殊的记法。这就意味着XMLSchema文档可以被普通的XML软件所处理,而不象DTD那样需要特殊的工具。

3、元数据的表达 ——XMLSchema的一些概念

类型定义:简单类型定义(SimpleTypeDefinition)

复杂类型定义(ComplexTypeDefinition)

类型继承:限制性继承(DrivingComplexTypesfromRestriction

)

扩展性继承(DrivingTypesfromExtention)

元素声明属性声明(AttributeDeclarations)

模型组(ModelGroup):Sequence,Choice,All元素重复次数:minoccur

和maxoccur返回一个较为复杂的XML数据文件该数据文件的XMLSchema文件3、元数据的表达 ——XML、RDF和元数据

XML和元数据

XML的一个很大的优点就是具有自说明性,因为通过文件的DTD和XMLSchema就可以了解数据集的结构信息――可以说,虽然没有直接说DTD和XMLSchema是元数据,其实它在功能上讲就是一种元数据——是关于数据集关系和数据元素限制条件的元数据,所以用它们来表示数据集间的关系显得很自然。

RDF和元数据

RDF(ResourceDefineFramework)是一种用来描述网上资源的元数据描述框架,而RDFSchema可以定义RDF所须的标签词汇,通过subClassOf和subPropertyOf等概念,RDFSchema不仅可以描述对象类之间的派生关系,也可以描述属性成员上的约束关系。由于目前对RDFSchema的支持软件明显不如DTD和XMLSchema,在这里不再过多介绍RDF。

3、元数据的表达 ——用XML表示元数据XML1.0规范(包含了DTD的说明)XMLSchemaRDF标准元数据共识元数据用户自定义元数据元数据记录系统的元数据利用XML来表示元数据3、元数据的表达 ——元数据表示实例下面给出了一段关于图层元数据的DTD表达<!--空间元数据DTD表示--><!--0.空间元数据--><!ELEMENTmetadata(idinfo,dataqual?,spdoinfo?,spref?,eninfo?,distinfo?,metainfo,locate?)><!--标识信息部分--><!--1.标识信息:

是关于数据集的基本信息--><!ELEMENTidinfo(citeinfo,descript,timeinfo,status,spdom,keywords,accconst,useconst,ptcontac?,secinfo?)><!--1.1引用

在citeinfo中有描述--><!--1.2描述信息--><!ELEMENTdescript(EMPTY)><!ATTLISTdescriptabstractCDATA#IMPLIEDpurposeCDATA#IMPLIED>

3、元数据的表达 ——元数据表示实例(续)<!--1.3内容时间信息--数据集内容相应与参考时间的时间信息,在timeinfo中有描述--><!--1.4状态--数据集的状态和维护信息--><!ELEMENTstatusEMPTY)><!ATTLISTstatusprogress(Complete|Inwork|Planned)“Planned”update(Continually|Daily|Weekly|Monthly|Annually|Unknown|Asneeded|Irregular|Noneplanned)“Unknown”><!--1.5空间范围--数据集中的地理区域--><!ELEMENTspdomEMPTY><!ATTLISTspdomwestbcCDATA#REQUIREDeastbcCDATA#REQUIREDnorthbcCDATA#REQUIRED

3、元数据的表达 ——元数据表示实例(续)southbcCDATA#REQUIRED><!--1.6关键词—概括数据集某一方面特性的词或短语--><!ELEMENTkeywordsEMPTY><!ATTLISTkeywordsthemeCDATA#IMPLIEDplaceCDATA#IMPLIEDstratumCDATA#IMPLIEDtemporalCDATA#IMPLIED><!--1.7访问限制--存取数据集的必要的限制和规定--><!ELEMENTaccconst(#PCDATA)><!--1.8联系信息--可知的关于数据集的个体或团体的联系信息--><!ELEMENTuseconst(#PCDATA)>

4、元数据系统 ——元数据系统和GeoMeta

虽然利用目前一些现成的免费软件很快就可以搭建一个元数据系统,比如说国内的用户就可以直接到国家空间信息基础设施网站下载I-Site的相关软件包,但其无论是在对元数据的描述能力还是存储和查询的支持都十分有限。

考虑到上面我们使用XML作为元数据的表达工具,一个能够使用XML来描述各种层次的元数据以及基于XML进行元数据存储、转换和查询的元数据系统将能够反映基本的元数据集成操作的主要特征。以下我们将重点介绍实验室设计的GeoMeta——一个基于XML的地理信息元数据系统。4、元数据系统 ——GeoMeta体系结构Z39.50查询处理器Z39.50服务器元数据管理器查询处理器GeoMeta服务器文件系统元数据管理工具元数据查询工具Z39.50客户端GeoMeta通讯协议WEB服务器网关元数据库服务器Z39.50协议Z39.50协议GeoMeta通讯协议系统配置工具数据库WWWHTTPHTTPGeoMeta服务端GeoMeta客户端通讯协议网关GeoMeta系统在参考了FGDC提供的用于建设空间信息交换中心(ClearingHouse)

的I-Site系列软件和由BlueAngelTechnologies公司开发的MetaStar系列产品后设计并部分实现的。主要包括服务器端的GeoMeta服务器、元数据管理器、查询处理器和系统配置工具,客户端的元数据查询工具和元数据管理工具。为了方便用户使用,服务器还提供一个网关使得用户可以通过WWW网在浏览器中对系统进行查询和管理。由于通过Z39.50协议不容易表达XQuery查询,系统设计了一个简单的通讯协议――GeoMeta协议。

4、元数据系统 ——GeoMeta系统简介4、元数据系统 ——GeoMeta系统的服务器端

GeoMeta服务器:是元数据服务器对外的接口。主要负责接收来自客户端的按GeoMeta通讯协议组织的消息,经过解析后调用相应的功能模块,然后将结果组织好后返回给客户端。元数据管理器:负责管理各种元数据的模式文件(DTD或XMLSchema)以及它们的元数据记录。用户可以通过元数据管理工具来编辑元数据的模式文件并加入到系统中,还可以建立一些系统元数据之间的映射关系,以及各种数据的输入输出格式与系统元数据的映射关系从而方便地导入和导出不同格式的元数据文件。它还负责元数据记录的添加、删除和修改。查询处理器:负责处理由GeoMeta服务器传过来的各种查询要求(例如支持最简单的关键词查询,结构化或半结构化的带限制的XQuery查询语句)。4、元数据系统 ——GeoMeta系统的服务器端

Z39.50服务器:负责接收来自Z39.50客户端的查询请求。将请求重新组织后交给Z39.50查询处理器,得到结果后将其按用户要求组织,返回给客户端。

Z39.50查询处理器:根据用户的请求查询请求,参照系统的检索属性映射表和系统的实际存储策略来构造查询语句,得到结果后返回给Z39.50服务器。

系统配置工具:负责配置元数据库服务器的系统参数,比如GeoMeta服务器的监听端口、文件管理目录等等。还负责维护为支持Z39.50协议而保存的检索属性映射表和属性与元数据元素的对应关系。

4、元数据系统 ——GeoMeta系统的客户端元数据查询工具:查询工具由用户界面模块和协议处理传输模块构成,可以是基于GeoMeta通讯协议的应用程序、嵌入式构件(COM)或JavaApplet。由于系统所支持的查询语言不是一般用户能书写的,所以要由用户界面模块来负责与用户交互,输入查询条件和呈现查询结果。而协议处理传输模块负责将用户界面模块收集到的查询参数组织成查询语句,再根据GeoMeta协议产生系统消息,通过TCP/IP协议发送给GeoMeta服务器。接受到返回结果后拆包,将查询结果交用户界面模块显示。如果是在浏览器上做查询界面,只需在HTML的表单中收集到查询的参数,发送给WEB服务器就可以取得以HTML格式返回的数据了。

元数据管理工具:结构同上,主要是要提供给用户一个友好的界面来管理元数据模式信息、元数据记录以及各种映射关系,包括增、删、改和显示。它也是既可以走GeoMeta通讯协议也可以通过浏览器来处理。不同的是它需要先登录,才能进行权限内的一些操作,还需要对前面的操作有所记录,以便做日志或支持取消操作。

Z39.50客户端:帮助用户构造基于Z39.50协议的查询并呈现返回结果。

4、元数据系统 ——GeoMeta系统的客户端

HTTP协议:为了让用户能通过浏览器来进行各种操作,系统必须支持HTTP协议。

GeoMeta通讯协议:GeoMeta系统自行设计的基于XML的通讯协议。协议通过XMLSchema文件描述了不同种类的服务以及服务参数和返回结果。这样就可以由GeoMeta服务器统一接收消息,经过解释器处理以后发送到相应的功能模块。这样系统服务的添加和修改就显得比较简单,只需双方都有该服务的那部分Schema就可以通讯了,而且由于消息是纯文本格式,还避免了不同平台的字符编码问题。

39.50协议:是一种在客户/服务器环境下计算机与计算机之间进行数据库检索的通讯协议。它的出版及使用解决了不同系统间的数据交流的问题,克服了信息检索网络化的障碍。4、元数据系统 ——GeoMeta系统的协议

GeoMeta系统包括GeoMeta网关和Z39.50网关。它在某个意义上相当于客户端的协议处理传输模块的工作。它的主要功能是将用户通过HTTP协议传过来的一系列参数转化为满足协议的系统消息,然后发送到服务器,最后将结果以HTML格式的形式返回给浏览器。系统使用CGI程序来做GeoMeta网关,对于Z39.50网关使用现成的免费软件。

4、元数据系统 ——GeoMeta系统的网关4、元数据系统 ——基于XML的数据存储策略用XML来表达和传输元数据已为大家普遍接受,所以如何有效地管理基于XML的元数据(特别是海量的元数据)以方便用户查询必然是元数据系统需要解决的问题。由于目前还没有出现可用的XML数据库,虽然XML文件有诸多优势,但并没有表现在存储上。尽管我们希望数据存储和表达能有比较好的对应,但在真正有效的XML数据库出现以前,任何存储策略只需通过接口服务程序使得在用户看来系统的数据是按XML的模式来存储的,并且可以将满足这些模式的XML数据文件存入系统,同时可以要求结果按某种XML模式返回就可以了(当然能支持XQuery更好)。

4、元数据系统 ——基于XML的数据存储策略Wrapper(包装)自己格式的数据XML数据库XMLVIEWXMLVIEW示意图4、元数据系统 ——GeoMeta的数据存储策略GeoMeta的突出特点之一是给出了比较完备的数据存储策略。它支持以下类型的元数据的存储:无结构的存储

基于线性域段结构的存储

基于结构的存储

4、元数据系统 ——GeoMeta的数据存储策略无结构的存储

将元数据文件直接存到文件系统或数据库的长二进制域段中,在Oracle8i以上版本中还可以用

CLOB(characterLOBs’)、BLOB(binaryLOBs’)或者BFILE(binaryfiles’)来保存文件。这样做对于数据文件的存取十分简单有效,但对查询的支持比较有限。如果文件很多的话,基本上只能通过关键词检索。在查询要求不高或数据本来就无结构时此方法比较有效。

4、元数据系统 ——GeoMeta的数据存储策略基于线性域段结构的存储

一般来说,元数据从逻辑结构上讲都是树状的。如果没有可重复多次的节点,可以利用节点标签的唯一性(如果不唯一的话还可以通过该节点的XPath来做标记)将整个树压扁了存储在一个关系表中,取数据的时候再恢复过来。在实际应用中,一般只需将用户检索时用到的节点提出来存放到关系表中并且建立索引,把源文件直接按无结构的存储策略存放就可以了。如果需要返回的部分是整个记录或者记录的大部分内容,并且可能出现在查询条件中的元素没有重复结构时,这种存储策略还是比较有效的。

4、元数据系统 ——GeoMeta的数据存储策略...11.2.2将树形结构存放到关系表中4、元数据系统 ——GeoMeta的数据存储策略基于结构的存储

基于结构的存储大致有两种方式:按节点存储

利用对象关系数据库来存储

4、元数据系统 ——GeoMeta的数据存储策略

按节点存储先周游整个Schema结构,找出所有可能的XPath,然后将数据文件的元素按不同的XPath存放它们的数据(相当于把基于XPath的索引信息也保存了),必要时可将它们再组合起来。该方式对系统的要求不高,用文件系统或关系数据库都可以,而且可以比较好地支持XQuery查询,就是实现工作比较复杂。

4、元数据系统 ——GeoMeta的数据存储策略利用对象关系数据库来存储

随着XML技术的广泛使用,越来越多的数据通过它来传输和表达,人们自然而然的会想到直接XML数据存储起来。如果需要结构化存储,最终实用的可能还是各大数据库厂商提供的支持产品。事实上各大数据库厂商都紧密关注XML发展,纷纷推出帮助用户使用和管理(不单单是存储)XML数据的产品。因为面向对象关系数据提供了复杂类型和面向对象的一些支持,比如:

对象类型,对象类型的集合,对象类型的引用,继承。从而使我们可以在一定程度上结构化地存储XML数据文件。【例】可以考虑XMLSchema的结构信息

4、元数据系统 ——GeoMeta的数据查询策略GeoMeta系统的另外一个特点在于它多方面的数据查询策略的支持。在元数据库中存储策略的选择是由实际要求来决定的,而其中最关键的因素是对查询的支持。因为建立元数据库的一个重要目的就是为了用户能够让用户方便有效地得到自己需要的数据。从实现的技术角度讲,元数据的查询和一般数据的查询并没有什么差别。

4、元数据系统 ——GeoMeta的数据查询策略搜索(search)和查询(query)

”search”是指在用户不是很清楚自己要找的数据具体在什么位置时通过搜索引擎(相当于元数据库的工作)帮助用户定位数据的位置,然后用户就可以获取(”retrieve”)数据。它强调的是如何通过自己要找数据的特征来定位它(可能还需要通过第三方,而且一般是非结构化查询)”query”是指在知道数据位置和格式的情况下,按照一定的条件得到自己想要的那一部分数据。当然在实际情况中它们分得并不是那么很清楚(以后我们所用的查询也包含了搜索的含义)。它直接针对数据,通过查询条件和查询结果的构造来提取数据(一般是结构化查询)。4、元数据系统 ——GeoMeta的数据查询策略GeoMeta支持以下的数据查询策略:非结构化的查询

结构化的查询

半结构化查询

4、元数据系统 ——GeoMeta的数据查询策略

非结构化的查询

直接利用数据库的全文检索功能,在保存元数据文件的域段上建立interMedia文本索引,通过“Contains(XML文件所在域段,“关键词”)”来查找就可以了。如果用户对返回的格式有所要求,可以根据某个映射文件将其转换后再返回。

4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询

Z39.50客户端传过来的查询:它一般是一个二叉查询树结构(由服务器将客户端传来的经过BER编码的逆波兰(RPN)查询表达式转换而得)。一般的元数据系统用的是基于线性域段结构的存储,根据查找相关的注册属性集(如Bib-1)中用户属性和相关操作对应的编码以及所用的属性表,就可以构造一条带有选择字段、查询的表名和条件子句的完整的SELECT语句。将它提交给数据库,就可以得到查询结果了。GeoMeta目前在这方面的实现不多。4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询

XQuery结构化的查询:系统的工作重点在于如何将一段XQuery语句用

SQL语言来表达。XQuery所要求的XMLQueryDataModel,与对象关系数据库的对象关系模型有很好的对应:其中元素节点对应于对象类型或表,属性节点对应于表或类型的域段,而文本节点对应的是以文本方式存储的无结构的域段(可能是一个XML文件)。

4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询EEETTAAE元素节点A属性节点T文本节点一个查询数据模型的实例4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询XQuery和SQL语句的对应:

XPath表达式在XQuery中一个XPath表达式代表了原文件的Model(XMLQueryDataModel)中的一个或多个有序的节点(包含它们各自的子节点)。很多情况下一个XPath表达式就可以代表一个查询。如一个XPath:document(“zoo.XML”)/chapter[2]//figure[caption=“TreeFrogs”],它就包含了SQL查询中的三个重要部分1)域段选择:Chapter[2].figure,2)查询表:zoo.xml,3)查询条件:figure的属性caption=’TreeFrogs’。相应的SQL语句为“selectzoo.capter[2].figurefromzoowherezoo.chapter[2].figure.caption=’TreeFrogs’”。4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询元素构造表达式

通过元素构造表达式我们可以基于原来的XML文件构造出新的XML文件。它由开始标签,结束标签和由其它表达式得到的内容组成。它不好直接对应到SQL语句,但是通过对其它表达式的支持,不难构造出该元素的实例。

4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询

FLWR表达式FLWR(FOR,LET,WHERE,RETURN)表达式,从它的数据流可以看出其结构很像SQL的SELECT语句,因而可以很自然地建立它们的对应关系。其FOR部分相当于SQL中的From部分,WHERE部分相当于SQL中的Where部分,RETURN部分是一个可不带标签的元素构造表达式,相当于SQL中SELECT后面的结果组织部分。虽然SQL中没有与LET的直接对应,但“LET$a=XPath表达式”相当于将XPath表达式对应节点与变量a绑定,我们在SELECT语句中直接用XPath表达式对应的节点就可以了。4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询FLWR表达式的数据流4、元数据系统 ——GeoMeta的数据查询策略

结构化的查询一个XQuery查询[35]到SQL语句的对应:FOR$bINdocument("bib.xml")//bookWHERE$b/publisher="MorganKaufmann"AND$b/year="1998"RETURN$b/title

selectb.titlefrombib.bookasb

whereb.publisher='MorganKaufmann'andb.year='1998'

4、元数据系统 ——GeoMeta的数据查询策略

半结构化的查询

半结构化的查询大致可以分为两类:

第一类情况:如果查询中任何两个节点node(x)、node(y)在判断条件中都没有涉及到它们之间的结构关系:比如node(x)在node(y)前出现,node(x)是node(y)的后代等等。这时我们就可以基于一定策略先找到所有这种的节点,分别判断,然后在根据它们之间的and、or、not关系,组合起来作为条件判断的依据。比如“要查1950年以后出版的一本老舍写的书”,就可以用“node(author)contains(“老舍”)andnode(pub_year)>1950”作为查询的判断条件。第二类情况:涉及了节点间结构上的关系,一般需要周游Model树来判断,这就得先将XML文件读入内存,通过解释器将其构造成Model实例树,但这样做在数据量大时效率很差。

5、元数据应用 ——空间元数据的特点和局限由于网络的发展,元数据已经由一种数据描述与索引的方法扩展到包括数据发现、数据转换、数据管理和数据使用的整个网络信息过程中不可缺少强有力的工具和方法之一。但是依据各标准建立的各种地理空间元数据库,都是以文本形式提供给人使用的,由人去确定如何使用元数据,来定位、评价、比较、获取和使用地理相关数据的。并且,每个地理空间元数据库都是针对一个地理空间数据库来描述的,而不同地理空间数据库之间的联系、网络上地理空间数据库的分布情况和如何支持地理空间数据快速查找等在已有的研究中都没有涉及到。

5、元数据应用 ——空间元数据库框架

鉴于以上元数据应用的局限性,下面将简要介绍一个实验室的元数据应用项目:一个基于Agent的地理空间数据搜索获取的策略。

该项目设计了一个基于网络的多层次的空间元数据库框架,以组织和管理网络上分布式地理空间数据,并且以该空间元数据库框架为基础,提供一种面向用户的简单数据请求描述方式。在此之上,结合Agent实体的智能搜索和协作特性,得到最终的数据搜索获取的策略。5、元数据应用 ——空间元数据库框架

空间元数据的主要内容之一就是地图(图层)的管理信息。地图(图层)的基本要素就是专题、空间范围、地层和时间,其中最主要的是专题和

空间范围。因此,每一幅地图(图层)的管理信息都要包括专题、空间范围、地层和时间,而且一幅地图(图层)都可以用一个四元组<专题,空间范围,地层,时间>

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论