 
         
         
         
         
        版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第八讲第八讲 空间元数据空间元数据1、元数据的基本概念、元数据的基本概念2、元数据的内容及标准、元数据的内容及标准3、元数据的表达、元数据的表达4、元数据系统、元数据系统5、元数据应用、元数据应用1、元数据的基本概念、元数据的基本概念 元数据(Metadata) 是关于数据集的数据,是数据集的说明或描述。在地理信息系统中用于描述地理数据集的内容,质量等数据的一些特征。它可以帮助人们查找和理解数据。 1、元数据的基本概念、元数据的基本概念实例实例 元数据并不是一个新的概念,以下各例均可以看成是元数据:q传统的图书馆卡片 q出版图书的版权说明 q磁盘的标签 纸制地图的元数据表示为:q地图类型、地图
2、图例、图名、空间参照系统和图廓坐标q地图内容说明、比率尺和精度、编制出版单位q日期或更新日期、销售信息 q1、元数据的基本概念、元数据的基本概念数据存储数据存储 我们所讨论的元数据是以数据的形式存储的,这不同于以往的元数据。它应尽可能多地反映数据集自身的特征规律,以便于用户对数据集的准确、高效与充分的开发与利用,不同领域的数据库,其元数据的内容会有很大差异。通过元数据可以检索、访问数据库,可以有效利用计算机的系统资源,可以对数据进行加工处理和二次开发等。 科学界关于元数据认识的共同点是:元数据的目的就是促进数据集的高效利用,并为计算机辅助软件工程(CASE)服务。 1、元数据的基本概念、元数据
3、的基本概念空间元数据空间元数据 空间元数据(GeoMetadata),是关于地理相关数据和信息资源的描述性信息。它通过对地理空间数据的内容、质量、条件、位置和其他特征进行描述与说明,帮助和促进人们有效地定位、评价、比较、获取和使用地理相关数据。对空间数据某一特征的描述,称为一个空间元数据项。 空间元数据是一个由若干复杂或简单的元数据项组成的集合。空间元数据是对地理空间数据的一个抽象映射。从这个意义上来说,空间元数据和地理空间数据是对地理空间实体不同抽象层次的描述,是对地理信息的不同深度的表达,它们统一于它们所反映的客观内容。 1、元数据的基本概念、元数据的基本概念空间元数据概念列举空间元数据概
4、念列举空间数据空间数据(Geospatial Data):用于确定具有自然特征或者人工建筑特征的地理实体的地理位置、属性及其边界的信息;类型类型(Type):在元数据标准中,数据类型指该数据能接收的值的类型;对象对象(Object):对地理实体的部分或整体的数字表达;实体类型实体类型(Entity Type):对于具有相似地理特征的地理实体集合的定义和描述;点点(Point):用于位置确定的零维地理对象;结点结点(Node):拓扑连接两个或多个链或环的一维对象;标识点标识点(Label Point):显示地图后图表时用于特征标识的参考点;线线(Line):一维对象的一般术语;线段线段(Line
5、 Segment):两个点之间的直线段;串串(String):由相互连接的一系列线段组成的没有分支线段的序列,它可与自身或与其它线相切;弧弧(Arc):由数学表达式确定的点集组成的弧状曲线;链链(Link):两个结点之间的拓扑关联;链环链环(Chain):非相切线段或由结点区分的弧段构成的有方向无分支序列;环环(Ring):封闭状不相切链环或弧段序列;多边形多边形(Ploygon):在二维平面中由封闭弧段包围的区域;1、元数据的基本概念、元数据的基本概念空间元数据概念列举(续一)空间元数据概念列举(续一)外多边形外多边形(Universe Polygon):数据覆盖区域内最外侧的多边形,其面积
6、是其它所有多边形的面积之和;内部区域内部区域(Interior Area):不包括其边界的区域;格网格网(Grid):组成一规则或近似规则的棋盘状镶嵌表面的格网集合,或者组成一规则或近似规则的棋盘状镶嵌的点集合;格网单元格网单元(Grid Cell):表示格网最小分为要素的二维对象;矢量矢量(Vector):有方向线的组合;栅格栅格(Raster):同一格网或数字影像的一个或多个叠加层;像元像元(Pixel):二维图形要素,它是数学影像最小要素;栅格对象栅格对象(Raster Object):一个或多个影象或格网,每个影象或格网表示一个数据层,各层之间相应的格网单元或像元一致且相互套准;图形图
7、形(Graph):与预定义的限制规则一致的零维(如node)、一维(link或chain)和二维(T多边形)有拓扑相关的对象集;数据层数据层(Layer):集成到一起的面域分布空间数据集,它用于表示一个主体中的实体,或者有一公共属性或属性值的空间对象的联合;层层(Stratum):在有序系统中数据层、级别或梯度序列;纬度纬度(Latitude):在中央经线上度量,以角度单位度量离开赤道的距离;经度经度(Longitude):经线面到格林尼治中央经线面的角度距离;1、元数据的基本概念、元数据的基本概念空间元数据概念列举(续二)空间元数据概念列举(续二)经圈经圈(Meridian):穿过地球两极的
8、地球的大圆圈;坐标坐标(Ordinate):在笛卡尔坐标系中沿平行于X轴和Y轴测量的坐标值;投影投影(Projection):将地球球面坐标中的空间特征(集)转化到平面坐标体系时使用的数学转化方法;投影参数投影参数(Projection Parameters):对数据集进行投影操作时用于控制投影误差、变形实际分布的参考特征;地图地图(Map):空间现象的空间表征,通常以平面图形表示;现象现象(Phenomenon):事实、发生的事件、状态等;分辨率分辨率(Resolution):由涉及到或使用的测量工具或分析方法能区分开的两个独立测量或计算的值的最小差值;质量质量(Quality):数据符合一
9、定使用要求的基本或独特的性质;详述详述(Explicit):由一对数或三个数分别直接描述水平位置和三维位置的方法;介质介质(Media):用于记录、存储或传递数据的物理设备。2、元数据的内容及标准、元数据的内容及标准元数据的内容元数据的内容元数据的内容包括:q对数据集的描述;对数据集中各数据项、数据来源、 数据所有者及数据序代(数据生产历史)等的说明;q对数据质量的描述,如数据精度、数据的逻辑一致性、数据完整性、分辨率、元数据的比例尺等;q对数据处理信息的说明,如量纲的转换等;q对数据转换方法的描述;q对数据库的更新、集成等的说明。 2、元数据的内容及标准、元数据的内容及标准空间元数据的内容空
10、间元数据的内容q 确定一套地理空间数据的存在性及其位置q 确定一套地理空间数据对某种应用的适宜性q 确定获取一套地理空间数据的手段q 确定成功地转换一套地理空间数据的方法和途径q 确定一套地理空间数据的存储与表达方法q 确定一套地理空间数据的使用方法q 2、元数据的内容及标准、元数据的内容及标准元数据的分类(按内容划分)元数据的分类(按内容划分)q科研型元数据: 这类元数据的任务是帮助科研工作者高效获取所需数据,内容包括数据源名称、作者、主体内容等传统的、图书管理式的元数据,以及数据拓扑关系。q评估型元数据: 主要服务于数据利用的评价,内容包括数据最初收集情况、收集数据所用的仪器、数据获取的方
11、法和依据、数据处理过程和算法、数据质量控制、采样方法、数据精度、数据的可信度、数据潜在应用领域等。q模型元数据: 用于描述数据模型的元数据与描述数据的元数据在结构上大致相同,其内容包括模型名称、模型类型、建模过程、模型参数、边界条件、作者、引用模型描述、建模使用软件、模型输出等。 2、元数据的内容及标准、元数据的内容及标准元数据的分类(按对象划分)元数据的分类(按对象划分)q数据层元数据: 指描述数据集中每个数据的元数据,内容包括日期邮戳、位置戳、量纲、注释、误差标识、缩略标识、存在问题标识、数据处理过程等。q属性元数据: 是关于属性数据的元数据,内容包括为表达数据及其含义所建的数据字典、数据
12、处理规则(协议),如采样说明、数据传输线路及代数编码等。 q实体元数据: 是描述整个数据集的元数据,内容包括数据集区域采样原则、数据库的有效期、数据时间跨度等。 2、元数据的内容及标准、元数据的内容及标准元数据的分类(按系统作用划分)元数据的分类(按系统作用划分)q系统级别元数据: 指用于实现文件系统特征或管理文件系统中数据的信息,如访问数据的时间、数据的大小、在存储级别中的当前位置、如何存储数据块以保证服务控制质量等。q应用层元数据: 指有助于用户查找、评估、访问和管理数据等与数据用户有关的信息,如文本文件内容的摘要信息、图形快照、描述与其它数据文件相关关系的信息。2、元数据的内容及标准、元
13、数据的内容及标准元数据的分类(按作用划分)元数据的分类(按作用划分)q说明元数据: 是为用户使用数据服务的元数据。它一般用自然语言表达,如源数据覆盖的空间范围、源数据图的投影方式及比例尺的大小、数据集说明文件等,这类元数据多为描述性信息,侧重于数据库的说明。q控制元数据: 是用于计算机操作流程控制的元数据,这类元数据由一定的关键词和特定的句法来实现。其内容包括数据存储和检索文件、检索中与目标匹配方法、目标的检索和显示、分析查询结果排列显示、数据转换方法、空间数据和属性数据的集成、根据索引项把数据绘制成图、数据模型的建设和利用等。这类元数据主要是与数据库操作有关的方法。 2、元数据的内容及标准、
14、元数据的内容及标准建立元数据标准的必要性建立元数据标准的必要性 空间数据是一种结构比较复杂的数据类型。它涉及到对于空间特征的描述,也涉及到对于属性特征及其它们之间关系的描述,所以空间数据元数据标准的建立是项复杂的工作; 由于种种原因,某些数据组织或数据用户开发出来的空间数据元数据标准很难为地学界所广泛接受。但空间数据元数据标准的建立是空间数据标准化的前提和保证,只有建立起规范的空间数据元数据才能有效利用空间数据。2、元数据的内容及标准、元数据的内容及标准元数据的标准元数据的标准 当前,人们对于空间元数据的研究已形成了两个标准:q美国联邦数据委员会(美国联邦数据委员会(FGDC)的空间元数据标准
15、q国际标准化组织(国际标准化组织(ISO/TC211)的空间元数据标准 这两个标准从不同侧面对地理空间数据进行了比较详细的描述。 2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准 美国联邦地理数据委员会(Federal Congraphic Data Committee ,FGDC )成立于1990 年,由来自16个单位的17位专家组成。 1994年8月FGDC通过并发布第一版CSDGM。此后,美国联邦政府内外的许多单位根据12906号总统令的要求,从1995年开始执行这一标准 。FDGC 于1997 年完成了第二版CSDGM,并于1998年6月认可了该标准(FG
16、DCSTD0011998)。 2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准根据最新的FGDC的用户手册,标准中定义了三类元素:q子集(子集(Sectoins):标准中主要的章节被称为子集,其实它也是复合元素。q复合元素(复合元素(Compound Element Compound Element ):一组相关的数据元素或者其它复合元素。 q数据元素(数据元素(Data Element Data Element ):从逻辑上不可再分割的数据项。 每个元素可以是必选的必选的,可选的可选的,或者是一定条件下一定条件下可选的可选的(如元数据的实例包含了某个子集、复合元
17、素或具有了某个属性,就必须提供信息)。2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准FGDC元数据标准的各个子集的示意图 其中1到7 是主要子集,而8到10 属于次要子集,它们不能单独存在,只能在主要子集中被引用。2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准信息项说明标识信息( Identification) 是关于数据集的基本信息。主要包括:引用,描述信息,状态信息,空间范围,关键词,访问限制,使用限制等 。数据质量信息(Data Quality) 对数据质量进行总体评价的信息。包括属性精度,逻辑可靠性报告,完整性报告,位置精
18、度,继承信息(数据源+处理步骤) 等。 空间数据表示信息(Spatial Data Organization) 数据集中空间信息的组织方法。由空间表示类型,矢量空间表示信息,栅格空间表示信息等组成。 空间参照系信息(Spatial Reference) 数据集中坐标的参考框架以及编码方式的描述,是反映现实世界和地理数字世界之间关系的通道。包括平面坐标系定义和垂直坐标系定义。 2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准信息项说明实体和属性信息(Entity and Attribute) 是关于数据集内容的细节信息,包括实体类型,它们的属性及属性的值域。 发行信
19、息(Distribution) 是关于数据发行和获取的信息。包括发行部门,数据资源描述,发行部门责任,获取手段等。 元数据参考信息(Metadata Reference) 元数据当前状况及其负责部门的信息,包括元数据日期信息、联系地址,制定元数据所使用的标准、版本、限制条件、安全信息以及元数据扩展信息等,是当前数据集所作元数据的描述的依据。 引用信息(Citation) 引用和参考数据集时所需的简要信息。包括标题、作者信息和参考时间等。 2、元数据的内容及标准、元数据的内容及标准FGDC空间元数据标准空间元数据标准信息项说明时间范围信息(Time Period) 有关事件的日期和时间信息,被主
20、要子集的元素引用。 联系信息(Contact) 在主要子集中被引用的有关个人或组织的联系信息。 【注】:美国FGDC元数据标准除在美国国内广泛使用外,加 拿大、印度等国也同等采用,作为各自的国家标准。ISO/TC211 利用该标准文本作为基础,正在制定相应的国际标准。 2、元数据的内容及标准、元数据的内容及标准ISO/TC211空间元数据标准空间元数据标准 国际标准化组织ISO作为全球标准的权威机构,对地理数据标准化问题一直比较重视。1994年后期,国际标准化组织面对地理信息数据标准化的趋势,成立了地理信息/地球信息业技术委员会,即ISO/TC 211编号为 15046,用于专门研究和建立一个
21、处理与地球位置有直接或间接关系的地理对象或现象的标准体系。 ISO/TC211的元数据标准以FGDC等现有标准为基础,按照国际标准化组织制定的标准导则要求制定。其工作范围是:定义说明地理信息和服务所需要的信息。提供有关数字地理数据标识、覆盖范围、质量、空间和时间模式、空间参照系统和发行信息。该标准适用于数据集编目、数据交换网络,以及数据集的详尽说明。适用于地理数据集、数据集系列、地理要素和属性 。2、元数据的内容及标准、元数据的内容及标准ISO/TC211空间元数据标准空间元数据标准 TC211 于1998年9月发布了地理信息元数据元数据标准的草案 TC211 15046-15。标准 一共有4
22、00多个元素分为:必选、必选、可选或一定条件下必选几种可选或一定条件下必选几种,同时标准还提出了用户自己扩充元数据的方法。标准中定义了两级元数据: q一级元数据一级元数据: 主要用于支持数据编目和空间信息交换中心的数据发现服务,包含了53个元数据元素。 q二级元数据二级元数据: 提供了更完全的数据集描述,包含了13种类型的元数据。 2、元数据的内容及标准、元数据的内容及标准ISO/TC211空间元数据标准空间元数据标准二级元数据二级元数据标识信息标识信息(Identification information ) 数据质量信息数据质量信息(Data Quality information)谱系信
23、息谱系信息(Lineage information) 空间数据表示空间数据表示(Spatial data representation ) 参考系统信息参考系统信息(Reference system information) 特征目录信息特征目录信息(Feature catalogue information) 发布信息发布信息(Distribution information ) 元数据参考信息元数据参考信息(Meta data reference information ) 引用信息引用信息(Citation information ) 数据负责者信息数据负责者信息(Responsible
24、 party information ) 地址信息地址信息(Address information ) 范围信息范围信息( Extent information ) 在线资源信息在线资源信息( On-line resource information ) 其中前8个是元数据的子集而后5个是可重复的实体,它们不能单独使用,总是作为一个单元出现在8个子集中。 2、元数据的内容及标准、元数据的内容及标准ISO/TC211空间元数据标准空间元数据标准 ISO/TC211空间元数据标准是至今最完整、也是最为复杂的元数据标准方案。 另外,还有一个英国Dublin元数据核心标准。它是1995年3 月由有关图
25、书馆、数字图书馆、标记语言等方面的专家们制定的一个有关网络电子资源的发现标准(RFC 2413)。有关这一标准的详细说明请参考实验室张颖硕士论文。2、元数据的内容及标准、元数据的内容及标准我国元数据的发展我国元数据的发展 与国外相比,我国对地理信息元数据的研究以及对相关标准的制定和实施刚刚起步。按照国家“九五”科技攻关计划“中国可持续发展信息共享示范”和“国土资源与地区经济信息系统和国家空间信息基础设施关键技术研究”两个项目的相关专题设计,通过对前两个国际标准的研究分析,初步制定了项目内部使用的中国可持续发展信息共享元数据标准中国可持续发展信息共享元数据标准和NREDIS信息共享元数据内容标准
26、草案信息共享元数据内容标准草案。2、元数据的内容及标准、元数据的内容及标准NREDIS信息共享元数据标准信息共享元数据标准 我国在元数据方面的标准主要是参考美国的FGDC地理空间元数据标准。NREDIS信息共享元数据标准是有代表性的一个。在该标准中,各个元素的选择主要基于以下四方面来考虑:q 数据集的可用性q 数据集的适用性q 如何获取数据集q 如何使用数据集2、元数据的内容及标准、元数据的内容及标准NREDIS信息共享元数据标准信息共享元数据标准 NREDIS信息共享元数据标准的标准组织结构:信息共享元数据标准的标准组织结构:q章节部分 标明该标准是由何样层状结构组织元数据元素和复合元素。q
27、复合元素 由数据元素和其它符合元素组成,表示较高层次的概念。q元素 元数据的最基本信息单元,包括元素名、定义、类型、值域、域名缩写。类型有integer、real、text、date、time五种。域名缩写由少于八个字符组成。值域指明了元素的取值范围。q日期 用不同的时间格式表示不同的公元时间段。如,公元元年到公元9999年12月31日,用YYYYMMDD表示。2、元数据的内容及标准、元数据的内容及标准NREDIS信息共享元数据标准信息共享元数据标准 NREDIS信息共享元数据标准的标准组织结构:信息共享元数据标准的标准组织结构:q时间 有地方时、带时差的地方时和统一时三种表示。例如带时差的地
28、方时可以表示为HHMMSSSSshhmm,其中HHMMSSSS表示地方时,s表示时间差符号(/-),hhmm表示时间差的时和分。q经纬度 用十进制小数表示经纬度。维度在赤道以北,用标明,以南用标明;经度在主子午线以东用(或不加符号)标明,以西用标明。q网址和文件名 文件名和网址遵循Internet的URL规定。q元素的可选条件包括必选(Mandatory)、条件必选( Mandatory-if-Applicable)和可选(Optional)。2、元数据的内容及标准、元数据的内容及标准NREDIS信息共享元数据标准信息共享元数据标准 NREDIS信息共享元数据标准的标准组织结构:信息共享元数据
29、标准的标准组织结构:q产生规则 用于确定一个复合元素和它的下一级的数据元素和复合元素之间的关系。例如:a=b+c:a由b和c组成; a=b|c: a由b或c组成; a=4b6:a由b重复4到6次组成。q扩展性数据集生产者和共享用户可以定义扩展元素,它是不包括在标准中的元素。定义时,必须符合标准的继承结构,不能改变标准元素的名称、定义。类型和域,可以定义为符合元素,也可以包括扩展和标准元素。3、元数据的表达、元数据的表达XML和元数据和元数据 现今网络时代,XML即将成为网上信息交换的基本格式。XML本身具有的特点使它很自然的成为元数据表达的基本方式(我们假定大家对XML本身已经有了一定了解):
30、q纯文本表示,具有平台无关性 q信息的内容与信息的表示是分开的,可满足各种不同的需求 q系统可以利用XML来方便地表达元数据 q系统可以利用XML 的样式语言来实现元数据间的转换和显示 q可以方便地查询系统元数据 q业界对XML技术有广泛的支持 3、元数据的表达、元数据的表达DTD和和XML Schema 上面已经提到,XML的优势之一在于数据和描述的分离。而用来描述XML数据本身的DTD(Document Type Definition)和XML Schema成为元数据定义的主要表达方式。qDTD (Document Type Definition) 由XML1.0规范提出,它是XML文档的
31、文档类型声明段。它规定了元素的结构和属性列表以及元素间的逻辑关系,以对XML文档进行有效性检查。q XML Schema XML Schema是定义XML标记集合和应用的元语言,它的功能就类似于XML 1.0中的文档类型定义(DTD)。 但是给出了更多的扩展,而且本身也用XML表达。3、元数据的表达、元数据的表达DTD和和XML Schema数据XML 数据文件Schema 文件XML 1.0DTD 或XML Schema内容信息结构和限制信息保证文档是格式良好的保证文档的有效性DTD、XML Schema对XML的格式定义3、元数据的表达、元数据的表达DTD对对XML文档的定义文档的定义带有
32、DTD定义的XML数据文件3、元数据的表达、元数据的表达XML SchemaqXML Schema是定义XML标记集合和应用的元语言,它的功能就类似于XML 1.0中的文档类型定义(DTD)。qXML Schema中增加许多新的机制,包括可以规定元素和属性的数据类型(比如整型,日期类型)、可以明确地支持名域,以及比DTD更为强大的内容模型(包括简单类型和复杂类型)等。qXML Schema在声明的时候使用的也是XML,而不是其它特殊的记法。这就意味着XML Schema文档可以被普通的XML软件所处理,而不象DTD那样需要特殊的工具。 3、元数据的表达、元数据的表达XML Schema的一些概
33、念的一些概念q 类型定义: 简单类型定义(Simple Type Definition) 复杂类型定义(Complex Type Definition ) q类型继承: 限制性继承(Driving ComplexTypes from Restriction ) 扩展性继承(Driving Types from Extention) q 元素声明q属性声明(Attribute Declarations) q模型组(Model Group):Sequence,Choice,All q元素重复次数:minoccur 和 maxoccur 返回一个较为复杂的XML数据文件该数据文件的XMLSchema
34、文件3、元数据的表达、元数据的表达XML、RDF和元数据和元数据q XML和元数据和元数据 XML的一个很大的优点就是具有自说明性,因为通过文件的DTD和XML Schema就可以了解数据集的结构信息可以说,虽然没有直接说DTD和XML Schema 是元数据,其实它在功能上讲就是一种元数据是关于数据集关系和数据元素限制条件的元数据,所以用它们来表示数据集间的关系显得很自然。q RDF和元数据和元数据 RDF(Resource Define Framework)是一种用来描述网上资源的元数据描述框架,而RDF Schema可以定义RDF所须的标签词汇,通过subClassOf和subPrope
35、rtyOf等概念,RDF Schema不仅可以描述对象类之间的派生关系,也可以描述属性成员上的约束关系。由于目前对RDF Schema的支持软件明显不如DTD 和 XML Schema,在这里不再过多介绍RDF。 3、元数据的表达、元数据的表达用用XML表示元数据表示元数据XML 1.0 规范(包含了DTD 的说明)XML SchemaRDF标准元数据共识元数据用户自定义元数据元数据记录系统的元数据利用XML来表示元数据3、元数据的表达、元数据的表达元数据表示实例元数据表示实例下面给出了一段关于图层元数据的DTD表达!- -!- 0.- ! locate? ) !- -!- 1. - ! ?
36、) !- 1.1-!- 1.2-! ELEMENT descript ( EMPTY) !ATTLIST descript 3、元数据的表达、元数据的表达元数据表示实例(续)元数据表示实例(续)!- 1.3 -!- 1.4-! ELEMENT status EMPTY ) !ATTLIST status !- 1.5-! EMPTY !ATTLIST spdom !- 1.6-! ELEMENT keywords EMPTY !ATTLIST keywords !- 1.7-! (#PCDATA)!- 1.8-! (#PCDATA) 4、元数据系统、元数据系统元数据系统和元数据系统和GeoMe
37、ta 虽然利用目前一些现成的免费软件很快就可以搭建一个元数据系统,比如说国内的用户就可以直接到国家空间信息基础设施网站下载I-Site的相关软件包,但其无论是在对元数据的描述能力还是存储和查询的支持都十分有限。 考虑到上面我们使用XML作为元数据的表达工具,一个能够使用使用XMLXML来描述各种层次的元数据以及基于来描述各种层次的元数据以及基于XML进行元进行元数据存储、转换和查询数据存储、转换和查询的元数据系统将能够反映基本的元数据集成操作的主要特征。 以下我们将重点介绍实验室设计的GeoMeta一个基于XML的地理信息元数据系统。4、元数据系统、元数据系统GeoMeta体系结构体系结构Z3
38、9.50查询处理器Z39.50 服务器元数据管理器查询处理器GeoMeta服务器文件系统元数据管理工具元数据查询工具Z39.50客户端GeoMeta通讯协议WEB服务器网关元数据库服务器Z39.50协议Z39.50协议GeoMeta通讯协议系统配置工具数据库WWWHTTPHTTPGeoMeta服务端GeoMeta客户端通讯协议网关qGeoMeta系统在参考了FGDC提供的用于建设空间信息交换中心(ClearingHouse) 的I-Site系列软件和由Blue Angel Technologies公司开发的MetaStar系列产品后设计并部分实现的。q主要包括服务器端的GeoMeta服务器、元
39、数据管理器、查询处理器和系统配置工具,客户端的元数据查询工具和元数据管理工具。 q为了方便用户使用,服务器还提供一个网关使得用户可以通过WWW网在浏览器中对系统进行查询和管理。 q由于通过Z39.50协议不容易表达XQuery 查询,系统设计了一个简单的通讯协议GeoMeta协议。 4、元数据系统、元数据系统GeoMeta系统简介系统简介4、元数据系统、元数据系统GeoMeta系统的服务器端系统的服务器端q GeoMeta服务器服务器:是元数据服务器对外的接口。主要负责接收来自客户端的按GeoMeta通讯协议组织的消息,经过解析后调用相应的功能模块,然后将结果组织好后返回给客户端。q元数据管理
40、器元数据管理器:负责管理各种元数据的模式文件( DTD 或XML Schema)以及它们的元数据记录。用户可以通过元数据管理工具来编辑元数据的模式文件并加入到系统中,还可以建立一些系统元数据之间的映射关系,以及各种数据的输入输出格式与系统元数据的映射关系从而方便地导入和导出不同格式的元数据文件。它还负责元数据记录的添加、删除和修改。 q查询处理器查询处理器:负责处理由GeoMeta服务器传过来的各种查询要求(例如支持最简单的关键词查询,结构化或半结构化的带限制的XQuery查询语句)。4、元数据系统、元数据系统GeoMeta系统的服务器端系统的服务器端q Z39.50服务器服务器:负责接收来自
41、Z39.50客户端的查询请求。将请求重新组织后交给Z39.50查询处理器,得到结果后将其按用户要求组织,返回给客户端。 q Z39.50查询处理器查询处理器:根据用户的请求查询请求,参照系统的检索属性映射表和系统的实际存储策略来构造查询语句,得到结果后返回给Z39.50服务器。 q 系统配置工具系统配置工具:负责配置元数据库服务器的系统参数,比如GeoMeta服务器的监听端口、文件管理目录等等。还负责维护为支持Z39.50协议而保存的检索属性映射表和属性与元数据元素的对应关系。 4、元数据系统、元数据系统GeoMeta系统的客户端系统的客户端q元数据查询工具元数据查询工具: 查询工具由用户界面
42、模块和协议处理传输模块构成,可以是基于GeoMeta通讯协议的应用程序、嵌入式构件(COM)或JavaApplet。由于系统所支持的查询语言不是一般用户能书写的,所以要由用户界面模块来负责与用户交互,输入查询条件和呈现查询结果。而协议处理传输模块负责将用户界面模块收集到的查询参数组织成查询语句,再根据GeoMeta协议产生系统消息,通过TCP/IP 协议发送给GeoMeta 服务器。接受到返回结果后拆包,将查询结果交用户界面模块显示。如果是在浏览器上做查询界面,只需在HTML的表单中收集到查询的参数,发送给WEB服务器就可以取得以HTML格式返回的数据了。 q元数据管理工具元数据管理工具: 结
43、构同上,主要是要提供给用户一个友好的界面来管理元数据模式信息、元数据记录以及各种映射关系,包括增、删、改和显示。它也是既可以走GeoMeta通讯协议也可以通过浏览器来处理。不同的是它需要先登录,才能进行权限内的一些操作,还需要对前面的操作有所记录,以便做日志或支持取消操作。 qZ39.50 Z39.50 客户端客户端: 帮助用户构造基于Z39.50协议的查询并呈现返回结果。 4、元数据系统、元数据系统GeoMeta系统的客户端系统的客户端q HTTP协议协议:为了让用户能通过浏览器来进行各种操作,系统必须支持HTTP协议。 q GeoMeta通讯协议通讯协议:GeoMeta系统自行设计的基于X
44、ML的通讯协议。协议通过XML Schema文件描述了不同种类的服务以及服务参数和返回结果。这样就可以由GeoMeta服务器统一接收消息,经过解释器处理以后发送到相应的功能模块。这样系统服务的添加和修改就显得比较简单,只需双方都有该服务的那部分Schema就可以通讯了,而且由于消息是纯文本格式,还避免了不同平台的字符编码问题。 q 39.50 协议协议:是一种在客户/服务器环境下计算机与计算机之间进行数据库检索的通讯协议。它的出版及使用解决了不同系统间的数据交流的问题,克服了信息检索网络化的障碍。4、元数据系统、元数据系统GeoMeta系统的协议系统的协议 GeoMeta系统包括GeoMeta
45、网关和Z39.50网关。它在某个意义上相当于客户端的协议处理传输模块的工作。它的主要功能是将用户通过HTTP协议传过来的一系列参数转化为满足协议的系统消息,然后发送到服务器,最后将结果以HTML格式的形式返回给浏览器。系统使用CGI程序来做GeoMeta网关,对于Z39.50网关使用现成的免费软件。 4、元数据系统、元数据系统GeoMeta系统的网关系统的网关4、元数据系统、元数据系统基于基于XML的数据存储策略的数据存储策略 用XML来表达和传输元数据已为大家普遍接受,所以如何有效地管理基于XML的元数据(特别是海量的元数据)以方便用户查询必然是元数据系统需要解决的问题。由于目前还没有出现可
46、用的XML数据库,虽然XML文件有诸多优势,但并没有表现在存储上。尽管我们希望数据存储和表达能有比较好的对应,但在真正有效的XML数据库出现以前,任何存储策略只需通过接口服务程序使得在用户看来系统的数据是按XML的模式来存储的,并且可以将满足这些模式的XML数据文件存入系统,同时可以要求结果按某种XML模式返回就可以了(当然能支持 XQuery 更好)。 4、元数据系统、元数据系统基于基于XML的数据存储策略的数据存储策略Wrapper( 包装)自己格式的数据XML数据库XML VIEWXML VIEW示意图4、元数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略 GeoMeta的
47、突出特点之一是给出了比较完备的数据存储策略。它支持以下类型的元数据的存储: 无结构的存储 基于线性域段结构的存储 基于结构的存储 4、元数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略q 无结构的存储将元数据文件直接存到文件系统或数据库的长二进制域段中,在Oracle8i以上版本中还可以用 CLOB(character LOBs)、BLOB(binary LOBs)或者BFILE(binary files)来保存文件。这样做对于数据文件的存取十分简单有效,但对查询的支持比较有限。如果文件很多的话,基本上只能通过关键词检索。在查询要求不高或数据本来就无结构时此方法比较有效。 4、元
48、数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略q基于线性域段结构的存储基于线性域段结构的存储 一般来说,元数据从逻辑结构上讲都是树状的树状的。如果没有可重复多次的节点,可以利用节点标签的唯一性(如果不唯一的话还可以通过该节点的XPath 来做标记)将整个树压扁了存储在一个关系表中,取数据的时候再恢复过来。在实际应用中,一般只需将用户检索时用到的节点提出来存放到关系表中并且建立索引,把源文件直接按无结构的存储策略存放就可以了。如果需要返回的部分是整个记录或者记录的大部分内容,并且可能出现在查询条件中的元素没有重复结构时,这种存储策略还是比较有效的。 4、元数据系统、元数据系统Ge
49、oMeta的数据存储策略的数据存储策略...11.2.2将树形结构存放到关系表中4、元数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略q 基于结构的存储基于结构的存储 基于结构的存储大致有两种方式:按节点存储 利用对象关系数据库来存储 4、元数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略 按节点存储 先周游整个Schema 结构,找出所有可能的XPath,然后将数据文件的元素按不同的XPath存放它们的数据(相当于把基于XPath的索引信息也保存了),必要时可将它们再组合起来
50、。该方式对系统的要求不高,用文件系统或关系数据库都可以,而且可以比较好地支持XQuery查询,就是实现工作比较复杂。 4、元数据系统、元数据系统GeoMeta的数据存储策略的数据存储策略利用对象关系数据库来存储利用对象关系数据库来存储 随着XML技术的广泛使用,越来越多的数据通过它来传输和表达,人们自然而然的会想到直接XML数据存储起来。如果需要结构化存储,最终实用的可能还是各大数据库厂商提供的支持产品。事实上各大数据库厂商都紧密关注XML发展,纷纷推出帮助用户使用和管理(不单单是存储) XML数据的产品。因为面向对象关系数据提供了复杂类型和面向对象的一些支持,比如: 对象类型,对象类型的集合
51、,对象类型的引用,继承。从而使我们可以在一定程度上结构化地存储 XML 数据文件。 【例】可以考虑XML Schema的结构信息 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略 GeoMeta系统的另外一个特点在于它多方面的数据查询策略数据查询策略的支持。 在元数据库中存储策略的选择是由实际要求来决定的,而其中最关键的因素是对查询的支持。因为建立元数据库的一个重要目的就是为了用户能够让用户方便有效地得到自己需要的数据。从实现的技术角度讲,元数据的查询和一般数据的查询并没有什么差别。 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略搜索搜索(search
52、)和查询和查询(query) ”search”是指在用户不是很清楚自己要找的数据具体在什么位置时通过搜索引擎(相当于元数据库的工作)帮助用户定位数据的位置,然后用户就可以获取(”retrieve”)数据。 它强调的是如何通过自己要找数据的特征来定位它(可能还需要通过第三方,而且一般是非结构化查询) ”query”是指在知道数据位置和格式的情况下,按照一定的条件得到自己想要的那一部分数据。当然在实际情况中它们分得并不是那么很清楚(以后我们所用的查询也包含了搜索的含义)。它直接针对数据,通过查询条件和查询结果的构造来提取数据(一般是结构化查询)。4、元数据系统、元数据系统GeoMeta的数据查询策
53、略的数据查询策略GeoMeta支持以下的数据查询策略:支持以下的数据查询策略:q 非结构化的查询 q 结构化的查询 q 半结构化查询 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 非结构化的查询非结构化的查询 直接利用数据库的全文检索功能,在保存元数据文件的域段上建立interMedia文本索引,通过“Contains(XML文件所在域段,“关键词”)”来查找就可以了。如果用户对返回的格式有所要求,可以根据某个映射文件将其转换后再返回。 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询 Z39.50客户端传过来的 查询:
54、 它一般是一个二叉查询树结构(由服务器将客户端传来的经过BER编码的逆波兰(RPN)查询表达式转换而得) 。一般的元数据系统用的是基于线性域段结构的存储,根据查找相关的注册属性集(如Bib-1)中用户属性和相关操作对应的编码以及所用的属性表,就可以构造一条带有选择字段、查询的表名和条件子句的完整的SELECT语句。将它提交给数据库,就可以得到查询结果了。GeoMeta目前在这方面的实现不多。4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询 XQuery 结构化的查询 : 系统的工作重点在于如何将一段XQuery 语句用 SQL 语言来表达。XQu
55、ery所要求的XML Query Data Model,与对象关系数据库的对象关系模型有很好的对应:其中元素节点对应于对象类型或表,属性节点对应于表或类型的域段,而文本节点对应的是以文本方式存储的无结构的域段(可能是一个XML文件)。 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询EEETTAAE元素节点A属性节点T文本节点一个查询数据模型的实例4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询XQuery和SQL语句的对应: XPath 表达式 在XQuery 中一个XPath表达式代表了原文件的
56、Model (XML Query Data Model )中的一个或多个有序的节点(包含它们各自的子节点)。很多情况下一个XPath表达式就可以代表一个查询。如一个XPath:document(“zoo.XML”)/chapter2/figurecaption = “Tree Frogs”,它就包含了SQL查询中的三个重要部分1)域段选择:Chapter2.figure,2)查询表:zoo.xml,3)查询条件:figure的属性caption=Tree Frogs。 相应的SQL语句为“select zoo.capter2.figure from zoo where zoo.chapter2
57、 .figure.caption =Tree Frogs”。4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询 元素构造表达式 通过元素构造表达式我们可以基于原来的XML文件构造出新的XML文件。它由开始标签,结束标签和由其它表达式得到的内容组成。它不好直接对应到SQL语句,但是通过对其它表达式的支持,不难构造出该元素的实例。 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询 FLWR 表达式 FLWR ( FOR,LET,WHERE,RETURN )表达式,从它的数据流可以看出其结构很像SQL的SE
58、LECT语句,因而可以很自然地建立它们的对应关系。其FOR部分相当于SQL中的From部分,WHERE部分相当于SQL中的Where部分,RETURN部分是一个可不带标签的元素构造表达式,相当于SQL中SELECT后面的结果组织部分。虽然SQL中没有与LET的直接对应,但“LET $a =XPath表达式”相当于将XPath表达式对应节点与变量a绑定,我们在SELECT语句中直接用XPath表达式对应的节点就可以了。4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 结构化的查询结构化的查询FLWR 表达式的数据流4、元数据系统、元数据系统GeoMeta的数据查询策略的数据
59、查询策略q 结构化的查询结构化的查询一个XQuery 查询35到SQL语句的对应 :FOR $b IN document(bib.xml)/bookWHERE $b/publisher = Morgan KaufmannAND $b/year = 1998RETURN $b/title select b.title from bib.book as b where b.publisher=Morgan Kaufmann and b.year=1998 4、元数据系统、元数据系统GeoMeta的数据查询策略的数据查询策略q 半结构化的查询半结构化的查询 半结构化的查询大致可以分为两类: 第一类情
60、况:如果查询中任何两个节点node(x)、node(y)在判断条件中都没有涉及到它们之间的结构关系:比如node(x)在node(y)前出现,node(x)是node(y)的后代等等。这时我们就可以基于一定策略先找到所有这种的节点,分别判断,然后在根据它们之间的and、or、not关系,组合起来作为条件判断的依据。比如“要查1950年以后出版的一本老舍写的书” ,就可以用“node(author) contains( “老舍”) and node(pub_year) 1950”作为查询的判断条件。第二类情况:涉及了节点间结构上的关系,一般需要周游Model树来判断,这就得先将XML文件读入内存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年绵阳七中考试试题及答案
- 宾馆改造进度与费用控制方案
- 大一物理期末考试试题及答案
- 劳动报酬纠纷仲裁程序创新研究
- 林下经济农产品加工技术与发展方案
- 新能源汽车用高性能铝合金生产线项目技术方案
- 鹰潭市人民医院皮肤科主治医师晋升考核
- 绍兴市人民医院术前风险评估能力考核
- 衢州市中医院肺功能设备维护考核
- 2025年平江定岗美术真题及答案
- 房颤抗凝治疗指南解读
- 《高分子与食品安全》
- 手术室医院感染风险评估表完整
- 自动化导论全套课件
- 少给父母添麻烦-课件
- 6078三菱帕杰罗v87v97v93维修手册原厂
- 创伤性凝血病课件
- 2022年广西普通高中学业水平合格性考试语文学科试卷结构及参考样卷
- 员工在职证明官方范本标准
- 广东珠海高栏港经济开发区
- 纸箱生产车间风险辨识清单
 
            
评论
0/150
提交评论