2024寻址第3部分:地址数据质量_第1页
2024寻址第3部分:地址数据质量_第2页
2024寻址第3部分:地址数据质量_第3页
2024寻址第3部分:地址数据质量_第4页
2024寻址第3部分:地址数据质量_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

寻址第3部分:地址数据质量PAGE\*ROMANPAGE\*ROMANIII目 次前 言 IV引 言 V范围 6规范性引用文件 6术语和定义 6一致性 95.15.2符号、记号和缩略语 95.15.2统一建模语言 9缩略语 9描述地址数据的质量 9地址数据的质量元素 108.18.2地址数据质量检查 118.18.2概要 11完整性 128.2.1概要 128.2.2多余 128.2.3遗漏 13逻辑一致性 138.3.1概要 13概念一致性 13域一致性 14格式一致性 14拓扑一致性 14位置精度 148.4.1概要 14绝对或外部位置精度 14相对或内部位置精度 15网格数据位置精度 15时间精度 158.5.1概要 15时间测量精度 15时间一致性 15时间现势性 15主题准确性 158.6.1概要 15分类正确性 16非定量属性正确性 16定量属性准确性 17可用性 179.19.2地址数据质量评价 179.19.2概要 17评价过程 179.2.1元数据质量 189.3地址数据质量评价方法 18报告地址数据的质量 19附录 A(规范性)抽象测试套件 20测试用例标识符:地址数据质量单位和元素 20测试用例标识符:地址数据质量度量的应用 20测试用例标识符:地址数据质量度量的描述 20一致性测试类:特殊格式 20测试用例标识符:将地址数据质量报告为元数据 20测试用例标识符:独立地址数据质量报告 20附录 B(规范性)地址数据质量评价方法 22概要 22地址数据完整性的度量方法 22基于边界的方法 22基于分类的方法 22基于比较的方法 22地址数据中重复项目的测量方法 22重复地址的测量方法 22测量重复可寻址对象的方法 24报告地址数据中的重复项目 24附录 C(信息性)评价和报告地址数据质量的示例 25概要 25地址数据集的示例数据产品规范 25概要 25特征类型 25规则 25质量要求 25质量评价流程 25指定质量元素 25指定数据质量评定指标 25指定数据质量评价方法 26确定数据质量评价结果的输出 27地址数据质量报告 27地址数据集的示例数据产品规范 28概要 28特征类型 28规则 28质量要求 29地址数据质量检查流程 30指定数据质量单位 30规定数据质量评定指标 30数据质量评价方法 30数据质量评价结果的输出 30地址数据质量报告 30使用质量元素评价用户地址数据集的质量示例 31概要 31定位服务描述(用例) 31地址语义质量 31地址地理质量(地理距离) 33匹配置信度得分 33地址数据集的整体质量 34报告地址数据集的整体质量 35参考文献 36VV引 言19160-1)。本标准拟采用ISO19160-3:2020PAGEPAGE10寻址第3部分:地址数据质量范围本标准作为ISO19157的子集,建立了一组用于描述地址数据质量的质量元素和度量,描述了报告数据质量的过程,提供了质量元素的使用指南和描述地址数据质量的度量。规范性引用文件(包括所有的修改单适用于本文件。ISO19115-1:2014地理信息元数据第1(GeographicinformationMetadataFundamentals)IS019115-2地理信息元数据第2部分:获取和处理的扩展(Geographicinformation—Metadata—Part2:Extensionsforacquisitionandprocessing)ISO19157:2013地理信息数据质量(Geographicinformation—Dataquality)ISO19160-1:2015寻址第1部分:概念模型(Addressing—Part1:Conceptualmodel)术语和定义下列术语和定义适用于本文件。3.1准确性accuracy测试结果或测量结果与真实值之间的一致性。[来源:ISO3534‑2:2006,3.3.1]3.2地址address允许确定对象以进行识别和定位的结构化信息。[来源:ISO19160-1:2015,4.1]3.3地址别名addressalias一组地址(3.2)中的一个明确地确定相同的可寻址对象(3.9)。[来源:ISO19160-1:2015,4.3]3.4地址类addressclass共享相同地址组件(3.5)、操作、方法、关系和语义的一组地址(3.2)的描述。[来源:ISO19160-1:2015,4.4]3.5地址组件addresscomponent地址(3.2)的组成部分。[来源:ISO19160-1:2015,4.5]3.6地址位置addressposition代表地址(3.2)的位置。[来源:ISO19160-1:2015,4.7]3.7地址参考系统addressreferencesystem定义的地址组件集(3.5)及其组合为地址(3.2)的规则。[来源:ISO19160-1:2015,4.8]3.8寻址addressing涉及地址(3.2)的活动。[来源:ISO19160-1:2015,4.6]3.9可寻址的对象addressableobject可分配地址(3.2)的对象。[来源:ISO19160-1:2015,4.2]3.10一致性conformance满足规定要求。[来源:ISO19105:2000,3.8]3.11正确性correctness与论域(3.25)的对应。[来源:ISO19157:2013,4.5]3.12数据质量基础度量dataqualitybasicmeasure通用数据质量(3.23)度量,用作创建特定数据质量度量的基础。[来源:ISO19157:2013,4.7]3.13数据集dataset可识别的数据收集。[来源:ISO19115-1:2014,4.3]3.14直接评价法directevaluationmethod基于对数据集(3.13)内项目(3.19)的检查,评价数据集(3.13)质量(3.23)的方法。[来源:ISO19157:2013,4.10]3.15特征feature真实世界现象的抽象。[来源:ISO19101-1:2014,4.1.11]3.16特征类型featuretype具有共同特征的特征(3.15)类。[来源:ISO19156:2011,4.7]3.17地理数据geographicdata隐式或显式引用相对于地球的位置的数据。[来源:ISO19109:2015,4.13]3.18间接评价法indirectevaluationmethod基于外部知识评价数据集(3.13)质量(3.23)的方法。[来源:ISO19157:2013,4.17]3.19项目item任何可以单独描述和考虑的事物。[来源:ISO19157:2013,4.18]3.20元数据metadata有关资源的信息。[来源:ISO19115-1:2014,4.10]3.21元数据质量metaquality描述数据质量(3.23)的信息。[来源:ISO19157:2013,4.20]3.22概要profile[来源:ISO19106:2004,4.5]3.23质量quality对象的一组固有特征满足要求的程度。[来源:ISO9000:2015,3.6.2]3.24独立质量报告standalonequalityreport免费文本文档,提供有关数据质量(3.23)的全面详细信息评价、结果和使用的措施。[来源:ISO19157:2013,4.23]3.25论域universeofdiscourse对真实或假想世界的看法,包括所有感兴趣的事物。[来源:ISO19101:2014,4.1.38]一致性任何声称符合本标准的地址产品应通过附录A抽象测试套件中描述的所有要求,如下所示:地址数据质量应按A.1和A.2中概述的方法进行测量和描述;地址数据质量度量应通过A.3中概述的测试;地址数据质量评价过程应通过A.4中概述的测试;用于报告地址数据质量的元数据应通过A.5中概述的测试;独立的地址数据质量报告应通过A.6中概述的测试。符号、记号和缩略语统一建模语言ISO19103概念模式语言介绍了本标准中使用的UML的具体概要。缩略语缩写用于表示包含类的包。缩写在类名之前,用“_”连接。这些类所属于的标准在括号中指明。以下是缩写的列表。DQ DataQuality[ISOMD Metadata[ISO19115-1]CI Citation[ISO19115-1]描述地址数据的质量本标准是ISO19157图1概述了地理数据的质量,它也适用于地址数据。图1地理数据质量概念模型(来源:ISO19157-2013)图2数据质量单位(来源:ISO19157-2013)19160-1中称为地址类)的数据。例如,地址数据聚合器可以管理仅用于邮件的地址在(和被测元素。要求1:应按照每个数据质量单位和质量元素描述地址数据的质量,并且符合ISO19157。地址数据的质量元素本标准根据ISO19157建立了一组用于描述地址数据的质量元素。地址数据的质量根据ISO19157中定义的质量元素进行描述。完整性;逻辑一致性;位置精度;时间质量;主题准确性;可用性。地址数据的质量元素与ISO19157相同,如图3所示。图3地址数据的质量元素(来源:ISO19157:2013)地址数据质量检查概要本条规定了与地址数据相关的措施。根据ISO19160-1,地址数据包括以下常规类别:a)地址;b)地址组成部分;c)可寻址对象;d)参考对象。在这些类中,可能会在以下一个或多个层次上出现错误:项目(例如,数据集中缺失或错误显示的地址或组件);属性(例如,错误的原始类型或值);关系(例如,地址、地址类别或地址组件之间的错误或缺失关系)。要求ISO19160-1:2015,6.2(地址、组件、可寻址对象和参考对象)在项目、属性和关系级别的错误。地址质量元素的度量与ISO19157中的标准化数据质量度量相同。然而,由于数据质量和地理数据19157中给出的结构来描述这些措施。要求3:任何特定于寻址的措施应根据ISO19157中定义的组件进行描述。完整性概要完整性(ISO19157)被定义为特征的存在和缺失,以及它们的属性和关系。它由两个质量元素组成:a)多余:数据集中存在的多余数据;b)遗漏:数据集中缺少应包含的数据完整性错误可报告为:单个错误;错误总数;错误率(相关条目中的错误数量)完整性主要应用于地址(地址、组件、可寻址对象和参考对象)级别。虽然可以测量地址属性的完(测量地址数据完整性的方法见附录B。多余示例1检查地址位置是否符合指定的行政边界(即,如果数据集中存在指定边界之外的地址位置)。示例2数据集的概念架构也可用于检查多余的项目。示例3检查重复项目是在地址数据集中测量多余的另一种方法,应该进行检查。示例4通过将每个地址的组件和属性与数据集中的所有其他地址精确匹配来检查重复的地址记录。还可以通过将地址数据集中存在的项目数量与其他来源的预期值进行比较来进行非定量多余检查。非定量委员会检查可能只表明潜在的完整性错误,通常需要进一步调查(如互动审查、实地调查)。示例5将一个城市的居住地址数据集中的记录计数与从最近的调查中获得的人口计数和每个住房单元的人口估计值进行比较,以确定在给定该城市的每个单元的人口/人口估计值(即潜在的超额项目)的情况下,记录数量是否过多。示例6将一个管辖区地址数据集中最近添加的记录数与该管辖区颁发的住房许可证进行比较,以确定在颁发许可证的数量(即潜在的超额项目)的情况下,添加的记录数量是否过多。遗漏检查数据集中是否包括在产品规范范围内的所有项目。示例1:通过验证是否存在所有预期的可寻址对象类型,对地址数据集进行缺失项测试。检查数据集中是否包括基于概念架构的所有必需组件、属性和关系。示例2:使用组件引用的引用对象验证地址组件值,以确保所有预期值都存在。检查数据集中是否包括存在于已知正确的源中的所有项目。示例3:使用组件引用的引用对象验证地址组件值,以确保所有预期值都存在。将项目数量与基于其他来源的预期进行比较(非定量)。示例4:将一个司法管辖区地址数据集中的记录数与该司法管辖区颁发的住房许可证进行比较,以确定在颁发的许可证数量(即潜在的缺失项目)的情况下,记录数量是否显得极低。逻辑一致性概要ISO19157:2013概念一致性:对概念模式规则的遵循程度;域一致性:值与值域的一致性;格式一致性:物理存储结构、格式的符合程度;拓扑一致性:对拓扑关系反映的准确程度。评价数据集的逻辑一致性需要了解应用于数据集的逻辑规则(概念规则、逻辑规则和物理规则)。本标准使用ISO19160-1中的概念模型来确定如何将逻辑一致性运用于地址数据。概念一致性检查概念一致性涉及到确定一个项目、属性或关系是否符合被评价的地址数据集的概念模式的规则。示例1:检查数据集中的所有地址,以确保它们至少具有一个地址组件。示例2:检查数据集中的所有地址别名,以确保它们具有地址别名类型。示例3:检查数据集中的所有子地址,以确保它们在数据集中仅标识了一个父地址。示例4:检查地址号码是否符合街道边/奇偶规则。示例5:数据集中地址的完整名称类型与引用对象的基本方向规则一致(例如,所有林荫道必须东/西走向)。(。当地,应考虑这些其他数据质量。有些地址组件与其他组件相关,可以使用概念一致性度量来测试这些关系的一致性。示例6:如果邮局的每个箱号都是唯一的,那么邮局组件是范围组件(上级组件),而箱号是值组件(下级组件)。地址组件关系本质上可能是拓扑关系。可以在地址数据集的概念模型中明确地或隐含地表达这些约束。在任何一种情况下,概念一致性度量都可用于测试概念模型的一致性。示例7:检查与地址关联的城市是否位于关联的州内。示例8:检查与地址关联的街道名称是否位于关联的市政体内。域一致性((例如,字段中的值与整个数据集不一致)。示例1:检查地址状态的“未知”、“官方”或“非官方”以外的值。示例2:针对其参考对象(例如,街道中心线文件)验证地址组件类型的道路名称。示例3:使用与地址关联的邮局名称验证地址组件类型邮政编码。格式一致性(如RDBMSXML等示例1:确认地址数据集的文件类型符合产品规范所要求的格式。示例2:验证一个5位数、数字类型的邮政编码字段确实只包含五个数字。拓扑一致性(显式或隐式19157中的拓扑一致性度量通常不适用于地址数据。地址数据质量评价人员可能需要定义额外的数据质量度量。如果是这样,应根据ISO19157中给出的结构描述这些度量。位置精度位置精度被定义为空间参考系统内特征位置的精度。它由三个质量元素组成:绝对或外部精度-报告的坐标值与公认或认为是真实的值的接近程度;相对或内部精度-数据集中特征的相对位置与公认或认为是真实的它们各自的相对位置的接近程度;网格数据位置精度-网格数据空间位置值与公认或认为是真实的值的接近程度。绝对或外部位置精度示例1:地址位置类型为“地块质心”的地址位置将根据地块质心为真的参考数据集(地块层)进行检查。示例2:地址位置类型为“前门”的可寻址对象的位置在现实世界中使用测量工具对照现实世界对象(前门)的位置进行验证。相对或内部位置精度(点相对于彼此的相对位置示例:可以检查同一条街道上按顺序编号的地址号码,以确保每个地址的位置相对于其他地址的位置是正确的(例如,地址“瑟堡大街5号”的水平位置位于地址“瑟堡大街3号”和“瑟堡大街7号”的水平位置之间)。网格数据位置精度地址数据通常不作为网格数据保存,因此网格数据的位置精度与地址数据质量无关。时间精度在ISO19157中,时间质量定义为特征的时间属性和时间关系的质量。它由三个质量元素组成:时间测量的准确性-报告的时间测量值与公认或已知的真实值的接近程度;时间一致性-事件顺序的正确性;时间现势性-数据现势的符合程度。注:日期/时间格式在ISO8601中定义。时间测量精度(即开始有效期和截止有效期(即有效起始日期和有效截止日期)。时间测量的准确性可以用来检查这些时间与已知的真实时间的接近程度。时间一致性根据ISO19160-1,地址、地址组件和可寻址对象都具有生命周期和生命周期阶段的属性。生命周期类型的属性可以使用时间一致性度量进行检查,也可以测试类之间的时间关系。示例1:确认地址的有效起始日期早于其有效截止日期。示例2:可寻址对象的开始生命周期日期被确认早于由其关联地址(即起始地址)确定的日期。时间现势性可以使用时间现势性来检查日期时间域中的任何地址数据。示例:2018-03-21是有效日期。主题准确性概要主题准确性被定义为(ISO19157)定量属性的准确性和非定量属性和特征及其关系的分类的正确性。它由三个质量元素组成:a(;b)非定量属性正确性:检查非定量属性是否正确;c)定量属性准确性:定量属性值与参考资料的符合程度。主题准确性错误可报告为:错误(个人);错误数(总数);错误率(错误数除以项目数,可以用分数或百分比表示)。分类正确性确定地址数据的分类正确性指检查每个对象类的所有项(出现)是否正确分类。ISO19160-1中的对象类别和相应的分类如表1所示。1ISO19160-1对象类对象分类地址地址类地址别名地址别名类型地址组件地址组件类型可寻址对象可寻址对象类型引用对象引用对象类型检查可通过以下方式完成:(示例1:属性的值不在指定的域内。例如,当不存在地址类“基本地址”时,地址被分类为地址类“基础地址”。根据被认为是真实的外部数据源(例如来自现场观察或调查,或其他记录)来检查值。示例2:通过实地观察,将被归类为建筑物的可寻址对象确定为空地。非定量属性正确性对于地址数据,非定量属性正确性指的是:对于数据集中包含的每个对象类(在ISO19160-1中,包括地址、地址组件、可寻址对象、参考对象),检查每次出现的所有属性是否正确。可以通过如下方式进行检查:检查值的合理性,值是否与数据集范围内预期的值不同。示例1:一个地址有一个不存在于相应地区或行政区域的道路名组件。示例2:拼写名称(如道路、地区等)有细微差别,可能是印刷错误。示例3:地址组件的值与基于其他地址组件的值的预期值不匹配。例如,地址是“米尔德里德路”的编号范围的一部分,但是“道路名称”组件的值是“威廉街”。根据被认为是真实的外部数据源(例如来自现场观察或调查,或其他记录)来检查值。示例的组件,但是相关的引用对象数据集被称为“城市”。示例2:对照地址使用影像检查可寻址对象是否存在。示例3:地址位置类型为“前门”的地址位置通过影像确认位于可寻址对象的前门。定量属性准确性虽然地址数据中的定量属性很少见,但是ISO19160-1中的概念模型包括了在地址类和核心类型地址组件值中发现的定量属性“优先级”。这些属性以及在ISO19160-1的档案中发现的具有定量数据类型(例如,整数)的属性可以使用定量属性准确性度量进行检查。示例:地址数据集中的地址的首选级别为2,但没有首选级别为1的相关(别名)地址。可用性示例1:地址管理机构声明其数据集适合于邮寄目的。示例2:地址数据集提供者表示所引用规范中的所有要求都已满足。可用性元素也可用于基于用户需求的质量评价,这些需求是其他质量元素无法涵盖的。示例3:开发了一种评价方法,根据质量水平分配置信度分数。参见C.5,了解如何聚合多个质量结果并将它们作为可用性元素的单一结果进行报告的示例。地址数据质量评价概要((例(─对于具有数据产品规范或用户要求的地址数据集,所有必要的质量元素和度量都应被认为是适用的,以确定对数据产品规范或用户需求的符合性。要求4:所有适用的地址数据质量度量应适用于已确定的地址数据质量单位。要求5:地址数据的质量元素的评价应根据ISO19157标准中的度量、评价方法和结果进行描述。评价过程要求6:地址数据的评价过程应根据ISO19157进行定义。图4描述了ISO19157:2013数据质量评价过程。图4数据质量评价过程(来源:ISO19157-2013)元数据质量根据ISO19157,元数据质量是一组关于质量评价及其结果的陈述。了解评价过程的方法、度量和给定结果的质量和适用性可能与结果本身同样重要。元数据质量可以用以下元素来描述:置信度:数据质量结果的可信度;代表性:样本产生的结果在数据质量范围内代表数据的程度;同质性:对数据质量评价所获得的结果预期或测试一致性。示例:使用地址样本(郊区的一个子集)检查由城市的所有郊区中的地址组成的数据集的冗余。评价方法包括几个训练有素的现场代表对区域进行勘察并收集地址信息。现场工作包括质量控制方法。元数据质量被报告为高置信度(现场工作)和同质性(例如,所有现场工作的比较显示低均方根误差)。由于地理、分区法律、数据收集的时间周期等原因,样本也被认为具有代表性。元数据质量元素的描述与质量元素相同(度量、评价方法和结果),但增加了一个额外的描述符,即相关质量元素。相关质量元素是元数据质量元素适用的元素。地址数据质量评价方法数据质量评价方法可分为直接评价和间接评价两类。通过聚合或推导现有结果可以产生其他结果(参见ISO19157:2013,9.3)。检查对概念模式的遵守、数据类型的正确使用和分类正确性是内部直接评价的例子。利用地块或建筑占地面积几何来检查地址位置的准确性或进行实地检查是外部直接评价的例子。外部直接评价检查依赖于参考数据的质量足以满足检查的目的。测量外部数据的质量不在本标准的范围内。间接评价方法是基于数据产品的外部知识或经验评价数据集质量的方法,可以是主观的。要求7:应根据ISO19157规定地址数据的评价方法。有关评价和报告地址数据质量的示例,请参见附录C。要求8:给每个质量元素应至少提供一个数据质量结果。这可能是定量结果、一致性结果、描述性结果或覆盖结果。结果在ISO19157:2013第7.4.4条中有详细描述。报告地址数据的质量要求9:地址数据的质量应按照ISO19115-1和ISO19115-2的规定,作为元数据和独立质量报告进行报告。要求10:独立地址数据质量报告应包括ISO19157中规定的所有相关组件。有关评价和报告地址数据质量的示例,请参见附录C。附录 A(规范性)测试用例标识符:地址数据质量单位和元素试验目的:验证是否满足ISO19160-3(本标准)中的要求1。ISO19157c)参考:ISO19157:2013的第7.2节,第7.3节。d)试验类型:初级。测试用例标识符:地址数据质量度量的应用试验目的:验证是否满足ISO19160-3(本标准)中的要求2和要求5。测试方法:检查所有适用的地址数据质量度量是否已应用于识别出的地址数据质量单位,并且这些测量是否针对ISO19160-1/或关系级别进行了错误测试。参考:第7条,9.1d)试验类型:初级。测试用例标识符:地址数据质量度量的描述试验目的:验证是否满足ISO19160-3(本标准)中的要求3。ISO19157:2013A.5.aA.5.bA.5.cA.5.d部分。参考:ISO19157:2013第8条和附录C。d)试验类型:初级。一致性测试类:特殊格式试验目的:验证是否满足ISO19160-3(本标准)中的要求4、要求6、要求7和要求8。ISO19157:2013A.1.aA.1.bA.1.cA.1.d部分。c)参考:ISO19157:2013中第9.1节。d)试验类型:初级。测试用例标识符:将地址数据质量报告为元数据试验目的:验证是否满足ISO19160-3(本标准)中的要求9。ISO19115-1:2014A.2.1A.2.2A.2.3A.2.4A.2.5部分。c)参考:ISO19115-1:2014中A.2.1,A.2.2,A.2.3,A.2.4,A.2.5d)试验类型:初级。测试用例标识符:独立地址数据质量报告试验目的:验证是否满足ISO19160-3(本标准)中要求10。ISO19157:2013A.4.aA.4.bA.4.cA.4.d部分。c)参考:ISO19157:2013中A.4.a、A.4.b、A.4.c、A.4.dd)试验类型:初级。附录 B(规范性)地址数据质量评价方法概要((它自身独特的属性;它自己的位置;它周围其它地址的位置;它周围其它地址的属性;它从其它参考数据集中提取的属性值;它从参考数据集中提取的属性之间的一致性;它的位置与参考数据集中地址引用属性的特征的几何形状相比较。地址数据完整性的度量方法基于边界的方法(()执行额外的项目度量。基于边界的评价方法是外部直接方法,可用于应用8.2节中描述的多余和遗漏数据质量度量。基于分类的方法基于比较的方法(地址数据中重复项目的测量方法重复地址的测量方法(来进行重复地址数量的测量。根据数据集规范和可用的工具(例如地址匹配软件),重复地址测量有几种变体。测量重复地址的方法可以是内部直接方法(例如,数据集中的所有地址相互匹配)或外部直接方法(例如,数据集中的地址与参考文件匹配),并可用于应用8.2节中描述的多余数据质量度量。示例1:地址数据集产品规范声明,地址数据集不得包含两个具有完全相同组件值集合、引用相同可寻址对象的地址。示例2:地址数据集产品规范声明,地址数据集不得包含两个具有完全相同组件值集合、引用相同地理位置(x,y)的地址。在识别不共享所有数据完全重复的重复地址时,必须仔细考虑。这可能包括在能够确定地址重复之前,按特定顺序获取来自多个质量元素和测量的结果。示例3:澳大利亚统计局使用由国家邮政机构澳大利亚邮政指定的匹配和识别重复地址的方法。大多数国家邮政机构都有识别准确和不准确匹配地址列表的要求,以确保邮件投递的准确性。澳大利亚邮政将此要求指定作为地址匹配审批系统(AMAS)的一部分而发布的一套规则。AMAS指定了一系列分层规则,用于确定何时可以使用同义词,从而确定何时识别不完全匹配的地址为有效匹配,从而识别重复的地址。示例如下。下面的表B.1、B.2和B.3提供了用于将AMAS规则应用于表B.4中列出的输入地址的典型输入信息的描述。这说明267MaroondahHwyNunawadingVIC3131被识别为维多利亚州努纳瓦丁区马鲁恩达高速公路267号,邮编:3131,因为根据AMAS规则集,可以使用已知街道同义词生成精确匹配。表B.1 索引记录记录号索引地址记录#1维多利亚州努纳瓦丁区怀特霍斯路267号,邮编:3131记录#2维多利亚州米查姆区怀特霍斯路433号,邮编:3132表B.2 街道同义词PAF街道PAF街道类型备用街道备用街道类型索引位置索引邮政编码怀特霍斯路马鲁恩达高速公路努纳瓦丁3131怀特霍斯路马鲁恩达高速公路米查姆3132表B.3 位置同义词位置同义词邮编米查姆米查姆东3132表B.4 输入地址、匹配结果和AMAS规则的应用说明输入地址匹配到AMAS规则的应用说明维多利亚州努纳瓦丁区马鲁恩达高速公路267号,邮编:3131维多利亚州努纳瓦丁区怀特霍斯路267号,邮编:3131使用街道替代物进行精确匹配433没有匹配必须对客户/测试记录的所有地址组件进行精确匹配。不允许PPM规则1维多利亚州努纳瓦丁区马鲁恩达路267号,邮编:3131没有匹配为了使用街道备选方案,必须对所有地址组件进行精确匹配。维多利亚州努纳瓦丁区马鲁恩达路267-271号,邮编:3131没有匹配为了使用街道备选方案,必须对所有地址组件进行精确匹配。维多利亚州努纳瓦丁区马鲁恩达路267号4单元,邮编:3131没有匹配为了使用街道备选方案,必须对所有地址组件进行精确匹配。维多利亚州米查姆区马鲁恩达高速公路433号,邮编:3131没有匹配必须具有有效的地区、邮政编码组合才能使用街道替代维多利亚州米查姆东区马鲁恩达高速公路433号,邮编:3132维多利亚州米查姆区马鲁恩达高速公路433号,邮编:3132同义词可用于查找正确的位置并使用街道替代记录进行匹配。测量重复可寻址对象的方法(来进行测量。根据数据产品规范,有可能在没有所有数据完全重复的情况下确定重复的可寻址对象。,并可用于应用8.2节中描述的多余数据质量度量。示例1:地址数据产品规范规定,所有真实世界对象(房屋)在地址数据集中只展现一次。对数据集的检查表明,多个可寻址对象引用的是同一个房屋,但具有不同的地址位置类型(前门、建筑质心)和坐标。在识别不被同一地址引用的重复可寻址对象时,必须仔细考虑。这可能包括按特定顺序从多个质量元素和测量中获取结果,然后才能确定可寻址对象的重复。示例(版本)报告地址数据中的重复项目示例:对于具有相同属性的任何地址组,将一个地址作为有效地址处理,并将其余地址报告为重复地址。(附录 C(信息性)评价和报告地址数据质量的示例概要本附件提供了评价和报告地址数据质量的示例。地址数据集的示例数据产品规范概要南非茨瓦恩市街道地址数据集。特征类型街道地址以点特征表示,并且每个街道地址至少有一个地址编号、街道名称和郊区名称(即SANS1883-1:2009中规定的街道地址的强制地址组件)。数据符合SANS1883-1:2009和SANS1883-2标准,这是ISO19160-1:2015中定义的地址概念模型的一个配置文件。根据SANS1883-1:2009,地址的首选级别属性表示地址在一组地址别名中的排名;1表示最高的排名。规则数据集中的地址应遵循以下规则:地址中的郊区名称应与封闭的郊区边界名称相同。每个地籍地块应至少与一个地址相关联。每个地籍地块可以与多个地址关联,但只有一个地籍地块的首选级别设置为1。质量要求总体数据质量要求应符合以下数据质量要求:a)只有本数据产品规范中定义的特征类型和属性才能出现在数据集;b)最多200个项目可能缺失;c)最多200个项目可能多余;d)所有项目归类为街道地址;e)最多200个项目可能具有错误的郊区名称;f)每个项目具有街道地址的强制地址组件;g)最多200个项目与地籍地块错误关联;h)最多200个项目的郊区名称与封闭的郊区边界不匹配。质量评价流程指定质量元素(多余和遗漏(主题分类正确性指定数据质量评定指标表C.1列出了本例中用于不同质量元素的数据质量评定指标。表C.1 数据质量评定指标质量元素数据质量评定指标多余多余项目多余多余项目的数量遗漏缺失项目遗漏缺失项目的数量主题分类正确性错误分类的项目主题分类正确性错误分类的项目的数量域一致性郊区名称不正确的项目域一致性郊区名称不正确的项目的数量概念一致性省略带有一个或多个强制地址组件的项目概念一致性省略了一个或多个强制地址组件的项目数拓扑一致性拓扑上与地籍地块不一致的项目拓扑一致性拓扑上与地籍地块不一致的项目的数量拓扑一致性郊区名称不正确的项目拓扑一致性郊区名称不正确的项目的数量指定数据质量评价方法多余:多余的项目多余:多余的项目的数量遗漏:缺失项目的数量主题分类正确性:分类错误的项目主题分类正确性:分类错误的项目的数量域一致性:郊区名称不正确的项目域一致性:郊区名称不正确的项目的数量概念一致性:缺失具有一个或多个强制地址组件的项概念一致性:缺失一个或多个强制地址组件的项目数拓扑一致性:与地籍地块拓扑不一致的项目存在多个这样的地址,它们被确定为与地籍地块拓扑上不一致的项目。拓扑一致性:与地籍地块拓扑不一致的项目数存在多个这样的地址,它们被确定为与地籍地块拓扑上不一致的项目。拓扑一致性:郊区名称不正确的项目拓扑一致性:郊区名称不正确的项目数确定数据质量评价结果的输出这些方法用于识别和计数项目。地址数据质量报告质量结果见表C.2。表C.2 数据质量结果报告质量元素数据质量评定指标数据质量要求测量的数据质量通过评价?多余多余项目的数量20050Yes遗漏缺失项目的数量200300No主题分类正确性不正确分类项目的数量00Yes域一致性不正确郊区名称的数量200150Yes概念一致性省略了一个或多个地址组件的项目数010No拓扑一致性拓扑上与地籍地块不一致的项目数20050Yes拓扑一致性郊区名称不正确的项目数200150Yes地址数据集的示例数据产品规范概要一个包含美国人口普查用途的单户住宅及其相关地址的数据集。特征类型规则数据集中的地址应遵循以下规则:每个单户住宅至少与一个地址相关联;a)。如果它们相同,则视为重复。见图C.1b);C.2一个可寻址对象不应重复,即一个家庭住宅由数据集中的一个可寻址对象表示。一个可寻址对象可以有多个位置。参见图C.3。a)别名地址 b)重复地址图C.1 与多个地址关联的单一家庭住宅图C.2 地址拼写错误图C.3 无法识别的别名地址或多点特征导致重复的可寻址对象质量要求总体数据质量要求应符合以下数据质量要求:a)最多3%的无地址独户住宅;b)最多3%可寻址对象(单户住宅或入口)有重复地址;c)最多1%的地址有拼写错误;d)最多1%的可寻址对象重复。地址数据质量检查流程指定数据质量单位确定了单个数据质量单位,包括逻辑一致性(概念一致性);主题准确性(非定量属性正确性);和完整性(多余);并在整体数据集(范围)上进行评价。规定数据质量评定指标表C.3列出了本例中用于不同质量元素的数据质量评定指标。表C.3 数据质量评定指标质量元素数据质量评定指标概念一致性表示与地址无关的单户住宅的可寻址对象的百分比。概念一致性与两个相同地址关联的可寻址对象的百分比非定量属性正确性街道名称中拼写错误的地址百分比多余重复的可寻址对象的百分比数据质量评价方法概念一致性:未与地址关联的单户住宅可寻址对象的百分比。通过基于关联的方法应用内部直接评价。任何未与地址关联的可寻址对象都标记为错误。概念一致性:与两个相同地址关联的可寻址对象的百分比。非定量属性正确性:街道名称中出现拼写错误的地址的百分比。(多余:重复的可寻址对象的百分比采用内部直接评价。围绕每个可寻址对象创建一个3米的缓冲区。任何在其他可寻址对象缓冲区内的可寻址对象都标记为错误。数据质量评价结果的输出这些方法用于识别和计算项目,以便计算百分比。地址数据质量报告质量结果见表C.4。表C.4 数据质量结果报告质量元素数据质量评定指标数据质量要求测量的数据质量通过检查?概念一致性表示与地址无关的单户住宅的可寻址对象的百分比3%5%No概念一致性与两个相同地址关联的可寻址对象的百分比3%2%Yes非定量属性正确性街道名称中拼写错误的地址百分比1%0%Yes多余项目的百分比重复的可寻址对象的百分比1%3%No使用质量元素评价用户地址数据集的质量示例概要定位服务描述(用例)由人工输入的地址构成的用户地址数据集需要被定位,以便由生产系统(例如,送货系统)处理。(与被视为参考数据库的内部地址数据库进行比较。匹配算法通过比较几个标准,如语义距离(见C.8.2)和地理距离(见C.8.3),来评价最佳匹配,并返回输出地址和几何信息。可能会考虑其他标准,例如城市的重要性(如果存在两个相似的结果,首先会推荐最大的城市),或者该地址已由人工监督(基本上,就是输入地址的人)。然后可以通过对每个地址特征的这些不同标准进行加权(见C.8.4)来计算匹配得分。这是地址实例质量的一个指标。规范还可以定义最小质量值,以便对这些标准进行检查,从而为用户地址数据集提供整体质量指标(见C.8.5)。地址语义质量语义距离(即两个文本字符串之间的差异deBoécie”而不是“RuedelaBoétie”,那么语义距离为4(插入2个字母,以及2个字母用于将“c”替换为“t”,包括删除和插入)。表C.5 质量度量语义距离的组成部分行组成部分描述1名称语义距离2别名—3元素名称非定量属性正确性4基本度量不适用5定义基于输入地址和输出地址之间语义距离的正确性得分6描述使用莱文斯坦距离计算得出的得分7参数—8值类型真值9值结构—10来源参考/wiki/Levenshtein_distance11实例0.812标识符<urnofthemeasure>为了计算第5条款中定义的用户地址数据集质量指标,如果存在,这个值应该与产品规范中为每个地址匹配类型匹配类型描述了定位服务在比较输入地址和输出地址时发现的匹配程度。(插值精确到街道号码:输出地址的城市、街道和街道号码与输入地址相匹配。(插值精确到街道:输出地址的城市与输入地址相匹配,但地址已被定位在街道段的中心点。精确到城市:地址已被定位在城市的中心点。表C.6提供了匹配类型的一个示例。表C.6 地址匹配类型示例客户地址输出地址(由定位服务返回)街道博蒂街300号博蒂街邮政编码7500875008城市巴黎巴黎在这种情况下,最佳匹配是“博蒂街”,因为这条街上没有300号。地理编码类型是“街道级”。用于地址匹配类型的质量元素应该是“相对或内部准确性”,范围为“特征”,度量应该是用户提供的质量度量,根据值域给出匹配类型,地址匹配类型质量度量的组成部分可以在表C.7中找到。表C.7 质量度量值地址匹配类型的组件行组成部分描述1名称地址匹配类型2别名—3元素名称相对精度或内部精度4基本度量不适用5定义描述在将用户地址与引用数据集地址进行比较时定位服务返回的匹配级别6描述街道编号,街道编号(插值),街道,城市7参数—8值类型元数据_关键词9值结构关键词:特征字符串类型:元数据_关键词

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论