大数据管理与应用概论 课件 第五章 大数据质量管理方法_第1页
大数据管理与应用概论 课件 第五章 大数据质量管理方法_第2页
大数据管理与应用概论 课件 第五章 大数据质量管理方法_第3页
大数据管理与应用概论 课件 第五章 大数据质量管理方法_第4页
大数据管理与应用概论 课件 第五章 大数据质量管理方法_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

5.1数据质量概述数据质量的概念对数据质量的研究始于上世纪国外,许多学者对数据质量提出了不同的定义,但至今学者在数据质量的定义上尚未达成共识。国外学者Tayi等将“数据质量”定义为“数据适于使用的程度”,并提出数据质量判断取决于数据消费者,即数据质量是数据为满足业务需求和数据消费者使用目的所具备的适合度或适用性。数据质量的定义数据质量的可变性数据质量与特定环境、特定目标和特定的初始条件密切相关强调数据质量与数据生命周期的阶段或过程高度耦合数据质量的概念数据质量管理是对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善组织的管理水平以进一步提高数据质量。计划获取存储共享维护应用消亡数据生命周期识别度量监控预警···数据质量管理的必要性数据是每个组织在竞争时代赖以生存的基础,是处理各种业务功能的应用程序和系统的基础。数据质量在组织中起着至关重要的作用:高质量数据客户服务运营效率业务规划战略决策有效管理价值回报数据质量决定数据作为一种资产所具备的价值。高质量数据通过满足用户需求来提升客户的满意度。高质量数据可以显著提高组织收入和利润。数据质量是组织形成战略性竞争优势中的关键要素。影响数据质量的因素对数据质量进行有效管理要首先识别影响数据质量的原因。数据质量问题贯穿数据生命周期的每个阶段,从最初的数据创建和收集开始再经数据处理、传输、存储、归档和清除等各个步骤。数据质量在数据生命周期中的过程···处理传输存储归档清除不准确性数据数据消息偏差消息偏差影响数据质量的因素数据质量在数据生命周期的过程过程中有以下操作可能会影响数据质量:影响数据质量的操作主要内容手动数据输入手动数据输入时,可能会提供错误的、不完整的信息,从而导致数据问题数据捕获过程中的验证实现数据捕获的事务系统中,不充分不严谨的数据验证过程可能无法捕获错误的数据输入数据衰减或数据老化数据随着时间的推移而退化,从而导致数据质量下降业务流程管理与设计在业务流程管理与设计过程中缺乏统一的标准来解决业务需求和实现业务流程改进,导致数据缺失、数据重复等数据质量问题数据迁移在数据迁移或转换过程中,一些数据可能会在新数据库或同一数据库的新模式下发生很大变化,从而导致数据问题影响数据质量的因素数据质量在数据生命周期的过程过程中有以下操作可能会影响数据质量:影响数据质量的操作主要内容数据集成在组合冲突数据的过程中,错误的数据映射规范和错误的解决冲突的规则可能导致数据质量问题数据清理纠正错误数据元素的过程中,自动数据清理算法由计算机程序实现,但还是不可避免地会出现错误组织变更组织上的变化,如企业并购、重组等都有可能增加数据质量问题系统升级数据可能会被篡改成以前版本可以接受的形式,而系统升级会暴露这些数据不准确,从而带来数据质量问题数据清除数据清除可能会意外地影响错误的数据,当清除的一些相关数据超过或少于预期时,都会导致数据质量问题影响数据质量的因素数据质量在数据生命周期的过程过程中有以下操作可能会影响数据质量:影响数据质量的操作主要内容缺乏对数据的多重使用和共享理解不同部门或小组需将数据用于不同的目的,但当数据不再满足组织中某个部门或运营团队的特定业务需求时,便会认为数据质量不好专业知识缺失对于以不当方式存储和使用数据的遗留系统,当缺少专家知识时,数据可能无法得到正确使用缺乏通用的数据标准、数据字典和元数据不同业务部门和元数据之间缺乏通用的数据标准,会导致数据质量问题业务数据所有权和治理问题没有明确定义的所有权、管理权、透明度和问责制,职能部门和业务部门的治理有限或不一致,都会导致数据质量差黑客破坏黑客不仅可以破坏数据,还会窃取或删除数据,极大地损害数据质量小结本节的主要内容数据质量的概念数据质量管理的必要性影响数据质量的因素5.1数据质量概述5.2数据质量管理体系数据质量评估框架数据质量评估框架是一种手段,是一个组织可以用来定义它的数据环境的模型,明确有关数据质量的属性,在当前的环境下分析数据质量的属性,提供保证数据质量提高的手段。不同数据质量评估框架间的差别主要体现在:评估对象阶段步骤采用的策略和技术维度指标花费成本信息系统数据质量评估框架一些具有代表性的数据质量评估框架,其中部分框架将信息质量和数据质量等同。框架名称(全称)主要内容TDQM(TotalDataQualityManagement)基于过程管理,将信息看作一种产品,包括定义信息产品与质量、信息产品质量度量、分析信息产品质量、提升信息产品质量全过程。DWQ(TheDatawarehouseQualityMethodology)通过数据仓库中语义丰富的质量管理模型来评估数据仓库质量,从评估对象、质量目标、质量查询、质量维度、质量评估等方面定义数据仓库数据质量并建立模型。该模型可以直接集成到元数据库系统概念库中。TIQM(TotalInformationQualityManagement)该框架将信息质量视作一种管理工具,从固有与实用两方面对信息质量进行定义。将产品质量原则用于信息,提出信息质量评估的方法与维度,以及信息产品改进的方法步骤。AIMQ(Amethodologyforinformationqualityassessment)从内在信息质量、上下文信息质量、代表性信息质量和可访问性信息四个方面定义数据质量,该框架包括信息质量维度、一个信息质量模型,以及解释信息质量的分析技术。数据质量评估框架框架名称(全称)主要内容CIHI(CanadianInstituteforHealthInformationmethodology)从质量评估方法、信息质量与公司数据处理、信息质量与组织几方面建立框架。CIHI(CanadianInstituteforHealthInformationmethodology)从质量评估方法、信息质量与公司数据处理、信息质量与组织几方面建立框架。DQA(DataQualityAssessment)该框架开发了客观数据质量度量的三种功能形式,提出了一种结合主观和客观数据质量评估的方法。DQAF(DataQualityAssessmentFramework)该框架整体结构呈级联式展开,第一阶层的每个维度分别在第二阶层和第三阶层的评估指标中具体化。IQM(InformationQualityMeasurement)该框架分析和比较并整理了不同评测信息质量工具的功能,用于以系统和有计划的方式测量特定的IQ标准,并归纳为一种系统的评估方法。数据质量评估框架——TDQM基于过程管理的全面数据质量管理(TotalDataQualityManagement,TDQM)方法由RichardY.Wang首先提出,通过引入工程管理中的全面质量管理方法,将信息(或数据)视为产品,将信息生产过程看作是一个信息处理系统对源数据加工处理后生产出信息产品的过程。TDQM的内容主要包括信息产品定义。定义信息产品特征、信息产品质量要求、信息制造系统。信息产品度量。关键信息质量指标。信息产品分析。分析信息产品和导致信息质量问题的根本原因。信息产品提升。确定需要改进的领域。数据质量评估框架——AIMQ在TDQM框架的基础上,麻省理工学院小组提出AIMQ(amethodologyforinformationqualityassessment)框架。同时,研究小组开发并验证了一种问卷,通过收集关于数据质量状况的数据,可用于评估和检测数据质量四个象限的模型。AIMQ的内容主要包括信息质量维度。四个类别:内在信息质量、上下文信息质量、代表性信息质量和可访问性信息质量。PSP/IQ模型。将维度整合为四个象限:正确、可靠、有用和可用的信息。IQA工具的开发与管理。支持PSP/IQ模型和差距分析测量。信息质量差距分析。提供一种工具来了解与其他组织和一个组织内的不同利益相关者相比其信息质量的缺陷。数据质量评估框架——DQADQA(DataQualityAssessment)框架,于2002年由MIT的三位研究员提出。该框架侧重于对数据质量的评估,提出了一种结合主观和客观数据质量评估的方法,并开发了客观数据质量度量的三种功能形式。DQA框架的数据质量评估总体过程主观和客观数据质量评估确定差异原因确定并采取改进措施数据产品的收集者数据产品的保管者数据产品的消费者主观数据质量评估需求经验简单比率最小/最大值加权平均客观数据质量度量数据质量评估框架——DQAFDQAF融合了“联合国官方统计基本准则”和“SDDS/GDDS”在内的实践经验以及国际公认的统计概念、定义。DQAF框架整体结构呈级联式展开,在第一阶层提出质量的先决条件以及衡量数据质量的五个维度,然后将第一阶层的每个维度分别在第二阶层的评估要素和第三阶层的评估指标中具体化。DQAF框架质量的先决条件保证诚信方法健全性准确性和可靠性适用性可获取性法律和机构环境资源相关性其他质量管理基础专业化透明度职业道德标准范围概念和定义分类/部门划分记录基础源数据评估源数据统计技术评估和确认中间数据和统计产出修正研究频率和及时性一致性修正政策和作法对用户的帮助数据的可获得性数据诠释的可获得性数据质量维度在针对数据质量维度领域的研究中,许多国际机构和国家政府部门提出相应的维度。国际机构或国家政府部门数据质量维度欧盟统计局相关性、准确性、可比性、连贯性、及时性和准时、可访问性和清晰联合国粮食及农业组织相关性、准确性、及时性、准时性、可访问性和明确性、可比性、一致性和完整性、源数据的完备性美联邦政府(公众传播)实用性、客观性(准确、可靠、清晰、完整、无歧义)、安全性美国商务部可比性、准确性、适用性美国国防部准确性、完整性、一致性、适用性、唯一性及有效性加拿大统计局准确性、及时性、适用性、可访问性、衔接性、可解释性澳大利亚国际收支统计局准确性、及时性、适用性、可访问性、方法科学性数据质量维度根据国际机构和国家政府部门数据质量维度表,并结合TIQM框架,将数据质量维度划分为数据固有维度和数据使用维度。(一)数据固有维度

即与数据自身属性相关的数据质量维度,包括完整性、唯一性、有效性、准确性、一致性、波动性和数据覆盖范围。完整性数据元素完整性数据记录完整性数据集完整性唯一性数据元素唯一性数据记录唯一性一致性数据记录一致性跨记录一致性数据集一致性准确性数据元素准确性数据记录准确性有效性数据元素有效性数据覆盖范围数据覆盖率波动性数据质量维度(二)数据使用维度即从用户角度定义,与数据使用相关的数据质量维度。包括数据及时性、时效性、相关性、安全性、可追溯性、可访问性、可靠性、易于操作性、简洁性、可解释性、可信度和声誉。数据使用维度主要内容及时性衡量数据属性值是否是最新的时效性向用户发送数据或向用户提供数据的速度,是对数据存在到数据交付给用户之间的时间间隔的度量相关性数据内容和覆盖范围与使用目的相关的程度安全性为防止未经授权的访问而对数据访问进行适当限制和管理的程度可追溯性将数据追溯到其起源的能力数据质量维度(二)数据使用维度数据使用维度主要内容可访问性确定数据或元数据存在的难易程度,以及能够快速、方便地访问和检索数据的形式或媒介的适用性。可靠性指数据集在预期用途下的完整性、相关性、准确性、唯一性和一致性,以及将数据追踪到可靠来源的能力。易操作性指数据在不同任务中易于操作的程度。简洁性指数据被紧凑表示的程度。可解释性用户能轻松理解、正确使用和分析数据的程度。可信度用户认为数据可信的程度、数据提供者或数据源的诚信程度。声誉指数据在来源或内容方面受到高度重视的程度。数据质量管理标准(一)ISO8000数据质量标准ISO8000数据质量标准是针对数据质量制定的国际标准化组织标准,它由ISO工业自动化系统与集成技术委员会(TC184)SC4小组委员会开发。ISO8000数据质量标准由一般原则、主数据质量、交易数据质量、产品数据质量4个部分组成。每个部分独立发布,该标准是受版权保护的,不可免费使用。ISO8000-1简介ISO8000-2术语一般原则主数据的语法、语义编码、符合数据规范、主数据的数据来源、准确性、完整性、质量管理框架主数据质量数据质量管理标准(一)ISO8000数据质量标准ISO8000的重要部分主要包括:1.ISO8000-110主数据的语法、语义和数据规范2.ISO8000-120主数据的语法、语义和数据规范3.ISO8000-130主数据的准确性4.ISO8000-140主数据的完整性5.ISO8000-150主数据质量管理框架数据质量管理标准(二)ISO22745:2010标准ISO22745:2010标准是一个关于开放技术字典和主数据应用的国际标准,该标准给出了表示、处理和交换主数据的描述技术,通过与ISO8000配合使用来描述数据需求。其核心内容及标识如下:1.开放的技术字典(theOpenTechnicalDictionary,OTD)。ISO22745的核心是OTD,它是一组词条的集合,每一个词条描述一个概念/元数据,包含概念/元数据的标识符、术语和定义文本、注释、样例、图像、超链接到源标准。数据质量管理标准(二)ISO22745:2010标准1.开放的技术字典(theOpenTechnicalDictionary,OTD)。OTD的概念跨越整个供应链,从供应商->客户->材料->存储->服务;概念包含整个数据生命周期,从设计(CAD/CAM/CAE/PDM)->设备->制造/生产。OTD标识符类型及定义如下:类型概念与举例类一组具有相同特性的实体的集合。OTD不包含类的层次结构,它是一个扁平的概念集。特征指物件的属性,例如:螺纹级别、直径、材质,强度等。测量单位包括测量单位的国际系统和英制系统。测量约束如:极小值、极大值、正常值。特征类型指物件特征的类型,可以是枚举类型。例如一周中的日子有七天,螺纹的方向有两种。货币名称例如,美元、欧元等。语言标识符是指对不同的语言给定标识符,以便对与语言相关的术语、缩略语和定义进行语义识别。数据质量管理标准(二)ISO22745:2010标准2.主数据。任何一条主数据记录描述的都是“物件”,它可以是各种现实中具体的物体也可以是同样物体的集合。3.标识模式。标识模式如图。4.标识指南(IdentificationGuide,IG)。IG是基于OTD中的概念、提供给买家用来描述主数据的一个母模板、一组基本规则。RAI,注册权威标识符RegistrationAuthorityIdentifierICD,国际码标志符InternationalCodeDesignatorOI,组织标识符OrganizationIdentifierDI,数据标识符DataIdentifierCSI,码空间标识符CodeSpaceIdentifierCC,概念码ConceptcodeVI,版本标识符VersionIdentifier数据质量管理标准(三)GDDS(一般数据发布标准)和SDDS(特别数据发布标准)自1995年以来,国际货币基金组织出台了一套数据发布标准,并分为两种:特别数据发布标准(SpecialDataDisseminationStandard,简称SDDS)和一般数据发布制度(GeneralDataDisseminationSystem,简称GDDS)。其共同目标是指导各国按统一标准,提供综合、及时、可靠的经济和财政金融统计数据。但GDDS和SDDS这两种数据发布标准也有很大的不同,主要体现在:1.数据的统计范围、公布频率和公布及时性。2.公布数据的质量。3.公布数据的完整性。4.公众获取数据的公平性。小结本节的主要内容数据质量评估框架数据质量维度数据质量管理标准5.2数据质量管理体系5.3数据质量评估方法定性评估方法采用定性评估方法进行评价时,通常先根据评价的目的和服务对象的需求,按照一定的准则与要求,确定相关评价标准或指标体系,建立评价标准及各赋值标准,再经过评价者、专家和用户打分或评定,最后统计出各数据库的评价结果。定性评估方法的缺陷:评价指标体系本身的合理性评价的滞后性评价结果的适用性问卷调查评价结果的可信性存在问题定性评估方法(一)用户反馈法主要是由评价用户提供相关的评价指标体系和方法,然后根据其特定的信息需求从中选择符合其需要的评价指标和方法来评价信息资源。用户反馈法的主要步骤:构建相应的统计数据用户反馈模型设计满意度测评指标/项目体系获取满意度测评的原始数据对原始数据进行分析处理得到满意度指数对用户满意度的影响因素、影响路径进行分析,并改进统计数据质量。定性评估方法(二)专家评议法通常是由给定科学领域的若干专家组成的评判委员会来评价科学活动或其结果的一个过程。明确具体分析、预测的问题;由预测专家、专业领域的专家、推断思维能力强的演绎专家等组成专家评议分析预测小组;举行专家会议,对提出的问题进行分析、讨论和预测;分析、归纳专家会议的结果。公开性公正性可靠性效用性经济性专家评议的原则专家评议法的主要步骤:定性评估方法(三)第三方评测法第三方主要是相对于管理方、建库单位以及信息用户而言,建立符合特定信息需求的数据质量评价指标体系,一般采用特定评价方法。客观性公正性合理性科学性特定评价方法评价指标体系保证确定并采集所需求的信息数据对需求数据进行分词和标注对需求数据进行清洗和分类以形成数据池分析计算数据池之间的关系以及数据池的支撑程度根据数据模型量化计算各指标形成数据质量评价分析报告基于第三方评价数据质量的主要步骤:定量评估方法定量评估方法是指按照数量分析方法,从客观量化角度对基础科学数据资源进行的优选与评价。但目前对科学数据资源进行定量评估的实例较少,一般局限于访问次数、登陆、链接和被链接等情况的探讨。定量评估方法的缺陷:量化标准过于简单使得对信息难以进行深层次的剖析和考察;统计方法本身存在技术上的缺陷;对学术性的科学数据价值高的数据共享平台不完全适用。定量评估方法(一)访问量统计基于网络用户对数据库的登陆、访问情况,比如定期统计每个数据库的访问量、用户IP地址分布及下载量等,并依据网络流量对数据库进行评价。访问量统计主要通过以下指标来进行评估:下载量:下载数据的数量。注册量:通过下载安装的用户中存在注册行为的用户数。启动次数:在某一个统计时间段的用户打开APP的次数访问页数量:在某个统计周期内用户访问产品的页面数。定量评估方法(二)基于信息熵的评估信息熵方法从消除不确定性的角度来表达和描述信息的质量,能够客观地测度信息量。在其他条件相同的情况下,信息量直接决定着信息作为生产要素的投入量和所创造的价值量。基于信息熵的评估主要通过以下步骤进行:假设某事件可能有n种不同状态:S1,S2,…,Sn,每种状态出现的概率分别是:,则该事件的信息量即信息熵可表示为:其中,信息熵H是度量事件不确定性和无知状态的尺度,k是一个取决于度量单位的正的常数,

,,。定量评估方法(二)基于信息熵的评估信息熵越大,事件发生的不确定性就越大;反之则越小。事件不确定性的减小与信息熵成同方向变化,而不确定性的减少和消除正是信息价值和效用的体现,因此,信息熵的减少量可作为信息的效用和价值的评估标准。当某事件各种状态发生的概率相同时,时,信息熵取得最大值

,那么,在其他情况下信息熵的减少量应为:即该事件所传递的信息效用大小的表达式。定量评估方法(三)关联关系度量关联数据是一类应用了某些原则来连接的大型的、独立的Web数据集。关联数据之间展示了信息的关联与整舍,其遵循以下4个原则:1)使用统一资源标识符(URI)作为事务的名称;2)使用HTIPURI,使人们能够查找这些名称;3)在有人查找一个URI时,可以使用标准(RDF*、SPARQL)来提供有用的信息;4)包含其他URI的链接,以便他们可以发现更多的信息。定量评估方法(三)关联关系度量数据关联关系可通过具体的数学方法进行计算,如基于PRE原理的关系度量、基于独立校验的关联关系度量可由以下主要步骤进行度量:1、基于PRE原理的关系度量若将随机向量X和Y看作两个变量簇,可通过比较两个点簇间协方差结构的相似性确定两个随机向量的关联系数。

因此,RV系数提供了一个变量对样本关联系数的全局度量。定量评估方法(三)关联关系度量1、基于PRE原理的关系度量

RV系数为:RV系数越接近1,则X、Y之间的线性相关度就越高。

设随机向量的样本矩阵为,当样本为非一维数据集时,需要对样本矩阵进行中心化处理:其中,是单位矩阵,1是取值为1的向量。定量评估方法(三)关联关系度量2、基于独立校验的关联关系度量其累积概率分配函数定义为:由于边际概率分配函数是多对一函数,故定义一般化边际慨率分配函数的反函数为:基于独立校验的关联关系度量可通过概率分布函数计算关联性。若有两个随机向量X与Y边际概率分配函数分别为:综合评估方法综合评估方法主要是将定性和定量两种方法有机地结合起来,从两个角度对科学数据资源质量进行评价。层次分析法(AnalyticHierarchyProcess,AHP)模糊综合评估法(FuzzyComprehensiveEvaluation,FCE)云模型评估法(CloudModel,CM)缺陷扣分法(DefectionSubtractionScore,DSS)模糊层次分析法(FuzzyAnalyticHierarchyProcess,FAHP)常用的综合评估方法有:综合评估方法下表从使用的难易程度、使用模型、应用场景和适用范围这四个方面对5种综合评估方法进行了对比。评估类型难易程度使用模型应用场景适用范围层次分析法(AHP)较简单层次结构模型质量指标权重确定无限制模糊综合评估法(FCE)复杂隶属函数模糊性的质量问题无限制云模型评估法(CM)复杂正态云模型模糊性与随机性共存的质量问题无限制缺陷扣分法(DSS)简单无产品质量专业领域模糊层次分析法(FAHP)复杂隶属函数+层次结构模型影响因素较为复杂的质量问题无限制综合评估方法(一)层次分析法层次分析法(AnalyticHierarchyProcess,AHP)是美国运筹学家T.L.Saaty在1977年提出的一种定性与定量相结合的决策分析方法。这种方法能够将复杂的系统分解,把多目标、多准则而又难以量化处理的决策问题化为多层次单目标问题,适用于多层次、多目标规划决策问题。综合评估方法(一)层次分析法层次分析法主要步骤包括:1.建立层次结构模型。将决策目标、决策准则和决策对象,按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图。2.构造判断(成对比较)矩阵。在确定各层次各因素之间的权重时,常使用一致矩阵法,即所有因素两两相互比较,尽可能减少性质不同的诸因素相互比较的困难,以提高准确度。设

为要素i与要素j重要性比较结果。按两两比较结果构成的矩阵称作判断矩阵。判断矩阵具有如下性质:综合评估方法(一)层次分析法判断矩阵元素的标度方法如下表所示。因素i比因素j量化值因素i比因素j量化值同等重要1强烈重要7稍微重要3极端重要9较强重要5两相邻判断的中间值2、4、6、8综合评估方法(一)层次分析法3.层次单排序及其一致性检验。对应于判断矩阵最大特征根的特征向量,经归一化后记为W

。W

的元素为同一层次因素对于上一层某因素相对重要性的排序权值,该过程即为层次单排序。

定义一致性指标:

CI=0,有完全的一致性;

CI

接近于0,有满意的一致性;

CI

越大,不一致性越严重。综合评估方法(一)层次分析法

为了衡量CI的大小,引入随机一致性指标RI,平均随机一致性指标RI标准值如下:

定义一致性比率:,一般认为一致性比率CR<0.1时,A的不一致程度在容许范围之内,有满意的一致性,通过一致性检验。可用其归一化特征向量作为权向量,否则要重新构造成对比较矩阵A,对

加以调整。4.层次总排序及其一致性检验。计算某一层次所有因素对于最高层(总目标)相对重要性的权值,称为层次总排序。这一过程是从最高层次到最低层次依次进行的。矩阵阶数12345678910RI000.580.901.121.241.321.411.451.49综合评估方法(二)模糊综合评估法模糊综合评估法是一种基于模糊数学的评价方法,以隶属度理论为基础,将定性评价转化为定量评价。本小节在构建评估指标体系的基础上,对数据质量进行模糊综合评估。其主要步骤包括:1.确定评价对象的因素论域。因素论域由描述被评价对象的m种因素构成,表示为:,这里指数据质量评估指标体系的质量指标,即m个评价指标。2.确定评价对象的评语等级论域。评语集是评价者对评价对象可能做出的各种总的评价结果组成的集合,表示为:

,就是对评价对象变化区间的一个划分。其中

,代表第i个评价结果,n为总的评价结果数。具体等级可以依据评价内容用适当的语言进行描述,如评估数据质量可用好、较好、一般、较差、差这5种评语。综合评估方法(二)模糊综合评估法3.单因素评价。单独从一个因素出发进行评价,以确定评价对象对评价集合V的隶属程度。在构造等级模糊子集后,要逐个对评价对象从每个因素

进行量化,即确定从单因素来看评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:

其中,表示某个评价对象从因素

来看对

等级模糊子集的隶属度。一个评价对象在某个因素

方面的表现是通过模糊向量,单因素评价矩阵来刻画的,即影响因素与评价对象之间的"合理关系"。综合评估方法(二)模糊综合评估法在确定隶属度时,通常是由专家或与评价问题相关的专业人员依据评判等级对评价对象进行打分,统计打分结果,然后根据绝对值减数法求得,即:其中,c

可以适当选取,使得。4.确定评价因素的模糊权向量。为了反映各因素的重要程度,对各因素应分配一个相应的权数

,通常要求

,满足;。在进行模糊综合评估时,权重对最终的评价结果会产生很大的影响。常用的确定权重的方法有:层次分析法、Delphi法、加权平均法和专家估计法。综合评估方法(二)模糊综合评估法5.多因素模糊评价。利用合适的合成算子将模糊权向量A与模糊关系矩阵R合成得到各评价对象的模糊综合评估结果向量B。

R中不同的各行反映了某个评价对象从不同的单因素对各等级模糊子集的隶属程度。用模糊权向量A对不同的行进行综合,可得到该评价对象从总体上对各等级模糊子集的隶属程度,即模糊综合评估结果向量B。模糊综合评估的模型为:其中,是由A与R的第j列运算得到,表示被评价对象从整体上看对等级模糊子集的隶属度。综合评估方法(二)模糊综合评估法常用的模糊合成算子有以下四种:6.对模糊综合评估结果进行分析。模糊综合评估的结果是评价对象对各等级模糊子集的隶属度。通过将综合评估结果B转换为综合分值,然后对多个评价对象进行比较,并按其大小排序,从而挑选出最优者。综合评估方法(三)模糊层次分析法模糊层次分析法(FuzzyAnalyticHierarchyProcess,FAHP)以模糊变换理论为基础,以模糊推理为主的定性和定量相结合、精确与非精确相统一的分析评判方法,适用于较为复杂的评判系统,评判级别包含2个及以上。主要从最底层(第k层)开始,向上逐层运算,直至得到最后的评语集。第k层评判结果就是第k-1层因素的隶属度。模糊层次分析模型不仅可以反映评判因素的不同层次,而且还避免了由于因素过多而难于分配权重的问题。综合评估方法(三)模糊层次分析法为了能更加合理与全面地评估数据质量,本小节系统地对单一目标、群组目标以及整体目标所产生的评判结果进行融合,建立综合评判模型。主要步骤包括:1.由评价指标构成的集合:;2.由评价等级构成的集合:;3.选取隶属度函数:选用模糊统计法确定隶属度。

各指标取值归一化处理,采用等间隔的方式从最小值到100%等分为5个等间隔区间,以此将评语集依次划分为5个等级,分别对每个基础指标按其取值进行评定,将其隶属度归纳到“优、良、中、一般、差”的对应等级中。综合评估方法(三)模糊层次分析法4.由评价指标与评价等级构成的模糊评价矩阵:其中,,表示第i个因素对第j种评语的隶属度,由隶属度函数计算得出。5.评价指标赋权。数据集的单一目标与群组目标赋予同等权重;二级指标权重采用主观的层次分析法得出;对于基础指标,引入基于离差平方和的AHP与熵权法相结合的主客观综合赋权方法,求出基础指标的组合赋权系数。综合评估方法(三)模糊层次分析法AHP法的主观权重:

;利用熵权法确定的客观权重:

;根据线性加权法,由组合赋权系数向量计算而得的第i个决策方案的多属性综合评价值可表示为:

其中,为样本值。构造如下目标函数:由模糊矩阵与权重值得到的模糊综合评判结果即为模糊集。根据第二层评语集,并结合二级指标的权重得出一级指标的评语集、。按照最大隶属原则,即可确定数据的最终质量等级评语集。小结本节的主要内容定性评估方法定量评估方法综合评估方法5.3数据质量评估方法5.4数据质量提升方法数据质量提升方法数据质量提升方法从数据流过程的视角出发,可作用于数据质量管理的事前、事中、事后三个阶段。通过对不同时期数据的不同处理方式,实现事前预防、事中监控、事后改善。数据质量管理的事前阶段控制和业务含义关联度不大的数据质量,确保数据处理过程的数据质量的合规合理数据质量管理的事中阶段数据质量管理的事后阶段针对业务执行过程存在的不规范、不合理之处,给出指导业务改进的建议规范、标准的操作,以及清晰的流程系统,是确保产生正确数据的关键事前数据质量提升方法(一)预防措施预防措施主要是通过防止低质量数据进入组织,把已知的错误防止发生从而影响数据的质量。预防措施的具体内容主要包括:(1)建立数据输入控制。创建数据输入规则来防止无效或不准确的数据进入系统。(2)培训数据生产者。确保上游系统的员工了解数据对下游用户的影响。(3)定义和执行规则。创建一个用于应用程序中“数据防火墙”。(4)要求数据供应商提供高质量数据。检查外部数据供应商的结构、定义、数据源等流程。(5)实施数据治理和管理制度。确保参与规则、决策权和有效管理数据和信息资产的责任。(6)制定正式的变更控制。确保在实施之前对存储数据的所有变更进行定义和测试。事前数据质量提升方法(二)建立数据质量管理规范、制度和系统数据质量管理是企业数据管理的重要组成部分,根据国内外同业实践经验,数据质量管理框架体系需要科学的组织保障体系、清晰的管理流程、明确的管理制度和有效的技术支撑平台。主要内容包括:(1)制定明确的质量管控规范。制定完备的统计数据质量考核、评价标准。(2)建立科学的统计制度。进一步完善并改进各项普查制度,建立健全相关法律法规。(3)应用统计数据质量管控系统。改变统计数据事后检验的方法,实行质量全过程控制。事前数据质量提升方法(三)建立数据质量闭环管理流程数据质量管理流程包含五大步骤,这五大步骤以循环的形式存在,从而持续有效地对数据质量进行有效管理。数据质量闭环管理流程设计数据质量提升方案。(1)方案制定。确定数据质量检核范围及检核规则。(2)质量评估。(3)问题管理。定期发布数据质量报告。根据分析结果给出数据质量提升和整改建议。(4)提升优化。持续跟踪分析整改情况。(5)跟踪控制。事前数据质量提升方法(四)成立数据治理组织健全的数据治理组织是全面开展数据治理工作的基础,数据治理组织应包括管理人员、业务人员和技术人员,缺一不可。数据治理组织可以设置三种角色:数据治理组织角色人员组成负责任务数据治理委员会由校领导、IT部负责人和业务部门负责人组成负责制定数据治理的目标、制度、规范、流程、标准等,协调解决相关人员责、权、利问题,推行数据治理文化数据治理业务组由业务部门业务专家、系统管理员组成负责业务系统参数、基础数据维护,以及审核、检查、整改业务数据,在数据产生源头提

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论