版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
5.3数据质量评估方法定性评估方法采用定性评估方法进行评价时,通常先根据评价的目的和服务对象的需求,按照一定的准则与要求,确定相关评价标准或指标体系,建立评价标准及各赋值标准,再经过评价者、专家和用户打分或评定,最后统计出各数据库的评价结果。定性评估方法的缺陷:评价指标体系本身的合理性评价的滞后性评价结果的适用性问卷调查评价结果的可信性存在问题定性评估方法(一)用户反馈法主要是由评价用户提供相关的评价指标体系和方法,然后根据其特定的信息需求从中选择符合其需要的评价指标和方法来评价信息资源。用户反馈法的主要步骤:构建相应的统计数据用户反馈模型设计满意度测评指标/项目体系获取满意度测评的原始数据对原始数据进行分析处理得到满意度指数对用户满意度的影响因素、影响路径进行分析,并改进统计数据质量。定性评估方法(二)专家评议法通常是由给定科学领域的若干专家组成的评判委员会来评价科学活动或其结果的一个过程。明确具体分析、预测的问题;由预测专家、专业领域的专家、推断思维能力强的演绎专家等组成专家评议分析预测小组;举行专家会议,对提出的问题进行分析、讨论和预测;分析、归纳专家会议的结果。公开性公正性可靠性效用性经济性专家评议的原则专家评议法的主要步骤:定性评估方法(三)第三方评测法第三方主要是相对于管理方、建库单位以及信息用户而言,建立符合特定信息需求的数据质量评价指标体系,一般采用特定评价方法。客观性公正性合理性科学性特定评价方法评价指标体系保证确定并采集所需求的信息数据对需求数据进行分词和标注对需求数据进行清洗和分类以形成数据池分析计算数据池之间的关系以及数据池的支撑程度根据数据模型量化计算各指标形成数据质量评价分析报告基于第三方评价数据质量的主要步骤:定量评估方法定量评估方法是指按照数量分析方法,从客观量化角度对基础科学数据资源进行的优选与评价。但目前对科学数据资源进行定量评估的实例较少,一般局限于访问次数、登陆、链接和被链接等情况的探讨。定量评估方法的缺陷:量化标准过于简单使得对信息难以进行深层次的剖析和考察;统计方法本身存在技术上的缺陷;对学术性的科学数据价值高的数据共享平台不完全适用。定量评估方法(一)访问量统计基于网络用户对数据库的登陆、访问情况,比如定期统计每个数据库的访问量、用户IP地址分布及下载量等,并依据网络流量对数据库进行评价。访问量统计主要通过以下指标来进行评估:下载量:下载数据的数量。注册量:通过下载安装的用户中存在注册行为的用户数。启动次数:在某一个统计时间段的用户打开APP的次数访问页数量:在某个统计周期内用户访问产品的页面数。定量评估方法(二)基于信息熵的评估信息熵方法从消除不确定性的角度来表达和描述信息的质量,能够客观地测度信息量。在其他条件相同的情况下,信息量直接决定着信息作为生产要素的投入量和所创造的价值量。基于信息熵的评估主要通过以下步骤进行:假设某事件可能有n种不同状态:S1,S2,…,Sn,每种状态出现的概率分别是:,则该事件的信息量即信息熵可表示为:其中,信息熵H是度量事件不确定性和无知状态的尺度,k是一个取决于度量单位的正的常数,
,,。定量评估方法(二)基于信息熵的评估信息熵越大,事件发生的不确定性就越大;反之则越小。事件不确定性的减小与信息熵成同方向变化,而不确定性的减少和消除正是信息价值和效用的体现,因此,信息熵的减少量可作为信息的效用和价值的评估标准。当某事件各种状态发生的概率相同时,时,信息熵取得最大值
,那么,在其他情况下信息熵的减少量应为:即该事件所传递的信息效用大小的表达式。定量评估方法(三)关联关系度量关联数据是一类应用了某些原则来连接的大型的、独立的Web数据集。关联数据之间展示了信息的关联与整舍,其遵循以下4个原则:1)使用统一资源标识符(URI)作为事务的名称;2)使用HTIPURI,使人们能够查找这些名称;3)在有人查找一个URI时,可以使用标准(RDF*、SPARQL)来提供有用的信息;4)包含其他URI的链接,以便他们可以发现更多的信息。定量评估方法(三)关联关系度量数据关联关系可通过具体的数学方法进行计算,如基于PRE原理的关系度量、基于独立校验的关联关系度量可由以下主要步骤进行度量:1、基于PRE原理的关系度量若将随机向量X和Y看作两个变量簇,可通过比较两个点簇间协方差结构的相似性确定两个随机向量的关联系数。
因此,RV系数提供了一个变量对样本关联系数的全局度量。定量评估方法(三)关联关系度量1、基于PRE原理的关系度量
RV系数为:RV系数越接近1,则X、Y之间的线性相关度就越高。
设随机向量的样本矩阵为,当样本为非一维数据集时,需要对样本矩阵进行中心化处理:其中,是单位矩阵,1是取值为1的向量。定量评估方法(三)关联关系度量2、基于独立校验的关联关系度量其累积概率分配函数定义为:由于边际概率分配函数是多对一函数,故定义一般化边际慨率分配函数的反函数为:基于独立校验的关联关系度量可通过概率分布函数计算关联性。若有两个随机向量X与Y边际概率分配函数分别为:综合评估方法综合评估方法主要是将定性和定量两种方法有机地结合起来,从两个角度对科学数据资源质量进行评价。层次分析法(AnalyticHierarchyProcess,AHP)模糊综合评估法(FuzzyComprehensiveEvaluation,FCE)云模型评估法(CloudModel,CM)缺陷扣分法(DefectionSubtractionScore,DSS)模糊层次分析法(FuzzyAnalyticHierarchyProcess,FAHP)常用的综合评估方法有:综合评估方法下表从使用的难易程度、使用模型、应用场景和适用范围这四个方面对5种综合评估方法进行了对比。评估类型难易程度使用模型应用场景适用范围层次分析法(AHP)较简单层次结构模型质量指标权重确定无限制模糊综合评估法(FCE)复杂隶属函数模糊性的质量问题无限制云模型评估法(CM)复杂正态云模型模糊性与随机性共存的质量问题无限制缺陷扣分法(DSS)简单无产品质量专业领域模糊层次分析法(FAHP)复杂隶属函数+层次结构模型影响因素较为复杂的质量问题无限制综合评估方法(一)层次分析法层次分析法(AnalyticHierarchyProcess,AHP)是美国运筹学家T.L.Saaty在1977年提出的一种定性与定量相结合的决策分析方法。这种方法能够将复杂的系统分解,把多目标、多准则而又难以量化处理的决策问题化为多层次单目标问题,适用于多层次、多目标规划决策问题。综合评估方法(一)层次分析法层次分析法主要步骤包括:1.建立层次结构模型。将决策目标、决策准则和决策对象,按它们之间的相互关系分为最高层、中间层和最低层,绘出层次结构图。2.构造判断(成对比较)矩阵。在确定各层次各因素之间的权重时,常使用一致矩阵法,即所有因素两两相互比较,尽可能减少性质不同的诸因素相互比较的困难,以提高准确度。设
为要素i与要素j重要性比较结果。按两两比较结果构成的矩阵称作判断矩阵。判断矩阵具有如下性质:综合评估方法(一)层次分析法判断矩阵元素的标度方法如下表所示。因素i比因素j量化值因素i比因素j量化值同等重要1强烈重要7稍微重要3极端重要9较强重要5两相邻判断的中间值2、4、6、8综合评估方法(一)层次分析法3.层次单排序及其一致性检验。对应于判断矩阵最大特征根的特征向量,经归一化后记为W
。W
的元素为同一层次因素对于上一层某因素相对重要性的排序权值,该过程即为层次单排序。
定义一致性指标:
CI=0,有完全的一致性;
CI
接近于0,有满意的一致性;
CI
越大,不一致性越严重。综合评估方法(一)层次分析法
为了衡量CI的大小,引入随机一致性指标RI,平均随机一致性指标RI标准值如下:
定义一致性比率:,一般认为一致性比率CR<0.1时,A的不一致程度在容许范围之内,有满意的一致性,通过一致性检验。可用其归一化特征向量作为权向量,否则要重新构造成对比较矩阵A,对
加以调整。4.层次总排序及其一致性检验。计算某一层次所有因素对于最高层(总目标)相对重要性的权值,称为层次总排序。这一过程是从最高层次到最低层次依次进行的。矩阵阶数12345678910RI000.580.901.121.241.321.411.451.49综合评估方法(二)模糊综合评估法模糊综合评估法是一种基于模糊数学的评价方法,以隶属度理论为基础,将定性评价转化为定量评价。本小节在构建评估指标体系的基础上,对数据质量进行模糊综合评估。其主要步骤包括:1.确定评价对象的因素论域。因素论域由描述被评价对象的m种因素构成,表示为:,这里指数据质量评估指标体系的质量指标,即m个评价指标。2.确定评价对象的评语等级论域。评语集是评价者对评价对象可能做出的各种总的评价结果组成的集合,表示为:
,就是对评价对象变化区间的一个划分。其中
,代表第i个评价结果,n为总的评价结果数。具体等级可以依据评价内容用适当的语言进行描述,如评估数据质量可用好、较好、一般、较差、差这5种评语。综合评估方法(二)模糊综合评估法3.单因素评价。单独从一个因素出发进行评价,以确定评价对象对评价集合V的隶属程度。在构造等级模糊子集后,要逐个对评价对象从每个因素
进行量化,即确定从单因素来看评价对象对各等级模糊子集的隶属度,进而得到模糊关系矩阵:
其中,表示某个评价对象从因素
来看对
等级模糊子集的隶属度。一个评价对象在某个因素
方面的表现是通过模糊向量,单因素评价矩阵来刻画的,即影响因素与评价对象之间的"合理关系"。综合评估方法(二)模糊综合评估法在确定隶属度时,通常是由专家或与评价问题相关的专业人员依据评判等级对评价对象进行打分,统计打分结果,然后根据绝对值减数法求得,即:其中,c
可以适当选取,使得。4.确定评价因素的模糊权向量。为了反映各因素的重要程度,对各因素应分配一个相应的权数
,通常要求
,满足;。在进行模糊综合评估时,权重对最终的评价结果会产生很大的影响。常用的确定权重的方法有:层次分析法、Delphi法、加权平均法和专家估计法。综合评估方法(二)模糊综合评估法5.多因素模糊评价。利用合适的合成算子将模糊权向量A与模糊关系矩阵R合成得到各评价对象的模糊综合评估结果向量B。
R中不同的各行反映了某个评价对象从不同的单因素对各等级模糊子集的隶属程度。用模糊权向量A对不同的行进行综合,可得到该评价对象从总体上对各等级模糊子集的隶属程度,即模糊综合评估结果向量B。模糊综合评估的模型为:其中,是由A与R的第j列运算得到,表示被评价对象从整体上看对等级模糊子集的隶属度。综合评估方法(二)模糊综合评估法常用的模糊合成算子有以下四种:6.对模糊综合评估结果进行分析。模糊综合评估的结果是评价对象对各等级模糊子集的隶属度。通过将综合评估结果B转换为综合分值,然后对多个评价对象进行比较,并按其大小排序,从而挑选出最优者。综合评估方法(三)模糊层次分析法模糊层次分析法(FuzzyAnalyticHierarchyProcess,FAHP)以模糊变换理论为基础,以模糊推理为主的定性和定量相结合、精确与非精确相统一的分析评判方法,适用于较为复杂的评判系统,评判级别包含2个及以上。主要从最底层(第k层)开始,向上逐层运算,直至得到最后的评语集。第k层评判结果就是第k-1层因素的隶属度。模糊层次分析模型不仅可以反映评判因素的不同层次,而且还避免了由于因素过多而难于分配权重的问题。综合评估方法(三)模糊层次分析法为了能更加合理与全面地评估数据质量,本小节系统地对单一目标、群组目标以及整体目标所产生的评判结果进行融合,建立综合评判模型。主要步骤包括:1.由评价指标构成的集合:;2.由评价等级构成的集合:;3.选取隶属度函数:选用模糊统计法确定隶属度。
各指标取值归一化处理,采用等间隔的方式从最小值到100%等分为5个等间隔区间,以此将评语集依次划分为5个等级
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 济南市2025年山东济南市审计局所属单位引进急需紧缺专业人才(1人)笔试历年参考题库典型考点附带答案详解
- 洞头区2025浙江温州市洞头区机关事业单位第一期公开招聘编外用工(第二号)笔试历年参考题库典型考点附带答案详解
- 泰州市2025年江苏泰兴市人武部公开招聘编外工作人员5名笔试历年参考题库典型考点附带答案详解
- 2026年教师申请调整任教年级申请书
- 2026年修理厂电气系统维修培训
- 2026年文化装备制造业绿色转型升级
- 2026年企业舆情危机中的信息发布与媒体沟通
- 2026年团队协作中个人激励与团队动力的激发
- 2026年运输企业驾驶员交通安全责任书签订规范
- 2026年自动化专业科普基地建设与服务
- 抗滑桩本科毕业设计计算书K法
- 科学实验科创课件STEM教育编程065机械鱼
- 爱情片《百万英镑》台词-中英文对照
- 商品七大异常状态及处理
- 金属矿床开采新技术技术
- FBCDZ系列通风机为对旋式防爆主要通风机
- GB/T 37669-2019自动导引车(AGV)在危险生产环境应用的安全规范
- 第四章 AP1000反应堆结构设计(杜圣华)
- 几起重大工程质量安全事故原因
- 设备供货安装方案(通用版)
- 中考物理题型二《开放、推理类题》
评论
0/150
提交评论