(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf_第1页
(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf_第2页
(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf_第3页
(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf_第4页
(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(管理科学与工程专业论文)erp数据质量评估与改进方法应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 e r p 系统是以数据为基础的,这些数据的好坏直接影响着e r p 系统实施的 成败。理论研究者和氽业已经开始对e r p 数据质量进行理论和应用研究,但e r p 数据质量领域仍有许多问题有待研究解决。本文从系统整体的角度来研究e r p 系统所面临的数据质量问题,建立了评估和改进e r p 数据质量的方法体系,通 过对e r p 数据质量进行度量,可以有效地发现和改进e r p 数据质量问题。 首先介绍了数据质量的理论,包括数据质量的定义、评价方法以及对现有几 种典型的数据质量评估方法进行比较,重点介绍了m i t 的全面数据质量管理理 论。然后介绍了e r p 的数据质量问题及其重要性。在此基础上对e r p 数据质量 进行了定义和分析,并对e r p 基础数据按照其功能进行了分类介绍。 针对e r p 实施的特点,将e r p 相关数据分为系统上线前数据和系统上线后 数据。对于系统上线前数据,从功能模块数据收集的源头出发,应用数学建模的 方法建立了符合e r p 自身特点的数据质量评估模型,为组织提供了当前的数据 质量水平现状,以便对其进行改进。对于上线后数据,根据e r p 系统自身的模 块化结构特点,采用基于层次分析法的模糊评估模型对其进行分析,综合考虑系 统不确定因素的影响,为质量改进提供了参考。 针对上线前的数据质量评估模型和结果,提出了数据质量改进框架,并利用 数据清理等技术对各个质量元素进行改进。对于上线后的数据质量改进,庞用 i p m a p 方法对数据制造流程进行分析,寻找原因,建立改进方案,以提高其数 据质量水平。 最后,本文通过实例研究对此e r p 数据质量评估改进方法进行了验证。 关键词:企业资源规划数据质量数据质量评估信息产品图 a b s t r a c t d a t ai st h ec o r ee l e m e n to fe n t e r p r i s er e s o u r c ep l a n n i n g ( e r a ) ,t h e r e f o r ed a t a q u a l i t yb e c o m e so n eo ft h ec r u c i a lf a c t o r st h a tl e a dt h ei m p l e m e n t a t i o no fe r ps y s t e m t os u c c e s so rf a i l u r e t o d a y , r e s e a r c h e r sa n dp r a c t i t i o n e r sa l i k eh a v er e a l i z e dt h e i m p o r t a n c eo fd a t aq u a l i t ya n dm o v e db e y o n de s t a b l i s h i n g d a t aq u a l i t ya sa n i m p o r t a n c ef i e l d b a s eo nc u m u l a t e d r e s e a r c he f f o r t s ,t h ek e yp o i n to ft h i st h e s i si st o s t u d yt h ed a t aq u a l i t yp r o b l e m si ne r ps y s t e m ,a n de s t a b l i s ht h ea s s e s s m e n ta n d i m p r o v e m e n tm e t h o d o l o g yo fd a t aq u a l i t yi ne r ps y s t e m s t h i st h e s i si n t r o d u c e st h et h e o r yo fd a t aq u a l i t yf i r s t ,i n c l u d i n gd a t aq u a l i t y d e f i n i t i o na n ds e v e r a la s s e s s m e n ts y s t e m sw h i c ha r ec o m p a r e dw i t he a c ho t h e r t h e t h e o r ya b o u tt o t a ld a t aq u a l i t ym a n a g e m e n t ( t d q m ) ,r e s e a r c h e db ym i t , i s e s p e c i a l l yd e t a i l e dt op r e s e n t t h e nas t r o n ge m p h a s i si sl a i do nt h ed a t ap r o b l e m si n e r ps y s t e ma n dt h ei m p o r t a n c eo fd a t aq u a l i t y t h ee r pd a t ai sc l a s s i f i e di n t ot w oc a t e g o r i e sb yt h ef u n c t i o n a lm o d u l e sa n d b u s i n e s sp r o c e s s ,t h ed a t ab e f o r ea n da f t e rt h ei m p l e m e n t a t i o no fe r ps y s t e m t h i s p a p e rd i s c u s s e st h ed a t aq u a l i t yd i m e n s i o no fe r pd a t aa n dt h ei n d e xs y s t e mo f a s s e s s m e n ts e p a r a t e l y a st ot h ed a t ab e f o r ee r p i m p l e m e n t a t i o n ,am a t h e m a t i c a l m o d e li sr e c o m m e n d e dt oe v a l u a t et h ed a t aq u a l i t yf r o mt h ep o i n to fd a t ac o l l e c t i o n , w h i c hp r o v i d e sac l e a rd a t aq u a l i t yd i f f e r e n c e sa n a l y s i sa n dl a y sas o l i df o u n d a t i o no n t h ee r p i m p l e m e n t a t i o n i ta l s oa p p l i e sa n a l y t i c a lh i e r a r c h yp r o c e s st od e t e r m i n i n g t h ew e i g h to fi n d e x e so fa s s e s s m e n t ,a n dt h ef u z z yc o m p r e h e n s i v ej u d g m e n ti su s e dt o s e tu pat w o l a y e ra s s e s s m e n tm o d e lf o rt h ed a t aq u a l i t ya f t e rc a r r y i n go u te r p t h i st h e s i sa l s op u t sf o r w a r dt h ei m p r o v e m e n tm e t h o dt oe n h a n c et h ep o o rd a t a q u a l i t yb a s e do n t h er e s u l t so fd a t aq u a l i t ya s s e s s m e n tb e f o r ea n da f t e re r p i m p l e m e n t a t i o n d a t ac l e a n i n gt e c h n i q u e sa r eu s e dt oi m p r o v et h ed a t aq u a l i t yb e f o r e c a r r y i n go u te r p , a n d i ts e t su pad a t aq u a l i t ye n h a n c e m e n tf r a m e w o r k t h e ni tm a k e s u s eo fi p m a pt oa n a l y z et h ed a t ap r o d u c t i o np r o c e s s ,f m dt h er o o tc a u s e sa n d i m p r o v ed a t aq u a l i t ya f t e re r pi m p l e m e n t a t i o nc o n t i n u o u s l y a tl a s t ,t h et h e s i sa p p l i e st h ea s s e s s m e n ta n di m p r o v e m e n tm e t h o dt oe v a l u a t e a n de n h a n c et h ed a t aq u a l i t yo fo n eo r g a n i z a t i o nw h i c hh a si m p l e m e n t e de r p k e y w o r d s :e r p , d a t aq u a l i t y , d a t aq u a l i t ya s s e s s m e n t ,i p m a p 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致i 身 之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得苤鲞盘堂或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:苏持签字日期:四年多月节日 学位论文版权使用授权书 本学位论文作者完全了解苤叠盘堂有关保留、使用学位论文的规定。 特授权苤叠盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:歌持 签字日期:上四年6 月今同 导师虢幺小私 签字同期:2 盯卤7 年月 第一章绪论 1 1 研究背景和意义 第一章绪论 随着经济全球化和企业经营信息化的不断深化,全球各个行业、各个区域经 济体都在争相增强自己的信息获取能力和信息加工、利用的能力。e r p ( e n t e r p r i s e r e s o u r c ep l a n n i n g ) 即企业资源计划系统,是建立在信息技术基础上,以系统化 的管理思想,为企业决策层及员工提供决策运行手段的管理平台,是企业物流、 资金流、信息流和知识流相结合的全面的氽业管理工具。e r p 系统集信息技术与 先进的管理思想于一身,成为现代企业的运行模式,反映时代对企业合理调配资 源,最大化地创造社会财富的要求,成为企业在信息时代生存、发展的基石。 近些年来食业实施e r p 项目的风潮愈刮愈烈,但是成功的案例却凤毛麟角。 据相关资料统计表明,e r p 的实施成功率只有1 0 2 0 ;o r a c l e 公司胡伯林先牛 曾说过:“在发达国家实施e r p 的成功率也只有2 0 ,在中国的成功率更低【1 】”, 这也证明了e r p 系统的实施存在着相当大的难度和风险。 因此,如何才能保证e r p 系统实施的成功率便成为食业非常关注的问题。通 过研究发现,实施失败的原因有很多,包括:高层领导的不重视;企业核心业务 流程不合理,系统实施时并未对其进行充分合理优化,而仅仅套用了e r p 供应商 已有的功能模块;部分企业领导层对e r p 理解不深或错误,只是将企业资源规划 系统看成一种软件的引入,低估了实施系统的难度,导致实施过程中配合力度不 够,后续投资跟不上等等项目管理的原因。 除上述原因之外,企业在实施e r p 系统的过程中,还存在一个巨大的核心问 题:数据质量问题,这也是导致企业实施e r p 失败的重要原因。众所周知,企业 资源规划之所以能帮助企业进行高效管理,必须是建立在能够进行全面、准确、 实时的企业数据的访问、存储和分析基础之上的。一方面,企业实施e r p 系统时 缺乏优化的系统流程,并且不注重系统的培训工作,导致系统难以获得健康的动 态数据,不能够稳定运行。另一方面,现在的一些e r p 供应商为了减少成本,便 淡化了对企业基础数据结构的优化的重视度,基本忽略了对企业现有业务数据的 整顿,只是从企业现有的零散和混乱的数据源中调用数据,来迎合其本身的输入 模块,使得系统上线后缺乏稳定的数据根基。 e r p 实施是“三分软件,七分组织,十二分数据”,这已经成为e r p 行业实 第一章绪论 践认可的一个公谢2 1 。e r p 系统处理的就是数据,其主要作用就是对企业信息的 整合,而信息的载体和表达要通过数据来完成。从很大程度上说,e r p 数据质量 的好坏将直接影响着e r p 项日实施的成败与否。 因此,本文从数据质量的角度出发,提出了一种基于系统功能模块和业务流 程的e r p 数据质量评估方法,评价了企业实施e r p 系统前后的数据质量水平。之 后,在对信息过程典型活动进行划分的基础上,本文结合信息产品图( i n f o r m a t i o n p r o d u c tm a p ,i p m a p ) 方法对e r p 各模块的信息过程进行建模,提出个数字化 制造企业的信息质量保障方法,将无形的信息生产过程可视化,以实现信息质量 的持续改进,为企业信息质量保障提供了一套完整的管理方法与措施。通过此方 法的应用,企业可以从根本上保证e r p 项目的成功实施,从而帮助企业领导、管 理、工程及技术人员及时、准确、全面地掌握企业信息,据此作出正确决策,充 分利用e r p 的系统优势,发挥其信息效用。 1 2 国内外研究现状 随着理论研究者和实践者对于数据质量的重视度不断提升,国内外许多学者 开始对数据质量的理论方法进行研究。 r y w a n g ,m p r e d d y ,h b k o n g 【3 】在1 9 9 5 年首先提出了面向对象 ( a t t r i b u t e b a s e d ) 的数据质量评估方法。 r y w a n g ,d s t r o n g l 4 】在1 9 9 6 年采取二阶段调查方法确立出4 类共1 5 个数据 质量维度,包括固有质量、可访问性质量、关联性质量和表达性质量四大类,正 确性、完整性、一致性、安全性等1 5 个数据质量维度,为后来的研究奠下深厚的 理论基础。 r y w a n g 5 】1 9 9 8 年提出了要像管理产品一样管理数据,并在数据产品制造环 境中指定四种角色:数据提供者,数据生产者,数据消费者,数据管理者。 s h a n k a rg ,r y w a n g ,m z i a d 6 1 2 0 0 0 年给出一种称为i p m a p ( i n f o r m a t i o n p r o d u c tm a p ) l 拘数据制造系统建模方法。该方法不仅帮助识别过程拥有者,还能帮 助实现质量的源头控制,在数据制造过程的不同阶段用适当的质量维度进行产品 质量测量。 d s t r o n g ,r y w a n g ,y w l e e 【7 j 2 0 0 2 年提出的信息管理质量评价( a s s e s s m e n ti n f o r m a t i o nm a n a g e m e n tq u a l i t y ,a t m q ) ,提供了一个信息质量评价和差异 分析方法,并最终形成它的t d q m 方法框架。 l e o l p i p i n o ,y w l e e ,r y w a n g t 8 毛e 2 0 0 2 年给出3 种数据质量客观评价 的算法( 简单比率,最大最小运算,加权平均) ,并描述了将客观评价和主观评 第一章绪论 价结合,在实际应用中改进数据质量的步骤。 w a n g ,a l l e n 和h a r r i s 【9 】于2 0 0 3 年又提出全面信息质量改进方法( t o t a li n f o r m a t i o na w a r e n e s sw i t hq u a l i t y ,t i a q ) ,该方法把管理信息当成产品来进行质量 评价,提供了模型和改进工具。 m o n i c ab o b r o w s k 。m a r t i n am a r r e 等 1 0 】在1 9 9 9 年提出一种在组织内部测量数 据质量的方法。 e l i z a b e t hmp i e r c e l l l 】在2 0 0 4 年提出d q 评估控制矩阵的概念,即用一个控制 矩阵来显示数据集的质量高低,并且可以通过它来反映优化处理后数据集质量方 面发生的变化。 c a p p i e l l oc ,cf r a n c a l a n c i ,bp e r n i c i l l 2 于2 0 0 4 年给出一个较完整的数据质量 评估体系。评估过程按照由选择模块、质量评估模块和简表( p r o f i l e ) 模块构成的 数据质量评估架构进行,将评估过程得到的数据质量值和用户类要求进行比较来 判断质量是否符合要求。 张伯鹏【13 j 在2 0 0 3 年提出制造信息学的概念,对制造信息的有效表述、合理配 置和运作的规律性进行了分析研究,认为制造信息质量就是能满足明确和隐含需 要的能力的特性总和。 苏颖【1 4 提出了一种基于活动的方法用来支持管理信息质量的评价,该方法包 括一个基于活动特征和时序的指标体系、一组能够实现从企业绩效目标到活动性 能指标映射的量化模型。苏颖 15 j 还提出产品设计生产过程的i q 研究对象,提出 一套基于产品的信息质量评价指标体系。 杨青云等【1 6 在数据质量的研究基础上,提出了一个数据质量评估模型。此模 型通过量化的指标对应用系统的整个或部分数据质量状况进行评估。 郝金星融合信息管理和质量管理两门重要学科的优势,提出了基于i s o 9 0 0 0 :2 0 0 0 质量管理体系的企业信息质量管理方法。 随着经济全球化和企业经营信息化的不断深化,理论界也在大量结合各行各 业、各地区实际情况,不断地完善和发展e r p 管理理念、框架和内涵。e r p 作为 大量数据的应用载体,如何保证其数据质量已经成为广大研究学者和企业所关注 的重点问题。 h o n g j i a n gx u ,j e r e t t ah o r nn o r d 等t l s l 2 0 0 2 年研究了实施e r p 时数据质量 ( d q ) 的重要性,以及影响d q 的几个关键因素,如高层领导的支持、员工培训、 d q 控制等。 韩江舟等人i 】9 j 建立了工程数据库和科学合理的编码体系,规划整理企业基础 数据,构建科学有效的基础数据管理系统、管理组织和管理制度,以促进e r p 在 企业中的成功实施。 第一章绪论 喻金龙【2 0 】在阐述e r p 数据管理原理的基础上,构建了e r p 数据管理的方法 库,从一个系统的高度,和数据处理的角度来分析了e r p 实现的核心流程。 陈远等人【2 i j 对信息系统中的数据质量进行了研究,对造成数据质量问题的原 因进行分析,并提出了相应的解决方法。 柳霞等人 2 2 】对p d m 系统的数据进行了研究,提出了数据采集质量的规划方 法以及数据质量保证的方案。 纵观国内外有关e r p 数据质量的研究,有三方面问题仍待解决:一、对e r p 数据质量缺乏系统型研究。二、缺乏专门针对e r p 系统的数据质量评价方法体 系。三、对如何提高e r p 整体数据质量缺乏具体性指导方法。因此,本文为解 决以上问题,对e r p 数据质量了进行详细分析,建立了e r p 数据质量模型和评 价体系,并结合i p m a p 提出了具体解决e r p 系统数据质量问题的方法。最终 建立了从质量评价、质量改进到质量保证一系列完整的e r p 数据质量管理体系。 1 3 论文研究框架 本文主要同绕e r p 的数据质量评价体系以及改进方法进行研究,主要内容 如下: 第一章绪论,介绍了论文的研究背景、国内外研究现状、主要内容及理论与 实际意义。 第二章对数据质量管理研究范围做了全面的阐述,介绍了数据质量的定义、 评估框架、评估方法以及比较有影响的全面数据质量管理( t d q m ) 理论,并强 调了具体的数据质量问题对e r p 实施的影响及其重要性。 第三章建立了e r p 数据质量评价方法。通过e r p 系统的功能模块及其数据 进行详细分析,确定影响上线前后的e r p 数据质量的因素,从而确定了e r p 系 统上线前后的主要数据质量元素,建立了e r p 数据质量元素模型,提出了一种 评价e r p 系统前后的数据质量的方法体系。 第四章e r p 数据质量改进体系。本体系首先提出了上线前数据质量的改进框 架,并利用数据清理等方法从各具体的数据质量元素出发提出上线前的改进方 法。接着从e r p 系统的各个模块的基础数据出发,利用信息产品制造过程的思想, 结合i p m a p 提出了上线后e r p 系统中的数据质量改进方法,并建立相应的保证 体系,以便持续地改进上线后的e r p 数据质量水平。 第五章实证分析。 第一章数据质帚框架 2 1 数据质量定义 第二章数据质量框架 提到数据质量,人们首先想到的都是控制错误数据的输入,主要指数据的准 确性,数据质量常常被认为是数据本身的问题,独立于数据产生和使用的环节。 数据质量是一个多维度的概念,包括数据本身也是多维度的。大部分数据质量研 究将准确性作为一个关键的维度,但准确性却没有一个普遍接受的定义。 随着数据资源的积累和“泛应用,数据质量的现代定义有了一个更宽的范 围,赋予了它更多的属性,而不仅仅只有准确性。s t r o n g 等【4 通过对数据消费者 ( 利用组织内的数据来做商业决策方面有着丰富经验的人或团队) 的研究得出: 数据质量就是“数据是适合使用的”。这种观点广泛地被文献所采纳。o r r 2 3 将 数据质量定义为“一个信息系统表达的数据视图与客观世界同一数据的距离”i t a y i 和b a l l o u t 2 4 】1 9 9 8 年指出对于一个人而言是足够使用的数据对于另外一个人可 能并不足够。 s t r o n ge t a l e 2 5 5 1 9 9 7 年指出质量是不能脱离选择和使用产品的消费者来独立 评估的。数据也不能脱离使用数据的人数据消费者而独立评估。他们继续分 析了由消费者所定义的数据质量的属性和维度对于消费者而言意味着什么,从消 费者的视角形成了一个全面的、分等级的数据质量的框架。k a r o l y nk e 一2 6 5 2 0 0 3 年也指出一个组织内的数据质量战略必须将最终使用者的需求考虑进去,并允许 这些使用者来定义数据质量所需要的水平以使数据有用。强调要明确数据的用途 及被谁使用。p i p i n o 等【8 】给出了数据质量的1 6 个维度定义。在这些文献中对数据 质量和信息质量并不加以区分,因为数据使用者不会找出数据和信息的差异,因 此本文也不加以区分。 2 2 数据质量评估 2 2 1 数据质量评估框架和方法研究 最基本的一个数据质量评估框架是组织用来评估数据质量的工具,数据质量 评估框架是一个指导方针。 w i l l s h i r e 并i l m e y e n 2 7 j ( 1 9 9 7 ) 描述数据质量框架是“一种手段,是一个组织可 第二章数据质量框架 以用来定义它的数据环境的模型,明确有关数据质量的属性,在当前的环境下分 析数据质量的属性,提供保证数据质量提高的手段”。e p p l e r 和w i t t i n g 【2 8 】( 2 0 0 0 ) 提出数据质量框架应该不仅仅只是评估,还要提供一个分析、解决数据质量问题 的方案。 为了评估组织的数据质量,w a n g 和s t r o n g 等人【4 j 在此基础上定义了一个数据 质量框架包含了2 0 个质量维度,这些维度后来减少到1 5 个,而且还被分成了四大 类,如表2 1 所示。这个框架已经被广大的企业和政府机构所使用。 表2 1 数据质最框架 类别描述包含的属性 固有的质景固有的质量准确性、可信性、客观性、可靠性 关联方面的质景与具体任务、环境有关的可增值性、关联性、适时性、完整性、合 质景适的数据量 表达方面的质量计算机系统存储与表达信可解释性、易读性、一致性、简明性 息的质景 可访问性方面的质强调可安全访问计算机系可访问性与访问的安全性 量统和数据库 固有信息质量( i n f o r m a t i o nq u a l i t y , i q ) 是指信息本身的性质决定的质量, 也就是从信息内容角度看信息质量要素;关联性i q 是指信息对不断变化的用户 需求的适应程度,也是从信息效用看信息质量要素;可访问性i q 是指用户是否 能够比较容易地、安全地访问所需的信息;表示性i o 是指信息的展现表达能力, 这两者是从信息形式上看信息质量要素。 1 固有性( i n t r i n s i c ) i q 准确陛( a c c u r a c y ) 是指信息正确( 符合标准) 、没有错误( f r e e o f - e r r o r ) 的程度。 比如不同的行业有不同的行业规范和标准等,如果符合则认为信息是正确的。准 确性要素说明信息具有很大的主观性,但这种主观性的引入必须与事实、公认的 道理和标准相一致、相符合。 客观性( o b j e c t i v i t y ) 是指信息公正程度。客观性按事物的本来面日去考察,与 一切个人感情、偏见或意见都无关。信息反映的事实总是某个客观事物( 或系统) 的某一方面的属性,如果反映的不真实,那么依据其所做出的决策、控制方法和 管理措施就不能达到预期的目的。因而,客观性就成为信息质量要素中最重要的 要素之一。 可信性( b e l i e v a b i l i t y ) 是指信息被认为准确和可信的程度。当我们无法判断己 第二章数据质最框架 知信息的正确和客观的时候,通过其他因素,比如常识、经历、承诺等来判断信 息的可信程度。 可靠。| 生( r e p u t a t i o n ) 是指信息来源的可靠程度( c r e d i t a b i l i t yo 往往具有较高的 信誉和知名度的机构所发出的信息具有较高的可靠性。 2 关联性( c o n t e x t u a l ) i q 相关- | 生( r e l e v a n c y ) 是指信息可应用的程度或者对特定任务的帮助程度。对用 户没有任何帮助的信息是没有使用价值的。当代社会信息充斥,大量信息造成了 现在的信息过载以及信息贫穷的现象,相关性正是针对这个问题而提出的。 增值性( v a l u e a d d ) 是指信息有用的程度或者给用户带来价值多少的程度。我 们根据这个意义也可以将其译为有用性( u s e f u l n e s s ) 。信息的增值性体现了设计的 信息内容与用户期望的信息内容之问的差距。 及时。i 生( t i m e l i n e s s ) 是指信息对于特定任务的及时程度。信息区别与普通物质 的典型特征之一就是它的时效性,信息在不同的时问具有不同的价值。及时地向 用户传递信息,才能满足用户的需要。 完整。l 生( c o m p l e t e n e s s ) 是指信息对于特定任务没有遗漏,并且无论在深度还是 广度上都应该是全面的。 适量性( a m o u n to f d a t a ) 是指信息的数量对于特定任务是适宜的。完整性强调 信息不能少,适量性则强调信息不能多。信息过量不仅会造成资源的浪费,而且 会降低用户使用信息的效果。 3 表示性( r e p r e s e n t a t i o n a l ) i q 可解释性( i n t e r p r e t a b i l i t y ) 是指表示信息的语言、符号、定义等明确的程度。 其意义相当于明确- | 生( c l a r i t yo 语言表达明了清楚,使用户不用过多思考就可以 明白;符号表达界定清晰、无二义性:定义严密精确、言简意赅。 易懂。t 生( u n d e r s t a n d a b i l i t y ) 是指信息容易被理解的程度。信息是通过信息符号 来表达的,这些符号不仅要能够解释。而且要让用户容易理解。对信息进行表达 时,考虑不同用户的理解能力,使用合适的信息符号加以表达,附以不同程度的 说明,增强易懂性。 简洁性( c o n c i s er e p r e s e n t a t i o n ) 是指信息表达精炼的程度。冗余重复的表达不 仅不能增加信息的价值,而且会浪费用户的时问和精力,从而减少信息的实际使 用价值。 一致性( c o n s i s t e n tr e p r e s e n t a t i o n ) ;是指信息表达形式统一的程度。相同的信息 使用不同的表达符号,或者不同的信息使用同一个表达符号,都会造成用户理解 困难,效用降低。 4 可访问性( a c c e s s i b i l i t y ) i q 第章数据质最框架 可访问。 生( a c c e s s i b i l i t y ) 是指信息可用的程度或者检索效率高低的程度信息 系统中存在大最的信息,但是不能被用户访问,服务于用户,那么这个信息系统 是失败的。 安全性( s e c u r i t y ) 是指信息访问受限制的程度和信息的安全程度。信息访问不 是随意的,而是受限制的。一方面是系统正常运行的保证,另一方面也是经济利 益的保证。随着网络化程度的提高,信息安全问题日益受到人们的重视。 e p p l e r & w i t t i n g ( 2 0 0 0 ) 的结论中说到:评估w a n ge t a 1 ( 1 9 9 6 ) 的框架时,发 现了它是一个全面的、综合的框架,该框架是一个普遍适用的、稳定的框架。是 唯一个提供了测量方法和工具的框架,该框架为文献研究和实际应用提供了一 个坚实的基础,在理论和实际应用之间达到了平衡。 2 2 2 数据质量评价方法比较 对数据质量的评价研究已引来越来越多的关注,只有明确了数据质量的水 平,人们才能更好地进行数据管理和更高效地利用数据做决策。从国外的参考文 献中,总结出以下3 个比较典型的评价方法。 1 d q a f 2 9 】 i m f 的数据质量评估框架旨在提供一个通用的数据质量评估框架和一个共 同的方式。c a r s o n ( 2 0 0 0 ) 给出了这个通用的数据质量评估框架。这个框架采用的 是级联式结构,从综合评估框架中所描述的全部数据集共有的质量维度,延伸到 专项评估框架中适用于特定数据集的更为详细的内容,即对数据质量评估标准从 一般到具体、再到更为详尽的一种描述过程。 ( 1 ) 数据质量评估框架( d q h f ) 的主要内容 d q a f 的内容着重于与数据质量相关的统计体系管理、核心统计程序和统计 产品的特征。整个评估框架分为六个部分,从讨论保障数据质量的法律和制度环 境( 先决条件) 开始,然后依次分析数据质量的五个维度,主要内容为:1 ) 质量的 先决条件。尽管它本身不是衡量数据质量的一个维度,但这组要素和指标却担当 着保证统计数据质量的先决条件或制度前提一样的角色。2 ) 诚信的保证。这个维 度描述了“统计体系应建立在与统计数据收集、编辑和公布环节中的客观性原则 相一致的基础上”的一种观念。3 ) 方法的健全性。这个部分贯穿了“统计产品的 方法论基础应当是健全的,并且这种健全性能够通过遵循国际认可的标准、指导 方针或良好实践来获得”的思想。4 ) 准确性和可靠性。在这个维度中,体现了“统 计数据能够充分地描述经济现实”的思想。5 ) 适用性。这个维度提出了关于统计 数据应能够涵盖目标领域相关信息、能够在合理的期限内及时公布、数据内部以 及与其他主要数据集之问应当一致并附有定期修订政策等要求。6 ) 可获取性。该 第二章数据质量框架 维度是关于确保数据和元数据在易于使用和无偏的基础上以一种清楚和可以理 解的方式提供、元数据是实时更新和相关的以及可以获取便捷和专业性的服务支 持等需求的。 ( 2 ) 数据质量评估框架( d q a f ) 的特点 作为i m f 所制定的一个数据质量评估规范,d q a f 本身是具有一些鲜明特征 的:一是在结构方面,该评估框架将数据质量的评估标准按照“从共性到特性” 的递进顺序组织起来,增加了应用中的灵活性和可操作性:二是在内容方面,该 评估框架不仅涵盖了反映数据质量的主要维度指标,而且考虑了与数据质量相关 的统计体系的法制环境,拓展了对数据质量评估与管理的视野;三是在六个专项 评估框架之间,既保持了基本结构和内容的一致,又充分体现了各个特定数据集 的技术特色,强化了数据质量评估规范的统一性和专业性。这些特征自然就决定 了d q a f 的广泛适用性:比如说i m f , 带i j 定d q a f 的初衷是为了加强对其成员国数 据质量的监管,但是目前它也将这个框架用于对一些国家统计制度的了解,进而 作为设计和提供统计技术援助的基础。此外,一些私人或公共的数据使用者也可 以按照各自特殊的目的,借助该评估框架的相关标准对其所关注的数据进行质量 评估。 2 a i m q 7 】 该方法是由麻省理工( m i t ) 的t d q m 项目组所提出来的,之所以叫做a i m q 是a s s e s s m e n ta n di m p r o v e m e n tm e t h o d o l o g yo f q u a l i t y 的缩写,该组织认为信息质 量对于组织是相当关键的。经过调查信息质量是测量信息系统成功的丰要因素之 一,虽然经过十多年的研究和实践,信息质量评估和改善方法没有多大的提高, 他们就开发一个具有严格程序和富有实际效用的方法。首先该方法通过调查,调 查对象为信息质量的研究者以及信息质量的实践者如信息系统工作者等,调查内 容是对于信息质量的维度。该方法把调查得到的结果进行统计,得出一个2 2 的 矩阵信息质量的产品和服务绩效矩阵( p r o d u c ta n ds e r v i c ep e r f o r m a n c ef o ri n f o r m a r i o nq u a l i t y p s p i q 2 9 】) ,该矩阵把统计得到的信息质量维度重新分成了四类。 分别为s o u n di q ,d e p e n d a b l ei q ,u s e f u li q ,u s a b l ei q ,该种分类关注于信息质 量的产品和服务属性,是为作出信息质量改进决策提供方便。在基于矩阵p s p i q 上,该方法进一步开发了信息质量评估工具( i q a ) ,此工具就是利用问卷调查的 方法,先对各个信息质量指标做相关性分析来消除那些强相关性的指标为评价改 进提高准确性。然后把分析后的指标值填入到p s p i q 矩阵中,对每个象限中的值 进行统计。针对不同的信息消费者有着不同的权重,对每个象限赋值统计就可以 得出该信息消费者所得到信息质量水平,但该方法没有简单统计,他们认为信息 质量的评估是为了改善信息质量,于是他们进一步开发了信息质量差距分析工具 第二学数据质罱框架 ( i q g a p a n a l y s i s t e c h n i q u e s ) t 其中包括标准差距分析( b e n c h m a r k g a p s a n a l y s i s ) 和角色差距分析( r o l eg a p sa n a l y s i s ) - 第一种方法是把某些信息质量水平与标准 的信息质量水平比较找出差距。第二种方法是对不同信息消费者所得到的信息质 量水平的比较找山其中不足之处。 数 据 质 吊 等 级 枷硼差芹分析 荔 一么纺 纱 01 02 03 0柏卯6 0舯9 01 0 0 百甜t 0 擞 圈2 1 标准差异分析 角色差# 分析 t 1 l 。 l 圯 船辫蜘 组织 圈2 - 2 角色差异分析 一数据消赞者 一信自系# 专家 ”,o”,o, 数据质罱等级 第_ 章数据质鼍框架 图2 1 是一个标准差异分析的示例,x 轴代表问卷调查中回答者按数据质量等 级评分排序的百分位数,y 轴代表数据质量等级,是通过第二步的i q a i 具得出 来的。组织l 就是那个标准( b e n c h m a r k ) ,也就是实践最好的组织,通过这幅图可 以看出其它4 个组织与标准组织l 的差距,为数据质量改进提供了方向。 图2 2 是一个角色差异分析的示例,x 轴代表5 个组织,y 轴代表数据质量水 平,是通过第二步的i q a t 具得出来的。菱形代表数据消费者对数据质量的评价, 正方形代表信息系统专家的评价,菱形和正方形之间的线段长短就代表了角色差 异。从图中可以看出组织1 是数据质量水平最好的,并且数据消费者和系统专家 对数据质量评价的差异也小。 该方法主要就是由上述三部分组成的,系统地把信息质量的评估和改进结合 起来,具有比较好的操作性。但该方法是针对信息消费者的,其后面分析的基础 是基于问卷调查,而且不同的信息用户对信息质量的要求是不同的,因此在可比 性上存在缺陷。 3 d q a t 8 】 d q a 是d a t aq u a l i t ya s s e s s m e n t 的简称,该方法是主观评价和客观评价相结 合,认为主观数据质量评价反映的是信息用户的需求,而客观数据评价是基于数 据集本身。不同的组织用户对数据质量有不同的定义。方法同时也指出客观评价 有依赖或独立任务之分,任务依赖评价指数据的状态与应用的知识相关,反之就 是不相关。在此基础上文章提出了1 6 种数据质量纬度。文章认为通过调查形成对 数据质量维度的打分,打分需要一些函数把丰观和客观评价相结合,提出了三种 函数方法,第一种是简单比率法( s i m p l er a t i o ) ,指期望输出占总输出的比例。像 f l e e o f - e n - o r c o m p l e t e n e s s 和c o n s i s t e n c y 适合用这种表达方式。第二是最大或最小 值法( m i no rm a xo p e r a t i o n ) ,用于处理有多种数据质量变量的整合,像b e l i e v a b i l i t y 和a p p r o p r i a t ea m o u n to f d a t a 。第三是加权平均法( w e i g h t e da v e r a g e ) 。对于复 杂的多元维度的评估,可采用对维度中各类指标进行加权平均的方法,与最大最 小值法相比,加权平均充分考虑到各类指标的影响。此方法便于组织对质量纬度 的重要性有清晰的认识。具体的评估过程如图2 3 。 具体有三个步骤:( 1 ) 进行主客观的数据质量评估:( 2 ) 比较评估结果,识别差 异,用根源分析来找出差异原因;( 3 ) 决定采取必要的改进措施。 4 上述评价方法的局限性 上述评价方法强调概念性框架和主观测量方法,例如,m i t 的t d q m 项目开 发a i m q 方法以及d q a 方法,他们从信息用户中进行调查来获取信息质量维度的 评价是值得借鉴的。因为信息质量的不确定特点决定了必须通过信息用户的评价 才能得出满意的结果。但单纯的通过对信息质量维度的调查来得出整体信息质量 第二章数据质量框架 状况是不够准确的,因为对于不同组织信息质量维度的权重是不同的,而且无法 通过简单的调查来获得,同时整体信息质量状况是否是简单的信息质量维度总 和,这也需要进一步研究。 图2 3 数据质量评估 2 3m i t 的全面数据质量管理 近年来,大部分企业都开始使用全面质量管理( t o m q u a l i t ym a n a g e m e n t , t q m ) 来保证企业的产品没有缺陷,使顾客百分之百的满意。但是,由于用来决 策或支持企业运作的数据不准确或者不完全却导致了全面质量管理和其他战略 的实施都不成功。2 0 世纪9 0 年代美国麻省理工学院( m i t ) 开展的全面数据质量 管理计划就是致力于企业获得高质量的数据。这个计划的总体目标就是要在这个 领域建立一个坚固的理论基础,设计出实际可用的方法来为企业提高数据质量, 也将发展出适合在技术、经济、组织各个层面操作的数据质量管理工具和能力。 将数据作为产品进行管理,这是m i t 数据质量研究项目的一项重要研究结 论。 它改变了将数据作为系统的副产品的观念,是借用管理产品质量的方法管 理数据质量的前提或基础。m i t 数据质量项目的负责人w a n g 教授等人认为将数 第二章数据质量框架 据作为产品,应遵循下述4 条原则:理解客户的信息需求、将信息作为具有明确 定义的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论