(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf_第1页
(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf_第2页
(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf_第3页
(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf_第4页
(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(管理科学与工程专业论文)孤东采油厂数据质量控制与管理的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着信息时代的到来,数据作为现代企业的宝贵资源,占据着越来越重要的地位, 成为科学管理的基础,正确决策的前提,有效调控的手段。孤东采油厂每天都会产生大 量的数据,物探、钻探、试油、测井等生产环节直接的产品就是数据。如何对这些数据 进行筛选和管理,产生高质量的数据关系着采油厂信息系统的实用价值,但是目前孤东 采油厂还没有完全意识到数据质量控制和管理的重要性,没有把信息化数据作为资产来 管理,也没有意识到在提升采油厂核心竞争力的信息化建设中,高质量的数据是关键因 素。鉴于数据在采油厂的重要地位,孤东采油厂的信息管理者必须认识到数据质量控制 与管理的重要性和迫切性,加强采油厂数据质量的控制与管理对提高采油厂工作效率和 建立数字化采油厂具有重要的现实意义。 本文在数据质量控制与管理基本理论的指导下,结合孤东采油厂的实际,对孤东采 油厂数据质量进行评价,发现采油厂数据质量存在的问题;对孤东采油厂数据质量控制 与管理的现状进行分析,针对目前存在的问题,构建采油厂数据质量管理平台,从数据 质量的管理制度、采油厂的系统设计、数据资源模式、采油厂的数据中心、数据的处理 流程等多个方面,提出采油厂数据质量控制与管理的措施,用于指导采油厂数据质量控 制和管理的实践,使采油厂的数据更好的为采油厂服务,提高采油厂的经济和社会效益。 关键字:孤东采油厂,数据质量,控制与管理,数据质量管理平台 t h er e s e a r c ho nt h ec o n t r o la n dm a n a g e m e n to ft h eg u d o n go i l p r o d u c t i o np l a n t sd a t aq u a l i t y z h uw e n j u a n ( m a n a g e m e n ts c i e n c ea n de n g i n e e r i n g ) d i r e c t e db yp r o f d i n gh a o a b s t r a c t w i t ht h ea d v e n t o ft h ei n f o r m a t i o na g e ,d a t aa sav a l u a b l er e s o u r c ef o rm o d e m e n t e r p r i s e so c c u p i e sa l li n c r e a s i n g l yi m p o r t a n tp o s i t i o na n db e c o m e st h ef o u n d a t i o no f s c i e n t i f i cm a n a g e m e n t ,t h ep r e m i s eo ft h ec o r r e c td e c i s i o na n de f f e c t i v em e a n so fc o n t r 0 1 g u d o n go i lp r o d u c t i o np l a n tb e a r sm a n yd a t ae v e r yd a y t h ed i r e c tr e s u l t so fg e o p h y s i c a l p r o s p e c t i n g ,d r i l l i n g ,t e s to i l ,l o g g i n ga n do t h e ra s p e c t so ft h ep r o d u c ta r ec o m p o s e do fd a t a h o wt os c r e e na n dm a n a g et h e s ed a t aa n do b t a i nh i g h q u a l i t yd a t ai n f l u e n c e st h ep r a c t i c a l v a l u eo fo i lp r o d u c t i o np l a n t s i n f o r m a t i o ns y s t e m s h o w e v e r , g u d o n go i lp r o d u c t i o np l a n t w i l ln o tb ea w a r eo ft h ei m p o r t a n c eo fc o n t r o l l i n ga n dm a n a g i n gt h ed a t aq u a l i t yc o m p l e t e l y t h e yd on o tr e g a r dt h ei n f o r m a t i o n a ld a t aa sa na s s e t , a n da l s od on o tr e a l i z et h a ta tt h e p r o c e s s i n g o fi n f o r m a t i o n a lc o n s t r u c t i o nf o r e n h a n c i n g t h ec o r e c o m p e t i t i v e n e s so f e n t e r p r i s e s ,h i g h q u a l i t yd a t ai sak e yf a c t o r g i v e nd a t ao c c u p y i n gt h ei m p o r t a n ts t a t u si nt h e o i lp r o d u c t i o np l a n t s ,g u d o n go i lp r o d u c t i o np l a n tm u s tr e c o g n i z et h eu r g e n c ya n d i m p o r t a n c eo fc o n t r o l l i n ga n dm a n a g i n gd a t aq u a l i t y e n h a n c i n gt h ed a t aq u a l i t yi nt h eo i l p r o d u c t i o np l a n t ss h o w sp r a c t i c a ls i g n i f i c a n c et oi m p r o v eo i lp r o d u c t i o np l a n t s e f f i c i e n c y a n dt os e tu pd i g i t a lo i lp r o d u c t i o np l a n t s u n d e rt h eg u i d a n c eo ft h eb a s i ct h e o r yo fc o n t r o l l i n ga n dm a n a g i n gd a t aq u a l i t y , c o m b i n i n gw i t ht h ea c t u a ls i t u a t i o no fg u d o n gp r o d u c t i o np l a n t ,w ee v a l u a t et h ed a t aq u a l i t y o ft h eg u d o n go i lp r o d u c t i o np l a n ta n df i n do u tt h ep r o b l e m sb a s i n go nt h ee v a l u a t i o n a n a l y z et h ep r e s e n ts i t u a t i o no fc o n t r o l l i n ga n dm a n a g i n gd a t aq u a l i t yi ng u d o n go i l p r o d u c t i o np l a n ta n db u i l dad a t aq u a l i t ym a n a g e m e n tp l a t f o r mi nv i e wo fe x i s t i n gp r o b l e m s f r o mm a n ya s p e c t s ,s u c ha st h ed a t aq u a l i t ym a n a g e m e n ts y s t e m ,t h ed e s i g no fi n f o r m a t i o n s y s t e m ,d a t ar e s o u r c em o d e l s ,t h ed a t ac e n t e ro fo i lp r o d u c t i o np l a n ta n dt h ep r o c e s so fd a m a n ds oo n ,w ep r e s e n tm a n ym e a s u r e st oc o n t r o la n dm a n a g eo i lp r o d u c t i o np l a n t sd a t a q u a l i t y t h a tm a k e sb e s tu s eo ft h ed a t at os e r v i c ef o ro i lp r o d u c t i o np l a n t sy i e l d a n d i m p r o v et h ee c o n o m i ca n ds o c i a lb e n e f i t so fo i lp r o d u c t i o np l a n t k e yw o r d s :g u d o n go i lp r o d u c t i o np l a n t ,d a t aq u a l i t y ,c o n t r o la n dm a n a g e ,d a t a q u a l i t ym a n a g e m e n tp l a t f o r m 关于学位论文的独创性声明 本人郑重声明:所呈交的论文是本人在指导教师指导下独立进行研究工作所取得的 成果,论文中有关资料和数据是实事求是的。尽我所知,除文中已经加以标注和致谢外, 本论文不包含其他人已经发表或撰写的研究成果,也不包含本人或他人为获得中国石油 大学( 华东) 或其它教育机构的学位或学历证书而使用过的材料。与我一同工作的同志 对研究所做的任何贡献均已在论文中做出了明确的说明。 若有不实之处,本人愿意承担相关法律责任。 学位论文作者签名:鸳蛆 日期:砷年月烨日 学位论文使用授权书 本人完全同意中国石油大学( 华东) 有权使用本学位论文( 包括但不限于其印 刷版和电子版) ,使用方式包括但不限于:保留学位论文,按规定向国家有关部门( 机 构) 送交学位论文,以学术交流为目的赠送和交换学位论文,允许学位论文被查阅、 借阅和复印,将学位论文的全部或部分内容编入有关数据库进行检索,采用影印、 缩印或其他复制手段保存学位论文。 保密学位论文在解密后的使用授权同上。 嘉兰篓嘉篓霎芋一 指导教师签名: ! 丕 日期:垆土月矸日 日期0 卵年岁月澎日 中国石油大学( 华东) 帧士学位论义 第1 章前言 1 1 选题的背景及意义 1 1 1 选题的背景 2 l 世纪是“信息的世纪”,信息已成为与社会经济发展休戚相关的、最重要的产品。 组织的有效管理依赖于识别、收集和分析有关信息,这些信息对组织当前的业绩进行反 馈,并指出未来的需求。面对市场竞争的挑战和求得生存与发展,各企业纷纷建立起自 己的信息管理系统,掀起一股信息热潮。石油企业也不例外,自1 9 9 9 年末,国内大庆 油田有限责任公司信息中心首次提出了数字油田的概念后,数字油田很快成为我国,乃 至世界石油行业关注的热门话题,国内以数字油田为内容的油田信息化建设再次急剧升 温,各大油田为实现以信息化促发展的企业目标,纷纷将数字油田定为油田发展的战略 目标,不惜花巨资,请高手进行“数字化”油田建设,各采油厂在油田的号召下也开始 进行信息化建设,实施数字化管理,建立“数字化 采油厂。随着现代科学技术的发展, 建立起一个信息应用系统并不困难,关键是如何让组织的信息系统真正产生效益。但是 目前,虽然国家在信息化建设方面投入了大量资源,其现状并不令人十分满意,很多信 息系统虽然运转了起来,但是利用率很低。导致信息系统运行效果未能达到设想目标的 原因很多,其中关键的一点是未能有组织地保证信息的主要载体数据的质量。 很少有组织注意到产生信息的数据源的质量问题,更少有组织对数据的质量进行控 制与管理。如果数据质量差,那么接收数据的决策者将对结果产生疑问。国外信息界这 样来形容数据质量的重要性:“g a r b a g ei n ,g a r b a g eo u t ”( 进去的是垃圾,出来的也是垃 圾) 。如果数据质量得不到保证,信息化过程中其它流程的实施就根本不可能达到预期 效果。高质量的数据来源于数据设计、数据收集以及数据分析、综合、展示活动的高品 质和综合作用,这就需要建立一个有效的数据质量控制与管理体系。 胜利采油厂的数据中心存放了5 0 0 0 万条的数据,还在以每天2 万条的速度加载, 油田公司为获取这些“原料”投入了大量的资金n 1 。数据的重要作用在孤东采油厂也体 现的淋漓尽致,孤东采油厂每天也会产生大量的数据,在勘探方面,物探、钻探、试油、 测井等生产环节直接的产品就是数据,数据是勘探开发研究的“原料”。如何对海量的 数据进行筛选和管理,产生高质量的数据关系着采油厂信息系统的实现价值,但是目前 孤岛采油厂的管理者并没有完全意识到数据质量控制和管理的重要性,部分采油线数 据采集者观念尚未转变,采油厂没有把信息化数据作为资产来管理,也没有意识到在提 第1 章前言 升采油厂的核心竞争力的信息化建设中,数据质量的控制和管理是关键因素,仅仅一味 的追求信息系统的融合和更新,或者花大资金购买多功能的硬件和软件而忽略了最初产 生信息的数据的质量的控制和管理。 数据是采油厂的宝贵财富,在采油厂中占据着越来越重要的地位,成为科学管理的 基础,正确决策的前提,有效调控的手段。因此,孤东采油厂必须认识到提高数据质量 的迫切性和加强数据质量控制与管理的重要性,加强采油厂数据质量的管理对提高采油 厂工作效率和实现采油厂数字化管理具有重要的现实意义。 1 1 2 课题研究的意义 随着信息技术的飞速发展,孤东采油厂也在不断加快信息化建设的步伐,积极推进 信息技术的应用。采油厂在勘探方面,物探、钻探、试油、测井等生产环节直接的产品 就是数据。在开发方面,必须对油井的各种生产数据进行采集整理,从而分析油藏的变 化情况,优化开采方案。可以说,数据是勘探开发研究的“原料”,在数据应用越来越 重要的今天,加强采油厂数据质量的控制与管理对于孤东采油厂的生产、运营和实现可 持续发展具有重要的现实意义。 ( 1 ) 高质量的数据可以优化孤东采油厂信息系统的性能 信息化建设走到今天,企业开始意识到数据这一重要的资产,数据在企业信息化建 设中的处于关键地位,对于每天产生大量数据的孤东采油厂而言更是如此。在管理信息 系统的实际应用中,从技术、管理、数据三者的相对重要性可以说成是:“三分技术、 七分管理、十二分数据”。孤东采油厂实施管理信息化必须保证数据的完整性、准确性、 可靠性,没有高质量、及时的数据,再好的网络也发挥不了重要作用,再先进的软件也 得不出高水平的理想的成果。所谓巧妇难为无米之炊,数据就是米,软件是锅,网络是 柴。数据质量不能保证,不论技术系统还是管理系统都不能发挥作用,只能是一堆摆设。 因此,高质量的数据可以提高孤东采油厂信息系统的性能,使信息系统的作用得到更好 的发挥。 ( 2 ) 提高数据质量有利于决策的科学化,提高计划的准确性 过去采油厂的管理决策是靠经验和感觉办事的,有所谓“拍板、倒推法”,就是说 某个领导拍了全年产量的板,各级部门去倒推每月必须完成多少,全年才能完成这么多。 在能源紧缺,追求可持续发展的今天,这种决策方式不再适应时代的发展,采油厂的管 理人员要想做出正确的决策、制定科学的采油方案,必须对所管辖油井的现状和未来的 开采情况做出科学的规划,这种规划都是建立在对大量数据进行分析的基础上的,数据 2 中国石油大学( 华东) 硕士学位论文 质量直接影响到数据分析的结果和决策的准确性。可见,提高数据质量对于采油厂决策 的科学化和计划的准确性具有很大的现实意义。 ( 3 ) 数据质量的提高有利于孤东采油厂管理工作的高效化 信息系统的开发与应用,为孤东采油厂创造了一个使用现代化管理方法对各个生产 环节实现科学化管理的良好环境。信息系统将数据分析、预测技术、决策方法及各种经 济数学方法同现代管理手段结合起来融为一体,通过对数据的分析,不仅可以实时对采 油厂的各个环节进行监控,还可以对重大问题,根据数据分析得出的统计规律及时进行 事前分析和预测,以减少管理中的失误,变被动式管理为主动式管理,最大程度的提高 管理效率。可见,数据在采油厂的管理中占据重要的角色,提高数据质量有利于采油厂 管理工作的高效化。 ( 4 ) 提高数据质量有利于降低采油厂的生产成本 采油厂的现场成本是采油厂生产成本的主要组成部分,在采油厂的海量数据中有一 部分是与采油厂的生产成本相联系,提高采油厂的数据质量可以适时掌握生产现场的状 况,准确控制采油现场的成本支出,从而减少采油厂的生产成本支出。 1 2 国内外研究现状 ( 1 ) 国内外研究的总体概况 为了提高数据质量,国内外对影响数据质量的因素及提高数据质量的方法进行了大 量的研究。进入9 0 年代以来,国外的许多公司,其中包括石油公司兴起了一股建立国 家级数据中心的潮流,它代表了对企业应用信息的衡量指标。有些人甚至将用它来判断 一个企业兴衰的标准。在m e t ag r o u p 的研究报告称,在其所调查的2 0 0 0 多家企业中, 9 0 的企业已经或计划在两到三年内建自己的数据中心。有了数据中心,可以根据需要 对现有的信息实现深层次的加工与处理,依据这些信息进行决策、预测及分析等。 在英国,c d a ( c o m m o nd a t a a c c e s s ) 公司在多个油田的资助下,建立一个全英的 勘探开发数据库。其目的是为了减少近海石油地质技术信息数据的管理费用,提供信息 的可有性与可访问性。通过使用高级的数据管理系统保证数据质量。 美国地质学院在国家的支持下建设了国家地球科学数据仓库系统( n a t i o n a l g e o s c i e n c e sd a t ar e p o s i t o r ys y s t e m ) 简称为n g d r s 。该系统的目标是:保存国家地球 科学数据:将已建成的数据仓库实现连网,支持勘探与决策分析;提高用户对数据访问 的质量;降低对数据管理的费用;减少数据冗余。在该系统中采用了p o s c 的核心数据 模型基于x m l 的数据交换策略以及数据质量评价标准等凹3 。 第1 章前言 传统的数据质量的保障方法是在数据仓库对象中,加入对数据质量进行控制的程序 段,通过过程和函数保证数据的质量,再或者就是在数据库中加入相应的约束,触发器 及预存储过程。传统的数据质量控制通常都把精力放在数据质量的确认上,即在每个制 作阶段结尾( 或在几个制作阶段的结尾) 才对该阶段的数据或数据处理进行质量评价, 而且大部分精力还是放在系统初步集成完毕之后,这都将大大影响系统应发挥的作用。 目前,还有一种比较好的方法可以保证数据质量,即双工输入比较法口1 。就是将同 一批数据由两个输入人员在不同的时间和不同的终端上分别录入,并且形成两个临时数 据库文件,然后由第三个人在程序的作用下对两个数据库文件中的数据进行逐项比较并 进行确认或修改。在这种方法中,尽管同一批数据被录入了两次从而造成了数据冗余和 影响了录入进度,但对于对输入数据的正确性要求很高的场合,是一种不可缺少的和行 之有效的方法,因为两个数据录入者都同时在某处出错的机会极少,故这种方法可以极 大地减少出错率。 在实际应用中,多数据源合并造成的信息重复是影响数据质量的关键问题之。因 此,也有很多学者对这个问题进行研究,现有针对相似重复记录进行检测的聚类算法阻1 , 针对多语言文本相似的排序、聚类、合并算法,基于条件概率分布的近似重复记录检测 方法。 此外,也有部分学者针对各自领域进行数据质量控制的研究,如统计数据的质量控 制研究、空间数据的质量控制研究晴1 等,这些方法都在某些方面无法满足对于数值型数 据的质量控制目的。目前还没有很好的能够自主监控,并及时反馈数据质量的状况的方 法。 ( 2 ) 目前研究中存在的问题 通过对国内外研究现状进行分析,我们认为当前对数据质量的研究主要存在以下问 题引: 到目前为止,还没有关于数据质量的精确定义。数据质量定义的不统一,导致人 们对数据质量理解出现多样性,难以提出有效的解决方法,建立数据质量控制体系,必 须明确数据质量的定义。 没有形成一个权威性的数据质量标准模型或参考模型。大多数据质量的研究都是 针对很单一的问题进行的,解决系统中的比较重要的质量指标,如一致性问题、完整性 问题、重复性问题等,比较系统的研究也只是提出了数据质量建模的观点,并给出了建 模的步骤,但没有提出数据质量模型的体系结构。 4 中国石油大学( 华东) 硕士学位论文 截至目前还没有系统化的数据质量评估指标,数据质量评估往往只针对系统中比 较重要的质量指标,如一致性、完整性、复杂性等问题。尽管在数据建模理论中,对参 照完整性、一致性等指标的定义已经非常统一和严格,但这些指标只是数据质量复杂的 指标中的一小部分。 针对数据质量评估处理指标没有形成具体的量化标准,局限于概念和理论的研 究。 以上问题是由于当前的研究大多是针对数据库的某个或几个方面的质量需求进 行研究的,提出的质量描述形成的是单一的质量模型,不能构成完整的质量体系。这样 单一的质量模型难以满足大型企业对数据质量方面的需求。 1 3 论文的主要研究内容及方法 1 3 1 主要的研究内容 论文运用数据质量控制和管理的基本理论,通过简单的数据质量评价,结合孤东采 油厂的实际,分析孤东采油厂数据质量存在的问题,并通过对问题产生的原因进行分析, 提出采油厂数据质量控制和提高的措施,用于指导孤东采油厂数据质量控制和管理的实 践,使采油厂的数据质量更高,使采油厂的信息系统更好的发挥其功能,更好的为采油 厂利用数据进行信息分析服务,提高采油厂的经济效益和社会效益。本文主要研究以下 几个方面的内容: ( 1 ) 论文的相关理论及国内外研究现状的分析。在对已有的数据质量控制与管理 理论知识认识的基础上,总结分析数据质量的定义,数据质量的评价标准,明确了数据 质量的控制方法和数据质量管理的要点,并给出了采油厂数据质量的定义;总结了几种 典型类型的数据质量控制的过程,以及国外石油企业在数据质量控制与管理方面的成功 经验,指出这些成功经验对孤东采油厂数据质量的控制与管理起到的借鉴作用。 ( 2 ) 采油厂数据质量控制与管理的现状研究 考虑到油田数字化建设的现状,数据质量的好坏直接关系到信息系统运行状况,这 对领导决策和计划的制定意义重大,因此,保证信息的价值首先应该从产生信息的数据 着手,本章首先对孤东采油厂的数据质量进行评价,并结合孤东采油厂的实际指出采油 厂数据质量存在的问题,然后对采油厂的数字化管理现状、采油厂的数据资源模式、数 据处理流程和数据质量控制的现状进行分析,在此基础上结合数据质量的评价标准,找 出目前孤东采油厂的数据存在的质量问题。针对采油厂在数据质量管理和控制方面存在 的问题进行分析,找出问题存在的原因,为下一章提出提高数据质量的措施做铺挚。 第1 章前言 ( 3 ) 提高数据质量的措施。根据第三和第四部分的现状分析,并借鉴典型类型的 数据质量控制方法和国外同行业对数据质量控制与管理的成功经验,提出采油厂数据质 量控制与管理的相关措施。论文的主要研究框架如图1 1 所示: 图卜1 本文的研究框架 f i g l - is t u d yf r a m e w o r k 1 3 2 课题的主要研究方法 本课题在借鉴国内外关于数据质量控制与管理的经验与方法,分析孤东采油厂数据 质量的基础上,找出其中存在的主要问题,最后提出控制和提高数据质量的可行性措施。 主要采取的研究方法如下: ( 1 ) 文献法。通过查阅大量文献资料,了解国内外有关企业实施数据质量管理的 情况,进行比较研究,借鉴其中的精华,为论文提供充足的理论支持。 ( 2 ) 普遍性与特殊性相结合。本课题将广泛搜集国内外有关数据质量的理论与实 例,得到数据质量控制与管理的普遍理论。然后把这些理论用于孤东采油厂的数掘质量 控制与管理,结合采油厂数据质量控制与管理的现状,针对数据收集到应用的各个阶段 可能出现的数据质量问题进行分析,提出针对孤东采油厂数据质量控制和提高的措施。 ( 3 ) 理论研究与实证分析相结合,注重方法的可操作性。广泛搜集国内外有关数 6 中国石油大学( 华东) 硕士学位论文 一 据质量控制和管理的资料和实例,针对孤东采油厂目前的数据质量控制和管理现状,找 出可能存在的问题,并提出可行性的解决方案。 1 4 论文的创新点 本文主要研究工作和创新点如下: ( 1 ) 在选题背景的指导下,对国内外的研究现状进行综述,通过对国外成功案例 的剖析和对典型类型的数据质量控制的分析,得出几点对采油厂数据质量控制与管理的 启示。 ( 2 ) 在全面理解数据质量定义的基础上,给出了采油厂数据质量的定义,总结了 数据质量的评价标准、控制方法以及管理要点。 ( 3 ) 提出并建立了模糊控制理论的数据质量评价体系,高效、客观的评价数据质 量,为数据质量控制与管理提供了依据。 ( 4 ) 针对孤东采油厂的现状对采油厂数据质量问题的原因进行详细的分析,提出 了控制与管理数据质量的各种措施。 7 第2 章数据质量控制与管理的相关理论 第2 章数据质量控制与管理的相关理论 2 1 数据质量的定义 数据质量最早是基于数据正确性的观点进行界定,很多人都把数据质量等同于调查 数字的准确性,或者把数据质量不高理解为数据失真。事实上,这种认识过于简单和片 面。虽然调查数据的准确性是决定数据质量高低的最重要因素,但并不是全部。虽然到 目前为止还没有一个能被各方广泛接受的数据质量定义,但是目前影响最广泛的一个观 点就是“高质量的数据应该能充分满足用户的使用要求 。除此以外,还有以下几种定 义影响相当广泛口1 : ( 1 ) 数据质量指的是数据符合或者超出用户期望的特性; ( 2 ) 数据质量指的是数据满足了特定的规则或者特定需求的特性; ( 3 ) 数据质量指数据对用户有较高价值的特性; ( 4 ) 数据质量反应了数据在内容、格式以及时间上的特性,对最终用户的满足程 度; ( 5 ) 数据质量可以用人们对数据所期望的特性与所获得的数据特性之间的差距来 表示。理想状况下,所能获得的特性应该与人们对它的期望完全相同。数学上表示为: 差距越小,数据质量越高。 ( 6 ) 数据质量指数据满足生产者、管理者、消费者和数据分析专家,对数据在功 能、技术、认识和美学上要求的特征。 结合以上定义,本文将采油厂的数据质量定义为:数据质量是指数据能充分满足使 用者的需求,即能够充分满足分析人员的分析,指导采油厂的管理者做出准确的决策和 精细的开采计划,满足采油厂可持续发展战略的需要。有用性是数据质量在价值实现上 的体现,是使用者对数据“适销对路”的要求,也是数据统计工作的最终目的。无用的、 落后的、在实际中难以发挥作用的数据,是不会有需求的,即使准确性再高、时效性再 强、数量再多,其价值也为零,无价值实现可言。因此,数据也要讲“对路”,并不是 越多越好,要避免盲目的采集和加工。只有实际工作需要的数据,才是有用的数据,才 能实现其应有的价值。 2 2 数据质量的评价标准 数据质量是一个综合性的概念,应该从多个不同的角度来全面地认识,数据质量评 价指标主要包括数据的及时性、完整性、准确性、一致性、唯一性等哺1 。 中国石油大学( 华东) 硕士学位论文 ( 1 ) 数据的准确性 所谓数据的准确性是指数据在多大程度上正确反映了现实世界的真实情况,即数据 测量值与真实值相比的符合情况。在油田生产数据的采集和加工处理过程中,数据的准 确性往往是指所采集入库的数据值与现场应采集记录的正确值之间的差异。准确性是数 据质量客观真实性的体现,是数据使用者的首要要求,也是数据所应该具有的最根本属 性。不准确的数据不能正确反应客观事实,不仅不能给决策者带来帮助,反而会干扰决 策者做出正确决策。因此,数据的准确性是数据质量最重要的评价标准。 从理论上说,准确意味着对客观实际不折不扣的反映,不多也不少,这是我们所要 追求的目标。由于现实世界总是处于不断变化中,所以准确性会随着时间的推移而变化, 现实中数据的准确性很难衡量,人们往往通过考察完整性、一致性和及时性,对其进行 间接考察。在实践中,影响数据准确性的因素很多,绝对准确的数据是不存在的,我们 通常强调其精确度。在精确度上足以达到我们生产经营、管理决策需求的数据,就可以 认为是准确的数据。数据准确度的高低取决于误差即数据与客观实际值之差的大小,数 据误差在数据采集、审核、录入、传输和处理等各个环节都可能产生,在数据监督和质 量控制的过程中,准确性越好的数据,其误差应该越小。因此提高数据的准确性也就是 要减少和控制各种误差,包括人为因素造成的误差和非人为因素,如方法、技术等造成 的误差。我们需要从各个方面分析影响数据准确性的因素,同时有效控制不同类型数据 的合理变化范围,将数据误差控制在尽可能理想的范围内,以保证数据的准确性。 ( 2 ) 数据的及时性 及时性是数据质量在时间价值上的体现,是对数据形成和提供的高速度、快节奏、 强效率的要求。一个好的应用系统在使用数据时,必须要考虑到数据的及时性。如果数 据不及时,那么应用系统的处理结果就可能违背程序设计和使用者的初衷,不仅无法提 高工作效率,还可能由于数据滞后而影响生产的正常化。现在生产过程瞬息万变,如果 反映管理对象当前状态的数据不能及时传递到控制部门,就无法进行实时控制。例如: 一口井,早已由油井转变成水井了,而采集单位没有及时更改数据,不仅会影响到队到 矿,矿到厂的产量,更会影响到厂到局的产量和油水井数,而且取自于该源数据的所有 应用系统今天的诊断决策都会发生偏差。数据滞后的更新将严重影响生产的正常化,这 很好地说明了数据的有效性问题。因此根据数据应用需求及时采集数据,按照用户要求 及时发布数据,是保证数据及时性的重要一环。 判断数据是否具有及时性,主要从以下三个方面考虑:一是在时间上原始数据的搜 9 第2 章数据质量控制与管理的相关理论 集不影响统一的加工汇总,不影响数据使用者据以做出分析、预测和决策;二是部分数 据在时间上具有一定的超前性或预见性,对社会经济运行的某些重要特征进行预报;三 是做好有关数据的准备工作,能根据使用者的需要随时提供准确的数据。很显然,这三 个标准是相互联系的,并且后两者的要求更高,难度更大,社会的期望更多。 ( 3 ) 数据的完整性 数据的完整性是指表示信息的完整程度,是数据质量在内容含量上的体现,就是要 求相关人员提供的数据在内容上应包括数据使用者所需的所有项目,不残缺不全。在数 据采集过程中,要把所需信息全部采集完整,比如压力,如果只记录一个数字“2 ,谁 也不知道这个数字是什么东西,也就是说这个数字采集得不全。如果记录成“1 号井油 压为2 兆帕”,那么这个数据就完整了,对生产管理和分析才有意义。然而需要指出的 是,完整并不是无所不包、机械求全,而是相对于满足需求的程度而言的。也就是说, 数据是否完整,取决于其是否满足需求。如果数据能从不同侧面系统地反映所研究事物 的总体面貌及其发展趋势,能满足使用者分析、预测、决策和科学研究的需要,那么就 达到了完整性的要求。因此,我们要力争使数据在总量上和结构上都满足需求。 数据的完整性,包括数据源是否完整、数据取值是否完整、实体类型、属性特征、 维度取值是否完整等。例如:要完成井筒的计算机屏幕再现,它所包含的数据包括钻井 数据、固井数据套管数据、井径测井数据、井斜数据等等。这里边存在多个数据源情 况,如果数据源不完整,或者套管数据中缺失数据项管深或者壁厚,井筒就不可能完整 成像。 ( 4 ) 数据的一致性 数据的一致性用于衡量数据集中各部分数据对于同一标准的吻合程度。数据库中所 有的表是否都满足这样的规则。例如:单井的基础信息、油井日数据中的单元代码应该 和本年度的单元代码表保持一致;应用库中抽取的数据项要与源头库保持一致等等。 数据的一致性维护依据其时间特性分为两类:同步一致和异步一致。同步一致保证 各数据副本的实时一致性( 紧一致性) ,即任意时刻数据都是一致的;异步一致不要求 实时一致,仅要求一定时间间隔内数据的一致性( 松一致性) 。在实践中,因为业务变 动以及系统升级等原因,一致性标准常常被破坏。 ( 5 ) 数据的唯一性 我们常常需要保证某些数据的唯一性,这些数据不能重复,如公司代码、商品编号、 公司员工编号以及身份证号码等等。如果数据重复录入,将直接影响到决策系统的统计 1 0 中国石油大学( 华东) 硕士学位论文 结果,并导致决策者不能客观、准确做出决策。 在数据质量的评价标准中,正确性是数据质量的根本属性。及时性、完整性、一致 性和唯一性,从几个方面对正确性进行反映。及时性是从数据这样一种特殊产品的时间 价值来考虑;完整性从数据数值的合法性角度考察数据的正确性;一致性从数据对应用 逻辑的符合程度去考察;唯一性是从避免数据冗余性的角度考虑的。数据质量几个特性 之间的关系阳3 ,如图2 1 所示: 图2 - 1 数据质量各特性之间的关系 f i 9 2 - 1 t h er e l a t i o n s h i po fd a t aq u a l i t yo ft h ec h a r a c t e r i s t i c s 2 - 3 数据质量控制的方法 数据质量控制是一个复杂的过程,要控制数据质量要从数据质量产生和扩散的所有 过程和环节入手,分别用一定的方法减少误差。数据质量控制常见的方法有: ( 1 ) 传统的手工方法 数据质量控制的人工方法主要是将数字化数据与数据源进行比较,图形部分的检查 包括目视方法、绘制到透明图上与原图叠加比较,属性部分的检查采用与原属性逐个对 比或其它对比方法。 ( 2 ) 元数据方法 数据集的元数据中包含了大量的有关数据质量的信息,通过它可以检查数据质量, 同时元数据也记录了数据处理过程中质量的变化,通过跟踪元数据可以了解数据质量的 状况和变化。 ( 3 ) 数据生产控制法 在数据生产时,利用软件自身的显示、查询和修改功能对数据进行检查和质量控制, 第2 章数据质量控制与管理的相关理论 有一定的效果。 ( 4 ) 数据抽查法 依据一定的比例,进行质量抽查,评定数据质量,一般用于数据最后结果评定。 ( 5 ) 软件检查法 将所检查的内容定制到软件中进行检查,根据空间数据的图形与图形、图形与属性、 属性与属性之间的关系和规律编制软件,将数据中不符合规律、逻辑关系矛盾的要素自 动挑选出来,使用人机交互等方式进行修改。软件检查法错误信息定位准确,速度高。 2 4 数据质量管理的要点 ( 1 ) 正确划分哪些问题是数据质量问题。区分数据质量问题的边界,不但有利于 正确地划分数据质量管理项目的工作范围,而且也非常有利于找出数据质量问题产生的 原因。在实际工作中,这个界限非常难以划分,可以简单的将其描述成:由于正在使用 中的数据的数据质量不高而造成损失和不便,就可以被认为是数据质量问题。 ( 2 ) 数据质量的判断标准。数据质量判断标准是:适合当前使用的数据就是高质 量的数据。这说明数据质量标准都是以满足应用要求为目标的,因此用“适合当前使用 的数据就是高质量的数据”来给数据质量标准定义就显得比较合理。这个标准一方面说 明数据质量的标准是由使用数据的人根据自己的要求制定的,同时也说明在数据的不同 发展阶段,数据质量标准是不断变化的。数据质量的控制与管理是一个动态的过程。 ( 3 ) 提高数据质量的最好方法。解决数据质量最好的方法来源于前期防范。实践 证明,实施数据质量提升项目所花费的精力和资金,远远大于在数据产生之初就进行数 据检验所花费的支出。 ( 4 ) 数据质量管理是周而复始的循环过程。在很多情况下,独立的数据质量项目 不会使数据质量得到持续的提高,只能达到某一个阶段的要求。只有持续不断地实施数 据质量管理,才能达到持续不断提高数据质量的目的。 2 5 典型类型的数据质量控制与管理及启示 2 5 1 典型类型的数据质量控制 目前,部分学者针对各自领域进行数据质量控制与管理的研究,如统计数据的质量 控制与管理研究、空间数据的质量控制与管理研究等。尽管这些方案都无法满足孤东采 油厂的数据质量控制与管理,但通过详细分析它们的控制与管理过程,可以为提出更加 科学的数据质量控制管理方案提供借鉴作用。 中国石油大学( 华东) 硕士学位论文 ( 1 ) 空间数据质量的过程控制 空间数据质量问题是g i s 系统建设成功与否的关键,因此,数据质量的有效管理对 提高g i s 系统的成功建设非常重要。空间数据是地理信息系统不可缺少的组成部分,其 质量在很大程度上影响和制约着地理信息系统的可用性,为地理信息系统用户提供满足 质量要求的空间数据是地理信息系统建设的关键任务之一。 空间数据的质量控制是针对空间数据的特点来进行的,空间数据的质量主要包括数 据完整性、逻辑一致性、位置精度、属性精度、时间精度以及一些关于数据的说明。 空间数据的质量控制就是通过采用科学的方法,制定出空间数据的生产技术规程, 并在空间数据的生产过程中,针对空间数据质量的关键性问题采取一系列切实有效的方 法,给予精度控制和错误改正,以保证空间数据的质量。 空间数据的完整性。主要是指数据是否覆盖了应该覆盖的范围。比如全国的数据 就应该覆盖到全国范围,一个省的居民地就应该包括全省的居民地数据;空间数据的数 据逻辑一致性主要是指数据定义的统一性,在同一个空间数据库中,数据的定义应该保 持致。 空间数据位置精度。主要是指数据的地理位置精度。 空间数据属性精度。主要是指数据所载负的地理信息的正确。比如一条河流的名 称是否正确、一个居民地的名称是否正确等。 空间数据时间精度。是数据本身所代表的时间信息的正确性,比如,5 0 年代的湖 泊数据与9 0 年代的湖泊数据就有很大的差别。 元数据。关于数据的说明称为元数据。例如对于空间数据库的数据源的说明,什 么种类的地图,“线划图”还是“影像图”等。 由上述简单的描述就可以看出空间数据的质量控制是一件非常庞杂的工程,假设一 个空间数据库需要5 年建成,而其空间数据的质量控制就要在这5 年的过程中自始至终 地进行,而且还要持续到数据维护更新的全过程。因为没有质量作保证,所有的劳动都 可能是白费。 数据质量控制最好的策略是预防数据质量问题的产生。即:在多媒体电子地图的制 作过程中尽量采取质量控制措施,减小潜在质量问题的发生;对于不可避免的数据质量 问题,在这个质量控制体系中也应该能够尽早地发现和处理这样不只是把质量控制的精 力放在制作阶段的结尾,而是让它贯穿整个制作过程,采用过程式的预防性数据质量控 制体系。特别是要将更多的精力放在项目开始阶段,即项目分析和总体结构设计。 第2 章数据质量控制与管理的相关理论 尽管对空间数据质量控制的算法及方案有很多,但基本是按照上面的原则进行设计 的。质量控制贯穿了整个制作过程,在项目分析和总体结构设计阶段采取了更有效的质 量控制方法,这将对数据质量的控制起到很好的作用。详细的步骤如下: 初步审查 项目分析的结果是形成一个模糊的产品轮廓及技术路线。初步审查是对分析结果的 验证,审查的内容包括项目的可行性、资料的利用性以及需求的满意度。 项目可行性是在一定资金、资料限制及一定的用户满意度下的项目可行性。资料的 利用性是现有资料是否得到充分利用,以及它们在多媒体电子地图集中能否被很好的支 持。需求的满足程度是指项目的委托方和使用者对将来产品的满意程度要得到一定的保 证。初步审查涉及到项目的开发方、委托方以及最终用户,他们都应该参与初步审查。 经过初步审查,可以基本保证项目的可实施性和用户的认可性,系统的稳定性和集 成性也会得到一定的改进。同时,初步审查对于后续的总体结构设计具有很强的指导性, 可以减少总体结构设计中的反复。 中间审查 总体结构设计指项目开发方对模糊的产品概念进行具体化。开发方提供一些可选的 实施方案,根据自身的经验对可选方案进行综合比较,这种比较就是中间审查。开发者 的经验对于项目实施的作用是不言而喻的。开发者自身进行中间审查增加了系统实施技 术创新的可能性,同时减少了最终审查的复杂性,对于系统的完善是很有帮助的,但不 宜时间过长。 最终审查 在系统的总体结构设计之后,开发者会提供完整的系统结构和实施蓝图。系统结构 包括层次结构和存储结构。系统层次结构包括各种数据的表现形式和数据的组织结构, 系统的存储结构涉及到数据库的安排。 系统数据结构中是否包含了用户想要的所有信息( 信息的完整性) ? 用户是否能简单 快捷地找到自己想要的信息? 项目委托方的要求是否得到了满足? 用户反馈的意见是 否在系统中具有可实施性? 这些是最终审查应该确保和平衡的问题。最终审查可以采用 初步审查相同的过程来对总体结构设计进行改进。如果最终审查的改进策略能够良好地 执行,用户的认可性和开发者的可实施性、合理的数据组织形式以及系统的集成性和稳 定性都可以得到保证,同时对于后续的系统实施具有相当强的指导意义。 资料采集录入、系统集成、系统测试和发行标准 1 4 中国石油大学( 华东) 硕士学位论文 在上述三个质量控制过程完成之后,已经形成了个良好的质量框架。只要在多媒 体电子地图集余下的制作过程中严格按照各个阶段的质量标准进行操作,就能保证系统 良好的数据质量,在各个阶段的质量标准都有一些相关的研究。 空间数据质量的控制是十分必要的,而且数据质量的控制越早越好,要贯穿整个制 作过程,特别是要把更多的精力投入到项目分析和概念设计阶段。 预防性数据质量过程控制使数据质量控制贯穿整个制作过程;减少了重复劳动,节 约了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论