




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
石油勘探与开发数据自身规范化方法研究 摘要 目前,数据已作为企业重要、可共享的资产,成为信息化建设的重点和基石。然而,大多数部 门都独立地进行本部门或本企业的信息系统的设计,而不与其它企业或部门进行交流,形成了资源 独岛和信息独岛。这些信息孤岛数据模型之间存在名、型、值等冲突,使得数据不能充分共享,数 据交换和数据集成困难重重,严重阻碍了信息化建设的步伐。数据元分析与设计方法就是为消除这 些数据项的名、型以及值的冲突问题而制订的一个规范。 本文深入研究数据元规范化理论,追踪国内外研究现状,深入调研石油勘探与开发数据模型的 应用现状。从数据共享和数据集成的角度,对石油勘探与开发数据模型做聚类分析,得出目前数据 模型中存在的不足,并依此总结出数据自身规范化需要解决的问题。依据数据元规范化理论。借鉴 国内外数据元应用成功案例。针对分析的问题和不足,提出了适合石油勘探与开发数据管理现状规 范化模型。 依据以上研究成果,结合大庆油田勘探与开发数据管理的现状,提出了数据元注册模型及注册 流程,设计并实现数据元注册管理工具软件。最终形成石油勘探与开发数据模型元数据字典,即石 油勘探与开发数据元字典,指导油田勘探与开发数据模型设计。构建高效、稳定、优化的数据模型, 促进油田信息化建设。此勘探与开发数据元字典在大庆油田勘探与开发数据模型设计中已得到应用。 关键词:数据元;元数据;数据元注册;数据元标准;数据元字典 r e s e a r c ho nt h ep e t r o l e u me x p l o r a t i o na n dd e v e l o p m e n t d a t as t a n d a r d i z a t i o n a b s t r a c t a tp r e s e n t , d a t aa sa l li m p o r t a n ta n ds h a r i n gr e s o u r c e ,b e c o m e st h ek e ya n dc o r n e r s t o n eo f i n f o r m a t i o n c o n s t r u c t i o n h o w e v e r , t h em a j o r i t yd e p a r t m e n t sd e s i g nt h e i ro w ni n f o r m a t i o ns y s t e m si n d e p e n d e n t l ya n d h a r d l yc o m m u n i c a t ew i t ho t h e re n t e r p r i s e so rd e p a r t m e n t s , w h i c hm a d et h er e s o u r o g $ a n di n f o r m a t i o n i s o l a t e di s l a n d sc o m ei n t ob e i n g a m o n gt h e s ei s o l a t e di s l a n d so f i n f o r m a t i o nd a t am o d e l s ,t h e r ea r en a m e c o n f l i c t s ,d a t at y p ec o n f l i c t sa n dv a l u ec o n f i i c t s ,w h i c hm a k et h ed a t ah a r dt os h a r e ,t h ee x c h a n g ea n d i n t e g r a t i o ng e tv e r yd i 位c u l lt h e s eq u e s t i o n sb l o c kt h ei n f o r m a t i o n a lc o n s t r u c t i o ns e v e r e l y t os o l v et h e p r o b l e m s ,t h ec r i t e r i o no ft h ed a t ae l e m e n ta n a l y s i sa n dd e s i g n e dm e t h o di sm a d et oe l i m i n a t et h en a m e c o n f l i c t s ,d a t a t y p ec o n f l i c t sa n dv a l u ec o n f l i c t s t h i st h e s i sr e s e a r c h e st h ed a t ae l e m e n ts t a n d a r d i z a t i o nt h e n r ym o r o u g h l y , t r a c e st h ed o m e s t i ca n d f o r e i g ns c h o l a r s h i p so f n o wa n di n v e s t i g a t e st h ec o r r e n ta p p l i c a t i o np l a n eo f t h ed a t am o d e lo f p e t r o l e u m e x p l o r a t i o na n dd e v e l o p m e n t f r o mt h ev i e w p o i n to ft h ed a t as h a r i n ga n dt h ed a t ai n t e g r a t i o n ,ak i n do f c l u s t e ra n a l y s i so nt h ed a t am o d e l so ft h ep e t r o l e u me x p l o r a t i o na n dd e v e l o p m e n ti sd o n et oo b t a i nt h e d e f t c i a n c i e so ft h o s em o d e l s a n dt l e l lw ec a ns u m m a r i z et h eq u e s t i o n so ft h ed a t as e l fs t a n d a r d i z a t i o n w h i c hs h o u i dt ob es o l v e d a e g o r d i n gt ot h et h e o r yo f t h ed a t aa l e m e r i ts t a n d a r d i z a t i o na n dt h es u c c e s s f u i a p # i c a f i o nc a 8 船o f t h ed o m e s t i ca n df o r e i g nd a t ae l e m e n t s ,as t a n d a r d i z e dm o d e li sp r o p o s e dw h i c hf i 西如 艇脚t h ed e f i c i e n c i e sa n dp r o b l e m se x i s t i n gi nt h o s em o d e l sa n ds u i t st h ea c t u a l i t yo ft h ed a t a m a n a g e m e n to f p e t r o l e u me x p l o r a t i o na n dd e v e l o p m e n t d e p e n d i n go nt h er e s e a r c ha c h i e v e m e n t sa n dc o n s i d e r i n gt h ed a t am a n a g e m e n ta c t u a l i t yo f p e u o l e u m e x p l o r a t i o na n dd e v e l o p m e n to f t h ed a q i n go i lf i e l d , t h ed a t ae l e m e n t sr e g i s t r ym o d e la n dr e g i s t e r e df l o w a r ep r o p o s e d , a n dt h em a n a g e m e n ts o f t w a r ef o r 恤d a t ae l e m e n t sr e g i s t r yi sd e s i g n e da n dr e a l i z e d f i n a l l y am e t a d a t ad i c t i o n a r yf o rd a t am o d e l so f p e t r o l e u me x p l o r a t i o na n dd e v e l o p m e n tc o m e si n t ob e i n g ,w h i c h c 瓠g u i d em o d e ld e s i g na n dr e d o u n dt oc o n s t r u c th i g h l ye f f e c t i v e , s t a b l ea n do p t i m u md a t am o d e la n d f a c i l i t a t e so i lf i e l di n f o r m a t i o nc o n s t r u c t i o n t h em e t a d a t ad i c t i o n a r yh a sf o u n da p p l i c a t i o ni nd a q i n go i l f i e l d k e yw o r d s :d a t ae l e m e n t , m e t a d a t a , d a t ae l e m e n tr e g i s t r y , d a t as t a n d a r d i z a t i o n , d a t ae l e m e n t d i c t i o n a r y i i i 学位论文独创性声明 本人所呈交的学位论文是我在指导教师的指导下进行的研究工作及取得的研究成 果据我所知,除文中已经注明引用的内容外,本论文不包含其他个人已经发表或撰写 过的研究成果对本文的研究做出重要贡献的个人和集体,均已在文中作了明确说明并 表示谢意 作者签名:豇宝叠日期:垫丑垒2 目i z 日 学位论文使用授权声明 本人完全了解大庆石油学院有关保留使用学位论文的规定,学校有权保留学位论 文并向国家主管部门或其指定机构送交论文的电子版和纸质版有权将学位论文用于非 赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学位论文的内容编入有 关数据库进行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在解密后 适用本规定 学位论文作者签名:却宝祥 日期:2 0 d 7 耸j 日l 日 导师签名:孑良侈 日期:0 皋弓岛i e 创新点摘要 论文的创新点主要体现在以下几个方面: ( 1 ) 提出了数据名称规范化的框架模型 ( 2 ) 提出了数据值域规范化的框架模型。 ( 3 ) 提出了通配数据元、基本数据元、应用数据元三级构建体系规则模型,以及在构建中如何关 联值域。 ( 4 ) 提出了石油勘探与开发数据元注册的元模型。 i v 大庆石油学院硕十研究生学位论文 引言 随着信息化技术在石油勘探与开发中应用水平的不断加深,各个专业之间对信息的 共享程度的要求是越来越高,此外,为增加企业的竞争力,企业已经将他们的数据资源 作为资产来看待,可见数据在企业信息化中的重要核心地位。 但大多数部门都独立地进行本部门或本企业的信息系统的设计,而不与其它企业或 部门进行交流。结果导致同一信息的重复设计,而且这些重复的信息在不同的企业或部 门的信息系统中具有不同的名称、类型以及值域等,即不同企业或者部门的勘探与开发 数据模型存在名、型、值等冲突。这在当时信息化应用水平不是很高的环境下是允许的, 但随着信息化建设不断深入,在不同企业之间、企业内部各部门之间信息共享和数据集 成时,出现了数据的名称、类型以及值域的冲突问题,即这些不同企业或部门对同一数 据的理解出现了二义性。因此,解决信息单元数据规范化的问题,即数据自身规范化问 题摆在石油企业面前。由于企业数据的不一致性严重阻碍企业信息共享,同时也给数据 集成造成很大困难,那么如何对企业的数据迸行有效地规范化,即对数据本身的名称、 类型以及值域的规范化是石油工业必须解决的一个重要问题。 数据规范化主要包括两个方面内容:一个是数据自身的规范化,另一个是数据结构 的规范化。其中数据自身的规范化,即数据元的规范化,是数据规范化中的核心之核心, 没有数据自身的规范化,就不会有数据结构的规范化,更谈不上数据的标准化,也很难 真正实现企业信息的标准化。数据元是这样一种基本数据单元:它建立在对信息进行科 学分类,揭示了数据对象内在规律的基础上,按照一定规则实行结构化的基本数据单元。 它彻底地解决数据的属性冲突,实现不同系统之间的数据集成和信息共享。在数据元分 析基础上产生的数据标准,具有科学性、系统性和规范性。 数据元理论,以下简称为数据元。这一理论方法是6 0 年代美国提出的一套对数据 进行分析的先进的方法论,这一方法论是信息标准化中普遍被采用的一种方法论。用于 指导企业中的数据标准化。9 0 年代初期,中国第一个按照数据元理论指导制订并发布的 数据元标准是w t o 入市后的关于对外经济贸易标准【l 刁,其目的是为了使贸易与国际接 轨,实现贸易数据的国际化共享。这一标准在整个对外经济贸易信息化管理以及数据交 换中起到了重要的作用。在国内,2 0 0 3 年第二家采用数据元理论方法指导标准制订的是 中国电子政务数据元标准;国际上,p o s c 的e p i c e n t r e 数据模型以及p p d m 数据模型 在进行模型构建之前也采用了先进的数据元理论方法进行了数据元的分析,并最终形成 了这些模型的元数据,在此基础之下才构建出了科学的、合理的、稳健以及可扩充的数 据模型的。 引言 通过对数据元规范化理论的研究,分析和研究目前勘探与开发数据模型的现状的基 础上,根据目前数据模型存在问题,依据数据元规范化方法,提出整改这些问题的数据 模型或者方法,并依次设计与开发数据元注册管理软件,并最终形成油田勘探与开发数 据元字典,即勘探与开发数据模型元数据字典,勘探与开发各系统间信息共享,推进油 田企业信息化建设。论文的组织结构如下: 第l 章是数据元相关理论,主要介绍数据元规范化理论、元数据概念以及元数据设 计规则。其中数据元的规范理论包括基本概念、数据元的概念及其组成、数据元结构模 型、数据元的基本属性和数据元的命名规则。 第2 章是石油勘探与开发数据面临问题分析,对p c d m 做聚类分析,从信息共享 和数据集成角度出发,分析目前大庆石油勘探与开发数据模型所存在的不足。 第3 章是数据元关键技术研究。在第1 、2 章基础上,提出解决目前数据模型存在 问题的框架模型或者方法论。具体包括数据元描述模型、数据元值域规范化模型、数据 元分类模式、基本数据元生成规则以及应用数据元派生规则。 第4 章是在第3 章所提出框架模型基础上,设计并实现数据元注册的工具软件,依 此来进行数据元整个生命周期的管理,并最终形成勘探与开发数据元字典,即勘探与开 发数据模型元数据字典。 最后是对本文的结论部分,对本文的工作进行了总结和展望。列出了论文中较有特 点的工作,提出了下一步的研究方向。本项目项目受大庆油田有限责任公司重点攻关项 目“勘探开发数据自身规范化方法研究与实现”的资助、同时还受到黑龙江省研究生创 新基金项目“石油勘搽与开发数据自身规范化方法研究”的资助。 2 大庆石油学院硕士研究生学位论文 第1 章数据元相关理论 本章主要是对数据元概念、组成、描述数据元的属性以及命名规则等进行论述。这 里的一些术语来自于文献【6 ,7 ,8 ,9 ,1 0 ,1 1 。 1 1 数据元相关的术语和概念 数据元中涉及一系列重要的概念,下面首先给出这些概念,如下表1 1 。 表卜1 州数据元的组成实例 序号数据元名称对象类词 用一组属性描述定义、标识、表示和允许值的 l 数据元d a t ae l e m e n t 一个数据单元。 分类模式c l a s s i f i c a t i o n根据对象的来源、组成、结构、应用、功能等 2 s c h e m a 共同特性,将其排列或分组。 一个名称所用于的或所源自的应用环境或规 3 语境c o n t e x t 程的描述。 4 属性a t t r i b u t e 某个对象或实体的一种特性。 5 属性值a t t r i b u t ev a l u e 某种属性的一个实例表示。 6 数据项d a t ai t e m数据元的一个具体值。 7 限定词q u a l i f i e r 帮助定义和呈递唯一性概念的术语。 8 值域v a l u ed o m a i n 允许值的集合。 9 数据值d a mv a l u e值域中的一个元素。 将数据元的值域及度量单位利用一个统一的 i o 域名d o m a i nn a m e 名称来表示。 l l 数据类型d a t at y p e 由数据元操作决定的用于采集字母、数字和 ( 或) 符号的格式,以描述数据元的值。 1 2 关系类型t y p e o f 数据元与相关数据元间关系的一种表述。 r e l a t i o n s h i p 1 3 实体e n t i t y 任何具体的或抽象的事物,包括事物间的联 系。 1 4标识符i d e n t i f i e r 给定相关环境的对象的无歧义的名称。 现实世界中的想法、抽象概念或事物的集合, 1 5 对象类o b j 。c tc l a s s 有清楚的边界和含义,并且特性和其行为遵循 一定的规则而能够加以标识。 1 6 对象o b j e c t 可以想象或感觉的世界的任一部分。【g b i t 1 5 2 3 7 】 1 7 特性p r o p e r t y 对象类的所有个体所共有的某种性质。 值域、数据类型的组合,必要时也包括度量单 l s 表示r e p r e s e n t a t i o n 位或字符集。 队及恍1 i 恳绡俐列莱卅刀a 刖裂硒班职删呆 1 9 数据模型d a t am o d e l 种描述。 定义和描述其它数据或过程的数据称为元数 2 0 元数据m e t a d a t a 据。 第1 章数据元相关理论 1 2 数据元的概念及组成 1 2 1 数据元的定义 数据元又称数据类型或数据元,是一种非常重要的元数据类型。数据元是通过定义、 标识、表示以及允许值等一系列属性描述的数据单元,对于这个定义可以作以下的理解: ( 1 ) 数据元是一个数据单元:、是一个组织管理数据的基本单元。、数据元是 数据共享的共同持有的最小单元。、数据元在信息系统环境的数据元中是面向对象范 例中这些实体或对象以及它们属性的表示。 ( 2 ) 这个数据单元的基本特征是:、定义,是对基本特性的陈述,并使之有别于 其它数据元。、名称标识,名称是赋于数据元的语义的、自然语言的标记。当名称不 是唯一时,就要有标识,使每一个数据元( 有时,包括数据元的实例值) 应获得一个标 识符以使数据元在整个计算空间( 如:应用程序、分布的计算系统、组织、企业等) 得 到唯一的标识。、允许值,数据元允许事例的集即是有效值的集合。每一个值均 有特别的含义。、数据元中最重要的表示是值域,也是对于描述一个数据元所必须的 元数据的一个完整部分。一个“值域”所导向的是一个数据元所表示的数据的内容、形 式和结构。一个值域是一个允许值的集合。一个允许值是这个“值”及其含义的联合, 这个被联合的含义被叫做“值含义”。 ( 3 ) 数据元都由自身的一组属性描述,面每一个属性又由若干条基本描述符来描 述。基本的描述属性与元数据是相同的,因此数据元具有元数据性质。 ( 4 ) 数据元是结构化的数据。它是按照一定的语义规则命名数据元的名称,同时又 用联系类属性,建立了相互之间的联系。 1 2 2 数据元组成结构 数据元在特定的语义环境中被认为是不可再分的最小数据单元,一般来说是由对 象、特性和表示组成。对象类与特性联合在一起形成数据元概念,而特性与表示联合在 一起形成通配数据元。 ( 1 ) 对象类:现实世界中的想法、抽象概念或事物的集合,有清楚的边界和含义, 并且其特性和行为遵循同样的规则,且能够加以识别。对象类用于收集和存储数据的事 物,例如井、岩芯、管线、储罐、聚乙烯等都是对象类。 ( 2 ) 特性:对象类的所有个体所共有的某种性质。特性是用来区别和描述对象的, 例如颜色、性别、年龄、收入、地址、价格等均为描述对象的特性。 ( 3 ) 表示:值域、数据类型的组合,必要时也包括度量单位或字符集。 ( 4 ) 数据元概念( d e c ) :对象类与特性联合在一起形成数据元概念,数据元概念在数 据分类中是非常有用的。一般来讲,数据元概念是一个抽象意义上的数据元,但这类数 4 大庆石油学院硬十研究生学位论文 据元的对象类已经限定,只有经过对数据元概念中的各个要素再进一步的限定,才使数 据元概念变成真正有意义的应用数据元。所以,数据元概念本身具有抽象性与分类性。 ( 5 ) 通配数据元:特性与表示联合在一起形成通配数据元。此概念与某个特定的对 象无关,在任何语境下的含义都是相同的。 表1 2 给出了一些典型的数据元组成实例 表1 _ 2 数据元的组成实例 示例号数据元名称 对象类词特性词 限定词表示词 l 原油月产量原油产量月 ( 值) 2 原油累产量 原油产量累 ( 值) 3 原油日产量原油产量日 ( 值) 4 地层水渗透率 地层水渗透率 ( 僮) 5 天然气探明储量天然气储量探明 ( 值) 注:1 在特性词中含有表示的含义时可以无表示词;如;“项目费用”中,可以不写表示词: 。金额” 2 表中的在。袭示词”一列中。表示词均用括号扩起来,这表示这些数据元本身的特性词中就 蕴含着表示诃 数据元是由数据元概念和表示两部分组成。当一个表示被联合到一个数据元概念上 时,就产生了数据元。数据元和数据元概念间存在多对一的关系,也就是一个数据元必 须对应一个数据元概念,而一个数据元概念可以有多个数据元,换句话说,多个数据元 可以共享一个数据元概念。关于数据元中这些要素的理解,参见图1 1 嘲。 数据元概老 羲据元 教据攘型 l :n i 对象类 i 翌墨苎l i l i :n 1 ;1 1 特性 篁竺f l t1 l 表示 图1 - 1 数据元结构 数据元与表示之间的关系是一对一的关系,也就是一个数据元需要一个表示。当数 据元的概念相同而表示不同时就是两个不同的数据元,数据元中的表示是对数据元概念 特性的描述。 数据元概念由对象和特性构成。一个对象类可以有多个特性类来描述,但每个特性 类来描述对象某一方面,当一个特性和一个对象类建立关联时就产生了一个数据元概 念。同实体关系数据模型相比,模型中的实体相当于数据元中的对象类,而实体的属性 相当于数据元中的特性和表示。 第f 章数据元相关理论 1 3 数据元的基本属性 数据元是通过元数据属性来描述自身,数据元的元数据描述了数据元特性、语义等 信息。数据元的表示规范是通过描述数据元的一系列属性来实现的。这些属性实际上就 是数据元的元数据,包括以下几类基本数据元属性: 1 ) 标识类属性:适用于数据元标识的属性。 标识类属性包括标识符、中文名称、英文名称和别名。标识符是数据元的唯一标识, 一般采用唯一性编码。中文名称描述该数据元在数据模型或数据交换中标签名称,可以 是一个或者多个名称。英文名称描述与中文名称对应的英文释义,有且只有一个。在数 据实例层,一般以英文为主,而中文名称则主要是显示标签的名称。别名是该数据元在 不同专业或者领域内的不同标签名称。因此,中文名称、英文名称和别名的设置,可以 满足不同专业应用需求中数据元的名称描述。 以上的描述数据元的属性归结在表1 3 中1 6 】。 6 表i _ 3 1 6 1 数据元的基本属性 属性种类 数据元属性名称是否必须 标识符 m 中文名称 c 标识类 英文名称 c 别名 c 定义类定义m 分类模式 o 关键字 o 关系类 相关数据参照 。 关系类型 c 表示类别m 表示形式 m 数据元值的数据类型 m 表示类 数据元值的约束规则 m 表示格式 c 数据元允许值 m 主管机构 。 注册状态 c 管理类 提交机构 。 备注 。 注:m 必选、c 条件选、d 可选 大庆石油学院硬士研究生学位论文 2 ) 定义类属性:描述数据元语义方面的属性。 表达一个数据元本质特性并使其区别于所有其它数据元的名称。 3 ) 关系类属性:描述各数据元之间相互关联或数据元与分类模式、数据元概念、 对象、实体之间关联的属性。 关系类属性给出数据元的类别标识以及与其它数据元的关系描述。数据元之间的关 系主要是由基本数据元派生应用数据元而产生的,后边的章节将作详细论述。关系类属 性为数据元提供了重用机制,可以在已有数据元基础上派生新的数据元。 4 ) 表示类属性:描述数据元表示方面的属性。 表示类属性包括表示类别、数据元的数据类型以及数据元值约束规则。表示类别标 识该数据元的数据录入方式,数据类型限定了数据元的取值。而数据元值约束规则是对 值域进行审查的一个语法描述。数据类型包括数据元值的数据类型、数据元值的最大长 度、数据元值的最小长度和度量单位等。 5 ) 管理类属性:用于数据元管理与控制方面的属性。 管理类属性指明数据元的当前状态以及批准f 1 期等信息。管理类数据元虽然不是数据元 的自然属性,它是为便于数据元的管理和维护而附加上的属性,但它在数据元整个生命 周期管理中占重要位置。 1 4 数据元的命名规则 数据元中英文名称的命名应遵循以下三个方面的规则【6 】。 ( 1 ) 唯一性规则 规则1 :在一定语境下数据元名称应该唯一,名称中一般包括对象类词、特性词、 表示词和限定词。 ( 2 ) 语义规则 规贝1 j 2 :“对象类”词表示数据元所属的事物或概念,它表示某一语境下一个活动或 对象,它是数据元中占支配地位的部分:数据元名称中应有一个且仅有一个对象类词, 对象类可以由两个或多个其它对象类构成。 规则3 ;“特性”词是表示数据元的对象类的显著的、有区别的特征;数据元名称中 应有一个且仅有一个特性词。 规则4 :“表示”词是数据元名称中描述数据元表示形成的一个成分。它描述了数据 元有效值集合的格式,数据元名称中应有一个且仅有一个表示词。 表1 4 嘲给出了国际范围内一些认可的表示词。 ( 3 ) 语法规则 规则5 :“对象类”词应处于名称的第一( 最左) 位置,“特性”词应处于第二位置,“表 示”词应处于最后位置,即构成规则如下; 对象词) + ( 特性词) + + 特性限定词 + ( 特性词) + ( 表示词) 规则7 :当表示词与特性词有重复或部分重复时,可以从名称中将多余词删除掉。 ( 4 ) 数据元英文名称的词法规则 规则8 :名词使用单数形式。动词使用现在时。 规则9 ;名称的各个部分之问用空格分隔,不允许使用特殊字符。 规则l o :允许使用缩写词、首字母缩略词和大写首字母。 1 5 元数据相关技术 1 5 1 元数据的概念 元数据( m e t a d a t a ) 是描述其它数据的数据( d a t aa b o u to t h e rd a t a ) ,或者说是提 供某种资源信息的有关的结构数据( s t r u c t u r e dd a t a ) 。元数据是通过描述信息资源或 数据等对象的数据,其使用目的在于:识别资源、评价资源、追踪资源等,实现简单高 效地管理大量网络化的数据,实现数据资源的有效发现、查找、一体化组织和对使用资 源的有效管理。 1 、元数据的作用 大庆石油学院硕l 研究生学位论文 元数据是描述信息资源或数据等对象的结构化数据。在信息获取或者信息决策中, 元数据的作用己经越来越重要,也越来越受到人们的重视,具体的来说元数据的作用可 以归纳如下: ( 1 ) 用来组织和管理信息,并挖掘信息资源。通过它可以在广域网或因特网上准确 地识别定位和访问信息。 ( 2 ) 帮助数据使用者查询所需信息,以便对数据是否能满足其需求做出正确的判断 或者用于对检索结果进行过滤。 ( 3 ) 用来建立信息的数据目录和数据交换中心。通过数据目录和数据交换中心等提 供的元数据内容,用户可以共享信息、维护数据结果,以及对它们进行优化等。 ( 4 ) 提供数据转换方面的信息。使用户在获取信息的同时便可以得到与之相关的元 数据信息。通过元数据,人们可以接受并理解信息,与自己的信息集成在一起,进行不 同方面的科学分析和决策。 总之,元数据是使数据充分发挥作用的重要条件之一。它可以用于数据文档建立、 数据发布、数据浏览、数据转换等多个方面。元数据对于促进数据的管理、使用和共享 均有重要的作用,数据如果没有元数据支持,就很难有效地进行管理和使用。元数据对 于数据集成和数据共享也是十分重要的。通过元数据的支持,增强数据模型的可理解性, 提高数据模型的兼容性,帮助定义数据交换的接口等。 2 、元数据的类型 根据元数据在组织信息资源的功能上划分元数据可分为: ( 1 ) 知识描述型元数据( i n t e l l e c t u a lm e t a d a t a ) ,用来描述、发现和鉴别数字化信息对 象,如m a r c ,d c ,它主要描述信息资源的主题内容特征。 ( 2 ) 结构型元数据( s t r u e t u r a l m e t a d a t a ) ,描述数字化信息资源的内部结构。如目录、 章节、段落的特征。 ( 3 ) 存取控制型元数据( a c ee s sc o n t r o lm e t a d a t a ) ,用来描述数字化信息资源能够被 利用的基本条件和期限,以及这些资源的知识产权特征和使用权限。 ( 4 ) 评价型元数据( c r i t i c a lm e t a d a t a ) ,描述和管理数据在信息评价体系中的位置。 3 、元数据的特点 ( 1 ) 描述性:这是所有元数据的最本质特征。元数据是描述数据的数据,它按一种 约定俗成的规则来描述对象,并据此来组织和管理信息资源,只有先描述才会有组织和 管理功能的发挥。 ( 2 ) 动态性:元数据不是静止不变的,它随着所描述对象的变化而变化。 ( 3 ) 多样性:这是指元数据的类型多样。一个描述对象的元数据会有各方面的特征。 我们从不同的角度对其进行划分会产生不同的结果。 ( 4 ) 复杂性:这主要表现在两个方面:方面,元数据既可以是集合概念,也可以 是个体概念。元数据中还可以包括其他的元数据;另一方面,对不同的描述对象,有些 9 第1 章数据元相关理论 元数据项是必须有的,而有些却不一定强求,即强制性的元数据与选择性的元数据共存。 ( 5 ) 多层次性:这一方面是由元数据所描述对象的多层次决定的;另一方面是由元 数据使用对象的多层次性决定的。 ( 6 ) 支撑性:从某种程度上来说,元数据相对内容而言,处于次要的地位,但又是 必不可少的,起支撑的作用,它有效地维护所描述对象的原始性和完整性。另一方面, 元数据的支撑性还表现在它与所描述对象的共存,能保证资源的长期使用,在产生它的 人、计算机系统乃至标准停用后,仍可继续使用。 i 5 2 元数据与数据元的关系 数据元和元数据是非常相似的概念,他们关系紧密,但又不能等同于同一概念。元 数据和数据元的定义是从不同角度论述的。由于描述的侧重面不同,元数据和数据元的 描述属性也有些区别,但是元数据和数据元的字典格式是基本一致的。但元数据和数据 元都是数据,从本质来说数据元也是一类元数据。从元数据和数据元的规范用于实现数 据共享的角度出发,两者也没有差异。 ( 1 ) 从定义描述来看,元数据强调其描述性和信息支持性,元数据主要是为信息处 理提供信息支持,尽量让更多的信息系统理解信息对象,而达到信息共享。而数据元强 调其原子性和标准性,从数据源头上分析数据的构成而形成一套标准,各信息系统按照 此标准实施,就可以达到信息共享。 ( 2 ) 从数据角度考虑,元数据是数据的自身描述,而数据元则是数据自身规范化。 ( 3 ) 从数据标准化角度,元数据是一个相对宽泛的概念,没有特定的标准。而数据 元本身就有一套标准对其标准化。可以说数据元是一类元数据,是标准化的元数据,而 元数据标准本身就是数据元。 ( 4 ) 从存储角度,将元数据存储于一个库中,并使之条理化就需要建模,建模就需 要从数据元的注册系统中或库中获取元数据。 ( 5 ) 从应用角度,数据元和元数据都是为了提高信息共享。但数据元从数据标准化 考虑,而元数据从信息应用的角度。 结论:元数据和数据元紧密结合,不必刻意区分。从元数据角度来看,数据元是通 过元数据属性来描述的,从数据元角度来看,元数据的标准化就是数据元。而经过数据 元分析过程,规范化数据后形成的数据元字典,在实际应用中,也是作为元数据处理的。 大庆石油学院硕上研究生学位论文 第2 章石油勘探与开发数据模型面临问题 本章基于数据元理论分析方法,从数据交换、数据集成以及信息共享的角度,分 析目前大庆油田勘探与开发数据的现状以及不足。 p c d m ( p e t r o l e u mc h i n ad a t am o d e l ) 是中石油集勘探与开发于一体的一个比较 权威的数据字典,能反应目前大庆油田勘探与开发数据应用与管理现状。所以整个规 范化方法研究是基于这个字典的。通过对整个字典的聚类分析,将目前该字典中存在 的一些问题,从数据元的角度来考虑的,归纳出如下的几大类问题: 2 1 p c d m 聚类分析结果 2 1 1 数据项名称的冲突 同一个数据项在不同的系统中其名称等不完全相同,即存在所谓的同义异名现象。 对于这些系统,如果要进行数据交换就必须开发数据转换接口。同一油田不同系统内数 据属性名的不统一,见图2 1 。 a 2 袖田勘探羹据库a 2 油田开发数据摩 2 油田钻井数据库 据 称 重 拉力 长 深 图2 1 不同专业数据模型中属性不一致产生 从图2 - 1 可以看出,同时“套管下入深度”数据项,在油田勘探数据模型中称为“下 入井深”、在油田开发数据模型中称为“下深”。其它数据项也存在类似的问题。 2 1 2 “值域”冲突 同一数据库内数据的取值范围以及度量单位不统一,影响了数据库的运行质量和效 率,表2 1 中的同样是“日产油量”,但它们的宽度以及计量单位均不统一。 第2 章石油勘探弓开发数据模型面临讶题 表2 1 日产油量与年度累产油量数据项 宽 数据表名称 数据项 数据 宽 小数度量 数据项描述 度 名称类型 度 位数单位 1采油井生产日报 日产油量n 61 t d 公式:( 日产液 ( 卜含水 率) ) 一日扣油量。 2 生产日报日产油量n 73t 1 0 4 公式:上月热采单元年累 热采单元年 n94 产油量+ 热采单元月产油 3 油田开发热采月报 累产油量t a 量。 1 0 4 用月产油量计算出来的年 4 年度产油量 n84 t a 度产油量。 油气田产能建设月 报 表2 2 中列出的一些数项,它们虽然同属一类,但计量单位命名不统一,例如同是 年产,结果计量单位有的是l o 4 t a ,而有的则是t ,所以计量单位比较混乱。 表2 2 不同产油量计算单位的不统一 序数据小数度量 号 数据表名称数据项名称 宽 数据项描述 类型 度 位数单位 引用试油期间稳 1 试油解释成果 日产油量n6 2 t d 定日产油量 油田产能建设年预计当年产油 2n8 41 0 4 4 t a 预计当年产油量 计划 量 气田配声配注年预计年产凝析预计年产凝析油 3n6t 计划 油量量 值域冲突的另一种情况是类型冲突,即对同一属性不同模型采用不同的数据类型来 表示,如日期类型的属性,数据模型就可能采用字符类型、日期类型或者日期时间类型, 造成不同信息系统中,对时间表示的数据类型及其精度均存在冲突。还有一种冲突就是 精度冲突,即对数值的允许存在的误差界定不统一。 总之,“值域”冲突的情况主要包括:数据类型冲突、取值范围冲突、计量单位不 统一以及精度冲突。 2 1 3 “对象”分类不统一 不同专业和应用之间由于出发点不同,对同一类信息有不同的分类,其结果导致同 一对象多种名称,不利于信息系统间的数据交换。见表2 3 给出了两个专业对“原油产 品”对象的不同分类。 大庆石油学院硕j :研究生学位论文 表2 - 3 不同产油量计算单位的不统一 计划统计的分类 财务的分类 原油原油 凝析油 高凝油 高凝油 稠油稠油 稀油稀油 管输原油 其它原油 轻烃液化气轻烃 凝析油 油田液化气 天然气天然气与管道 井口天然气 净化天然气 管输天然气 2 1 4 大量无规则的“派生”数据项 因为统计分析或工作计划的需要,对同一个对象作各类统计,并由此派生了大量的 新的数据项名称,又各自定义了相应的值域,加剧了数据属性的冲突。例如表2 - 4 中列 出的“预探、评价项目现状表”中存在着大量的由统计而得到的数据。 表2 - 4 大量派生数据项 磊油储蕞 潜在资总资源 勘探项目探明储量 控铂储璧颈瀚储嚣 源量量 地曩司采毽质刃= 瓣穗交刃菜 油田公司合计 项目1 项目2 预探阶段项目3 小计 项目1 项目2 评价阶段项目3 小计 第2 章石油勘探与开发数据模型商临简燕 由表2 - 4 可以看出:探明石油地质储量、探明石油可采储量、控制石油地质储量、 控制石油可采储量、预测石油地质储量、预测石油可采储量等以及又派生出的其它有关 石油储量的数据项名称。 2 1 5 将数据基本单元作为实例数据 油田开发数据库的分析化验部分,大约有3 0 余张表按照分析化验项目中的分析内 容将分析的各种成份直接作为表的属性来构建模型,结果使得分析化验项目如果增加一 个化验成份时就要改变表的结构。所以这种结构是十分不稳定的,例如,“铁含量”、“镍 含量”、“锌含量”等在表中均作为表的属性存在的,按照数据元理论应该将矿物成分与 矿物含量作为一对数据元存在来描述各种分析化验中的各种成份的含量的。 2 2p c d m 数据模型存在问题综述 各油田出于的自身应用需要,自己定义数据形式,造成了上面分析的石油数据问题, 而这些问题是我们建立自己的数据中心必须面对,不可回避的问题。这里将这些问题进 行统一的归纳总结。 ( 1 ) 描述性数据不规范:对同一数据项,各油田也采用各自的习惯方式进行描述, 造成数据管理混乱。 ( 2 ) 名称冲突:存在同义异名现象,不同系统之间的数据转换要设计不同的接口来 解决应用集成。 ( 3 ) 值域冲突:同一数据库内数据的取值范围以及度量单位不统一,影响了数据库 的运行质量和效率。 ( 4 ) 分类不统一;不同专业和应用之间由于出发点不同,对同一类信息有不同的分 类。 ( 5 ) 大量不规范的派生数据:因为统计分析或工作计划的需要,对同一个对象作各 类统计,并由此派生了大量的新的数据项名称,又各自定义了相应的值域,加剧了数据 属性的冲突。 综上所述,由于石油勘探与开发数据模型是面向应用设计的,且各个企业、部门或 专业之间没有交流,造成数据属性“名、型、值”的冲突,破坏了数据的完整性和统一 性;大量的派生数据及其不规范的属性定义加剧了这一矛盾;专业内部不同系统之间以 及不同专业之间,信息分类与定义的差异,使得企业的数据集成与信息共享变得十分困 难,严重制约着油田信息化建设。本文基于数据元理论,提出了解决上述问题规范化模 型或者方法,并据此设计和实现数据元注册系统,最终形成石油勘探与开发数据元字典。 1 4 大庆石油学院硕卜研究生学位论文 第3 章勘探与开发数据元关键技术研究 本章将针对第2 章分析结果,基于数据元相关技术,提出相应的规范化方法或者模 型,并给出指导性的数据规范化方法。 3 1 数据元描述模型 第2 章已经对数据元规范化方法中一些比较重要的概念进行了论述。通过对数据元 框架模型的研究,提出了描述数据元的一个综合模型。该模型将组成数据元的成分以及 数据元值域等要素有机地联系在起,其结构模型见图3 - 1 。图3 1 给出了对象类、特 性、通配数据元、基本数据元、数据元概念、限定词、分类模式以及应用数据元间的关 系。 图3 - 1 数据元各要素闻的关系 荡9 吼在这个模型中还给出了数据元中的一个重要要素数据元值域,在这里将 值域在逻辑上分成两个层次,第一个是与基本数据元相关联的基本值域,第二个就是与 应用数据元相关联的应用值域。这些数据元值域间有一定的继承性,即应用值域都不会 超过其相应基本值域,这是对数据元取值上的限定。在度量单位上,它们同样也具有继 承性。 从图3 - 1 可以看出,几条路线: ( 1 ) 对象类与特性类构成数据元概念; ( 2 ) 特性类与表示类构成通配数据元; ( 3 ) 数据元概念与表示类构成基本数据元: ( 4 ) 对象类与通配数据元构成基本数据元: 第3 章勘探2 i 开发数据元关键技术研究 ( 5 ) 基本数据元经过限定词限定后生成应用数据元。 从图3 1 可以看出,应用数据元是我们利用数据元方法分析得到的最终产物,这些 应用数据元最终面向的是用户。 表3 1 给出一个具体实例。 表3 一i 数据元名称结构 类别示例l 示例2示例3 通配数据元储蹙产量孔隙度 基本数据元石油+ 储量原油+ 产最岩石+ 孔隙度 石油+ 地质 + 储量、石油原油+ 日 + 产量、原 储集岩十孔隙度、基岩+ 孔 应用数据元 + 剩余 + 储量油+ 年 + 产油量 隙度 注:p 一表示数据元中各个要素间的连接关系。 从表3 1 中可以看出,“储量”、“产量”以及“孔隙度”均属于通配数据元,同时,这些 通配数据元本身就包
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 数据共享协议的法律风险
- 2025年事业单位招聘考试物流类专业能力测试试卷及答案
- 2025年事业单位招聘考试综合类公共基础知识真题模拟试卷(生活智慧库)
- 2025年成都市事业单位招聘考试时事政治真题模拟试卷
- 2025年安徽省事业单位招聘考试综合类无领导小组讨论面试真题模拟试卷
- 2025广东深圳市大鹏新区群团工作部招聘编外人员1人考前自测高频考点模拟试题及答案详解(名校卷)
- 2025年海南省事业单位招聘考试综合类专业能力测试试卷(财务类)真题模拟解析及答案
- 2025年事业单位招聘面试真题模拟试卷:通信科学研究与应用
- 国家安全处置方案
- 幼儿园安全管理制度
- DB11∕T 1010-2019 信息化项目软件开发费用测算规范
- 新龙县介绍模板
- 2025-2026学年人教版(2024)初中体育与健康八年级全一册《兴趣伴成长》教学设计
- 2025年题库红色知识竞赛题库全集及参考答案
- 规范垂直大模型质量验收规程
- 全国川教版信息技术八年级下册第一单元第1节 《设计创意挂件》教学设计
- 2025年旌德县事业单位引进急需紧缺专业人才30人笔试备考试题及答案解析
- 2025年园林绿化工(二级)职业技能鉴定机考仿真500题(附答案)
- 2025至2030中国汽车配件行业现状供需分析及重点企业投资评估规划分析报告
- 2025年6月上海市高考语文试题卷(含答案详解)
- 广西邕衡教育名校联盟2026届高三上学期9月联合调研测试地理试卷(含答案)
评论
0/150
提交评论