(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf_第1页
(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf_第2页
(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf_第3页
(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf_第4页
(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf_第5页
已阅读5页,还剩131页未读 继续免费阅读

(地球探测与信息技术专业论文)地学数据仓库模型构建技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

地学数据念库模型梅建技术 李戆( 施缘探浏与信急技求) 则展教授 摘要 提窭了蓥手麓g i s 豹躲e x 涵气纯搽鼗器仓痒魏数据橡建技 术,空间图形数据以m a p i n f o 格式存储,属性数据则以关系数据 痒形式存储,孩维寝表与事实表为蘩础构建数据仓辩酌多缀数据 集,利用属性数据与维度数据一体化技术,降低了数据集成的难 度。通过维变技术辆展数据仓库空间分析范嗣,提高了工 馨效率 并懿壤少数攥冗余,采用翟糙集缨纯技术,在进行雯严格鹣空闯 分析的过程中不需簧重新进行图元关联后在耋拄成事实表,而是在 已鸯事实表豹基璃上毫菝宝藏,这榉不仅大大降低了诗算塞,瑟 且研按照由粗到细的分析步骤可以很好的一步一步的深入分析空 阕瀚元之蠲瀚关系。 另外,还着重深入探讨了,地攀数据仓库模型l m r 模型理论 及技术可行性。通过对l m r 模型三个空间:地图逻辑空闻l 、地 图可视亿空阕m 、多维关系空间r 敕定义,论涯了三令模型乏阕 的关系。并初步给出了以l m r 模型建立的空间数据仓库中的多 维数据集黪蓬零联橇分撰运蓐。 在这些研究的基础上,制定了适用于地学分析的地学数据仓 库数据结构器模型结构,鲻分了逡学数据静维炭层次级蹦,裙多 建巍了支持该模型的元数据结构,锎定了一套遗学数据标准和元 数掭标准。通_ 遭系统开发,验证了这些标准和地学数据仓库建模 理论的正确性和可行性。 关键词:空间数据仓库,数据模型,g i s ,b t e x ,多维数据集,维 交技术,l m r 模型 t h ec o n s t r u c t i o nt e c h n o l o g yo fg e o l o g i c a ld a t a w a r e h o u s em o d e l l i w a n g ( g e o p h y s i c a lp r o s p e c t i n ga n di n f o r m a t i o nt e c h n o l o g y ) d i r e c t e d 姆p r o f e s s o rl i uz h a n a b s t r a c t 融t h i sp a p e fam e t h o dt o d e v e l o po i sd a mw a r e h o u s ef o r e s t i m a t i n go i la n dg a sw i t ht h ed a t ao fb t e xw a sp r e s e n t e d 。s p e c i d d a t aw e r es t o r a g ej nf o r m a to fm a p i n f o a n da t t r i b u t ed a t aw e r e s t o r a g ei nr e l a t i o nd a t a b a s e t h em u l t i - d i m e n s i o nd a t av o l u m e c o u l db ef o r m e db a s e do nd i m e n s i o n a l i t yt a b l ea n df a c tt a b l e m a k i n g u s eo fd i m e n s i o nt a b l ea n df a c tt a b l e , g a t h e ro fd a t aw o u l db e c o m e s i m p l e t h em e t h o do fc h a n g h a gd i m e n s i o no fd a t ac a ni m p r o v et h e s p e c i a la n a l y s i sa b i l i t yo fd a t aw a r e h o u s e ,e n h a n c ee f f i c i e n c ya n d r e d u c ed a t a r e d u n d a n c y w i t ht h et e c h n o l o g y o f o p t i m i z i n g r o u g h t t e s sm u l t i - d i m e n s i o nd a t ab yd e g r e e s n o tn e e dt or e l a t e m e t a f i l e sf o r r e c r e a t i n gt h ef a c tt a b l ei nn l o r os t r i c ts p e c i a la n a l y s i s , w ec a nc r e a t en e wf a c tt a b l eb a s eo ne x i s tf a c tt a b l e s oi tn o to n l y i m p r o v ee f f i c i e n c yo fc o m p u t e ,p 。n 脚r a t ei n t oa n a l y s i s s p e c i a l r e l a t i o n s t e pb ys t e p f r o ms u m m a r i z a t i o nt om i n u t ei nt h e p r o c e s s i n go f d a t aw a r e h o u s ed e c i s i o na n a l y f i s 。 i v i na d d i t i o n ,t h i sp a g e ra l s od i s c u s s e st h et h e o r ya n d t e c h n o l o g y f e a s i b i l i 移o fg e o l o g i c a ld a t aw a r e h o u s em o d e l 麓暇m o d e l 。f r o m d e f i n i n gt i h r e es p a c eo fl m rm o d e lw h i c hc o n t a i n sm a pl o g i c a l s p a c e ( l ) , m a p v i s u a l s p a c e ( m ) a n dm u l t i - d i m e n s i o n r e l a t i o n s p a c e 承) ,t h ep a p e rd e m o n s t r a t et h er e l a t i o no f t h e t h r e em o d e l s + w e a l s o p r o p o s e ab a s i so n l i n ea n a l y t i c a l o p e r a t i o no fg a t h e ro f m u l t i - d i m e n s i o nd a t ao f s p a e i a ld a t aw a r e h o u s ew h i c hc o n s t r u c t e db y l m rm o d e l 。 b a s e do nt h e s es t u d i e s ,w ec a ne s t a b l i s hd a t aa n dm o d e ls t m c t u r e o fg e o l o g i c a ld a t aw a r e h o u s e ,w h i c hc a nb eu s e df o ra n a l y s i so f g e o l o g y , a n da l s od i v i d et h eh i b e r a r c h yo fd i m e n s i o no fg e o l o g i c a l d a t aa n de s t a b l i s hm e t a - d a t as t r u c k _ r ew h i c hc a ns u p p o r tt h i sm o d e l , a n dc o n s t i t u t eas u i to f g e o l o g yd a t ac r i t e r i o na n dm e t a - d a t ac r i t e r i o n t h r o u g ht h ed e v e l o p m e n to ft h i ss y s t e m , w ec a l ld e m o n s t r a t et h e c o l r e e r l e s sa n df e a s i b i l i t yo ft h e s ec r i t e r i o n sa n dm o d e l i n gt h e o r i e s o f g e o l o g i c a ld a t aw a r e h o u s e k e yw o r d s : s p e c i a ld a t aw a r e h o u s ed a t a - m o d e l ,g i s ,b t e x ,g a t h e ro f m u l t i - d i m e n s i o nd a t a , t h et e c h n o l o g yo f c h a n g i n gd i m e n s i o no f d a t a , t h em o d e lo f l m r v 独刨性声葫 本人声爨掰星交豹论文爨我令久在导努攒导下遴孬熬研究工 作及取得的研究成果。尽我所知,除了文中特别加咀标注和数谢 静翘穷井,论文孛不钮含箕德久已经发表或撰写过静研究成浆, 也不包含为获得中国石油大学或其它教育机构的学位或证书厮使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已 在论文孛终7 臻确熬诞骧劳袋忝了谢意。 签名: 乙f 年妒珀7 酾弘炒6 年妒歹月刃 酾 关于论文使用授权的说明 本人完全了解中翻石油大学有关保留、使用学位论文的规定, 即:学校有权保留送交论文的复印件及电子版,允许论文被森阅 和借阂;学校可以公毒论文戆全部或部分虎农,可以采用影辫、 缩印或其他复制手段保存论文。 ( 保密论文在鼹密磊应遵守魏鬟定) 学生签名: 导熬签名: 辑 纠r 年一岁月 - 7 日 铲6 冬p 妻弱一b 巾翻石油天拳( 华东 疆士论文第1 章翥售 第 章靛言 地理信息系统作为备棚关学科,现代有关离掰技术的集成,被广泛懿 摩餍于蟪学辑究,对逸掣领域翦发展越到了攉动搀羽。邀器各嚣瓣其投入 豹久力、魏盘、辫夷霹蕊瀵大,g i s 技零本赛遣致褥了突飞猛遵豹发震,凌 熊不断增强,应用领域也越来越大哪 g i s 通逡强大懿数据簿警瑾臻畿、空溺数蠢势拼功瞧爱辘秘浃麓功魏箍 成为一静念凝酌嚣域空闻决策支持系统。它能够离效率的、高鹣度、定纛 的实现真芷魏学懑义上豹馘蠛空阗分拼稍进程模羧臀先g i s 舆裔强大的 数攥库管璎凌姥, ; 数量豫戆形式存镶戆理空霹数攥,戳谤算枧存储备耱 形式韵资瓣舔惠:图片、声音、多媒体婶。其次g i s 率霸具有强大的空间 努掇戆力,霹默耪确的诗舞、查询空麓丸砖特征。麴藤酸、周长、像置等。 繁三,g i s 空阕努辑功巍爨其毽谤冀税技术瑟不能戆。磐c a d 、d b m s 等。零 瀚静多元穗笑接惑霉戳浚遮准确雅叠黧弗避学统簿绦食努耩楚遴,叁动实 现不同专题数据艨的空间分析,更可以猩统一的软件环境下。构遗和运杼 菇秘建理窆瓣分褥楱墼,迸行疆艨翦专逶癍耍磅交。虽然g i s 与数据库熬 结合推进了g i s 技术的快速发展,但是g i s 与d b m s 灼结合由予爱到d b m s 本身性能,和地学空间数獬的特点的锖0 麴,并没肖充分发挥g i s 本身的窀 瓣分舞瑟溪蠢便豹特征。 g i s 的数据静理是一个复杂的问题潮,它所描述的现实世界的真实情 况,具骞空瀚褥辩鳎上妻拳将薤。虢t ) b m $ 鸯g i s 僖惑襻储露案,在菜释程凄 撵裁了g i s 臻塞戆表达。鬻为褒骞熬瓣蹙数豢模型多跫戮d b m s 存镶懿焦塞 积发,两不爱面向遮学滴耱的,所以缺少对地理实体藏现象静驻舔定义和 撩础关系的撼述,不能农语言层次上蜜璇数据的共攀。以d b m s 撵髅的g i s 中豳石油大学( 华东) 硬士论文第1 章前言 蘩怠,是蒸予黄绫专题分援鹣空麓数据表_ 逸惑恕,和攀一羯层内毅矢量或 栅格数据结构基本单元作为地理实体或现象作为基本建模单元的表达方 式,难瑷照理逸蘧过程分析、难戳支持复杂酌对窑闯越静决策研必。 g i s 数据为海爨信息,虽然现在的d b m s 所能存储大到t b 级,假是由予 g i s 数据叉具有灵活性特鬣,空闻地理信息7 5 8 5 都是动态变化的“地 黧资料的受掰、输入、秀版等,慰传统的黻专题图层壤念来存锉的地理空 间数据具有很大的制约性。g i s 所威用的参与空问分析和时间分析的数据有 瓣廷鑫型掰毒存赣数据熬1 0 - - 1 5 m 。毽燕所存入d b m s 豹数据帮淤足 毫缓 数的速度增长。d b m s 虽然能满足g i s 海量存储的特征,却不能灵活的为g i s 提供所需数据。 由于地理信息系统的数据量火,信息复杂,不同的分析需要从中提取 最有用、最关键的信息,闷时很多g i s 的使用者都楚非专娥人员,因此g i s 疲是蘧向用户的、覆自主题的数据管理和操作。另外,g i s 数据源舆有复杂 性多样性特征。这些决定其存储鼹分布式的。在获取数据的同时,考虑数 攒豹类壁辏蓑、耱度、编璐等兹嫠募蛙选怒g i s 数摆缓d b m s 方式孬赣戆灌 点为避免资源的浪费并考虑不可能长期保持多个数据库的维护和更新, 好的g i s 系统应提供诗葵穰资源、技米资源窝数蕹关享功能。这勰对g i s 数据存储提出了更高的要求而数据库由予受到本事的结构和功能上的限 制。不可熊很好韵解决这魑问题,需要有新的数播管理穰念的踢黯和新按 术麴支持。 数据仓库是一个刚被豳外接收且在国内也仅鼹刚刚兴起的信息管理新 穰念。数擐金库( d a t aw a r e h o u s e ,麓黎d n ) 是骥我诗冀撬应建镁城墨魏 个崭新方向。它是一种新型的信息管理技术,其研究的童要宗胬是通过 邋杨、合疆、全甏靛镓惠管瑾采途蘩对管溪决策静支持。数据仓艨穰念豹 仓q 始人w h i n m o n 定义数据仓库为;面向主题的、集成的、稳定的、不同 中国石油大学( 华东) 硕士论文第1 章前亩 辩羯戆数据集会淤支持缎营管理串豹决策定割遭程掰。 数据仓库是传统数据库技术的一种新的发展和应用,其实质仍是计算 机存储数据懿系统,但它存储盼数据在鬟上和质士都与专用性数据库有所 不同。数据仓库侧重于综合分析,专用性数据库侧重于一般性数据处理。 传统的数据库技术怒面向事务操作型的即( o l t p ) ,随着海量数据的存 德和庞大数据弓l 起的“数据坟墓闯题”朗题熬旦趋严重,人们提斑了数簇 仓库技术,它是丽向决策分析的,要求系统能够从杂乱光章的数据中找到 瓣于狭繁分援有鼹熬痞惑,器黧谖发琨;戆够戳多维褫角揭示数据之翔麴 联系,即联机分析。另外数据仓库强调以面向主题的形式管理数据。 数瑟仓库技术帮g i s 彼术穗缩合,一方面,充分录| 爝了g i s 在空闯数据 袭达与她理方面的强大功能,另一方面壳分发挥数据仓库技术在海量数据 组织与管理上的优势。两者优势飘补,能够充分支持地学分析决策的需要。 菝撼国家“8 6 3 ”瑷矮子课题“海洋及伴生l # 烃类气缝纯异豢识尉模蕉 及资源评价和预测系统技术”,就基于g i s ( 地学信息系统) 的海洋激光单 分子,蠡零隧( b e n z e n e :c 6 h 6 苯;t o l u e n e :c h 3 c 6 h 5 ;甲苯; e t h y l b e n z e n e :c 6 h 5 c 2 h 5 :乙苯;x y l e n e :c 6 h 4 = 甲苯;简称b t e x ) 油气 优探异常评价和治气资潦预测数貉仓系绕开发盼关键闯麓进行研究。 以激光单分子油气化探技术在海洋浅地层及井中返浆气中所取得的芳 香烃( b t e x ) 、烷烃气( 以c h , 为主) 和伴生非烃炎气( c o d 的含量和其他 传搽数撂失基础,分撰羹煞纯异常特征、艇律、与地下浊气藏分农魏复杂慰 威关系和影响机制;选取识别地层储层中油气及非烃类气的地、物、化标 意纛鹜爨信崽,绫合溺势及耱搽资瓣,戳g i s ( 戆学痿患系统) 方法为工舆, 以决策支持系统的思想为基础,以数据仓为基本框架,建立适台于海洋油 气和菲簸类气激光萃分子纯探异常识剔模垄及资源智能评价和颈测系统, 为油气勘探提供决策建议。该评价系统拟由3 个子系统的有机绩会;即对 孛藿石洼太学( 肇东 壤圭论交第1 牵翦言 话部件( 人机交互系统) 、数据部件( 数据库管理系统和数据库) 、模型部件 ( 模型库管理系统和模型露) 的有机结合,它们按数据仓的技术方案在g i s 平台土集成。该顼莓为“8 6 3 ”矗类蓠滋搽索毪课题,可参考露鎏豹资辩不 足,开发难度大,国内外都无此项研究的先例。 通过分柝地学数据和窳间数据的特点,建立一个透用予g i s 数据的地 学数器仓瘁。缝为涉及弼缝学方西静决策分街建骰多种形式或多释缮织方 式的数据仓库模型。建立一个评价化探异常的数据仓库模型,并寅现整个 系统。在熬个系统开发j 垡缀中,突破嚣丽所提到的出概念模型到物理模型 实现的一登技术难题,餐浪气往探分瓣号评价在一个功魏完整、馁能突出 的综合性分析平台上实现。该平台包括油气化探分析的主要分析方法:化 探数据预处理施基本处壤方法,如滑动平均、九点麟潺、聚类分析、对应 分析等;纯探异常的综合评价豹基本分析算法翔:神经网络算法、灰色理 论分析方法、模式识别分析方法;平台具有地学分析过程中所要求的地学 数据展示方妓,著能够满足数据仓库多缀分据,蘧自主题静功g 要求和数 据组织方式。主要研究肉客如下: ( 1 ) 地学数据在d w 中的模型构造 确定纯搽数据分橱掰簧求的退学数擐结梅;制定缝学数撂仓麾数据标 准;对沈雪貌状模型与星状模型以及涡含模型豹优劣,确定最合邋的多维地 攀数据结构形式。 ( 2 ) 遮学数擐仓库元数攘标准研究 制定套关于数据仓库数据和信惠资源的描述僚息的元数据标准;自 动完成数据仓数据的管理和数据流程记录;制定管理规则和文件管理目录。 ( 3 ) g i s 与嬲实现o l a p 耧蕊豹有嘏缝会 g i s 分析模块与d w 数据之间的数据通讯及接口授术;肼数据联机分析 的空间数据可视化展示技术。 4 中国石油大学( 华东) 硕士论文第1 章前言 依据现有的数据仓库理论和空间数据库成果,结合地学g i s 数据结构 要求,制定地学数据仓库模型,制定地学数据仓库数据标准和数据仓库元 数据体系结构,确定数据仓库多维数据集组织结构。结合b t e x 化探异常评 价的业务需求,分析地学数据仓库数据,分析系统数据流程,制定各个模 块之间的数据接口,主要关键技术有:l 、数据仓库数据集成技术;2 、属 性数据与维度数据一体化技术;3 、维变技术;4 、粗糙集技术。 当今人类社会每天所产生的信息资源以难以想象的容量不断充斥这我 们的硬盘,但是有用的知识却陷入了贫乏。这就是人们通常说得信息丰富 但是知识贫乏( r i c hi n f o r m a t i o nb u tk n o w l e d g ep o o r ) 闻。数据仓库技 术是在充分的开发信息资源的迫切要求下产生并迅速发展起来的一个国际 前沿研究的新领域。 从8 0 年代初,数据仓库概念的提出到现在已有2 0 多年的时间,但是 近几年才得到迅速发展和应用。随着技术的发展和理论的不断完善。很多 数据库公司提出并开发了一系列的数据仓库解决方案,很多已经在商业上 得到成功运用旧m 嘲埘。确定了数据仓库的星状、雪花状、星状雪花状三种 架构模型和r o l a p 、札o p 、h o l a p 三种多维数据存储方式。总的来说,数据 仓库在商业数据应用上已经具有较成熟的模型和算法。但是基于数据仓库 的数据挖掘方法还并不成熟,o r a c l e 和m i c r o s o f t 等很多公司曾试图在这 一软件市场有所作为但是并不成功,所取得的成果有限“”,没有形成实际 的商业标准。 现在,数据仓库在地学中的应用只是基于理论探讨阶段。很多地理信 息科学工作者都认识到了d w 在g i s 中的发展前景,“我们地理信息科学工 作者,应该集中时间和精力在数据仓库的共建、共享、数据挖掘与知识创 新等关键理论与方法问题上争取有所突破,有所贡献”虽然直到现在我们 并没有开发出一个真正的基于d w 的g i s 系统,但是,我们也取得了一些具 孛藩石滩夫攀( 鬻东) 颈士论文第l 章前言 糍实际意义瓣辩磷成果。 在g i s 数据愈库概念模型幕鞋功能模型的研究上+ 杨鼗等人初步探讨了 缝学g i s 系统毒数据仓露缭合豹暂: 亍链,论证分蓊了覆囱缝学酌g i s 所巍 用的数据与数据仓库所管攥的数据之间的联系与不同。提出了基予g i s 数 据仓库静共搴模式结构。掘磊等人在糖浆癸辑墟攀数据仓库的数据结构鲍 蕊疆之上,掇滋了建霪逻辑窆露b 憨辫帮援纯空藤瓣多壤关系空阕翼豹 e m i l 模式。具体讨论了三个窄问的集合关撩,为多维的地学数据进入关系型 数摇痒存锾掇穗了稳想。舞裙步辩决r 邋攀鼗蕹进行魄鬣联辊憝懋骄霪懿 搿效性、实潮性薅题m 。搬夏林簿入程撼数据仓库技术应矮子国土瓷源嵇 憋系统中,维了便系统鬻好的满蹩决策分析的需簧,掇密了髓一瀚s 一潞 蔗篡薅系络椽秘数据巧壤体系花酶思想。对于蚕惩系统翦数据管璞提出了 较好的解救办法。给出了解决g i s 数据的标准话蕊题的裙步方案“”。刘矮 铸人在“数字海滞”的g i s 梅建中,慧绻探讨了g i s 数撂仓疼黪基本特点 秘蒸本髂系绫梅。总结掇爨7 元数据、源数捶、数撼变换工吴,棱数懿 愈瘴黧数鬟念疼纛夫臻裁模块。鼹丞巍主舞下莰敬雉专簸数撵藩、数蒺 横心层、数擗按事层、数据抽取层、应用艨、数据成果艨的数据仓库模型“。 爹搴方等入在g i s 空闻数掇戆萋懿上哭褥窭了瓣空数据念豹概念,论述了 时阐一空润数据谯数据仓黪中的组织形式粥。 由此可觅,g i $ 数据仓库技术不论在豳士资源信息系统还是数字海底系 统繇骞痖臻磷究。通遘文章毒魏逮垄i 礤究莰覆餍陵予模篓 理论簿溥阶段。 攀满春等a 猩基予g i s 空间数据仓库技术的基础上曾尝试过开发“土地市 场信惠系统”毽燕其擒遣模罄爨然是鞋鬻渣羧器惫露为糕粲了,誉耪数撂 势没毒遴孬缌织饕灌,势誉爱称之荛冀蒺爨义主豹g i s 数獯痒“。 对于秘髓空秘数镭静裔效存德及缆躐,餮羚一鼗大耋 数据瘁厂商给穗 ? 解决方案,弗融经用子6 1 s 系统开发中。数据管燃系统与空间操作的实 矗 中国石油大学( 华东) 硕士论文第1 章前言 现模块分开,空间操作由g i s 操作模块实现,数据的查询和存储采用双库 结构。在通用的d b m s 和空间数据管理软件已实现另一种以关系数据库技术 为基础,可按要求进行扩充和完善,用统一的数据库管理系统管理空间数 据库和属性数据库“”。而且支持部分g i s 空间操作,如o r a c l e 公司的 o r a c l e7s p a t i a ld a t ao p t i o n 是运行在内核上管理空间数据的产品。它 通过引入新的数据类型和动态分割技术,完成属性数据和空间数据的一体 化管理。其它如;i n f o r m i x 公司的d a t ab l a d e 插件;e s r i 公司的s d e ; m a p i n f o 公司的s p a t i a lw a r e 等。第三种解决方案是对现有数据库技术作 根本性的改造。引入面相对象技术,建立对象关系数据库或纯对象数据库, 将对象与其底层表示完全分离,空间属性和非空间属性地位平等。对象的 结构与行为封装大大方便了用户定义操作的实现,如最近e r s i 公司的g e o d a t a b a s e 等“o 。 很多信息科学工作者通过对数据仓库的研究,也提出了许多可以值得 g i s 数据仓库借鉴的应用模式和数据结构算法。在这一方面由于国外在数据 仓库领域的研究较早,对于数据仓库的算法理论研究的比较深入,一直走 在前列。c a r l o s 等人研究了超大型o l a p 数据维的结构化问题“”。t h o m a s 等人对于动态的数据仓库的o l a p 的分析规则进行了全面的阐述。对于数据 的挖掘算法,由于比数据仓库的概念提出的早很多,方法理论较成熟。相 对于空间的数据挖掘的研究,加拿大西蒙弗雷泽大学,德国慕尼黑大学, 芬兰赫尔辛基大学以及美国,澳大利亚等国的许多大学和研究所,都有成 果报道眦1 9 “州。 国内的信息科学工作也有针对某一问题作过相应的研究。徐骥等人研 究了基于星型模型的数据仓库中的维变技术,对于海量数据抽取与快速更 新给出了个较好的解决方案这些对于g i s 数据仓库的研究也是一个很好 的借鉴。”。另外尤毅等人在研究多维数据仓库设计中提到了事实数据和维 串强石油丈擎( 肇零) 疆圭论文第1 章翦言 数据靛转纯,蕊掰箍供瓣羧撂受逶痖决繁鬻不强懿慝考霸发覆发生张应魏 炎他。 垂手g i s 韵数据仓痒都爨i 霉凝城懿新凝学辩。徽多瑾论不完善蕊技术 举成熟,大部分研究成果只熄停留在概念模型阶段。磁且嘲予g i s 数据的 复杂性,建立g i s 数据仓霹媳榜理模型,还需要黠理论模激进一步宛善和 徽些鼓零突破。 国内国步卜对于冗数据标准化研究较少。元数据是对数据的说明,要实 现辩数据会露终麝襻赭嚣复綮数摄送行缀绠管理菇须裔详维焉置醴礁鲍嚣 数搀。由予g i s 中的数据鳞构复杂,数攒仓库的警麓难度火。需要对g i s 数瓣迸行涤入酌势褥研究。遮方面的工俸谯国内井移米惩裾究报道。 慧之,璁拳数攥仓疼硪巍国斑终繇逐缝子起步除段,缝学数摄念摩瑾 论述不完善,塑间数据在数据仓霹串的存储方案,及空闻数据仓库静衽关 懋闽关系的数学表达还不宠饕。藤屋空阀数据仓瘁磷巍也瘳只是袋在地理 黩攥除段,多麓建袭上熬她嚣莛嚣在数摄仓痒孛豹鼹零,魏区之鲻哭存在 麓攀熬趣禽奖系,嚣遮学数器仓痒更犷麓了窆溺关系煞范耱,受广涎熬扩 膨剡g i s 氖统的所有地学关系。 3 中国石油大学( 华东) 硕士论文第2 章b t e x 激光单分子油气化探评价系统 第2 章b t e x 激光单分子油气化探评价系统 2 1 系统目标 以g i s 为工具,数据仓为基本框架,建立海洋油气激光单分子化探异 常识别模型及资源评价和预测系统。开发具有自主知识产权的海洋油气藏 烃类气及伴生非烃类气体的激光单分子地球化学异常判识及油气资源智能 评价和预测的计算机系统。该系统应达到如下指标: 集成化:集激光单分子浅层沉积物水体、海面、大气、油气化探、地 质、物探、钻井、测井信息为一体,集适于海洋油气及伴生非烃类气体高 精度海洋油气地球化学异常判识及资源评价方法与模型为一体; 综合化:系统不仅具有数据处理、管理的功能,还具备地、物、化综 合分析和人工智能评价的功能,这种综合分析与评价均按g i s 的空间分析 方式实现; 扩充化:系统具有良好的二次开发能力; 标准化:系统的数据格式及管理评价模式参照国际、国内及行业相关 标准,保证系统文档资料具有较高的规范化程度; 可视化:具有数据提取及展示的可视化和成果多媒体演示功能; 2 2 业务流程分析 本系统主要处理与评价激光单分子技术所测目的区浅地层沉积物中、 水体中和海面大气中的油气化探指标:苯、甲苯、乙苯、二甲苯、c 心、 c n 和c 0 2 等数据,结合海洋水文信息、地质、构造、物探和测井资料,对 油气化探异常b t e x 进行综合评价,预测地下油气藏。据此,根据石油天 9 中馘石油大学( 华东) 硪士论文第2 章b t e x 激光单分予油气化探评价系统 然气建球弦学裁鸯技术援蓬,结念系统嚣标确定了本系统麓韭务麓蚕弱浚 程见图2 1 。 按图2 i l 所涿的流糕,油气纯探豹鲶理与解释分纯探数据颈憝瑾、优 探异常背景分析、化探异常分析、化探异紫综和评价四个阶段,须注意的 是该四阶段是相甄关联的,在解释中一般蹙顺序一步一步的进行的,但时 常嚣要进程交互分析。 图沙l 油气化探评价与解释的内容与流程 1 0 中豳石油大学( 华东) 硕士论文第2 章b t e x 激光单分予油气化探评价系统 纯探数据异常分爨逮程是一拿复杂豹过程,获最霖始鹣纯探安溺数据, 通过多次预处理,得到理想的化探异常数据,通过工具软件是它合理的存 储在速学数据仓撵中。在这过程巾,所产生静数锅很多,如果光靠手工管 理这些数据很容易出错,丽且对于同一个原始数据要经避多次的处理才熊 得到满意的结果,需要不问的软件查看结果或是进行处理。通过数据仓库 技术采用程岛主题麴数攥管理方忒,蠡动跟踪记添数握滤,妻动建立数攘 管理目录,大大方便了用户对数据的管理。 男癸,在纯强吴豢谬徐过程孛,其簸穗学数据要参麓译赞,经是,这 些数据很有可能燕多源、异构的,如果能够应用这些数据,就必须进行数 爨转换和霪薪组织,应潮数据仓库的数据集成技术能够解决这些阔题,怒 这些数据在数据仓库统一的平台上应用,而且这:烧数据一般数据霪大,j 骥 过数据仓库面向盘题的思想只选取那些该主题所必须的数据,大大减少了 数据牙镶,节省了系绕瀵糍,能够明显弱提毫了整个系统懿佳能。 2 。3 系统逻辑模型 一般g i s 数撂仓库( 鼹) 系统按照功能可戬分为以下a 令部分: 0 元( m e t a ) 数据。元数据是数据的数据,是关予数据和储息资源的描述佰 惑。它逶避黠空麓数据憋内容、矮量、条俘窝其经特援逃行接述秘滋弱, 帮助人们有效地定位、评价、比较、获取和使用相关数据。其中,对空间 数据菜一特性麴猿述,称为一个空闯元数据顼。密翔元数据是一个壶若干 复杂而简单的元数据项组成的集会。 囝源数攥。指分布在不同的海洋基础地质数据席系统之中的的丈量的地 理、地震、物搽、纯探、钵共、海洋水文数据,楚g i s 数握仓瘁豹甥质基 础。 数蕹燮挟工荚。戈优豫数据仓疼熬分撰经戆,源数箨必矮经篷交换绫缀 中国石油大学( 华东) 硕士论文 第2 章盯e x 激光单分子油气化探评价系统 合适的方式进人数据仓库。主要的变换包括:数据的提炼、转换、空间变 换。 数据仓库。源数据经过变换进人数据仓库。数据仓库用多维数据库来实 现,即以多维方式来组织和显示数据。空间维和时间维是空间数据仓库反 映现实世界动态变化的基础,它们的数据组织方式是整个空间数据仓库技 术的关键。多维数据库的结构类似超立方体。在实际分析过程中,可以按 照需要把任意一维和其他维进行组合,以多维的方式显示数据,让人们从 不同的角度来认识。 数据仓库工具。它是数据仓库系统的重要组成部分。数据仓库系统的目 标是提供决策支持,它不仅需要一般的空间信息查询和分析工具,更需要 功能强大的数据分析和挖掘工具客户端的数据仓库工具包括查询工具、 分析工具和发掘工具。查询工具主要实现对分析结果的查询,如发展趋势 或运行模式,而不是对记录级数据的查询,这类查询在数据仓库中是比较 少的。数据仓库的查询工具主要为用户提供可视化工具,充分利用人们的 视觉能力,从多种不同的角度以各种不同的图表来表示数据,使人们能更 方便、清晰地了解综合、分析和挖掘的结果。快速发现数据间的潜在关系, 了解数据的复杂性和动态性。分析工具主要实现对数据仓库中的数据进行 分析和综合,发掘工具负责从大量的数据中发现数据的关系,找出可能忽 略的信息,预测趋势和行为。 根据系统的业务流程和系统的功能要求,设计了图2 2 所示的系统的 总体构架逻辑模型。 系统由五大层组成,由下向上依次为:基础数据层、数据抽取层、数 据核心层、数据挖掘层、数据成果层。下部三层是数据仓储层,它们以常 规的数据库以及异常数据为基础,以数据仓技术为核心实现数据的高效管 理。最底层的基础数据层主要由常规的地质、物探、化探、钻井、石油地 孛萤石灌丈学( 肇末) 蹊圭谂文第2 章b t e x 激毙攀分子油气纯搽评傍系绕 质、海洋水义数据库组成,它是油气化探数据仓的錾础数据库系统,所有 的原始数据均存储在此层,这样傲可以充分利用已有的数据库资源;第二 层是数据挖獬层一数雍仓德麓数据来源,主要是扶各专照萋疆鼗据库获取。 它并不是对底层数据库的简单堆积,而是要按照统一的数据标准对基础数 据库中的数掇按油气化揉量程主题进符提取、转换、汇总等,其内容依b t e x 数据楚理与勰释对数耀豹鬻要焉定。第三层是数豢核心层数据仓核心仓 库,数据仓储在系统中起承上启下的作用,它将底朦基础数据提炼转换形 成统一的数攒体,供上层模块使用及外部共享;丽上部两层则是数据应用 屡,第四层麓数据挖掘瑟,也就是通常掰说的数疆愈船数据挖獭翻分耩。 它包括油气化探数据预处理、背景异常分析、局部辨常分析、局部异常综 会谨徐等方法类模块,霹以称之为数擐仓系统鳇方法痒或挖掘模勰麾。其 串联祝分耩( o l a p ) 是数据仓库系统功能的一个重簧体现,它提供一系列 可视化的数据抽取工具,窳现自动的或人机交互的可视化的从数据仓( 或 共享池) 孛掇取承需要懿数据,秘弱遮磐王其用户萄以根据油气纯探数据 处理与解释的需求扶数据仓( 或共享濑) 中为相敷静评价与解释模块可视 化的提取所鬻的地质、构造、物探、化探、钻井、油气藏等评价指标数据。 最硬层是数援产生层,意裂用g i s 工菇必应震层提供数据解释与谬馀结栗 的图件与表格制作工具,其数据将被存储到数据仓中,作为该应用主题豹 成果数据。 中国石油大学( 华东) 硕士论文 第2 章b t e x 激光单分子油气化探评价系统 2 4 系统设计 图2 2 系统逻辑模型 根据系统数据流程设计了图2 - - 3 所示的系统模块结构,系统由以下模 块组成: ( i ) 主界面显示控制模块:主要完成数据的显示、功能模块的调用以及系 统参数的设置等; ( 2 ) 主题管理模块:包括主题的创建、修改、删除; - 4 中国石油大学( 华东) 硕士论文第2 章b t e x 激光单分予油气化探评价系统 数攥稳取模浚:包瑟数据深选取、转换、接签、装载模块; ( 4 ) 数据仓管理缎:包括元数据綮理、空闻数据篱理、属性数据管理、文 本数据管理、临时数据管理; ( 5 ) 数擐处理挖掇包;包摄数撂鞭娃理( 数据捡凌、数援硷套 、鹜景分耩 ( 环境分析、趋势面分析、数据分区) 、异常分析( 多变量因子分析、因 予分辑、聚类努掇、黠敷分琚) ; ( 6 ) 联机分析展示挖掘包:含多维数据煞建立、0 l a p 联枧分板、评徐狂分 簿模块: ( 综会评羧包;会霉孛缀网络( 湄练建设置、谶练、译徐) 、获色莲谂( 蔽 慎设置、评价) 、模式识别( 权值设置、评价) ; ( 8 ) 评价结果展豕及成图包:含自动图元填充、地图渲染、用户自定义地 质专题雩誊号库、殿图撼、图示、她图框紫自动生残、残累图戆输出秘保存 等主要功能等模块: 渤辕秘图形王舆包:含数点、浆类等兰令模袭。 中国石油大学( 华东) 硕士论文第2 章b t e x 激光单分子油气化探评价系统 图2 - 3 系统模块结构图 串嚣石涵丈学( 肇零) 瑗圭论文第3 章嘲( 激囊萃分子涵气纯撵评徐鼗据仓痒支簿蓑隶 第3 章b t e x 激光荤分子油气化探评价数据仓库支持技术 能涵盖地学数据并为地学的分析和决策服务,磁悬地学数据仓库的设 计目的。地学数据仓库“悬一个用以更好地支持地学决策分析处理的、面 羯主题懿、袋残戆、不器爨耨戆、戆存锉窆溺数囊懿、夔空耨不鞭交毒乏豹 地学数据集合”。同时,认为地学数据仓库相比于一般数据仓库( 而裔,有如 下3 个特点:1 ) 一般肼中的数据表现为时间属性,黼地质数据表现为空间 藩经( 有些交幼较浃煞逢邈数据还其鸯懿空霆维戆黪缀 :警一般掰孛静 数据是不可更新的,而地威数据是可更新的:3 ) 一般d w 中的数据炎型比较 简单,丽地质数据的数据类型比较复杂。 赘j 【纯霖评价系统浆瓣数据仓痒技术全程童动镪警理证探数据,为趸 户提供了一个方便的综合性平台。 首先,化探数据从原始的实测数据和其他参与化探评价的各种地质、 勃搽、石酒魂矮、镭笄、海洋水文数摇霹孩透过数攒仓库数据集成技术, 按照主题的思想统一的管理在化探评价遮一主题的数据仓库内。解决数据 的多源、异构问题。 再次,邋过数据仓库决策分拆的支持,扶不溺角度揭示纯搽努常与其 他地学要素之间的关系,囊现多维视角和化探异常信息的数据挖掘。 针对本系统,本章饕黧从器e x 化探数据分析与谬泠的氖度,论证了 b t e x 纯探评价系统与数弦仓库技术结合的必要性。 3 ,1 多源地学信息、分布式存储与数据仓面向主题集成的关系 地学数据具有多源的分布式的特点。对于海洋油气化探b t e x 处理与评 价系统涉及的的地学数据童要有:地质数据( g e o l o g y ) :地层、断层、火 1 7 中国石油大学( 华东) 硕士论文第3 章b t e x 激光单分子油气化探详价数据仓库支持技术 戏岩、稳遮缀髦等;鐾搽数据( g e o p h y s i c a l ) ;鼹薄重力舅攀、蠲部磁力 异常等;化探数据( g e o c h e m i c a l ) :油气化探数据,b e t x 等:钻井数据( o i l w e l l ) :镑著结采数据;丽油琏袋数据( g e o p e t r o l e u m ) :垒涵条件、储酒 条件、盖油条件和配套条件等;海洋水文数据:海洋水文条件、气象条件 等数据。这些数据可能是在各自独立的情况下分舄构建的,他们怒一些异 构熬数据体,恧鼹大多是以分布式存德懿。这给海洋洼气讫掇b t e x 综合谨 价系统的汗发造成相当大的困难和不便。 空弱数据仓露是嚣囊主邃戆。簧统熬g i s 数攒疼系统怒覆宾癍瘸豹,哭 能回答专门、很片面的问题,它的数据只是为处理某一具体应用而组织在 起静,数器绪稿足对攀一静数鬣矬瑾_ 逑稔、或数摇努拆楚最饶豹,对于商 层次的决策分析米必是适合的。窳间数据仓库为了给决繁支持提供服务,信 怠的组织应以业务工作的主题内容为主线。主题鼹一个在较高层次将数据 魉类的标准,每一个主题基本对斑一个宏观的分橱领域。例如化探评份的 空间数据仓库所缀织的主题有可能为确寇化探异常类型、总结化探异常规 粼等; 嚣按照应熙来组织剡可能楚诧搽雾常豹遮爨痿患管理等。缀显然,按 照应用来组织的系统不能够为化探类型评价提供直接、全面的服务,而空 鬻数据仓痒豹数籀函其瑟向主题,具有“j 嚣识经、综合往”,所馥能够为凌 綮者们撮供及时、准确的信息服务。 空间数据仓库是集成豹。空f 掰数据仓库盼建斑并不意昧着要取代传统 的g i s 数据库系统。空间数据仓艨是为制定决繁撼洪支持服务的,它的数擐 应该是尽可能全面、及时、准确,传统的g i s 应用系统是篡重要的数据源。 隽悲空阕数据仓枣以各静嚣囱应惩憨g i s 系统鸯蒸稿,逶避元数攥裁覆黪 抽取和聚集规则将它们集成起来,从中得到各种有用的数据。提取的数据在 空蠲数据仓痒串采用一致豹命名瓣刘,一致魏缭酚绪祷,溪除覆始数磊翡 矛盾之处,数据绒构从面向应用转为面向主题。 中国石油大学( 华东) 硕士论文第3 章b i e x 激光单分予油气化探评价数据仓库支持技术 逶过缝学数攒仓瘁嚣囱圭蔻豹数据警灌;整逶懑数据集蔽技拳,对手上 面提到的b t e x 化探数据的处理与研究提供了一个很好的系统集成平台。 ( 1 )髂浃翦e x 数据多滋存储阏舔 地学研究所采集的数据是不同时段分别完成的,肯定会存在多源数据 存储的闯题,不仅数据库系统不同,而且存储方式和位置也不同( 数据库 服务器的地点) 。懑过数据仓库数撰集成技术,逶过构建的数据仓麾联枧警 台,可以很容易的把不同数据库服务器上的数据统一到一个数据仓库存储 嚣上。 ( 2 )解决b t e x 数据异构问题 逢学数据笨j g i s 表达蔻多静形妓的,每次采集的建学数据的记泵氇有掰 不同,这就出现了很多不同的地学数据结构,有的是矢量表示,衡的是栅 格形式,有些是描述性的,有些怒定量的,这个计算机她理分析邀些地学 数据造成了缀大爨难。因失数据仓库要求数据统一存储农数据库爨,入瘁 的数据必须做到结构的同一,通过制定同的地学数据仓库数据结构,邋 过数据集成,帮数据转换叛务,镁建学数据戆吴稳淘题缮戮簇决。 在b t e x 化探评价系统中,因为是初步尝试以数据仓库来核心进行系统 舜发,灵怒实现了较为籁辇麓数籀集成技术。静简单静按照主题黉求,过 滤掉不需骚的数据,而原数据的结构并没霄作任何改变,整体进褥搬家。 但是实际上韵数据集成还应淀意以下问题: i 、娥务变换霭求 对于多源数据、异构数据体,从业务定义上肖可能是相同的,也可能 燕苓弱懿。堇把掰令豢攥薅按照浆一要求集残或会舞菇一令数撂钵对,盛 该按照业务定义进行数据变换,如不同比例尺变换、投影变换、业务语义 交换、统一背景弱交换等锌。这就需要在原来豹数据库串舆有关予数据鹱 爨、目录、日期、背景等铸详尽的元数据信息,使系统能够知道所要变换 1 9 中国石油大学( 华东) 硕士论文第3 章b i 甩x 激光单分子油气化探评价数据仓库支持技术 的数据的元数据信息。或者使体构人机交互接口,在进行数据变换,集成 的过程中,能够认为的干预数据变换的要求。 2 、模式层冲突 在现实中的实体及其关系在各个源库中被用不同的概念表示,比如对 于人的性别这一命名可以用“s e x ”表示,也可以用“s ”表示这就会引起 命名冲突,另外模式结构冲突、主键冲突、结构约束冲突、表达格式冲突 等等也都是模式层冲突。避免这些模式层冲突,应该具有关于源库结构体 系详细的元数据信息。如列命名及约束,主键命名及约束,实体问关系约 束:是一对一还是多对一的关系等等。 3 、实例层冲突 数据缺失、非正确数据、数据不一致等等在数据集成中也是所要考虑 的问题。这些问题属于实例层冲突。当遇到这种回题时数据仓库应该给出 解决机制,能够自动判断数据是否正常,严格把握住数据质量,自动报警 或修改错误数据。实现这些功能,数据仓库本身应该具有完善的数据质量 监督管理机制。建立完善的数据仓库元数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论