




已阅读5页,还剩48页未读, 继续免费阅读
(计算机应用技术专业论文)联机分析挖掘技术及其应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
华中科技大学硕士学位论文 = ;= ;= = 2 = = = = = = = = = = = = = = = = = ;= = = = = = = = = : 一: 摘要 联机分析挖掘技术融合了联机分析处理技术和数据挖掘技术,成为决策支持应用 系统新的技术依托。该技术的研究目前处于起步阶段,关于联机分析挖掘技术的基本 原理、关键技术、系统模型以及应用开发技术等问题还没有系统的研究。 合理、高效的系统体系结构是联机分析处理技术与数据挖掘技术完美融合的保 让。联机分析挖掘系统的体系结构在于两个层面:概念和逻辑。基于这两个层面,给 出了联机分析挖掘系统的概念模型和逻辑模型,为联机分析挖掘系统的开发提供了理 论的指导。结合实际项目背景给出国家外汇信息管理决策原型系统的系统架构。 联机分析挖掘系统是由事务驱动的,事务的优化能提高系统性能。根据联机分析 挖掘事务模型,事务间的协作成为联机分析挖掘事务优化的主要技术之一。运用导出 埘象作为事务协作的“应标”对象,改进了“招应标”事务协作模型。改进后的模型采用 代理池的协作管理模式,并将数据传输与协作匹配相分离,提高了协作事务间的数据 传输效率。 联机分析挖掘技术对数据挖掘算法提出了新的要求。根据新的需求,联机分析挖 掘系统中的数据挖掘应该充分利用多维立方体以提高挖掘速度和挖掘能力,并给出联 机分析挖掘系统中数据挖掘的三种策略。 离群数据挖掘是数据挖掘研究的个重要分支。根据课题背景,给出一个针对时 序数掘的离群数据挖掘算法的改进算法。该算法基于小波理论对数据进行简化,减少 了汁算复杂度。 在上述研究与分析的基础上,作为主要成员设计实现了基于联机分析挖掘技术的 国家夕l - t e 信息管理决策原型系统中的数据挖掘部件。该部件集成了多种数据挖掘方 法,能有效的对数据进行分析挖掘。 关键词:联机分析处理,数据挖掘,联机分析挖掘,事务优化,离群数据挖掘 华中科技大学硕士学位论文 a b s t r a c t o nl i n e a n a l y t i c a lm i n i n gi n t e g r a t e so n l i n ea n a l y t i c a lp r o c e s s i n ga n dd a t a m i n i n g t e c h n o l o g y t h e s ey e a r si t b e c o m e sa l li m p o r t a n tn e wt e c h n o l o g ya p p l i e di nd e c i s i o n s u p p o r ts y s t e m b u t t h er e s e a r c ho nt h eb a s i ct h e o r y , k e yt e c h n o l o g y , s y s t e mm o d e la n d t e c h n o l o g y o ft h i sa s p e c ta r en o t s y s t e m a t i c r e a s o n a b l ea n de f f i c i e n t s y s t e ma r c h i t e c t u r ee n s u r e st h ep e r f e c ti n t e g r a t i o no fo n l i n e a n a l y t i c a l p r o c e s s i n g a n dd a t a m i n i n g o n l i n e a n a l y t i c a lm i n i n gs y s t e m a r c h i t e c t u r el i e si nc o n c e p tm o d e la n dl o g i cm o d e l t h e s et w om o d e l sp r o v i d eat h e o r e t i c g u i d ei n t h e i m p l e m e n to fo nl i n ea n a y t i c a lm i n i n gs y s t e m b a s e d o i lt h ep r o j e c t b a c k g r o t m d ,t h es y s t e ma r c h i t e c t u r eo f s a f e - m i d s si sp u tf o r w a r d o nl i n ea n a l y t i c a lm i n i n gs y s t e mi sd r i v e nb yt r a n s a c t i o n ,s ot h eo p t i m i z a t i o no f t r a n s a c t i o nc a i l i m p r o v es y s t e mp e r f o r m a n c e a c c o r d i n gt o o nl i n ea n a l y t i c a lm i n i n g t r a n s a c t i o nm o d e l ,t h ec o o p e r a t i o no fs u b t r a n s a c t i o n sb e c o m e so n eo ft h em o s ti m p o r t a n t t e c h n o l o g i e st oo p t i m i z et h et r a n s a c t i o n u s i n ge x p o r td a t ao b j e c t ,a ni m p r o v e dt h em o d e l t o c o o p e r a t e s u b t r a n s a c t i o n si s p u tf o r w a r d s t h ei m p r o v e dm o d e lb r i n g s f o r w a r da t h i n k i n go fc o o p e r a t i o nm a n a g e m e n tb a s e do na g e n tp o o la n ds e p a r a t e sd a t at r a n s a c t i o n f r o m c o o p e r a t i o nm a t c h i n g a sar e s u l t ,i ti m p r o v e s t h ed a t at r a n s p o r te f f i c i e n c y t h ea p p l i c a t i o n so fo nl i n ea n a l y t i c a lm i n i n gb r i n gan e wr e q u e s to nt h ed a t a m i n i n ga l g o r i t h m t oi m p r o v em i n i n g a b i l i t y , d a t am i n i n g s h o u l du t i l i z et h e m u l t i d i m e n s i o nd a t a t h r e ep o l i c i e sa r eg i v e no u tt ou s et h ed a t am i n i n ga l g o r i t h mi no n l i n ea n a l y t i e a lm i n i n g s y s t e m o u t l i e rd a t a m i n i n g i sa ni m p o r t a n te m b r a n c h m e n ti nd a t am i n i n gr e s e a r c h b a s e do n t h ep r o j e c tb a c k g r o u n d ,a ni m p r o v e do u t l i e rd a t am i n i n ga l g o r i t h mf o rt i m es e r i e sd a t ai s g i v e n o u t b a s e do nt h ew a v e l e t ,t h et i m et op r o c e s sd a t ai ss h o r t e n e d ad e c i s i o ns u p p o r ts y s t e mc a l l e ds a f e m i d s si sd e s i g n e da n di m p l e m e n t e d ,b a s e d o n t e c h n o l o g ya n d m e t h o d sa b o v e ad e t a i l e di m p l e m e n t a t i o no fi t sd a t am i n i n gc o m p o n e n t i s s p e c i f i e d i ti n t e g r a t e s s e v e r a ld a t am i n i n gm e t h o da n dr e a l i z e st oa n a l y z ea n df i n d k n o w l e d g e i nd a t a k e y w n r d s :o nl i n ea n a l y t i c a lp r o c e s s i n g , d a t am i n i n g ,o nl i n ea n a l y t i c a lm i n i n g , t r a n s a c t i o n o p t i m i z a t i o n ,o u t l i e r d a t am i n i n g l i 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他 个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体, 均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:五- 丑 日期:妒垆年毕月呻日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校 有权保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅 和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数 据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本论文属于, 不保密d 。 ( 请在以上方框内打“4 ”) 学位论文作者签名:j 扣丑 目期:_ y 年毕月磅日 指导教师签 日期: 华中科技大学硕士学位论文 = = = = = = = = = = = = = = z = = = = = = = = = = = = = = = = = 一= 1 1 研究背景 1 绪论 近年来随着计算机技术的迅猛发展和计算机应用的普及,企业中的数据环境有了 较大的变化。一方面,需要处理的数据量越来越大,以g i g a b y t e 为数量级的数据存储 在实际应用中已经变得越来越普遍,t e r a b y t e 数量级的商业应用也越来越多,在科学 计算领域还出现了p e t a b y t e 级的应用i l 】。而且数据存储量增加的势头十分迅猛,形成 了和计算机集成芯片( i c ) 发展中的“摩尔定律( m o o r sl a w ) ”相似的“数据积累摩尔定 律”,即企业中的数掘量平均经过1 8 个月就会翻一番f 2 1 。另一方面,对于数据的操作 越来越复杂,建立在数据库基础上的联机事务处理( o nl i n et r a n s a c t i o np r o c e s s i n g , o l t p ) 技术通常只对数据进行存取和较为简单的分析处理 3 _ 4 】,而日益激烈的市场竞争 划要求企业能够尽快的获得对现有数据的全面理解和把握,从中分析、发掘出对于企 、止运作和市场发展有现实指导意义的知识,从而把它们作为在市场上保持较强竞争力 的秘密武器。这种需求就要求改变现在企业中对数据的利用只是停留在简单存取操作 阶段的局面,需要对企业中现有数据进行深入的发掘和分析。 在这种需求下,数据仓库技术( d a t aw a r e h o u s i n g ) 、联机分析处理技术( o nl i n e a n a l y t i c a lp r o c e s s i n g ,o l a p ) 、数据挖掘技术( d a t am i n i n g ,d m ) p a 及数据库中的知识 发现技术( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ,k b d ) 逐渐发展起来。本文所研究的联机 分析挖掘技术( o n l i n e a n a l y t i c a l m i n i n g ,o l a m ) 就是在这样的背景下产生的。 1 2 国内外研究概况 1 2 1 o l a p 技术研究现状 o l a p 的概念自1 9 9 3 年提出以来,在数据库研究领域引起了新的研究热潮,在 o l a p 的原理、体系结构、数据组织、代数基础、应用实践、产品推广等方面均取得 了重要的成果p j 。 ( 1 ) o l a p 整体规范:随藿o l a p 技术研究的深入和o l a p 应用的逐渐普及, 为了规范o l a p 系统的建设同时提供对o l a p 产品进行衡量的标准,一些公司和部门 华中科技大学硕士学位论文 = = = = = ;= = = = = = = = = = = = ;= = t = = = = = = = = = ! 一= : 提议成立了o l a p 的研究协会、制定了o l a p 的标准,发布了o l a p 产品的测试报告。 如o l a p c o u l l c i i 制定的o l a p 标准a p b 1 以及对多维数据产品的研究测试报告o l a p r e p o r t 。 ( 2 ) o l a p 应用软件:现在出现的具有o l a p 特性的产品很多,按实现途经可 以分为三类:一类是原来的数据库产品生产厂商,在自己的产品中添加了o l a p 的功 能,这包括客户端和服务器端的支持。如o r a c l e 、s y b m e 、i i l f ;o r m i x 、s q l s e r v e r 、 d b 2 等传统数据库产品均纷纷推出了新版本支持o l a p 功能。一类是第三方厂商推出 的o l a p 产品,这种产品以o l a p 客户端产品居多,如b u s i n e s so b j e c t 、i m p r o m p t l l 、 b r i o q u e r y 等产品,这些产品提供了人性化的人机交互方法,有利于用户的使用【6 1 。但 这砦产品通常和服务器端的0 l a ps e w e r 结合的不是十分紧密,效率是一个值得关注 的问题。另一类是专用的决策支持( d e c i s i o ns u p p o r cs y s t e m ,d s s ) 数据库厂商推出的 o l a p 产品,如t e r a d a t a 、r e d b f i c k 等l 。翔。 1 2 2 数据挖掘技术研究现状 自1 9 8 9 年数据挖掘和知识发现的概念被首次提出以来,经过十几年的发展,在 理论基础研究和实际应用中均取得了可喜的成绩1 9 j 。 数据挖掘在理论研究方面的热点问题是数据挖掘算法的设许和针对大舰模数据 集存取的优化方法。数据挖掘算法研究的重点主要集中在如下几个方面:关联规则发 现算法、聚类方法、分类方法、偏差监测和预测等【1 0 - 1 4 。 目前数据挖掘技术的主要研究领域有: ( 1 ) 从数据库中挖掘不同的知识。 ( 2 ) 交互式挖掘。 ( 3 ) 背景知识的采用。 ( 4 ) 数据挖掘的标准查询语言f l “。 ( 5 ) 数据挖掘结果的表现。 ( 6 ) 离群数据的挖掘7 , 1 8 1 。 噪声数据、不完整数据对数据挖掘的过程有很大影响,可能会造成结果的偏差, 而例外数据可能是数据的真实反映,它包含了很多隐含的对人们有意义的模式。如果 离群数据本身就是数据的真实反映,那么对这些离群数据的分析是很有意义的。例如 通信服务、信用卡服务中通过离群的分析可发现不正常的消费模式;对外汇账户数据 的分析可以发现可疑的洗钱行为等等,这些分析的形式就是离群数据的挖掘。 2 华中科技大学硕士学位论文 ( 7 ) 模式的评估问题【1 9 , 2 0 。 ( 8 ) 数据挖掘的性能问题。 挖掘算法的高效性与可扩展性口”。 并行、分布与增量更新算法的研究【2 2 2 4 】。 ( 9 ) 被挖掘数据的数据类型多样性。 数据的多样化,数据挖掘的各种方法,使数据挖掘的研究面临着许多挑战。数据 挖掘语言的设计,高效的挖掘算法,集成环境、交互式环境下的系统,以及使用挖掘 技术解决应用中的问题等方面成为数据挖掘的主要任务。当前数据挖掘应用与研究具 有以f 主要的特点: ( 1 ) 应用范围的扩大。 ( 2 ) 挖掘方法的可扩展性。 ( 3 ) 数据挖掘与数据库系统、数据仓库系统、w e b 数据库系统的集成。 数据库系统、数据仓库系统、w e b 数据库系统已成为信息处理的重要组成部分。 数据挖掘方法作为一个基本的分析部件,可以与以上系统集成。我们将日常事务管理、 奄询处理、在线分析处理、在线分析挖掘集成在统一框架下,这样可确保数据挖掘的 扩展性、高性能,并可获得一个集成信息处理环境。 ( 4 ) 数据挖掘语言的标准化 数据挖掘语言的标准化可以加速数据挖掘系统的开发,提高数据挖掘的应用水 平,m i c r o s o f t 发布了o l ed bf o rd a t am i n i n g 。 数据挖掘工其按应用范围的不同可以分为两类:专用数据挖掘工具和通用数据挖 掘工具。 专用数据挖掘工具针对某个特定应用领域的数据特征和具体需求,在算法设计和 系统结构等方面进行优化。如针对军事领域的a d v a n c e ds c o u t 系统、针对天文学的 s k i c a t 系统、针对网管的t a s a 系统所、针对健康保健的k e f l r 系统等1 2 5 , 2 6 1 。 通用数据挖掘工具则通过分析提取常规应用的共性,面对常见的数据类型和任务 要求丌发具有较广适用范围的应用软件。如i b m 公司a l m a d e n 研究所开发的q u e s t 系统、s g i 公司开发的m i n e s e t 系统、s i m o n f r a s t e r 大学开发的d b m i n e r 系统等2 7 - 2 9 。 1 2 3 联机分析挖掘技术的研究现状 尽管o l a m 的概念是由j h a r l 于1 9 9 7 年诈式提出的【3 0 1 。但将o l a p 与数据挖掘 结合起来提供更优质的数据分析和决策支持工具的思路却在o l a p 与数据挖掘领域 华中科技大学硕士学位论文 = = i = = = = = = = = = = = = = = = = = = = = ;= 一一 的研究中早已有之。一些o l a p 产品在功能上添加了数据挖掘的能力,在具体实现方 式上可以分为两类。一类是在现有o l a p 产品的基础上,通过系统的改造添加数据挖 掘功能,如b u s i n e s so b j e c t 公司的b u s i n e s so b j e c t 产品中的决策树分析、d b m i n e r 系 统中的数据挖掘算法工具箱。在这种实现方式中o l a p 与数据挖掘的结合松散,拼装 的痕迹明显,对系统整体体系机构上的考虑较少,不能同时充分发挥两者的优势 3 t , 3 2 1 。 另一类是把数据挖掘算法集成在系统的底层功能中,o l a p 与数据挖掘结合的紧密, m i c r o s o f t 公司的s q ls e r v e r 2 0 0 0 中的关联分析方法在数据库端的集成是这种实现方 式的初步尝试1 3 3 , 3 4 1 。 总体来讲,o l a m 技术的研究处于起步阶段,技术研究中的一些重要问题还没 有得到解决,甚至还没有得到足够的重视。现在出现的情况是o l a m 技术的理论研 究滞后于o l a m 产品的丌发,各个公司或研究机构根据自己对o l a m 技术的理解、 从不同的研究起点出发、结合不同的研究背景纷纷提出了各自的具有部分o l a m 特 征的原型系统和应用软件。关于o l a m 技术的准确界定、o l a m 技术的基本原理、 关键技术、系统模型等问题的研究还比较少,也不系统。 1 3 有待解决的问题 鉴于o l a p 技术和数据挖掘技术在决策分析中的互补性,希望能将两者有机的 结合起来,在数据仓库的基础上提供更为全面的决策支持应用。但是要把o l a p 与数 据挖掘有机的集成只有高效的数据分析和数据挖掘算法是远远不够的,集成系统中还 涉及很多问题,比如:o l a m 系统的概念、逻辑和物理体系结构的设计、o l a m 任 务事务模型、任务的优化和调度、o l a m 语言的设计和语法、语义分折与优化、智 能的用户分析导航和系统监控、系统的可扩展性等问题都需要进行深入的研究和探 讨。 我们认为o l a m 技术急需解决的问题主要有: ( 1 ) 信息的表示:包括数据的表示、模式的表示、知识的表示以及元数据的表 示等内容。这是o l a m 技术的关键部分之一,它明确了o l a m 技术的数据基础。 知识的表示是人工智能领域研究的经典问题,研究历史上提出许多表示方法,但 问题仍然没有得到完美的解决3 5 , 3 6 1 。在o l a m 系统的研究中将继续这个问题的探讨。 ( 2 ) 系统体系结构:研究o l a m 系统的整体组织结构,从而支持灵活高效的 o l a m 应用、提供良好的扩展性和伸缩性。 4 华中科技大学硕士学位论文 = = = = ;= 。= = = = = = = = = = = = = = = = = = = = :! 这一部分的研究旨在改变现在混乱的o l a m 应用开发的局面3 ,从概念模型和 逻辑模型上对系统的开发提供理论的指导。采用合理的、高效的系统体系结构是o l a p 与数据挖掘和数据仓库技术的完善集成的保证。 ( 3 ) 事务模型:o l a m 事务和传统的o l t p 事务和o l a p 事务具有不同的特 点i j 。传统的原予、平淡的事务模型不适合o l a m 系统,因此需要设计和开发新 的事务模型。 事实上,在研究各种特种数据库系统时,研究人员已经针对不同的应用领域 和研究目的,提出了许多的事务模型。例如在实时数据库的研究中提出的多种基于 时限的事务模型 3 9 1 、面向对象数据库系统中针对复杂数据对象处理而提出的复杂事 务模型【4 0 4 ”、内存数据库系统中支持主动实时事务的事务模型 4 2 、并行分布数据库 系统中为了解决数据并行和分布处理而提出的事务模型 4 3 , 4 4 ) 、移动数据库中适应移 动环境的事务模型等 4 5 4 “。这些系统事务模型为o l a m 系统中的事务模型的设计 提供了思路和基础。 ( 4 ) 事务优化与调度策略;这部分通常包括事务执行模型( 包含负载模型、处理 模型和萨确性准则) 、资源模型、优化策略和基于上述模型的事务调度策略。这是 o l a m 系统成功与否的关键问题。现在一些较为成熟的事务优化方法,由于应用环境 和事务模型的不同而不能直接应用于o l a m 事务优化中。o l a m 事务通常较为复杂, 而且计算代价较大,所以要采用新的优化和调度策略,从而提供高效、及时的服务。 ( 5 ) o l a m 系统中的数据挖掘策略:传统的数据挖掘算法应用于o l a m 系统 需要进行相应的变化,以便利用o l a m 系统中的有利资源并适应其系统环境,从而 提高数据挖掘的效率。这就需要从数据源、决策辅助信息、结果表示等几个方面考虑 新的数据挖掘策略。 1 4 论文研究内容及其组织 1 4 1 课题来源与研究目标 随着经济全球化的日益深入,我国外汇管理工作将面临前所未有的挑战。在这个 过程中,一方面,我国经济的开放度将加速提高,从而遭受各种外部冲击的可能性和 受影响的程度也将同益增大,这给外汇局维护国际收支平衡和汇率稳定,保障国家外 汇会融安全增加了新的难度;另一方面,各种国际规则和惯例对我国经济运行的制度 约柬越来越强烈,这些制度约束将产生强制性的制度变迁效应,加快我国外汇管理制 华中科技大学硕士学位论文 = = = ;= = = = = = 。= = = = = = = = = = ;= = ;z = = = = = = = 一 : 度和模式变革的进程,在转化过程中,如何维护和提高管理效率,尽可能地减少制度 变迁成本,也是外汇局所面临的一大挑战。 外汇局所做的主要工作可概括为两件事:一是外汇管理制度创新;二是外汇管 理技术创新。其中,技术创新为制度变革提供了重要保障,一些新的外汇管理系统f 如 与海关总署合作开发的电子口岸系统,自行开发的出口收汇核报系统、个人因私购 汇系统、外汇账户管理系统等) 的及时推出和改进,既是满足管理思路和方法调整的 需要,又切实为管理思路和方法的调整提供了保障和支持。但是,从外汇管理工作 面临的挑战和任务及夕卜汇管理信息化建设的自身发展要求来看,目前外汇局信息化 建设水平还存在着一些有待提高的地方,主要表现为目前外汇局的各业务管理系统 还处于彼此分割的状态中,各系统现有的统计数据缺乏整合,数据的共享程度不高, 不同系统相关数据之间缺乏有效的校验机制,系统内部缺乏发掘深度管理信息的有 效分析工具等等。由于这些缺陷的存在,使得外汇局难以掌握全面、真实、有效的 管理信息,从而导致难以对管理对象做到心中有数。另外,现在外汇局的工作思路 是将以事前审核为基础的现场监管转化为以事后数据分析为基础的非现场监管、并 在此基础上有针对性地展开现场检查,如果缺乏有效的信息平台,将不能顺利实拖 这种新的工作思路。 为此,迫切需要建立个功能强大、数据完整的信息管理系统去统驭其它 业务管理系统的运行。为了应对这些挑战,外汇局特拟定建立“国家外汇局信息 管理决策系统”以提高外汇管理的效率与效果。这一课题属国家十五攻关课题 ( 2 0 0 1 b a l 0 2 a 0 6 1 1 ) ,并由本课题组承担,一期工程于2 0 0 3 年1 2 月通过国家验 收。 一期工程根据系统功能要求以及我国外汇管理现状,采用先进的数据仓库技术和 o l a m 技术建立了国家外汇信息管理决策原型系统s a f e m i d s s 。在此基础上,为了 服务外汇非现场监管和决策,提高外汇局的风险预警能力和宏观决策能力,我们对 o l a m 技术进行深入的研究分析,拟应用先进的数据挖掘技术于o l a m 系统中以完 成管理信息的深度挖掘。 1 4 2 论文组织 论文的第二章对o l a m 系统的体系结构进行了深入的研究,阐述了o l a m 系统 的建设目的并总结其特性,分别在概念和逻辑两个层面上分析了系统模型和工作原 理,然后在课题背景下提出了基于o l a m 技术的s a f e - m i d s s 的系统架构。 华中科技大学硕士学位论文 第三章研究了o l a m 系统中的事务优化问题。通过对事务问协作模型的研究, 改进了“招应标”模型。 第四章分析了o l a m 系统的数据挖掘算法的应用,并对离群数据挖掘算法应用 于o l a m 系统给出了三种策略。根据课题研究背景给出了一个针对时序数据的改进 离群数据挖掘算法,并对其算法复杂度进行了分析。 第血章介绍了基于o l a m 技术的s a f e m i d s s 。说明了s a f e m 1 d s s 中 s a f e d m 部件原型的设计与实现。 论文最后总结了本论文的特色和创新之处,并提出了今后工作进一步的方向。 华中科技大学硕士学位论文 = = = = = = = = = = = = = = = = = = = = = 一 2 联机分析挖掘系统的体系结构 良好的o l a m 系统体系结构能支持灵活高效的o l a m 应用,提供良好的扩展性 和伸缩性。目前o l a m 应用开发的研究局面比较混乱,本章将从o l a m 系统的特性 丌始,对o l a m 系统的整体组织结构进行研究,从概念模型和逻辑模型上对系统的 丌发提供理论的指导。 2 1 联机分析挖掘系统的建设目的及其特性 o l a p 是利用存储在数据仓库中的数据,根据用户提出的问题或假设,去进行各 种分析操作,并以较为直观易懂的形式将结果返回给用户。o l a p 具有提供数据的多 维逻辑视图、快速响应用户分析请求、为用户提供强大的统计、分析功能等一些特点。 d m 则是采用复杂的统计分析和建模技术去挖掘出隐藏在数据库中的关系和模式。简 单地讲,即是从已有的大量数据中挖掘出一些潜在的有用信息。它最为显著的特点是 分析过程的自动化和知识发现。 o l a p 和d m 都是d s s 的重要组成部分,两者既有区别又有联系。可以把o l a p 和d m 看作两种不同类型的模型:描述性的和预测性的。所谓描述性模型是利用现有 数据描述出一些模式以指导决策;而预测性模型则是用已有的数据去预测未知的数 据。这两种模型的本质区别在于:预测性模型产生的是一个直接的预测结果;而描述 性模型仅仅提供了一种隐含的预测信息。就对数据分析的深度而言,o l a p 位于较浅 的层次;d m 能从更深的层次上发现o l a p 所不能发现的信息。 由此不难看出,o l a p 与d m 并非是完全孤立的两个部分。并且,由于o l a p 和d m 各自自身带有一些缺点,比如o l a p 缺乏灵活性、准确性,而d m 代价高昂、实现困难 等,因此,如何将两者有机的结合起来即实现o l a p 基础上的多维数据挖掘,已成为 目日i d s s 领域研究的新方向。 联机分析挖掘技术就是在这种需求下产生的。联机分析挖掘技术是数据仓库技 术,联机分析处理技术和数据挖掘技术的无缝集成。o l a p 技术和数据挖掘技术是 o l a m 技术的两个重要技术支撑部分,分别完成数据分析挖掘任务中各自所擅长的部 分,在决策支持应用系统中对应不同决策层次和用户群体。 建设o l a m 系统的目的是要既能实现o l a p 与数据挖掘的功能互补,又能提高数 8 华中科技大学硕士学位论文 摒挖掘的性能。 ( 1 ) o l a m 系统建立在多维数据库和o l a p 的基础上,因此应能方便的对任何一 部分数据或不同抽象级别的数据进行挖掘。这是借助o l a p 对超级立方体进行切片、 切块、下钻等操作来实现的。另外,如果需要,o l a m 系统还可以直接访问存储在底 层数据库旱的数据。总之,借助于o l a p 的支持,o l a m 系统能对任何它想要的数据 进行挖掘。 ( 2 ) 用户对挖掘算法具有动态选择的权利;在传统的关系数据库应用中,对同 一个主题,任何不同的查询过程所得到结果是相同的。而数据挖掘则不然,对同一个 问题,运用不同的挖掘算法,得出的结果可能大相径庭。因此很有必要给予用户以动 态选择挖掘算法,也希望嵌入到0 l a m 系统中,因此,o l a m 系统应浚具有一个通用 的接l j ,以便与其它工具或算法相衔接。 ( 3 ) o l a m 系统建立在多维数据视图的基础之上,基于超立方体的挖掘算法是 其核心所在。超立方体计算与传统挖掘算法的结合使得数据挖掘有了极大的灵活性和 交互性。这里所说的立方体计算一般指切片、切块、下钻、旋转等操作;而挖掘算法 则是指关联、聚类、分类等基于关系型或事务型的挖掘算法。根据立方体计算和数据 挖掘所进行的次序的不同组合可以有一下一些模式: 先进行立方体计算,后进行数据挖掘。在进行数据挖掘前,先对多维数据进行 一定的立方体计算,以选择合适的数据范围和恰当的抽象级别。 先对多维数据作数据挖掘,然后再利用立方体计算算法对挖掘出来的结果做进 一步的深入分析。 立方体计算与数据挖掘同时进行,在挖掘的过程中,可以根据需要对数据视图 做相应的多维操作。这也意味着同一个挖掘算法可以应用于多维数据视图的不同部 分。 ( 4 ) 回溯和书签功能,o l a m 系统的挖掘过程是对多维数据视图的一个不断深 入的过程。在实际中,用户很有可能因为算法的复杂而在超立方体中“迷失方向”。因 此o l a m 系统的挖掘算法应能给用户提供退回上次操作初始状态这样的回溯功能及 书签操作。 ( 5 ) o l a m 系统一般要求具有较高的执行效率和较快的响应速度。但由于一般 挖掘算法都比较复杂而且耗时,因此在执行效率与挖掘的准确性两者之间应该协调 好。一般情况下,o l a m 系统与用户频繁而且高速的交互,选择合适的挖掘算法和数 掂空茜j 。一旦这两点确定,在特定数据空间上再执行用户选定的复杂而缓慢的挖掘算 9 华中科技大学硕士学位论文 法,以保证最终结果的正确性。 除了以上五点外,0 l a m 系统还应具有灵活的可视化工具和良好的扩展性。o l a m 系统是个复杂的结构,在实际应用中要与多个模块或工具交互作用。例如,一个o l a m 系统可能与一个统计软件包相结合;或者系统本身功能扩展,使之适合于地理数据、文 本数据、或者商业数据的挖掘。因此,o l a m 接口的标准化、通用化就显得尤为重要。 从上面的分析我们可以总结出o l a m 系统的系统特性:多维分析和数据挖掘的无 缝结合;系统的快速响应能力;支持迭代式分析过程;支持复杂的信息建模;支持复 杂的事务模型;支持多任务的优化和调度;良好的可扩展性;灵活友好的人机交互能 力;支持高效的数据共享:有效的系统安全管理;支持o l a m 任务及时性管理;高效 的系统元数据管理:中间分析结果的管理;o l a m 任务定义语言。 下面我们将从两个层面分析o l a m 系统的体系结构。 2 。2 联机分析挖掘系统的概念模型 2 2 1 概念模型 概念模型指定了必须执行的功能以及这些功能之间的关系,是o l a m 系统的一种 简要描述。它在一个较高的层次上解释了o l a m 系统的功能和流程。 图2 1 给出了o l a m 系统的概念模型。其中虚线框中的部分是o l a p 系统的体系结 构,在o l a m 系统中将它与数据挖掘技术进行了集成。 图2 1o l a m 系统的概念模型 华中科技大学硕士学位论文 2 2 2 系统工作原理分析 o l a m 系统以元数据为核心,各部分的运行均需元数据的指导和帮助。在元数据 的指导下,o l a m 系统从现有的各个运行系统或其它数据源中提取数据,加载到数据 仓库中,同时维护元数据,数据仓库的一个目的就是把信息访问基础从一种非结构化 的或发展中的环境改变为一种结构化的或规划良好的信息环境,这种新环境将提供满 足应有需求的关键信息。把信息转移到结构化环境只是o l a m 系统中对数据进行处理 的第一个步骤。 由于决策分析任务所需的数据对象的组织形式各不相同,数据仓库中的基于对维 数据模型的数据组织形式不能满足所有的决策分析任务的需要,因此要求o l a m 系统 能够设计新的面向决策分析任务的数据基础,工作仓库就是完成这种功能的系统部 件,在其中存储不同任务所针对的不同数据模型及其数据集合。工作仓库中数据的添 加是根据o l a m 任务的具体特点,在元数据的指导下进行的、从数据仓库中的多维结 构化数据向工作仓库中的多种不同数据模型的结构化数据的转换过程。 工作仓库是决策分析任务所面对的数据基础,工作仓库的生成过程是数据仓库中 的数据面向任务的专业化过程。为了提高对工作仓库中数据的访问效率以及数据的重 复利崩率,可以埘仓库中的数据对象,任务的导出对象进行缓存,从而可以提高系统 数据利用率,加快任务处理速度。 虽然对数据的缓存功能,通常的计算机操作系统均有所支持,但o l a m 系统中的 导出对象的存储与此不同,因为o l a m 系统中针对o l a m 任务在o l a m 事务优化中对 其进行全面管理,而不是利用操作系统所提供的功能。 o l a m 系统中事务优化和调度是o l a m 系统的核心功能,负责o l a m 事务的建 模、事务分解、事务的优化和调度。 任务定义部件负责基于o l a m 任务定义语占的任务设定。 任务监控部件负责对o l a m 任务的执行过程和状态进行监测,并响应对这些内容 的查询。 决策分析员是一个软件部件,实现人机交互功能,用户通过它来和o l a m 系统进 行交互。 o l a m 系统的工作过程是:决策分析人员通过决策分析器,利用多种访问方式提 交由o l a m 任务定义语言所定义的决策分析任务,通过任务监控部件来了解决策分析 任务的执行状态;事务优化与调度部件利用元数据库中的数据来对一组o l a m 任务进 华中科技大学硕士学位论文 行统一的优化和调度,确定所需数据对象的数据源和数据访问方法,对数据进行提取 并特定化组织到工作仓库中;在对工作仓库中的数据进行计算时为了提高数据访问和 计算速度,计算中所需的部分数据对象可以从导出对象中提取,并按某种策略对导出 对象进行保存和管理;在分析任务结束后把获得的模式返回给用户。这整个工作过程 中系统监控部件对系统的运行状态进行监控,负责任务回溯、故障恢复、资源管理、 安全管理等任务。 2 3 联机分析挖掘系统的逻辑模型 2 3 1 逻辑模型 上面介绍的o l a m 系统的概念模型给出了o l a m 系统的主要组成部分以及各组 成部分的相互关系,省略了o l a m 系统细节内容。它需要通过逻辑模型来扩展和阐述。 逻辑模型把概念模型中所定义的结构映射到可用软件、过程和体系结构的现实世界中 来,是概念模型基于技术类型对基本设计原则的细化。具体的讲,o l a m 系统的逻辑 模型是以o l a m 系统的建设准则为指导、以o l a m 任务处理过程为主线的多职能主体 的协作模型。 2 3 2 系统工作原理分析 如图2 2 所示,决策分析人员在用户代理的协助下,从用户的领域知识和系统元数 掘出发,利用o l a m 语言来设定o l a m 任务。用户代理把用户设定的任务委托代理来 管理,此时用户代理可以挂起、归档或消亡,通常一个委托代理对应一个或多个用户 代理。委托代理收集并管理o l a m 任务的状态信息,并作为系统与用户代理交互的实 体。委托代理把任务交由任务解析器进行o l 舢订语言语法和语义分析,生成o l a m 任 务树,任务树的叶节点为数据访问子任务。不同o l a m 任务所对应的任务树由不同的 合作代理在任务协调器的辅助下进行协作优化,经过协作优化后的子任务被发射到资 源调度器,在资源管理器的辅助下完成子任务的具体执彳亍地点的绑定,即通过资源代 理或导出对象代理来执行子任务。执行的结果通过管道传送给合作代理,由合作代理 进行语法树还原,并按语法树进行计算,计算结果交由委托代理保存,以便用户代理 的查询,同时中间计算结果( 导出对象) 按某种策略来进行决策是否由导出对象代理来 保存、保存哪些对象、如何保存。 1 2 华中科技大学硕士学位论文 用户代理从委托代理处获得o l a m 任务的执行结果( 模式) ,并以适当的方式展现 给决策分析人员,由决策分析人员来验证模式的正确性和适用范围。当然决策分析人 员也可能从所得模式中发现问题,开始新的o l a m 任务。 图2 2o l a m 系统的逻辑模型 2 4s a f e m i d s s 的系统架构 s a f e m i d s s 主要是面对金融市场上资金的运作以及与此相关的经济行为。决 策分析是为了提高外汇局的风险预警能力和宏观决策能力,其中一个重点是找出非法 华中科技大学硕士学位论文 洗钱行为并减少国家损失。为了实现决策的科学化,决策必须有明确的目标,可靠的 高质量的信息基础,优选的科学理论和方法及进行反馈和调整的有效机制。 管理部门需要及时地了解经济行为中的关键数据,如交易金额、大宗交易的频繁 程度,以便控制风险,掌握各分行、支行的数据汇总,来促进管理、提高效率、减少 损失。 系统的功能主要是利用从各部门( 银行、证券、海关、保险、外汇局分局和支局 等) 收集来的信息,通过使用在线联机分析技术和数据挖掘技术对各种数据进行分析处 理,发现有用的信息。例如可以通过交易数据发现可疑的交易、账户或者与可疑交易 和账户有某种关联的信息。 通过前面从概念和逻辑两个层面对o l a m 系统的分析,根据o l a m 系统的特性, 图2 3 即是我们提出的s a f e m i d s s 的系统框架结构。 ( 1 ) 底层是数据存储层:这一层主要存储了系统中需要的原始数据,是对各种 数据源的集成。主要需要实现对各数据源的数据清洗与转换,从多维数据库向基础数 据源的映射,元数据的管理。数据库中存放外汇管理局各业务系统的数据,这些数据 来自外汇管理局下属的各分局和支局、银行、企业、海关和交易中心等部门。数据经 过析耿、整合放入数据仓库,以统一的形式表达相同意义的数据。 ( 2 ) 多维数据库层:这是基于o l a m 技术的决策支持系统的特色之一。多维数 据库根据数据仓库中的数据以及业务需求创建、存储多维视图,为挖掘以及在线分析 提供数据源。数据集市是为了适应各类用户的查询和分析建立的一种小型的部门或工 作组级别的数据仓库。数据集市存储为特定用户预先计算好的数据,从而满足用户对 性能
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年企业品牌网络营销推广项目人员劳动合同
- 2025型高端冰箱零配件集中采购及一体化售后服务合同
- 2025年度个性定制离婚程序全程协助服务合同
- 2025微创手术器械研发合作与临床试验支持合同
- 2025年环保公益行动专用礼品定制与配送服务协议
- 2025年户外公共景观花卉租赁与系统性养护服务协议
- 2025年学校艺术节活动用车租赁合同书
- 2025年智能交通网络设施升级改造用地补偿协议范本
- 2025年企业品牌形象重塑与全渠道营销服务合同
- 2025年度智能写作助手学术论文自动生成技术服务合同
- 《公路工程集料试验规程》JTG-3432-2024考核试题及答案文档
- 协助老人床椅转移技术
- (2024年)肺栓塞的护理课件
- 实习实践促进大学生职业道德和职业素养的提升
- (高清版)TDT 1031.6-2011 土地复垦方案编制规程 第6部分:建设项目
- 遥感数字图像处理课件
- 检验科实验室生物安全培训课件
- 《宠物解剖生理》课程标准
- 山西航空公司招聘笔试真题
- 融合系餐厅可行性分析方案
- 电子商务法律风险与合规管理
评论
0/150
提交评论