(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf_第1页
(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf_第2页
(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf_第3页
(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf_第4页
(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf_第5页
已阅读5页,还剩117页未读 继续免费阅读

(计算机应用技术专业论文)联机分析挖掘处理技术olam的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 联机分析处理技术( o l a p ) 和数据挖掘技术均是决策支持的重要技术,两者在决策分析 过程中可以分工合作、功能互补。但是两者的产生背景、发展历程、数据基础、分析层次、 用户群等方面存在着较大的差别,这妨碍了两者在决策支持应用中有机、高效的结合。为了 减少或消除这种差别,实现联机分析处理技术和数据挖掘技术的紧密结合,j w h a n 于1 9 9 7 年提出了o l a m 的概念,即o l a pm i n i n g ,他从统一两者的数据基础入手,提出在多维数据 模型的基础上同时支持o l a p 应用和数据挖掘应用的思路。但是数据挖掘所需的数据基础通 常是多样的,单纯的多维数据模型使得数据挖掘的功能不能充分的发挥。心 论文对o l a m 的概念进行了扩展,对o l a m 的内涵进行了深化,把o l a m 定义为联机分析 挖掘处理( o nl i n ea n a l y t i c a lm i n i n gp r o c e s s i n g ) ,实现对o l a p 技术和数据挖掘技术的 紧密集成。f o l a m 的数据基础不再局限于多维数据模型,而是包括多维数据模型、关系数据 模型、对象数据模型和对象关系数据模型、半结构或无结构化数据模型等多种模型的异构环 境。研究的重点为如何把o l a p 与数据挖掘技术有机的集成在一起为用户提供高效地决策支 持应用。j 论文首次为o l a m 技术建立统一的系统理论框架。作者在o l a m 系统的体系结构、概念和 逻辑模型、任事务模型、事务的优化和调度、信息的组织和管理、o l a m 语言的设计和分析、 系统管理策略等方面提出了自己的见解。 论文在深入分忻了o l a m 应用的特点之后,提出了o l m 系统所应具备的十四条特性,这 些特性同时可以认为是o l a m 系统的建设准则,它对于构建和评价o l a m 系统有一定的指导意 义。! 在这些准则的基础上给出了o l a m 系统的概念模型和逻辑模型。作者提出的o l a m 系统概 念模型界定了o l a m 技术的研究范围,首次提出了工作仓库和导出对象存储的概念明确了 它们在o l a m 系统中的重要作用。心 论文通过对大量决策分析算法的分析,首次提出了基于限制( c o n s t r a i n t ) 的o l a m 任 务语义模型,这个模型从一定的逻辑高度对o l a m 任务进行抽象。利用它可以分析o l “i 任务 的共性,提取o l a m 任务执行时的基本操作,这些基本操作的基础是语义片断。( 论文给出了 语义片断之间关联关系的分析 i t - n 断方法,提山了基于限制的、具有方向性的语义关联度定 义。语义片断间的关系的确定是o l a m 任务事务优化的基础。t 论文在对o l a m 任务的特点和任务类别的分析的基础上提出了一种新的o l a m 任务事 务模型,这个模型通过a o r d a g 图来表示复杂的o l a m 任务和事务,其中同时蕴涵了事务的 控制流和数据流,是o l a m 事务优化和调度的依据。 论文综合考虑了o l a m 事务中的决定o l a m 市务调度主要因素,首次提出了0 l a m 子事务 的价值模型,:一个o l a m 子丐千务的价值包括自身价值、社会价值、继承价值三个部分,它与 o l a m 任务事务模型相结合是o l a m 事务优化的基础。论文还给出了o l a m 事务问的多种协作 模型,提出了“基于有效资源的事务价值最大晟优先的o l a m 事务调度策略”。并着重对o l a m 事务调度过程中任务时效性的保证进行了讨论。 导出对象中的信息表示的是o l a m 任务语义模型中的语义片断的内涵,它是o l a m 事务语 义相关性分析的基础,研究导出对象的数据模型、组织和索引形式、导出对象间的关系以及 导出对象的维护方法对于o l a m 事务的优化干执行有着重要的意义。论文给出了导出对象的 数据模型和导出对象的价值模型,同时结合关系模型给出了导出对象间关联关系的高效判断 方法。为了提高导出对象的维护效率论文提出了一套导出生成原语,同时讨论了导出对象 的维护和管理方法。,土 元数据是o l a m 系统的核心,论文在对元数据概念、元数据管理策略进行分析比较的基 础上,指出了元数据管理方法的未来发展方向。同时结合o l a m 系统中元数据的特点提出了 基于x m l 的元数据管理策略,并给出了o l a m 系统中元数据仓库的系统模型。 k o l a m 技术作为一种新的决策支持应用开发技术,从自身内涵到系统理论框架有很多 问题需要解拶寸论文对o l a m 技术发展中需要迫切解决的关键问题进行了讨论,提出了一套 系统理论框架,为o l a m 技术的进一步发展奠定了基础。 。 - _ _ _ 一 、, 、, 关键词:o l a p 、数据挖掘、决策支持、系统集成:o l a m 、事务模型、事务优化、元数据管 理、语义片断、语义关联、时效保证 a b s t r a c t a st h ei m p o r t a n tt e c h n o l o g i e so fd e c i s i o ns u p p o r t ,o l a pa n dd a t am i n i n gw h i c ho w n t h e i ra d v a n t a g e sa n ds h o r t c o m i n g s i n d i v i d u a l l y w h i l ec o m p l e t i n gd e c i s i o na n a l y t i c a l t a s k s ,b u td u et o t h er e c i p r o c i t yo ft h e i rc h a r a c t e r i s t i c sa n df u n c t i o n s ,c a n c o o p e r a t ea n dc o l i a b o r a t e t of i n i s ht h ed e c i s i o na n a l y t i c a lp r o c e s s i n g b u ti n e n g i n e e r i n ge n v i r o n m e n t ,t h e r e e x i s t ss o m ef a c t o r st h a tc u m b e rt h es e a m l e s s i n t e g r a t i o no fo l a pa n dd a t am i n i n g ,s u c ha st h ed i f f e r e n c e so f t h et e c h n o l o g y b a c k g r o u n d s ,t h ed e v e l o p i n gh i s t o r i e s ,t h ed a t ab a s i c s ,t h ea n a l y t i c a lh i e r a r c h i e s , t h ec u s t o m e rg r o u p s i no r d e rt ol e s s o no rd i s c a r dt h e s ed i f f e r e n c e s j w h a nb r o u g h tf o r w a r dt h ec o n c e p t o fo l a m n a m e l yo l a pm i n i n g 。i n1 9 9 7 h es t a r t e dw i t ht h eu n i f i c a t i o no ft h ed a t a h a s i co fo l a pa n dd a t am i n i n g ,g a v et h eo r i e n t a t i o nt h a tt h em u i t i d i m e n s i o n a ld a t a m o d e lb e c o m et h ec o m m o nd a t ab a s i co fo l a pa n dd a t am i n i n g ,a n ds u p p o r tt h e a p p l i c a t i o n so fo l a pa n dd a t am i n i n gs i m u l t a n e o u s l y b u tt h es i n g l ed a t am o d e l r e s t r i c t st h es u f f i c i e n te x e r t i o no fd a t am i n i n gt e c h n o l o g y t h i sp a p e re x t e n d st h ec o n c e p to fo l 棚a n dr i c h e n st h em e a n i n go fo l a m o l a mi st h e a h b r e v i a t i o no ft h eo n l i n ea n a l y t i c a lm i n i n gp r o c e s s i n g w h i c hr e a l i z e st h et i g h t , s e a m l e s si n t e g r a t i o no fo l a pa n dd a t am i n i n g ,w h o s ed a t ab a s i ci n c l u d e sn o to n i y t h em u l t i d i m e n s i o n a ld a t am o d e l ,b u tm a n yk i n d so fd a t am o d e l ss u c ha sr e l a t i o n , o b j e c t r e l a t i o n 。o b j e c t ,s e m 卜s t r u c t u r e ,n u ll s t r u c t u r ed a t am o d e l s t h er e s e a r c h f o c u so fo l a li sh o wt ou n i to l a i i ia n dd a t am i n i n gt oo f f e re f f i c i e n t l yt h es e r v i c e o fd e c i s i o ns u p p o r t s t h i sp a p e re s t a b li s h e su n i f o r ms y s t e m i ct h e o r yf r a m eo fo l a mf o rt h ef i r s tt i m e , a n dc o n t r i b u t e st ot h es y s t e mi n f r a s t r u c t u r e ,t h ec o n c e p t u a lm o d e la n dl o g i c a lm o d e l t a s k t r a n s a c t i o nm o d e l ,t h eo p t i m i z i n ga n ds c h e d u l i n gs t r a t e g yo fo l a mt a s k ,t h e i n f o r m a t i o no r g a n i z a t i o na n dm a n a g e m e n tm e t h o d s ,t h eo l 枷t a s kd e f i n el a n g u a g e 。a n d t h es y s t e mm a n a g e m e n tm e t h o d t h i sp a p e rp u t sf o r w a r d1 4c h a r a c t e r i s t i c so fo l a m ,w h i c hc a nb et h ec o n s t r u e t i n g r u l e sa n da p p r a i s i n gc r i t e r i o n so fo l a ms y s t e m s b a s e do nt h e s eg u i d e s ,t h ea u t h o r g i v e st h ec o n c e p t u a lm o d e la n dak i n do fl o g i c a lm o d e lt h a tb a s e do nt h ei n t e l l i g e n t a g e n t s a m o n gt h e m t h ec o n c e p t u a lm o d e lo u t l i n e st h er e s e a r c hs c o p eo fo l 埘t h i s p a p e rb r i n g sf o r w a r dt h ew o r kw a r e h o u s ea n de x p o r to b j e c ts t o r ef o rt h ef i r s tt i m e ao l a ms e m a n t i ct a s km o d e lw h i c hb a s e do nt h ec o n s t r a i n t sp r e s e n t sf o rt h ef i r s t t i m e ,w h i c hg e n e r a l i z e sp l e n t yo fd e c i s i o na n a l y t i c a la l g o r i t a m s ,f i n d st h ec o m m o n c h a r a c t e r i s t i c so fo l a mt a s k ,e x t r a c t st h ee l e m e n t a r yo p e r a t i o n sw h i c hb a s ei st h e s e m a n t i cs l i c e s t h ed e f i n i t i o no fs e m a n t i cs l i c e st h a ta r eb a s e do nt h ec o n s t r a i n t s , t h er e l a t i o n s h i pj u d g i n gm e t h o d so ft h es e m a n t i cs l i c e sa r eg i v e n t h er e l a t i o n s h i p o ft h es e m a n t i cs l i e e si st h eb a s i eo fo p t i m i z i n gt h eo l a mt r a n s a c t i o n s an e wo l a mt a s k t r a n s a c t i o nm o d e lb a s e do na o r d a ga l s op r e s e n t si nt h i sp a p e r ,w h i c h c a nd e s c r i b e sc o m p l e xo l a mt a s k sa n dt r a n s a c t i o n s ,i m p l i e st h ec o n t r o ls t r e a ma n d t h ed a t as t r e a m b a s e do nt h eo l a mt a s k t r a n s a c t i o nm o d e la n dt h es u b t a s kv a l u e m o d e l t h a tc o n s i d e r st h em a i ne l e m e n t st h a tc o n f l u e n tt h ei m p o r t a n c eo ft h es u b t a s k ,m a n y o l a mt a s kc o l l a b o r a t i o nm o d e la r eg i v e n t h i sp a p e rp u t sf o r w a r dt h eo l a mt r a n s a c t i o n o p t i m i z i n ga n ds c h e d u l i n gm o d e l ,w h i c ht a k ea d v a n t a g eo ft h es t r a t e g yt h a tt h em o s t v a l u a b l et r a n s a c t i o np r e f e r e n t i a l l ya r ed e a l tw i t h e x p o r to b j e c t sc a nd e s c r i b et h ec o n n o t a t i o no ft h e s e m a n t i cs l i c e s ,w h i c hi st h e k e yo ft h ea n a l y t i c a lp r o c e s s i n go fo l a mt a s kr e l a t i o n s h i p s t h i sp a p e rg i v e st h e d a t am o d e la n dv a l u e m o d e lo fe x p o r to b j e c t s ,a tt h es a m et i m e 。ae f f i c i e n t r e l a t i o n s h i pj u d g i n gm e t h o do ft h ee x p o r to b j e c t sw h i c hi sb a s e do nt h er e l a t i o n a l d a t am o d e la ls ob eb r o u g h tf o r w a r d m e t a d a t ai st h eg l u eo ft h eo l a ms y s t e m ,s ot h i sp a p e rp o i n t so u tt h ed e v e l o p i n g d i r e c t i o no ft h em e t a d a t am a n a g e m e n ts t r a t e g y ,a n dp u t sf o r w a r dan e wo l a mm e t a d a t a m a n a g e m e n tm e t h o dt h a t isb a s e do r lx m l a so l a mi san e wi n t e r c r o s sr e s e a r c hf i e l d ,t h e r ea r es t i l lm a n ya s p e c t sw h i c hn o t b es t u d i e dv e r yw e l l ,s o m ea s p e c t se v e nn o tb er e f e r r e d t h i sa i mo ft h i sp a p e ri s t oc o n s t r u c tan e w ,s y s t e m i ct h e o r yf o ro l a m ,s o l v e st h e s eu r g e n tp r o b l e m s ,a n d b u i i d st h eb a s i co fo l a mt e c h n o l o g y k e yw o r d s :o l a p ,d a t am i n i n g ,d e c i s i o ns u p p o r t ,s y s t e mi n t e g r a t i o n ,o l a m t r a n s a c t i o nm o d e l ,t r a n s a c t i o no p t i m i z a t i o n ,m e t a d a t am a n a g e m e n t ,s e m a n t i cs 1 i c e s e m a n t i c sr e l a t i o n s h i p ,t i m el i m i tg u a r a n t e e 浙江大学博士学位论文:联机分析挖掘处理技术( o l a m ) 的研究 1 绪论 1 1o l a m 技术的概念 近年来随着计算机技术的迅猛发展和计算机应用的普及,企业中的数据环境有了较大的 变化,这主要体现在两个方面:一方面,需要处理的数据量越来越大,以g i g a b y t e 为数量 级的数据存储在实际应用中已经变得越来越普遍,t e r a b y t e 数量级的商业应用也越来越多, 在科学计算领域还山现了p e t a b y t e 级的应用。而且数据存储量增加的势头十分迅猛,形 成了和计算机集成芯片( i c ) 发展中的“摩尔定律( m o o r si a w ) ”相似的“数据积累摩尔定 律”一即企业中的数据量平均经过1 8 个月就会翻一番”1 。另一方面,对于数据的操作越 来越复杂,建立在数据库基础上的联机事务处理( o l t p o nl i n et r a n s a c t i o np r o c e s s i n g ) 技术通常只对数据进行存取和建立在报表基础上的对数据的较为简单的分析处理“,而日 j ;1 激烈的市场竞争则要求企业能够尽快地获得对现有数据的全面理解和把握,从中分析、发 掘出对于企业运作和市场发展有现实指导意义的知识,从而把它们作为在市场上保持较强竞 争力的秘密武器。这种需求就要求改变现在企业中对数据的利用只是停留在简单存取操作阶 段的局面,需要对企业中现有数据进行深入的发掘和分析。 数据仓库技术( d a t aw a r e h o u s i n g ) 、联机分析处理技术( o l a p o nl i n ea n a l y t i c a l p r o c e s s i n g ) 、数据挖掘技术( d a t a m i n i n g ) 以及数据库中的知识发现技术( k d d k n o w l e d g e d is c o v e r yi nd a t a b a s e ) 就是针对这种需求发展起来的新技术,这些技术在企业中的应用 不同程度上满足了企业数据环境变化所产生的需求。 “数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持 管理人员的决策分析”。数据仓库技术通过对事务型数据库中数据的加工、整理和重组, 完成事务型数据向分析型数据的转换,形成一个综合的、面向分析的分析型数据存储,从而 实现对历史数据和现有数据的综合管理,并为数据的深入分析处理提供数据基础。 建立在数据仓库基础上的联机分析处理( o l a p o nl i n ea n a l y t i c a lp r o c e s s i n g ) 技 术通过对多维数据的聚合计算和聚合结果的预存储,支持对数据多角度、多侧面的统计利观 察,从而达到对数据更为全面的把握和理解的目的。o l a p 技术主要对数据仓库中的数据进 行表层的聚合统计,力图以统一的应用逻辑和数据模型,在短时间内响应非数据处理专业人 员的复杂查询要求”。 数据挖掘技术( d a t am i n i n g ) 和数据库中的知识发现技术( k d d - 一- k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) 利j _ ;j 复杂的数据模型和数据分折算法对数据库中的数据进行更深层次上的发 椭和理解,从而发现数据中隐含的、以前朱知的、新颖的、有趣的知识”1 。 o l a p 技术和数据挖掘技术在分析数据时有着显著的不同,这主要体现在以下几个方面: 浙江大学博士学位论文:联机分析挖掘处理技术( o l a m ) 的研究 采用的数据模型不同:o l a p 技术中采用多维数据模型,支持对数据的旋转、上钻、 下挖、切片、切块等操作;而数据挖掘目前还不存在一个统一的数据模型。 应用系统的运行方式不同:o l a p 系统按用户提出的问题或假设,从上至下地提取出 关于给定问题或假设的详细信息,并以用户可理解的形式呈现给用户。这是一种经 验型的分析过程;通常由于用户领域和思维模式的局限性,限制了问题和假设的设 定范围,从而影响0 l a p 最终的分析结果。而数据挖掘的自动化程度较高,在数据分 析和挖掘之前,用户通常对数据中所蕴涵的知识了解较少,挖掘的结果更多的依赖 于数据挖掘算法,它能自动地从大量数据中发现隐藏的数据模式( p a t t e r n ) 并经用 户测试后形成有用的知识。 对数据的分析层次不同:o l a p 技术没有数据挖掘技术对数据分析的深入。实际上, o l a p 是一种静态数据分析技术,它通过对数据预先聚集和存储来保证较好的查询响 应性能,对用户所提的问题提供正例或反例,它是一种对数据的解释过程;而数据 挖掘则是一种动态数据分析技术,它不停留在对数据的解释阶段,而是从数据中获 得创新性的知识,是对数据的深入理解。 所解决的问题不同:o l a p 技术和数据挖掘技术对数据分析层次的不同决定了它们所 能解决的问题不同。o l a p 技术通常用来解决对数据的多角度、多侧面的查询,从数 据中提取数据事实:数据挖掘技术则用来发现较高抽象层次的知识。 用户群不同:o l a p 技术和数据挖掘技术所解决的问题不同决定了两者的用户群不同。 o l a p 通常为初中级决策人员服务,进行战术级的决策分析;而数据挖掘则面对中高 级决策人员,辅助他( 她) 们进行战略级的决策。 尽管o l a p 技术和数据挖掘技术存在以上诸方面的不同,但它们均属于数据分析技术, 在对数据的分析过程中可以相互结合、互为补充。 o l a p 是一种浅层次上的知识发现或者说是一种广义数据挖掘方法,旨在简化数据分析 过程,提高系统响应的服务质量,支持联机分析。它利用多维分析和简单的统计分析方法为 决策过程提供统计分析信息,是决策者用来了解现有数据概况、发现进一步分析焦点的有利 工具。为后续的数据分析,如数据挖掘提供了数据导航和漫游的功能。 数据挖掘是在较深层次上从积累的数据中发现前所未知的、隐含的知识,并尽可能使这 一过程自动化。它所发现的模式一般要利用o l a p 技术在现有数据中寻求数据事实的支持, 即对模式进行验证,从而转化为知识。一个决策分析过程可以用图卜i 来表示。 在这个迭代过程中随着分析的不断深入,会根据分析结果发现新的问题,因此这个循环 过程会随着认识的深入和相关领域知识的加入而进行下去,直至获得令人满意的结果。 2 塑垩查兰壁主兰壁垒奎! 壁垫坌堑垫塑竺堡垫查! ! ! 坐! 塑堑塞 一 一一_ 匪垂三卜、 , 图1 1 决策分析过程 鉴于o l a p 技术和数据挖掘技术在决策分析中的互补性,希望能将两者有机的结合起来, 在数据仓库的基础上提供更为全面的决策支持应用。 o l a p 技术和数据挖掘技术的结合就系统集成度来讲可以分成不同的层次; 松散的集成:系统的集成度不高,实际上是把分立的o l a p 系统和数据挖掘系统组 合在起,两者没有统一的逻辑模型和任事务模型。 紧密的集成:系统采用统一的逻辑模型、任事务模型、数据定义语言和数据操作 原语,对于数据密集和时耗较大的操作系统进行统一的调度和优化,从而在系统内 核上将o l a p 技术和数据挖掘技术有机的结合在一起。 1 9 9 7 年j i a w e ih a n 提出了o l a m 的概念”“2 “,他把o l a m 定义为o l a pm i n i n g ,指将 o l a p 和数据挖掘技术结合起来,在多维数据模型数据立方体的基础上对外提供数据分析 和知识发现应用。这实际上是在o l a p 系统的基础上,对数据分析算法进行扩充,把数据挖 掘算法引入到多维数据模型的数据环境中来,并把这种思想在d b m i n e r 系统”中预以实现。 h a n 所提出的o l a m 的研究方向是数据分析算法和数据挖掘算法如何与数据立方体高效地结 合,解决多维数据环境的数据挖掘。但对于如何在系统体系结构上把o l a p 和数据挖掘有机 的结合起来,即在异构大数据量的环境中快速响应用户的数据分析和数据挖掘请求的问题没 有做深入的研究,所以这是一种松散的集成。 实际上,要把o l a p 与数据挖掘有机地集成只有高效的数据分析和数据挖掘算法是远远 不够的。集成系统中需涉及很多问题,比如:o l a m 系统的概念、逻辑和物理体系结构的设 计、o l a m 任务事务模型、任务的优化和调度、o l a m 语言的设计和语法、语义分析与优化、 智能的用户分析导航和系统监控、q o s 的保证、系统的可扩展性等问题都需要进行深入的研 究和探讨。这些问题并没有得到学术界足够的重视和深入的研究。本文研究的目的就是解决 o l a m 系统中的上述问题,为o l a m 系统的进一步研究和应用提供理论基础和设计参考。 本文对0 l a i 的概念进行了扩展,把o l a m 定义为联机分析挖掘处理( o nl i n ea n a l y t i c a l m i n i n gp r o c e s s i n g ) ,实现对o l a p 和数据挖掘的紧密集成。数据分析和挖掘的数据基础不 局限于多维数据模型,而是包括多维数据模型、关系数据模型、对象数据模型和对象关系数 据模型、半结构或无结构化数据模型等多种模型的异构环境。研究的重点为如何把o l a p 与 数据挖掘技术有机的集成在一起为用户提供高效地决策支持应用。 3 浙江大学博士学位论文:联机分析挖掘处理技术( 0 l a m ) 的研究 o l a y 技术是o l a p 技术和数据挖掘技术相结合的产物,它兼有0 l a p 的多维分析的在线 性、灵活性和数据挖掘对数据处理的深入性,是数据库( 数据仓库) 应用工具未来发展的方 向。 随着数据仓库技术的成熟和应用系统的逐渐普及,0 l a y 技术将成为新一代决策支持系 统的应用开发技术,有着广阔的应用前景。同时也应认识到对0 l a y 技术的研究还不够深入。 需要解决的问题还很多,这为我们提供了机遇和挑战。 1 2 o l a m 技术的发展及其相关学科 o l a y 技术的形成过程可以用下图来表示 人工智能a i 机器学习m l 数据挖掘 数据库d r 操作数据存储 数据仓库d w 统计数据库s d b 力 图i - 2o l m 技术演化 联机分析挖掘 o l a m 从上图可以看出o k a y 技术是数据库技术和人工智能技术各自深入发展后,两者融合而 形成的新技术。 l - 2 1 数据库技术的发展 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,积累的数据越来越多。在 这些数据中蕴涵着许多重要的、不为人知的信息,人们希望对这些数据进行深入的分析,以 便把这些积累的数据转化成可以指导生产实践的信息或知识,从而更好地利用企业资源,提 高生产经营效率和企业竞争力。 目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中 隐藏的关系和规则,无法根据现有的数据预测未来的发展趋势。为了解决这个问题,更好地 存储和处理大规模数据,并从这些数据中挖掘出有用信息。1 9 9 3 年w h i n m o n 在其“b u i i d i n g t h ed a t aw a r e h o u s e ”一二饽中提出了数据仓库的概念,和传统的数据库不同,数据仓库是一 个用以更好地支持企业和组织的决策分析处理的、面向主题的、集成的、不可更新的、随时 间不断变化的数据集合。 4 么 浙江大学博士学位论文:联机分析挖掘处理技术( o l a m ) 的研究 1 9 9 3 年“数据库之父”e f c o d d 提出了联机分析处理( o l a p o nl i n ea n a l y t i c a l p r o c e s s i n g ) 的概念,并给出了o l a p 产品评价的十二条基本准则。尽管这些准则引起了不 少的争论,但o l a p 的概念却开拓了数据库应用的新领域。自此之后,o l a p 的技术得到了广 泛地关注和研究,o l a p 产品层出不穷。o l a p 应用也越来越普及。 为了对数据进行深层次的发掘,人们期待一种新的、更有效的挖掘数据背后隐藏知识的 手段。人工智能领域的机器学习技术和数据库技术的结合为人们提供了解决这一问题的思 路。 1 2 2 人工智能技术的发展 人工智能自1 9 5 6 年诞生之后取得了重大进展,经历了博弈时期、自然语言理解、知识 工程等阶段,目前的研究热点是机器学习( m l 一- m a c h i n el e a r n i n g ) 。机器学习是用计算机 模拟人类学习的一门学科,比较成熟的算法有分类算法、神经网络、遗传算法等。 用数据库管理系统来存储和管理数据,用机器学习技术来分析数据,挖掘大量数据背后 的知识。这两者的结合促成了数据库中知识发现技术( k d d k n o w l e d g ed i s c o v e r yi n d a t a b a s e ) 的产生。k d d 概念是在1 9 8 9 年8 月于美国底特律召开的第1 l 届国际人工智能专 题讨论会上提出的,随后几年都举行了k d d 专题讨论会,集中讨论了数据统计、海量数据分 析算法、知识表示、知识运用等问题。随着k 肋研究人员的不断增长,k d d 国际会议发展成 为年会。几次k d d 国际会议基本上围绕着k d d 的基础理论、发现算法、数据仓库、可视化技 术、知识表示方法、发现知识的再利用、网络环境下数据挖掘等专题进行了研讨。 目前国际上k d d 的研究主要以知识发现的任务描述、知识评价和知识表示为主线,以有 效的知识发现算法为中心。具体而论”1 ,k d d 技术是在各种真实数据库( 关系、演绎、时态、 空间、分布、面向对象等) 中,利用统计学、证据理论、归纳学习、近似推理、人工神经网 络、遗传算法、概念树提升算法、关联算法,分类算法、粗糙集( r o u g hs e t ) 理论、现代 数学分析方法及其集成方法等技术,发掘诸如关联规则、分类规则、数据聚类、序贯模式、 相似模式、混沌模式、分布模式等知识。 数据挖掘技术是k d d 技术的核心部分,它采用机器学习、统计分析等方法进行模式识别。 目前大多数研究都集中在数据挖掘算法上。由于k d d 技术与数据挖掘技术联系十分紧密,人 们往往不严格区分这两者,而混合使用,但从严格意义上来讲,一般在工程领域称为数据挖 掘,而在科研领域称为k d d 。 随着k d d 技术研究的深入,出现了一些建立在k d d 技术基础上的原型系统和实用系统, 如r e g a i n 大学的k d d r 系统、k a n s a s 大学的l e r s 系统、l o c kh e a dm a r t i n 公司的r e c o n 系统、s s a n a n d 公司等开发的m k s 系统等。在知识发现与数据挖掘国际学术会议上,有很 多软件公司展示了他们的数据挖掘软件产品。这些软件系统的出现说明k d d 技术正在走出实 验室,走向应用。但同时也应意识到k d d 技术还远没有成熟,需要研究的问题仍然很多。 浙江大学博士学位论文:联机分析挖掘处理技术( o l a m ) 的研究 1 2 3o l a m 技术的出现 数据库领域在o l a p 基础上对数据深层次分析的需求与人工智能领域中数据挖掘技术的 融合促生了联机分析挖掘处理( o l a m ) 技术。 o l a m 技术所包含的关键技术可以用下面的公式来表示: o l a m = d w + o l a p + d m 其中,d w 为数据仓库技术( d a t aw a r e h o u s i n g ) : o l a p 为联机分析处理技术( o nl i n ea n a l y t i c a lp r o c e s s i n g ) : d m 为数据挖掘技术( d a t am i n i n g ) 公式中的“+ ”不是指以上技术的概念、机制的简单迭加和拼凑,而是指多种技术的无 缝集成( s e a m l e s s l yi n t e g r a t e d ) ,这种集成将带来o l a m 技术与其构建技术在基本概念、 原理、技术、方法、机制、建造、使用等方面本质上的不同。 数据仓库技术( d a t aw a r e h o u s i n g ) 为o l a m 提供分析和挖掘操作的数据基础,在o l a m 系统中由于原始数据的数据类型不同,数据分析和挖掘的算法不同,因而要求数据基础的数 据组织形式能支持复杂的数据结构。这种数据结构的复杂性体现在以下几个方面:( 1 ) 基本 数据类型的复杂性:除了支持常规的整型、实型、字符串等,还应支持向量、矩阵、时序、 递归等数据类型,并提供灵活的数据类型自定义功能。( 2 ) 数据之间的联系的复杂性:除了 支持n 元( n - a r y ) 关系,还应支持如星型、雪花模型等多维联系,以及多种显式或隐式的 语义联系。( 3 ) 数据逻辑结构的复杂性,不但支持结构化和半结构化数据,还要支持无结构 的数据。 这些均对0 l a m 中的数据建模和表示方法提出了挑战。传统意义上的数据仓库技术通过 对数据的访问、提取、整合、加工、存储,形成多维数据模型下的数据立方体,支持o l a p 应用。在o l a m 技术中所要求的数据基础的复杂性是传统意义上的数据仓库技术所不能完全 胜任的,为了支持复杂的数据环境,需要对数据仓库技术进行扩展。因此在o l a m 中,数据 的建模和表示是最关键的技术环节之一。 o l a p 技术和数据挖掘技术是o l a m 技术的两个重要技术支撑部分,分别完成数据分析挖 掘任务中各自所擅长的部分,在决策支持应用系统中对应不同决策层次和用户群体。 不同研究背景的研究人员对于决策层次或数据分析级别的认识也各有差异。下面介绍几 种在研究领域影响较大的决策支持层次模型,并在对这些模型进行分析的基础上提出决策支 持空间的新的划分方法。 “数据库之父”和o l a p 概念的提出者e f c o d d 于1 9 9 3 年根据数据处理的范围、交互 需求、多维分析需求等因素将数据分析模型分为四种模型”1 :绝对模型( c a t e g o r i c a l m o d e l ) 、 解释模型( e x e g e t i c a lm o d e l ) 、思考模型( c o n t e m p l a t i v e m o d e l ) 和公式化模型( f o r m u l a i c m o d e l ) 。其中,绝对模型通过预先定义的数据访问路径对数据的值进行查询,从而获得某种 事实,对应于通常的o l t p 应用中对数据的检索。解释模型利用预定义的多层次数据访问路 6 浙江大学博士学位论文:联机分析挖掘处理技术( o l a m ) 的研究 径对数据所表示的事实层层细化,用于发现事实发生的原因,对应于现在的o l a p 应用。以 上两种模型均是对数据进行静态分析,而思考模型则对数据进行动态分析,说明在数据的一 维或多维上b i 入一组具体变量、参数或公式关系后将会出现什么后果。公式模型是数据分析 动态性最高的一种模型,把思考模型中变量、参数和公式关系的引入自动化,从中发现影响 问题的可能因素和因果关系。思考模型和公式模型所针对的技术为数据挖掘。e f c o d d 的 数据分析模型提出的比较早,对建立在数据库基础上的数据分析技术的发展起了很大作用, 尤其是推动了o l a p 技术的产生和应用系统的建设。但由于模型的建立是从数据基础的组织 和数据访问方法的角度来考虑的,这使模型过多注重数据的细节,而缺乏一定的逻辑概括高 度。另外随着技术的发展,模型建立时所针对的数据环境也发生了变化。 k p a r s a y e 把决策支持问题空间划分为四个子空间”1 :数据空间、聚合空间、影响空间 和变化空间,分别对应不同级别的决策支持应用和技术。 决镱支持空间数据基础逻辑分析主体物理分析主体分析方法 数据空间数据库( 关系模型)实体与关系表和视图关系代数 聚合空间多维数据模型主题数据立方体c u b eo l a p 操作 影响空间数据矿d a t a m i n e影响域多态数据集合数据挖掘算法 变化空间知识与元数据模式与其相关数据多态数据集台数据挖掘算法 表卜i 决策支持空间划分及其相关因素 这种对决策支持的划分更侧重于技术方面的考虑。实际上,除了数据空间以外的几个空 间可以合并为个空间一一我们称之为“知识空间”,因为在应用中聚合空间中的o l a p 技术 和影响空间中的数据挖掘技术是有很多共性的,它们均是从数据空间积累的数据中抽取知识 的过程,就决策支持而言,两者可以在解决问题时相辅相成。 l 决策支持空间数据基础逻辑分析主体物理分析主体分析方法 l 数据空间数据库( 关系模型)实体与关系表和视图关系代数 i 知识空间数据仓库分析域 一组基于约束的o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论