




已阅读5页,还剩66页未读, 继续免费阅读
(系统工程专业论文)分布式数据挖掘技术在市场营销中的应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西安建筑科技大学硕士学位论文 分布式数据挖掘技术在市场营销中的应用研究 专业:系统工程 研究生:梁战维 导师:黄光球教授 摘要 面对不断加剧的社会竞争,各个企业都在不断探索增加产品销量的道路。原来在企业中起 过很大作用的数据库管理系统,随着各企业数据量的成倍增加,以及企业对数据处理的要求从 原来的事务处理到分析处理,以实现对企业的决策支持的改变,已不再可能满足现代企业对数 据处理基本需求,因此我们不得不去寻找一种自动分析数据、自动分类数据和自动汇总数据的 方法,以便从这些大量数据中自动发现和描述这些数据的趋势和标定那些异常事务。从而引出 了对数据仓库、多维分析和数据挖掘的研究和应用。 本论文首先对数据仓库、多维分析和数据挖掘进行了深入的分析与说明,在数据仓库方面, 从数据仓库的定义出发对数据仓库作了全面的论述,并对数据仓库中的数据组织作了描述:在 多维分析上,对多维分析中的相关概念进行的解释,对多维分析和联机事务分析进行了对比; 在数据挖掘中,对数据挖掘的算法进行了介绍和比较。其次,提出了一种从传统数据库中提取 数据的最短路方法,以此方法便可完成数据仓库中数据的提取以及数据仓库的建造,同时从多 维分析中的各种操作出发,对多维分析中的切片、切块、上卷、下钻和旋转操作进行t n 析, 并在数据仓库的基础上实现了市场营销中数据的分析和处理。再次,对数据挖掘中的关联规则 的挖掘进行了较深入的研究,引入了两种对a l 】r i o r i 算法的优化,第一种是a p r i o r i t b 算法,此 算通过减少对扫描数据库的大小实现了对舷i o r i 算法效率的提高:第二种是t i d 算法,此算 通过减少对数据库的扫描次数完成了对a p r i o r i 算法优化。最后,从分类和聚类这两种对数据 的挖掘方法出发,研究了对客户类型通过决策树进行的分类,以及研究了一种通过网格算法和 密度算法相结合的一种新的聚类算法。 目前,国内与国外在此课题上的研究现状和水平相差甚远。国内在这一方面的起步比较晚, 到目前为止,国内只有少数企业才建立了企业自己的数据仓库,还未发展到从大量数据中找出 有用的支持企业决策信息这一步。以上应用在我国企业中,甚至于零售业中的应用前景非常看 好,它不但可帮助企业管理好客户,同时也可刺激客户进行消费,并可帮助企业更容易的争取 西安建筑科技大学硕士学位论文 ! ! ! ! ! ! ! 目! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! g ! ! ! ! ! ! ! ! ! ! ! ! ! ! e = ! ! ! ! ! ! ! ! ! ! ! 使潜在客户成为企业的忠实客户。 本论文利用运筹学中的最短路方法实现了对传统数据库中数据的提取:在数据挖掘的关联 规则挖掘中,对关联归则挖掘的a p r i o f i 算法从两个方面进行了优化,并对两种算法进行了详 细的分析说明及实现;在分类挖掘中,对市场营销中的客户类型进行了决策树挖掘;在聚类挖 掘中,对基于网格和密度的聚类算法进行的详细的分析说明。本论文仍有一些不足之处,希望 在以后的工作实践中能继续本论文的研究。 【关键词】数据仓库;多维分析处理;数据挖掘;关联规则;分类:聚类 【论文类型】陕西省自然科学基金项目 a p p l i c a t i o n r e s e a r c h0 ut h et e c h n o l o g yo f d i s t r i b u t e dd a t a m i n i n g 0 u m a r k e t i n g s p e c i a l l y :s y s t e me n g i n e e r i n g g r a d u a t e :l i a n g z h a n w e i i n s t r u c t o r :p r o f e s s o rh u a n gg u a n g q i u f a c e c o n t i n u o u s l yw o r s ec o m p e t i t i o no f s o c i e t y ,e a c h e n t e q ) r i s ec o n t i n u o u s l yp r o b eh o w t os e l l m o l e p r o d u c l s w i t h t h ed a t ao f t h e e n t e r p r i s ed o u b l ya d d i n g , a n d t h ew a yo f d a t a p r o c e s s i n gc h a n g m g f i o mt r a n s a c t i o np r o c e s s i n gi n t oa n a l y t i c a lp r o c e s s i n gw h i c hc a r ls u p p o r te n t e r p r i s ed 。c i s i o n , t h e d a t a b a s e m a n a g e m e n ts y s t e m t h a tp l a ya g r e a tr o l ei n t h ee r a e r p r i s ei nt h e p a s tc 越1 1 1 tm e e t t h em o d e m e n t e r p r i s eo f b a s i cd e m a n d t od a t a p r o c e s s i n g t h e r c f o r e , w em u s tf i n dw a y s t oa t a o m a f i c a l l ya n a l y z e t h ed a t a , t oa t a o m a l i e a l l yc l a s s i f yi t , t o a u t o m a t i c a l l ys t m a m a r i z ei t , t oa u t o m a t i c a l l yd i s c o v e r a n d c h a r a t e r i z et r e n d si ni t , a n dt oa u t o m a t i c a l l yf l a ga n o m a l i e s s ow e b e g i n t os t u d ya n d a p p l y t h ed a t a w a r e h o u s e t e c h n i q u e , m u l t i d i m e n s i o na n a l y s et e c h n i q u ea n d d a t a m i n i n gt e c h n i q u e f i r s t l y , t h i st h e s i sm a k ed e 印1 ya n a l y s e a n dd e m o n s w a f i o ni nd a t aw a r e h o u s e 、m u l f i d i m e m i o n a n dd a t a m i n i n g i n t h ed a t aw a r e h o u s e f r o mt h ed e f i n i t i o no fd a l aw a r e h o u s e c o m p l e t e d c m o n s t r a l i o n sa b o u td a t aw a r e h o u s ea n dd a t ao r g a l l i z a t i o ni sm a d e i nt h em u l i d i m e n s i o n r e l a t e d c o n c e p ta b o u tm u l t i d i m e m i o na n a r y s ei se x p l a i n e d m u l f i d i m e m i o na n d o n l i n et r a n s a c t i o n p r o c e s s i n g a n a l y s ea l e m a d e a c o n t r a s t i n t h e d a t a m i n i n g , d a t a m i n i n g a l g o r i l h m s 越i r 曲d u c e d a n d c o m p a r e d s e c o n d l y , i nt h et h e s i s am o s ts h o r tc i r c u i tm e t h o do fe x t r a c t i n gd a t af r o mt r a d i t i o n a ld a t a b a s ei s i n t r o d u c e d , b y w h i c h w ec o u l ds u c c e s s l y e x t r a c t d a t a a n db u i l da d a m w a r e h o u s e m e a n w h i l e , o p e r a t i o n s o fm u l t i d i m e n s i o na b o u t s f i c e , d i c c :, p i v o t , r o l l - u p , r o l l - d o w n i s d e e p l ya n a l y z e d , a n d m a r k e t i n gd a t a i s a n a l y z e d a n d p r o c e s s e di n t h ed a t a w a r e h o u s e t h i r d l y , d e e p l ys t u d y i n g a s s o c i a t i o nr u l em i n i n go fd a t am i n i n g i n t r o d u c i n gt w oo p t i m i z e dm e l h o do f a r t i o r ia l g o r i t h m t h e f i r s ti sa p r i o r i t ba l g o r i t h m , w h i c hm a k et h ea p f i o r ia l g o r i t h mm o r e e f f i c i e r b yr e d u c i n gt h es i z eo f s c a n n i n gd a t a b a s e t h es e c o n di st da l g o r i t h m ,w h i c hm a k e t h e a p r i o r ia l g o r i t h mm o r ee t = 五c i e u tb y r e d u c i n gt h et i m e so fs c a r m i n gd a t a b a s e f i n a l l y , i n t r o d u c i n gm e l h o do fc l a s s f i c a t i o na n dc l u s t e n n g s t u d y i n gt h ec l a s s f i c a t i o no fc u s t o m e r st y p et h r o u g hd e c i s i o nf r e e , a n ds t u d y i n gan e w c l u s t e r i n g a l g o r i t h mb y t h ec o m b i n a t i o n o f 鲥da l g o r i t h ma n dd e n s i t ya l g o r i t h m 西安建筑科技大学硕士学位论文 a tp r e s e n t , t h e r eh a sab i gg a pb e t w e e nt h en a t i v ea n df o r e i g no nt h i st h e m e i nt h i sa s p e c tt h e n a t i v es t u d y i n gw a sl a t e r s of a r , i nt h en a t i v et h e r eo n l ya r es e v e r a le n t e r p r i s eh a sb u i l tt h e i ro w nd a t a w a r e h o u s e t h es t e pt h a tf i n d i n go u tu s e f u ld e c i s i o ni n f o m a a t i o nf r o ma l a r g ea m o u n to f d a t ah a s b e e n n o tr e a l i z e d t h e s ea p p l i c a t i o nh a sa g o o do u t l o o ki nt h eu s e o f o u r c o u n t r y sr e t a i l i n g i tn o to n l y c o u l d h e l pe n t e r p r i s et om o r ee f f i c i e n t l ym a n a g ec u s t o m s , b u ta l s oc o u l ds t i m u l a t ec o n s u m p t i o na n dh e l p e n t e r p r i s em o r ee a s n yc h a n g i n g t h el a t e n tc u s t o m e ri n t ol o y a lc u s t o m e r t h et h e s i sr e a l i z et h ed a t ae x l r a c t i o nf r o mt r a d i t i o n a ld a t a b a s e b y t h em o s ts h o r tc i r c u i tm e t h o do f o p e r a t i o n a lr e s e a r e h i nt h ea s p e c t o f a s s o e i a l i o nr u l en _ l i i l i n go p t i m i z i n ga p r i o r ia l g o r i t h mf m m t w oa s p e c t , a n dc o m p l e t e l y a n a l y z i n ga n dr e a l i z i n gt h et w oa l g o r i t h m i nc l a s s f i c a t i o nm a k i n g d e c i s i o n t r e em i n i n ga b o u tt h ec u s t o m e r st y p e i n c l u s t e r i n gc o m p l e t e l ya n a l y z i n ga b o u tc l u s t e r i n ga l g o r i t h m b a s e do ng r i da l g o r i t h ma n dd e m i t y a l g o r i t h m b u tt h e r ea r es o m es h o r t c u t si nt h i st h e s i s ih o p et o k e e pu ps t u d y i n g t h et h e s i sa tw o r kl a t e r k e y w o r a s l d a t aw a r e h o u s e ,o n - l i n ea n a l y f i c a lp r o c e s s i n g ,d a t an m i n ga s s o c i a t i o nr u l e ,c l a s s f i c 址i o n c l u s t e r i n g t h e s i s t y p e lp h y s i c a ls c i e n c e f u n d i t e m o f s h a n n x i p r o v i n c e 声明 芦5 3 6 9 “ 本人郑重声明我所呈交的论文是我个人在导师指导下 进行的研究工作及取得的研究成果。尽我所知,除了文中特 别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含本人或其他人在其它单位己 申请学位或为其它用途使用过的成果。与我一同工作的同志 列本研究所做的所有贡献均已在论文中作了明确的说明并 表示了致谢。 申请学位论文与资料若有不实之处,本人承担一切相关 责任。 论文作者签名:驿战难 日期:抄,坼, 关于论文使用授权的说明 本人完全了解西安建筑科技大学有关保留、使用学位论 文的规定,即:学校有权保留送交论文的复印件,允许论文 被查阅和借阅;学校可以公布论文的全部或部分内容,可以 采用影印、缩印或者其它复制手段保存论文。 ( 保密的论文在论文解密后应遵守此规定) 论文作者签名:辈战椎导师签名蛳期:扣哆争形 注:请将此页附在论文首页。 西安建筑科技大学硕士学位论文 1 1 数据仓库 1 数据仓库、在线分析处理和数据挖掘 1 1 1 数据仓库概念以及与数据库的区别 随着社会经济的发展,企业或公司的管理人员所面临的首要问题就是,如何有效地管理企 业或公司在运营过程中所产生的大量数据和信息。2 0 世纪7 0 年代关系数据库技术的出现,为 这一问题的解决提供了强有力的工具。然而,随着市场竞争的加剧和信息社会需求的发展,到 2 0 世纪8 0 年代中期,企业中高层管理者所面临的决策问题具有更大的随机性和不确定性,因 此简单的管理信息系统已经不能再满足企业或公司对其运营数据的处理,他们更希望从其存储 的大量历史数据中得到对其发展有用的信息,使高层管理人员在进行决策时有所参考,使其企 业得以更好的发展。这种需求的出现,为数据仓库思想的发展打下了基础,在此基础上数据仓 库的概念被提出。1 9 8 2 年,w h i n m o n 在其里程碑式的建立数据仓库0 3 u i l d i n gt h e d a t a w a r e h o u s e ) - - 书中提出了“数据仓库( d w ,d a t aw a r e h o u s e ) ”的概念,从此数据仓库的研究和 应用得到了社会学者的广泛关注。 w h i n m o n 对数据仓库的定义剧i 】:“数据仓库是一个面向主题的、集成的、时变的、非易 失的的数据集合,支持管理部门的决策过程”。根据对数据仓库的定义,数据仓库主要具有以 下四个特征,其分别是面向主题性、集成性、时变性、非易失性。 面向主题性( s u b j e c t - o f i e m e d ) 主题是在一个较高层次上对企业信息管理系统中的数据的综 合与归类,并在此基础上对其数据进行分析处理的抽象,数据库中的数据般都是按照系统所 要处理的事物来进行组织的,而在数据仓库中的数据通常都是围绕一些既定的主题来组织,如 顾客和产品等主题。这些主题的选取和建立主要是以支持企业的决策所需要分析的数据来进行 组织的,其主要关注的是决策者的数据建模与分析。面向主题的数据组织方式,其实就是在一 个较高层次上对所要分析数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所 涉及的企业各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而 言的,是指按照主题进行数据组织的方式具有较高数据抽象级别。在逻辑意义上,面向主题对 应于企业中某一宏观分析领域所涉及的分析对象。 集成性c t n t e g r a t e d ) - 数据仓库的数据是从原有的分散的数据库中抽取出来的,数据仓库中 的数据不可能从原始数据库中直接得到,是通过对数据的清洗和集成等处理来生成的。在数据 一一i 墼堡塑壁垒尘譬丝些一 进入数据仓库之前,必然要经过统一与综合,统一就是统一数据源中所有矛盾之处,如字段的 同名异义、异名同义、单位不统一、字长不一致等等,然后进行重新综合,集中存放。数据仓 库中的数据综合工作可以在从原有数据库抽取数据时生成,然而有许多是在数据仓库内部生成 的,即在进入数据仓库以后进行综合生成。 时变性( t i m e - v a r i a n t ) :数据仓库的数据是随时间的变化而不断变化的。首先,随着时间推 移,数据仓库中的数据不断的得到增加,其次,数据仓库中存在好多旧的、不用的数据,这些 数据在过了一定的时间后要被从数据仓库中删除,最后,数据仓库中的数据大部分都是从原始 数据库中综合得到的,而这些综合数据中大部分都和时间有关,数据一般都是按照时间来进行 综合的,或隔一定时间段进行抽取的,这些数据要随时间的变化不断进行重新综合。 非易失性( n o n v o l a l i l e ) :在操作型环境中,主要对数据的操作有增加、删除、修改、奁询 等操作,通过这些操作便可完成对数据库系统的管理,其中可以对同一个系统进行此操作,也 可对多个不同的系统进行。而在数据仓库中,数据从操作型数据中抽取而来,是一段相当长时 间内历史数据内容的综合。一旦操作型数据被抽取,并进入数据仓库后,只要数据没有超过数 据仓库的数据存储期限,一般不对数据进行更新操作,只进行查询操作。同时对数据仓库中数 据的更新与对操作型数据中数据的更新相比较,其中对数据仓库中数据的更新频度要少得多, 时间的要求更为宽松。数据仓库总是物理地分离存放数据;这些数据源于操作环境下的应用数 据。通常,它只需要两种数据访问:数据的初始化装入和数据访问。 表1 1 口1 列出了操作型数据与分析型数据的区别。传统的数据库主要是用来对企业的日常 事务处理所需的数据进行存储,对其的操作主要是删除、插入、更新和查询操作。而数据仓库 中的数据是按照分析主题来进行组织的,其存储的数据主要是用来进行分析处理的,对其的操 作主要是查询。 表l1 操作型数据和分析型数据的区别 操作性数据分析型数据 存储的是处理时的数据存储的是历史数据 面向应用的细节的面向分析的练台数据 支持日常事务处理操作支持管理者的决策 一次性处理的数据量小分析的数据量相当大 由用户的具体事务所驱动由用户某一分析需求决定 对时间的响应非常高对时间的响应没具体要求 用户完全f 解- n :要处理的事务对其处理的结果预先未知 可对其进行删除和更新只能对超过一定时间的数据进行删除,对 其不可进行不更新 西安建筑科技大学硕士学位论文 随着现代企业数据量的不断增加,数据仓库的使用主要是为了提高系统的性能。数据仓库 中所存储的数据量一般非常大,其对数据的操作主要就是查询,对这些数据的查询往往操作比 较复杂,同时还可能涉及对这些数据在一定汇总级上的计算,这样就需要对这些数据进行特定 的组织,还需要对数据采取一定的存取方法和基于多维视图的实现方法。传统的数据库主要是 为已知的任务和负载,以及面向特定的事务的来设计的。在此基础上进行对数据仓库上进行的 多维处理分析,往往可能会大大降低操作任务的性能,同时需要的时间还会很长,使效率刚氐。 此外,操作数据库支持多用户进行的并行操作处理,在每个用户进行对数据库的操作时,需要 对数据库进行加锁,以保证对同一数据处理一致性。通常,多维分析处理只需要对数据记录进 行只读访问,以进行汇总和聚集。如果将并行控制和恢复机制用于这种多维分析处理操作,就 会危害并行事务的运行,从而大大降低多维分析处理系统的吞吐量。最后,数据仓库和数据库 这两种系统的数据结构、内容和用法都不相同。决策支持需要历史数据,而操作数据库一般不 维护历史数据。在这种情况下,操作数据库中的数据尽管很丰富,但对于决策,常常还是远远 不够的。决策支持需要将来自异种源的数据统一,产生高质量的、纯净的和集成的数据。相比 之下,操作数据库只维护详细的原始数据,这些数据在分析之前需要进行统一。由于两个系统 提供很不同的功能,需要不同类型的数据,因此,完全需要把数据库和数据仓库分离开来进行 受b 理。 1 1 2 数据仓库设计与数据库设计的区别 1 面向的处理类型不同 操作型数据库系统设计是面向应用的,针对用户所需要的某一应用来建立操作性的数据环 境。也就是说,数据库的设计是从某一或某一些具体应用出发来进行的,建立好数据库后,设 计人员便可根据其所存储的数据对其进行相应的事物处理操作。数据仓库不同于数据库,它是 面向分析的,数据仓库中所储存的数据主要是以某一主题来组织,在此基础上便可完成对此主 题的分析处理,并在此分析处理的基础上不断地发展新主题,同时提取此新主题相应的数据, 并不断完善已有的主题,最终通过不断的完善便可建立起一个面向主题的分析型数据环境。 2 面向的需求不同 数据库系统是面向应用的,是在一定的事务需求驱动下设计的,这些需求就是数据库系统 设计和开发的出发点和基础,在传统数据库中对数据的查询是被动的,在查询时用户不仅必须 清楚查询的内容,而且其查询一般会生成严格的结果集,同时查询查寻只对原始字段进行。而 数据仓库是面向主题的,在数据仓库环境下,不可能有较确切的分析要求,有时在分析结果得 出之前,用户甚至对其所要进行分析处理的目的还不甚明确,也就是说可能并不生成严格的结 果集。【司此在数据仓库中对数据的分析处理更加灵活,不像在操作型数据库中每一事务处理都 西安建筑科技大学硕士学位论文 必须有明确的要求,因而在进行数据仓库系统设计时,很难获得对用户需求的确切了解。这就 决定了我们不可能从用户需求出发来进行数据仓库的设计。我们只能以一定的分析主题来对数 据仓库进行设计。 3 系统设计的目标不同 事务处理性能是联机事务处理数据库系统设计的一个主要目标;而在设计数据仓库系统 时,系统设计人员更关心的是的怎样建立一个全局一致的数据环境以作为企业决策支持系统的 基础。因而数据仓库设计的一个主要目标是,保证数据的面向主题、集成、时变和非易失四个 基本特征,保证数据的全局一致性,以实现对企业数据的全局管理与控制。 4 两者的数据来源或系统的输入不同 数据牵中的数据通常都是通过人工输入或导入方式获得的,操作型数据库的设计也就是如 何从组织外部获得事务处理所需的数据,并以适当的方式对其获得的数据进行存储,在此基础 上完成在这些数据中对所需数据的查询、更新操作,同时保证数据的安全可靠与正确有效性, 等等。而数据仓库的数据主要是来自于原有的数据存储系统,数据仓库的设计也就是如何从现 存的数据存储系统中采取一定的方式来提取数据,并对这些数据进行转换、重组、综合,以及 提高对数据的分析效率和准确性等等。 1 1 - 3 数据仓库的数据组织 数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一般包括早期 细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据五部分圆。 1 早期细节数据 存储的是历史数据,其详细的反映了过去真实的历史l 青况。这些数据增加的频率比较小, 然而增加的幅度比较大,其中的数据量很大,使用频率比较低,几乎很少被使用。这些数据一 般存储在转换介质中( 如磁带) 。 2 当前细节数据 存储的是最近时期的业务数据,此数据反映当前的业务状况,数据量大,这些数据可被抽 取进入数据仓库,用来完成分析处理请求。随着时间的推移( 般是5 1 0 年) ,这些当前数据 便被作为早细节数据存储与早期细节数据中。 3 轻度综合数据 这些数据从当前细节数据中获得,通常是对当前细节数据在一较小的时间段内进行统计而 得来,也就是在时间维度上对当前细节数据的一个汇总,因此较当前细节数据量要小。 4 高度综合数据 这些数据类似于轻度综合数据,只是选择的维度层次较轻度综合数据要高,以及维度的选 西安建筑科技大学硕士学位论文 取也变得较多。此存储数据是一种准决策数据。 5 元数据 元数据是关于数据的数据,包含对整个数据仓库环境( 数据仓库,数据采集系统) 的描述。 分为数据和数据处理规则两部分。此数据中不包含任何业务数据库中的实际数据信息, 1 2 多维分析处理 1 2 1 多维分析处理概念 多维分析处理【3 】是针对特定问题的数据访问和分析。通过对信息的很多种可能的观察形式 进行快速、稳定一致和交互性的存取,允许管理人员对数据进行深入观察。其实多维分析是一 种软件技术,通过实现这种软件技术便可使分析人员从各个方面观察信息,把从原始数据中转 化出来的、能够真正为用户所理解的并真实反映企业维特性的信息进行迅速、一致、交互地存 取,在此基础上便可完成对所获数据的更深入了解。多维分析不同于般的查询,多维分析处 理是超越一般查询和报表之上的另一个逻辑步骤,也是朝创建个完整的决策支持的方案的又 一个演化阶段。在多维数据环境中,用户可通过多维分析软件工具来完成对复杂事物的查询。 有了多维分析工具,高层管理人员就能够通过浏览和分析数据来发现其变化趋势及得到一些潜 在的细节信息,从而更好地掌握他们商务活动的变化。 多维分析主要是对传统关系型数据或其它普通数据进行提取,以便以多维数据格式来对其 进行存储,然后便可在此基础上完成对数据的多维分析。多维数据库的存储格式可被看成一个 超立方体,数据是沿着这个超立方体的轴线方向来存储的,而每个轴线代表多维数据存储中的 一个维,在每个轴线上用户便可完成对事物的分析,其分析要求从统计数据中得出一个大致的 范围。在实际应用中,多维分析常常包括对数据的相互查询,这项活动发生在通过多种途径的 一系列分析之后,如对底层细节的进一步挖掘。用户对多维数据模型的操作比对其他数据模型 的操作要容易和直观。 多维分析的目标是满足决策支持或多维环境特定的查询和报表需求,它的核心技术是“维” 这个概念,也就是超立方体中的轴线。多维分析是建立在数据仓库的基础上的一种支持决策分 析的一种共享多维信息的快速分析工具,它是通过对每个维度采取一定的方法来进行数据分析 的技术,能够完成基于多维数据存储的数据分析功能。它对由语义动态对象建立的、以动态微 立方结构形式存储的表进行向下钻取( d r i l ld o w n ) 、向上钻取( d r i l lu p ) 、跨越钻取、切片和 切块等操作,实现数据的多维分析。完成这些任务和功能涉及的技术包括数据库、数据仓库、 可视化、网络、数据挖掘和领域知识处理等。 西安建筑科技大学硕士学位论文 1 2 2 多维分析处理的一些基本概念 1 变量 变量就是用户所赋予数据的名称,即描述此数据表示什么。变量大多数情况下用来进行数 值度量,一个变量的实际内容就是变量的值, 2 维 维是人们观察数据的特定角度。从一个角度观察数据和从另外一个角度观察数据,其观察 的结果往往不同,不同的观察角度将会产生不同的效果。例如,从时间的角度和从地区的角度 来观察企业的销售额,从时间的角度来观察产品的销售时,其结果就是某一时间段内产品的销 售额:而从地区的角度来观察产品的销售时,其结果就不同了,这时则体现为某一地区的销售 额。从时间的角度来观察时就确定了一个时间维;从地区的角度与来观察时就确定了一个地区 维。 3 维的层次 观察数据的角度有大有小,对数据的某个特定观察角度还可以再分,这样便可实现对数据 更细致的观察。例如,我们可以把上面提到的时间维再细分为月份、季度、年等不同维层次来 描述:同时也可把地区维扩展到城市、地区和国家等不同层次上。 4 维成员 维成员指的就是维在某一层次或某几个层次上的一个取值。如果是一个多层次的维,那么 该维成员就是在各层次e 取值的组合。例如,时间维可再细分为月份、季度、年等三个维层次, 假如月份、季度、年三个元素组成一个集合,那么这三个元素的任意个非空子集的组合便可 得到一个维成员这也就是说维成员并非要求在每个维层次上都取值。如果取季度和年进行组 合,便可得到一个季度和年的维成员,即“某年某季度”。对一个数据项来说,维成员就是该 数据项在某维中位置的描述。对一个产品销售数据来说,时间维的维成员“某年某季度”就表 示该销售数据是“某年某季度”产品的销售数量,“某年某季度”是该销售数据在时间维上位 置的描述。 5 多维数组 多维数据指的就是由多个维所组成的一个数组。一个多维数组可以表示为:( 维1 ,维 2 ,维n ,变量) 。例如,多维数组可表示为:( 地区,时间,产品,销售额) 。把所有维看 成一个集合,对维进行任意组合,便可表示在某几个维上的显示产品的销售量。取地区和产品 来进行组合,则表明在某一地区某产品的销售量。以上是一个三维数组,再在此基础上在扩展 一个客户维,这样就变成了一个四维数组,其多维数组为( 产品,地区,时间,客户,销售额) 。 6 数据单元( 单元格) 6 数据立方体中的一个点就代表一个数据单元。对多维数组中的每个维成员都取一个固定的 值,也就是取其每个维的一个维成员,然后把这些维成员组合起来,这样便可确定一个变量的 值,其中全部维成员再加上变量的值,便形成了一个数据单元,其数据单元就可以表示为:( 维 1 维成员,维2 维成员,维n 维成员,变量的值) 。例如在上面的三维数组中各取一个 维成员,当然在取定维成员的同时,其变量的值也是固定的。这样便可以确定一个数据单元。 其中地区取各“西安”:时间取“2 0 0 2 年1 月”;产品取“电脑”,假如变量“销售额”为1 0 0 0 , 那么该数据单元就可表示为( 西安,2 0 0 2 年1 2 月,电脑,1 0 0 0 ) 。 1 2 3 多维分析处理与联机事务处理的对比 联机事务处理所要处理的数据一般结构化比较高,其所要处理的事物都比较简单,通常对 存在较复杂的关联关系的数据库进行处理也不会产生严重的性能影响。联机事务处理系统也称 为生产系统,它是事件驱动、面向应用的。也就是说在联机事务处理系统中,只有提出某一事 件后,才有可能完成对此事件的处理。在此系统中数据访问路径是已知的、相对固定的,应用 程序可以在事务中使用具体的数据结构如表、索引等。然而一个决策支持系统所涉及的处理就 比较复杂了,有可能一个查询可要浏览数万条记录,这时如果连接太多将会直接影响系统的性 能。同时决策支持系统使用的数据不仅有结构化数据,且又有非结构化数据,用户经常在结果 出来之前还不知究竟在进行什么分析,经常是在想某种数据前才决定分析该数据。因此在数据 仓库系统中一定要为用户设计出更为简明的数据分析模型,这样才能为决策支持提供更为透明 的数据访问。 表1 2 联机事务处理与多维分析处理对比表 联机事务处理多维分析 数据库原始数据数据库导出数据或数据仓库数据 当前的细节性数据历史的综合性数据 经常对数据更新不可更新,但周期性刷新 一次性处理的数据量小一次性处理的数据量犬 对系统的性能要求比较高对系统的性能要求比较宽松 面向应用,事物驱动面向主题,分析驱动 面向普通用户面向高层管理者 支持日常事务支持决策 用户数量大用户数量相对较少 7 西安建筑科技大学硕士学位论文 使用联机事务处理和多维分析处理的用户不同,联机事务处理面对的是操作人员和底层管 理人员,是以数据库为基础,查询、增、删、改等处理使联机事务处理的基本操作:多维分析 是以数据仓库或数据多维视图为基础的数据分析处理,面对的是决策人员和高层管理人员。多 维分析处理是以数据仓库为基础的,是在传统的数据库的基础上发展起来的。其数据的最终来 源与联机事务处理一样均来自底层的数据库系统,多维分析是基于数据仓库的信息分析处理过 程,通过对数据仓库进行分析处理来完成与用户的交互。多维分析系统是跨部门、面向主题的, 其基本特点是:基础数据来源于联机事务处理中的操作数据。对数据的各种操作不能完全基于 索引进行。因而联机事务处理和多维分析处理数据的特点与处理也不同( 见表1 _ 2 ) 1 4 j 。 1 3 数据挖掘 1 3 1 数据挖掘概念 数据挖掘是决策支持过程中的一个部分,它是数据库发展与人工智能、机器学习、统计学 习技术相结合的产物,通过这些技术对企业原有数据进行高度自动化的分析,作出归纳性的推 理,它的目的是帮助决策者在数据仓库中寻找数据之间的潜在关联,发现被忽略的要素,提取 隐藏在其中的信息,辅助决策者进行趋势预测及行为决策,帮助企业决策者作出正确的决策选 择。也就是应用一系列技术从大量的、不完全的、有噪声的、模糊的、随机的数据中提取人们 感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的。数据挖掘提取的知 识可以表示为概念、规律、模式、约束和可视化等。数据挖掘算法的好坏将直接影响到所发现 知识的好坏,数据挖掘的任务是从数据中发现有用的模式,这些模式在企业进行决策时可以帮 助企业制定更合理和更有效的商品营销策略。简单地说,就是从大量数据中提取或“挖掘”知 识。 通常睛况下,许多 把数据挖掘与知识发现广泛地认为是同个概念,一般在科研领域中 称为知识发现,而在工程领域内称为数据挖掘。知识发现是从大量数据中提取出可信的、新颖 的、有用的并能被人理解的模式的高级处理过程。“模式”可以看成是知识的雏形,经过验证、 完善后形成知识。知识发现是一个高级的处理过程,它是从数据集中识别出以模式来表示的知 识。高级的处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种 螺旋式的上升过程。严格地说,知识发现被认为是从数据中发现有用知识的整个过程,而数据 挖掘指的是知识发现整个过程中的个特定步骤,是知识发现中最核心的部分。其知识发现过 程如图1 3 所示1 5 1 。 西安建筑科技大学硕士学位论文 、 l 堡型堕壁 l 数据规范化:去掉异常数据和不相干数据 上 l 数据转化:将数据以统一的形式表示以支持挖掘 上 i 数据集成:将不同系统中的数据集成到一个系统中 数据挖掘:从人量数据中提取聪含的,但未知信息l 上 模式评价:对挖掘出来的信息进行评价,找出真正有价值的信息模式l 上 知识表示:把有价值的模式或信息以用户可理解、可接受的方式表示出来l 1 3 2 数据挖掘功能 图l l 知识发现过程 数据挖掘不仅能完成对数据仓库中存储数据的查询,而且还能通过对所查询数据进行分析 来预测将来的趋势和行为,通过对数据的特定分析处理,用户便可从大量数据中探测出以前从 未发现的,但隐式存在的模式,以此来支持决策。从过去的历史数据中找出有用的信息,并通 过一定的数据挖掘方法对其进行处理,这些数据在被处理后可应用于信息管理、查询处理、决 策支持和过程控制以及许多其他应用。 数据挖掘的方法通常可以分为两大类,一类是统计型,常用的技术有概率分析、相关性、 聚类分析和判别分析等:另一类是人工智能中的机器学习型,通过训练和学习大量的样品集得 出需要的模式或参数。数据挖掘的应用中,这两种类型的数据挖掘方法其最终的目标都是发现 有价值的知识和信息,它们之间有共同的思路和步骤,但也存在很大的差异和区别。由于各种 方法都有自身的功能特点以及应用领域( 表1 3 ) ,数据挖掘技术的选择将影响最后结果的质量 和效果,通常是将多种技术结合使用,形成优势互补,下面对数据挖掘中的常用方法进行简单 介绍【6 】_ f 1 4 1 。 两安建筑科技大学硕士学位论文 表l3 数据挖掘的主要技术方法对比 技术方法主要功能和特点主要应用领域 关联技术分类、聚类零售业、保险业和制造业 决策数归纳分类,可理解性制造业、医学和零售业等 遗传算法聚类、优化:商效性金融业、保险业和农业等 贝叶斯网络分类、聚类和预测,易理解 医学、制造业和电信等 粗糙集方法不确定性分类零售业、金融业和制造业等 人t 神经网络预测、分类和聚类,解释性差 金融业、保险业和制造业等 统计分析聚类,结果精确、易理解 零售业、制造业和医学等 1 关联分析 关联规则挖掘就是指从大量的历史数据中找出具有依赖性或关联性的知识。在发现了具有 强关联性的数据后,便可以这些数据为基础完成对企业产品的组合销售。数据之间的关联性是 靠支持度和置信度这两个属性来进行度量的。 2 决策树法 决策树是通过一系列规则对数据进行分类的过程。以信息论中的互信息( 信息增益) 原理 为基础寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值 建立树的分枝;在每个分枝中集中重复建树的下层结点和分枝的过程,即可建立决策树。采用 决策树,可以将数据规则可视化,其输出结果也容易理解。该类方法的实用效果好,影响较大。 3 遗传算法 遗传算法是一种基于生物进化过程的组合化方法,它是根据适者生存的原则,模拟自然界 中的生命进化体制,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。基 于这一思想的应用,根据遗传算法获得最适合的模型,并进一步对数据模型进行优化。该算法 擅长于数据聚类,通过时间上的类比和空间上的类比,可以使大量复杂的信息数据系统化、条 理化,从而找出数据之间的内在联系,得出有用的概念和模式。在建立数据模型时,将遗传算 法与神经f 司络相结合,可以更好的提高模型的可理解性。遗传算法广泛应用于自动控制、机器 学习、模式识别、搜索调度和组合优化等领域。 4 贝叶斯网络 贝叶斯网络基于后验概率的贝叶斯定理,是建立在对数据进行统计处理基础上的方法。将 不确定事件通过网络连接起来,可以对与其他事件相关的事件的结果进行预测,其网络变量可 以是可见的,也可以隐藏在训练样本中。贝叶斯网络具有分类、聚类、预测和因果关系分析的 功能,其优点是易于理解,预测效果好,缺点是对发生频率很低的事件预测效果不好。在医学 西安建筑科技大学硕士学位论文 和制造业等领域的应用具有较好的效果。 5 粗糙集( r o u g hs e t ) 方法 在数据库中,将行元素看成对象,列元素是属性( 分为条件屙眭和决策屙陛) 。等价关系r 定义为不同对象在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 蜂产品加工工综合考核试卷及答案
- 人工合成晶体工成本控制考核试卷及答案
- 按摩咨询接待服务方案
- 韩束网店营销策划方案
- 建筑方案设计师考核
- 2025版司法局《刑事自诉案件反诉状》(空白模板)
- 玉米须茶营销方案策划
- 屋顶建筑垃圾转运方案设计
- 宿舍建筑方案设计图纸
- 城乡规划建筑方案设计
- 中心静脉导管维护的安全护理
- 2026高考物理一轮复习-第十章-第54课时-专题强化:测电阻的其他几种方法-专项训练【含答案】
- 多囊卵巢综合征的超声诊断
- 售后索赔流程管理办法
- 2025 高中地理核心素养之综合思维培养(气候与建筑)课件
- 幼儿园中国茶文化课件
- DB3205∕T 1105-2023 房屋安全鉴定服务规范
- 食堂燃气操作人员培训
- 2025年中国医院创新转化报告-中国医学创新联盟
- 2025年6月黑吉辽蒙高考地理真题完全解读
- 2023年宪法学习宪法知识竞赛试题及答案
评论
0/150
提交评论