（计算机应用技术专业论文）分布式序列模式挖掘算法研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-16 格式：PDF 页数：78 大小：3.36MB 积分：0 举报 版权申诉

已阅读5页，还剩73页未读，继续免费阅读

（计算机应用技术专业论文）分布式序列模式挖掘算法研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

7 8 扬州大学硕士学位论文扬州大学学位论文原创性声明和版权使用授权书学位论文原创性声明本人声明：所呈交的学位论文是在导师指导下独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外，本论文不包含其他个人或集体已经发表的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名：签字日期：a g 年s 月达日学位论文版权使用授权书本人完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交学位论文的复印件和电子文档，允许论文被查阅和借阅。本人授权扬州大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息研究所将本学位论文收录到中国学位论文全文数据库，并通过网络向社会公众提供信息服务。学位论文作者签名：狐渤签字日期谤醇年月妇导师签名：签字日期：御萨f 月巧日 ( 本页为学位论文末页。如论文为密件可不授权，但论文原创必须声明。) 张长海；分布式序列模式挖掘算法研究摘要目前信息主导的时代，海量数据存储在数据库或者数据仓库中。面对这种“信息爆炸的现实，如何从海量数据中提取有价值的信息已显得尤为重要。数据挖掘技术的出现和发展为人们解决了这一难题。所谓数据挖掘技术是利用各种分析工具从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取潜在有用的信息和知识的过程。。在本文中，我们对序列模式挖掘技术做了深入研究。序列模式挖掘是数据挖掘研究的一个重要课题，挖掘基于时间或者其他顺序出现频率高的模式，是对关联规则挖掘的迸一步推广，但克服了关联规则中不能反映事件在时间顺序上的前后相关性。序列模式挖掘技术已在顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、d n a 序列模式的分析等方面广泛应用。在研究现有的单机和分布式序列模式挖掘算法的基础上，本文围绕着单机下基于位图序列模式挖掘、分布式序列模式挖掘以及分布式多维序列模式的近似挖掘等几方面做了深入研究，主要创新点如下： 1 ) 基于传统序列模式挖掘方法不能有效地解决候选序列费时难题，本文提出一种基于位图的序列模式挖掘方法s m b r ( s e q u e n t i a lp 舭n l si i l i i 血1 9 b a s e do n b i t i i l 印r q ) r e s e m a t i o n ) 。s m b r 算法采用一种简化的位图表示结构表示数据库的方法。该方法首先由序列扩展和项扩展产生候选序列，然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列，有效地获得序列模式。 2 ) 由于分布式环境下挖掘全局序列模式常常产生过多候选序列，加大了网络通信代价。为此提出一种基于分布式环境下的挖掘全局序列模式算法f m g s p ( f 奴 m i r l i n go f g l o b ds e q u e n t i a lp 删。f m g s p 算法将各站点得到的局部序列模式压缩到一种语法序列树上，避免了重复的序列前缀传输；基于合并树中结点序列规则、简单的特点，提出一种i s e ( n e me x t e n s i o n 锄ds e q u e n c ee x t e n s i o n ) 剪枝策略，有效地约减了候选序列，减少了网络传输量，从而快速生成全局序列模式。 2 扬州大学硕士学位论文 3 ) 提出一种多维序列模式近似挖掘算法a m s p ( a p p r o x i m a t em i n i n go fg l o b a l m u l t i d i m e n s i o i l a js e q u e n t i a lp a 仳e m s ) ，以解决分布式环境中大型数据库中多维序列模式挖掘问题。该方法不同于传统的分布式多维序列模式挖掘方法，具备较好的伸缩性。首先将维度信息嵌入相应序列中，使多维序列模式挖掘转化为序列模式挖掘；然后在各分站点对转换后序列聚类、概化和分析，采用有效的近似挖掘方法获得局部模式；最后集中所有局部模式，通过高频度序列模式模型挖掘全局多维序列模式，有效地解决通信代价大、维度高等难题。关键词：数据挖掘；分布式序列模式；多维信息；近似挖掘张长海：分布式序列模式挖掘算法研究 3 a b s t r a c t c u r r e i l t l y n 瑚s 纰h 弱b e e ns t o r e di i i t 1 1 ed a t a b 硒e0 rd a ：t a 、a r e h o u s ei nt h e i l l f 0 加 1 a t i o n - d o m i i l a t e de r 氖h lm ef a c eo ft l l i ss i t u a t i o no f ”i n f o n n a t i o ne x p l o s i o n ，h o w e x 舰c t em ev a l 珑i b l ei l l f o r m a t i o n 丘l o mt h em 鹤s i v ed a ：t ah 嬲b e c o m ep a r t i c u l a d y i i i 驴r t 趾t w i mt h ee m e 玛e n c e 龇l dd e v e l o p m e mo fd a t am i i l i n gt e c l l i l i q u e s ，t i l i s p r o b l e mh a sb e e ns o l v e df o r l ep e o p l e a n dp o t e n t i a l 觚du s e f i l li n f o 衄a t i o n s 锄d h 1 0 、讥e 起e s a r ee x t m c t e d 丘o mm em 嬲s i v e ，i i l c o n l p l e t e ，n o i ，f h z 巧觚d 眦l d o m p m c t i c a ld a ：t ab yal 鹕em l i i l b e ro f 觚a l l y t i c a lt o o l s h lt l l i sp a p e r ，t l l ec o n t e n t m a i l l l yi i l c l u d e st h ei n i i l i i 玛s e q u e n t i a lp a t t e m s s e q u e n c e p a t t e mm i i l i n gi s 锄i i 玎印r t a n tr c s e a r c ht o p i cf o rd a 协m i i l i 】唱，m i n e st h el l i g l l 舭q u e n c y 彤吡e n l sw i m t i i l l er e l a t e ，觚ds o l d 也ep r o b l 锄t l l a tt l l e 嬲s o c i a t i o nm l e sd o e sn m r e n e c tt l l ec o r r e l a t i o no ft l l ee v e n t si nc h r o n o l o g i c a lo r d e r s e q u c l n c ep a t t e mm i i l i i 培 t e c l l i 】i o l o g yh a sb e e n u s e de x t e 】 1 s i v e l y i n l ec u s t o n 嘲? b u y i n gb e h a ：v i o r 锄a l y s i s ， m 铆o r ka c c e s sm o d e l 锄觚y s i s ， t 1 1 e 锄a l y s i so fs c i e n t i f i ce x p d ，t l l ee a j l y d i a 弘o s i so fd i a s e s ，i l 乏m l r a jd i 翰s t e r s 南r e c a s t d n as e q u e n c e 锄m y s i so fp a t t e m s t h em 抽r e s e a r c hc o n t e ：n ti i l c l u d e ：m u l t i d i m e i l s i o n a ls e q u e n t i a lp a t t e n 塔n l i l l i n 吕 d i s t r i b u t e ds e q u 训a lp a t t e m sm i i l i i 唱a i l dt l l e a p l ，r o x i m a t em i i l i i 玛f 0 rd i s t r i b u t e d m l l l t i d i i n e 璐i o i l a ls e q l 崩1 1 t i a lp a t t e n 坞锄d o n 船吣i n gt h ee x i t e dm e t l l o d sf 0 r 蛐gs e q u e n t i a lp a 吮m s t h em 咖c o n t r i b u t i o 璐锄di i l 】n o v a t i o 璐o ft l l i sd i s s e r t a t i o n a r ea sf 0 l l o 、) l ，s ： 1 ) t h eh i g l lc o s to fc a l l d i 拙e9 e q u e n c ep r o b l e m sc a nb en o ta d d r e ss _ e de 肫c t i v e l y b yt l 呛缸a d i t i o n a l m e 1 0 d sf o r m i i l i n gs e q u e n c e s ， s 0an e w 1 1 1 i n i n g m 酬吣d s m b i q l l e n t i a lp a t 胁sm i i l i i 唱b 嬲e do nb i n n a pr e p r e s e n t a t i o n ) b 硒e do nb i 缸n 印i s p r o p o s e d t h ed a t a _ b a u s ei sr e p r e s e n t e db yb i t m a p si 1 1t h em e t h o 也锄das i r n p l i f i e d b i n i l a p 姗t u r ei sp r e s e n t e d f i r s tt t l ea l g o r i m mg e 鹏m ：t ec a r l d i d a t es e q l l e n c e sb y s e ( s e q u e n c ee x 溉s i o n ) a n di e ( i t e me x t e n s i o n ) ，a n dm e no b t a i na l l6 嘲u e n t q u e n c e s 4 扬州大学硕士学位论文 b yc o m p a r i n gm eo r i g i 脚b i t r i l 印锄dm ee x t e n d e di t e mb i 仃1 1 a p a n dq u i c l 【l yp r 0 h 如c e s 丘e q u e n tc o 呲b ya ne f r e c t i v es 眦g yt 0o b t a i nm u l t i d i m e n s i o n a ls e q u e n t i a lp a n e m s 2 ) n o ws o m ed i s t r i b u t e ds e q u e m i a lp a n e m m i i l i n ga l g o r i t l l m sg e n e r a ：t et o om u c h c 觚d i d a ：t es e q u e n c e s ，i i l c r e a c o 舢眦l i l i c a t i o no v e r h e a d i n l i sp 印e r ，an e w a l g o r i t l l 】m f m g s p ( f 缸m i 血培o fg l o b a ls e q u e n t i a lp a l t e m ) o nd i s 仃i b u t e ds y s t e mi sp r o p o s e d t h ei d e ao fn l i sa l g o r i l mi st 0c o m p r e s sl o c a l6 e q u e n t q u e m i a lp a t k m l si i l _ t oas i m p l e l e x i c o g 唧l l i cs e q u e n c e 仃e e ，a v o i d 仃a n s l i l i s s i o no fr e p e a t e dp r e f i x e s b a s i n go nm e 阳g u l a ra n ds i i l l p l es e q u e n c e so fm e 玛e d 仃s ，an e w i 培m 甜l o dt h a ti s e ( i t e m e ) ( t e n s i o na n ds e q u e n c ee x t e n s i o n ) p r i l i l i n gi sp r e s e m e dt 0p m n ec a n d i i i a t es e q u e n c e s e 虢c t 叫l y t h e r e f o r e ，c o i n m u l l i c a t i o no v e r h e a di sr e d u c e dg r e a t l yt 0g e i l c m t eg l o b a l q u e m i a lp a 位e n 塔e a e c t i v e l y t h et h e o 巧锄de x p e r i m e n t ss h o w l 砒t h ep e r f l o m l 锄【c e o ff m g s pi sp r c d o i i l i l l 觚t ，趾di ti se 虢c 砌w h e nm m g l o b a l q u e n t i a lp a t t e n l sf o r h u g e 锄。眦t o f 3 ) w | ep r e s e n tad i s t r i b u t e d 印p r o x i m a t em i i l i i 玛a l g o r i t h mf o rm u l t i d i m e n s i o n a l q u e n t i a lp a n 肌坞c a l l e da m s p ( a p p r o x i i i l a t em i i l i l l go fg l o b a lm m t i d i m e n s i o 试 s e q u e n t i a lp a t b e 玎峪) t 0s o l v et l l ep r o b l e mo fm i i l i r 培t h en m l t i d i m e n s i o n a l q u e m i a l p a t t e n 塔i l ll 鹕e 出以b 硒e si nt h ed i s t r i b u t e de n v i r o m n e n t f i r s t ，t h em u l t i d i m e n s i o r l a l m f o m l a t i o ni se m b e d d e di r l t 0m ec o 仃e s p o n d i n gs e q u e n c e si no r d e rt 0c o n v e nt l l e m i l l i n go nm em u h i d i i i l e i l s i o n a ls e q u e n t i mp a 舵r n st os e q u e n t i a lp a n e m s t h e nt t l e q u e i l c e sa r ec l l l s t e r e d ，鲫i i i 】啪a r i z e d ，觚d 锄a l y z e do nm ed i s t r i b u t e ds i t e s ，砒l dt h el o c a l p 舭c o i l l db eo b t a i n e db ym ee 仃e c t i v e 印p r o x i m a t es e q u e n t 诫p a t t e mm 询皿g m e t h o d f i i i a l l y n l eg l o b a lm u l t i d i m e l l s i o n ms e q u e n t i a lp a t t e m sc o u l db em i n e dv i at l l e m o d e lo fl l i 曲v o t e 辩q u e 而mp a 舵m 啦e rc o l l e c t i n ga l lt h el o c a lp a t t e 傩0 no n es i t e b 础t l l et l l e o r i e s 锄dm ee x p e r i m e n t ss h o wt h a tt 1 1 i sm e m o dc o u l ds i i n p l i 匆t l l ep r o b l e m o fm i i l i n g l em u l t i d i m e l l s i o n a l q u e n t i a lp a ：t t e n 塔趾da v o i dm i l l i i 培t ：h e 陀d u n d a n t i n f o m 斌i o n 7 1 1 1 eg l o b a ls e q u e n t i a lp a ：t t e r 璐c o u l db eo b t a i n e de 毹c t i v e l yb yt h es c a l a b l e m e m o d 加r e d u c i i l gm ec o s to fc o m m u n i c a t i o n k 叻啊o r d s ： d a ：t a m i n i i 增； d i s t r i b u t e d s e q u e n t i a lp a t t e n 塔； m u l t i d i i n e n s i o l l a l i l l f o m l a t i o n ；印p r o x i m a ：t em i l l i n g 张长海：分布式序列模式挖掘算法研究 5 第一章引言数据挖掘【l 】就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能开采出潜在的模式，找出最有价值的信息，指导商业行为或辅助科学研究。数据挖掘是一门广义的交叉学科，它汇聚了不同领域的研究者尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的学者和工程技术人员。因此有必要了解数据挖掘的技术、方法、过程和步骤，并探索其对生物信息数据挖掘的潜在应用或应用领域。 1 1 研究背景在信息技术主导的时代，随着数据库技术的不断发展和数据库管理系统的广泛应用，人们积累的数据越来越多。数据的丰富带来了对强有力的数据分析工具的需求，大量的数据被描述为“数据丰富，但信息贫乏。快速增长的海量数据收集、存放在大型和大量数据库中，没有强有力的工具，结果收集在大型数据库中的数据变成了“数据坟墓。于是数据挖掘技术应运而生，并得以蓬勃发展。数据挖掘工具进行数据分析，可以发现重要的数据模式，对商务决策、知识库、科学和医学研究做出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具，将数据坟墓转换成知识：“金块。在信息时代来临、互联网高速发展的今天，随着科技的不断创新，各式各样的数据库系统得到了研究与开发，如一些时间序列数据库、空间数据库、多媒体数据库等等。尽管目前的数据库系统可以高效地实现数据的录入、查询、统计等功能，但由于数据量庞大以及数据库系统中分析方法的严重缺乏，使得它无法发现数据中隐藏的相互联系，更无法根据当前的数据去预测未来的发展趋势。因此，迫切需要一种从大量数据中提取出隐藏在其中的有用信息，正是为了这种满足，将机器学习应用于大型数据库中的数 6 扬州大学硕士学位论文据挖掘技术得到了长足的发展。数据挖掘【2 1 ( d a t am i n i n g 简称d m ) ，有成数据库中的知识发现( k n o w l e d g ed i s c o v e 巧d a t a b 弱e ，简称k d d ) 是指从大型数据库或者数据仓库【3 ，4 j 中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或者模式。例如，某零售业可能积累了大量的原始数据，运用数据挖掘【5 ，6 】技术可以从这些看似无用的数据中发现规律，找到商机。零售业的利润和风险是共存的，为了保证利润的最大化和风险的最小化，必须对有关顾客的数据进行科学的整理、分析和归。采取相应的游魂措施来留住能给商家带来较大经济效益的顾客群，或者根据顾客的消费模式预测何时为顾客提供何种服务或商品。通过挖掘商家的历史数据：商品、销售时间、销售地点及商品摆放位置等，对这些数据进行分析，发现其数据模式及其特征，然后可能发现某类顾客、消费群体的消费兴趣和习惯以及预测消费市场的变化趋势。近年来，序列模式挖掘【7 ，8 】成为了数据挖掘的一大研究课题，其应用广泛，包括顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、d n a 序列模式的分析等等。序列模式挖掘问题是由 s & 埘t 和a g 】认w a l 最早提出的：给定一个序列集，其中每一个序列由项集构成，然后给定由用户确定的最小支持度阈值( m i n i i n u ms u p p o r t 慨s h o l d ) ，序列模式挖掘【9 】就是挖掘所有的频繁子序列，即这些子序列的出现频率不小于给定的最小支持度。例如，“一位顾客买了一台笔记本电脑，一个月内他很有可能买几张光盘，这就是序列模式【l o 】的一个例子。由于很多行业如：电信行业，金融行业，天气数据等大都与时间相关，即大都是时间序列数据，在针对这些时间相关的数据分析中，序列模式挖掘很有用途，且非常有前景。然而，现实应用中有很多的数据是分布式存在的，如：跨区域的大型购物中心数据存储等。因此，分布式序列模式挖掘【ll 】近年来得到广泛应用。 1 2 课题引出 “知识发现 ( i d ) 一词是1 9 8 9 年在美国底特律召开的第一届l d 国际会议上正式形成的，随着k d d 在学术界和工业界的影响越来越大，国际i d 组委会于1 9 9 5 年把专题讨论会更名为国际会议，在加拿大召开了第一届知识发现与数张长海：分布式序列模式挖掘算法研究 7 据挖掘国际会议。国内研究数据挖掘则起步较晚，目前进行的大多数研究项目是由政府资助的，如国家自然科学基金、8 6 3 计划、“十五”计划等。序列模式挖掘是对关联规则挖掘【1 2 ，1 3 1 的进一步推广，很多关联规则挖掘【i 4 ，1 5 】研究都有助于挖掘序列模式或者与时间相关的频繁模式【1 6 】。r s 蛐和r a g 删对序列规定了时间限制、滑动时间窗口和用户规定的分类，并在该文中总结了序列模式的定义，提出了一种基于a p r i o r i 的改进算法g s p 【r 飞g e l l e r 试i z e d s e q u e n t i a lp a 吮m s ) 算法。后来m z a l 【i 等人提出了一种基于垂直格式存储的序列模式挖掘方法s p a d e 算法【1 8 j ，这个算法是由基于垂直格式的频繁项目集挖掘演化而来。近几年j h a 坞j p e i 等人又提出了一种基于投影的模式增长的算法f 玎e e s p 锄算法【1 9 1 ，这个算法改进后为p r e f i x s p 觚算法【2 0 】，性能进一步提高。h m 锄i l a 等人提出了挖掘频繁片段序列问题【2 l 】，后来又提出基于规则表达式约束的序列模式挖掘【2 2 ，2 3 洲，为了减少冗余模式，j h 肌等人闭项集挖掘【2 5 ，2 6 】的基础上提出了挖掘闭项序列模式问题【2 7 ，2 8 刎。对于海量数据，挖掘模式可以选取代表模式，于是有人提出关于序列模式近似挖掘的问题，还有关于用垂直位图表示数据库的序列模式挖掘研究。近来关于最大项目集挖掘算法【3 叼1 】的研究也不少，如：m a x m 衙、 d e t l p r o j e c t 、m a f 认和g e i n 订a x 等，基于最大项目集挖掘有人提出了挖掘最大序列模式口2 3 3 川。2 0 0 1 年h p i n t 0 等人提出的u n i s e q 算法能有效地挖掘多维序列模式。主要思想就是将原来序列勺l 龙，驴添加丰富信息，转换成为呈( t i d ， a l ，a 曲，s ) 格式，其中t i d 是主键，a l ，a 衄是维度，s 表示序列。但在维度较高时其挖掘性能就会下降。后来同作者又提出p s f p 和h y b d 算法来挖掘多维序列模式【3 5 3 6 册，有效地解决了高维度问题。基于这种多维序列模式挖掘，后人又提出了很多相关的挖掘算法来解决相应问题。但由于分布式环境中数据量大且分散，挖掘全局多维序列模式这些算法性能不高，只有分布式或者并行数据挖掘技术【3 8 3 9 删才能解决效率问题。为此，s c z l 姗g 等人提出了基于分布式的多数据库挖掘，随后多数据源中挖掘全局关联规则和全局异常模式也被提出，近来由h c k l m 又提出了多数据库中挖掘全局序列模式。其中，对序列模式附加权重信息【4 1 ，4 2 】，比如：挖掘超市购物可以附加价格作为权重，即所谓的权重序列模式挖掘【4 3 1 。对超市购物例子，可能过短时间要添加新商品m ，4 5 】，为此，单机和分布式环境下 8 扬州大学硕士学位论文序列模式挖掘算法更新问题，4 7 ，4 8 1 同样具有重要意义。近来为了解决分布式环境下序列模式挖掘这一问题，人们也提出了一系列相关的研究。如在树投影基础上提出的几种新的基于分布存储的并行挖掘序列模式算法【4 9 j ：s t p f 算法和d t p f 算法，r a g r a l w a l 等人提出了c d 算法，该算法实质是对a p r i o r i 算法的并行化来挖掘关联规则1 5 0 】。为了避免过多的冗余信息，国内有人提出了全局最大项目集的挖掘，该算法在不丢失信息的情况下减少了数据量。 d wc h e u l l g ，j h a i l 等人提出了f d m ( f 奴d i 嘶b u t e do fm i i l i n ga s s o c i a t i o nr u l e s ) 算法，用来解决分布式环境下关联规则挖掘的问题。基于f d m 算法有人提出 f d m s p ( f 奴d i s t r i b u t e d1 1 1 i i l i n go fs e q u e n t i a lp a t t e m s ) 算法，该算法吸取f d m 算法的精华，采用序列模式前缀指定选举站点来统计全局计数，从而获得全局序列模式，为决策者提供有价值信息。2 0 0 5 年j h a l l 等人提出了并行挖掘闭项序列模式，这大大提高了挖掘的效率。目前很多专家已着手对并行与分布式数据挖掘技术【5 l ，5 2 】进行研究，从而使基于分布式环境下海量数据的序列模式挖掘也将成为今后数据库领域的研究热点之一。不过分布式序列模式挖掘有着它自身的挑战性，因为在各站点很容易挖掘局部序列模式，但是这些局部序列模式并不一定是决策者想要的全局序列模式，并且序列元素是有序的，由此产生的候选序列数目也是惊人的。目前与分布式序列模式挖掘相关的研究也不少，文献 4 9 】中vg l l r a l i l i k 在树投影基础上提出了几种新的基于分布存储的并行挖掘序列模式算法：s t p f 算法和d t p f 算法。j s p a r k 提出了p d m 算法，文献【5 0 中r a 删提出的c d 算法，该算法实质是对a p r i 耐算法的并行化来挖掘关联规则。为了避免过多的冗余信息，j p l u 等人提出了全局最大项目集的挖掘，该算法在不丢失信息的情况下减少了数据量。d w c h e u i l g 又提出了f d m ( f 破d i g t r i b u t e do fm i l l i n g 勰s o c i a t i o nm l e s ) 算法【5 3 l ，用来解决分布式环境下关联规则挖掘的问题。后来，m 培等人提出了f m a g f 算法，它采用传送条件频繁模式树或条件模式基来挖掘全局频繁项目集，有效地减小了网络通信量。近来人们又提出了f d m s p ( f ；波d i s t r i b u t e d 血n i n go f q u e m i a lp a t t e m s ) 算法，该算法吸取f d m 算法的精华，采用序列模式前缀指定选举站点来统计全局计数，从而获得全局序列模式。但是该算法在各分站点的序列被分配到选举站点时需要张长海：分布式序列模式挖掘算法研究 9 传输的数据量相当大，而且合并子树后经过全局约减的候选序列数量也是相当大。为此，本文中提出了解决分布式数据挖掘的方法。 1 3 论文的主要工作在论文中我们首先介绍了序列模式相关概念及其应用，展望了当前序列模式挖掘的研究热点和研究现状。然后对分布式序列模式作了具体的介绍，在借鉴国内外在序列模式和数据挖掘处理方面的已有成果的基础上，设计优化的分布式序列模式挖掘算法，以解决分布式环境下挖掘序列模式冗余数据大而导致的传输速度慢而且网络通信代价高的难题。对其中局部序列模式挖掘和压缩、候选序列剪枝、近似序列挖掘、多维序列模式挖掘等热点问题进行研究，提出自己见解或者解决方案，为分布式环境挖掘序列模式提供实际可用的办法。本文的主要研究工作及成果如下： 1 ) 如何在大型事务数据库中挖掘有价值的序列数据已成为当前研究的热点。为此，提出一种基于位图挖掘算法s m b r ( q u e n t i a lp a 仕e m sm i n i n gb 嬲e d0 nb i 缸i l a p r 印r e s e n t a t i o n ) 以解决序列模式挖掘问题。算法s m b r 采用位图表示数据库的方法，提出一种简化的位图表示结构。该算法首先由序列扩展和项扩展产生候选序列，然后通过原序列位图和被扩展项位图位置快速运算生成频繁序列。在大型事务数据库中，该方法不仅有效地提高了挖掘效率，而且挖掘处理过程中产生的临时数据所需的内存大大降低，能够高效地挖掘序列模式，具备可行性。 2 ) 分布式环境下降低网络通信代价是挖掘全局序列模式的关键。为此，提出一种基于分布式环境下的挖掘全局序列模式算法f m g s p ( f 弧m i i l i 】n go fg l o b a l s e c l 啪t i a lp a t 胁) 。f m g s p 算法首先采用模式增长的方式挖掘局部序列模式，然后将各站点得到的局部序列模式压缩到一种语法序列树上，避免了重复的序列前缀传输；并且基于合并树中结点序列规则、简单的特点，提出一种剪枝策略，有效地约减了候选序列，能够快速生成全局序列模式。有效地降低了网络传输量。 3 ) 为了解决分布式环境中挖掘多维序列模式通信代价大、维度高等难题，本文提出一种近似挖掘序列模式的算法a m s p ( a p p r o x h a t em i r 衄o fg l o b a l m u l t i d i m e n s i o r 谢s e q u e n t i a lp a 慨加s ) 。该方法不同于传统的分布式多维序列模式挖 1 0 扬州大学硕士学位论文掘方法，具备较好的伸缩性。首先将维度信息嵌入相应序列中，使多维序列模式挖掘转化为序列模式挖掘；然后在各分站点对转换后序列聚类、概化和分析，采用有效的近似挖掘方法获得局部模式；最后集中所有局部模式，通过高频度序列模式模型挖掘全局多维序列模式，能够有效地生成全局多维序列模式。 1 4 论文组织以下章节内容组织如下：第二章主要介绍了数据挖掘和序列模式挖掘的基本概念。第三章给出了基于位图序列模式挖掘的解决方案。第四章提出分布式序列模式挖掘算法f m g s p ( f 弧tm i 毗唱o fg l o b 出q u e m i a l p a t t e n l ) 。第五章给出了分布式序列模式的近似挖掘解决方a m s p 算法( a p p r o x i i i l a 钯 m i i l i n go fg l o b a l lm u l t i d 妇e 1 1 s i o n a ls e q u e n t i a lp 龇锄1 s ) 。最后，第六章是论文的总结和研究工作的展望。张长海：分布式序列模式挖掘算法研究 1 1 第二章基本理论帚一早昼令埋了匕本章首先介绍序列模式挖掘相关基本概念及基本思想，在此基础上扩展到多维序列模式挖掘和基于位图序列模式挖掘。然后基于分布式序列模式挖掘需求，介绍分布式频繁项目集挖掘和分布式序列模式挖掘的相关概念和基本思想，为在分布式环境下挖掘序列模式奠定基础。 2 1 序列模式挖掘问题描述 2 1 1 序列模式挖掘目前的主要序列模式挖掘算法可以分为三类：第1 类是基于a p r i o r i 的候选码生成测试的方法，第2 类是基于垂直格式的候选码生成一测试的方法，第3 类是基于模式增长的方法酬。前2 类方法产生巨大候选序列致使挖掘代价剧增，而模式增长方法避免候选序列产生，但是挖掘较长模式1 5 5 】效率不高。关于序列模式挖掘基本概念如下：设，= f l ，屯，厶) 是一个项目集合，项目集或者项集( i t e m s ) 就是各种项目组成的集合，即i 的所有子集。一个序列就是若干个项目集的有序列表，一个序列s 可表示为勺l 也，驴，其中研为项集，也称作s 的元素。元素由不同的项目组成，可表示为 l 规，而) 。当元素只包含一项时，一般省去括号。如他) 一般表示为砣元素之间是有顺序的，但元素内的项是无序的，一般定义为词典序。序列包含项的个数称为序列的长度，长度为的序列记为三序列。序列数据库就是元组 ( t u p l e s ) 和户，当且仅当l g i ，2 q 蜘且口l 互易l ，眈如，的时候，称序列声为序列的超序列，序列a 为序列的子序列，又称序列包含序列仅，记作a s 。如表2 1 所示。这个序列，其中、都是的子序列，是，的超序列。定义2 2 序列数据库d 是元组 s i d ，p 的集合，s i d 为序列标识号。如果序列r 是s 的子序列( 即延s ) ，称元组 s i d ，p 包含序列乃则序列丁在序列数据库d 中的支持数是数据库中包含r 的元组数，即s z 印口仍= i s i d ，p i i ，记作s 卿d 仞。定义2 3 给定一个最小支持度阈值册泐妒，如果序列j 的支持度不小于聊协妒，则称序列s 为频繁序列模式，所有的频繁序列模式集合记作殿。如表2 1 所示。这个序列分别在l o 和4 0 序列出现2 次，所以其支持数为2 。假设用户规定m 泐矿2 ，可知序列是频繁序列模式。定义2 4 假定每个元素中的项目是按照词典序来排列的，给定序列a = 勺l ，p 2 ，p 户妒心1 7 ，p2 ，p 如) ，如果p 角f ( 脚1 ) ，并且( 一p ) 中的项目均需在p 中项目的后面，则称声是a 的前缀。定义2 5 给定序列a 和，如果是a 的子序列，则n 关于j 6 f 的投影需要满足厣是的前缀，是a 的满足上述条件的最大子序列。定义2 6 序列a 关于子序列伊：勺l ，p 2 ，pm - 1 7 ，移的投影为止pl ，p 2 ，p 户 ( 睑聊) ，则序列口关于子序列的后缀为，习f b = l 。性质2 1( a p r i o r i 性质) 如果一个序列s 的支持度小于聊f 凇印，也就是不频繁的序列模式，那么该序列s 的任何超序列都是不频繁的序列。如表2 1 所示。假设用户设定的最小支持度为2 ，表2 1 中序列仅在 s i d 为1 0 的序列出现一次，所以非频繁。由性质2 1 可知：其超序列，等都是非频繁的。利用这一性质可以减少搜索空间。关于三类序列模式挖掘算法思想： 1 ) a g r a l w m 和s r i k 锄t 所提出的大多数序列模式挖掘算法都是基于a p r i 嘶的广度优先算法，即基于a 面o r i 性质。例如a p r i o r i 灿l 、g s p ( g e 鹏m l i z e d q u e r l c i a l p a 仕e m ) 算法等等。本章主要介绍g s p 算法，其思想如下：第一步：扫描数据库一次，找出所有的频繁1 序列。第二步：利用频繁1 序列来产生候选2 序列，再次扫描数据库给候选序列计数，找出满足最小支持度的频繁2 序列。第三步：用频繁k 序列( k 2 ) 来产生候选k + 1 序列，扫描数据库找出频繁k + l 序列。第四步：重复第三步，直到没有候选序列产生为止。这类算法有其本身固有的三大缺点：一第一，大型数据库中会有相当多的候选序列产生。因为序列中的元素是有序的，所以不同元素的交换就会产生很多不同的序列。第二，挖掘过程中要多次扫描数据库。候选序列的长度每增加为一，就需要扫描一次数据库。第三，挖掘较长模式的时会产生很多候选序列。 1 4 扬州大学硕士学位论文 2 ) 基于垂直格式的候选码生成测试的典型算法s p a e d 算法，在2 0 0 1 年由 z a k i 提出。该算法为了便于挖掘序列模式将垂直序列数据库影射为一些i d 1 i s t s 。其思想如下：第一步：首先需要扫面数据库一次，找出所有的候选1 序列，然后用s i d 和 e i d 来标示每一个候选1 序列，从而产生长度为1 的i d 1 i s t ，关于a 和b 的i d 1 i s t s ，在图中简单地清点每一元素行数就可得知其支持度，从而产生频繁1 序列。第二步：对于候选2 序列生成利用任意两个频繁1 序列i d 号的简单链接来产生候选2 序列，同样计数产生频繁2 序列。第三步：依次执行，一直到不产生候选序列为止。该类算法的最大优点就是扫描数据库次数大大减少以及计数快捷简单。整个挖掘过程仅需要扫描三次数据库。数据库格式转换和产生频繁1 序列时分别扫描一次，挖掘2 序列时，数据库需要从垂直格式再转换为水平格式，还需要一次扫描。不过此类算法基本遍历方法仍然是广度优先遍历，且忍受着巨大候选码的代价。 3 ) 模式增长方法是由j p e i 、j h 孤等人提出的，这类算法是一种基于投影的、分治的和模式增长的方法，也就是序列数据库被投影为很多小投影数据库，然后在小投影数据库中进行递归挖掘。最早提出的f r e e s p a n 算法，该算法由于投影数据库的尺寸迅速减小，在这些小的数据库上进行工作简单易行，相比基于a 研o r i 性质的g s p 算法有着明显的优势。f r e e s p a i l 算法将大的序列数据库根据已挖掘出的频繁序列递归地投影为一组小的数据库，再继续挖掘子序列。f r e e s p a i l 算法的缺点就是该算法可能要产生许多非平凡的投影数据库。如果一个模式在序列数据库中每个序列都出现，其投影数据库就不会缩小( 去掉非频繁项除外) 。另外，因为l k 子序列可能在序列的任意位置增长，所以对l ( 1 【+ 1 ) 序列的搜索将需要检查所有的可能位

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）分布式序列模式挖掘算法研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）分布式序列模式挖掘算法研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档