（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf

上传人：伐*** IP属地：宁夏上传时间：2019-12-21 格式：PDF 页数：71 大小：1.81MB 积分：0 举报 版权申诉

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf_第2页

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf_第3页

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf_第4页

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf_第5页

已阅读5页，还剩66页未读，继续免费阅读

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要对国内外w 曲使用挖掘研究情况分析可知，以往的频繁访问序列挖掘算法在动静w e b 点击流环境中仍存在诸多问题。单纯的w e b 关联规则挖掘忽略了会话的时间特性：简单的频繁访问序列挖掘由于没有采用合理的约束思想，挖掘出的频繁访问序列相当庞大；增量挖掘方法大部分是处理单个序列内部的插入，很少涉及序列本身往数据库中同时插入和删除的问题；在处理动态w e b 点击流时，基于f a l s e - p o s i t i v e 方法的算法很难处理挖掘查全率和精度之间的矛盾。这几类问题的研究对电子商务、商业智能以及市场决策等领域具有重要的意义。本文首先设计了两种极大频繁访问模式挖掘算法。第一种算法采用双向驻留时间约束会话中每个页面，有效限制了无意义页面的出现。第二种算法根据双向约束思想对访问序列的持续时间进行约束，解决了较长访问序列带来的问题。在挖掘带有时间约束的极大频繁访问序列时，这两种算法的性能优于同类算法g e n m a x 、f p m a x 、s p a d e 、m s p s 和g s p 。其次，本文提出了解决同时往数据库中插入和删除整个访问序列问题的方法，根据序列增量模型，设计了一种增量式频繁访问序列挖掘算法。该算法采用约束策略和网站拓扑技术，仅从插入的和删除的序列中挖掘新的频繁访问序列，缩小了频繁访问序列的搜索空间，减少了候选子序列的规模。在利用先前挖掘结果和约束思想的前提下，该算法在处理时间和内存消耗上比算法i n c s p a n 和m f t p 有明显优势。最后，提出了解决访问序列查全率和挖掘精度之间的冲突问题的方法，基于f a l s e - n e g a t i v e 方法和时间敏感滑动窗模型，提出了一种动态w e b 点击流中挖掘频繁访问序列算法。该算法利用带约束的加权调和计数函数来计算每个访问序列的支持度计数，通过调节因子来调整相关比率p 的大小。在变化最小支持度闽值和调整调节因子大小的情况下，该算法能够同时满足访问序列查全率和挖掘精度的要求，其性能优于算法l o s s yc o u n t i n g 和算法m 证e s w 。燕山大学工学硕士学位论文本文使用j a v a i 吾言和c + + 语言对上述四种算法进行实现，分别对四类数据集m 0 6 0 6 a 、m 0 6 0 7 b 、b m s w e b v i e w 1 和b m s w e b v i e w - 2 进行极大频繁访问序列和频繁访问序列挖掘，通过对不同挖掘结果的对比分析，所提出的四种算法在解决各自的问题上是有效的。关键词w e b 点击流：频繁访问序列：驻留时间；会话；双向约束；时间敏感滑动窗 u a b s t r a c t a b s t r a c t b y 锄a l y z i l l gw e bu s a g em i n i n gs i t u a t i o no ff o r e i g na n dd o m a i n , w ef o u n d t h a tt h ep r e v i o u sa l g o r i t h m se x i s tm a n yp r o b l e m sf o rm i n i n gf r e q u e n tt r a v e r s a l s e q u e n c e ( f t s ) ms t a t i ca n dd y n a m i cw e bc l i c k s t r e a m se n v i r o n m e n t t h e s e a l g o r i t h m sm a yb ei n e f f i c i e n t i nd e a l i n gw i t ht h ef o l l o w i n gf o u rp r o b l e m s f i r s t l y , w e ba s s o c i a t i o nr u l e sm i n i n go f t e ni g n o r e st h et e m p o r a lc h a r a c t e ro f s e s s i o n s s e c o n d l y , s i m p l ea l g o r i t h m s o ff r e q u e n ts e q u e n c e sm i n i n gm a y g e n e r a t ev e r yh u g ec a n d i d a t es e q u e n c e s ，s i n c et h o s ea l g o r i t h m sd on o ta d o p tt h e c o n s t r a i n tm e t h o d s t h i r d l y , m o s ti n c r e m e n t a lm i n i n ga l g o r i t h m sj u s tc o n s i d e r i n s e r t i n gt h et r a n s a c t i o n si n t ot h eo r i g i n a lt r a v e r s a ls e q u e n c e s h o w e v e r , f e w a l g o r i t h m sr e f e rt ot h es i t u a t i o nt h a tw h e nt h en e wt r a v e r s a ls e q u e n c e sa l e i n s e r t e di n t oa n dt h eo l dt r a v e r s a ls e q u e n c e sa r ed e l e t e df r o ms e s s i o nd a t a b a s e f o u r t h l y , t h e r ea r es o m ed i f f i c u l t i e st oe x t e n dt h em i n i n gt e c h n i q u et od y n a m i c w e bc l i c k s t r e a m s t h em a i nd i f f i c u l t yi st h a tt h ee x i s t i n gf a l s e - p o s i t i v eb a s e d a l g o r i t h m sc a l ln o to v e r c o m et h ed i l e m m ab e t w e e nt h er e c a l lo fs e q u e n c ea n d t h ep r e c i s i o no f m i n i n gr e s u l t f i r s t l y , t w o e f f i c i e n ta l g o r i t h m sa l ep r o p o s e dt od i s c o v e ri n a x i n l u l n f r e q u e n tt r a v e r s a ls e q u e n c e s t h et w oa l g o r i t h m s a l lu s et h eb i d i r e c t i o n a l c o n s t r a i n ts t r a t e g yt oc o l l g t r a l ne a c hp a g ea n ds e q u e n c ei ns e s s i o nd a t a b a s e t h e f i r s ta l g o r i t h ms u c c e s s f u l l yl i m i t st h ea p p e a r i n gf r e q u e n c yo ft h em e a n i n g l e s s p a g e ，a n dt h es e c o n da l g o r i t h ms o l v e st h ep r o b l e m sc a u s e db yt h el o n g e r s e q u e n c e t w ok i n d s o fa l g o r i t h m so u l p e r f o l t ng e n m a x , f p m a x , s p a d e ， m s p sa n dg s pf o rm i n i n gm a x i m u mf r e q u e n tt r a v e r s a ls e q u e n c e s n e x t , a c c o r d i n gt os e q u e n c em o d e l ，t h i sp a p e rp r o p o s e san o v e la l g o r i t h m , t oa c c o u n tf o rt h ei n c r e m e n t a lm i n i n gp r o b l e m s t h ea l g o r i t h mu t i l i z e st h e c o n s t r a i n ts t r a t e g ya n dw e bs i t es t r u c t u r et of i n dt h en e w f t sf r o mt h ei n s e r t e d a n dd e l e t e dp a r to f t h ed a t a b a s es u c ht h a tt h es i z eo f c a n d i d a t es e q u e n c es e t sa n d 1 1 1 燕山大学工学硕士学位论文 s e a r c hs p a c eo ff t sc a r lb er e d u c e d t h ep e r f o r m a n c eo ft h ea l g o r i t h mi sb e t t e r t h a ni n c s p a na n dm f t pw h e nt h ep r e v i o u sm i n i n gr e s u l t sa n dc o n s t r a i n ta r e u s e d f i n a l l y , b a s e d o nf a l s e - n e g a t i v e a p p r o a c ha n d t i m e - s e n s i t i v e s l i d i n g w i n d o w , t h i sp a p e rp r o p o s e sa l le f f i c i e n ta l g o r i t h mt ob a l a n c et h ec o n f l i c t b e t w e e nr e c a l la n dp r e c i s i o ni nd y n a m i cw e bc l i c ks t r e a m s 1 1 1 ea l g o r i t h m a d o p t st h ew e i g h t e dh a r m o n i cc o u n tr u n i o nw i t hc o n s t r a i nt oc a l c u l a t et h e s u p p o r tc o u n to fe a c ht r a v e r s a ls e q u e n c e ，a n da d j u s t st h ev a l u eo fr e l a x a t i o n r a t i op b yc h a n g i n gt h er e g u l a t o r yf a c t o r 1 1 1 ea l g o r i t h mc a ns i m u l t a n e o u s l y m e e tr e c a l la n dp r e c i s i o n ，a n do u t p e r f o r m sl o s s yc o u n t i n ga n dm i n e s w w ei m p l e m e n tt h ea b o v ef o u ra l g o r i t h m sw i t hj a v aa n dc + + a l lo fo u r e x p e r i m e n t s a r op e r f o r m e do nt h ef o u rd a t a s e t s ，m 0 6 0 6 a , m 0 6 0 7 b ， b m s w e b v i e w - 1a n db m s - w e b v i e w - 2t om i n em a x i m u m & e q u e mt r a v e r s a l s e q u e n c e sa n df t s t h ee x p e r i m e n t a l r e s u l t ss h o wt h ef e a s i b i l i t ya n d e f f e c t i v e n e s so fo u ra l g o r i t h m s k e y w o r d sw e b c l i c ks t r e a m s ；f r e q u e n tt r a v e r s a ls e q u e n c e ；d w e l lt i m e ；s e s s i o n ； b i d i r e c t i o n a lc o n s t r a i n t ；t i m e - s e n s i t i v es l i d i n gw i n d o w s i v 燕山大学硕士学位论文原创性声明本人郑重声明：此处所提交的硕士学位论文基于w e b 点击流的频繁访问序列挖掘研究，是本人在导师指导下，在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知，论文中除已注明部分外不包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体，均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字；1 老帮舜。参1 日期：枷年1 1 月，j 日燕山大学硕士学位论文使用授权书基于w e b 点击流的频繁访问序列挖掘研究系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有，本论文的研究内容不得以其它单位的名义发表。本人完全了解燕山大学关于保存、使用学位论文的规定，同意学校保留并向有关部门送交论文的复印件和电子版本，允许论文被查阅和借阅。本人授权燕山大学，可以采用影印、缩印或其它复制手段保存论文，可以公布论文的全部或部分内容。保密口，在年解密后适用本授权书。本学位论文属于不保密叮： ( 请在以上相应方框内打“”) 作者签名：导师签名：佬啸纠移缴、日期：砌侔1 月留日日期：协( 年j 1 月z 吁日第1 章绪论第1 章绪论随着网络技术的快速发展，尤其是i n t e m e t 的广泛应用，使得数据挖掘的对象从数据库中的数据延伸到网络上的数据，因此w e b 挖掘成为数据挖掘研究的一个新的方向。根据数据资源的种类，w e b 挖掘可以分三类，分别为 w e b 内容挖掘、w e b 结构挖掘和w e b 使用挖掘 1 】。课题主要涉及到w 曲使用挖掘方面的内容。 1 1 w 曲使用挖掘技术 w e b 使用挖掘就是把数据挖掘技术应用到w 曲点击( 日志) 数据中，从而发现使用模式的过程 2 1 。这些使用模式是隐含的和事先未知的，要通过w e b 点击数据的收集和预处理，才能获得有用的模式，最后经过分析，把使用模式应用于决策、智能、个性化和推荐系统等领域。 1 1 1w e b 使用挖掘研究背景及意义 i n t e m e t 的通信量和w e b 的复杂度都以惊人的速度飞速发展，越来越多的用户上网发布信息和查找信息。虽然i n t e r n e t 上的数据是海量的，但是由于w e b 是无结构的和动态的，并且w e b 页面的复杂度远远超过了文本文件，用户想在海量的w e b 数据里找到自己想要的信息非常困难。基于信息检索技术出现了许多搜索引擎工具【3 】，但这些工具的查全率和精确度较低，不能满足用户的特殊请求，个性化不强。为了解决这些问题，可以将传统的数据挖掘技术和w e b 结合起来，进行w e b 使用挖掘【4 5 1 。目前，越来越多的数据以流的形式出现。w e b 数据流就是数据流的一种。与静态w e b 数据相比，它具有潜在无穷大、迅速、时变和连续到达等特点。其中的数据按照固定的次序，只能被读取一次或几次，不再是永久的关系形式，数据无法全部保存后再进行处理。数据流的出现直接给w e b 数据的快速分析、气象监测和传感器网络分析等应用带来迅速的经济效益。实际上，w e b 使用挖掘要涉及到多方面的知识，如统计学、机器学习、模式识别、数据库和数据可视化燕山大学工学硕士学位论文等多个领域 6 - 8 1 。随着w e b 技术的进一步发展，w 曲站点设计、电子商务、信息组织和个性化服务等各项工作变得越来越复杂。因此，如何有效的利用w w w 这个庞大的信息仓库，已成为了等待解决的问题。由于w e b 本身分布的复杂性，直接对其挖掘比较困难，而提供w e b 信息资源的w 曲服务器能够记录每次w e b 访问的详细点击信息，例如页面u r l 、i p 地址、日期、用户的w e b 站点及配置信息和用户个人资料等。因此，w e b 站点和w e b 服务器的设计难度相应提高，w e b 使用挖掘的目的就在于解决这些问题。通过对w e b 使用数据进行挖掘，站点管理者可以发现用户的访问模式，改进w e b 服务器的设计和提高 w e b 服务器的性能，以方便用户使用，增加个性化服务和电子商务中发现潜在的客户等。另# b w e b 使用挖掘还可以应用在w e b 数据管理、科学研究和商业决策等方面。 1 1 2w | e b 使用挖掘的任务 w e b 使用挖掘的任务就是从w 曲点击日志中，挖掘用户的频繁访问序列 ( f r e q u e n tt r a v e r s a ls e q u e n c e ，简称f t s ) ，预测用户的浏览行为。通过频繁访问序列分析可以识别用户的忠实度、爱好和满意度，也可以发现潜在用户，增强站点的个性化和竞争力。在实际应用中，w e b 使用挖掘任务又可分为统计分析、聚类发现、关联规则发现、频繁访问序列发现、分类发现和依赖关系发现等。统计分析是用统计技术挖掘w e b 使用数据中有用的知识。常用的统计技术有贝叶斯定理、预测回归、对数回归和对数线性回归等。这些技术可用于分析网页的访问频率，网页的访问时间和访问路径。可用于系统性能分析、发现安全漏洞、为网站修改和市场决策提供支持。聚类发现技术是在w e b 使用数据中寻找彼此相似的对象组，这些数据基于距离函数求出对象组之间的相似度。根据对象的相似度与阈值之间的关系，把满足条件的用户分成一组。聚类发现技术可以用于电子商务中市场分片和为用户提供个性化服务等。关联规则发现是在w e b 使用数据中挖掘使用数据之间的关联模式。常用 2 第1 荤绪论在访问过的网页中，在这些页面中找出彼此之间的关联信息。这有利于优化网站组织、网站设计、网站内容管理和市场分析，通过市场分析可以知道哪些商品被频繁购买，哪些顾客是潜在顾客。频繁访问序列发现是在w e b 使用数据中由不同的访问序列组成的集合。其中每个访问序列由不同的元素按顺序有序排列，每个元素由不同项目组成，同时给定一个用户指定的最小支持度阈值，频繁访问序列挖掘就是找出所有的频繁子序列。在使用挖掘中用于发现会话内部网页之间的时间相关性。分类发现技术主要用途是将用户的访问信息归入某一特定类中，它与机器学习联系紧密。常用的技术有决策树、k 最近邻居和支持向量机等。依赖关系是发现两个元素之间的依赖关系，如果一个元素a 的值可以推出另一个元素b 的值，则b 依赖于a 。在w e b 使用挖掘中依赖关系分析的结果有时可以直接提供给用户。w e b 使用挖掘中的依赖主要是描述w e b 领域中各种变量间的显著依赖关系。依赖关系发现可以提供理论化分析用户行为的框架，提高网上产品销量，提高用户的访问量。常用的方法有马尔可夫链和贝叶斯网络等。其中，频繁访问序列挖掘由于在实际中具有广泛的应用，已经成为w e b 挖掘中的研究热点之一。 1 2 频繁访问序列挖掘技术频繁访问序列挖掘即从w e b 点击数据中发现频繁的序列，它是指挖掘基于时间或者其它顺序出现频率高的访问序列，是一类非常重要的w e b 使用挖掘问题。 1 2 1 国内外研究现状 r a g r a w a l 和r s r i k a n t 在1 9 9 4 年提出了基于a p r i o r i 特性的算法【9 】。a p r i o r i 特性首先被应用在关联规则挖掘中。m a x - m i n e d l 0 1 、g e n m a x “1 、d m f i a t l 2 】和f p m a x l l 3 1 等算法是针对整个数据库挖掘极大频繁项目集。当数据库非常庞大时，m a x - m i n e r 和g e n m a x 算法会产生大量的候选项集，频繁扫描数据，燕山大学工学硕士学位论文形成n p 难度、频繁f o 操作等问题。f p m a x 和d m f i a 算法中的数据结构很可能不再适合用主存存储，要利用磁盘存储数据集，这就出现挖掘时间效率问题。另外，这些关联算法几乎没有考虑事务中的时间信息。 r a g r a w a l 等人在1 9 9 5 年针对超市购物篮数据分析问题首先提出了序列模式挖掘的概念【1 4 】。现有的序列模式挖掘算法主要分为四类。第一类是基于a p r i o r i 特性，人们提出了一系列类a p f i o f i 的序列模式挖掘算法，如g s p 算法1 5 1 、a p r i o r i a l l 算法 1 4 1 、p s p 算法【1 6 1 、s p a d e 算法【7 l 和s p a m 算法 18 】等。第二类是j h a r t 等人提出的基于分而治之策略的算法，如f r e e s p a i l 算法【1 9 】和 p r e f i x s p a n 算法【2 明等。第三类是极大频繁序列挖掘算法，如m f s 口1 1 算法和 m s p s 2 2 1 算法，而这些算法由于没有采用约束策略，当序列过长时，会消耗大量的内存空间。第四类是增量挖掘频繁访问序列算法，如i i l c s p a l l 算法瞄】、 m f t p 算法【州、i s m 算法【2 5 】和1 u e 算法 2 6 1 等。而这些算法没有考虑同时往数据库中添加和删除的情况。 c o o l e y 和s r i v a s t a v a 调查了w 曲挖掘中的主要技术趋势和研究问题i 2 , s 】，并对w e b 挖掘分类。c h e n 等人首先提出了f s 算法和s s 算法在w e b 点击流中挖掘路径访问模式【2 ”。然而这两个算法只能够挖掘静态w e b 点击流，不能用于处理动态w e b 点击数据。s p i l i o p o u l o u 等人提出了一种访问模式挖掘器 w u m l 2 刖，w u m 通过使用m i n t 挖掘语言来挖掘频繁访问模式。b o r g e s 和 l e v e n e 提出了一种超文本模型来获得用户的访问行为模式 2 9 。j p e i 等人基于w a p - t r e e 数据结构提出了一种有效的频繁模式增长算法w a p i l l i n c 【3 0 l ， w a p m i l l e 是一个两次扫描w e b 数据库算法。当w e b 使用数据量非常庞大时， w a p - t r e e 结构也因变得庞大不再适合内存存储。目前国外存在很多数据流项目，如s t a n f o r d 大学的s t r e a m 3 ，加州大学b e r k e l e y 分校的t e l e 伊a p h 3 2 矧，布朗大学的a u r o m 【3 4 】等。s t r e a m 项目旨在研究通用的数据流管理系统，主要研究数据流查询语言的语法及语义 3 5 1 ，数据流系统中操作符的调度与资源优化管理问题 3 6 1 。t e l e g r a p h 项目的特点是能够自适应的查询处理流数据【3 ”。a u r o r a 项目研究了数据元组在操作符之间的优化路由问题，能够更加充分的优化使用系统资源以提高服务质量。在数据流中挖掘频繁模式可分为三个不同领域，分别为界标窗口模型， 4 第1 苹绪论倾斜时间窗模型和滑动窗模型。m a n k u 和m o t w a n i 提出了界标窗口模型【3 8 1 ，利用特定时间点和当前时间之间完整的历史数据进行挖掘。g i a n n e l l a 开发了倾斜时间模型，在较细的粒度上挖掘最近的数据，在较粗的粒度上挖掘时间较久的数据【3 9 】。t e n g 提出了滑动窗模型，给出一个窗口大小为w ，只利用最近的事务进行挖掘 4 0 】。也就是说，随着一个新事务的到达，旧事务在滑动窗口中被作废。目前现有数据流上频繁模式挖掘算法主要集中在界标窗口模型【3 8 4 1 , 4 2 1 。 m a n k u ，c h a n g 和l e e 提出t l o s s yc o l l n _ 血g 算法【3 研和c a l l m 算法【4 3 】，采用估计策略挖掘频繁模式的近似集。然而，这些算法大部分采用固定粒度处理数据流，不易区分旧数据和新数据。在许多情况下，频繁模式是对时间敏感的，随着时间的变化，旧的频繁模式可能会失去其兴趣和重要性。为了克服这些困难，许多基于滑动窗口模型的算法被提出。滑动窗主要关心数据流最近的变化及趋势。l e e 基于滑动窗模型，提出了一种从候选2 项集中挖掘频繁模式的方法，但这种方法由于产生大量候选项集而消耗大量存储空间。c h i 提出的m o m e m 算法【4 5 】主要是用来发现滑动窗中封闭的频繁模式，不适合挖掘频繁访问序列。y u 利用c h e m o f f 趔界理论提出了一种f d p m 算法【删，该方法使用预先定义的阈值来控制内存消耗和输出的质量。c h e n g 基于f a l s e - n e g a t i v e 方法提出了一种m i n e s w 算法 4 7 1 ，此算法设计一种逐渐增加的最小支持度函数来计算每个项集的支持度。尽管这两种算法能够克服由f a l s e p o s i t i v e 方法产生的一些弊端，但由于二者没有采用约束机制，不能处理由相关比率p 引起的问题。以前的工作只考虑将固定数量的事务作为滑动窗挖掘基本单元，即是事务敏感滑动窗模型。然而，这对用户来说不容易指定基本单元的大小。相反，用户容易指定一个时间期间作为处理基本单元。 1 2 2 存在的问题通过分析目前国内外频繁访问序列挖掘领域的研究现状，以及在对频繁访问序列挖掘算法的研究过程中，发现存在如下问题。首先，w e b 关联规则挖掘问题核心是频繁页面和频繁页面集的挖掘问 5 燕山大学工学硕士学位论文题。以往的挖掘算法很少考虑w e b 点击数据中的时间信息，而这些时间信息在挖掘过程中是非常有用的。w e b 包含着海量的使用数据，发现的频繁页面集和模式非常繁多，有些毫无意义，这样会耗尽内存空间。如何找到一种节省内存空间，并且又能够自动删除那些无意义的页面集的高效挖掘算法是一个需要解决的问题。其次，传统的频繁访问序列挖掘算法是通过挖掘候选序列发现频繁序列，而这些算法又很少能有适合挖掘长序列的，若长度为l 的序列是频繁的，要全部罗列出2 0 个子序列，l 过长时，造成极大的空间浪费。而自治性找出 w e b 使用数据中所有频繁访问序列又不太现实。如何找到一种合适的算法来解决上述问题是非常有必要的。再次，w e b 使用数据增长迅速，一些数据可能过时，先前的频繁访问序列会随着新序列插入和旧序列删除而改变，若从已更新数据库中重新挖掘频繁访问序列，这样不仅会增加处理时间，而且还会增加数据存储量。以前的增量挖掘算法一般只是考虑在单个序列中插入、删除操作，很少有考虑序列本身从数据库中插入、删除的。因此，在数据库同时插入和删除整个访问序列的增量式挖掘问题很值得研究。最后，在w e b 数据流中挖掘频繁模式一般采用f a l s e p o s i t i v e 方法进行算法设计，即是利用相关比率p 控制整个挖掘过程。如何有效控制p 的大小，会使用户陷入两难局面。若使用较大的p ，内存消耗降低，一些访问序列查全率提高，但挖掘结果的精确性降低。若使用较小的p ，能够提高挖掘结果的精度，但同时要维护由于较小的p 而产生大量的候选序列，这样不但增加了内存消耗，而且还降低了挖掘效率。因此，如何设计一个基于f a l s e - n e g a t i v e 方法的、能够克服相关比率p 所导致的问题的算法是一个急需解决的问题。 1 3 课题研究内容本课题“基于w e b 点击流的频繁访问序列挖掘研究”来源于河北省普通高等学校博士科研基金项目和河北省教育厅二o o 六年科研计划项目。本课题研究的目标是解决1 2 2 节中提到的四个问题。课题的具体研究 6 第1 章绪论内容安排如下。为了解决w e b 关联规则挖掘中存在的问题，本文提出一种新的挖掘算法 m f p s m ( m a x i m u mf r e q u e n tp a g es e tm i n i n g ) ，来挖掘极大频繁访问页面集。由于极大频繁页面集已经包含了频繁页面集，因此利用这种方法能够减少生成频繁页面集的数量。算法m f p s m 采用双向约束思想，深度优先构建 f p d t - t r e e - ( f r e q u e n tp a g et r e ew i t hd w e l lt i m e ) 结构，只把符合要求的页面存储该结构中，这样能够缩小搜索空间，减少内存消耗，提高挖掘效率。为了解决较长访问序列带来的问题，本文提出算法m f t p m ( m a x i m a l f r e q u e n tt r a v e r s a lp a t t e r nm i n i n g ) ，在静态w 曲点击流中挖掘极大频繁访问序列，该算法能够适应访问序列长短的变化。并设计一种带约束的新型树型数据结构d f t s t r e e ( d w e l lt i m ec o n s t r a i n e df r e q u e n tt r a v e r s a ls e q u e n c e s t r e e ) 存储频繁访问序列。算法m f t p m 在约束环境中更能显示其优越性。为了解决从会话序列数据库中同时插入和删除访问序列的增量挖掘问题，本文设计一种扩展格数据结构i e - l a t t i c e ( i m p r o v e de x t e n d e dl a t t i c e ) 来存储先前的挖掘结果，基于这种结构提出一种有效的算法i m f t s ( i n c r e m e n t a l m i n i n gf r e q u e n tt r a v e r s a ls e q u e n c e ) 。该算法利用先前的频繁序列、约束策略和网站拓扑结构，仅从插入的和删除的会话序列中挖掘新的频繁访问序列，从而减少执行时间和存储空间。为了解决相关比率p 导致的问题，本文给出p 的上下限参数，并采用上下限参数的加权调和平均数来代替相关比率p 。基：f a l s e - n e g a t i v e 方法提出一种新的基于时间敏感滑动窗的动态w e b 点击流频繁访问序列挖掘算法f t s s t r e a m ( f r e q u e mt r a v e r s a ls e q u e n c em i n i n gi nc l i c ks t r e a m ) 。该算法采用加权调和计数函数计算每个访问序列的支持度计数。算法f t s s t r e a m 不仅能克服p 产生的问题，而且能够满足挖掘精度和序列查全率，同时降低内存消耗。 1 4 本文的结构安排本文的余下部分组织如下。第2 章介绍了在静态点击环境下，挖掘极大频繁页面集算法m f p s m 和 7 燕山大学工学硕士学位论文极大频繁访问序列算法m f t p m ，并给出相应的性能分析和实例说明。第3 章给出了在会话序列库同时插入和删除相同数目访问序列时的挖掘算法i m f t s ，并给出了算法分析和实例说明。第4 章介绍了在动态w e b 点击流环境中，挖掘频繁访问序列挖掘算法 f t s s t r e a m ，并给出详细的性能和理论分析。第5 章将对于前3 章所提出的算法利用j a v a 语言和c + + 语言进行编程实现，介绍实验所用数据集的来源和开发环境的搭建，并给出较为全面的性能实验分析。最后，对研究内容做出总结，并对未来的研究方向进行展望。 8 第2 章静态点击流的极大频繁访问序列挖掘第2 章静态点击流的极大频繁访问序列挖掘 2 1 引言关联规则是在w e b 使用数据中挖掘频繁页面集的重要技术。目前大多数关联规则挖掘算法是a p r i o r i 系列算法及其改进算法。但是，a p r i o r i 系列算法有一个缺陷，即在挖掘时可能需要多次重复扫描数据库并且会产生大量的候选集。同样，传统的频繁序列挖掘算法g s p i ”】、s p a d e t l 7 】等大多是通过挖掘候选序列来发现频繁序列。若长度为l 的序列是频繁的，需要罗列出 2 。个子序列，l 过长时，造成极大的空间浪费。所以无论是挖掘频繁页面集还是频繁序列都要考虑繁多的候选项集和候选序列。由于极大频繁模式已经隐含了所有的频繁项和频繁序列，而且，许多挖掘应用也只需要极大频繁模式，而不用挖掘所有的频繁集，因而近年来，许多研究者开始了对极大频繁模式的研究。本章针对挖掘频繁项和频繁序列中存在的问题，在f p - t r e e h 8 i 的基础上，设计了两种树型存储结构f p d t - t r e e 和d f t s t r e e 。利用这两种结构对带有约束的数据库进行压缩存储。在此基础上提出两种新的挖掘算法m f p s m 和 m f t p m ，实验表明这两种算法降低了挖掘时间，提高了挖掘效率。 2 2 双向约束策略的思想由于w e b 包含海量的信息数据，发现的频繁页厦集和频繁序列非常繁多，有些毫无意义，而自治性找出w e b 数据中的页面集和访问序列是不太现实的。j h a n 提到数据挖掘是一个交互过程，决策者应该直接通过查询语言或用户图形接口参与挖掘过程，找出决策者自己想要的页面集和访问序列集【4 9 j 。因此，许多研究者把约束的思想加入挖掘过程中，调整候选集的生成方法，只对与约束条件有关的项目进行了处理。现有的约束有项目约束、长度约束、模型约束、集合函数约束和项目属性约束等。在这些约束基础上的算法都存在一些弊端，约束条件改变较小时，有一定的效果，但对于 9 燕山大学工学硕士学位论文约束条件改变很大时，不但不能提高效率，反而会降低算法的效率。因此本章根据用户的挖掘目的提出了一种双向约束的思想，对用户的某个访问属性进行双向约束。其具体思想是给出一个最小属性约束阈值和一个最大属性约束阈值，利用这两个阈值同时约束用户的某个访问属性。根据最小和最大约束阈值，决策者可以制定出多项约束规则，然后再根据这些约束规则剔除数据集和候选集中不符合要求的项和序列。虽然这种方法限制了一些项和序列的出现频率，但是，能够找出更加有意义的项和序列。 2 3问题定义与分析为了描述问题的方便，此节给出了频繁访问页面集和频繁访问序列挖掘问题的一些基本定义和基本分析。设非空集合i = 饵，只，只) ，其中最( 1 k n ) 称为w e b 页面( p a g e ) 。定义2 1 ：w e b 点击流是用户访问w e b 站点时一组连续的页面访问序列，表示为w c s = ，只i ，1 i s m 。定义2 2 ：会话( s e s s i o n ) 是某个用户阶段性的页面测览构成的点击流。对于同一用户，在挖掘极大频繁访问页面集和极大频繁访问序列之前，要对不同的会话重构。在重构过程中，有两个必要的时间约束是很重要的。任一个会话持续的时间，不能超过预先定义的时间阈值，通常是3 0 分钟【5 0 1 。任意两个连续被访问的页面时间间隔不能超过预先定义的时间阈值，通常是1 0 分钟【5 i l 。定义2 3 ：驻留时间( d w e l lt u n e ) 指的是用户在会话序列中浏览某个w e b 页面的实际时间。设只和只+ 。是一会话序列中两相邻页面。z 为页面只的请求时间，l + 。为页面只+ 。的请求时间。则页面只的驻留时间如图2 - 1 所示。广田臣，啮田 i 兰塑堡堡i 些型! ! ! ! 竺! ! 竺! 坐!l 堡业! ! 坚! ! 堡i t i t 1 t 2k l 图2 - 1p i 的驻留时间 f i g 2 - 1d w e l l t i m eo f p i 1 0 第2 章静态点击流的极大频繁访问序列挖掘设五为页面只的加载时间，为p 的附属文件加载时间，页面只的驻留时间设为t o 。则五= 五- t , ，正= 五一五。计算页面只的驻留时间t o 时有两种情况，如公式( 2 1 ) 至( 2 - 4 ) 所示。 t o = z + 。一互一 ( 互一z ) + ( t o 一五) 】( 2 一1 ) 瓦= z + 一z 一( 互+ 五)( 2 2 ) 瓦= z 。一z 一( 互一z ) ( 2 3 ) 瓦= 0 。一霉一乃( 2 - 4 ) 在计算页面的驻留时间时，按照公式( 2 3 ) 或公式( 2 4 ) 的情况，不考虑附属文件的加载时间正以及流媒体( 如r e a la u d i o ，m p e g 等) 的加载时间。根据双向约束思想和决策者的意图，可以设定两个驻留时间阈值，最小驻留时间阈值和最大驻留时间阈值疋。利用和九约束会话中的每个页面，同时根据和厶制定两条约束规则，用来排除会话、频繁访问页面集和频繁访问序列中不合决策者要求的w e b 页面和序列。 ( 1 ) 若用户在某个页面的实际驻留时间小于，则表明该页面内容不符合用户的需要或页面有错误。从会话序列中剪除该页面。 ( 2 ) 若用户在某个页面的实际驻留时间大于九，则表明用户离开该页面或重新访问已在浏览器缓存中的该页面，而缓存中的页面不会在w e b 日志中留下任何信息。该页面不属于访问序列。 2 4m f p s m 和m f t p m 算法的设计 2 4 1问题定义假设d b 是由会话组成的数据库，i = 嘏，足，只) 为所有页面组成的集合，只是被访问过的页面组成的集合( 只i ) ，s s e t = s 1 ，s 2 ，s 。) 是由所有的会话组成的集合，其中，s ，表示d b 中的任意一个会话，并且记为墨- - ，且s ，s s e t ，只s j ，1 j sr ，r 为页面p 请求的时间。为便于用户计算每个页面的驻留时间，规定每个会话的入口页面( e n t r yp a g e ) 对应请求时间 = 0 。设会话数据库中会话总数为 s s e t c o u n t 。页面集只的出现频率是d b v p 包含页面集只的会话数目，记为燕山大学工学硕士学位论文只c o u n t ，则页面集尸，的支持度可以表示为p r c o u n t s s e t c o u n t ，记为 s u p ( p ：) 。设f = 嵌，磊，五为频繁访问的页面集，且z 只，1 歹k 。包含七个页面的页面集称为缸页面集，包含个频繁页面的页面集称为如频繁页面集。针对访问序列可以设置两个会话序列s l = 和 s ，= ，若s 是& 的子访问序列，则存在k n ，并且对于3 i ( 1 茎i ，一k + 1 ) ，使得6 f = 即龟+ l = a 2 ，包m l = a k 成立。当且仅当b ，= a ， ( 1 i s k ”) 成立时，会话序列s 。是是的一个前缀序列。当且仅当b ，= a n m ， ( 1 isk n ) 成立时，s 是的一个后缀。假设会话序列总数为s s e t c o u n t ，访问序列s 。的出现频率为s ，c o u n t ，则s ，的支持度即为s ，c o u n t s s e t c o u n t ，记为s u p ( s ，) 。含有七个页面项的序列长度为k ，称为缸序列。定义2 4 ：频繁页面集只是指满足s u p ( 0 ) 2 m i

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）基于web点击流的频繁访问序列挖掘研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档