（计算机应用技术专业论文）用户访问模式挖掘及自适应web研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-17 格式：PDF 页数：61 大小：1.79MB 积分：0 举报 版权申诉

已阅读5页，还剩56页未读，继续免费阅读

（计算机应用技术专业论文）用户访问模式挖掘及自适应web研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

原创性声明本人郑重声明：所呈交的学位论文，是本人在导师的指导下，独立进行研究所取得的成果。除文中已经注明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本声明的法律责任由本人承担。论文作者签名：盔：当叠日期： 2 舶t4 ，r 关于学位论文使用授权的声明本人完全了解山东大学有关保留、使用学位论文的规定，同意学校保留或向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅；本人授权山东大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名：查鱼篮导师签名：丝生b期：三型生f c 山东大学硕士学位论文摘要当今基于b s 的互联网应用日益广泛，各类网站所提供的功能和服务也越来越丰富，然而在智能化方面表现得不够理想。比如，网站结构缺乏灵活性；提供的服务或信息分布不合理，未能充分考虑到用户的需求；信息的访问路径未能考虑到信息的重要性和普遍关注性等等。如果网站能够根据用户的行为模式自动的学习，改良自身的组织结构和表现形式，即所谓自适应w 曲站点，无疑将极大的方便用户的使用。本文在分析了w e b 日志记录结构及涵义的基础上，结合山东大学威海分校研究生处w w w 站点，对w 曲用户访问模式挖掘的整个过程进行了详细的描述，并提出了若干建设性的技术方法。本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应w e b 站点的应用上，将数据挖掘技术、数掘库技术与w e b 技术相结合，在分析网站逻辑结构的基础上，通过对用户访问模式的数掘挖掘，对己存在的w e b 站点的结构及站点内的页面进行调整和改善，使其具有自适应能力和优化能力，使各类信息和服务以更有效的方式提供给用户首先分析进行w e b 日志挖掘的数掘基础及在进行挖掘前需要的数据准备工作，包括数据清洗、用户识别、会话识别等数据预处理过程其次，提出一种基于w e b 拓扑结构( 图结构) 挖掘用户访问模式的方法，区别于常用的基于树形结构的w e b 路径分析技术，在候选集的生成和剪除过程中减少了候选集的数量，提高了发现模式的精确性和效率，并且避免了“交易变质”的问题同时还考虑到增量日志挖掘技术的问题。利用w e b 日志挖掘获得的规则和模式对已存在的w e b 站点的结构及站点内的页面进行调整和改善包括链接位置的变动，增加删除页面间的链接等，运用页面聚类的结果可方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面等，从而实现站点组织结构的优化运用数据挖掘技术分析用户的访问模式，同时考虑到多种相关因素，可动态的改变网站的组织结构。通过这种网站结构的调节，可以优化网站结构，提高动态网站的服务性能和服务质量，具有很大的研究和应用价值。利用w e b 日志挖掘得到的用户访问模式来调整和改善w e b 站点的结构及站点内的页面，在理论上和应用中都还存在着一些问题需要做进一步的研究。如分山东大学硕士学位论文布式w c b 同志挖掘的研究如何把整个站点的w e b 日志挖掘任务分布到各w e b 服务器上并将分布的结果结合起来，获得访问模式，将具有重要的意义关键词：数掘挖掘，w e b 日志挖掘，用户访问模式，w e b 拓扑结构，自适应站点山东大学硕士学位论文 a b s t r a c t n o wt h ei n t e r n e ta p p l i c a t i o nb a s e do nt h eb si sw i d e s p r e a dd a yb yd a y ，t h e f u n c t i o na n ds e r v i c et h a te a c hk i n do fw e b s i t e sp r o v i d ei sm o 鹳a n dm o r er i c h , h o w e v e ri t si r , s u f f i c i e n ti nr ei m e ! l e c t u a l i z e da s p e c t 。i ：o rj m s l a n c e , t h ew e b s i t e s t r u c i u r el a c k st h ef l e x i b i l i t y ；t h ed i s t r i b u l i o no fs e r v i c eo ri n f o r m a t i o ni s u n r e a s o n a b l et h a th a sn o tc o n s i d e r e dt h en e e do fn s e r sf u l l y ；t h ea c c e s sw a yo f i n f o r m a t i o nh a s n tc o n s i d e r e dt h ei m p o r t a n c ea n dt h eu n i v e r s a la t t e n t i o na n ds oo n i f t h ew e b s i t e sc a l ls t u d yt h e m s e l v e sa n di m p r o v et h e i ro r g a n i z a t i o na n dp r e s e n t a t i o n a u t o m a t i c a l l y ，a si sc a l l e da d a p t i v ew e bs i t e ，t h e yw i l lb em o r ec o n v e n i e n ta n dm o r e e f f e c l i v ef o rt h eu s e r s b a s e do nt h ea n a l y s i so fs t r u c t u r ea n dm e a n i n go fw e bl o gr e c o r d s ，c o m b i n e d w i t ht h ew e b s i t eo fg r a d u a t es c h o o lo fs h a n d o n gu n i v e r s i t ya tw e i h a ia n di t sp a r t i a l l o g s t h i st h e s i sg i v e sad e t a i t e d6 e s c f i p t i o na b o u tt h ew h 0 1 ec o w s eo fw g b u s e r a c c e s sp a t t e r n sm i n i n g ，a n dp r o p o s e st h r e ec o n s t r u c t i v em e t h o d s t h i st h e s i sf o c u so nt h eu s e ra c c e s sp a t t e r n sm i n i n gb a s e do nt h eg r a p hs t r u c t u r e a n dt h ea p p l i c a t i o no nt h ea d a p t i v ew e b s i t e s ，b a s e do nt h ea n a l y s i so fs t r u c t u r eo f w e b s i t e sa n dc o m b i n a t i o no ft e c h n i q u eo fd a t am i n i n g , d a t a b a s ea n dw e b 。a d 脚a g a n di m p r o v i n gt h ee x i s t e dw e b s i t e s s t r u c t u r ea n di t sw e bp a g e st oe n a b l et h e mt ob e s e l f - a d a p t i n ga n do p t i m i z i n gt h r o u g ht h ed a t am i n i n go fu s e ra c c e s sp a t t e r n s ，s oa st o p r o v i d eu s e r sw i t hi n f o r m a t i o na n ds e r v i c ei nal n o r ee f f i c i e n tw a y f i r s t , i ta n a l y s e s t h ed a t as t r u c t u r eo ft h el o ga n dd a t ap r e p r o c e s s i n gs u c ha st h ed a t ac l e a n i n g ，u s e r i d e n t i f i c a t i o n , a n 6s e s s i o ni d e n t i f i c a t i o na n ds oo nb e f o r ew e bl o gm i n i n g s e c o n d , i t p r e s e d 岱am e t h o dt om i n eu s f f ra c c e s sp a t t e r n sb a s e do nt h et o p o l o g yo faw e bs i t e ( g r a p hs t r u c t u r e ) o nt h eu s e rs e s s i o nf i l e ，t h i sm e t h o di sd i f f e r e n tf r o mt h ec o m m o n o n eb a s e do nt h et r e es t r u c t u r e ，a n dr e d u c et h en u m b e ro ft h ec a n d i d a t ei nt h ep e r i o d o ft h ec a n d i d a t eg e n e r a t i o na n dp r u n i n g ，s oi ti m p r o v e st h ep r e c i f i o no ft h ep a t t e r n s a n dm i n i n ge f f i c i e n c y ，a n da v o i dt h e ”c o r r u p t e dt r a n s a c t i o n ”a tt h es , n et i m ei ta l s o c o n s i d e r st h ep r o b l e mo ft h ei n c r e m e n t a ll o gm i n i n gt e c h n o l o g y f i n a l l y , a d j u s t i n g a n di m p r o v i n gt h es t r u c t u r ea n dp a g e so ft h ee x i s tw e b s i t et h r o u g ht h er u l e sa n d p a t t e r n sf r o mw e bl o gm i n i n gi n c l u d i n gc h a n g i n gt h el i n kp o s i t i o n , i n c r e a s i n go r 5 山东大学硕士学位论文 d e l e t i n gt h el i n ko f p a g e sa n dr e c o m m e n d i n gt h ep a g e sw h i c hh a v es i m i l a rs u b j e c tt o t h eu s e rg r o u pw i t hs i m i l a rb r o w s i n gp a t t e r n sa n ds oo n , s oi tr e a l i z e st h eo p t i m i z a t i o n o f t h ew e b s i t eo r g a n i z a t i o ns t r u c t u r e t h em e t h o di so fah i 。g hv a l u ef o rr e s e a r c ha n da p p l i c a t i o n , w h i c hc o n s i d e r s m a n ya s p e c t sa b o u td a t am i n i n ga n a l y s i s 5 0t h a ti tc a ni m p r o v et h ew e b s i t e o r g a n i z a t i o ns t r u c t u r ed y n a m i c a l l ya n dm a k et h ep e r f o r m a n c ea n dq u a l i t yo ft h e s e r v i c eb e t t e r b u ti t si n s u f f i c i e n tb o t hi nt h e o r ya n di np r a c t i c e ，w h i c h1 1 5 0t h er i s e ra c c e s s p a t t e r n st oa d j u s ta n di m p r o v et h es t l m c t u r e a n dp a g e so fw e b s i t e s i tw i l lb e s i g n i f i c a n tt h a th o wt oc o m b i n et h er e s u l t sa n dg e tt h ea c c e s sp a t t e r n sb yd i s p e r s i n g t h ew h o l ew e bl o gm i n i n gt a s kt oe v e r yw e b5 0 v e r k e yw o r d s ：d a t am i n i n g ，w e bl o gm i n i n g ，u s e ra c c c s sp a t t e r n s ，w e b s i t e s t o p o l o g y ， a d a p t i v ew e b s i t e 6 山东大学硕士学位论文 1 i 引言第一章概述近几年因特网己经成为一个巨大的、分布广泛的和全球性的信息服务中心，逐渐渗透到人们的日常工作、生活及其它领域，它为用户提供了各种信息然而，网站在结构越来越复杂的同时，却往往在智能化方面表现得不够理想。主要表现在：网站的内容虽多却不易寻找。这样的后果是显而易见的：用户面对一堆杂乱无章的信息往往花费了大量的精力却无法找到理想的结果。如何有效得分析用户的需求，帮助用户从因特网的信息海洋中发现他们感兴趣的信息和资源，己经成为一项迫切而重要的课题解决这些问题的一个途径，就是将传统的数据挖掘技术与w e b 结合起来，进行w e b 数据挖掘其中的w e b 日志挖掘可以掌握用户在浏览站点时的行为，并且将挖掘出的用户访问模式应用于网站上，在改善w e b 站点的结构以及页面问的超链接结构，提高站点的服务质量等方面有重要的意义。使网站能够根据用户的行为模式，改良自身的组织结构和表现形式，即所谓自适应w e b 站点这无疑将极大的方便用户的使用 1 2 国内外研究现状 w e b 数据挖掘的概念最早在文 1 】，【2 】中提出，该领域的研究成果有力的促进了w e b 站点、w e b 站点服务、w e b 站点导航以及电子商务等的优化设计工作。同时，数据挖掘技术也在不断发展成熟，目前在w e b 数据挖掘领域，主要致力于将数掘挖掘在关系数据库领域取得的成果与w e b 数据挖掘相结合。构建w e b 数据挖掘系统国际上，关于w e b 数据挖掘的研究与应用主要有： h u m b o l d t 大学研制的w u m ( w e bu t i l i z a t i o nm i n e o 四，是一序列模式挖掘工具。主要目标是分析w e b 站点用户的浏览行为，它最适合于从任何类型的日志文件中发现序列模式； w e b w m c h e 一4 ) 提出了基于w e b 日志挖掘的个性化服务，用户的每一个页面请求都要经过w e b w a t c h e r 的代理服务器。代理服务器基于用户的兴趣、收集的网页的位置和相关性，引导用户沿着合适的路径浏览 7 山东大学硕士学位论文 m i n g - s y a nc h e n i t 等人提出浏览路径挖掘，引入了最大向前引用的概念，用来对w e b 站点日志进行分析浏览路径是指用户依时间顺序访问的站点页面构成的序列。 w e b m i n e r 系统i s 提供了对w e b 日志进行挖掘的框架，并能够对用户访问的文件之间的关系进行分析 j i a i l p e i 等人在【6 】中提出了简明的高度压缩的w a p - t r e e 结构，基于该结构的挖掘算法简化了用户浏览路径模式的产生过程华盛顿大学的研究人员致力于自适应网站的系统优化，他们所设计的系统从 w e b 站点日志中提取频繁出现的访问摸式，据此对网站的结构进行调整，从而提高网站对大多数用户的服务性能。国内的w e b 使用挖掘研究，主要侧重于理论研究东南大学提出了一种新颖的m b p 算法m ，利用关联规则挖掘发现的频繁项目集以加快速度，能找出所有满足阈值约束的频繁浏览路径。在文献 8 v p 提出了一种新的w e b 的序列模式，访问序列模式，并提出了识别最大向前访问路径和发现频繁访问路径的算法在文献 9 l q b 提出了一种智能w e b 预取技术，用来加快用户浏览w e b 页面时获 4 取页面的速度。上海交通大学提出了一种w e b h 志预处理阶段的f r a m e 页而过滤算法d o 。中科院提出t k - p a t h s 路径聚类方法，根据用户访问兴趣对用户集进行划分【1 1 】西安交通大学在w e b 挖掘研究方面做了多项工作 1 2 1 1 3 1 4 1 1 3 论文工作介绍本文研究将集中在基于图结构的用户访问模式挖掘及其在自适应w e b 站点的应用上，将数据挖掘技术、数据库技术与w e b 技术相结合，在分析网站逻辑结构的基础上，通过对用户访问模式的数据挖掘对己存在的w e b 站点的结构及站点内的页面进行调整和改善，使其具有自适应能力和优化能力。使各类信息和服务以更有效的方式提供给用户首先分析进行w e b 日志挖掘的数据基础及在进行挖掘前需要的数据准各工作，包括数据清洗、用户识别、会话识别等数据预处理过程。其次，提出一种基于w e b 拓扑结构( 图结构) 挖掘用户访问模式的方法，区别于常用的基于树形结构的w e b 路径分析技术，在候选集的生成山东大学硕士学位论文和剪除过程中减少了候选集的数量，提高了发现模式的精确性和效率，并且避免了“交易变质”【3 8 】的问题同时还考虑到增量日志挖掘技术的问题利用w e b 日志挖掘获得的规则和模式对已存在的w e b 站点的结构及站点内的页面进行调整和改善。包括链接位置的变动，增j e i 删除页面问的链接等，运用页面聚类的结果可方便地向浏览模式相似的用户组推荐其感兴趣的主题相似的页面等，从而实现站点组织结构的优化 1 4 论文的组织第一章概述：简单介绍了本文的课题鹜景、研究现状，以及论文的主要工作。第二章数据挖掘和w e b 数据挖掘：本章概括的讲述了数据挖掘和w e b 数据挖掘的基本知识第三章日志挖掘的数据预处理：讨论了w e b 数掘挖掘的数据源及预处理的步骤，为下一步的模式挖掘打好基础第四章用户访问模式挖掘：采用一种基于w e b 拓扑结构( 图结构) 挖掘用户访问模式的方法，在候选集的生成和剪除过程中减少了候选集的数量，提高了发现模式的精确性和效率，并且避免了“交易变质”【3 s 的问题。同时还考虑到增量日志挖掘技术的问题。第五章挖掘结果的应用：利用w e b 日志挖掘获得的规则和模式对己存在的w e b 站点的结构及站点内的页面进行调整和改善，同时给出了自适应站点的体系结构第六章总结：对论文的工作进行总结，并给出进一步的工作计划。 9 山东大学硕士学位论文第二章数据挖掘和w e b 数据挖掘概述 2 1 数据挖掘概述 2 1 1 数据挖掘的定义数据挖掘首先是在数据库领域发展起来的，称为数据库中知识发现 ( k n o w l e d g ed i s c o v e r yf r o md a t a b a s e ，简称k d d ) i s l 随着大量的大规模的数据库迅速不断的增长，数据的丰富带来了对强有力的数据分析工具的需求。如果没有强有力的工具，数据库中蕴涵的丰富知识，就得不到充分的发掘和利用，从而造成了信息的浪费，由此也会产生大量的数据垃圾从人工智能应用来看，专家系统的研究虽然取得了一定进展，但是，仍依赖用户或专家人工的将知识输入知识库，容易造成偏差和错误，并耗时、费用高。因此，有必要考虑从数据库中自动发掘新的知识这些都需要新的数据处理技术，k d d 便应运而生k d d 研究的内容是，能自动地去处理数据库中大量的原始数据，从中挖掘出潜在的可能关系模式【1 7 。但是由于数量太大。因此想搜索到有用模式，必须借用人工智能技术，特别是来自机器学习领域的方法。数据挖掘这一术语出现于1 9 8 9 年，其定义几经变动。本文中引用u f a y y a d l j 6 】等对数掘挖掘的定义：从数据集中识别出有效的，新颖的，潜在有用的，并且最终可以理解的模式的非平凡的过程。通俗地讲。数据挖掘是在一些事实或观察数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库，也可以是文件系统或其他任何组织在一起的数据集合。 2 1 2 数据挖掘的过程正如定义所说，数据挖掘实际上是一个从数据库中发现知识的过程。整个知识挖掘( k d d ) 过程是由若干挖掘步骤组成的，而数据挖掘仅是其中的个主要步骤。数掘挖掘包含数据收集、数据预处理、模式提取和模式解释与评估，该过程可用图1 来表示数据挖掘可以描述为这4 个阶段的反复过程。下面具体说明这4 个阶段： 1 0 山东大学硕士学位论文评估解释图l敷据挖掘过程 ( 1 ) 数据收集：这个阶段的目的是确定任务的操作对象，即目标数据。它是根据用户的需要从原始数据库中抽取的一组数据，缩小了处理范围。提高数据挖掘的质量。 ( 2 ) 数据预处理：就是对数据收集产生的数据进行再加工，检查数掘的完整性及数掘的一致性，对其中的噪音数据进行处理，对丢失的数据可以利用统计方法进行填补。 ( 3 ) 数据挖掘( 模式提取) ：此过程利用数据挖掘算法，对预处理后的数掘进行挖掘，提取出用户所需要的知识。数据挖掘的方法有很多种，特定的问题要用特定的挖掘技术来求解。根据数据挖掘的任务、数据的类型和挖掘所提取的模式特点等选择相应的数据挖掘算法 ( 4 ) 模式解释与评估：为了使数据挖掘得到的模式容易被用户理解和接受，通常要用文档、图表和可视化等易于被人接受的技术将它直观的表达出来这一步骤的任务不仅是把结果表达出来，还要对信息进行过滤处理。如果不能令决策者满意，需要重复以上数据挖掘的过程验证所得知识与已有可信知识，用正确的知识指导行为 2 2w e b 数据挖掘概述 2 2 1w e b 数据挖掘的定义 w e b 数据挖掘是一项综合技术，涉及w e b 、数据挖掘、信息学、统计学等多个领域a 不同研究者从自身的领域出发，对w e b 挖掘的含义有着不同的理解。【1 8 】将w c b 挖掘定义为：针对包括w e b 页面内容、页面之间的结构、用户访问信息、山东大学硕士学位论文电子商务信息等在内的各种w e b 数据，应用数据挖掘方法以发现有用垂勺知识来帮助人们从万维网( w w w ) 中提取知识，改进站点设计，更好地开展电子商务我们这里采用一个更一般的定义【3 9 】：w e b 数据挖掘是指从与w w w 相关的资源和行为中抽取感兴趣的、有用的模式和隐含信息 2 2 2w e b 数据挖掘的分类 w e b 数据挖掘建立在数据挖掘理论的基础之上，是针对w e b 页面内容、站点拓扑结丰白、用户访闯信息、用户注册信息以及电子商务交易信息等在内的各种数据，应用数据挖掘方法以发现有用知识的过程w e b 上的信息不同于数据库中的数据。数掘库中有规范的数掘结构，而w e b 上包括文本、图片、v i d e o 等多种信息，它们是半结构化的。w e b 信息的多样性决定t w c b 挖掘任务的多样性，w e b 数据挖掘总的来说分为内容挖掘、结构挖掘和日志挖掘三类，如图2 所示：图2w e b 数据挖掘分类 ( 1 ) w e b 内容挖掘 w e b g j 容挖掘是指从w e b 文档内容或其描述中发现有用信息的过程有两种 w e b l 勾容挖掘方法：一种是直接挖掘w e b 文档内容当前的研究集中在对结构化文档、超文本及半结构化文档的信息检索方面，一般局限于己知的文档组，用定制的包装器将文档内容映射为内部表示另一种是在其他工具搜索的基础上进行挖掘。主要是对搜索引擎的查询结果进行深层次的加工以得到更精确和有用者信息对文档进行有效的信息提取的主要障碍是缺少元数据，以及一种描述、操纵和交换数掘的标准方式。可扩展标记语言( x 札) 的提出，可望解决这个问题。 ( 2 ) w e b 结构挖掘 1 2 山东大学硕士学位论文 w e b 结构挖掘是指从w e b 结构中发现潜在的链接模式的过程由于文档之间存在着超链接，w w w - 可以通过这种超链接揭示出文档内容之外的一些有价值的信息例如指向一个页面的超链接数目就表明了该文档受欢迎的程度，而其包含的超链接数目就表明该文档主题的丰富程度结构挖掘的功能是通过发现w c b 页面的结构模式。找到权威页面，为用户提供与请求相关度较大的w e b 页面，提高搜索引擎的精度 ( 3 ) w e b 同志挖掘 w e b 日志挖掘也称w e b 使用挖掘，是指从w e b 使用数据中自动抽取用户访问模式的过程。w e b 系统作为目前i n t e r n e t 的主要信息发布渠道，w e b 站点的服务质量成为衡量站点成功的关键因素，包括站点设计，w e b 服务器设计和方便用户浏览等。因此有必要分析和掌握用户在浏览站点时的行为模式。w e b b 志挖掘的主要目标是从w e b 的访问记录中抽取感兴趣的模式【嘲w w w 中的每个服务器都保留了访问日志( w e ba c c e s s l o g ，简称w a l ) ，记录了用户访问站点时的相关信息每当站点被访问一次，w a l 就在日志数据库中追加相应的记录。如果将 w a l 视为关系表，利用数据挖掘技术，可以发现更多有价值的信息。这些信息中隐含着用户对特定内容的兴趣度，对w e b 站点管理员来说，分析这些数据，掌握用户在浏览站点时的行为，可以有助于改善w e b 站点的结构以及页面间的超链接结构，合理的设置广告，或者为用户提供个性化的服务，进行个人信息的定制和网页预测推荐等，以提高站点的服务质量本文主要研究的是w e b e l 志挖掘，即w e b 使用挖掘。由于内容数据和结构数据都是以设计者为中心的。只有使用数据是直接面对用户的，因而在分析用户需求时，一般都从使用数据着手，这遵守了一个以使用者为中心的原则。在传统的k d d 中包括如下几个主要过程 3 9 】： 1 ) 了解领域，建立商业闯题， 2 ) 建立数据库， 3 ) 数据预处理， 4 ) 数据挖掘， 5 ) 解释并评价结果， 6 ) 应用知识。在对w e b 日志数据进行知识发现时，也应遵循与之类似的步骤，但又要体现出其特殊性，其主要步骤如下：山东大学硕士学位论文 1 ) 了解w e b 的相关技术，数据格式，模型，数据源等， 2 ) 为应用目的选择数据( 这里主要指使用数据) ，并分析数据， 3 ) 对使用数据的预处理， 4 ) 数据挖掘， 5 ) 访问模式分析及评价， 6 ) 应用到网站实践 2 2 3w e b 数据挖掘的应用领域我们主要讨论w e b j 志挖掘的应用，从w e b 使用数据中挖掘出的访问模式可以应用到广阔的领域，以下介绍几种主要的应用 ( 1 ) 个性化服务根据网站用户的访问情况，为用户提供个性化信息服务，这是许多互联网应用，尤其是互联网信息服务或电子商务( 网站) 所追求的目标。根据用户的访问行为和档案向使用者进行动态的推荐，对许多应用都有很大的吸引力w e b 日志挖掘是一个能够出色地完成这个目标的方式。例如 1 7 ：s i t e h e l p e r 可以通过分析每个用户的网页访问情况，了解用户的爱好，并从用户浏览时闻较长的网页中抽取出相应关键字，汇总后给用户，获锝反馈后，再向用户推荐网站中其他类似或相关网页又如：w c b w a t c h c r “跟踪” 用户洌览网页过程，识别用户可能感兴趣的链接，w e b w a l e h e r 根据用户本人和其他类似用户的浏览情况，对每个新网页进行评估，以帮助用户能够及时地浏览自己感兴趣的网页 ( 2 ) 系统改良系统服务的性能和质量对于用户是否满意网站的信息服务等至关重要通过 w e b 日志挖掘可以了解网络通信行为，从而了解诸如网络缓冲，网络传播，负载平衡，数据分布等情况此外，安全性对于保证网络的服务也是必不可少的一部分，尤其在电子商务以指数级增长的今天w e b 日志挖掘可以帮助进行入侵检测等网络安全工作 ( 3 ) 完善网站设计一个网站的内容和结构决定了它的吸引度，对于许多网络应用来说这是非常重要的，w c b 日志挖掘可以提供用户访问行为的详细反馈信息，从而能够为网站山东大学硕士学位论文设计者改进网站的设计提供决策依据w e b e 志挖掘可以帮助网站进行有效测试此外，也可以利用w e b 了志挖掘的结果来探讨网站结构的改进问题 ( 4 ) 商业智钍m 有关用户访问网站的行为模式，对于电子商务中的市场人员来说是非常重要的，通过定义w e b 使用日志的超维数据立方，将w e b 使用数据与电子商务应用数据有机地结合在一起。这样就可以利用数据挖掘方法与技术来为客户关系管理中的四个重要阶段( 吸引顾客，保留顾客。交叉销售，顾客离开) 提供决策支持。例如：w e b l o g m i n e r 可将w e b 日志数据转换为超维数据立方的形式以便能够进行 o l a p 分析处理和数掘挖掘工作。在w e b l o g m i n e r 系统中还使用了关联规则，分类和序列模式分析等数据挖掘方法，得到了电子商务交易行为序列、特征和交易预期的分析山东大学硕士学位论文第三章w e b 日志挖掘的数据准备上一章我们提到，w e b 数据挖掘有三类，其中w e b 日志挖掘是通过处理 w e b 使用数据，以发现用户的访问模式，理解用户的行为用户访问模式挖掘的过程就是通过数据挖掘技术从w e b 使用数据中自动抽取访问模式的过程我们将w e b 日志挖掘过程划分为三个阶段，即数据准备阶段、用户访问模式挖掘算法实施阶段和模式应用阶段( 站点调整阶段) 本章详细讨论w e b 日志挖掘的第一个阶段。即数据准备阶段这个阶段又分为w e b 数据源和数据预处理两个过程本章最后还描述了数据预处理过程的实验结果。 3 1w e b 数据源数掘挖掘中一个关键的步骤是为数掘挖掘收集和创建合适的目标数据集合。 w e b 上的信息异常丰富，但是并不能直接作为w e b 数据挖掘的对象。这就需要对 w e b 信息抽象出合适的数据模型在w e b 日志挖掘中，w e b 使用数据可以从服务器端、用户端、代理服务器端或者是应用所需的数据库中进行采集。 3 1 1w e b 服务器端数据 w e b 服务器端的数据主要从w e b 日志文件和网络监视器中获得目前的w e b 日志挖掘的数据源主要是w e b 服务器日志文件，它记录了用户访问站点的数据，每当站点上的页面被访问一次，w e b 服务器就在日志中增加一条相应的记录。服务器上的日志不仅详细记录了站点访问者的浏览行为，而且汇集了访问同一站点的多个访问者的行为。通常应用于w e b 服务器中的日志文件格式很多，常用的有 n c s a 的普通日志格式c l f ( c o m m o n l o g f o r m a t ) 、n c s a 的扩展日志通用格式 e c l f ( e x t e n d e dc o m m o nl o gf o r m a t ) 和w 3 c 的扩展日志文件e x l f ( e x t e n d e d c o m m o n l o g f i l e f o r m a t ) 目前w e b 服务器日志一般采用e c l f 日志模式它的大体结构如表l ： 1 6 山东大学硕士学位论文表1h b 服务器日志的结构字段名称名称意义描述日期客户i p 地址用户名服务器请求状态引用字节数用户代理请求的日期时间信息访问服务器的远程客户i p 地址访问服务器的用户名服务器名称、i p 地址及端口号被请求文件的u r l 及获取的方法返回到客户端的h t t p 状态码本页的上一页传送和接收的字节数客户机上使用的浏览器下面给出实际环境中的一个服务器日志文件的部分内容( 两条记录) 样l2 0 0 4 - 0 9 - 2 60 0 ：0 0 ：1 02 1 9 2 3 1 1 6 1 1 5 5 g e t d o w n l o a d o 弼t b g s d o e 8 0 2 0 2 9 6 6 3 3 u s e r - a g e n t ：+ m o z i l l a 4 0 + ( c o m p a t i b l e ；+ m s i e + 5 5 ；+ w i n d o w s + n t + 5 0 ) 4 0 6 6 5 1 群22 0 0 4 - 0 9 - 2 60 0 ：0 4 ：1 82 1 9 2 3 1 1 6 1 1 5 5g e t y j s c i n d e x a s p 8 0 - 2 1 8 5 9 1 7 1 6 2 m o z i l l a 9 4 o + 1 0 c o m p a t i b l e ；+ m s i e + 5 0 1 ；+ w m d o w s + n t + 5 0 ) 2 0 01 3 4 6 其中各字段的具体含义如下： ( 1 ) i p 地址( t pa d d r e s s ) m 地址是i 向w e b 服务器发出请求的机器的i n t e r a c t 地址，这个地址可能是用户机器的地址。由于客户端与w e b 服务器之间代理服务器的存在，该字段记录的也可能是客户端经过的最后代理服务器的球地址，而不是最初发出请求的客户端的 i p 地址 ( 2 ) 文件访问时刻( d a c e ) 文件访问时刻表示服务器响应客户端请求，并向客户端返回被请求的资源的时刻。在上面的例子中第一条记录为2 0 0 4 0 9 2 60 0 ：0 0 ：1 0 ( 3 ) 请求( r e q u e s t ) 指来自客户端的h 1 - r p 请求到达后为这个请求建立的第一次连接。如果被请求的文件存在的话，这个域将确定这个被请求文件的u r l ，以及获取这个文件的山东大学硕士学位论文方法。在上面的例子中，请求豹方式是g e t g e t 方式是从w e b 服务器上得到一个对象( 例子中第二条记录是站点蠹g y j s o i n d e x a s p 文件) 其他的请求方式包括 p o s t h e a d e r ，0 p t i o n s ，p u t 等。通常只是使用g e t 和p o s t 请求方式，其中p o s t 方式用束将附加的信息体存放在被请求的资源中，主要用于接受h t m l 的f o r m q a 的内容。 ( 4 ) 状态代码( s t a t u sc o d e ) 状态代码指的是服务器响应浏览器请求的返回代码表示为三位数字状态代码共分五类，其中第一位数字代表了服务器响应所属的类别。下面是5 种状态代码含义列表： ( i ) i x x ：信息一这类状态代码是信息码。服务器管理者和开发者可以利用这些信息码提供附加信息。 ( i i ) 2 x x ：操作成功一这类状态代码是说明请求己经被成功接受并响应。例如，在上面的例子中，状态代码2 0 0 表示资源请求被完全成功的接受 ( i i i ) 3 x x ：重定向一这类状态代码指示为完成客户端请求，服务器必须采取进一步的动作例如，状态代码3 0 4 表示如果浏览器发请求一已查看过的资源，而该资源自最后次加载后未被更新过，则服务器返回该代码，并不向浏览器返回资源的实体内容 ( i v ) 4 x x ：客户端错误一这类状态代码表示浏览器发出的是错误的请求。最常见的错误是在未授权的情况下试图访问特殊文件或访问的文件不存在一个无效的链接也被认为是一个客户错误，比如错误码为4 0 4 的错误。 ( v ) 5 x x ：服务端错误一这类状态代码表明服务器因为本身或者网络问题使得请求不能被响应 ( 5 ) 引用( r e f e r r e r ) 引用域是一个完整的u r l ，通常保存着在用户连接到站点之前，最后访问的页面的u r l 如果用户在浏览器地址栏中键入u r l 或者将浏览器设置成启动时自动加载这个页面，对该引用字段为空。该字段可以帮助服务器生成历史链接记录集，用来进行日志管理，缓冲区优化及错误请求跟踪分析等。 ( 6 ) 传输的字节数( b y t e s ) 这个字段保存响应请求而传输的字节总数，它的大小应该和文件的大小完全相等。传输内容不包括h t t p 头和c o o l d e ，上例中第一条记录表示服务器向客户端山东大学硕士学位论文传输了6 5 1 个字节 ( 7 ) 用户代理( u s e r - a g e n t ) 用户代理字段记录了产生请求的用户代理的信息，包括产品代号、用户浏览器和用户操作系统的类型。如上例记录在代理日志中的 m o z i l l a 4 0 ( c o m p a t i b l e ；m s i e 5 o l ；w i n d o w s n t ) 表示用户操作系统为w i n d o w s n t ，所用浏览器类型为m si e 5 0 1 3 1 2 用户端数据用户端数据是另一个潜在的数据源。客户端记录了单个用户在其整个浏览过程中的行为数据，用户的浏览过程一般涉及多个站点，因此客户端收集的是单用户一多站点的信息。数据收集可以使用诸如j a v a s e r i p t 或钧a v aa p p l e t 这样的远程代理或经过修改加强了数据收集能力的浏览嚣( 如m o s a i c 或m o z i l l a ) 来实现。用户端的数据收集特别需要用户的合作，因为直接从用户端取得数据需要考虑用户的隐私和占用用户的机器和网络资源。从用户端收集数据最大的优点是可以直接取得用户的各种真实信息，这些信息的完整性和真实性都要好于服务器上的例如目前服务器上的任何方法都难以取得用户的点击信息，特别是点击后退和刷新按钮 3 1 3 代理服务器端数据代理服务器作为客户浏览器和w e b 服务器中间的缓存而存在，它接受客户端的请求，并为客户从服务器端取回相应的页面，最后将页面返回给客户端。从代理上可以得到从多用户到多w e b 服务器的访问记录。但是代理服务器的缓冲对其收集数据的准确性的影晌程度与被访问的站点是否为动态网站有很大关系。对予动态网站，如电子商务网站，用户的请求就要至u w e b 服务器上取得所需数据，影响并不大。如果页面是静态的，那么用户通过代理服务器访问该页面时，就不需要从w e b 服务器上取得数据，可以将该静态页面直接发给用户，从而影响了数据的准确性 3 1 4 本文所采用的数据源前面介绍的三种数据都可以用来作为w e b 日志挖掘的数据来源，且各具优缺点代理服务器端收集数据便于提供多用户一多站点的信息，但是本文主要考虑 1 9 山东大学硕士学位论文的是单站点一多用户的情况，所以代理服务器端数据并不适合作为我们的数据源。用户端数据是从用户浏览行为发生处进行收集，包含的信息较全面，也避免了缓冲带来的会话识别的困难。但是，客户端的数据收集涉及用户的隐私的程度较深，同时，它也需要用户的配合相对而言。从服务器端收集数据就具有收集简单、通用、全面且涉及隐私的程度小等优点，所以本文主要采用服务器端收集的数据作为数掘源 3 2 数据预处理确定好w e b 志挖掘的数据源，其准备阶段的第二个过程是对原始数据

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）用户访问模式挖掘及自适应web研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）用户访问模式挖掘及自适应web研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档