(计算机软件与理论专业论文)自适应站点技术研究.pdf_第1页
(计算机软件与理论专业论文)自适应站点技术研究.pdf_第2页
(计算机软件与理论专业论文)自适应站点技术研究.pdf_第3页
(计算机软件与理论专业论文)自适应站点技术研究.pdf_第4页
(计算机软件与理论专业论文)自适应站点技术研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机软件与理论专业论文)自适应站点技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自适应站点技术研究 摘要 自适应站点的理论能够解决网络信息泛滥和服务缺乏个性化的问题,是网 络服务更高层次的发展目标,因此如何能够建立智能自动的适应用户各种需求 的w e b 站点成为当前的研究热点。不同的用户在不同情况下对站点的信息需求 也会不同,而站点经营者总是希望能够利用最少的资源来管理站点,因此两者 之间形成了一个矛盾。 w e b 数据源的多样性和动态性等特点突破了传统意义上的数据形式,w e b 挖掘也就随着w e b 服务的发展受到了越来越广泛的关注和应用。自适应站点是 通过w e b 数据挖掘技术来挖掘用户使用站点的有用信息,以达到自动调整站点 结构和表现形式的目的,从而满足不同用户的访问需求。自适应站点解决了站 点管理者和用户之间的矛盾。 本文在一般自适应站点模型的基础上提出一个应用可扩展标记语言x m l 技 术的自适应站点模型框架。该模型的特点是,以实现自适应站点的个性化服务 为目标,利用x m l 技术使数据预处理工作得到简化,引进需求一偏爱度概念实现 偏爱路径挖掘算法,以完成w e b 挖掘过程,站点调整阶段运用x m l 技术实现 个性化配置。本文比较详细地介绍了自适应站点的设计和实现过程,主要在算 法模块进行分析实现与比较。 关键词:数据挖掘,自适应站点,x m l 河海大学硕士研究生论文自适应站点技术研究 a b s t r a c t i no r d e rt os o l v et h ep r o b l e m so fn e t w o r ki n f o r m a t i o nf l o o d i n ga n dl a c ko f i n d i v i d u a ln e t w o r ks e r v i c e sa n dp r o m o t et h eh i 曲d e v e l o p m e n to fn e t w o r ks e r v i c e s ,i t b e c o m e sa c u r r e n th o ti s s u et h a tw h e t h e raw e bs i t ec o u l da u t o m a t i c a l l ya d a p td i f f e r e n t u s e r sr e q u i r e m e n t so rn o t w e b m i n i n gi st h es u bf i e l do fd a t am i n i n g f e a t u r e so ft h ev a r i e t ya n dd y n a m i t i c o fd a t as o u r c eb r e a k st h r o u g ht h er e s t r i c t i o no ft r a d i t i o n a ld a t am i n i n g ,a n d 淅t ht h e d e v e l o p m e n to fw e b ,w e bm i n i n gg e t sm o r ea n dm o r ea t t e n t i o na n da p p l i c a t i o n a d a p t i v ew e bs i t ei so n eo f t h ea p p l i c a t i o nb r a n c h e so fw e bm i n i n g a na d a p t i v ew e b s i t ec a na u t o m a t i c a l l ya d j u s ti t ss t r u c t u r ea n d r e p r e s e n t a t i o ns ot om e e td i f f e r e n tu s e r s v i s i tr e q u i r e m e n t st h r o u g hu s i n gw e bd a t a m i n i n gt e c h n i q u e t of m dt h eu s e f u l i n f o r m a t i o no fu s e r s t h u sr e s e a r c ho na d a p t i v ew e bs i t ec a nr e s o l v et h er e q u i r e m e n t a n dn e e dc o n t r a d i c t i o nb e t w e e nv i s i t o r sa n dw e bs e r v i c e b a s e do nt h eg e n e r a lm o d e lo fa d a p t i v ew e bs i t e ,am o d e lf r a m eo fa d a p t i v e w e bs i t eu s i n gx m li sp r e s e n t e d t oa c h i e v et h e i n d i v i d u a t i o ns e r v i c eo fa d a p t i v ew e b s i t e ,t h i sm o d e lu s e sx m lt os i m p l i f yt h ep r e t r e a t m e n to fd a t a ,a n di n t r o d u c e st h e a l g o r i t h mo fi n t ot h ep r o c e s so fd e m a n d f a v o r i t i s m p a t hm i n i n ga l g o r i t h mw e bm i n i n g x m li sa p p l i e dt og e ti n d i v i d u a t i o nw h e nw e bs i t er e d r e s s a l f o c u s i n go nt h ea n a l y s i s a n dc o m p a r i s o no ft h em o d u l e s ,t h i st h e s i sp r e s e n t si n d e t a i lt h ed e s i g n i n ga n d i m p l e m e n t i n gp r o c e s so f a d a p t i v ew e b s i t e k e yw o r d s :a d a p t i v ew e bs i t e ,w e bm i n i n g ,x m l i l 学位论文独创性声明: 本人所呈交的学位论文是我个人在导师指导下进行的研究工作及 取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外, 论文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的 同事对本研究所做的任何贡献均己在论文中作了明确的说明并表示 了谢意。如有不实,本人负全部责任。 论文作者( 签名) 盘蛊避2 毛年6 月侈日 学位论文使用授权说明: 河海大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件或电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允 许论文被查阅和借阅。论文全部或部分内容的公布( 包括刊登) 授权河 海大学研究生院办理。 论文作者( 签名)邀 2 0 0 毛年g 月f 日 河海大学硕士研究生论文自适应站点技术研究 第一章绪论 随着因特网的日益发展和普及,人们的日常生活越来越多关联到因特网。通 过访问各式的web 网站,人们可以方便地完成许多传统方式下的繁琐工作,这 一点同时也给web 网络服务提供商带来了许多商机。但是随之出现的信息泛滥 又给用户带来了许多困扰,在复杂的w eb 信息中如何快速找到自己需要的数据 和信息,如何去掉各种不必要的信息干扰成为许多用户迫切想解决的问题 1 。 相比传统形式下的面对面服务,网络服务因无法与用户进行正面沟通更容易造成 服务缺乏个性化的问题,这为web 站点服务向更深层次发展增设了一大障碍 2 。 自适应站点研究的主要目的是及时发现和预测不同用户在使用web 站点时 的问题,并相应调整web 站点的内容、结构和表现形式来解决相关问题。自适 应站点能有效发现潜在用户和吸引原有用户,能够为网络服务的持续发展提供有 力保障。 1 9 9 7 年华盛顿大学的m i k ep e r k o w i t z 和o r e ne t z i o n i 在第十一届国际 人工智能联合会议上正式将自适应站点作为一个挑战向计算机学术界提出。自适 应网站的基础是具有强大数据分析处理功能的web 挖掘。而在当前的信息 分析技术中web 挖掘是最具有应用前景的一种技术,所以自适应网站研究 不仅具有广阔的商业前景,而且将给计算机科学诸多领域的发展带来深远的影 响。随着知识经济的发展,自适应网站最终将成为一种向用户提供自适应服务 的有效手段,必将在人们的经济生活中有着更广泛的应用,扮演更重要的角色。 因此对自适应网站的研究具有重要意义 3 。 1 1 课题的研究背景 在全球web 站点数目急剧增长的同时,各个web 站点的信息量及其复杂 度也在急剧上升:另一方面,站点使用者对站点的要求也在不断的变化。这些因 素都使得站点的结构和内容变得越来越复杂,从而导致管理变得更加困难 4 。 河海大学硕士研究生论文自适应站点技术研究 站点访问者对站点需求信息的变化主要体现在以下几个方面: ( 1 ) 不同用户有不同的身份、性别、年龄、爱好等,因此用户在访问某个w eb 站点时带有不同的目的,所关注的内容和喜爱的浏览模式不相同。 ( 2 ) 在不同的时间段,同一个用户对站点的需求信息也可能不同。 ( 3 ) web 站点随着时间的推移不断发展,内容逐渐增加,导致初始设计不 再适合。 ( 4 ) web 站点实际运行中发挥的角色作用超出其设计的范围,甚至完全改 变,违背了站点设计者的初衷。 站点用户在使用站点的过程中总是希望能满足自己的特定需求,而站点运营 者从商业的角度考虑希望能利用最少的资源来管理站点,因此在站点管理者和访 问者之间形成了一个供需的矛盾。 目前实际使用的web 站点基本上都是被动的。站点在加强与访问者的互动 沟通方面存在的问题主要包括:对所有的访问者采取统一的界面表现形式;对所 有的访问者提供相同的服务功能;缺少与访问者直接或者间接的交流。因此用户 需要自己去寻找所关心的信息在哪里;如果站点的结构设计得不合理将会耗费使 用者很大的精力,非常不方便。 为解决这些问题,研究如何使web 站点能够智能适应人们的各种需求成为 当前的热点。自适应站点的终极实现目的是能够通过学习用户的访问模式自动地 调整web 站点信息的组织与显示方式,这属于web 数据挖掘的一个应用分支。 当前对自适应站点的研究仍然处于初级阶段,主要有两个原因 3 。 ( 1 ) 一般的中小型web 网络服务提供商对站点的管理仍停留在初始水平, 还没有意识到web 站点上升到自适应站点的重要性。 一般的站点在使用中也会进行内容和形式上的调整,通常的做法是:市场部 门对用户使用业务的数据和其它相关信息进行分析,然后分类总结出站点使用方 便性和灵活性方面的问题并提出下一步调整决策,最后交由站点开发人员实施具 体调整。整个过程技术部门与市场部门几乎完全分开运作,站点分析与调整的决 河海大学硕士研究生论文自适应站点技术研究 策过程由市场部门单独完成,带有很强的主观性,缺乏对相关实现技术特点的了 解不但造成了调整结果实用性差、效率低,浪费资源的情况,而且实际达到的效 果也不理想。 ( 2 ) 要实现web 站点的自适应性能,提高站点服务个性化质量需要耗费大 量的精力,一般的web 网络服务提供商没有时间和精力研究和解决这些问题。 自适应站点研究仍然处于起步阶段,web 环境的复杂性给自适应站点的实 现带来许多难以解决的实际问题 5 。 获取对站点挖掘有用的原始数据阶段,要解决用户访问web 服务器使用代 理服务器或本机缓存导致用户行为信息无法获取或数据不完整甚至错误带来数 据获取的问题;对数据进行预处理和分析,web 站点结构数据的多样性给这一 步增加难度,如何选择一个实用的高效率数据挖掘算法来模拟业务模型也没有一 个通用的设计模式;最后,得出了数据挖掘的结果后如何有效进行利用从而高效 智能地实现站点的自适应性也是待解决的难题 6 7 8 。 因此对自适应站点的设计和实现,要求提出一套结合实际网站实践性需求的 具体解决方案,减少网络服务商开发维护web 站点的资源耗费的同时为站点的 可持续发展提供技术支持。从解决实际问题出发,到设计和实现一套详细完整的 强实用性的自适应站点体系结构以不断完善现有web 挖掘的研究理论,这个课 题的提出具有一定的理论和实践意义。 1 2 自适应站点概述 当前的web 站点因为包含的巨大信息量使得结构越变越复杂,因此站点对 不同访问者实现实时的调整变得越来越有必要。适应现代网络可持续发展观念的 web 站点能够依据使用者需求的不断变化而实时变换内容和表现形式。本节详 细描述了自适应站点的定义、目标,并介绍了当前国内外自适应站点研究已取得 的成果和面临的几大问题。 河海大学硕士研究生论文自适应站点技术研究 1 2 1 自适应站点的研究目标 用户访问网站的日志信息提供了使web 用户和网站交互,提高网站服务 质量的一个机会。自适应站点是web 数据挖掘不断发展出现的一个概念,主要 是利用服务器上的访问日志信息,通过对这些日志信息实施web 使用挖掘, 发现用户常用访问模式,并预测用户下一次想要访问的页面或可能访问的路径, 并把这些页面和路径以各种方式推荐给用户,来自动改进网站的结构,或向网 站管理员提出建议等 9 。目前所有web 网站都不是自适应的,还是通过大 量人力来完成网站结构的调整。 自适应站点的研究和实现能为站点的用户创造很方便的使用环境。假设用户 每天访问同一个web 网站一次,一般用户都会形成相同的浏览习惯,经常浏览 某些页面或者点击某些链接,而忽略其它页面或者链接。一个普通的web 站点 提供给用户的内容和表现形式是统一的,虽然很可能用户从来都不会点击某些链 接或者访问某些网页、或者使用站点中的某项服务,而站点对这一情况一无所知; 而一个自适应站点能够很好的解决这些问题,因为调整后的链接结构已经考虑了 用户浏览该站点的实际需求和使用习惯。对于一个访问自适应站点的用户来讲, 会觉得使用起来更符合个人习惯,按照调整后的站点结构到达所需链接页面的路 径减少,不仅站点服务的个性化得到体现,同时站点性能也获得提升。 一个站点的整体性能通过下面两个因素的函数作用进行衡量: ( 1 ) 用户在访问站点过程中,访问结果实现访问目标的频率。 ( 2 ) 用户在寻找自己所需信息过程中所花费的工作,例如:他们寻找所需 要的信息过程中点击的链接总数,和其中阅读链接文本信息以及在页面中翻滚屏 面所花的时间。 一个使用起来不是很方便的站点将耗费用户大量的时间和精力。一个自适应 站点在设计初期一方面要考虑上面提到的关于用户使用站点的方便性,同时也要 考虑到站点管理者管理和维护的实用性。实践过程中,寻找一个非常理想的站点 结构设计几乎不可能,自适应站点总是从一个站点状态不断优化到另一个站点状 态。 河海大学硕士研究生论文 自适应站点技术研究 自适应站点的最终目标是为了更方便用户访问和使用网站。一个理想的自适 应站点总体上要求信息的显示格式、逻辑结构、物理组织都互相独立,具体可以 概括为下面两个:( 1 ) 实现个性化的服务。( 2 ) 实现站点性能提升。 所谓个性化服务,即以符合访问者兴趣、身份和需求的信息和应用程序的形 式为其提供特殊的待遇。个性化服务可以概括为这样一个过程:收集并存储访问 者的信息,分析这些信息,然后根据分析结果在合适的时间向每一位访问者发送 正确的信息e l o l 。 个性化服务主要包括下面三个方面的内容: 1 ) 服务时空的个性化:在用户希望的时间和希望的地点得到服务。 2 ) 服务方式的个性化:能根据用户个人爱好或特点来开展服务。 3 ) 服务内容个性化:提供的服务不是千篇一律,而是各取所需,各得其所。 实现服务的个性化的主要步骤可以概括为:收集访问者信息、分析、生成推 荐。应用到自适应站点的服务个性化,要求web 网站能以用户为中心,尽可能 使自己的每个用户在浏览该网站时都有他就是网站的唯一用户的感觉,尽可能地 迎合每个用户的浏览兴趣并且不断调整自己来适应用户浏览兴趣的变化。web 站点根据用户以往访问站点的历史记录发现提取用户潜在的访问模式,并对用户 下次访问网站的行为做出预测,然后在预测的基础上进行站点自身调整e 1 1 3 。调 整后的结果包括:从全局的角度来看,站点的相似或者重复页面内容合并,去除 无用链接或者网页;从局部的角度来看,用户关心的网页更加容易访问;用户关 心的链接更加醒目。 站点性能指标主要指用户访问网页的服务器响应时间,和用户浏览网站完成 访问需求总共耗费的时间等。一个性能良好的站点应该能够尽量减少用户在访问 页面时的等待时间,减少用户到达目标页面所经过的页面周转。 自适应站点研究的总体目标是实现站点服务的个性化和站点性能的全面提 高。结合在实际建设期间遇到的一些问题,总结自适应站点的实际功能效果在实 际应用中具体细化为以下几个方面 1 2 : 河海大学硕士研究生论文 自适应站点技术研究 a ) 使用户关心的功能页面更容易访问、功能链接更加醒目。 b ) 每个独立功能页面表述清晰、无冗余结构。 c ) web 站点的结构整体性强,页面间的联系利于理解和记忆,减小用户 访问有效路径的长度。 d ) 合理调整页面内部与web 服务器交互的次数,缩短服务器响应时间。 例如设计一个智能访问与控制系统的用户自服务门户网站,那么用户经常会 使用的两个页面即网络访问被拒绝提示页面和网络访问前的身份验证页面就要 求服务器的响应速度非常快;登陆智能访问与控制系统的用户自服务门户站点后 进行网络访问权限配置,相关的某些页面或者页面中的某几个功能键可能是某用 户经常需要交替使用的,那么这些页面也要求容易访问,对于此用户不经常使用 的则可以放置页面下角,甚至可以暂时隐藏起来。这样调整后的站点,用户访问 起来会更加方便和符合自身需要,无形中会增加一种为自己量身定做的亲切感, 正符合了自适应站点的服务个性化要求。 1 2 2 自适应站点的研究现状 基于web 数据挖掘的自适应站点研究主要包括两个分支:一是基于用户访 问模式的研究,在用户访问记录基础上发掘用户访问模式进而向用户推荐兴趣页 面实现自适应目标;另外一个是web 内容挖掘的自适应站点研究,主要根据页 面的结构和链接信息寻找相似页面,增加或者减少链接 1 3 。页面,在这些页面 之间增加链接。很明显,第二种方法不能够真正实现网站的自适应,它只是对网 站的整体结构的一种调整,只能作为一种补充。因此,本文主要研究基于w e b 用户访问模式挖掘的自适应网站的建立。 目前主要的自适应站点具体研究 1 8 1 3 : 由m i n g s y a nc h e n 等人提出浏览路径挖掘用来对web 站点日志进行分 析。浏览路径是指用户依时间顺序访问的站点页面构成的序列。 华盛顿大学的研究人员致力于自适应网站的系统优化他们所设计的系统从 web 站点日志中提取频繁出现的访问模式,据此对网站的结构进行调整,从 河海大学硕士研究生论文自适应站点技术研究 而提高网站对大多数用户的服务性能。 w e b w a t c h e r 在用户访问web 站点之前,先粗略地问一下访问者需要哪 个方面的信息( 即浏览兴趣所在) ,并将用户可能点击的超链接突出显示并置于 页面顶端。 a v a n ti 是基于目标识别理论的自适应站点研究项目。 目标识别指根据 用户的动作序列确定用户的最终目标是什么。 l e s h 和e t z i o n i 提出了处理该问题的一个统一框架。他们把用户动作抽象 成一种运算并表示为先决条件事后状态的形式,在此基础上进行推理。 s t r u d e l 站点管理系统在网站中引入元数据,大大提高了从h t m l 页面得到 的关于w eb 站点的知识。提供元数据的方法是以类似于数据库的方式来管理 web 站点,精确定义web 站点中数据的语法和语义。s t r u d e l 系统使w eb 站点中信息的显示格式,逻辑结构,物理组织都相互独立开来。通过高 层的说明性语言查询和更新web 站点,而不直接涉及页面与超链接的细节。 同时上述系统也存在许多不足。如w e b w a t c h e r 和a v a n ti 需要用户在进 入web 站点时提供自己的浏览兴趣等信息,对web 站点内容与结构的 了解程度直接限制了web 站点的自适应能力。而引入元数据的s t r u d e l 系 统的弱点在于它要求把web 站点的内容全部放进数据库,或者为web 站点的内容建立映射到s t r u d e l 系统的包装器w r a p p e r 。这种改造对现存的w eb 站点来说代价太高, 包装不规则的内容也很费事。 国内web 挖掘也已成为计算机科学工作者所关注的热点问题。国内的研 究主要集中在算法的改进和应用系统框架的设计。国内互联网上现在也有了专门 讨论数据挖据的网站,己经开始个性化信息方面的研究。但是我国在这方面的理 论研究和应用研究还是十分薄弱的,比较大的网络研究点是复旦大学的数据挖掘 站点,但实质性的内容也并不多。 总之,无论是国际还是国内,对自适应网站的研究还处在刚起步阶段,还 没有形成比较成熟的理论和统一的体系。目前的web 站点一般都是被动的, 而且都不是真正自适应的。用户需要自己去寻找所关心的信息在哪里,操作繁琐, 7 河海大学硕士研究生论文自适应站点技术研究 非常不方便。web 包含了丰富和动态的超链接信息以及web 页面的访问 和使用信息,这为数据挖掘提供了丰富的资源的同时,也提出了新的挑战。 1 2 3 自适应站点研究的主要问题 目前自适应站点的研究还处于不断探索阶段,站点的设计和实现仍依靠大量 的人力来完成,包括数据的获取、分析和最后站点的调整,并未实现真正意义上 的自适应站点目标 1 4 。总结起来,主要存在下面几个问题。 1 ) 分析挖掘数据源的获取阶段,系统的数据来源为web 站点可提供的一 切资源,包括服务器日志文件、页面文件的内容信息、页面文件的链接信息和系 统本身特点获得的其它数据信息等,因此数据源的形式异常复杂,而要在数据形 式不统一的基础上建立一个统一的数据模型将会是一个非常艰巨的任务。另外, web 站点的数据会因为各种因素而动态更新 1 5 。所有这些web 站点数据源 的特点为数据分析带来很大的难度。因此如何为多种不同形式的动态数据源建立 一套标准的数据处理方法是自适应站点研究需要解决的一大问题。 2 ) 分析自适应站点的调整阶段,现有的自适应站点系统在具体实现上缺乏 客观性和个性化服务特征。例如,在用户首次访问网站系统时,跳出一个对话框 要求访问者输入需要定制的网页内容或者某些与用户本身的信息,在用户以后的 访问过程中,将根据用户首次定制的内容向用户推荐一些链接。这样的自适应站 点系统存在很大局限,一方面,用户的内容定制存在一定主观性,在用户对提供 的内容定制描述不是很理解时甚至会产生很大的偏差;第二,系统以第一次访问 输入的信息为标准建立模型分析,缺乏动态变化性,不能实时跟踪用户的新需求。 综合上述自适应站点研究的难点,可以得出结论:自适应站点的真正实现还 需要学术界投入更大的关注与努力。 1 3 本文的主要工作 自适应站点的两大目标是个性化服务实现和整体性能提升,本文主要着眼于 提高站点的个性化服务这一目标,基于对用户访问模式的学习,应用xml 技术 河海大学硕士研究生论文自适应站点技术研究 实现站点调整的个性化配置,提出一个自适应站点模型框架。 在数据预处理阶段,利用xml 技术在web 应用方面的优势,为解决复杂 的数据形式带来数据模型的难以统一问题寻找一个解决方案。原始数据经过数据 清洗过程后,将得到的各种表现形式的数据统一转化为同一种表现形式的数据, 经过这样处理后的挖掘过程与一般的数据挖掘过程因此就变得及其相似 1 6 1 7 。 数据形式统一为xml 格式存入xml 数据库,生成的xml 数据库支持关系型 数据库数据,支持xml 查询语言 1 8 。 数据挖掘是自适应站点的核心部分,数据挖掘得出的信息是站点进行调整的 依据,web 数据挖掘因为其数据源的结构异构性、要求自适应站点在挖掘技术 方面做到新的突破。本文使用的数据挖掘算法从网站的角度把所有的用户当作是 一个整体来考虑,先利用web 日志建立网站访问矩阵,然后通过对该矩阵进行 需求一偏爱度计算得到偏爱子路径,最后进行合并生成用户浏览偏爱路径。 站点调整阶段,突出个性化服务的特点。站点所做的调整措施不局限于向访 问者推荐某些链接,而是更大程度的利用数据挖掘阶段所取得的结果对站点结构 进行调整,以向用户使用本站点提供最大的方便为最终目标。因此,站点以更醒 目的方式提供系统预测到的访问用户的喜爱链接,同时暂时隐藏或者以较隐蔽的 方式提供系统预测用户暂时不用的站点链接和内容。基于用户访问模式分析得出 的挖掘结果所作的站点调整针对特定用户实现 1 9 2 0 r m 。 本文研究的主要任务是在总结已有自适应站点研究经验上提出一套结合xm l 技术的自适应站点建设方案,针对当前web 挖掘研究存在的主要问题来实现 站点服务的自适应目标要求。利用xm1 技术解决web 数据挖掘中数据处理和 自适应站点调整中的难点 2 2 1 ,运用引入需求一偏爱度概念的需求一偏爱路径挖掘 算法来实现数据挖掘模块,提高挖掘的正确度和扩展性,全面提升站点自适应的 性能。 9 河海大学硕士研究生论文自适应站点技术研究 1 4 本文的组织结构 全文组织如下: 第1 章绪论 概述了自适应站点的研究背景和研究现状,介绍了论文的主要研究内容 和意义。 第2 章自适应站点技术 对自适应站点的一般步骤和模式发现的常用算法流程做了简要的论述。 主要对本文建设自适应站点所应用的web 日志挖掘技术和xm1 技术进行比较 详细的介绍与探讨。 第3 章需求一偏爱路径挖掘算法d f p m a 引入了需求一偏爱路径挖掘算法d f p m a ,并给出相应说明。 第4 章自适应站点模型 给出了一个嵌入xm1 的自适应站点模型,对模型的整体框架和各个模块的 设计原理作出详细描述。 第5 章总结与展望 总结,提出进一步研究的方向。 l o 河海大学硕士研究生论文 自适应站点技术研究 第二章白适应站点技术 白适应站点应该为不同的用户提供不同的视图,所以其内容要能够进行灵活 的剪裁与拼装。在设计时就需要考虑w e b 站点的哪些部分是固定的,哪些部分是 可变的。例如可以为用户提供一个根据其访问模式动态生成的浏览指南 ( t o u r g u i d e ) 页面;或者允许系统根据对w e b 站点的语义描述进行一些推理;甚 至把整个w e b 站点作为一个数据库。理想的自适应站点将使信息的显示格式、逻 辑结构、物理组织都相互独立。w e b 站点日志与关系型数据库有所不同,需要 为之建立合适的数据模型,发展新的数据挖掘算法。同时,自适应站点( 每周7 天每天2 4 小时) 一直在运行,用户的访问数据也在不断积累,所以对用户访问数 据的学习应该是持续进行的。使用的数据挖掘算法需要从静态的改成动态的、从 批量式的改成增量式的,才能符合自适应站点的需要。根据用户的访问模式,自 适应站点可以做出的改进包括:( 1 ) 使用户所关心的页面更加容易访问;2 ) 使用 户所关心的超链接更加醒目;( 3 ) 链接相关页面;( 4 ) 聚合相似页面;( 5 ) 增加缓 冲预取机制,改善服务器响应时间;( 6 ) 合理设置广告等。 2 1 自适应站点技术概述 2 1 1 自适应网站体系结构 常规的自适应网站大致可分为信息处理和网站调整两个部分 2 3 。 信息处理部分首先将w e b 服务器日志数据转换为适合的形式,完成源数据 的收集。然后对w e b 日志进行预处理,实施w e b 使用挖掘,发现用户常用 访问模式。 网站调整部分主要是根据信息处理所得的挖掘结果对网站进行调整,采用 增加动态链接的方式向用户推荐w e b 页面或浏览路径,从而达到网站能够自动 调整的目的。 信息处理模块 河海大学硕士研究生论文 自适应站点技术研究 数据清洗例如从服务器日志文件中消除不相关的项,缩小被挖掘数据对 象的范围。实现方法可以通过查找u r l 地址名称的后缀,如以g i f g i f j p e g j p g 等为后缀的文件就可以移去。 用户唯一性识别可以通过分析用户方c o o k i e s 文件,并且借助其他一些 信息来实现。对具有同一i p 地址的用户,也可以参考代理方参考日志文件中 的信息来判断。如果其中显示的用户使用的浏览器软件及操作系统是不同的,那 么即使同i p 地址的用户也可以作为不同的用户而考虑。另外还可以参考网络 站点的拓扑结构信息。 网站调整模块 挖掘综合器它应该是一个规则集合,能够根据不同的挖掘要求到w e b 数 据挖掘算法库中选择最有效的挖掘算法或几种算法的序列组合,并且使用该方法 去执行挖掘任务。随着应用的深入,应该可以不断融入新的规则。 web 数据挖掘算法库 是一个数据挖掘分析方法的综合性算法库。在客 户行为分析中,可用的挖掘算法主要有: 羌联分析就是要找到客户对网站上各种文件之间访问的相互联系,了解顾客的 购买习惯和偏好,决定产品的捆绑销售策略等; 厚砚黼就是在时间戳有序的事务集中找到那些一些项跟随另一个项的内部 事务模式,来预测将来购买产品或服务类别的概率; 桑黝笏可以从w e b 访问信息数据中聚集出具有相似特性的那些客户,以采取 有针对性的营销策略; 夕癸分析可以从个人信息或共同的访问模式中得出访问某- - n 务器文件的用户 特征,用于预测哪些人会对邮寄广告和产品目录优惠券等促销手段有反应等。 w e b 数据挖掘算法库应该可以以插件的方式来组织各种挖掘算法,使各种方 法可以方便地插入,实现可扩展性和易选择性,并且可以通过参数来实现算法 的选择。 用户管理评估界面模块其功能是实现前台的管理界面,以便于网站的管 河海大学硕士研究生论文自适应站点技术研究 理人员浏览用户访问模式挖掘模块得到的信息,并根据这些信息了解网站的运行 情况,制定网站的发展策略。管理人员可以通过浏览器方式实现系统管理,对 数据挖掘发现的模式进行解释和评价,过滤出有用的知识,利用可视化技术将 有意义的模式以图形或逻辑可视化的形式表示,转化为用户可理解的语言,成 功的数据挖掘的应用应能将原始数据转换为更简洁更易理解可明确定义关系 的形式,还可用于解决发现的结果与以前知识的潜在冲突,决定是否需要返回 模式挖掘模块,重复以前的操作,以得到最优最适合的模式。挖掘抽取的信息 经过事后处理可用于解释当前或历史现象,预测未来可能发生的情况,使决策者 参照抽取的信息进行决策制定。 方法驱动模块其主要功能应是利用挖掘出来的有益信息,去进行相应的工 作。其中页面访问情况用来指导网站页面的重新设计和修改,分析出的客户生 活和购物模式可以作为反馈信息,以电子邮件的形式把相应的商品广告等发送给 客户, 根据客户的爱好等来定制个性化w e b 界面。企业则利用相应的信息确 定顾客消费的生命周期,针对不同的产品制定相应的营销策略;确定各个细分市 场,为每一个顾客的独特需求设计量身定造的产品。 2 1 2 自适应网站质量评价 质量评价对深化自适应站点的研究具有重要意义。最基本的评价指标是看用 户平均作多少努力,才能在该网站中达到自己的目的。用户的努力可以理解为 点击超链接的次数以及在页面中寻觅这些超链接的困难程度的函数。 一个自适应网站的质量好坏可以归结为以下两个参数:访问成功率和尝试 努力率。比如寻找所需要的信息时花了多少时间,点击了多少链接。从一个网 站的首页至少要经过几个超链接才能到达其最需要的页面,那么在首页上添加直 接指向此页面的超链接将提高该自适应网站的质量一个组织结构不够好的网站 需要用户花很多的时间来寻找所需的信息。通过分析服务器日志,可以得到用 户所作努力的近似值。但是还不足以完全刻画用户浏览行为,也没有记录用户 到底是点击当前页面中哪一个超链接而进入下一个页面的。现在己经出现一些软 件,能够让网站记录下用户浏览页面时的全部行为。如w e b t h r e a d 将 w e b t h r e a d 之类的软件提供的数据与w e b 站点自身的结构综合起来分析,可比 河海大学硕士研究生论文 自适应站点技术研究 较准确地度量用户的努力。 2 1 3 结论 自适应网站是一个较新的研究领域,还有许多问题有待于进一步研究和深 化。 如开发更好的数据收集机制和技术,实现多种信息的智能集成,提高挖 掘算法的效率和有效性,针对源数据增量变化和分布特性开发新的模型,开发 能够协助理解挖掘出的知识的智能工具,对挖掘结果的质量评价,不同挖掘方 法的综合集成,防止修改导致系统的崩溃等等。 2 2x m l 及w e b 挖掘技术概述 在网络和信息技术发展的同时,出现了“信息爆炸”的问题,即数据极大丰 富而知识相对匾乏。如何快速、准确地从海量数据里面提取有用的信息己经成为 当前计算机科学的关注热点。数据挖掘从大量信息中提取有用的知识,解决数据 的应用质量问题,从而提高学术上的可研究性,以及商业上的决策性 2 4 2 5 。 x m l 的全称是可扩展标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) ,是s g m l ( 标 准通用标记语言, s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ) 的一个子集。总 的来说,x m l 是一种中介标示语言,可提供描述结构化资料的格式:详细来说, x m l 是一种类似于h t m l ,被设计用来描述数据的语言。x m l 己经成为数据表示的 一种开放标准,独立于机器平台、提供商和编程语言,从而在不同的系统、不同 的数据库、不同的语言之间搭起沟通的桥梁 2 3 。 x m l 和数据挖掘都是近几年兴起的新技术,在网络与数据库方面等发挥了重 大作用,而两者的结合能够应用到更多领域,例如:w e b 服务、电子商务、图书 馆和医学等。x m l 促进了信息间的交流,为数据挖掘提供了更广阔的信息平台。 x m l 可看作一种半结构化的数据模型,可以很容易地将x m l 的文档描述与关系数 据库中的属性对应起来,实施精确的查询与模型抽取。因此研究基于x m l 的数据 挖掘技术对于x m l 技术和通用的数据挖掘技术的发展都有很大的促进作用。 1 4 河海大学硕士研究生论文自适应站点技术研究 2 2 1w e b 挖掘 概述 w e b 挖掘建立在数据挖掘理论的基础之上,是针对w e b 页面内容,站点 拓扑结构,用户访问信息,用户注册信息以及电子商务交易信息等在内的各种 数据,应用数据挖掘方法以发现有用知识的过程。即w e b 挖掘就是从w w w 上 挖掘有趣的潜在的有用模式及隐藏的信息的过程,它可以帮助人们从w w w 中 发现知识改进站点设计提供个性化服务。 w e b 上的信息不同于数据库。数据库有规范的数据结构,而w e b 上包括文 本图片v e d i o 等多种信息, 它们是半结构化的。因此w e b 上的挖掘需要用 到不同于常规的数据库开采的很多技术。 w e b 挖掘分类 w e b 数据挖掘总的来说分为内容挖掘结构挖掘和使用挖掘三类。 w e b 内容挖掘是指挖掘i n t e r n e t 的页面和后台交易数据库,即从文档 内容或其描述中抽取知识的过程。w e b 内容挖掘包括基于文本的挖掘和基于多 媒体的挖掘两种。 w e b 结构挖掘是对w e b 文档的链接结构进行研究,揭示蕴涵在这些文档 结构中的有用模式。处理的数据是w e b 结构数据。对于一个w e b 页面,如果 有较多的链接指向它,那么该页面是重要的。此重要性可作为w e b 页面评分的标 准。 w e b 使用挖掘是通过s e r v e rl o g 曰志获取的知识预测用户浏览行为的技 术。由于w e b 自身的特点异质分布动态无统一结构,使得在其上进行内 容挖掘较困难。而s e r v e rl o g 日志却有很好的结构。每当用户访问w e b 站点 时, 所访问的页面时间用户i d 等信息, 在s e r v e rl o g 日志中都有相应的 记录。 因而对其进行挖掘是切实可行的也是很有意义的。 w e b 挖掘应用 河海大学硕士研究生论文自适应站点技术研究 电子商务中主要有以下几个方面的应用: 1 ) 了解客户,针对不同客户提供量身定造的产品。 2 ) 确定顾客消费的生命周期,针对不同的产品制定相应的营销策略。 3 ) 对某些用户经常访问的地方,有针对性地提供个性化的广告条。 4 ) 分析潜在的目标市场,优化电子商务网站的经营模式。 5 ) 优化w e b 站点,根据访问者的信息来修改和设计网站结构和外观,找出如何 优化一个网站组织结构的策略,确定预传哪些页面到客户端,从而提高网站的 效率。 6 ) 以客户需求为向导,针对顾客设计个性化网站。 w e b 挖掘过程 w e b 使用挖掘依然遵循数据挖掘的研究思路。挖掘过程分为4 个阶段:源数 据收集,数据预处理,模式发现和模式分析。 源数据收集在w e b 使用挖掘中,数据最直接的来源是w e b 服务器。客 户访问服务器就会在服务器上产生相应的服务器数据。另外,服务器也同时记 录文件的有关信息,如文件的创建者修改时间等。 数据预处理预处理主要对用户访问日志进行数据清洗,用户唯一性识别, 用户会话识别,完善访问路径和事务识别等处理。 妻镛僦其目的是从服务器日志文件中消除不相关的项,缩小被挖掘数 据对象的范围用户。 难一烂次别可以通过分析用户方c o o k i e s 文件和采用c a t c h b u s t i n g 技 术,并且借助其他一些信息来实现。 局户会西次别目的是将每个用户的访问信息化分成若干个独立的会话进 程。 掰劳廊露径由于存在客户端缓存,当用户使用浏览器的后退功能时会产 1 6 河海大学硕士研究生论文自适应站点技术研究 生路径信息不完整的描述,因此这一类问题需要加以解决。 事务堀别目的是依据数据挖掘任务的需求将事务做分割或合并处理,使其 适合于数据挖掘需求的分析。可以采用三种分割方法来实现事务识别:参考时 长法最大前向参考和时间窗法 模式发现模式发现阶段就是利用挖掘算法挖掘出有效的新颖的潜在的 有用的及最终可以理解的信息和知识。可用于w e b 使用挖掘的技术有路径分 析,关联规则,序列模式,分类聚类技术和依赖性建模,其中路径分析技术 是w e b 使用挖掘所特有的。 路径分析就是要从图中确定最频繁的路径访问模式或大的参引访问。序列 图最直接的来源是网站结构图。其他图也都是建立在页面和页面之间的联系, 或者是一定数量的用户浏览页面顺序基础之上的。 关鹾祝黝发绍就是要找到客户对网站上各种文件之间访问的相互联系。 可以用a p r i o r 算法从事务数据库中挖掘出最大的频繁访问项集。这个项集就是 关联规则挖掘出来的用户访问模式。 序砀横才触发刃就是在时间戳有序的事务集中,找到那些一些项跟随另 一个项的内部事务模式。 分粪和泵羰衣分类技术可以从个人信息或共同的访问模式中得出访问某 一服务器文件的用户特征。分类可以通过决策树技术贝叶斯分类法k 一相似相 邻分类等技术实现。聚类分析可以从w e b 访问信息数据中聚集出具有相似 特性的那些客户,可实现自动给一个特定的顾客聚类发送销售邮件,为一个顾 客聚类动态地改变一个特殊的站点等。 纯赖丝罄横建模的目标是开发出一种能表达出w e b 领域中各种变量之间 显著依赖性的模型。有几种概率学习方法可以用来为用户的浏览行为建模:如 隐马尔可夫链模型贝叶斯信念网络等w e b 使用模式的建模不仅能为分析用户 行为提供理论框架,还具有预测w e b 资源消耗的潜力。 模式分析模式分析主要是为了从模式发现算法找到的模式集合中筛选出 有趣的模式。精确的分析方法通常是由w e b 挖掘的具体应用来控制的。模式 河海大学硕士研究生论文自适应站点技术研究 分析的形式可以是象s q l 那样的知识查询机制,也可以把w e b 使用数据装入 数据仓库,以便执行o l a p 操作。诸如图形化模式或为不同值赋不同颜色的可视 化技术,可以使得数据中的总体模式或趋势变得更加直观。 2 2 2w e b 挖掘的特点 w e b 上有海量的数据信息,怎样对这些数据进行复杂的应用成了现今数据库 技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规律性的内容,解决 数据的应用质量问题。充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘 技术的最重要的应用 2 6 2 7 2 8 。相对于w e b 的数据而言,传统的数据库中的 数据结构性很强,即其中的数据为完全结构化的数据,而w e b 上的数据最大特点 就是半结构化。所谓半结构化是相对于完全结构化的传统数据库的数据而言。显 然,面向w e b 的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。一般说来, 面向w e b 的数据挖掘具有以下几个方面的特点。 1 ) 异构数据库环境 从数据库研究的角度出发,w e b 网站上的信息也可以看作一个数据库,一个 更大、更复杂的数据库。w e b 上的每一个站点就是一个数据源,每个数据源都是 异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构 数据库环境 3 0 1 。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点 之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个 统一的视图,才有可能从巨大的数据资源中获取所需的东西。其次,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论