




已阅读5页,还剩70页未读, 继续免费阅读
(管理科学与工程专业论文)基于mvc模式的电子商务自适应网站设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 电子商务( e l e c t r o n i cc o m m e r c e ) 的蓬勃发展,使得企业和用户对于电子商 务网站的自适应要求越来越高。在这种情况下,依靠不断产生的新技术,不 但无法持续提高网站自适应性,更使得网站架构的复杂性大大加强。如何寻 求一种新的具有较强扩展性的设计模式,已成为自适应网站研究的重要课题。 m v c ( m o d e l v i e w c o n t r o l l e r ) 模式是一种软件设计模式,它把软件系统分 为模型、视图、控制器三个部分,通过明确定义三个模块的分工和协作,在 保持系统流程清晰的同时,使得模块间的耦合性降低,系统的扩展性大大增 强。 把m v c 模式的理念引入自适应网站研究,可以设计出一种新的自适应 网站模型。该模型从流程的角度把整个系统分为三个部分,分别对应于m v c 模式的三个层次。模型对层次间的接口和消息传递进行了细致的定义,并深 入讨论了每个模块内部的细节功能。该模型具有良好的实效性和可扩展性。 针对模型中核心的用户访问模式挖掘技术,在现有模式分析基础上,结 合数据仓库技术,通过赋予不同时期访问记录不同权重的方式,越靠近当前 日期的访问记录具有较大权重,使得挖掘出来的访问模式更具有时效性。同 时通过新的页面组件库的概念,可以在保证模型自适应程度同时,提高自适 应网站页面组合性能。结合目前广泛使用的j 2 e e 开发技术,可以从技术和 业务实现两方面论证模型的可行性。 关键词电子商务,自适应网站,用户访问模式,页面元组件库,m v c ( 模 型一视图- 控制器) a b s t r a c t a b s t r a c t w i t hr a p i dd e v e l o p m e n to fe l e c t r o n i cc o m m e r c e ,t h er e q u i r e m e n to ft h e a d a p t a b i l i t yo ft h ee - c o m m e r c es h o u l d b ei n c r e a s e dm o r e a n do n l yb ya p p l y i n g n e ws k i l l s ,n o to n l yt h ea d a p t a b i l i t yo ft h ew e b s i t ec a nn o tb ei m p r o v e d ,b u ta l s o t h ec o m p l e x i t yw i l lb ei n c r e a s e d n o wh o wt of i n dan e we x t e n s i b l ed e s i g n p a t t e r nh a sb e c o m ea ni m p o r t a n tt o p i cf o rr e s e a r c h m v c ( m o d e l - v i e w c o n t r o l l e r ) i sap a t t e r na b o u ts o f t w a r ed e s i g n i td i v i d e s t h es o f t w a r es y s t e mi n t ot h r e ep a r t so fm o d e l ,v i e wa n dc o n t r o l l e r b ys p e c i f i c d e f i n i t i o no nd i s t r i b u t i o na n dc o l l a b o r a t i o na m o n gt h et h r e ep a r t s ,t h ec o u p l i n go f t h em o d u l e sc a nb e d e c r e a s e d t h ee x p a n s i b i l i t yo ft h e s y s t e mw i lla l s ob e s t r e n g t h e n e d b ya p p l y i n gt h ep a t t e r no fm v ci n t ot h ea r e ao fa d a p t i v ew e b s i t e ,an e w m o d e lc a nb ea c h i e v e d t h i sm o d e ld i v i d e st h ew h o l es y s t e mi n t ot h r e ep a r t s w h i c hc o r r e s p o n dw i t ht h et h r e el e v e l si nm v c t h ei n t e r f a c e sa n dt h em e t h o d s o fm e s s a g et r a n s f e r r i n ga r ed e f i n e dd e t a i l e d l y ,a l s oi n c l u d i n gt h ef u n c t i o n si n s i d e e v e r ym o d u l e t h i sm o d e li se f f e c t i v ea n dw i t hg r e a te x p a n s i b i l i t y c o n c e r n i n gw i t ht h et e c h n i q u eo fm i n i n gf o ru s e ra c c e s sp a t t e r n s ,b a s e do n t h ec u r r e n tm o d e l ,t h em e t h o do fa l l o c a t i n gd if f e r e n t w e i g h tt o r e c o r d si n d i f f e r e n tp e r i o di sp r a c t i c a l i ti sp r o p e rt h a tt h el a t e rr e c o r d ss h o u l db eg i v e n g r e a t e rw e i g h tb e c a u s et h e yc a nr e f l e c tt h ec u r r e n tc u s t o mo ft h eu s e rm o r e a c c u r a t e l y a l s ob yu s i n gt h en e wc o n c e p t i o no ft h eb a s eo fw e bc o m p o n e n t s ,t h e p e r f o r m a n c eo fc o m b i n a t i o nf o rc u s t o m i z e dp r o d u c ti n f o r m a t i o nc a nb ei m p r o v e d w i t h o u th u r t i n gt h ea d a p t a b i l i t yo ft h em o d e l w i t ht h ep o p u l a r l yu s e dt e c h n i q u e o fj 2 e e ,t h em o d e li sp r o v e dt ob ef e a s i b l ei ni m p l e m e n t a t i o no fb o t hb u s i n e s s a n dt e c h n i q u e s k e y w o r d s e l e c t r o n i cc o m m e r c e ,a d a p t i v ew e b s i t e ,u s e ra c c e s sp a t t e r n ,b a s e o fw e bc o m p o n e n t s ,m v c ( m o d e l v i e w c o n t r o l l e r ) i i 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的 学位论文,是本人在导师的指导下,独立进行研究工作所取得的 成果。除文中已明确注明和引用的内容外,本论文不包含任何其 他个人或集体已经发表或撰写过的作品及成果的内容。论文为本 人亲自撰写,我对所写的内容负责,并完全意识到本声明的法律 结果由本人承担。 学位论文作者签名:钧孑之欠 日期:砂n 7 年fz 月日 东华人学学位论文版权使用授权书 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅或借阅。本人授权东华大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本版权书。 不保密 东华大学管理学硕士学位论文 1 1 课题背景 第1 章绪论 随着信息时代的来临和信息技术的日益成熟,电子商务作为网络技术最 为活跃的应用领域,得到了长足的发展。越来越多的企业采用电子商务技术 在线销售产品或者服务,这种销售方式和销售理念的转变,一方面显著扩大 了企业的销售市场,另一方面由此带来的销售成本以及客户关系管理上的优 势也是传统销售方式无法比拟的。从消费者角度来说,通过电子商务提供的 网络购买方式,可以利用更优化的搜索模式,更准确的寻找到所需要的产品 信息,从而更好的满足用户的消费需求。 电子商务给企业和w e b 网络服务提供上带来了许多商机,但是随之出现 的网络信息泛滥则给用户带来了很多困扰。如何从纷乱复杂的网络中快速找 到自己需要的数据和信息,如何去掉网络不必要的信息干扰成了许多用户迫 切想解决的问题。相比传统形式下的面对面服务,网络服务因无法与用户进 行正面的沟通很容易造成服务缺乏个性化的问题,这为w e b 站点服务向更深 层次发展增设了一大障碍1 2 j 。面向新世纪发展需要的可持续发展的w e b 站点 必须为用户解决这些问题。及时发现和预测不同用户在使用w e b 站点时的问 题,并相应调整w e b 站点的内容、结构和表现形式来解决相关问题,是自适 应网站研究的主要目的。自适应站点能有效发现潜在用户和吸引原有用户, 为网络服务的持续发展提供有力的保障,因此自适应网站的研究与实现,已 经成为当前w 曲数据挖掘的研究热点1 3 j 。 1 2 电子商务自适应网站 电子商务起源于2 0 世纪7 0 年代末,其体现的开放性、全球性、地域性、 低成本和高效率等内在特征,在符合商业经济内在要求的同时,还使其超越 东华大学管理学硕士学位论文 了作为一种新的贸易形式所具有的价值,并对传统的贸易方式带来了冲击。 1 2 1 电子商务定义 参考国内外众多文献,电子商务至今没有一个统一的定义。1 9 9 7 年1 1 月6 日至7 日在法国首都巴黎,国际商会举行的世界电子商务会议( t h e w o r l db u s i n e s sa g e n d af o re l e c t r o n i c ) 上给出了关于电子商务 较权威的概念阐述:电子商务( e l e c t r o n i cc o m m e r c e ) ,是指对整个 贸易活动实现电子化。从涵盖范围方面可以定义为:交易各方以电子交易方 式而不是通过当面交换或直接面谈方式进行的任何形式的商业交易;从技术 方面可以定义为:电子商务是一种多技术的集合体,包括交换数据( 如电子 数据交换、电子邮件) 、获得数据( 共享数据库、电子公告牌) 以及自动捕获 数据( 条形码) 等。 电子商务是一种基于信息技术的新型的价值实现形式,它利用简单,快 捷,低成本的电子通讯方式,买卖双方不谋面地进行各种商贸活动。电子商 务可以通过多种电子通讯方式来完成,现在人们所探讨的电子商务主要是以 e d i ( 电子数据交换) 和i n t e r n e t 来完成的。尤其是随着i n t e r n e t 技 术的日益成熟,电子商务真正的发展将是建立在i n t e r n e t 技术上的。所以 也有人把电子商务称为i c ( i n t e r n e tc o m m e r c e ) 1 4 j 。 电子商务可以分为企业( b u s i n e s s ) 对终端客户( c u s t o m e r ) 的电子商务( 即 b 2 c ) ,企业对企业的电子商务( b 2 b ) 及消费者与消费者( c 2 c ) 之间的电子商务 三种主要形式【4 1 。由于现代的电子商务模式建立在i n t e r n e t 技术上,电子 商务平台中的网站建设成为其中最为重要的部分。以电子商务b 2 c 模式为 例,在当今市场竞争日益剧烈情况,而网络技术带来的潜在市场无限广阔基 础上,企业如何领先于其他竞争对手,吸引更多消费者的关注,成为企业实 现其电子商务战略目标的首要任务。而网络的特点,决定了吸引消费者关注 最直接的手段就是建立最便利客户访问的门户网站。 东华大学管理学硕士学位论文 1 2 2 自适应网站 网络技术的不断发展,促进了电子商务模式和技术的不断进步,使得电 子商务的应用领域更加广泛,应用程度更加深入。i n t e r n e t 技术的出现, 把电子商务的范围和市场无限拓展。电子商务应用广泛化和复杂化的同时, 也带来了一些问题。在全球w e b 站点数目迅速增加的同时,各个w e b 站点 的信息量及其复杂度也在迅速上升;另一方面,站点的使用者对站点的要求 在不断的变化。这些因素都使站点的结构和内容变得越来越复杂,从而导致 管理变得更加困难【5 j 。更为严重的是,网站结构和信息的复杂化,使得用户 在查找有用信息和进行操作的时候,往往需要花费更多的时间和精力去完成。 客户是电子商务实现其目的最重要的资源,在这种情况下,如何吸引更多的 用户来访问,如何为用户更快速的提供他所感兴趣的信息,已经成为了电子 商务网站需要首先解决的问题。 作为电子商务平台面向用户的窗口,为了吸引用户和提供给用户便捷的 服务,好的电子商务网站需要认识和解决以下几个方面的问题: 1 )不同的用户身份,性别,年龄,偏好各有不同,访问网站的目的也 有差异,因此其关注的内容和偏爱的访问模式会有所不同; 2 )同一个用户在不同的时间段感兴趣的信息也可能不同; 3 )随着时间推移,网站内容不断增加,导致初始的结构和设计不一定 能符合当前目的和需求; 4 )电子商务网站实际运行中发挥的角色作用可能超出其设计范围,甚 至改变或违背了站点设计者的初衷。 作为电子商务网站的设计和运营者,总是希望网站的管理和维护尽可能 的简单,并且能满足更多地用户需求;从用户的角度来说,则希望网站的访 问更加便捷,能符合自己的兴趣爱好和访问需求。从而在站点管理者和访问 者之间形成了一种矛盾。 自适应网站技术正是在这种矛盾的基础上提出并发展起来的。自适应网 东华大学管理学硕士学位论文 站能根据用户偏好和访问时间以及点击模式的不同,动态调整网站的内容和 结构,提供给用户最便捷的访问模式,从而达到吸引用户的目的。 1 3m v c ( m o d e l - v i e w c o n t r o l l e r ) 模式 m v c ( m o d e l v i e w c o n t r o l l e r ) 是一种把用户接口和应用的其他部分分离 开来的标准化模式,该模式把应用分为三个部分:1 ) m o d e l 部分描述问题域, 没有任何用户接口元素:2 ) v i e w 部分负责可视化的用户接口层:3 ) c o n t r o l l e r 部分控制m o d e l 和v i e w 之间的交互1 6 】。m v c 模式是近年来根据w e b 开发结 构繁琐,技术性复杂的特点,新产生的一种开发模式,其主要特点是能够把 w e b 开发根据其独特的b s 架构有效的割裂开来,在保证其各个功能模块和 层次间通信便利的同时,使得每一个层次和模块所涉及的技术尽可能的简化, 且益于开发和维护。m v c 模式的提出,在理论上实现了业务逻辑与界面现实 的分离,对于w e b 的应用开发具有重要意义1 7 】。 1 4 论文主要研究内容 自适应网站的主要目的是根据用户的偏好和访问习惯,自动调整网站的 内容和结构,以期达到更便捷的满足用户访问要求的目的。目前的自适应网 站技术有一定的发展,并已经在e b a y 等电子商务网站的应用到一定程度, 但是总体来说,其自适应程度并不能达到电子商务自适应概念的要求,或者 是其网站架构以及技术实现过于复杂,缺乏清晰的理论指导。 本文引进在w e b 开发中证明是非常适用的m v c 设计模式,把该模式从 概念上引用到电子商务自适应网站的设计上,力求定义出一种清晰且易于实 现和扩展的自适应网站设计模式。尤其是考虑到自适应网站的设计和实现涵 盖了多方面的理论和技术,本文通过m v c 模式理念,把自适应网站的层次 和模块进行分割和定义,使得每个部分所需要关联的理论技术耦合性尽可能 降低,从而使相应领域的理论和技术能够更方便的引入到自适应网站的研究 东华大学管理学硕士学位论文 中来。 本文研究的主要内容分为以下几个部分:第一章绪论部分,介绍本文研 究的背景,并简单介绍研究关联的主要领域,在此基础上引出本文研究的主 要内容,目的和意义。第二章介绍电子商务和自适应网站的基本理论,包括 其概念分析,当前的研究状况和相应的分析和评价。第三章详细介绍m v c 模式,包括其概念、特点,尤其是针对m v c 理念的发展和应用情况,并结 合自适应网站的研究目的和实现手段,分析m v c 模式应用于自适应网站的 可行性。第四章结合m v c 理念和自适应网站的概念模型,在国内外研究基 础上,提出一种新的基于m v c 模式的自适应网站设计模型,并结合目前按 的自适应网站发展状况对该设计模型进行分析。第五章采用一定的技术选型, 对模型各个模块在数据结构和算法细节上讨论其实现,从技术细节角度论证 模型是切实可行的。最后对本文所作的工作进行总结,指出了目前研究中存 在不足,并提出了下一步需要探索和研究的问题,以及本领域未来的研究方 向。 东华大学管理学硕士学位论文 第2 章电子商务和自适应网站基本理论 2 1 电子商务自适应网站概念 在传统的网站模式下,网站提供给每个用户的信息是相同的,而每个人 的消费背景,偏好以及上网目的是不同的,这样的网站服务显然无法满足用 户的消费需求。当前经济形式下,如何为顾客提供更优质的服务以赢得客户 成为企业最为关注的问题。新经济时代,某企业在五年内就损失一半客户的 典型例子还历历在目( g o l d m i n es o f t w a r ec o r p o r a t i o n 。1 9 9 9 ) 。企业客户已经 成为企业的资产,而企业的竞争优势正是取决于其管理客户资产的能力1 8 j 。 网络化的竞争模式下,客户资源的竞争和网站的优化有着最直接的联系,而 更多基于网站之间竞争模型的研究表明,越是吸引客户多的网站越是更能够 继续吸引客户,规模经济在网络经济中表现得更为明显,这也足以说明网站 客户资源竞争的残酷1 9j 。在这种竞争压力下,企业开展电子商务面对的最直 接的问题就是,如何通过为客户提供个性化服务,以吸引更多的客户和提高 现有客户的忠诚度。为实现这个目标,首要的策略就是为顾客提供个性化网 站。 2 1 1 个性化网站 个性化网站的实现策略有多种,可适应网站和自适应网站是两种较典型 的策略。前者主要依靠网站用户的输入来进行个性化定制,后者一般依据用 户的动作和行为来进行定制。比较而言,前者是用户有意识的行为,后者的 定制则比较“含蓄l l 。 美国雅虎( h t t p :w w w y a h o o c o m ) ,亚马逊网上书店 ( h t t p :w w w a m a z o n , c o m ) 和微软门户网站( h t t p :w w w m s n c o m ) 等都是典型 的可适应网站。以雅虎为例,每个网站用户都可以在登陆( h t t p :m y y a h o o c o m ) 东华大学管理学硕士学位论文 后定制自己的页面( p r e s e n t a t i o n ) ,比如改变颜色,定制内容,更改布局,创 建新网页等。用户可以按照个人意愿和爱好进行方便的定制,以后每次登录 后显示的就是个性化页面。很显然,这种可适应性是由用户来控制和完成的。 然而,这种可适应性不但有限而且还存在不足:首先,这种个性化的任 务是由用户承担的。其次,用户进行页面定制时必须对网站有所了解,而定 制是先于浏览网站发生的【l 。这样就会影响用户访问的便利性。为提高服务 质量,就需要应用到自适应网站概念。 2 1 2 自适应网站概念 自适应网站使用用户访问模式的信息来改进网站的组织结构和显示页 面。通过监测用户的活动和碰到的困难,自适应网站从中提炼出用户类别, 常规访问模式,以及站点的一般性问题。自适应网站一般对以下几种情况非 常有效1 5 l : 1 ) 不同类型的访问者在网站中寻找的内容是不同的; 2 ) 网站设计的结构模型并不是所有访问者所期望的概念模型。当用户期 望的概念模型和网站结构有差异时,自适应网站能够认识到; 3 ) 虽然网站的结构通常是静态的,但是用户需要根据时间改变。自适应 网站能够对访问模式进行研究,从而决定什么时候把什么信息显示给用户。 自适应网站获得用户信息的途径主要有三个:1 ) 浏览网站留下的w e bl o g 等记录。2 ) 账户注册信息。3 ) 其他用户的行为( 比如同属一个兴趣组) 。有时网 站也使用问卷调查,测试等手段进行用户信息的收集。一般自适应网站工作 的简单示意图见图2 1 【10 1 。 东华大学管理学硕士学位论文 图2 1 自适应网站工作示意图 f i 9 2 1t h es k e t c hm a pa b o u tt h ew o r k i n go f a d a p t i v ew e bs i t e s 2 2 电子商务自适应网站研究状况 自适应网站主要采用两种方法:第一是动态定制( d y n a m i c c u s t o m i z a t i o n ) ,为满足单个用户的需求实时调整页面( p r e s e n t a t i o n ) ;第二是 优化( o p t i m i z a t i o n ) ,修改网站布局与内容使所有用户浏览起来更加方便和容 易l l o j 。 2 2 1 动态定制( d y n a m i cc u s t o m i z a t i o n ) 动态定锘1 ( d y n a m i cc u s t o m i z a t i o n ) 是为单个用户调整页面( p r e s e n t a t i o n ) 。 比较典型的动态定制模型是卡耐基梅隆大学研究开发的w e b w a t c h e r 。 w e b w a t c h e r 是一个网上导航的职能代理软件( a g e n t ) 。当用户点击一个指向 w e b w a t c h e r 的超级链接后便打开了导航功能,并且通过关键词提供个人兴趣 爱好。之后,w e b w a t c h e r 便可以为用户导航:根据以前获得的用户信息和用 户的点击提出一些建议。用户可以随时通过点击 i n f o r m a t i o nf o u n d ”或”i g i v eu p ”按钮来关闭w e b w a t c h e r 。其导航功能有:1 ) 突出显示认为对用户有 用的超级链接。2 ) 基于用户的兴趣,在当前网页上添加新的超级链接。3 ) 建 议当前网页的相关网页。4 ) 当用户指定的网页更新时及时通知用户j 。 w e b w a t c h e r 运行示意图如图2 2 所示: 东华大学管理学硕士学位论文 请求页面 图2 2w e b w a t c h e r 运行示意图 f i 9 2 2t h es k e t c hm a pa b o u tt h ew o r k i n go fw e b w a t c h 当用户打开w e b w a t c h e r 时,每次返回给用户一个页面前,w e b w a t c h e r 都要对其做三个修正:在网页上部插入m e n u b a r ( 或者c o m m a n d 1 i s t ) ,从 而提供给用户更多的功能。在m e n u b a r 的上方建议其他超级链接。根据 当前的搜索目标和用户信息,突出显示对用户有用的超级链接。 w e b w a t c h e r 的功能类似于一个代理服务器。它根据用户关键字提供的用 户兴趣信息,把与用户兴趣相关的内容或链接优化到更容易访问的位置。使 用该方法,在用户目标和兴趣明确的情况下,可以极大提高用户搜索的效率, 目前众多电子商务网站,例如e b a y 等,正是使用了与w e b w a t c h e r 类似的处 理机制,而其运营效果表明,此种机制具有很强的实效性。 但是对比自适应网站的目标,也可以看到w e b w a t c h e r 在自适应功能上存 在不足,具体表现为:w e b w a t c h e r 的自适应机制需要用户通过关键字提供 个人兴趣爱好,而不是自适应目标所期望的自动识别用户访问模式和偏好。 w e b w a t c h e r 更多关注于用户访问内容的相关性,例如当用户点击关注某种 商品时,w e b w a t c h e r 提供相关商品的内容或者链接给用户,这种推荐机制仅 从用户当前操作角度,而不是从用户访问模式的更高层次出发,因此不能真 东华大学管理学硕士学位论文 正把握用户的个性化模式,也就无法真正达到自适应的要求。 2 2 2 优化( o p t i m i z a t i o n ) 动态定制关注的焦点是个体,是为单个用户进行定制;而优化根据所有 用户的行为,力图改善网站的结构与内容,使得任何用户访问更加方便和容 易。常用的几种优化方法,包括升降级,突出显示,结合,聚类等。下面将 就这些方法简要阐述。 2 2 2 1 升级和降级( p r o m o t i o na n dd e m o t i o n ) 升级是指通过把链接放在靠近网页顶部的位置或把网页的介绍放在靠近 首页( f r o n tp a g e ) 的位置,以使得链接或网页更容易被看到;反之则是降级。 升级和降级都需要由一个阀值来控制1 0 】。下面以升级为例介绍其原理。 首先,以流行度( p o p u l a r i t y ) 表示网页被访问过的次数或链接被遍历过的 次数,即 p o p ( p ) = a c c e s s c o u n t ( p ) p o p ( o = t r a v e r s a l c o u n t ( l ) 。 仅以p o p u l a r i t y 做出升降级判断显然是不充分的,还必须考虑其易访问 性。下面用d i s t a n c e 矽衡量x 与】,之间的距离,表示】,与x 间隔的网页的 数量或链接与网页顶端之间的链接的数量,那么目标x 易访问性 ( a c c e s s i b i l i t y ) 的公式化表示为: 触似) 2 面五而赢1 丽 目标x 离首页( f r o n tp a g e ) 或页首( p a g et o p ) 愈近,愈容易被访问。初步的 数据表明,a c c e s s i b i l i t y 与距离之间存在指数级的负相关,所以上式使用距离 的平方。令三仪矽为一开关函数,当存在一个从网页x 指向网页】,的链接时 其值为t r u e ;那么网页x 中在这个链接上方的所有链接的个数用d e p t h 仪矽 表示;从网页x 到网页y 的最短路径间的网页用集合p 表示,尸= 矿,p 扛,p 那么距离表示为: 东华大学管理学硕士学位论文 当矽时d i s t a n c e ( x ,j ,) = d e p t h ( x ,y ) n - 1 否则d i s t a n c e ( x ,r ) - - p l + 口z d i s t a n c e ( p i ,尸+ 1 ) 1 = 1 上式中口为缩放常量,当一个目标的p o p u l a r i t y 较高而其a c c e s s i b i l i t y 较 低时,就应该升级。用p r o m o t i o n 作为目标x 能否升级的“资本”,其公式化 表示为: p ro ( x ) = p o p ( x ) a c c ( x ) 由于首页及每个网页的空间都是有限的,因此一个目标的升级同时意味 着另一个目标的降级。综合以上分析,目标石升级】,降级的充分必要条件为: ( p r o ( x ) p r o ( y ) ) n ( p r o ( x l g ) 其中7 是升降级定义的阀值。 升降级制度以网页被访问的频度和网页距离首页的最短路径深度设置调 整标准,当某个网页被访问或者被遍历较多次数,而其距离首页的最短路径 深度较大时,就需要把该网页相对于首页的访问深度降低。这种调整机制对 于整个网站的访问性能优化有很强实效性,但是对于单个用户的个性化要求 则贡献不大,甚至有可能当个别用户访问行为有别于群体用户时,网站结构 的调整反而会降低此用户的访问效率。 2 2 2 2 突出显示( h i g h l i g h t i n t ) ,结合( l i n k i n g ) 及聚类( c l u s t e r i n g ) 突出显示通过改变超级链接的字体,颜色以及使用图表等手段来吸引注 意力,它是指在不改变网站链接结构基础上,通过计算在当前网页中存在链 接的网页的访问或遍历频度,把访问频率高的部分网页链接突出显示。 结合指把先前不存在关联的网页通过超级链接联系起来,其依据是从 w e bl o g 中挖掘出的语义关联规则。 聚类是指把相关网页整合到一个新建网页作为一组从而方便访问,聚类 的依据有相似的用户名,处于网站的相同层次及用户的关联访问等。 上述三种方法都是目前研究中基础且较为常用的方法,当把这些方法同 个人用户访问模式分析结合起来时,可以利用其达到一定的自适应效果。 东华大学管理学硕士学位论文 构建自适应网站的方法有很多,上述介绍的只是一些较为基本的方法, 实际的自适应网站构建是一项复杂的工作,会涉及到多方面的知识和技能, 其中最主要的,也是目前相关文献研究最多的是用户访问模式分析领域。 2 2 3w e b 用户访问模式分析 为了提高网站的实效,我们需要寻找种有效的机制来完成以下任务1 2 】: 1 ) 该机制能够记录网站访问者的行为; 2 ) 该机制应该是一种经常性或者是定期的运作方式; 3 ) 该机制必须能分析出网站的不足,并且采用有效的方法解决或者减轻 这些不足。 我们可以通过分析用户访问模式来达到上述目的。 2 2 3 1w e b 用户访问模式 w e b 日志文件记录了每个w e b 用户在i n t e r n e t 上的访问行为,通过对w e b 日志文件的挖掘,可以发现w e b 用户在i n t e r n e t 上的行为模式47 1 ,这种用户 行为模式就是w e b 用户访问模式。通过对这些模式进行分析,其结果对于 w e b 网站具有重要的现实意义。 w e b 访问模式大致可以分为4 类:关联规则、序列模式、聚类模式和分 类模式【4 9 1 。 关联规则 关联规则挖掘事务内部的联系,它是指在事务数据库中两个事务a 和b 同时发生的规律,更确切的说,关联规则通过量化的数字,描述事务a 的出 现对事务b 的出现有多大影响。在电子商务网站中,有时需要了解用户的访 问行为,预测用户在访问该页面后,可能要访问的下一个页面,通过分析当 前页面与其他页面的关联程度,选取关联度最高的页面作为预测结果,可以 实现这一目标。关联规则的分析,可以帮助网站设计者改善站点的结构,也 可以通过预测用户的访问行为,实现页面预取技术,从而降低网络流量,减 东华大学管理学硕士学位论文 少用户下载时间。 序列模式 序列模式与关联规则相仿,序列模式挖掘事务之间的规律。序列模式将 事务之间的关联性与时间联系起来,即一些项跟随另一些项发生的事务模式。 在w e b 使用挖掘( w e bu s a g em i n i n g ) 中,w e b 序列模式种类较多,其中比较 重要的是访问路径模式。通过挖掘序列模式可以用来选择恰当的位置发布重 要的信息。 聚类模式 聚类模式是指已知一个数据项目集,将该集合划分为几个类集,使得类 内相似性最大,而类间相似性最小。聚类与分类不同,聚类是发现没有类别 标记数据的类目,因此是一种无监督归纳方法。在w e b 使用挖掘中主要的聚 类有两种,分别是用户聚类和页面聚类。用户聚类是将具有相似访问行为的 用户聚成一类,由此网络可以分类推送用户感兴趣的信息,为用户提供个性 化服务。页面聚类可以将有相关内容的页面聚成一类,优化网站结构,便于 用户访问。 分类模式 分类模式通过对具有类别标记的实例( 数据) 进行训练,得到一个能够预测 新实例类别的模型。在w e b 使用挖掘中,一个重要工作是将一个新用户分到 某一个用户类中,为其提供有针对性的在线服务,这种分配就可以通过分类 模式实现。 2 2 3 2w e b 挖掘 用户访问模式分析的相关方法很多,其中最主要的是应用数据挖掘( d a t a m i n i n g ) 尤其是w e b 数据挖掘技术,对用户访问日志等进行分析。众多文献 针对该领域进行专题研究,并给出了很多卓有成效的算法。下面将就w e b 数 据挖掘技术进行详细介绍。 1 ) 数据挖掘和w e b 挖掘 东华大学管理学硕士学位论文 随着计算机应用及i n t e m e t 的日益普及,世界上的数据正以惊人的速度增 长。数据挖掘正是解决“丰富的数据与贫乏的知识 问题的有效手段,它就 是从数据集中识别出有效的,新颖的,潜在有用的,以及最终可理解的模式 的非平凡手段i l 引。数据挖掘集数据收集,数据清洁,降维,规则归纳,模式 识别,数据结果分析及评估,可视化输入等多种过程于一身,是统计学,计 算机科学,模式识别,人工智能,机器学习及其它学科结合的产物【1 4 】【1 5 1 。 w e b 挖掘建立在数据挖掘理论的基础之上,是针对w e b 页面内容,站点 拓扑结构,用户访问信息,用户注册信息以及电子商务交易信息等在内的各 种数据,应用数据挖掘方法以发现有用知识的过程,即w e b 挖掘就是从万维 网上挖掘有趣的,潜在的,有用模式及隐藏信息的过程。它可以帮助人们从 万维网中发现知识,改进站点设计,提供个性化服务。 w e b 上的信息不同于数据库,数据库有规范的数据结构,而w e b 上包括 文本,图片,v e d i o 等多种信息,它们是半结构化的。因此w e b 上的挖掘需 要用到不同于常规的数据库开采的很多技术【l6 1 。 2 ) w e b 挖掘的分类 根据挖掘对象的不同大致可分为三个方面的挖掘研究:w e b 内容挖掘 ( w e bc o n t e n tm i n i n g ) ,w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 和w e b 使用记录挖 掘( w e bu s a g em i n i n g ) t 17 1 。w 曲挖掘的分类见图2 3 1 1 8 】: 图2 - 3w e b 挖掘分类 f i g2 - 3c l a s s i f i c a t i o no fw e bm i n i n g 东华大学管理学硕士学位论文 w e b 内容挖掘:是指挖掘i n t e r n e t 的页面和后台交易数据库,即从文 档内容或其描述中抽取知识的过程。 w e b 结构挖掘:是对w e b 文档的连接结构进行研究,揭示蕴涵在这 些文档结构中的有用模式,处理的数据是w e b 结构数据。 w e b 使用挖掘:是通过s e r v e rl o g 日志获取的知识预测用户浏览行文 的技术。通常s e r v e rl o g 日志具有很好的结构,每当用户访问w e b 站点时,所访问的页面,时间,用户i d 等信息,在s e r v e rl o g 日志 中都有相应的记录,因而对其进行挖掘是切实可行的,也是很有意义 的。 3 ) w e b 挖掘的特点 面向w e b 的数据挖掘是一项复杂的技术,比面向单个数据仓库的数据挖 掘要复杂得多。因为传统数据库中的数据是结构化的,而i n t e r n e t 上的数据 最大特点是半结构化的,这就决定了面向i n t e r n e t 的数据挖掘将是一个颇具 挑战的课题。 所谓半结构化是相对于结构化和非结构化而言的。例如传统数据库中的 数据具有清晰的结构,遵循一定的数据模型,我们称之为完全结构化的数据, 许多多媒体数据( 比如声音,图像等的数据流) 几乎是完全无结构的,被称为 非结构化数据。但是在i n t e m e t 上存在的数据既不是完全结构化的,也不是 完全非结构化的,同时具有某些结构化与非结构化的特征,因为它的页面也 具有一定的描述层次,存在一定的结构,所以我们将它称为半结构化的数据 f 1 9 】 o w e b 使用挖掘由于挖掘对象是s e r v e rl o g 日志,具有良好的结构,更方 便被使用,因此其挖掘方式和算法在w e b 挖掘以及自适应网站构建中被广泛 使用。 2 2 3 3w e b 挖掘方法和相关技术 w e b 挖掘方法有很多,根据挖掘对象的不同,通常有不同的挖掘模式。 东华大学管理学硕士学位论文 下面将就上述三种w e b 挖掘分类,介绍国内外相应的挖掘方法研究成果。 1 ) w e b 内容挖掘 w e b 内容挖掘处理的对象是w e b 页面的内容。通常情况下页面内容是属 于非结构化文本,而现今大量的挖掘工具其面向对象都是数据库等结构化对 象,因此如何把非结构化文本转化为结构化文本,就成为w e b 内容挖掘的首 要任务。信息提取( i n f o r m a t i o ne x t r a c t i o n ) 技术可以解决这个问题。 信息提取( i e ) 是一种浅显的文本理解形式,它在自然语言的文档中查找出 特定的数据片断,把非结构化的文本转化成结构化的数据库存储。信息提取 的有效性主要有两个方面的指标:准确性和完整性【2 0 1 。准确性是指提取出的 信息必须是正确的,而完整性则是指w e b 数据中的信息要尽可能完全被提 取。在某种程度上,这两方面的指标存在着矛盾,为了同时提高两方面的性 能并尽可能的平衡,众多技术被应用在信息提取工作中。例如采用扩展的特 征集合以及引导形式的决策树学习方式可以得到高质量的信息提取效果【2 。 信息提取系统的实现也得到了广泛的研究,某些系统,诸如l i x t o t 2 2 j , r a p i e r l 2 0 1 等在某些领域得到了一定程度的检验和应用。 2 ) w e b 结构挖掘 挖掘w e b 结构的目的是发现页面的结构和w e b 的结构,在此基础上对页 面进行分类和聚类从而找到权威页面。有关这方面的研究提出了如下的方法。 一p a g e r a n k 方法( b r i na n dp a g e ,19 9 8 ) j 该方法基于一个有意思的发现,即权威性( a u t h o r i t y ) 可由w e b 页面链接来 反映,w 曲不仅由页面组成,而且还包括了从一个页面指向另一个页面的超 链接,超链接包含了大量人类潜在的语义。大量的w e b 链接信息提供了丰富 的关于w e b 内容相关性,质量和结构方面的信息,。 基于以上发现,一种权威页面识别算法被提出。该算法把w e b 用一个有 向图表示为g = ( 矿,e ) ,v 是页面的集合,e 是页面之间的超链接集合。页面 抽象为图中的顶点,而页面之间的超链接抽象为图中的有向边。顶点的入边 东华大学管理学硕士学位论文 表示对矿的引用,出边表示v 引用了其它的页面。w e b 页面之间的超链接揭 示了w e b 结构。超链接可以用来计算页面的r a n k i n gs c o r e ,通过超链接可以 将一个页面的r a n k i n gs c o r e 传递到相邻的页面。 p a g e r a n k 的基本思想是:一个页面被多次引用,则这个页面很可能是重 要的;一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面 很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面。 p a g e r a n k 的工作就是通过算法计算每个页面的重要性,然后进行排名。 _ h u b a u t h o r i t y 方法( k l e i nb e r g ,19 9 8 ) 2 4 】 h u b a u t h o r i t y 方法同样是计算网页的权威性( a u t h o r i t y ) 。研究分析发现, w e b 链接结构与传统的信息传媒方式例如杂志等不同。首先,不是每一个超 链接都具有注解性,有些链接是为了其它目的而创建的,例如为了导航或为 了付费广告。总体上,若大部分超链接具有注解功能,就可以用于权威判断。 其次,基于商业或竞争的考虑,很少有w e b 页面会指向其竞争领域的权威页 面。第三,权威页面很少具有特别的描述,例如y a h o o 主页面不会明确给出 “w e b 搜索引擎之类的自描述信息”。 由于w e b 链接结构存在上述局限性,一种重要的w 曲页面h u b 页面的概 念被提出来。一个h u b 是指一个或多个w e b 页面,它提供了指向权威页面的 链接集合。通常好的h u b 指向许
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年物资储备仓库安全员招聘考试重点解析
- 甲状腺肿课件
- 脑干损伤护理查房
- 黑龙江省哈尔滨市联考2024-2025学年高二下学期7月期末教学质量检测物理试题(含答案)
- 中班动画城教学课件
- 用橡皮筋作动力课件
- 急性肾功能衰竭钙磷紊乱护理查房
- 急性脊髓炎高位截瘫护理查房
- 生活常识应急知识培训课件
- 癫痫持续状态护理查房记录
- 证据目录范本
- 标准档案盒脊背(格式已设置好)
- 中式烹调师(高级技师考试资料)
- GB/T 21475-2008造船指示灯颜色
- 园林绿化工高级技师知识考试题库(附含答案)
- 安医大生殖医学课件04胚胎的培养
- 可下载打印的公司章程
- 关于推荐评审高级工程师专业技术职务的推荐意见报告
- Q∕GDW 10356-2020 三相智能电能表型式规范
- 教研工作手册
- CINV化疗相关呕吐课件
评论
0/150
提交评论