




已阅读5页,还剩65页未读, 继续免费阅读
(计算机应用技术专业论文)基于web聚类的个性化推荐服务应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
江苏大学硕士学位论文 摘要 随着互联网市场竞争的日益激烈,用户己成为网站的最大财富, 他们迫切希望用最简单、最快捷的方式获取最精确的信息,希望网站 能够根据用户的特点来推荐他们可能感兴趣但尚未阅读的内容。这就 要求网站信息服务改变过去那种对所有用户提供界面统一、内容相同 的服务方式,从“以站点为中心”向“以用户为中心”发展,即站点 不但要有针对所有用户共同感兴趣的信息和服务,更要有针对各个用 户的不同兴趣、爱好自动组织和调整的个性化服务。在这种情况下, 针对不同用户的需求,建立相应商品服务措施的个性化推荐服务技术 被越来越多的企业迅速地采用,个性化技术已成为电子商务领域中一 项迫切而重要的研究课题,个性化推荐技术的研究将具有较高的学术 价值和应用前景。 论文总结了个性化推荐领域中w e b 聚类算法的国内外研究现状, 分析了已有算法的优缺点。针对k m e a n s 聚类算法对初始参数敏感的 问题,利用竞争凝聚方法自动获得最佳聚类数和相应的初始聚类中心。 针对c o b w e b 聚类算法在利用大数据集上构建分类树时的数据偏斜和 对模糊属性数据聚类上的不足,结合模糊概念格和低偏差模糊概率效 用,提出一种集成模糊逻辑和低偏差性的f c o b w e b 算法。本文采用理 论分析和模拟实验相结合的方法展开研究,其主要研究内容如下: 1 总结了个性化推荐中w e b 聚类分析技术的研究现状,介绍了两 种常用的聚类算法和w e b 数据预处理的流程,阐述了w e b 站点拓扑结 构和动态链接结构的提取方法。 2 提出了一种基于k - m e a n s 的用户聚类算法c a k p s 。该方法融合 用户访问时间、点击次数、访问顺序三大因素建立访问矩阵,结合页 江苏大学硕士学位论文 面关联度和绝对值倒数法提出用户相似度公式,建立用户相似矩阵。 3 提出了一种基于模糊概念格和c o b w e b 的页面聚类算法 f c o b w e b 。该算法融合w e b 访问日志和w e b 站点结构,在模糊形式 背景下建立页面模糊概念格,利用改进的低偏差模糊概率效用构建概 念分层,利用f c o b w e b 算法自动生成本体的概念表示和关系,并用本 体来描述页面聚类集。 4 设计并实现了一个基于w e b 聚类的个性化推荐系统p r w c l 。该 系统包括离线数据预处理、用户和页面聚类集提取以及在线个性化推 荐等。 关键词:个性化推荐,日志挖掘,用户聚类,页面聚类,竞争凝聚, 模糊概念格,本体,w e b 数据 江苏大学硕士学位论文 a b s t r a c t w i t l lt h ei n c r e a s i n g l yf i e r c ec o m p e t i t i o no ft h ei n t e r n e tm a r k e t ,t h eu s e r sh a s b e c o m et h eg r a n d e s tf o r t u n eo ft h ew e b s i t e s ,t h e s ei n t e r n e tu s e r su r g e n t l yd e s i r e t oo b t a i nt h em o s ta c c u r a t ei n f o r m a t i o nw i t ht h es i m p l e s ta n dq u i c k e s tm e t h o d 1 i l e yh o p et h ew e b s i t ec a nr e c o m m e n dt h ec o n t e n tw h i c ht h e yf e e li n t e r e s ta b o u t , b u th a v en o tb r o w s e da c c o r d i n gt ot h ec h a r a c t e r i s t i c so fi n t e r a c tu s e r s t h en e e d o fr e c o m m e n d a t i o nw i l le f f e c tt h em e t h o do fi n f o r m a t i o ns e r v i c e f i r s t l y , i tw i l l f o r c ew e b s f f e st oc h a n g et h eo l dm e t h o dt h a tp r o v i d e sa l lu s e r sw i t hu n i f i e d i n t e r f a c ea n dt h es a m ec o n t e n t s s e c o n d l y , i tw i l lm a k et h em e t h o dt h a tf o c u s e s o ns c d ( w e b s i t ec e n t e r e dd e s i g n ) b er e p l a c e dw i t ht h a tf o c u s e so nu c d ( u s e r c e n t e r e dd e s i g n ) ,t h a ti st os a y , t h ew e b s i t e ss h o u l dn o to n l yh a v ei n f o r m a t i o n a n ds e r v i c ew h i c ha i ma ta l lu s e r s c o m m o ni n t e r e s t ,b u ta l s ob ea b l et oo r g a n i z e a n da d j u s tt h ei n f o r m a t i o na n ds e r v i c ea u t o m a t i c a l l ya c c o r d i n gt oe v e r yu s e r s p e r s o n a l i z e d c h a r a c t e r i s t i ca n d i n t e r e s t t h e r e f o r e ,t h et e c h n o l o g y o f p e r s o n a l i z e dr e c o m m e n d a t i o ns e r v i c et h a te s t a b l i s hc o r r e s p o n d i n gm e a s u r e st o d e v e l o pc o m m o d i t ys e r v i c ea c c o r d i n gt ot h eu s e r s d i f f e r e n td e m a n d si sq u i c k l y u s e db ym o r ea n dm o r ee n t e r p r i s e s s ot h ep e r s o n a l i z e dr e c o m m e n d a t i o n t e c h n o l o g yh a sb e c o m e a l lu r g e n ta n di m p o r t a n tr e s e a r c hs u b j e c t w h a ti sm o r e , t h et e c h n o l o g yw i l lh a v eh i g h e ra c a d e m i cv a l u ea n da p p l i c a t i o np r o s p e c t f i r s t l y , t h i sp a p e rs u m m a r i z e dt h ep r e s e n tr e s e a r c hs t a t u sa th o m ea n d a b r o a d o fw e bc l u s t e r i n gt e c h n i c a lo np e r s o n a l i z e dr e c o m m e n d a t i o na n d a n a l y z e dt h ea d v a n t a g e sa n dd i s a d v a n t a g e so f t h e s ea l g o r i t h m s s e c o n d l y ,w eg o t t h eb e s tc l u s t e rn u m b e ra n dt h ec o r r e s p o n d i n gc l u s t e rc e n t e r sa u t o m a t i c a l l yb y c o m p e t i t i v ea g g l o m e r a t i o nw h i c hc a no v e r c o m et h ed r a w b a c k so fk m e a n s a l g o r i t h m t h i r d l y ,w ep u tf o r w a r daf u z z y c o n c e p t u a lc l u s t e r i n ga l g o r i t h m f c o b w e bc o m b i n i n gt h ef u z z yc o n c e p tl a t t i c ea n dl o wb i a sf u z z yp r o b a b i l i t y u t i l i t y ,t h i sa l g o r i t h mc a no v e r c o m et h ed r a w b a c k so fc o b w e ba l g o r i t h m t h e r e s e a r c hi sc a r r i e do u tb yc o m b i n gt h e o r ya n a l y s i sa n ds i m u l a t i o ne x p e r i m e n t s t h em a i nc o n t e n ti nt h ep a p e ri s 嬲f o l l o w s : n l 江苏大学硕士学位论文 1 t h er e s e a r c hs t a t u so fw e b c l u s t e r i n g t e c h n i c a lo n p e r s o n a l i z e d r e c o m m e n d a t i o nw a sr e s e a r c h e d c o m p l e t e l y f i r s t l y , t w oc o m m o nc l u s t e r i n g a l g o r i t h m sa n dt h ed e t a i l e dp r o c e s so fw e bd a t ap r e p r o c e s s i n gw e r ei n t r o d u c e d t h e n ,t h i sp a p e re x p o u n d st h em e t h o d so fo b t a i n i n gt h ew e b s i t e ss t a t i ct o p o l o g y f r o mw e b p a g e sa n dd y n a m i cl i n ks t r u c t u r ef r o mw e bl o gr e c o r d s 2 au s e rc l u s t e r i n ga l g o r i t h mc a k p sb a s e do nk m e a n s a l g o r i t h mw a s p r o p o s e d f i r s t l y , au s e rv i s i tm a t r i xw a se s t a b l i s h e di n t e g r a t i n go ft h et h r e ev i s i t f a c t o r s :a c c e s s s e q u e n c e ,b r o w s i n gt i m e ,c l i c kf r e q u e n c y - s e c o n d l y , an e w d i s t a n c em e t h o dt h a tc a p t u r e st h es t r u c t u r eo faw e bs i t ei sd e f i n e dt om e a s u r et h e s i m i l a r i t yb e t w e e nt w ou s e r s 3 ap a g ec l u s t e r i n ga l g o r i t h mf c o b w e bb a s e do nc o b w e ba n df u z z y c o n c e p tl a t t i c ew a sp r o p o s e d f i r s t l y , ap a g ef u z z yc o n c e p tl a t t i c ev i s i tm a t r i x w a se s t a b l i s h e di n t e g r a t i n go ft h ew e b l o gr e c o r d sa n dw e b s i t es t r u c t u r ei nf u z z y c o n t e x t s s e c o n d l y , c o n c e p th i e r a r c h yw a sc o n s t r u c t e db yt h el o wb i a sf u z z y p r o b a b i l i t yu t i l i t y t h e n ,t h ec o n c e p tr e p r e s e n t a t i o na n dr e l a t i o n s h i po f o n t o l o g y w a sa u t o m a t i c a l l yg e n e r a t e d ,a n dp a g e s c l u s t e r i n gs e t sw a sd e s c r i b eb yt h e o n t o l o g y 4 ap e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mp r w c lw a s d e s i g n e da n d i m p l e m e n t e db a s e do nw e bc l u s t e r i n g t h es y s t e mi sc o m p o s e do fo f f i i n em o d u l e i n c l u d i n g d a t a p r e p a r a t i o n a n de x t r a c t i o no f c l u s t e r i n gs e t s a n do n l i n e p e r s o n a l i z e dr e c o m m e n d a t i o ne n g i n ee t c k e yw o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ,l o gm i n i n g ,u s e rc l u s t e r i n g , p a g ec l u s t e r i n g ,c o m p e t i t i v ea g g l o m e r a t i o n ,f u z z yc o n c e p t l a t t i c e ,o n t o l o g y , w e bd a t a i v 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的 规定,同意学校保留并向国家有关部门或机构送交论文的复印 件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以 将本学位论文的全部内容或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位 论文。 本学位论文属于 保密口在年解密后适用本授权书。 不保密函。 学雠文储躲李巍指剥币躲矜 入灼莎年f 二月心日九叼子年r 2 月,j 日 江苏大学学位论文独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导 下,独立进行研究工作所取得的成果。除文中已经注明引用的 内容以外,本论文不包含任何其他个人或集体已经发表或撰写 过的作品成果。对本文的研究做出重要贡献的个人和集体,均 已在文中以明确方式标明。本人完全意识到本声明的法律结果 由本人承担。 学位论文作者签名: 掺巍 日期:加了年ik 月,j 日 江苏大学硕士研究生毕业论文 1 1 研究背景与现实意义 第一章绪论 新经济时代互联网市场将以快速和个性化的服务取胜,随着互联网市场竞争 的日益激烈,用户己成为网站的最大财富,个性化、专门化和特殊化在客户服务 中占据着越来越重要的位置。如何通过网络向用户提供有效的信息服务己逐渐成 为各运营商和用户日益关注的问题之一。一方面,从站点经营方来说,如何吸引 新用户并防止旧用户的流失成了日益突出的问题,他们需要采取新的方法来解决 该问题,如经营方可以通过自适应站点设计或个性化推荐服务,根据用户的访问 兴趣、访问频度、访问时间动态地调整页面结构,使得网页内容能够尽可能地根 据用户的浏览兴趣自动进行调整,并开展有针对性的电子商务活动,让用户感觉 到网站是为自己量身定制的。另一方面,从用户方来说,他们可能对站点中互不 关联或相距甚远的多个信息点( 网页) 感兴趣,这种情况下一个固定不变的网站 结构往往会使人感到不便。用户迫切希望用最简单、最快捷的方式获取最精确的 信息,希望网站能够根据各用户的特点来推荐他们可能感兴趣但尚未阅读的内 容。这就要求网站信息服务改变过去那种对所有用户提供统一界面、同样内容的 方式,从以“站点为中心”向以“用户为中心 发展,即站点不但要有针对所有 用户共同感兴趣的信息和服务,更要有针对各个用户的不同兴趣、爱好自动组织 和调整的个性化服务。在这种情况下,针对不同用户的需求,建立相应商品服务 措旌的个性化推荐服务技术被越来越多的企业迅速地采用【1 】,个性化技术成为电 子商务领域中一项迫切而重要的研究课题。在未来的i n t e r n e t 发展中,面向个人消 费者的电子商务网站有没有智能w e b 个性化推荐服务,将决定网站能否继续在r i 行业中的生存和可持续发展。 近几年来,很多著名大学和研究机构都展开了个性化技术的相关研究工作。 其中比较著名的有k a n s a s 大学的s u s a ng a n c h 教授,以她为首的研究组指出用 户个性化信息的表达是个性化服务的关键,使用o n t o l o g y 来描述用户个性化信 息。阳小华【1 4 】的思路来自“走的人多了,便有了路”的现实。根据所记录的用户 浏览过程,通过截取常用路径来进行个性化推荐。这种方式的个性化推荐避免了 用户手工定制( 例如回答问题之类) 的麻烦,但推荐的链接往往与当前浏览路径 1 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 距离较近,不能做到大跨度跳转的推荐,实用性也因此受到了质疑。j o s h ia 等 人【6 1 和y a n t 【8 1 在站点用户访问日志的基础上建立了一个推荐系统,较早的开始 了w e b 日志挖掘技术在个性化应用中的研究。该系统的离线部分以用户浏览行 为为粒度对日志文件进行聚类分析,并为子聚类寻找特征页面集。在线部分为用 户生成动态推荐链接集,由此提供个性化的服务。该方法仅仅考虑用户的使用特 性,没有被访问项则得不到推荐,同时随着用户访问长度的增加,可供推荐的元 素会趋于零。b a g l i o n i m 【1 2 】建立了w e b p e r s o n a l i z e r 系统,该系统聚类用户访问会 话,提取群体使用特征,然后结合访问用户和各群体使用特征间的匹配度和群体 的行为取向为用户提供网页推荐。系统中用户聚类的个数是人为事先给定的,不 能随着用户的访问特性进行动态调整。m o b a s h e r b 1 6 1 同时考虑网页的使用情况和 内容语义生成频繁项集,为用户提供网页推荐,该方法同样不能实现大跨度的页 面推荐。国内浙江大学的余轶军博士p7 l 结合用户聚类和页面聚类利用关联规则分 析方法生成个性化网页推荐集,用户聚类和页面聚类的结合增加了推荐集的可用 性和扩展性,提高了网页推荐的精度,但是基于关联规则生成的推荐集的个性化 程序较低。 综上所述,在个性化推荐领域国内外研究人员做了大量研究,并已取得了一 些成果,然而,现有的推荐系统需要用户的参与,用户必须反馈明确的要求方可 为其提供个性化服务,同时,大多数系统仅简单提供与用户访问历史相关的u r h 地址列表,并不做进一步深入的处理,而这些u r l s 指向的页面存在大量跟用户 兴趣不相关的信息,造成推荐系统不但没有达到对个性化访问的支持,反而给用 户访问设置了障碍。因而,如何充分利用相关技术,如w e b 聚类技术,获得用 户个性化需求,并提供给用户个性化的内容项己成为个性化推荐研究中一个备受 关注的问题。 本文研究的经济价值和社会价值主要表现在以下两个方面。 ( 1 ) 对电子商务网站 提供个性化服务已经成为当今网站提高本身竞争力的重要手段。充分利用 w e b 日志数据,对发现用户浏览模式、分析站点使用情况、为电子商务网站管理 层提供决策支持等均具有十分重要的意义。r h o f 等人【2 】对2 5 家商业网站进行调 查,其报告称通过提供个性化服务这些网站新增了4 7 的客户和5 2 的营业额。 ( 2 ) 对访问者 2 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 通过w e b 日志挖掘技术实现个性化推荐,能够对每个用户按照其访问行为, 频度,内容等进行用户建模,提取出每个用户或每类用户的特征,给每个用户个 性化的界面,提供个性化推荐以及进行个性化推销。同时,能够有效提高w e b 站点的自适应能力,进而提供高效访问,吸引新访问者和保持老访问者。另外, 根据这些用户留下的信息,确定用户所在的区域,所属的行业、阶层以及群体用 户的偏好,对群体用户提供相应的商业智能,进行群体推荐以及开展有针对性的 电子商务活动。更重要的是,根据w e b 挖掘结果,改进页面的结构设计,防止 访问者在大型网站中的迷航。 根据w e b 聚类所采集数据的来源不同,w e b 聚类可以分为用户聚类、页面 聚类、语义聚类、文档聚类等,本文仅考虑用户聚类和页面聚类。 1 2 国内外研究现状 k y o u n g - j a ek i m 等【1 9 1 采用基本的划分聚类算法k - m e a n s 聚类在线客户行为, 提出用遗传算法( g e n e t i ca l g o r i t h m - - - g a ) 来解决聚类中的全局优化问题的g a k m e a n s 算法,通过g a 为k - m e a n s 提供最优的聚类数,然而初始聚类中心仍需 随机选取。 0 n a s r a o u i 2 0 给出了用户会话间的相似度,考虑了网站的组织结构,提出了 一种新的聚类算法,充分利用分层聚类和划分聚类的优点,将数据集划分成很多 小的初始分类,通过最小化目标函数对数据展开竞争,最终得到有最佳聚类数的 聚类集,但是该算法没有考虑到用户对站点页面的点击次数和浏览顺序。 m s h e p p e r d 等把网站的拓扑结构看成一个有向图,以用户访问的站点内 的u r l 序列做为用户属性,以一个页面被所有用户访问的序列做为页面属性, 提出了一种基于向量分析和模糊理论的用户聚类和页面聚类算法,使算法准确性 得到大幅度的提高。 王实等【1 7 】认为用户对w e b 站点的兴趣程度可以通过用户对w e b 站点页面的 浏览顺序表现出来,为了得到这种根据用户访问兴趣而对用户集的划分,提出了 一种k - p a t h s 路径分割聚类方法,对w e b 站点的访问日志进行事务识别,根据群 体用户对w e b 站点的访问顺序进行路径聚类,最终得出反映全体用户中具有相 似的访问兴趣的用户聚类集。k - p a t h s 注重考虑了用户访问路径所代表的用户访 问兴趣,根据用户的访问兴趣和路径的关系定义了新的相似性测量手段和聚类中 3 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 心,它虽然采用路径的相似性进行聚类,但仍然缺乏对访问点击次数、访问时间 和访问顺序三大因素的有效融合。k - p a t h s 算法建立在k - m e a n s 算法之上,属于 划分聚类方法,它的聚类原理等同于k - m e a n s 算法,聚类过程中同样存在经常中 止于局部最优解、预先指定聚类数和多次确定聚类中心等问题。 早期的w e b 页面聚类主要采用基于内容的方法。目前以采用基于用户行为 分析的方法为主,而这种方法过于依赖使用数据,具有一定的局限性。p e r k o w i t z 等【2 9 1 首次提出页面聚类算法p a g e g a t h e r 算法,该算法是页面聚类算法中的典型 算法,是基于用户行为分析的方法中最有竞争力的一种。p a g e g a t h e r 算法以w e b 服务器访问日志为输入,使用聚集算法在w e b 站点上寻找那些具有访问相关性 却没有相互间可达链接的页面集并为各页面集创建新的链接页面。p a g e g a t h e r 算 法认为:每一个聚类都对应着用户为某一目的浏览网站时,内容上相关的网页的 集合。它基于一个合理的假设访问目的单一性假设。在进一步的工作中 p e r k o w i t z 等 3 5 , 3 6 , 3 刀将统计性的聚类方法和页面的逻辑信息融合了起来,提出了 s c m l 算法。s c m l 在对页面进行统计聚类的基础上,进一步进行概念紧缩,以 期发现紧密一致的页面链接集,并依此调整索引页面。但p a g e g a t h e r 算法是静 态的,投入到电信级的网站时还会遇到很多问题,主要是存在输入数据量过大, 时间复杂度高与需要海量训练集之间的矛盾。国内清华大学的王启新等人【3 1 , 3 4 1 对p e r k o w i t z 等人的工作进行了总结和深入研究,并提出了p a g e g a t h e r 算法的两 种改进算法及相关定理。 j i a n h a nz h u 等 2 2 1 于2 0 0 4 年提出了一种p a g e c l u s t e r 聚类算法,p a g e c l u s t e r 算法比p a g e g a t h e r 算法更合理:它构建概念链接分层,在每个概念水平上聚 类概念相关w e b 页面,充分考虑了网站的结构和层次信息;它基于出入链接 间的相似度聚类页面;该算法所产生的聚类集内已经是概念相关的,只需进一 步合成每个聚类的标题。但是该算法仅仅考虑页面间的链接信息。 新的融入w e b 语义知识的个性化推荐方法是当前研究的i j 沿。这种方法仍 然以w e b 使用挖掘为基础,挖掘过程中整合站点结构语义层次知识,包括知识 库的建立、知识增强型模式的发现和领域本体( d o m a mo n t o l o g y ) 的获得【6 8 1 。 目前支持使用者手动建模本体的软体有p r o t 6 9 62 0 0 0 和o i l e d 等,但是人工构建 费时费力,而且容易出错,所以自动构建本体为一重要议题。从概念层自动生成 本体需要具有很多的相关技术,如:结合关联规则的自然语言处理结合关联规则 4 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 ( n a t u r a ll a n g u a g ep r o c e s s i n gc o m b i n e dw i t ha s s o c i a t i o nr u l em i n i n g ) 、统计模型 ( s t a t i s t i c a lm o d e l i n g ) 、聚类( c l u s t e r i n g ) ,对本体学习而言,聚类是其中效果较佳 的技术。目前较常使用的聚类技术有c o b w e b 算法,它能自动构建r d f 模式的 类层次。文献f 6 4 1 利用分层概念聚类算法c o b w e b 算法生成基于用户行为的本体, 用于s m a r tr a d i o 的在线音乐推荐。 针对现有w e b 用户聚类存在的问题,本文融合路径聚类和竞争凝聚思想, 提出了一种基于k - m e a n s 的用户聚类算法,该算法同时考虑反映用户兴趣的三大 因素,结合w e b 站点结构建立用户相似度公式,利用竞争凝聚思想自动确定最 佳初始聚类参数。针对现有w e b 页面聚类存在的问题,本文结合w e b 站点结构 和用户浏览行为,融入模糊分析理论,提出了一种基于c o b w e b 的页面聚类算法, 通过概念聚类生成页面聚类集,自动生成本体并利用本体的形式对页面聚类集进 行描述。实验结果表明这两种改进方法是可行和有效的。 1 3 本文研究内容 本文主要提出了基于k - m e a n s 算法的用户聚类算法和基于c o b w e b 算法的页 面聚类算法,设计并实现了一个基于w e b 聚类的个性化推荐系统,主要进行的 工作是: 1 w e b 数据预处理的研究与实现。对w e b 日志的预处理技术进行深入的研 究,为聚类挖掘算法提供可靠的数据。同时,析取出w e b 站点的u r l 结构和链 接结构,用于更准确地进行页面聚类挖掘。 2 用户聚类研究与实现。在对用户聚类算法上,尤其是在对k - m e a n s 聚类 算法进行深入研究的基础上,针对该算法的不足进行了改进,利用改进的算法 c a k p s 对处理后的日志数据进行挖掘,生成用户聚类库。改进后的算法可以自 动确定最佳聚类参数,有较好的收敛性,同时用户聚类集间的差异性也更高。 3 页面聚类研究与实现。在对现有页面聚类算法上,尤其在对是c o b w e b 算法进行深入研究的基础上,对该算法进行了改进和扩充。该算法融合日志数据 和w e b 语义信息,如拓扑结构和链接结构,建立模糊概念格,并利用改进的 f c o b w e b 算法生成页面本体。实验表明改进后的算法具有更高的普遍性,聚类 优势更高。 4 初步实现一个个性化推荐系统。当用访问该网站时,系统根据用户当前 5 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 的访问行为,从模式库中搜索与之匹配的访问模式,利用推荐算法自动生成用户 可能感兴趣的推荐项,并将推荐项实时提供给用户。 1 4 本文组织结构 本文共分为六章,具体内容安排如下: 第一章介绍了课题的研究背景和意义、国内外研究现状及存在的问题,给 出论文的主要研究内容和论文结构。 第二章介绍了w e b 个性化技术和重点研究的两个聚类方法。给出w e b 日志 预处理的详细过程。 第三章提出了融合路径聚类和竞争凝聚思想的c a k p s 算法,并给出了在 真实数据集上的实验对比结果,产生用户聚类模式库。 第四章提出了一种集成模糊逻辑和低偏差性的f c o b w e b ,在页面模糊概念 格上自动学习w e b 语义,生成用本体表示的页面聚类模式库,并给出实验对比 结果。 第五章结合协同过滤推荐思想,实现了一个基于用户聚类和页面聚类模式 库的个性化推荐系统p r w c l 。 第六章总结全文,展望下一步工作。 6 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 第二章个性化推荐服务与w e b 聚类 本章首先介绍个性化推荐服务的方式和几种典型的技术,然后给出了w e b 聚类的流程,重点阐述w e b 数据预处理过程和两种典型的聚类算法。 2 1 个性化推荐服务 个性化推荐服务是指w e b 站点根据用户的浏览习惯和喜好,动态地改进站 点的信息组织方式和提供方式,以更好地为用户定制观看的内容或提供浏览建 议。具体地讲,就是网站为上网的每个用户提供一对一的服务和指导。个性化推 荐服务可以将商务网站的浏览者转变为购买者,提高商务网站的交叉销售能力, 同时提高客户对商务网站的忠诚度。 2 1 1 个性化推荐的服务方式 根据网站最终向用户提供个性化服务程度的不同,可以把个性化推荐的服务 方式大致分为定制服务、自适应站点以及推荐系统【2 羽。 ( 1 ) 定制服务( w e bc u s t o m i z a t i o ns e r v i c e ) w e b 服务器在通过与用户交互的过程中收集用户定制的信息,并根据这些信 息对用户请求的页面进行组织,使得页面的内容和风格能够符合用户的要求,将 该定制的页面作为请求结果返回给用户,如:m y y a h o o 网站和g o o g l e 的个性化 首页就提供这样的定制服务。在定制服务中,一方面,用户要通过显式地圈定他 所感兴趣的内容来完成定制页面的工作,这对用户来讲是个较大的负担。另一方 面,用户只有在很好地了解了站点,才能作出正确的选择。 ( 2 ) 自适应站点( a d a p t i v ew e b s i t e s ) 自适应站点通过观察用户的访问模式,自动改进站点的结构和表现形式,以 反映用户的兴趣所在。自适应站点首先通过对用户聚类,将访问者划分为不同类 型的用户,然后为每个类别的用户建立配置文件,并将之保存在w e b 服务器中。 当用户访问站点时,服务器判断当前用户属于哪个类,寻找该类相应的配置文件, 并将用户请求的页面经过变形后返回给用户。目前,自适应站点仍处于研究阶段, 有一些建立在小网站上的自适应站点。 ( 3 ) 推荐系统( r e c o m m e n d a t i o i ls y s t e m ) 7 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 推荐系统具有主动学习功能,是一种为了减少使用者在搜寻信息的过程中所 附加的额外成本而提出的一种信息过滤机制。当用户访问网站时,w e b 服务器根 据用户的喜好,自动向用户推荐可能感兴趣的内容,为用户导航。近年来,电子 商务的快速发展推动了推荐系统的发展,几乎所有大型的电子商务系统,如 a k r f l a z o n 、n e t f l i x ( 奈飞公司:美国最大的在线d v d 租赁商) 、e b a y 等,都不同 程度地使用了各种形式的推荐系统。而近来以“发现 为核心的网站正开始在互 联网业崭露头角,表2 1 列出目前常见的大型电子商务推荐系统,包括侧重于音 乐推荐的八宝盒,侧重于图书推荐的豆瓣等。今年9 月底淘宝网也推出了它的个 性化推荐产品“i 淘宝 。 表2 1 目前常见大型电子商务推荐系统 领域推荐系统 电子商务 a m a z o n 、n e t f l i x 、e b b a y 、a p p l e 、l e v i s 、s k i e u r o p e 、淘宝网、当当 网页 f a b ,f o x t r o t ,m e m o i r ,m e t i o r e w ,p r o f b u i l d e r ,q u l c ,q u i c k s t e p , 娱乐 c d n o w ,c o c o a ,r i n g o ,p a n d o r a ,m o v i e f i n d e r ,m o v i e l e n s ,r e e l c o m 新闻过滤 g r o u p l e n s 、p h o a k s 、p t a n g o e - m a i l 过滤t y p e s t r y 专门查找器e x p e r t i s er e c o m e r , r e f e r r a lw e b 2 1 2 个性化推荐服务系统界面的表现形式 推荐的自动化程度,个性化推荐可分为初级和高级两种方式6 3 1 。初级方式是 由系统在网页上提供选项( 如c h e c kb o x ) ,由用户通过选择对网页的形式和内 容进行定制。高级形式则是系统具有主动学习功能,通过概括和分析用户的行为, 自动地实现某种程度的个性化。一般情况下,个性化推荐系统具有以下7 种界面 的表现形式: ( 1 ) b r o w s i n g :客户提出对特定项的查询要求,根据查询要求返回高质量 的推荐界面。 ( 2 ) s i m i l a rr e m 根据客户购物篮中的商品和客户可能感兴趣的商品推荐 类似的商品。 ( 3 ) e m a i l :通过电子邮件的方式通知客户可能感兴趣的商品信息。 ( 4 ) t e x tc o m m e n t s :向客户提供其他客户对相应产品的评论信息。 ( 5 ) a v e r a g er a t i n g :向客户提供其他客户对相应产品的等级评价。 ( 6 ) t o p - n - 根据客户的喜好向客户推荐最可能吸引客户的n 件产品。 8 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 ( 7 ) o r d e r e ds e a r c hr e s u l t s :列出所有的搜索结果,并将搜索结果按照客户 的兴趣降序排列。 2 1 3 个性化推荐的服务技术 当前,支持个性化推荐服务的技术大致可以分为如下六种类型。 1 手工决策技术 手工决策技术是由w e b 站点管理员根据用户统计数、静态个性文件或会话历 史,制定若干规则,系统根据这些规则为特定的用户提供特定的内容及网页结构, 例如,意大利米兰理工大学开发的t o r r i 系统及其f i r e f l y 等著名系统。 2 基于兴趣模型的半自动化类型 典型的系统有卡内基梅隆大学的j o a c h i m s t 等人提出的w e b w a t c h e r t 5 1 。当 一个用户进入w e b w a t c h e r 所掌管的网站时,需要回答一些问题,指明自己对哪些 信息感兴趣;在离开网站时,又将回答另外一些问题,指出网站提供了哪些自己 想要的信息。用户感兴趣的每一个页面请求提交给w e b w a t c h e r 代理服务器,代理 服务器再通过监测用户对多个站点w e b 页面的浏览,利用互信息和m d l ( m i n i m u md e s c r i p h o nl e n g h ) 作为相似性比较手段,不断学习这些请求和浏览 记录,逐步建立起兴趣范畴和网页信息的映射关系。即建立一个函数:函数的参 数是用户的兴趣模型和当前浏览网页,返回值为对用户下一个所要浏览网页的预 测。 3 用户行为分析类型 主要通过对用户行为的学习( 归纳分析) ,建立用户的兴趣模型,对网站结 构或内容进行个性化调整,为用户进行个性化推荐。这种类型又包含对网页相关 性进行分析和对用户浏览行为进行分析两种。基于对网页相关性分析的个性化算 法有p a g e g a t h e r 算法、p a g e c l u s t e r 算法等,基于对用户浏览行为分析的典型方 法有j o s h i a 【6 1 、y a h t 【8 j 、b a g l i o n im 【1 2 1 和阳小华所提的方法。 4 协同过滤类型 在个性化推荐系统中,协同过滤( c o l l a b o r a t i v ef i l t e r i n g ) 方法是应用最早 和最成功的推荐技术,也是目前国内学者研究的重点之一。第一代的协同过滤技 术是基于用户的协同过滤技术,它具有自动性和持久性。该技术一般采用最邻近 原则,根据用户的历史喜好信息计算用户之间的距离,然后利用用户的最近邻居 9 计算机科学技术与通信工程学院 江苏大学硕士研究生毕业论文 对商品评价的加权平均值来预测该用户对特定商品的喜好程度,最后推荐系统根 据这一喜好程度来向用户进行推荐,并根据同类型其他用户对网页的评分确定对 该用户的推荐策略。网站完全根据同类型用户的评分进行推荐,而不用知道网页 的实际内容。但它有自身的局限性一冷启动”。即:一个内容只有已经被用户选 择后才有机会被推荐给其他用户。对于网站中新加入的内容,便很少有机会被用 户的“最近邻居”筛选进入推荐集。第二代的协同过滤技术是基于内容项( i t e m b a s e d ) 的协同过滤技术。与基于用户的技术不同的是,这种方法比较的是内容 项与内容项之间的相似度,和基于用户的推荐系统相比,基于内容项的推荐系统 最大的改进是更具有扩展性,对于通常的互联网应用来说,提供的内容项数量相 对较为稳定,在推荐的覆盖率( c o v e r a g e ) 上更胜一筹。比起用户,内容项之间 的相似性计算需要的计算量要少很多,从而大大降低了在线计算量,提高系统性 能。典型的此类系统有g r o u p l e n s t l l 】和a m a z o n 的售书网站一网站统计分析购 买了一本书的顾客往往还购买哪些其它书籍,并据此在介绍一本书的网页上进行 对其它书籍的推荐。 5 客户端个性化类型 与前面所述的方法不同,这种类型的系统将注意力集中到客户端,通过 a g e n t 等技术监控用户浏览行为,学习用户的兴趣,为用户滤取或搜集个性化 信息。典型的系统有l e t i z i a l 4 ,它是最早将w e b 挖掘技术引入个性化推荐的系 统之一。它通过b e s t - f i r s t 启
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024安全员考试题库试题及答案详解(名师系列)
- 2026届山东省临沂市九年级化学第一学期期中经典模拟试题含解析
- 腔镜甲状腺的护理查房
- 2026届山东省济宁市鲁桥镇第一中学化学九年级第一学期期中经典试题含解析
- 广东省普宁市2026届英语九上期末统考试题含解析
- 喷涂安全教育培训
- 湖北省襄阳市第三十四中学2026届九年级化学第一学期期中质量检测试题含解析
- 2026届辽宁省大连金普新区五校联考化学九上期末调研模拟试题含解析
- 2026届四川省乐至县化学九年级第一学期期中达标检测模拟试题含解析
- 2026届青海省西宁二十一中学化学九上期中达标测试试题含解析
- 河南省毕业年困难毕业生求职创业补贴申请表(人工审核用)
- 无人机专业介绍课件
- 第九讲 全面依法治国PPT习概论2023优化版教学课件
- 大班语言活动《失踪的鼻子》绘本故事早期阅读PPT课件【幼儿教案】
- 英语课程标准2022版电子版
- 资产质量分析
- 检验科进修总结(2篇)
- 打印复印费明细
- GB/T 9798-2005金属覆盖层镍电沉积层
- 《编程猫系列》第1课-Hello-编程猫(课件)
- 高一上学期月考语文试题(八套)
评论
0/150
提交评论