(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf_第1页
(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf_第2页
(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf_第3页
(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf_第4页
(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于web聚类的个性化推荐服务研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

r 。d h , j , f 独创性声明 i i ii ii i111 11 1i iii iiii 18 9 5 19 7 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究 工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人 或集体己经发表或撰写过的作品成果,也不包含为获得江苏大学或其他教育机构 的学位或证书而使用过的材料。对本文的研究做出重要贡献的个人和集体,均己 在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 姗躲甜挪 砂f ,年月汨 学位论文版权使用授权书 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、 缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致, 允许论文被查阅和借阅,同时授权中国科学技术信息研究所将本论文编入中国 学位论文全文数据库并向社会提供查询,授权中国学术期刊( 光盘版) 电子杂 志社将本论文编入中国优秀博硕士学位论文全文数据库并向社会提供查询。 论文的公布( 包括刊登) 授权江苏大学研究生处办理。 本学位论文属于不保密口。 虢莓鲁钼l ; 7 ff 年4 月日 葛芦乏舻 矽f 7 年6 一日 江苏大学硕士研究生毕业论文 摘要 随着i n t e m e t 的不断发展,信息过载和资源迷向己经成为制约人们高效使用 i n t e m e t 信息的瓶颈。人们希望网页的内容能够尽可能地根据用户的浏览兴趣自 动调整,从而使每个用户感觉好像自己是网站的唯一用户,实现这一目标的关 键在于w e b 网站如何发现用户喜好、动态地为用户定制观看的内容或者提供浏 览建议。这就要求网站信息服务改变过去那种对所有用户提供界面统一、内容 相同的服务方式,从“以站点为中心”向“以用户为中心 发展,即站点不但 要有针对所有用户共同感兴趣的信息和服务,更要有针对各个用户的不同兴趣、 爱好自动组织和调整的个性化服务。在这种情况下,针对不同用户的需求,建 立相应商品服务措施的个性化推荐服务技术被越来越多的企业迅速地采用,个 性化技术已成为电子商务领域中一项迫切而重要的研究课题,个性化推荐技术 的研究将具有较高的学术价值和应用前景。 论文总结了个性化推荐领域中w e b 聚类算法的国内外研究现状,分析了已 有方法的优缺点。针对w e b 数据的非结构性特征以及用户浏览w e b 时的模糊性 与不确定性问题,提出了一种新的相似性度量方法,进而给出了一种基于模糊 多重集的w e b 用户聚类算法。针对核k m e a n s 聚类算法对初始参数敏感的问 题,利用局部密度的方法获得初始聚类中心。本文采用理论分析和模拟实验相 结合的方法展开研究,其主要研究内容如下: l 、总结了个性化推荐中w e b 聚类分析技术的研究现状,介绍了两种常用 的聚类算法和w e b 数据预处理流程,给出了常用的预处理算法。 2 、提出了一种改进的w e b 用户聚类方法。把模糊多重集的概念引入到模糊 聚类算法中,将反映用户浏览行为的页面点击次数、访问时间、访问顺序等因素 用模糊多重集来综合刻画用户访问站点的兴趣度,最后形成用户相似模式库。 3 、提出了一种局部密度和核k - m e a n s 的页面聚类算法,选择具有高密度且 低相似性的样本点为初始聚类中心。通过实验对比结果证明该算法可以有效地 改善核k m e a n s 聚类算法的效果,在处理大数据集时有较高的聚类质量,同时 提高聚类的稳定性。 4 、设计并实现了一个基于w e b 聚类的个性化推荐系统。该系统包括离线 江苏大学硕士研究生毕业论文 数据预处理、用户和页面聚类集提取以及在线个性化推荐等。 关键词:个性化推荐,日志挖掘,用户聚类,页面聚类,核k - m e 锄,模糊多 重集,局部密度 i i a b s t r a c t w i t ht h ec o n t i n u o u sd e v e l o p m e n to fi n t e m e t ,i n f o r m a t i o no v e r l o a da n d r e s o u r c ec o n s t r a i n t sh a v eb e c o m et h eb o t t l e n e c ko fe 衔c i e n tu s eo fi n t e m e t i n f o r m a t i o nt op e o p l e i ti sh o p e dt h a tt h ec o n t e n to fw e bp a g e sc a l lb ea u t o m a t i c a l l y a d j u s t e da sm u c ha sp o s s i b l ea c c o r d i n gt ot h eu s e r sb r o w s ei n t e r e s t ,s ot h a te a c h u s e rt h i l l l 【t h e ya r et h eo n l yu s e ro ft h es i t e t h ek e yt oa c h i e v i n gt h i sg o a li sh o wt o f m du s e r sp r e f e r e n c e si nt h ew e b s i t e s ,d y n a m i cc u s t o m i z et h ev i e wc o n t e n tf o rt h e u s e ro rp r o v i d eb r o w s es u g g e s t i o nf o r t h eu s e r t h i sr e q u i r e st h a tw e b s i t e i n f o r m a t i o ns e r v i c ec h a n g es e r v i c ew a yo fp r o v i d i n gau n i f i e di n t e r f a c ea n dc o n t e n t t h es a n l es e r v i c et oa l lu s e r s ,t h ed e v e l o p m e n to fw e b s i t ei sf r o mt h e ”s i t e c e n t r i c ”t o ”u s e r c e n t e r e d ”,t h a ti st os a y ,t h ew e b s i t e ss h o u l dn o to n l yh a v ei n f o r m a t i o na n d s e r v i c ew h i c ha i ma ta l lu s e r s c o m m o ni n t e r e s t ,b u ta l s ob ea b l et oo r g a n i z ea n d a d j u s t t h ei n f o r m a t i o na n ds e r v i c e a u t o m a t i c a l l ya c c o r d i n gt oe v e r y u s e r s p e r s o n a l i z e dc h a r a c t e r i s t i ca n di n t e r e s t t h e r e f o r e ,t h et e c h n o l o g yo fp e r s o n a l i z e d r e c o m m e n d a t i o ns e r v i c et h a te s t a b l i s h c o r r e s p o n d i n g m e a s u r e st o d e v e l o p c o m m o d i t ys e r v i c ea c c o r d i n gt ot h eu s e r s d i f f e r e n td e m a n d si sq u i c k l yu s e db y m o r ea n dm o r ee n t e r p r i s e s s ot h ep e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n o l o g yh a s b e c o m ea nu r g e n ta n di m p o r t a n tr e s e a r c hs u b j e c t w h a ti sm o r e ,t h et e c h n o l o g yw i l l h a v eh i g h e ra c a d e m i cv a l u ea n da p p l i c a t i o np r o s p e c t t h i sp a p e rs u m m a r i z e dt h ep r e s e n tr e s e a r c hs t a t u sa th o m ea n da b r o a do fw e b c l u s t e r i n gt e c h n i c a lo np e r s o n a l i z e dr e c o m m e n d a t i o na n da n a l y z e dt h ea d v a n t a g e s a n dd i s a d v a n t a g e so ft h e s ea l g o r i t h m s :f o rn o n - s t r u c t u r a lf e a t u r e so fw e bd a t aa n d t h ea m b i g u i t ya n du n c e r t a i n t yo fw h i c hu s e r sb r o w s ew e b ,w ep r e s e n t san e w s i m i l a r i t ym e a s u r e ,a n dt h e np r e s e n t saw e bu s e rc l u s t e r i n ga l g o r i t h mb a s e df u z z y m u l t i s e t s f o ri n i t i a l a l g o r i t h mp a r a m e t e r s s e n s i t i v ei s s u eo fn u c l e a rk m e a n s c l u s t e r i n g ,w eo b t a i n e dt h ei n i t i a lc l u s t e rc e n t e r su s i n g t h el o c a ld e n s i t y t h er e s e a r c h i sc a r r i e do u tb yc o m b i n gt h e o r ya n a l y s i sa n ds i m u l a t i o ne x p e r i m e n t s t h em a i nc o n t e n ti nt h ep a p e ri sa sf o l l o w s : 江苏大学硕士研究生毕业论文 1 t h er e s e a r c hs t a t u so fw e bc l u s t e r i n gt e c h n i c a lo n p e r s o n a l i z e d r e c o m m e n d a t i o nw a sr e s e a r c h e dc o m p l e t e l y f i r s t l y , t w oc o m m o nc l u s t e r i n g a l g o r i t h m sa n dt h ed e t a i l e dp r o c e s so fw e bd a t ap r e p r o c e s s i n g 、e r ei n t r o d u c e d t h e n ,p r e - p r o c e s s i n ga l g o r i t h m su s e da r eg i v e n 2 a ni m p r o v e dw e b - u s e r sc l u s t e r i n gm e t h o dw a sp r o p o s e d f i r s t l y , w e i n t r o d u c et h ec o n c e p to ff u z z ym u l t i s e t st of u z z yc l u s t e r i n ga l g o r i t h m s e c o n d l y , w e w i l ld e s c r i b et h ed e g r e e so fi n t e r e s tw h i c hu s e ra c c e s sw e b s i t e su s et h ef u z z y m u l t i s e t s ,w h i c ht h ep a g ec l i c k s ,a c c e s st i m e ,a c c e s so r d e ra n do t h e rf a c t o r sr e f l e c t t h eo fu s e r sb r o w s i n gb e h a v i o r , a n df i n a l l yt h ep a t t e r nl i b r a r yo ft h eu s e rs i m i l a rc a n b ef o r m e d 3 aw e bp a g ec l u s t e r i n ga l g o r i t h mb a s e dl o c a ld e n s i t ya n dt h en u c l e a r k m e a n sw a sp r o p o s e d w ef o r mt h ei n i t i a lc l u s t e rc e n t e rb yc h o o s i n gah i g h d e n s i t y a n dl o ws i m i l a r i t y s a m p l ep o i n t s i no r d e rt oe f f e c t i v e l yd i v i d et h e d a t a b y e x p e r i m e n tr e s u l t ss h o wt h a tt h ea l g o r i t h mc a ne f f e c t i v e l yi m p r o v et h er e s u l t so f n u c l e a rk m e a n sc l u s t e r i n ga l g o r i t h m ,i nd e a l i n g 蜥ml a r g ed a t as e t s ,w eh a v ea h i g h e rc l u s t e r i n gq u a l i t ya n di n c r e a s et h es t a b i l i t yo fc l u s t e r i n g 4 ap e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mb a s e dw e bc l u s t e r i n gw a sd e s i g n e d a n di m p l e m e n t e d t h es y s t e mi sc o m p o s e do fo f f i i n em o d u l e ,i n c l u d i n gd a t a p r e p a r a t i o n a n de x t r a c t i o no f c l u s t e r i n gs e t s ,a n d o n l i n e p e r s o n a l i z e d r e c o m m e n d a t i o ne n g i n ee t c k e yw o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ,l o gm i n i n g ,u s e rc l u s t e r i n g , p a g ec l u s t e r i n g ,k e r n e lk - m e a n s ,f u z z ym u l t i s e t s ,l o c a ld e n s i t y i i 江苏大学硕士研究生毕业论文 目录 摘要 a b s t r a c t i 目录i i i 第一章绪论 1 1 课题研究背景与意义1 1 2 国内外研究现状3 1 3 本论文研究内容5 1 4 本文的结构6 第二章个性化推荐服务与w e b 聚类 2 1 个性化推荐服务7 2 1 1 个性化推荐服务系统的创建以及功能7 2 1 2 个性化推荐的服务技术方法8 2 1 3 个性化推荐服务系统的评价指标9 2 2w e b 聚类1 1 2 2 1w e b 数据预处理1 1 2 2 2 聚类分析1 7 2 3 本章小结2 1 第三章基于模糊多重集的w e b 用户聚类 2 2 3 1 模糊多重集2 2 3 2 基于模糊多重集的w e b 用户聚类2 4 3 2 1 用户浏览兴趣度量方法2 4 3 2 2 用户相似度矩阵的构建2 5 3 2 3 算法描述2 8 3 3 实验与结果比较2 9 3 3 1d e p a u lc t i 数据集2 9 3 3 2 聚类结果分析- 3 0 3 4 本章小结3 2 第四章基于局部密度的w e b 页面聚类。 。3 4 4 1 相关概念3 4 4 2 基于局部密度的核k m e a n s 算法l d k k 3 5 4 2 1p a r z e n 窗估计法3 5 4 2 2 局部密度定义3 6 4 2 3 核k m e a n s 聚类算法3 6 i l i 江苏大学硕士研究生毕业论文 4 - 3实验结果与比较3 9 4 3 1 实验分析3 9 4 3 2l d k k 算法稳定性评估4 1 4 4 本章小结4 2 第五章基于w e b 聚类的个性化推荐系统 4 3 5 1 个性化推荐系统功能结构4 3 5 2 个性化推荐引擎。4 3 5 2 1 推荐流程4 3 5 2 2 推荐算法4 3 5 3 推荐系统的实现4 6 5 3 1 开发环境及实验数据4 6 5 3 2 推荐实现及结果4 7 5 4 本章小结。5 2 第六章结论与展望。5 3 6 1 本文总结5 3 6 2 进一步研究工作5 3 参考文献 驾c谢 附录一:读研期间发表和录用论文目录。 i v 5 5 5 8 5 9 江苏大学硕士研究生毕业论文 1 1 课题研究背景与意义 第一章绪论弟一旱硒比 随着i n t e m e t 的发展,w v c w 已经成为一个巨大的分布式信息空间,而且其信 息容量仍在以指数形式飞速增长,这就是所谓的“信息爆炸 。它为用户提供了 一个极具价值、不可或缺的信息源。但由于i n t e r n e t 是一个开放性、动态性和异 构性的全球分布式网络,大而无序,资源分布分散,且没有统一的管理和结构, 因而用户通常会淹没在大量信息之中,面临着信息过载的问题。因此,如何通过 网络向用户提供所需要的有效信息服务已逐渐成为网站运营者和用户日益关注 的问题之一。用户非常希望w e b 站点根据不同的用户浏览模式提供不同的服务, 从而可以更方便快捷地定位到自己感兴趣的信息,这就要求网站运营者改变过去 对所有用户提供统一界面、统一内容的方式,需要引入一种能够根据用户的不同 兴趣爱好自动组织和调整信息内容的服务模式,快捷地帮助用户在站点上找到感 兴趣的产品和服务,以防止旧用户的流失和吸引新的用户。个性化推荐技术的出 现,使得人们从无限的网络信息资源和商品世界中解脱出来,大大节省了用户在 信息搜索上花费的时间和精力,也使得w e b 网站从以“站点为中心 转向以“用 户为中心发展,给用户提供个性化服务,向着网络服务的更高层次发展,因而 个性化推荐技术成为电子商务领域中一项重要的研究课题。在未来的i n t e m c t 发 展中,面向个人消费者的电子商务网站有没有智能w e b 个性化推荐服务,将决 定网站能否继续在i t 行业中的生存和可持续发展。 近几年来,很多著名大学和研究机构都展开了个性化技术的相关研究工作。 比较著名的个性化推荐系统【1 ,2 捌w e b w a t c h e r ,p e r s o n a l w e b w a t c h e r , s y s k i l l & w e b e r t ,都是利用资源与用户兴趣的相似性来过滤信息。其优点是简单、 有效。其缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴 趣的资源,只能发现和用户已有兴趣相似的资源。k i m 【4 】提出的个性化搜索则是 根据用户点击搜索结果的顺序、浏览文档的时间、是否打印和保存等行为来分析 用户的兴趣,并可用于个性化信息检索服务。除此之外,y o s h i i 【5 】等也都在实现 个性化搜索或关于个性化搜索某些方面提出了各自的处理技术。所有这些文献提 江苏大学硕士研究生毕业论文 出的方法虽有较好的学术意义和实用参考价值,但大都还处于前期的实验原型阶 段,还不能转化为具有很好实用价值、能被广大用户接受的实际个性化服务产品。 h o o n - k il e e 6 】提出的个性化推荐系统实现了管理定制信息服务的个人历史和统 计,并且获得了基于个人心理学和用户社交关系信息的定制推荐服务,应用用户 使用过的标签可以用来代表他的兴趣,利用社交网络当中的信息成为个性化搜索 引擎。但是考虑因素过于单一,个性化推荐程度偏低。m i n x i a ol e i 7 1 提出了一种 基于协作过滤方法和兴趣域推荐的w e b 个性化推荐系统,可以找到用户潜在兴趣 领域,并且根据这些w e b 用户兴趣来推荐相关的w e b 页面。该系统可以帮助用户 从域表中获取基于他们选择的相关w e b 页面。这样,用户可以从系统中得到兴趣 域集合和w e b 页面。但是个性化推荐系统只是基于点击历史而得到用户的兴趣 域,并没有考虑到访问时间的兴趣域。 y a ed a i 8 】设计的基于w e b 的个性化推荐系统中使用基于用户人1 :3 信息的协 作过滤个性化推荐算法,通过依赖先前评分项目,随着信息处理和产品超载问题, 以预测用户对现有产品和服务的兴趣为目标,但用户人口信息关联用户的隐私, 很少考虑个性化进程。 综上所述,在个性化推荐领域国内外研究人员做了大量研究,并已取得了一 些成果。然而,现有的推荐系统需要用户的参与,用户必须反馈明确的要求方可 为其提供个性化服务。同时,大多数系统仅简单提供与用户访问历史相关的u r l s 地址列表,并不做进一步深入的处理,而这些u r l s 指向的页面存在大量跟用户 兴趣不相关的信息,造成推荐系统不但没有达到对个性化访问的支持,反而给用 户访问设置了障碍。w e b 聚类技术可以获得用户个性化需求,并提供给用户个 性化的内容项。因此,w e b 聚类技术己成为个性化推荐研究中一个重点关注的 对象。 本文研究的经济价值和社会价值主要表现在以下两个方面。 ( 1 ) 对电子商务网站 提供个性化服务已经成为当今网站提高本身竞争力的重要手段。充分利用 w e b 日志数据,对发现用户浏览模式、分析站点使用情况、为电子商务网站管理 层提供决策支持等均具有十分重要的意义。 ( 2 ) 对访问者 通过w e b 日志挖掘技术实现个性化推荐,能够对每个用户按照其访问行为, 2 个性化的界面,提供个性化推荐以及进行个性化推销。同时,能够有效提高w e b 站点的自适应能力,进而提供高效访问,吸引新访问者和保持老访问者。另外, 根据这些用户留下的信息,确定用户所在的区域,所属的行业、阶层以及群体用 户的偏好,对群体用户提供相应的商业智能,进行群体推荐以及开展有针对性的 电子商务活动。更重要的是,根据w e b 挖掘结果,改进页面的结构设计,防止 访问者在大型网站中的迷航。 根据w e b 聚类所采集数据的来源不同,w e b 聚类可以分为用户聚类、页面 聚类、语义聚类、文档聚类等,本文仅考虑用户聚类和页面聚类。 1 2 国内外研究现状 w e b 聚类挖掘作为数据挖掘的一个新兴的研究领域,主要集中在相似用户群 体的聚类和相关w e b 页面的聚类两个方面。w e b 用户聚类挖掘主要是通过w | e b 日 志挖掘,提取用户浏览的信息进行用户聚类。 对于w e b 用户聚类,由于w e b 站点的内容是动态变化的,用户浏览w e b 时的 目的性不是很明确,即具有模糊性和不确定性,因此人们将模糊集理论用于传统 的聚类方法中,提出了w e b 日志挖掘的模糊聚类方法。文献【9 j 2 1 中提出了在w e b 站点中根据页面访问统计进行聚类的方法,这些文献中一般都是以用户对页面的 点击频率或页面停留时问等单个因素来度量用户的浏览行为,但是实际上用户的 浏览兴趣受到多种因素的影响,例如用户偏好、页面能够提供的信息量等因素。 刘海琳【1 3 】通过遗传算法、k m e a n s 聚类分析技术,从用户与w e b 服务器的 交互数据中发现用户访问过程中的隐含的知识、规律,得到用户的访问模式和用 户的兴趣,实现w e b 用户聚类,为用户的个性化服务提供事实依据。 王慧博【1 4 】在研究w e b 聚类特点的基础上系统地讨论了w e b 模糊聚类挖掘过 程,探索了用户聚类和页面聚类的方法。在用户聚类方面,以用户访问序列的相 似度结合访问页面时间为相似性度量,基于矩阵变换的w e b 用户聚类方法,解 决了w e b 用户事务聚类问题,充分地考虑了用户访问过程中各要素之间的相互 关系。在页面聚类方面,研究了基于关联规则的支持度和置信度来构造w e b 页 面聚类方法。 江苏大学硕士研究生毕业论文 于亚秀【1 5 j 提出一种基于用户访问兴趣的模糊聚类算法,使用页面浏览时间 与点击次数等多个因素来度量用户的浏览兴趣,建立了模糊相似矩阵,提出一种 基于用户访问兴趣的模糊聚类算法,最后使用最大树模糊聚类方法进行聚类,但 是仍旧没有将用户对w e b 站点页面的浏览顺序表现出来。 k o u t s o n i k o l a 1 6 】等人提出一种结合w e b 用户和页面的b i 聚类方法,这种方法 给出了光谱聚类分析准则,并且提出用户和页面聚类的模糊关联模式,但是他们 没有考虑到对于活动用户的实时推荐。 s h i v a n a d i 1 7 】等人提出一种基于模糊聚类的实时推荐模型,使用模糊c 均值 聚类确定了用户喜好,并且考虑了用户兴趣的不确定性,确定了更有效的推荐策 略,对于活动用户提供个性化实时推荐。然而文中所采用的聚类方法为硬聚类方 法。 w e b 页面聚类是数据挖掘研究的重要内容之一。早期的w e b 页面聚类主要 采用基于内容的方法。目前以采用基于用户行为分析的方法为主,而这种方法过 于依赖使用数据,具有一定的局限性。p e r k o w i t z 等【1 8 】首次提出页面聚类算法 p a g e g a t h e r 算法,该算法是页面聚类算法中的典型算法,是基于用户行为分析的 方法中最有竞争力的一种。该方法在w e b 站点上寻找相关页面集合,这种相关 页面集合是根据总体用户的相关访问来决定的,采用方法是创建相似矩阵,矩阵 的元素是根据访问日志所得出的页面之间的共同被访问的频度,然后在这个矩阵 中寻找每一个聚类,上述三组方法均未考虑用户访问兴趣与路径的关系。 宋擒豹等【1 9 】提出一种w e b 日志的高效多能挖掘算法,该算法的计算基础是 以w e b 站点u r l 为行,以l f s e r l d 为列,建立u r l u s e r l d 关联矩阵,元素值为 用户的访问次数。该算法提出对列向量进行相似性分析可得到客户群体,对行向 量进行相似性度量可获得相关w e b 页面,对后者再进一步处理还可以发现频繁 访问路径。 王实等人【2 0 ,2 1 1 认为用户对w e b 站点的兴趣程度可以通过用户对w e b 站点页 面的浏览顺序表现出来,为了得到这种根据用户访问兴趣对用户集的划分,提出 了一种k p a t h s 路径分割聚类方法,把用户访问兴趣度与路径序列的关系相结合, 利用k m e a n s 进行路径聚类。它虽然采用路径的相似性进行聚类,但对于样本 边界是线性不可分以及类分布为非高斯分布或非椭圆分布的情况,k m e a n s 方法 4 h u a n g 2 2 】提出使用核k m e a n s 算法对页面中的网络图进行处理,网络图通过 网络爬虫产生,以包含聚类网址列表的用户文本文件,个图代表了一个关联矩 阵,每一列代表一个它的相连接边编码的结点,每一行代表由它相关结点组成的 边,将高度连接的结点和边的集合组成带抽象点和边的聚类图。通过对图进行核 聚类最终找到图的高连接子图,本文中的核k m e a n s 算法解决了页面聚类中数 据的维数灾难问题,但是仍是随机选择初始聚类中心。 r o n gs h a n 2 3 】等人提出一个浏览行为个性化信息推荐系统( b b i r s ) ,分别 通过离线和在线进行w e b 日志和交互数据的挖掘,基于用户浏览速度计算用户对 页面的兴趣度。系统使用w e b 挖掘技术分析用户兴趣数据库来进行推荐,可以适 应用户浏览兴趣的改变,但该方法只考虑了用户浏览速度,推荐准确率偏低。 针对现有w e b 用户聚类存在的问题,本文通过w e b 用户访问网站时的多个 属性综合描述用户浏览行为,以模糊多重集的形式刻画w e b 用户对象,提出了 一种基于模糊多重集的w e b 用户聚类算法,该算法同时考虑反映用户兴趣的三 大因素,建立用户模糊相似度矩阵。针对现有w e b 页面聚类存在的问题,本文 结合局部相对密度的思想,提出了一种基于局部密度的核k m e a n s 页面聚类算 法,通过选择具有较高相对密度的样本作为初始聚类中心,最终提高页面聚类的 准确性。实验结果表明这两种改进方法是可行和有效的。 1 3 本论文研究内容 本文主要提出了基于浏览时间、浏览次数、浏览顺序的兴趣相似度矩阵和基 于局部密度的核k - m e a n s 页面聚类算法,设计并实现了一个基于w e b 聚类的个 性化推荐系统,主要进行的工作是: ( 1 ) w e b 数据预处理的研究与实现。对w e b 日志的预处理技术进行深入的 研究,为聚类挖掘算法提供可靠的数据。同时,析取出w | e b 站点的u r l 结构和 链接结构,用于更准确地进行页面聚类挖掘。 ( 2 ) 用户聚类研究与实现。在对用户聚类算法上,尤其是在对模糊聚类算 法进行深入研究的基础上,针对该算法的不足进行了改进,提出了一种基于模糊 多重集的用户聚类算法,该算法使用新的相似度计算方法,并结合用户浏览时间 5 江苏大学硕士研究生毕业论文 和用户浏览次数兴趣度量方法,充分考虑用户浏览页面的访问顺序。实验证明该 算法是十分有效的。 ( 3 ) 页面聚类研究与实现。提出了一种基于局部密度的核k - m e a n s 聚类方 法。该算法考虑了页面聚类策略,使用p a r z e n 窗方法计算目标样本的平均密度, 选取高密度样本作为初始聚类中心。实验表明改进后的算法聚类优势更高。 ( 4 ) 初步实现一个个性化在线推荐系统原型。该系统分为离线挖掘和在线 推荐两个部分,提供的个性化推荐服务可以直接面向匿名用户。离线挖掘部分主 要是利用模糊聚类算法对用户会话进行聚类,得到用户会话聚类集并生成推荐模 式库。在线推荐部分主要是获取当前用户会话,然后与推荐模式库中的模式进行 匹配,自动产生推荐页面集,并将推荐项实时提供给用户。 1 4 本文的结构 本文共分六章,具体内容安排如下: 第一章,绪论部分,阐述了所选课题的研究背景,简要回顾了个性化推荐的 发展历程,指出所选课题的研究意义,然后介绍了个性化推荐目前所研究的主要 集中的几个领域与研究现状,最后总结了本文的主要研究工作。 第二章,介绍了两种聚类方法的基本理论知识,总结了w e b 日志预处理的 详细过程。 第三章,提出了一种基于模糊多重集的w e b 用户聚类算法,该算法先使用 模糊多重集建立用户兴趣相似度矩阵,使用新的相似性度量方法,再对用户进行 聚类,最终在真实数据集上进行实验对比结果,产生用户聚类模式库。 第四章,针对初始类中心在页面聚类方法上的重要性,提出了局部密度的计 算方法。通过使用相对密度改进了核k m e a n s 算法的聚类策略,并提出了一种 基于局部密度的w e b 页面聚类算法。 第五章,结合协同过滤推荐思想,实现了一个基于w e b 用户聚类与w e b 页 面聚类模式库的个性化推荐系统原型。 第六章,结论与展望。对本文的研究工作和成果进行概括总结,并指出今后 的研究方向。 6 本章首先介绍个性化推荐服务的方式和几种典型的技术,然后给出了w e b 聚类的流程,重点阐述w e b 数据预处理过程和两种典型的聚类算法。 2 1 个性化推荐服务 w e b 已成为人们获取信息的一个重要途径,由于w e b 信息的日益增长,人 们不得不花费大量的时间去搜索,浏览自己需要的信息。推荐引擎( s e a r c he n g i n e ) 是最普遍的辅助人们检索信息的工具,比如传统的推荐引擎a l t av i s t a ,y a h o o 和新一代的推荐引擎g o o g l e 等。信息检索技术满足了人们一定的需要,但由于 其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化 推荐服务技术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满 足于w e b 挖掘的个性化推荐中不同的需求。个性化服务通过收集和分析用户信 息来学习用户的兴趣和行为,从而实现主动推荐的目的。个性化服务技术能充分 提高站点的服务质量和访问效率,从而吸引更多的访问者。 2 1 1 个性化推荐服务系统的创建以及功能 创建个性化推荐服务系统的一般步骤为:首先收集用户的各种信息,如注册 信息、访问历史等;其次分析用户数据,创建符合用户特性的用户模型;最后结 合用户特性,向用户提供符合其特殊需求的个性化服务。当用户对系统提供的服 务做出响应或反馈时,系统根据反馈信息调整服务。通过用户与系统之间循环往 复的交互,系统最终能够为用户提供个性化服务。 个性化推荐服务系统是通过提供的多种功能实现系统目标的。从目前实现的 角度可以将个性化推荐服务系统分为:记忆型、引导型、定制服务型和工作任务 辅助支持型【2 4 1 。 ( 1 ) 记忆型。记忆型通过在系统中记录使用者的信息,当使用者再次登录 该网站时,系统利用用户过去的历史数据,给用户必要的提示和帮助。具体功能 包括:向登录用户致意、为用户建立个性化书签、分配用户个性化的存取权限等。 7 江苏大学硕士研究生毕业论文 ( 2 ) 引导型。引导型是指系统通过提供替代的浏览选项,协助引导使用者 更快更容易地获取所寻求的信息。这类个性化服务不但能增加使用者的忠诚度, 而且可以减轻用户在大型网站里所面临的“数据超载 和“信息迷航问题。具 体功能包括:向用户推荐超链接和为用户导航。 ( 3 ) 定制服务型。这类系统可以按照用户的知识、兴趣和偏好对网页的内 容、结构和布局进行个性化设定,达到对数据负荷进行管理,使用户和网站的交 互简单化和个性化。具体功能包括:个性化的网站布局设计、个性化的内容定制、 个性化的超链接定制、个性化的定价和营销。 ( 4 ) 工作任务辅助支持型。这类系统能按照用户特点,启动执行特殊的动 作程序,给用户的工作辅助帮助和支持。这是最先进的个性化功能,可以在客户 端或服务器端实现。具体功能包括:个性化的行动助理、个性化的疑问解答和个 性化的谈判助手。 2 1 2 个性化推荐的服务技术方法 个性化推荐的服务技术方法为分为: ( 1 ) 对数据的简单检索( r a wr e t r i e v a l ) 这种系统的“推荐 实际上只是一种对用户请求简单的查询。例如当某个用 户询问一个音乐站点关于“披头士 乐队的专辑时,这个站点就会简单地进行数 据库查询,把凡是商品库中与“披头士”有关的都推荐给用户。 ( 2 ) 站点的分析人员和专家等进行的人工选择推荐( m a n u a l l ys e l e c t e d ) 这种推荐是基于这些站点人员他们自己主观的喜好、看法等,建立起一个针 对用户的推荐商品列表,通常表现为对商品文字上的评价。 ( 3 ) 基于统计分析( s t a t i s t i c a ls u m m a r i e s ) 这其实也是一种非个性化的推荐,但是因为容易进行统计分析计算,所以被 比较广泛的运用。e b a y 的客户反馈就是这样的系统。 ( 4 ) 基于属性的推荐( a t t r i b u t e b a s e d ) 这种推荐考虑用户对物品某些特征属性的兴趣,强调用户对商品特征属性的 要求。系统寻找拥有满足用户兴趣所要求的属性的商品推荐给用户。 ( 5 ) 基于物品舭和物品关系的推荐( i t e m t o i t e mc o r r e l a t i o n ) 8 江苏大学硕士研究生毕业论文 l 。1 。1 1 。1 。- 这种推荐主要是建立物品和物品之间的关联相似规则模式,这种规则通常是 以物品之间的c o , p u r c h a s e 关系而定的,即考察物品a 被购买了物品b 也会 被购买的关系。在这样的推荐系统中,一般针对当前用户当前购买的物品,利用 物品之间的关联规则寻找“匹配”的物品推荐给用户。 ( 6 ) 基于用户和用户关系的推荐( u s e r - t o , - u s e rc o r r e l a t i o n ) 这种推荐主要考虑的是当前推荐用户与在此站点上访问过或者购买过物品 的其他用户的关系,并以此关系作为推荐的依据,通常也可以把这种推荐技术叫 “协作过滤”。这种方法的原理非常简单,一般认为与某个访问者属于同一类或 同一群体的用户喜爱的,那么这个访问者也同样会喜爱。 2 1 3 个性化推荐服务系统的评价指标 ( 1 ) 准确度 准确度指标要测量的是推荐系统对产品的排序预测与用户的实际偏好排序 之间的离差。常用的准确度测量指标主要有: 用户评价预测准确度:指推荐系统的预测评价与实际用户评价的接近程 度,多采用绝对误差均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论