




已阅读5页,还剩56页未读, 继续免费阅读
(计算机应用技术专业论文)vod系统应用服务器中web挖掘技术的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得北京邮电人学或其他教育机构的学位或证j 1 5 而使川过的材 料。与我一同j i :作的同忠对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢 意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 鸶:氲 日期: 关丁论文使用授权的说明 学位论文作者完全了解北京邮电- 大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文一l :作的知识产权单位属北京邮电人学。学校有权保留并向国家有关部门或 机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部 或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位 论文在解密后遵守此规定) 篡裟! 三塑,丁需 喜会蓁耄:二重贮:翥i 摘要 随着数字电视的普及和v o d 系统的发展,人们可以通过有线电视 网络在浩瀚的影视海洋里漫游。然而,由于影视资源的爆炸式增长, 很多用户经常会“迷失其中,他们往往找不到自己真正喜欢的影片 而苦恼。因此,根据用户的特殊需求提供更好的w e b 个性化内容推荐 就是我们面临的一个难题。w e b 个性化内容推荐的目的是当用户在浏 览v o d 网站时能根据其特殊需求,实时准确地推荐他可能感兴趣的相 关影片,这也是提高交互系统服务质量和访问频率的一种重要手段。 本文首先概述了w e b 挖掘的基本原理,接着对个性化内容推荐技 术的概念,分类和研究现状等进入了深入探讨,然后分析了有线电视 网络v o d 系统的w e b 挖掘技术与基于互联网的w e b 挖掘技术的异同之 处,并对典型的关联规则挖掘算法进行了分析和探讨,在此基础上提 出了一种新的应用于w e b 个性化内容推荐的关联规则挖掘算法。本文 重点讨论了其中的几项关键技术:w e b 挖掘、个性化内容推荐技术以 及利用挖掘的关联规则实现个性化推荐系统。 本文分析了a p r i o r i 算法的思想,并在其基础上改进,设计了新 的应用于w e b 个性化内容推荐的关联规则挖掘算法,通过举例对改进 算法做了详细的介绍,并且分别从时间和空间的角度对a p r i o r i 算法 和a p r i o r i 改进算法进行了比较和分析。本文深入讨论了如何利用挖 掘的关联规则进行个性化内容推荐,给出了推荐系统的体系结构、挖 掘模块的设计和数据库设计等,然后分析了影响推荐准确度的相关因 素,并通过实验验证。最后本文通过实验模拟了个性化内容推荐系统 的运行结果。 关键词:v o d 系统w e b 挖掘个性化内容推荐关联规则 t h ei i e s e a r c ha n di m p l e m e n to f 、e bm n 叮i n gt e c h n o l o g y o nv o da p p l i c a t i o ns e r 厂e r a b s t r a c t w i t ht h ep o p u l a ro f d i g i t a lt e l e v i s i o na n dt h ed e v e l o p m e n to fv o d s y s t e m ,p e o p l e c a l lr a m b l et h r o u g ht h ei m m e n s ev i d e oo c e a no fc a b l et v n e t w o r k a st h er e s u l to fv i d e o - r e s o u r c e e x p l o s i o n ,m a n yp e o p l ew i t h l i t t l ee x p e r i e n c ea r eo f t e nl o s ti nt h en e t w o r k a n dt h e yf e e lv e r y d i s t r e s s e db e c a u s eo fn o tf i n d i n gw h a tt h e yr e a l l yn e e d s om e p u z z l ew e f a c en o wi sh o wt op r o v i d eb e t t e rw e b p e r s o n a l i z e dr e c o m m e n d a t i o n a c c o r d i n gt op e o p l e ss p e c i a ln e e d t h ea i mo fw e bp e r s o n a l i z e d r e c o m m e n d a t i o ni st op r o v i d er e l a t i v ep a g e sw h i c h p e o p l em a y b e i n t e r e s t e di nw h e nt h e ya c c e s sv o ds i t e i ti st h em a i nm e t h o do f i m p r o v i n gs e r v i c eq u a l i t ya n da c c e s sf r e q u e n c y f i r s to fa u ,也et h e s i ss u m st h ew e b m i n i n gt h e o r y , a n dd e e p l y p r o b e si n t ot h ec o n c 印t ,c a t e g o r i e sa n ds t u d i e so fp e r s o n a l i z e d r e c o m m e n d a t i o n ,t h e ni ta n a l y s e st h es i m i l a r i t i e sa n dd i f f e r e n c e sb e t w e e n t h ec a b l en e t w o r kv o d s y s t e mw e bm i n i n gt e c h n o l o g ya n d i n t e r n e t - b a s e dw e b m i n i n gt e c h n o l o g y b e s i d e s ,i ta n a l y s e sa n dp r o b e s i n t ot h et y p i c a la s sr u l em i n i n g a l g o r i t h mo nw h i c han e wa l g o r i t h mi s b a s e d t h et h e s i ss u m m a r i z e st h ep r o b l e m si n v o l v e di np e r s o n a l i z e d r e c o m m e n d a t i o nb a s e do n 肫6 m i n i n ga r ea sf o l l o w s :耽bm i n i n g 。 p e r s o n a l i z e dr e c o m m e n d a t i o nt e c h n i q u e sa n dr e a l i z i n gp e r s o n a l i z e d r e c o m m e n d a t i o nb a s e do nm i n i n ga s s o c i a t i o nr u l e t h e p a p e ra n a l y z e st h ec o n c e p to ft h ea p r i o r ia l g o r i t h m ,a n d p r o p o s e st h ea d v a n c e da p r i o r ia l g o r i t h mw h i c ha p p l i e st ow e b p e r s o n a l i z e dr e c o m m e n d a t i o n b e s i d e si tt a k e sap a r t i c u l a ri n t r o d u c t i o n t h r o u g he x a m p l e s ,a n di tt a k e sm e t i c u l o u sc o m p a r i s o n sa n da n a l y s e s b e t w e e na p r i o r ia l g o r i t h ma n dt h ea d v a n c e da l g o r i t h mf r o mt h ep o i n to f h 北京邮l u 人学硕i :研究生学位论文 a b s t r a c t v i e wo ft i m ea n ds p a c e t h ep a p e rd e e p l ya d d r e s s e st h a th o wt ou s et h e m i n e da s s o c i a t i o nr u l e st oa c h i e v ew e bp e r s o n a l i z e dr e c o m m e n d a t i o n a n dt h ep r i n c i p l e sa n ds t e p so fr e c o m m e n d a t i o np r o t o t y p e i tp r o p o s e st h e a r c h i t e c t u r eo ft h ew e bp e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m ,t h e d e s c r i p t i o no f t h em i n i n gm o d u l ea n dt h ed e s i g no fd a t a b a s e ,t h e nf i n d s t h er e l a t i v ef a c t o r sw h i c ha f f e c tt h ea c c u r a c yo fr e c o m m e n d a t i o nt h r o u g h e x p e r i m e n t s a tl a s t i td e m o n s t r a t e st h ew e bp e r s o n a l i z e d r e c o m m e n d a t i o na n ds h o w st h er e s u l t s k e yw o r d s :v o ds y s t e m ,w e bm i n i n g ,p e r s o n a l i z e dr e c o m m e n d a t i o n , a s s o c i a t i o nr u l e 1 i i 目录 1 1 2 3 3 4 6 1 5 论文内容组织7 第二章w e b 挖掘与个性化内容推荐系统8 2 1w e b 挖掘介绍8 2 1 1w e b 挖掘的研究背景8 2 1 2w e b 挖掘的研究意义1 0 2 1 3w e b 挖掘的分类1 0 2 1 4w e b 挖掘的基本过程一1 2 2 2 个性化内容推荐技术1 3 2 2 1 个性化的研究背景13 2 2 2 个性化的定义1 4 2 2 3 个性化内容推荐技术1 4 2 2 4 典型的个性化内容推荐系统以及各推荐系统的比较1 8 2 2 5 用户访问信息的收集方法1 8 2 3 适用于v o d 系统的w e b 个性化内容推荐技术2 0 2 4 本章小结2 1 第三章基于w e b 挖掘的关联规则挖掘算法2 2 3 1 关联规则2 2 3 2 关联规则的典型算法2 3 3 3 个性化推荐中关联规则的特点2 4 3 4a p r i o r i 算法介绍2 5 3 4 1 算法分析2 7 3 4 2 算法的改进2 8 3 4 3 实验2 9 3 5 小结3 1 北京邮电人学硕+ l :研究生学位论文 目录 第四章利用挖掘的关联规则实现个性化内容推荐3 2 4 1 体系结构3 2 4 2 关联规则挖掘模块设计3 4 4 3 数据库设计3 6 4 4 推荐权值和最小支持度3 7 4 4 1 实验3 8 4 5 推荐步骤4 0 4 6 系统运行展示4 0 4 7 小结4 6 第五章总结与展望4 7 5 1 工作总结4 7 5 2 未来研究方向4 7 参考文献4 9 致谢5 1 攻读硕士学位期间已发表的学术论文目录5 2 北京邮1 1 1 人学硕i :研究生学位论文第一章绪论 第一章绪论 1 1研究背景 随着有线电视网络的迅速发展和数字电视的普及,v o d 视频点播服务成为 有线电视运营商推出的重要服务。与电子商务网站面临的问题相似,由于信息资 源和用户数量的增加,人们发现要准确、快速的查找自己所需要的信息越来越困 难。面对信息服务的现状,人们在寻求一种将v o d 用户感兴趣的媒资信息主动 推荐给该用户的服务方式,也就是个性化内容提供的信息服务。本章从研究背景、 研究现状等方面引入本文所要研究的内容。 有线电视的数字化改变了人们传统的生活方式,以往的单向广播式模拟电视 转化成现在的双向互动数字电视。一方面,随着互动电视的同益普及,基于数字 电视网络的w 曲服务平台将逐步成为人们观看电影、电视剧等媒体资源的一个 重要途径。另一方面,越来越多的影视资源将通过数字电视互动平台发布到v o d 系统终端用户。v o d 系统将成为存储、发布影视信息的重要载体。目前,影视 资源迅速增长,其信息量无论是种类上还是数量上都是人们难以想象的,但是要 从这个信息海洋中准确迅速的获取自己需要的影视资源却是非常困难。目前,绝 大部分v o d 服务器结构庞大和复杂,用户在查询资源的时候往往会迷失他们的 目标,或者得到,一些模糊的不清楚的结果。因此,很多用户在使用v o d 系统时, 往往花费大量的时间和精力浏览的影视分级目录是与自己查询的信息无关,这使 得很多用户对在此系统搜索信息失去信息,从而降低了用户感知度。 v o d 应用服务器是整个v o d 视频点播系统的前端,采用j 2 e e 架构。它包 括w e b 服务器和数据库,w 曲服务器是v o d 系统应用服务器的重要组成部分。 追踪用户浏览行为到每一次点播的能力使得资源供应商与终端用户之间的关系 比以前更加密切,从用户与v o d 应用服务器的交互来理解用户行为也变得越来 越重要。不同的用户观看影片的目的各不相同,即使同一个用户在不同的时间也 有不同的需求。发现每个用户点播的规律,从而为用户提供个性化资源的推荐, 可以使w e b 网站更具有亲和力并提高用户的感知度。w e b 个性化内容推荐可以 定义为用户在点播观看影视资源后,根据用户曾经的行为,预测用户下一步行为 并为其推荐他可能感兴趣的影片。 个性化内容推荐服务的实质是针对性,即对不同的用户采取不同的内容服务 策略,提供不同的服务内容。推荐的实质是主动性,即系统自动根据用户的内容 需求提供相应的服务。 个性化内容服务是i n t e r n e t 信息增长的必然结果,更是v o d 影视资源逐步 庞大的必然需求。1 9 9 5 年至1 9 9 7 年,美国人工智能协会春季会议( a a a i ) 、国际 北京邮i u 人学硕l :研究生学位论文第一章绪论 人工智能联合大会( i j c a i ) 、a c m 智能用户接口会议( a c m u i ) 和国际w w w 大会 等重要会议发表了多篇个性化服务原型系统的论文,标志着个性化内容服务研究 的开始。1 9 9 7 年3 月( ( c o m m u n i c a t i o n so f t h e a c m ) ) 组织了个性化内容推荐系 统的专题报道,个性化服务已经受到相当的重视。1 9 9 9 年召开的人机界面会议 c h i 9 9 专门设立了推荐系统特别兴趣小组。同时,第十五届人工智能会议 a a a i 9 8 、第一届知识管理应用会议p a k m 也纷纷开始将推荐系统作为研究主 题。 1 2 国内外研究现状 1 9 9 5 年3 月,卡内基梅隆大学的r o b e r t a r m s t r o n g 等人在美国人工智能 协会上提出了个性化导航系统w e b w a t c h e r ,斯坦福大学的m a r k ob a l a b a n o v i c 等 人在同一次会议上推出了个性化内容推荐系统l i r a 。同年8 月,麻省理工学院 的h e n r yl i e b e n n a n 在国际人工智能联合大会( u c a i ) 上提出了个性化导航智能体 l e t i z i a 。这三个系统被公认为个性化服务发展初期最为经典的系统,标志着个性 化服务的开始。 此后,个性化服务开始受到学术界广泛关注。1 9 9 6 年,卡内基梅隆大学 的d u n j a m l a d e n i c 在w 曲w a t c h e f 的基础上进行了改进,提出了个性化内容推荐 系统p e r s o n a lw e b w a t c h e r 。1 9 9 6 年,著名的网络公司雅虎推出了个性化入i s i m y y a h o o ! 。1 9 9 7 年,a t & t 实验室提出了基于合作方式的个性化推荐系统 p h o a k s 和r e f e r r a lw 曲;斯坦福大学的m a r k ob a l a b a n o v i c 和y o a vs h o h a m 推 出了基于内容和合作方式的个性化内容推荐系统f a b 。1 9 9 9 年,德国d r e s d e n 技术大学的t a n j aj o e r d i n g 实现了个性化电子商务原型系统t e l l i m ;麻省理工 学院的h e n r yl i e b e r m a n 提出了基于合作方式的个性化导航系统l e t sb r o w s e 。 个性化服务开始向全球发展。 2 0 0 0 年,n e c 研究院的k u r td b o l l a e k e r 等人为搜索引擎c i t e s e e r t 2 】增加了 个性化推荐功能,实现c i t e s e e r 的个性化;同年4 月,以美国为主的多国个性化 研究机构和网络公司成立了个性化协会,旨在推动个性化服务的发展,同时保护 个性化服务中涉及的用户隐私。这一年,我国也开始了个性化服务的研究。清华 大学的路海明等提出了基于多a g e n t 混合智能实现个性化内容推荐。 到2 0 0 1 年,个性化研究已经在商业领域得到越来越广泛的应用。纽约大学 的g e d i m i n a s a d o a v i c i u s 和a l e x a n d e r t u z h i l i n 实现了个性化电子商务网站的用户 建模系统1 :lp r o : i b m 公司在其电子商务平台w e b s p h e r e 中增加了个性化功 能,以利于商家开发个性化电子商务网站;n e c 研究院的e r i cg l o v e r 等人提出 了个性化元搜索引擎原型系统i n q u i r u s 2 。此时,我国也广泛开展了对个性化服务 2 北京邮电人学硕i j 研究生学位论文第一章绪论 的研究,提出了一些原型系统。清华大学的冯翱等人提出了基于a g e n t 的个性化 信息过滤系统o p e nb o o k m a r k ;南京大学的潘金贵等人设计并实现了个性化信息 搜集智能体d o l t r i a g e n t 。 到近几年,个性化服务逐渐从学术研究走向了实际应用。很多公司纷纷推出 个性化系统,提供个性化服务。很多网站,如m i c r o s o f t 、a o l 、c n n 、i b m 等, 均推出了个性化功能;很多电子商务网站也注意到了个性化服务的巨大商机,如 a m a z o n 、e b a y 、b e s t b u y 以及我国的新浪、搜狐、阿里巴巴等也都推出了个性 化服务功能。 1 3 个性化内容推荐技术与影片推荐技术 1 3 1 个性化内容推荐技术 随着网络技术的发展及机器学习、模式识别等知识发现技术的成熟,电子商 务竞争己使得信息服务方式从传统的“一对多”发展到“一对一”的个性化用户 服务方式,即为恰当的用户在恰当的时间方便快捷地提供恰当的信息。随着电子 商务中引入个性化用户服务方式,企业需要对w 曲环境下的客户资料数据进行 深入的统计与分析,找出不同用户兴趣所在,透视隐藏在这些数据之后的更重要 的用户兴趣模式信息以及关于这些数据的整体特征的描述并预测其发展趋势等。 了解用户在w e b 环境中的访问模式将不仅改善w 曲站点设计,而且对企业市场 决策过程具有重要的意义。基于w e b 挖掘的个性化推荐服务即是利用个性化技 术将传统的数据挖掘( d a t am i n i n g ) 对象同w e b 访问信息结合起来,利用w e b 挖 掘的方法抽取用户感兴趣的潜在有用的模式与信息,然后基于这些模式和信息为 用户提供“一对一”的具备自适应的个性化推荐服务。这些个性化推荐服务将大 大缩短用户在网络上的访问延迟,并且尽最大努力地提高提供给用户的网络信息 服务质量。w e b 己成为人们获取信息的一个重要途径,由于w e b 信息的日益增 长,人们不得不花费大量的时间去搜索,浏览自己需要的信息。搜索引擎( s e a r c h e n g i n e ) 是最普遍的辅助人们检索信息的工具,比如传统的搜索引擎a l t a v i s a , y a h o o 和g o o g l e 等。信息检索技术由于其通用的性质,虽然满足了人们一定的 需要,但仍不能满足不同背景、不同目的和不同时期的查询请求。个性化服务技 术就是针对这个问题而提出的,它为不同用户提供不同的服务,以满足不同的需 求。个性化服务通过收集和分析用户信息来学习用户的兴趣和行为,从而实现主 动推荐的目的。 个性化推荐服务即是利用个性化技术将传统的数据挖掘对象同w e b 访问信 息结合起来,利用w e b 挖掘的方法抽取用户感兴趣的潜在有用模式与信息,然 后基于这些模式和信息为用户提供“一对一 的具备自适应性的个性化推荐服务。 3 北京邮电人学硕i - 1 i ) f 究生学位论文第一章绪论 个性化服务技术能充分提高站点的服务质量和访问效率,从而吸引更多的访问 者。 个性化内容推荐系统根据其所采用的推荐技术可以分为两种:基于规则的系 统和信息过滤系统。信息过滤系统又分为基于内容过滤系统和协同过滤系统。 基于规则技术是根据用户的静态特征和动态属性来制定规则,一个规则本质 上是一个i f t h e n 语句,规则决定了在不同的情况下如何提供不同的服务。其 优点是简单、直接,缺点是规则质量难以保证,而月不能动态地进行更新。 基于内容过滤技术通过分析用户历史上访问的内容,向该用户推荐新的类似 的或相关的内容,其思想是根据用户访问的内容来判断用户的行为和需求。其优 点是简单、有效;缺点是难以区分资源内容的品质和风格,而且不能为用户发现 新的感兴趣的对象,只能发现和用户已有兴趣相似的资源。 协同过滤技术所基于的不是当前用户自己的访问历史,而是许多与之具有相 同或相似访问行为的用户的访问历史,即当一个用户使用推荐系统时,系统根据 其他与该用户具有相同或相似访问模式( 点播了哪些影视资源) 的用户的访问历 史进行推荐。协同过滤技术显式或隐式地收集用户对某个对象的评价信息,从而 形成具有相似兴趣的用户类群,然后通过用户类群来预测某个用户对该对象的看 法。其优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题: 一个是稀疏性,亦即在系统使用初期,由于系统资源还未获得足够多的评价,系 统很难利用这些评价信息来发现相似用户;另一个是可扩展性,随着系统用户和 资源的增多,系统的性能会越来越低。 个性化内容推荐技术作为技术核心已经广泛应用在电子商务、信息搜索、信 息交互和影视点播服务等领域。用户在感受良好交互体验的同时,也将自己的浏 览行为记录到推荐系统中,使得推荐系统的数据同益丰富,推荐准确度同益提高。 1 3 2 影片推荐技术 影片点播服务采用个性化内容推荐技术的几种主要推荐方式进行影片推荐。 主要分为:静态推荐、用户行为推荐、用户协同推荐和语义推荐。下面结合具体 的影片点播系统分析这几种常用的影片推荐技术。 ( 1 ) 静态推荐 静态推荐采用基于规则的推荐方式,系统储存着已经编写好的用户推荐规 则。这些静态规则通过分析用户输入的影片需求进行影片推荐。具体的有: a ) c l e r k d o g s t m 系统 输入影片的名字,c l e r k d o g s 就可以推荐类似的片子,无论是主流的还是特 例的。 4 坏,但是不失为一个好工具。 c ) n e t f l i x t 5 】系统 n e t f l i x 会要求用户对一些影片进行评分,根据评分的高低来确定它接下来将 会想要看哪些影片。评分的做法对用户来说比较方便,但是随后生成的影片目录 却未免太冗长,其中有些重复、也难免有不少内容是不符合用户喜好的。 d ) m o v i e l e n s 6 】系统 m o v i e l e n s 的操作十分简单,但却是很成熟的电影推荐工具。只需对1 5 个影 片进行了评分,m o v i e l e n s 就可以了解用户的品味、向用户推荐影片,推荐的精 准度大大的高于n e t f l i x 。 ( 2 ) 用户行为推荐 用户行为推荐采用基于内容过滤的推荐方式,其根据用户的访问记录来推 断用户的喜欢特征进而推荐类似影片。具体的有: 如m d b f 7 1 系统 i m d b 会根据用户搜索影片的记录,自动向用户推荐影片。i m d b 的数据库 对大量的影片进行相似性和差异性分析,只要用户点击“推荐”按钮,与用户搜 索相关的影片就会呈现出来。这个软件很适合那些没时间给影片评分的人,而且 推荐的准确度也相当可靠。 ( 3 ) 用户协同推荐 用户协同推荐采用协同过滤的推荐方式,它首先分析所有用户的浏览行为, 然后根据其他与该用户具有相同或相似访问模式的用户的访问历史进行推荐。具 体的有: a ) c r i t i c k e r 8 】系统 c r i t i c k e r 也是一个界面设计很简洁,并且推荐影片的功力很强大的软件。它 不仅采集用户对影片的评分,而且将用户和其他用户的评分整合分析,构造“品 味相似指数 。通过这个指数,用户就可以浏览和其品味最接近的用户的页面, 事实上也将网络社区的概念融入了进来。 ( 4 ) 语义推荐 语义推荐是系统分析用户点播影片或者输入查询的语义进行挖掘。具体的 有: 幻t a s t ek i d 9 】系统 t a s t ek i d 是个全方位的推荐网站,不仅可以推荐你输入的影片名相似的影 北京邮 乜人学硕i j 研究生学位论文第一章绪论 片,还可以推荐相关的音乐等内容。比如,输入影片教父,它还会显示一些 你可能喜欢的乐队、书籍等。 b ) j i n n i j 系统 j i n n i 是目前为止最好的电影推荐网站。用户可以直接搜索影片,也可以让 它根据影片的类型、时间等因素提供推荐,j i n n i 的功能十分完善。根据我的使 用经验,它推荐的片子总是吻合我的喜好。另外必须一提的是,j i n n i 的语义搜 索做的很好,比如用户敲入“黑帮”等词汇,出来的结果都会十分的贴切。 v o d 应用服务器数据库用户点播记录表中包含了大量的用户点播信息,通 过对用户点播记录表使用各种数据挖掘技术,如关联规则、序列模式、分类和聚 类等技术,可以获得相似影片资源、相似用户访问模式等信息。而且不需要用户 提供主观的评价信息;可以处理大规模的数据量;可动态地获取用户的点播信息。 基于互联网的w e b 挖掘技术首先要对用户w e b 同志进行预处理,使之成为适合 挖掘的事物数据,并对这些事物数据使用关联规则进行挖掘,得到用户访问页面 之间的关联规则,从而对用户进行个性化推荐。 与基于互联网的w e b 挖掘技术不同,基于数字有线电视网络的v o d 系统的 每个用户终端都有唯一的机顶盒序列号相对应,而且每一个用户点播过的影视信 息都直接存放到v o d 应用服务器中用户点播记录表中,这样首先确定了终端用 户的使用身份,然后确定了该用户所点播的所有影片历史记录,这些记录就是准 确,精简的事务数据。所以基于v o d 系统的w 曲挖掘,不需要进行w e b 同 志预处理等过程,大大减少的运算时间。对数据库中形成的事物数据,同样使用 关联规则挖掘生成用户点播记录之间的关联规则,结合不同用户的历史点播信息 进行个性化内容推荐。 1 4 论文研究内容 本论文的目标是在v o d 应用服务器数据中生成用户点播记录表的基础上, 运用w e b 挖掘技术和个性化推荐技术,采用关联规则挖掘的方法,对用户进行 个性化推荐,并实现一个基于关联舰则挖掘的个性化内容推荐系统,在实验的基 础上给出性能评价。 本文主要工作有: ( 1 )本论文在关联规则挖掘算法a p r i o r i 算法的基础上,提出了新的改进 算法,a p o r i r i 算法使用逐层搜索的迭代方法,每次迭代均产生大量的侯选k 项 集,影响了算法的执行效率,本文针对此缺点对算法进行了优化,其核心思想是 联接生成k 维侯选项集时,判断它的k 1 维子集是否存在k - l 维侯选集中,若是 则k 维侯选项集计数加l ,如果不在则直接删除,最终计数等于k 的则为k 项频 6 北京邮i n 人学硕i :研究生学位论文第一章绪论 繁的,这样每生成一个k 维项集只需搜索一遍k 1 项集,大大提高了算法的效率。 理论分析和实验证明该方法明显优于原算法。 ( 2 )设计了一个基于v o d 系统的个性化内容推荐系统。它分为离线部件 和在线部件两大部分,能根据用户的历史点播行为,结合关联规则挖掘结果为用 户提供感兴趣的影片联接,它是一个自动的过程,不需要人工干预。 ( 3 ) 本论文把利用a p r i o r i 改进算法生成的关联规则作为系统核心模块应 用于个性化内容推荐系统,对系统中挖掘功能模块与数据库的输入输出交互进行 了设计,并给出相应的推荐步骤。 1 5 论文内容组织 本文的内容大致安排如下: ( 1 )第一章为绪论部分,主要介绍数字有线电视网络概述、基于该网络 v o d 系统所面临的问题及解决方案和课题的研究背景以及论文的主要内容。 ( 2 )第二章为个性化w e b 挖掘与个性化内容推荐技术,首先介绍w e b 挖 掘的基本概念,以及w e b 挖掘的分类和基本过程;同时对个性化技术的提出, 个性化推荐技术的定义及关键技术进行了详细介绍,并结合v o d 系统自身的特 点比较了各种推荐技术的优缺点,由此引入本文所要研究的内容。 ( 3 )第三章是关联规则挖掘算法,对典型的关联规则挖掘算法进行介绍 和比较,并在此基础上提出了一种新的应用于个性化推荐的关联规则挖掘算法 a p r i o r i 改进算法。 ( 4 )第四章为利用挖掘的关联规则进行个性化内容推荐,介绍了利用该 关联规则挖掘算法实现个性化内容推荐系统的体系结构、挖掘模块的设计、影响 推荐准确度的相关因素、推荐步骤以及如何与数据库进行交互,生成推荐链接。 最后通过实验演示此系统的运行情况。 ( 5 ) 第五章是本文的结论与展望。 7 北京邮电人学硕i :研究生学位论文第一二章w e b 挖掘j 个性化内容推荐系统 第二章w e b 挖掘与个性化内容推荐系统 2 1w e b 挖掘介绍 2 1 1w e b 挖掘的研究背景 随着互联网的飞速发展,w o r l dw i d ew e b 上的信息量j 下在呈指数增长。在内 容迅速增长的同时,w e b 用户也在迅猛地增长。海量的网页在为人们提供包罗万 象、无比丰富的信息资源的同时,也向人们提出了如何快速地从这个信息海洋中 获取其所需信息的挑战。通过w e b 挖掘分析用户的各种信息并建立用户访问模 式是建立个性化内容推荐系统的关键,因为只有首先客观的了解用户的需求,然 后才能根据这些特性向用户提供个性化服务。 面临如此庞大的信息空阳j 以及w e b 信息组织的无序化,搜索是解决网络信 息的无序性和混乱的一个基本方法,现代社会的竞争趋势要求对这些信息进行实 时和深层次的分析,如何利用数据挖掘的知识,进一步提高w e b 信息搜索的性 能是众多学者研究的热点问题。 搜索引擎( s e a r c he n g i n e ) 在一定的程度上解决了人们对信息的需求,但远没 有达到令客户满意的程度。信息检索界研发了很多搜索引擎【l2 1 ,但其覆盖率有限, 查全率低,一般的搜索引擎是基于关键字的查询,其命中率较低,也不能针对特 定的客户给出特殊的服务,因为每个人兴趣点是不同的,因此不具有个性化。解 决这些问题的一个途径就是将传统的数据挖掘技术和w e b 结合起来,进行w e b 挖掘。面向w 曲的数据挖掘是一个比较前瞻性的问题,称为i n t e r n e tm i n i n g 或者 w e bm i n i n g 。w e b 挖掘就是从w e b 文档和w e b 活动中抽取感兴趣的、潜在的有 用模式和隐藏信息。它是由o r e ne t z i o n i 1 3 1 于1 9 9 6 年提出的。他认为w e b 网页 是有结构的并且是可以挖掘的。但面向w e b 的数据挖掘比面向单个数据仓库的 数据挖掘要复杂得多,因为传统数据库中的数据是结构化的,而w e b 上的数据 最大的特点是数据的半结构化,这就决定了面向w e b 的数据挖掘将是一个颇具 挑战性的课题。半结构化是相对于结构化和非结构化而言的,例如传统数据库中 的数据结构性很强,我们称之为完全结构化的数据,同时还存在一些诸如一本书、 一张图片等完全无结构的数据。w e b 上存在的数据既不是完全结构化的也不是完 全非结构化的,因为它的页面也具有一定的描述层次,存在一定的结构,所以我 们将它称为半结构化的数据。 w e b 挖掘是一项综合技术,它涉及w e b 、数据挖掘、计算机语言学、信息学 等多个领域。w e b 挖掘就是从w e b 文档和w e b 活动中抽取感兴趣的、潜在的有 用模式和隐藏信息【1 4 1 。w e b 挖掘可以在很多方面发挥作用,如对搜索引擎的结 北京邮i u 人学硕i :研究生学位论文第_ 二章w e b 挖掘j 个性化内容推荐系统 构进行挖掘,确定权威页面,w e b 文档分类,w 曲l o g 挖掘【l5 1 ,智能查询,建立 m e t aw 曲数据仓库等。我们从更为一般的角度出发,对w e b 挖掘作如下定义。 w e b 挖掘是指从大量w 曲文档结构和使用的集合c 中发现隐含的模式p 。 如果将c 看作输入,p 看作输出,那么w 曲挖掘的过程就是从输入到输出的一 个映射: 芎:c _ p w e b 挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相 类似,都是在对大量的数据进行分析的基础上,做出归纳性的推理,预测客户的 行为,帮助企业的决策者调整市场策略,减少风险,做出正确决策的过程。由于 在w e b 世界中,w e b 数据具有以下特点,因此对w e b 进行有效的资源和知识挖 掘面临极大的挑战【1 6 】: ( 1 )与有效的数据仓库和数据挖掘相比,w 曲非常庞大。w 曲的信息量 目前以兆兆字节( t e r a b y t e s ) 计算,而且仍然在迅速增长。许多机构和社团都在把 各自大量的信息置于网上。这使得不可能去构造一个数据仓库来复制、存储或集 成w 曲上所有的数据。此外,由于w e b 文档本身是半结构或无结构的,且缺乏 机器可理解的语义,而数据挖掘的对象局限于数据库中的结构化数据,并利用关 系表格等存储结构来发现知识,因此,有些数据挖掘技术并不完全适应于w e b 挖掘,即使可用也需要建立在对w 曲文档进行预处理的基础之上。 ( 2 )与传统的文本文件相比,w e b 页面的复杂性更高、结构更加多元化。 w 曲页面没有统一的结构,它包含了远比一般书籍或其他文本文档多得多的风格 和内容。可以将w e b 看作一个巨大的数字图书馆,然而,这一图书馆中的大量 文档并不根据任何有关排列次序加以组织。它没有分类索引,更没有按标题、作 者、扉页、目次等的索引。在这样一个图书馆中搜索希望得到的信息是极具挑战 性的。 ( 3 )w e b 是一个动态性极强的信息源。w 曲不仅以极快的速度增长,而 且其信息还在不断地发生变化。新闻、股票市场、公司广告和w 曲服务中心都 在不断地更新着各自的页面,链接信息和访问记录也在频繁的更新之中。 ( 4 )w e b 面对的是广泛的访问需求多样化的用户群体。目前互联网上连 接着超过7 千万台工作站,其用户群仍在不断地扩展之中。各个用户可以有不同 的背景、兴趣和使用目的,大部分用户并不了解信息网络结果,不清楚搜索的高 昂代价,极容易在“黑暗”的网络中迷失方向,也极容易在“跳跃式 的访问中 烦乱不已和在等待信息中失去耐心。 ( 5 )w e b 上的信息只有非常小的一部分是与用户兴趣相关的。据说9 9 的w e b 信息相对9 9 的用户是无用的。虽然这看起来不是很明显,但一个人只 9 北京邮i f d 人学硕 :研究生学位论文第一二章w e b 挖掘j 个性化内容推荐系统 是关心w e b 上很小的一部分信息确是事实,w e b 所包含的其余信息对用户来说 是不感兴趣的,而且会淹没所希望得到的搜索结果。 这些挑战已经推动了如何有效地发现和利用互联网的资源的研究工作。w e b 挖掘是一个更具挑战性的课题,它能实现对w e b 存取模式、w e b 结构、规则或 动态w e b 内容的查找。 2 1 2w e b 挖掘的研究意义 用户在v o d 系统点播影视资源都会留下点播记录,这些信息自动存储在 v o d 应用服务器数据库的用户点播汜录表中。分析网络背后的用户行为,是获 取用户行为偏好的良好途径。w e b 分析员工可以通过分析和处理数据库的用户点 播记录生成有意义的信息,例如有多少人点播了该影片、他们是从哪儿来、哪些 影片最受欢迎等。w 曲数据挖掘的潜力在于应用最新的数据挖掘算法分析用户点 播记录。众多学者已尝试着把w e b 用户行为挖掘研究应用在以下方面: ( 1 )为用户提供个性化内容服务。对大多数的w e b 站点来说,让用户感 到整个系统是完全为他( 她) 自己定制的交互网站是w e b 网站成功的秘诀。因此可 以针对不同的用户,根据用户访问历史,按照其个人的兴趣和爱好( 数据挖掘算 法得到的用户访问模式) ,向用户动态的推荐商品,自动为用户提供个性化的服 务。 ( 2 )提高系统效率。通过用户点播记录挖掘,可以发现用户的需要和兴 趣,对需求强烈的地方提供优化;用服务器( 或代理服务器) 预先存储的方法来解 决下载缓慢的问题,从而有助于找到平衡服务器的负荷,优化传输,减少阻塞, 缩短用户等待时间,提高系统效率和服务质量。 ( 3 )提高系统结构设计。通过挖掘提供用户使用网站信息,可以帮助基 于w e b 挖掘的个性化内容推荐系统设计者对交互层的修改更加有目的、有依据, 稳步的提高用户的满意程度。 2 1 3w e b 挖掘的分类 根据不同的w e b 数据挖掘对象,将w e b 数据挖掘分为w e b 内容挖掘( w e b c o n t e n tm i n i n g ) 、w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) 及w e b 使用挖掘( w e b u s a g em i n i n g ) 。下面是w e b 挖掘的分类图,如图2 - l 所示。 1 0 ( 1 ) w 曲内容挖掘 w e b 内容挖掘是从w e b 文档内容或其描述中抽取有用知识
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 4.2.1合并同类项 说课稿-2024-2025学年人教版七年级数学上册
- Sotagliflozin-Standard-生命科学试剂-MCE
- 7.2.2 基因在亲子代间的传递教学设计-人教版生物八年级下册
- 9.1 正弦定理与余弦定理说课稿-2025-2026学年高中数学人教B版2019必修第四册-人教B版2019
- 2025年专业技术人员继续教育公需科目人工智能与健康试题及答案
- 2025年管理基础试题及参考答案
- 2025年全科医生转岗培训考试(理论考核)复习题及答案
- 2025年安全监护题库及答案
- 4.2 国民经济的主导-工业(第2课时)说课稿2025-2026学年仁爱科普版地理八年级上册
- 2 液体的压强说课稿-2025-2026学年初中物理教科版2024八年级下册-教科版2024
- 2020-2024年北京市海淀区高三语文期中考试文言文阅读汇编
- 2024公安机关人民警察高级执法资格考试题(解析版)
- 2025届广东省广州外国语大附属中学初三下学期精英对抗赛英语试题含答案
- 部编版四年级语文上册第六单元教学分析及全部备课教案(共6份教案)
- DB23T 3719-2024 火灾调查物证提取与管理
- 全国学科专业目录及名称代码表
- 项目安全管理考核表
- 食品生产企业安全检查表含日管控、周排查及月调度检查记录表
- TCALC 003-2023 手术室患者人文关怀管理规范
- 解读加缪《局外人》中的几个典型意象
- 新教材人教版高中英语选择性必修第一册全册教学设计
评论
0/150
提交评论