(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf_第5页
已阅读5页,还剩77页未读 继续免费阅读

(计算机应用技术专业论文)基于协同过滤的网络电视推荐系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于协同过滤的网络电视推荐系统的研究与实现摘要 论文题目: 专业: 硕士生: 指导教师: 基于协同过滤的网络电视推荐系统的研究与实现 计算机应用技术 周轶伦 罗笑南教授 摘要 随着电信网、互联网和广电网的三网融合,i p t v 在世界范围内迅速发展, 双向互动数字电视机顶盒( i p t v 机项盒) 成为了数字家庭中的核心组件。i p t v 系统为用户提供越来越丰富内容的同时,其结构也越来越复杂,用户往往会迷失 在庞大的互动节目信息空间中,经过繁琐的操作仍难以找到感兴趣的互动节目。 在这种背景之下,网络电视推荐系统能对用户可能感兴趣的互动节目进行关联、 预测和挖掘,并将节目推荐给用户,以达到节省用户操作时间、增加点播量的目 的。但是,由于数据规模的扩大以及用户喜好的个性化,传统的基于标签和搜索 的推荐算法面临着推荐效果方面的挑战,难以满足i p t v 用户的需求。 本文对基于用户和基于项目的协同过滤数据挖掘算法进行了研究和分析,并 在其基础之上提出了基于评分统计的协同过滤算法。该算法为了解决传统协同过 滤算法存在的新项目问题,对新加入的项目通过统计进行评分预测,在保证误差 较小的前提下,有效的确保了新加入的项目获得推荐系统合理的推荐。此外,相 对于基于内容预测的协同过滤算法,本算法减少了时间复杂度,同时避免了提取 内容时带来的接口不统一问题。运用改进的协同过滤算法,本论文在广东省数字 家庭行动计划的应用背景下,探讨了如何进行网络电视推荐系统的架构设计,并 给出了一个面向数字家庭中间件和i p a n e l 技术的网络电视推荐系统实现方案。 该方案有助于缩短用户查询感兴趣互动节目的时间,提高用户的点播量,从而提 高点播带来的经济收益,也有助于运营商了解用户的兴趣所在,同时,该方案具 有良好的扩展性和可重用性。 关键词:数字家庭、协同过滤、推荐系统、评分统计、数据挖掘 基于协同过滤的网络电视推荐系统的研究与实现 a b s t r a c t t i t l e :r e s e a r c ha n di m p l e m e n t a t i o no fi p t vr e c o m m e n d e rs y s t e m m a j o r : n a m e : b a s e do nc o l l a b o r a t i v ef i l t e r i n g c o m p u t e ra p p lic a ti o nt e c h n o l o g y y i l u nz h o u s u p e r v i s o r : p r o f x i a o n a nl u o a b s t r a c t w r i t ht h e 如s i o no ft e l e c o mn e t w o r k ,i n t e m e t2 u l db r o a d c a s t i n gn e 伯,o r k ,i p t v d e v e l o p e ds w i r l ya l la r o u n dt h e 、v o r l d ,a n db i d i r e c t i o n a li n t e r a c t i v ed i g i t a lt vs e t t o p b o x ( i p t vs e t t o pb o x ) h a sb e c o m eac e n t r a lu n i ti nd i g i t a lh o m e i p t vs y s t e m p r o v i d e s u s e r sw i t h伊o w i n ga b u n d a n tc o n t e n t h o w e v e r , i t si n f r a s t r u c t u r ci s b e c o m i n gm o r ea n dm o r ec o m p l i c a t e d u s e r sa r el i k e l yt o b el o s t i nt h es p a c eo f i n t e r a c t i v ep r o g r 锄i n f o 咖a t i o n ,a n dd i 币c u l tt os e a r c hf o rt h ep r o g r 锄t h a tt h e y m i g h tb e i n t e r e s t e di n d e s p i t ec o m p l e xo p e r a t i o n i nt h i sc o n d i t i o n ,i p t v r e c o m m e n d e rs y s t e mc a nc o 肌e c t ,p r e d i c ta n dm i n et h ep r o g r a m st h a tu s e r sm i g h tb e i n t e r e s t e di n ,a n dr e c o m m e n dt h e mt ou s e r s ,i no r d e rt os a v eu s e r s m a n i p u l a t i o nt i m e , a n di n c r e a s eo r d e r i n gt i m e s b e c a u s eo ft h ee n l a r g e m e n to fd a t as c a l ea n dt h e i n d i v i d u a t i o no fu s e r s f a n c y t h ec o n v e n t i o n a lr e c o m m e n d a t i o na l g o r i t h m sb a s e do n t a g sa n ds e a r c h i n ga r ef a c i n gc h a u e n g e 厅o me f r e c ta s p e c t i nt h i st h e s i s ,w er e s e a r c ha 1 1 da 1 1 a l y s i su s e r - b a s e da i l di t e m - b a s e dc o l l a b o r a t i v e f i l t e r i n gd a t am i n i n ga l g o r i t l u n s ,a n dp r o p o s ea c o l l a b o r a t i v ef i l t e r i n ga l g o r i t l u l lb a s e d o nr a t i n gs t a t i s t i c s t h i sa l g o r i t i si no r d e rt os o l v et h en e wi t e mp r o b l e m ,a n d p r e d i c tt h eg r a d eo fn e w a d d e di t e m sv i ar a t i n gs t a t i s t i c s ,s oa st oe n s u r et h a tt h e n e w a d d e di t e m sa r ep o s s i b l et ob er e c o m m e n d e dt oi p t vu s e r sb yt h er e c o m m e n d e r s y s t e m ,w h i l em a e ( m e a na b s o l u t ee 盯o r ) i sk e p ta tl o wl e v e l w h a ti sm o r e , c o m p a r e dw i t ht h ec o l l a b o r a t i v ef i l t e r i n ga l g o r i t 胁b a s e do nc o n t e n tp r e d i c t i o n ,t h i s a l g o r i t h n lr e d u c et h et i m ec o m p l i c a t i o n ,a n da v o i dt h ep r o b l e m so fv a r i o u si n t e r f a c e s i o ff e t c h i n gc o n t e n to fi t e m s u s i n gt m sa l g o r i t 胁,w er e s e a r c hh o wt od e s i g nt h e i n 行a s t m c t u r eo fi p t vr e c o m m e n d e rs y s t e mf o rt h eg u a n g d o n gd i g i t a lh o m e a “硒t , 、ep r o v i d ea ni m p l e m e n t a t i o ns o l u t i o no fm t vr e c o m m e n d e rs y s t e mo r i e n t i n g d i g i t a lh o m em i d d l e w a r ea n di p a j l e l t e c l u l o l o g y t h i ss o l “o nc a j ls a v et i | 1 1 ef o ru s e r 、 ,h e nt h e ya r es e a r c l l i i 玛f o rt h ei n t e r a c t i v ep r o g r a m st h a tt h e ym i 曲tb ei n t e r e s t e di n i tc a na l s oi n c r e a s et 1 1 eo r d e r i n gt i m e s 邪w e l l 嬲p r o f i t ,a n dh e l po p e r a t o r st of i g u r e o u tw h j c hk i n do fi n t e m c t i v ep r o g r 锄su s e r sa r ei n t e r e s t e di n a tt h es a m et i m e ,t h i s s o l u t i o ni so f9 0 0 ds c a l a b i l i 劬f l e x i b i l i t y 她dr e u s a b i l i t y k e yw o r d s :d i g i t a lh o m e ,c o l l a b o r a t i v ef i l t c r i n g ,r e c o m m e n d e rs y s t e m ,r a t i n gs t a t i s t i c s ,d a :t a m i n i n g i v 论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 塾丝 日期:型望:主:丝 学位论文使用授权声明 本人完全了解中山大学有关保留、使用学位论文的规定,即:学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入 有关数据库进行检索,可以采用复印、缩印或其他方法保存学位论文。 学位论文作者签名:同象巧移 日期:2 0 ( j 7 年5 月斗日 基于协同过滤的网络电视推荐系统的研究与实现第l 章综述 第1 章综述 本章将给出本文的研究背景和相关技术的简介,通过对国内外相关技术的研 究现状进行分析,探讨现有理论和现存系统的不足,并提出论文研究内容以及研 究意义,最后,本章将给出论文的章节安排。 1 1i p t v 推荐系统的研究背景及意义 随着电信网、互联网和广电网的三网融合,i p t v 技术迅速发展。在我国,十 六届五中全会通过的中共中央关于制定国民经济和社会发展第十一个五年规划 的建议明确指出:“在信息化建设方面要加强宽带通信网、数字电视网和下一 代互联网等信息基础设施建设,推进三网融合。 国家的政策方针对广播电视 网络在我国信息化建设中的地位和作用高度重视,为i p t v 的发展和推广提供了 良好的支撑回。 i p t v 是用宽频网络作为介质传送电视信息的一种系统,将广播节目透过宽频 上的网际协议向订户传递数码电视服务 。随着双向互动数字电视机顶盒( i p t v 机顶盒) 成为数字家庭中的核心组件,与传统的同轴电缆播出广播电视节目不同, 当i p t v 用户打开电视机,不再只是被动地收看有限数量频道的节目回。i p t v 机 顶盒让电视“观众”向电视“用户”转变,改变了用户“看”电视的方式。通过 宽带i p 网络,i p t v 向用户提供直播电视、时移电视、点播视频、信息浏览和查 询、远程医疗、社保查询等各种内容丰富的频道化互动应用。 然而,由于各种互动频道上的节目越来越多,内容越来越繁杂,“信息迷航 和“信息过载 已经成为同益严重的问题【ij 。信息迷航即i p t v 用户在复杂的网 状信息空间中迷失航向,不知道他们现在处于信息空间中什么位置,无法返回到 。中共中央关于制定国民经济和社会发展第十一个五年规划的建议( 2 0 0 5 年l o 月1 1 日中共十六届五中全 会通过) 。构建数字电视网推进三网融合广电总局科技司常健 。维基百科h n p :z h w i l ( i p e d i a o 叫w i n d e x p h p ? t i t l c = i p t v & v 州锄t = z l l - h 如s 。u t 斯达康:着眼l p t v 增值业务创新互动娱乐体验h n p :、 r w wc n i i c o m c 1 1 2 0 0 7 0 1 0 8 ,c “0 5 2 1 6 h t i i l f 协目n 谗目络自祝推荐i 统的研究与实m 第1 章# 4 某个节点,忘记了他们的目标:信息过载则是由于互动应用提供的信息的复杂性 和广泛性,以及限于用户的知识水平与认识能力,造成用户无法正确理解和使用 息。信息迷航和信息过载问题的存在,无可避免的影响了用户对互动节目的浏览 和点播行为。 在实际应用之中,i p t v 用户在查找感兴趣的节目时,往往需要用遥控器在电 子节目指南( e p g ) 界面上进行多次繁琐的操作浏览大量的无关信息,仍难以 找到感兴趣的互动节目。在目前的i p t v 机顶盒e p g 系统之中,对节目的分类查 找和通过遥控器输入搜索的传统方式,仍然占据主流,而缺乏一种有效的机制, 将各种节目内容和信息内容融合并关联起来,将用户最有可能感兴趣的节目挖掘 出来,并推荐给用户。 在互联网和电子商务领域,同样面临着信息过载与信息迷航的问题。为了给 用户和买家提供确切的推荐,个性化推荐系统应运而生。个性化推荐系统研究先 驱r e s n i c k 认为 2 】= 在信息泛滥的环境下,网站将面临如何有效给予使用者所需 信息的考验,而推荐系统正是这种一对一引导使用者,以符合使用者需要的个人 化的机制。 在信息过滤领域,推荐系统较为成功的案例有t a p s t r y i ”、g r o u 口l e n s n p h o a k s f ”、f a b 州、r e f e h a i 、v e b 州,s i t e s e e r 等。后来,推荐系统从信息过滤领 域延伸到了电子商务领域,在该领域,a m a z o nc o m 吼淘宝网。等国内外知名电 子商务网站都是成功应用的案例。这些成功案例的存在,对i p t v 领域的“信息 超载”和“信息迷航”问题的解决提供了较大的启发。 ,:考; ,。琦 _ e 豫 ,熬 罂磊。篮三 ;魁 。,。 。 ,i 二主。三= 毒三i i 。i 二:譬三。二。, 圈l l 电予商务网站为书籍t h i n k l n gi nj a v a 读者的推荐结果。 本课题研究的意义在于,提供基于协同过滤技术的网络电视推荐系统相关算 。i 目h n b m v w t a o b a oc o 州 。a c o mh 仰w nc or 2 基于协同过滤的网络电视推荐系统的研究与实现 第l 章综述 法,以及实现系统。通过分析i p t v 用户的评分记录,将各种互动节目内容、信 息内容融合和关联起来,从而帮助用户更方便的浏览和查找e p g 系统中自己感 兴趣的内容,并获得更好的互动业务体验。 此外,本课题试图通过让用户更快捷的找到感兴趣的节目资源,提升用户的 兴趣水平和点播量,从而将用户由浏览者转变为点播者和购买者,通过构建用户 的忠诚度,达到提高互动服务的收益的目的。 1 2i p t v 推荐系统的研究现状 本节将会从i p t v 中间件技术、e p g 系统、数字家庭中间件技术、i p t v 推荐 系统技术和常用推荐算法分类五个方面,对研究现状进行介绍。以此为基础,展 开后面各章针对i p t v 推荐系统的推荐算法研究以及推荐系统的研究与设计。 1 2 1l p t v 中间件技术 近年来,随着宽带网络和i p t v 的发展,支持双向互动的i p t v 中间件技术 成为了当前业界关注的热点之一,国际电联i t u t 对i p t v 中间件定义是:嵌入 在应用层与资源层之间的一个连接性软件层,是指实现异构软件实体之间互联互 通的一类软件【10 1 。在t c p i p 模型中,i p t v 中间件运行在应用层( 图1 2 ) ,其 功能涉及到应用控制、会话控制和流量控制,其核心部分是消息和消息队列【l 。 譬应用层。? 表示层 : 会话层 传输层 网络层 数据链路层 物理层 i i p t v 系统 中间件所 在位置 上 扩4 翻 应用层 传输层 i p 层 网络接入层 o s i 模型t c p i p 模型 图卜2i p t v 中间件在网络层次模型中的位置 基于协同过滤的网络电视推荐系统的研究与实现 第1 章综述 中间件通过提供简单一致、高度集成的分布编程环境,简化分布式应用的设 计、编程和管理流程。本质上,中间件是一个分布软件平台抽象了底层分布环境 的复杂性和异构性【1 2 】,它为应用程序的运行提供专业化的服务或功能,使不同的 应用进程能在异构平台之间,通过网络互相通信,并为应用程序提供连接和协同 工作的功能。中间件的出现,是应用软件构架的一次大革命,并迅速地发展起来, 与操作系统和数据库并称为三大基础软件。 i p t v 中间件能将不同厂商的流媒体服务与分发系统、头端系统、b o s s 系统 以及e p g ( 电子节目菜单) 系统联系在一起,通过i p t v 机顶盒提供完整的点播、 广播以及互动应用等业务。在功能方面,i p t v 中间件必须具有开放性和可扩展 性,即要求能按需进行升级,或者增加新的业务与应用。 迄今为止,在i p t v 领域中较为成功的中间件产品有s i e m e n s 公司的m 、,r i o 圆, a l c a t e l 公司的o m p 、k a s e i u l a 公司的l i v i n gr o o m 等等。 d s l a m b o s ss m s v o d 应用 其他应用 v o d 其他 n m s 应用应用 氍4 r 一 f :a p i a p i ! k t 一,j - i h :b。“,t , 1 , 业务逻辑业务逻辑业务逻辑 p r 吵 系统软件 j 部件l部件2部件n 中问件核心模块、 中间件核心模块 资源管理事务管理 世m 吵 : 网络适配层可移植层 轧 应用服务器中间件s t b 中间件 图卜3i p t ,中间件的架构及功能模型 1 2 2e p g 系统介绍 在上一节中所述的e p g ,是e 1 e c t r o n i cp r o g r a mg u i d e 的英文缩写,中文为 电子节目菜单。i p t v 所提供的各种业务的索引及导航,都是通过e p g 系统来完 。倪光震,中国软件的机遇与挑战,中国计算机报,h t c p :,l m d h c c i 血e t 1 1 1 m e d i a ,c i w ,1 3 2 9 ,d 0 8 0 1 h t i l l om ”i o 中间件h t t p :,、删n i y r i o m 0 m p 中间件h t t p :w m j va l c a t c i s b c l l c o m c n ,i i v e 垃a r c h ,d o 帅- i o g i n j s p 7 n t c n l i d 8 4 3 。l i v i n gr o o m 中间件h n p :、 r 、 fk a 辩曲丑i i l 幻l u t i o n s ,p d u c t s i i v i n g r o o m p h p 基于协同过滤的网络电视推荐系统的研究与实现第l 章综述 成的。i p t v 的e p g 实质上就是i p t v 的一个门户系统。 通过i p t v 机顶盒,用户可以浏览e p g 系统上的内容,主要包括i p t v 节目列 表和详细信息。e p g 系统是图形界面,一般包括节目的名称、介绍、播放时间等 等。i p t v 用户通过操纵遥控器,浏览e p g 系统上的节目介绍信息,选取其感兴 趣的节目,甚至可以根据节目名称或其他信息搜索节目,从而快速定位。 e p g 系统一般需要传送三种元数据:电信e p g 元数据、d v be p g 元数据和因 特网元数据【】。从导航的角度看,因特网元数据只需要知道u r l 地址:电信e p g 元数据包括内容和网络元数据、用户和业务元数据。内容和网络元数据被传送到 内容管理系统,用户和业务数据被传送到业务管理系统,所有元数据经处理后传 送给应用服务器,并为之管理使用,如图卜4 所示。 图卜4e p g 系统的架构模型【1 3 】 由上图可见,由于机顶盒直接与e p g 系统进行数据传输,因此,推荐系统的 推荐结果必须通过e p g 系统进行呈现。在个性化推荐与e p g 的交叉领域,b s m i t h 等人首次提出个性化电视列表系统( p t v ) 的概念,首次将个性化推荐技术和e p g 系统结合起来,为用户提供电视节目的每日推荐1 4 1 ;l a r d i s s o n o 等人将e p g 概念进一步引申为p p g ( p e r s o n a lp r o g r a mg u i d e ) 概念,将电视观众作为注册 。百度百科h n p :b a i k c b a i d u c o n l ,v i e n r ,6 4 5 0 5 3 h t m 5 基于协同过滤的网络电视推荐系统的研究与实现 第1 章综述 用户,分析并提取其兴趣所在【1 5 】。然而,上述研究者均没有将个性化推荐引入 i p t v 互动节目的e p g 系统之中,其研究也仅仅局限在针对传统的d v b c 广播信 号的e p g 系统之中。 1 2 3数字家庭中间件技术 数字家庭是指各种家用和个人数字化产品,按照现代家庭生活需求组成的 集视听娱乐、信息服务和家居控制等功能于一体,并通过有线电视、宽带通信、 无线通信等与外界实现信息交互和社会化家庭服务的综合智能系统。 近年来,随着数字化产品及信息服务在家庭不断渗透并且日益融合,数字家 庭已经成为新的消费热点,并且迅速发展成为一个规模巨大、产业关联性强的行 业。圆为抓住数字家庭发展机遇,世界各国政府和企业纷纷采取措施,促进数字 家庭产业发展。国家发展改革委、广电总局、信息产业部等国家有关部门也高度 重视和支持数字电视的发展。国内一些知名企业也积极参与产业推进工作。 2 0 0 6 年初,广东省发改委、省信产厅、省科技厅、省广电、省质监局和省通 管局等六个部门联合制定的“广东省数字家庭行动计划”作为重点工作被列入省 政府工作报告和省“十一五”发展规划中任务【1 6 】。2 0 0 7 年,“数字家庭与数字电 视技术应用与示范项目成为国家科技支撑计划。数字家庭以“3 c 融合在家庭、 数字家庭在广东 为总目标,将家庭电视机的功能从单一的广播电视接收设备, 扩充为多媒体信息服务终端。该计划目的在于将社区信息化的各种业务,深入到 家庭。 广东省数字家庭目前推进的“互动高清、机卡分离、安全播出”模式的有线 数字电视应用示范工程,已在广东省内的番禺、南海、云浮等多个地区投入使用, 并取得良好的示范效应 。广东省数字家庭公共资源图如图1 5 所示。 d 关于印发广东省数字家庭行动计划的通知粤发改高【2 0 0 6 1 3 8 8 号 。广东省数字家庭行动计划h n p :、y w w g d d h o m e c o m ,z 们n f 0 勰p x ? i d = 6 o 广州科技网h n p _ ,、v w w 弘k j g ov c n 钓) 【,【,n e w s d c t a i l j s p ? i n f o i d = 1 0 7 7 2 3 6 基于协目过滤的月络电视推荐系统的研究与实现第1 章综述 自黼一一 剜贼臻副一 r 肿嘣瘟 润 竺鲻一 一么一强堑婴堑些婚冀纂n 。罂蛩 两翮y u “器只旷+ 一“ 一。= 乡k 裂、 菇鳓l 一 姻 j 二! d 嘲卜5 广东省数字家庭公北资 1 5 l 蚓【i 数字家庭中削件,是专为广东省数字家庭互动服务扩展设计的i p t v 中刚件 软件,该中怕j 件能支持多种标准的协议和接叫,管理计算资源和网络通讯,它位 于s t b 的服务器的操作系统之上,运行于多个o s 平台,提供跨网络、跨硬件和 跨o s 平台的透明性应用,以及多种互动服务的交互功能( 如图l - 5 所示) 。该中 间件具有开放性强、功能稳定、可移植性强的特点。 对数字家庭中间件详细的阐述将在本文的第凹章给出。本文也将在数字家庭 中问件的基础之上,对i p t v 推荐系统进行实现。 1 2 4l m 推荐系统技术 在现存的i p t v 中间件基础之上实现的互动频道,其内容较为繁杂,用户在 查找和点播感兴趣的节目时往往需要用遥控器在电了节目指南界面上进行多次 繁琐的操作,较为不便。斟此,利用i p t v 技术取向互动的特电,在互动频道r 实现推荐系统,是一犬发展趋势。 目前,国内外存在将推荐系统应用于网络电视之上的案例。倒如百视通网络 公司和u t 斯达康公司提出的“关联互动网络电视业务”o ,是一项颇具特色的 创意( 如图卜6 所示) 。就像电视版的“互联网相关文章链接”,它将类似内容的 电视节日链接在一起让剧户迅速找到一组自己喜爱的节目内容或正同期橘放的 :;1 8 擎焉箐哿筹? i 矗蒙嬲嚣裂紧+ 。:。:。 7 誊 荐 基f 协同过谴的目络自视推荐系统的研究与实现第1 章综述 其他频道的同类节目,节省用户检索时间 中用户可以像浏览互联网上的网页一样 需要的、有价值的内容和信息。 带给用户较佳的体验。在该系统之 通过一级一级的链接,最后找到自己 田卜6 关联互动网络电视业务实例。 然而,现存案例使用的仍然是基于标签和基于搜索的关联方式”】【”,该推荐 方法通过对节目的内容进行关键字标识,从而建立节目之间的联系,在算法上属 于一种基于内容的推荐算法,该推荐算法不基于用户的浏览和点播i 己录,未能实 现分析和挖掘每个用户的个人* 趣,此外,该推荐算法对所有用户的推荐结果是 一致的,无法做到个性化推荐。因此,其推荐结果不能因人而异,而且过于固定 和狭窄,在效果上不尽如人意。 1 2 5 常用推荐算法分类 推荐系统应当顺应当今以人为本的理念,重点关注用户的个性,以提供个性 化的服务为目的。推荐算法,是推荐系统的核心部分,它决定了推荐系统的效果 和效率的优劣。推荐模块以个性化推荐技术和算法为技术支撑。为了产生精确而 有效的推荐,保证推荐系统的实时性要求,研究者提出了各种不同的推荐算法, 其中许多方法来自于人机交互和数据挖掘领域的研究成果。 推荐算法可分为基于内存的协同过滤推荐算法,以及基于模型的协同过滤推 o u t 斯达康:着眼i p t v 值业务创新自娱乐体验h “p :w w m c n c o mc n ,2 0 0 7 0 1 0 8 ,蛆4 0 5 2 1 6h t m 。 国特色的m w 之路h u p :w w w 岫嘣c o m 柚i c j l l m 。d ,6 h 0 2 3 4 6 爪d d 1 b r o m 9p p 【 基于协同过滤的网络电视推荐系统的研究与实现第l 章综述 荐算法两类。在电子商务领域,较为流行的推荐算法包括基于手工决策的推荐算 法,基于数据挖掘技术的推荐算法【1 7 】【1 8 】,基于内容过滤的推荐算法【1 9 】,基于协 同过滤的推荐算法【2 们,关联规则推荐算法【2 l 】等。 在诸多推荐算法之中,基于关联规则的推荐算法、基于用户的协同过滤算法 以及基于项目的协同过滤算法,在实践上是应用最为广泛,效果和效率最为稳定 的算法,也最可能被应用到数字家庭网络电视推荐系统之中。因此,本文将在第 二章对这三种算法进行详细的阐述和分析比较,并对其进行评价。 表卜1 用户一项目评分矩阵 i l1 2 i j i 。 u lw l l w 1 2w i jw 1 。 u 2w 2 1w 2 2 w 2 j w 2 。 u w 1w - 2w _ jw - 。 协同过滤算法通过分析用户对项目的评分,即分析用户项目评分矩阵( 如表 1 1 所示) ,形成用户间或项目间的关联,从而预测单个用户的兴趣。协同过滤推 荐方法依据其他用户对信息作出的评价,来对用户的行为进行分析,通过搜索具 有相同兴趣爱好的用户、或相同爱好群体的项目,来产生推荐结果。 在效率方面,协同过滤算法比关联规则等算法更合适互动数据的挖掘,更适 用于i p t v 互动频道的推荐系统实现。在学术方面,国内外对协同过滤的研究, 主要集中在基于用户的协同过滤算法以及基于聚类的协同过滤算法上。然而,基 于用户的协同过滤算法,面临着顾客矩阵稀疏,在用户和项目数量大时,进行最 近邻搜索将会成为整个算法的瓶颈,计算量呈线性加大。而基于聚类的协同过滤 算法将用户的特征与一个用户段进行匹配,若聚类的粒度太大,将会导致精度上 的损失,假如减小聚类的粒度,则将导致在线运行效率的下降。 针对基于用户的协同过滤算法以及基于聚类算法存在的缺点,gl i n d e n 、b s a n ,a r 等人提出了基于项目的协同过滤算法【9 】【2 2 1 ,并在电子商务领域得到了广泛 应用。本文提出的改进算法以及实现系统,正是建立在基于项目的协同过滤算法 基础之匕。 。b r o a d v i s i o n h n p : 、 n v b r o a d v i s i o n c o m 基于协同过滤的网络电视推荐系统的研究与实现第l 章综述 1 3 论文研究内容 基于以上背景,本论文将基于中山大学、中大讯通软件科技有限公司与聚晖 电子科技有限公司等企业合作的数字家庭与数字电视技术应用与示范项目, 开展i p t v 互动节目推荐算法以及m ,推荐系统的研究工作。该项目包括一个 网络电视互动节目推荐系统,采取基于项目的协同过滤推荐算法【2 3 1 ,该算法是一 个效率优秀的推荐算法。然而,随着数据规模越来越大,基于项目的协同过滤算 法的缺陷,例如数据稀疏性问题【2 3 1 、可扩展性问题剐和冷启动问题【2 5 1 也逐渐暴 露出来。其中,冷启动问题,尤其是新项目问题的存在,使得新加入的互动节目 几乎不可能获得系统的推荐机会,不利于提高新节目的推广,对新节目的点播率 和推荐系统的效果造成了负面影响。 针对以上存在的实际问题,本论文在重点分析基于项目和基于用户的协同过 滤算法基础之上,提出一种改进的基于项目的协同过滤算法一基于评分统计的 协同过滤算法,通过对新加入的项目进行评分预测,以使其获得合理的推荐机会, 从而提高新加入的互动节目获得推荐系统推荐的机会。此外,本论文应用改进后 的基于项目的协同过滤算法,设计并实现基于数字家庭中间件的推荐系统的系统 架构,并将其关键部分做出阐述,最后对应用效果进行总结。 本文有以下创新点: ( 1 ) 本论文提出了一种基于协同过滤的互动电视推荐技术,充分运用了m t v 机顶盒双向互动的特点,在原有互动频道的e p g 系统基础之上,实现个性化推 荐系统,推荐系统产生的结果实现以人为本、因人而异,从而提高用户的操作简 易度,调动用户对节目点播的兴趣,增加用户的点播量,提高点播带来的经济收 益。同时,该系统有利于帮助运营商衡量互动节目的受欢迎程度,使其更为及时 的了解客户需求。 ( 2 ) 本论文提出了一种基于评分统计的协同过滤算法,目的在于解决传统 的协同过滤算法中存在的冷启动问题,尤其是新项目问题,从而保证新加入的互 动节目能合理的获得系统的推荐;此外,本论文提出项目相似度的置信度概念, 通过对相似度进行置信度处理,提高推荐精度,相对于传统的基于项目的协同过 o 数字家庭与数字电视技术应用与示范 ,国家科技支撑计划,编号:2 0 0 7 b a h l 3 8 0 5 i o 基于协同过滤的网络电视推荐系统的研究与实现 第l 章综述 滤算法,本算法的m a e ( 平均绝对误差) 平均降低了9 6 :相对于基于内容预 测的协同过滤算法,本论文提出的基于评分统计的协同过滤算法效率更高,同时 避免了提取项目内容时存在接口不统一的问题。 ( 3 ) 运用基于评分统计的协同过滤算法,本论文设计了一个面向数字家庭 中间件和i p a n e l 技术的网络电视推荐系统的解决方案,并将其进行了实现。该 方案依据w 曲s e r v i c e s 模型与s o a 架构进行设计,有助于解决服务协同工作的 问题,因此,推荐系统能够与各种不同编程语言实现的互动服务平台进行对接, 具有良好的扩展性、可重用性和可移植性。 1 4 论文结构安排 本论文将以下面的结构,阐述基于协同过滤的网络电视推荐系统的研究情 况。 第1 章:介绍本课题研究的背景意义,以及一些国内外研究以及应用的现状、 成果和研究意义。介绍i p t v 系统的功能结构和业务模型、e p g 系统与数字电视 中间件技术。详细介绍i p t v 系统中间件的架构和功能,以及数字家庭中间件技 术的架构与应用情况,并论述在数字电视中间件上架设推荐系统的必要性与可行 性。 第2 章:介绍和分析可应用于推荐系统的数据挖掘方法,重点比较基于关联 规则的挖掘方法与基于协同过滤的挖掘方法,同时比较基于用户的协同过滤算法 以及基于项目的协同过滤算法,并对协同过滤算法之中的相关性标准进行比较。 通过比较各算法不同的适用范围,探讨基于项目的协同过滤算法对网络电视节目 推荐系统的适用性,以及应用存在的不足。 第3 章:在上一章的基础之上,针对基于项目的协同过滤算法的冷启动问题, 尤其是新项目问题,分析基于评分预测的协同过滤算法的局限性,提出基于评分 统计的协同过滤算法,给出算法基本流程以及关键部分代码,并通过m o v i e l e n s 数据集作为测试数据,利用平均绝对误差作为评价标准,从而验证算法改进的实 际效果。 第4 章:应用改进后的推荐算法,设计基于数字家庭中间件的网络电视互动 基于协同过滤的网络电视推荐系统的研究与实现 第l 章综述 节目推荐系统的系统架构,给出通信接口和推荐模块等关键部分的实施细节,并 对应用效果进行总结。 第5 章:总结本文的主要工作以及主要成果,分析本文设计的推荐算法以及 推荐系统仍然存在的不足之处,探讨今后的发展方向。 1 2 基于协同过滤的网络电视推荐系统的研究与实现第2 章互动节目个性化推荐算法的评价 第2 章互动节目个性化推荐算法的评价 本章将探讨如何设计合理的推荐算法,并介绍可应用于i p t v 推荐系统的推 荐算法,重点分析基于关联规则的推荐算法与基于协同过滤的推荐算法之间的比 较,基于用户的协同过滤算法以及基于项目的协同过滤算法之间的比较,通过比 较各算法不同的优缺点和适用范围,探讨基于项目的协同过滤算法对网络电视节 目推荐系统的适用性,以及应用于i p t v 推荐系统时存在的不足和挑战。 2 1 个性化推荐算法概述 为了挖掘与分析用户的点播、购买和兴趣数据,满足推荐系统效率和效果两 方面的需求,研究者提出了多种不同的推荐算法。这些算法大都来源于数据挖掘 领域,通过分析用户的点播、购买和兴趣数据,得到用户的兴趣爱好特征,以及 其点播和购买的行为模式,从而向用户产生推荐。 推荐算法可以分为基于内存的推荐算法和基于模型的推荐算法两类【2 6 。,如图 2 1 所示。基于内存的推荐算法运行期间需要将整个数据库调入内存,因此,可 以产生最新的推荐信息,该推荐算法包括基于用户的协同过滤算法、基于项目的 协同过滤推荐算法、基于h o r t i n g 图的协同过滤推荐算法【2 7 1 等。基于模型的推荐 算法首先根据用户数据建立模型,线上模块将建立好的模型调入内存,并进行推 荐,该推荐算法包括b a y e s i a l l 网络推荐算法【2 引、关联规则推荐算法【2 9 1 、聚类推 荐算法【9 】等。 m e m o r y - b 蹴d 协同过滤算法 m o d a l - b a s e d 协同过滤算法 u s c 卜b a s c di t c m b a s e d l 基于h o 州n g聚类b a y e s i a n 网络j 关联规则机器学习 协同过滤算法ll 协同过滤算法ii 图推荐算法ij 协同过滤算法l推荐算法推稃算法分类f n j 题 图2 1 数据挖掘领域主要推荐算法 基于协同过滤的网络电视推荐系统的研究与实现 第2 章互动节目个性化推荐算法的评价 一般而言,基于内存的推荐算法虽然更适用于要求对推荐结果迅速更新的推 荐系统,但是,当数据库庞大到无法全部装入内存时,该算法则捉襟见肘。而基 于模型的推荐算法更适用于数据量庞大的电子商务系统,却难以满足推荐系统的 实时性。由于互动节目更新较为频繁,因此,采取基于内存的推荐算法更适应其 实时性的要求。如何平衡推荐系统的实时性要求和准确性要求,是本章评价和选 择合适推荐算法的重要标准之一。 以下各节将首先对关联规则推荐算法的具体步骤进行介绍和分析,然后对基 于用户和基于项目的协同规律推荐算法进行介绍与分析,最后分析其面对的不足 与挑战,并引出下一章的算法改进方向。 2 2 关联规则推荐算法 关联规则推荐算法通过计算用户在购买或点播某些项目的同时,有多大的倾 向购买其他的一些项目,来对项目之间的相关度进行分析,并进一步提取项目间 的关联规则。该算法根据生成的关联规则推荐模型和用户购买行为向用户产生推 荐。 由于关联规则算法可以分为线上和线下两个部分( 如图2 2 所示) ,线下部 分负责数据预处理、推荐模型的建立和总体使用特征获取,线上部分是动态实时 过程,负责推荐的产生,因此适用于较为大型的数据库,对互动节目推荐系统的 研究有着较大的启发性【3 0 】。 离线模块 数据处理 产生规则 图2 2 基于关联规则推荐算法的推荐系统结构 本节将介绍关联规则推荐算法中的基本概念,以及经典的关联规则推荐算法 a p r i o r i 算法。 1 4 基于协同过滤的网络电视推荐系统的研究与实现第2 章互动节目个性化推荐算法的评价 2 2 1关联规则的基本概念 在介绍a p r i o r i 算法之前,先阐述两个基本概念:支持度( s u p p o r t ) 以及 置信度( c o n f i d e n c e ) 【2 9 1 。 关联规则是形如彳jb 的蕴含式。规则彳jb 在事务集d 中成立,具有支持 度s ,其中,s 是d 中事务包含彳u 男( 即a 和b 二者) 的百分比。它是概率尸( 彳ub ) 。 规则彳jb 在事务集d 中具有置信度c ,如果d 中包含a 的事务同时也包含b 的 百分比是c ,这是条件概率尸( bi 爿) 。用公式可表示为【2 9 】: s u p p o r t ( a :,b ) = p ( a u b ) ( 2 1 ) c o n f i d e n c e ( a = 今b ) = p ( b l a )( 2 2 ) 同时满足最小支持度( m i n s u p ) 和最小置信度( m i n c o n f ) 的规则称作强 规则。如果项集的出现频率大于或等于m i n s u p 与d 中事物总数的乘积,则称项 满足最小支持度m i n s u p ,也可称满足最小支持度的项集为频繁项集。 关联规则的挖掘一般可以分为两步【3 1 1 : ( 1 ) 找出所有的频繁项集。 ( 2 ) 由频繁项集产生强关联规则。 由于第二步的实现较为简单,只需要找出频繁项集中满足置信度的关联规则 即可。至于寻找一个集合中的频繁项集,这属于一个n p 难问题,如果不采取任 何剪枝,穷举算法的时间复杂度为o ( 2 “) 。为了解决这个问题,许多寻找频繁项 集的算法应运而生,而其中最著名的算法就是a p r i o r i 算法。 2 2 2a p f i o r i 算法 a p

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论