(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf_第1页
(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf_第2页
(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf_第3页
(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf_第4页
(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(计算机应用技术专业论文)基于mas的信息合作过滤关键技术的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

江苏大学硕士学位论文 摘要 随着互联网的迅猛发展和在世界范围内的普及,w e b 信息正以指数级的速度 增长,在这样一个无限、无序、无边的空间里,快速、准确的查询到所需要的信 息已经成为一件非常困难的事。如何帮助用户从互联网的海量信息中获得真正需 要的信息正成为当前网络信息获取技术研究领域须迫切解决的一个问题。为了解 决这个问题,智能信息过滤技术正成为非常重要的研究方向,信息过滤技术的发 展方向应该是不断贴近用户需求,模拟人类智慧,其智能化、个性化发展已经成 为必然的发展趋势。 本文主要针对网络信息的个性化服务,通过分析用户兴趣的反馈信息,对用 户不再感兴趣的信息进行及时过滤,并向用户推荐其可能感兴趣信息而展开研究 工作的。研究的目的在于希望通过在客户端浏览器上引入界面a g e n t 、学习a g e n t 和合作过滤a g e n t 的协调工作,加强和改进客户端浏览器的功能,提高信息采集 质量和信息搜索效率,实现面向用户兴趣的信息检索。本文的主要工作包括: 提出了基于m _ a s o v i u l t i - a g e n ts y s t e m , 简称m a s ) 的信息合作过滤 ( i n f o r m a t i o nc o l l a b o r a t i v ef i l t e r i n g ,简称i c f ) 模型,i c f 通过建立用户个人模型和 共同模型来呈现用户兴趣,同时引入反馈学习机制来学习用户兴趣,对用户兴趣 进行更新。 提出了基于强化学习的用户兴趣反馈学习算法。根据用户一段时间内的浏 览行为和对浏览内容的评价结果,学习a g e n t 使用动态q 学习算法对用户模型更新。 在对频繁项挖掘算法f p - t r e e 改进的基础上,给出了带有用户兴趣度权值的 信息过滤算法i w f p t r e e 。1 3 n f p - t r e e 能够从相似用户兴趣中推导出用户的新兴趣。 使用面向a g e n t 的编程语言j a c k 实现了i c f 原型系统。以江苏大学数字 图书馆中总容量近十万字的科技文献作为数据源对i c f 进行了原型实验测试,实 验结果表明同使用f p - g r o w t h 算法进行信息过滤的合作过滤系统( c o l l a b o r a t i v e f i l t e r i n gs y s t e m sb a s e df r e q u e n c yp a t t e r n - g r o w t h ,简称c t s g r o w t h ) 、传统信息过 滤算法( t r a d i t i o n a lc o l l a b o r a t i v ef i l t e d n gs y s t e m ,简称t c f s ) 相比,i c f 的查全率和 查准率都要高于前两者。 本课题得到江苏大学大学生创新基金的资助。 关键词:m a s ;i c f :信息过滤;合作;兴趣度;智能a g e n t 江苏大学硕士学位论文 w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e ta n dt h ew o r l d w i d ep o p u l a r i t yo ft h e w e bi sg r o w i n ge x p o n e n t i a l l y i nt h eu n l i m i t e d , d i s o r d e r l y , a n dt h el i m i t l e s ss p a c e ,i ti s a l r e a d yb e c o m i n gag r e a td i f f i c u l t ya f f a i ri fp e o p l ew a n tt or e q u i r el o t so fi n f o r m a t i o n , w h i c ht h e ya l el o n g i n gf o rq u l c h ya n d p r e c i s e l y h o wt oh e l p1 1 8 e r st og e tr e a la c c e s st o t h ei n f o r m a t i o nn e t w o r ko fi n f o r m a t i o nt e c h n o l o g yf r o mt h ei n t e r a c tm a s s i v e i n f o r m a t i o nh a sb e c o m eu g e mt os o l v et h ep r o b l e ma r e a s t os o l v et h i sp r o b l e m , i n t e l l i g e n ti n f o r m a t i o nf i l t e r i n gt e c h n o l o g yi sb e c o m i n gav e r yi m p o r t a n tr e s e a r c h d i r e c t i o n i n f o r m a t i o nm t e r i n gt e c h n o l o g yd e v e l o p m e n ts h o u l db ec o n s t a n t l yc l o s et o t h ed e m a n d so fu s e r st os i m u l a t eh u m a ni n t e l l i g e n c e i n t e l l i g e n t , p e r s o n a l i t yd e v e l o p i n g h a v eb e c o m i n ga ni n e v i t a b l et r e n do fd e v e l o p m e n t t h i sp a p e r m o s t l ya i m sa tt h ep e r s o n a l i t yo fn e t w o r ki n f o r m a t i o ns e r v i c e s ,a n a l y s i s o ft h ef e e d b a c ki n f o r m a t i o nt oi n t e r e s t e du s e r s w h i c hi st h i sp a p e r si n v e s t i g a t i o n i n f o r m a t i o nt ou s e r sw h i c hn ol o n g e rb ei n t e r e s t e ds h o u l db ef i l t e r e dt i m e l y , o t h e r w i s e i n f o r m a t i o nt h a tm a yb eo fi n t e r e s tt ou s e r ss h o u l db er e c o m m e n d e d t h ep u r p o s eo ft h e s t u d yi st h a tt h ec l i e n tb r o w s e ri n t e r f a c ei n t r o d u c e di n t e r f a c ea g e n t , a d a p t i v el e a r n i n g a g e n t , a n dc o l l a b o r a t i v ef i l t e r i n ga g e n t st e a m w o r kt os t r e n g t h e na n di m p r o v et h e f u n c t i o no fc l i e n tb r o w s e r , a n di m p r o v et h eq u a l i t yo fi n f o r m a t i o nc o l l e c t i o na n d i n f o r m a t i o ns e a r c he f f i c i e n c y t h e r e b yi t 啪r e a l i z et or e t r i e v ei n f o r m a t i o no f u s e r - o r i e n t e di n t e r e s t t h em a i nj o bi n c l u d e s : p r e s e n t i n gu s e ri n t e r e s ti n f o r m a t i o nc o l l a b o r a t i v ef i l t e r i n gp r o t o t y p es y s t e m b a s e do nm u l t i - a g e n ts y s t e m i nt h i ss y s t e m , d e t a i l e dd e s i g n i n gi c f sf r a m e ,t h e n p r o c e e d i n gf u n c t i o n a ld e s c r i p t i o no fi n t e r f a c ea g e n t , l e a r n i n ga g e n ta n dc o l l a b o r a t i v e f i l t e r i n ga g e n t p r e s e n t i n gu s e r si n t e r e s tf e e d b a c kl e a r n i n ga l g o r i t h mb a s e dr e i n f o r c e m e n t l e a r n i n ga l g o r i t h m b yo b s e r v i n gc u r r e n to n l i n eu s e rb e h a v i o ra n df e e d b a c k , l e a r n i n g a g e n t u s e sd y n a m i cq l e a r n i n ga l g o r i t h mt ou p d a t eu s e rm o d e l ( 9i m p r o v i n go nf r e q u e n c yp a r e mt r e ea l g o r i t h mi nm i n i n gf e q u e n c yp a t t e r n i n t h i sp a p e r , d e s i g n i n gak i n do fi n t e r e s t i n gw e i g h tf r e q u e n c yp a u e mt r e ea l g o r i t h m w i t hu s e rw e i g h t e dm t e r e s t i w f p - t r c ei n f o r m a t i o nf i l t e r i n ga l g o r i t h md e d u c e sn e w i n t e r e s tt ou s e rb ym i n i n gu s e ri n t e r e s ti t e mi no t h e ru s e r si n t e r e s t i n gd a t a b a s ew h oh a s s i m i l a ri n t e r e s tt ot h ef o r m e r d e s i g n i n gi c fb a s e do nm a s 。a n dr e a l i z i n gp a r ts y s t e m i cf u n c t i o nu s i n g j a c ka g e n t - o r i e n t e d w eu s ej i a n g s uu n i v e r s i t yd i g i t a ll i b r a r yc a p a c i t yt o n e a r l y 江苏大学硕士学位论文 1 0 0 , 0 0 0w o r d so f5 0 0a r t i c l e sa sas o u r c eo fd a t af o r t h ep r o t o t y p ei c ft ot e s t e x p e r i m e n t a lr e s u l t ss h o wt h a tc o m p a r et ot h ec o l l a b o r a t i v ef i l t e r i n gs y s t e m sb a s e d f r e q u e n c yp a t t e r n - g r o w t h ,l i s t e dc f s g r o w t ha n dt h et r a d i t i o n a lc o l l a b o r a t i v e f i l t o r i n gs y s t e m , l i s t e dt c f s ,i c f sr o c a l l a n da c c u r a c yr a t ea r eh i g h e rt h a n 四s g r o w t ha n dt c f s o u r i n n o v a t i o n gh a sb e e nt h es u b j e c to fj i a n g s uu n i v e r s i t ys t u d e n t sf u n d k e yw o r d s :m a s ;i c f ;i n f o r m a t i o nf i l t e r i n g ;c o l l a b o r a t i v e ;h t e r e s td e g r e e ;i n t e l l i g e n t a g e n t m 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密 学位论文作者签名:_ 弘盔 。7 年d 月,弓日 指导教师签名:吞藿置辱叉 7 年6 肌日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:7 在开壁 日期: 0 7 年6 月,;日 日期:o 年 月,;日 江苏大学硕士学位论文 1 1 问题的提出 第1 章绪论 信息作为一种资源正在经济和社会发展中发挥着越来越大的作用,信息资 源的开发、利用和管理水平已经成为一个国家现代化的重要标志之一。随着因 特n o n t e m e t ) 技术的发展,对基于因特网和w e b 的信息系统的研究变得日益重 要。用户在享受w e b 方便和快捷的同时,也为其庞大芜杂的信息所淹没,要在 浩瀚的信息资源中找出自己需要的内容,无异于大海捞针“1 。为了解决信息资 源和信息检索之间的矛盾,信息检索和信息过滤技术应运而生,并获得了长足 的发展“1 。与信息检索技术相比,信息过滤技术( i n f o r m a t i o n 丘l t e r i n g ) 能够使用 户更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求无关的信息。因 此,信息过滤技术正日益成为解决信息超载问题的必要手段。信息检索和信息过 滤的根本问题是文档的表达和特征提取,然而,经过多年的研究,这个问题仍 然没有得到圆满的解决哪,分析原因,主要存在以下几个问题: ( 1 ) 现有的大多数信息过滤系统,不具有识别用户兴趣、水平的能力,无论 什么兴趣层次的用户,只要进行查询时使用相同查询主题,所得到的信息集都 相同,使得用户依然需要在信息获取系统提供的海量信息中寻求自己所需要的 信息,浪费大量的时间,精力。 ( 2 ) 传统的信息过滤系统假定每个用户是相互独立操作的。过滤的结果只取 决于用户个人兴趣模型与信息源的匹配程度。如此,难以区分资源内容的风格 和品质,不能为用户发现新的感兴趣的信息。 ( 3 ) 系统与用户间交互局限于相关反馈技术,不能根据用户的兴趣需求来定 制查询结果,忽略了交互过程中用户的兴趣,缺乏在出现用户感兴趣的新信息 时主动地通知用户的能力,缺少主动性和智能性。 上述问题产生的原因在于现有的信息过滤技术无法理解用户的意图,无法 完成个性化的请求。为了使未来的信息过滤技术具有个性化和智能化的应用特 征,本文在现有信息过滤技术的基础上提出了基于m a s 的面向用户兴趣的信 息合作过滤关键技术,并提出了一个面向用户兴趣的智能合作过滤原型系统 i c t 。系统结合了m a s 技术,对用户兴趣进行合作过滤,克服了传统信息过滤 技术不能识别用户兴趣;难以区分资源内容的风格和品质,不能为用户发现新 江苏大学硕士学位论文 的感兴趣的信息;缺少主动性和智能性的缺点。 1 2 研究的意义 信息过滤应用范围广泛,数字图书馆“1 采用信息过滤技术来控制不良站点 信息的传播和垃圾邮件炸弹的攻击,并且根据用户规定安全性和内容方面的要 求,为网上信息定义不同的信息标记( 如安全信息、无病毒文件、暴力信息等) , 通过标记处理软件查看这些要求以确定是否需要挡住某些网页( 用户定义的不 安全信息内容) 。在信息服务领域,信息过滤是个性化主动服务的基础。每个用 户都有自己特定的、长期起作用的信息需求。用这些信息需求组成过滤条件, 对资源流进行过滤,就可以把资源流中符合需求的内容提取出来进行服务,即 “个性化服务”。 随着用户对信息利用效率要求的提高,目前的信息过滤技术尚不能很好的 满足用户的要求,其表现在:信息过滤精度差;过滤结果的精确度有限;对用 户个人兴趣的针对性差等诸多方面。因此,在现有情况下,传统的信息过滤技术 已经难以满足用户的信息需求。不难看出,需要研究的内容非常地多,需要解 决的问题也非常地多:如何有效地利用网上信息资源,如何为用户提供个性化 服务,如何利用用户间兴趣相似程度为用户推荐新兴趣信息,如何提高信息过 滤系统的查全率和查准率( 尤其是查准率) 闻等。 m a s 研究逐渐兴起的原因在于m a s 协作求解问题的能力、与已有系统或 软件的互操作能力、对那些具有分布特性的问题的求解能力以及提高系统效率 方面的能力等对用户意图的智能化描述是其他软件或者硬件系统无法比拟的 呻】 1 3 本文的工作和创新 网上信息极度膨胀导致查找信息犹如大海捞针,特别对于那些对专业信息 有迫切需求的专家学者、科研人员等个人用户来说,难以迅速、准确地获得有 价值的网上信息资源。因此用户迫切希望找到一种能够在信息海洋中自动获取 实用、准确、精炼信息,过滤无用、冗余、干扰信息的过滤工具。 为了改善信息过滤与提供信息的质量,针对传统网络过滤工具的缺陷,本 文主要做了以下几项工作: ( 1 ) 提出了基于m a s 的面向用户兴趣的网络信息合作过滤原型系统i c f , 2 江苏大学硕士学位论文 该系统主要针对多用户兴趣,具有过滤用户无兴趣信息,在多用户之间推荐信 息的功能。 ( 2 ) 引入界面a g e n t 为每个用户建立特定的用户个人兴趣模型和用户共同 兴趣模型,以及相应的知识库。 ( 3 ) 提出了基于强化学习的用户兴趣反馈学习机制。学习a g e n t 使用动态q 学习算法对用户一段时间内的浏览行为和对网页的评价结果,对用户个人兴趣 模型和共同兴趣模型进行更新。保证了用户的知识库时刻处于更新状态。 ( 铆针对信息过滤的个性化、智能化发展趋势,应用基于用户兴趣度的频 繁项挖掘算法1 w f p n 设计合作过滤a g e n t ,其可以根据用户模型中的兴趣项 及其兴趣度大小对某网页的浏览行为和评价结果发现用户兴趣,过滤用户不感 兴趣的项集,然后将用户感兴趣的、对用户有用的信息存储到用户的知识库中。 同时对具有相同或相似兴趣的用户进行感兴趣信息的预测和推荐。 ( 5 ) 利用基于a g e n t 的编程环境j a c k 实现了智能a g e n t 的b e l i e f , d e s i r e , i n t e n t i o n 各个模块的定义和理解。 i c f 会根据用户知识水平、专业、爱好、心理倾向以及行为方式等的不同, 来提供多层次个性化的信息服务模板。 本文的创新点在于: ( 1 ) 根据用户上网行为和反馈,提出了基于强化学习的用户兴趣反馈学习 机制。 ( 2 ) 改进了f p - t r e e 算法,提出了基于用户兴趣度的f p t r e e 算法- - i w f p - t r e e 信息过滤算法,由合作过滤a g e n t 将用户不再感兴趣的信息过滤掉,从而得到 用户兴趣项。 ( 3 ) 使用面向a g e n t 的编程语言j a c k 实现i c f 原型系统。 1 4 论文的组织结构 本文分为八章,其主要内容概要如下: 第一章提出了本文的研究内容、研究意义和创新点。 第二章综述了网络信息过滤技术的研究进展,从分析网络信息资源的特点 入手,引出了现有的网络信息的过滤技术,对信息过滤技术的方法进行了详细 的讨论与说明,并指出了未来信息过滤技术的发展趋势。 第三章综述了a g e n t 技术的原理和应用,分析了多a g e n t 系统协作机制和 3 江苏大学硕士学位论文 面向a g e n t 的程序设计语言j a c k 。 第四章首先建立用户个人兴趣模型和公共兴趣模型,利用跟踪用户浏览行 为和用户评价,使用动态q 学习算法学习用户兴趣,更新用户模型。在用户模 型抽取了用户兴趣项之后,使用合作过滤算法,找出具有相同或相似兴趣的用 户群。 第五章提出了改进的带有兴趣度权值的兴趣项集挖掘算法i w f p - t r e e 。该算 法能够在同类用户中找出兴趣度比较高的共同兴趣项,真实准确地反映出该类 用户的共同兴趣,从而将这些兴趣项集推荐给同一类中的其他用户。 第六章主要阐述了i c f 原型系统总体结构,对各组成部分进行详细分析, 并用面向a g e n t 的编程语言j a c k 实现i c f 各功能模块。 第七章对i c f 的性能进行了测试。 第八章是对全文工作的总结,并对下一步工作进行了展望。 4 江苏大学硕士学位论文 第2 章网络信息过滤技术研究现状 2 1 网络信息过滤技术 2 1 1 网络信息的特点 网络信息资源是指“通过国际i n t e m e t 可以利用的各种信息资源”的总称。 随着i n t e r n e t 的迅速发展,网上信息资源也以指数形式增加,网络信息资源作为 一种新兴的信息资源,其内容几乎无所不包,涉及政治、经济、文化、科学、 娱乐等各个方面;其媒体形式多种多样,包括文本、图形、图像、声音、视频 等;其范围覆盖社会科学、自然科学、人文科学和工程技术等各个领域。与传 统的非网络信息资源相比,网络环境下的信息资源具有以下几个方面的特点: ( 1 ) 信息内容丰富”。i n t e r a c t 已经成为全球最大的信息资源基地,在i n t e m e t 上几乎可以获得任何领域的信息。它的信息资源主要以数据库为主体,还包括 采用多媒体技术形成的集文本、图形、图像、声音、动画、电影、音乐为一体 的包罗万象的综合信息系统,而且信息量的增长十分迅速。 ( 2 ) 信息变化频繁。在i n t e r n e t 上,信息地址、信息链接、信息内容经常处 于变动之中,信息资源的更换、消亡更无法预测,也许你在浏览的信息正处在 更新之中。因而,网络信息时时刻刻处在变化和发展之中。 ( 3 ) 信息结构复杂。i n t e m e t 是在自愿的基础上,通过t c p i p 协议将不同的 网络连接起来的。信息资源分别存储在不同国家、不同地区的服务器上,不同 的服务器采用不同的操作系统及数据存取结构,字符界面、图形界面、菜单方 式、超文本方式等缺乏集中统一的管理机制。从整体上看,网络信息资源尚处 于无序状态,因此在信息的组织和过滤方面比较复杂。 ( 4 ) 信息格式多样性。所谓格式就是最基本的计算机存储单元的排列方式 标准。现代计算机信息存储的格式很多,如文字信息的格式有:t x t 格式、r t f 格式、d o c 格式等;图像信息的格式有:b m p 格式、g i f 格式、j p g 格式等。 加上声音、视频和动画等信息,这样就导致网络信息格式的多样化。 ( 5 ) 信息价值不一。由于网络信息的发布具有很大的自由度和随意性,且缺 少必要的过滤、质量控制和管理机制。因而网络信息资源具有不同的层次和效 用,既有科学前沿的研究报告,也有大众通俗读物;既有已经加工整理的信息, 也有无序的原始信息;既有较大参考价值的信息,也有毫无用处的信息垃圾, 5 江苏大学硕士学位论文 甚至于还有不少有害的信息,可谓是良莠不齐。 2 1 2 网络信息过滤技术的特点 传统的信息检索是从静态数据库中查找信息,但它们不够准确。一方面, 用来寻找信息的工具或是不能覆盖i n t e r n e t 上所有的现有信息,即查全率低;或 是不能正确对信息分类和及时更新,即查准率低。另一方面,用户只能用关键 词等向搜索引擎查询信息,不能准确表达自己需要的内容,以至搜索引擎返回 了许多对用户毫无价值的信息。信息过滤则是改进上述问题的处理过程,其目 的是向用户提供需要的信息。第三方面,信息过滤可过滤无用的垃圾信息,其 中包括威胁到信息系统的有害信息。人们要在浩瀚的信息资源中找出自己需要 的内容,不得不寻求自动进行信息过滤的先进工具帮助用户筛选信息。 信息过滤( i n f o r m a t i o nf d t e r i n g 矾是一种系统化的方法,用来从动态的信 息流中抽取出符合用户个性化需求的信息。信息过滤技术检查所有进入信息流 并将信息流与用户需求进行匹配计算,将用户需要的文档送给用户。相比于传统 的信息检索模式,信息过滤技术具有较高的可扩展性,能适应大规模用户群和海 量信息;可为用户提供及时、个性化的信息服务;具有一定的智能和较高的自 动化程度。信息过滤技术有以下特点脚: ( 1 ) 适用于非结构化或半结构化的信息系统。 ( 2 ) 主要处理文本信息。 ( 3 ) 系统中包含大量数据。 ( 4 ) 数据通常不断流入。 ( 5 ) 基于个人或小组的信息爱好而过滤。 6 ) 从输入流中去掉部分数据。 2 2 网络信息过滤产品 最早的w e b 过滤系统之一的s i f t “”,允许利用用户确定的关键词构建模 型。然后这些模型与u s e n e t 新闻文章内容进行匹配,以确定适用于个体用户 的相关文献。s 玎f 1 r 允许进行基于向量空间相似度量及更直接的布尔对照的匹 配。向量空间对照体系还利用相关反馈来重新调节模型中的关键词权值以改善 效率。 1 9 9 2 年f o l t z a n dd u m a i s 比较了两种模型:第一种要求用户直接为自己的用 户模型提供关键词;第二种利用相关反馈的变量形式直接从相关性排序的文献 6 江苏大学硕士学位论文 中抽取关键词。这一研究比较了不同模型描述的有效性。为了使模型与文献匹 配,研究人员应用了直接向量空间对照及一种基于潜在语义标引尺度的简化集。 实验数据显示利用相关反馈方法产生的模型与潜在语义标引匹配相结合,可产 生最佳的过滤效用。 1 9 9 2 年j e n n i n g s & h i g u c h i 研制了b r o w s e 系统,该系统创建一个基于神经网 络的用户模型,采用了非线性的方法表达用户模型。与利用线性方法相比,该系 统可对个性化的信息需求进行彻底及复杂的描述,其缺点是需要基于肯定或否 定相关反馈的训练以达到适宜的性能。 1 9 9 7 年p a z z a n i a n db i l l s u s 描述了一个名为s y s k i ua n dw e b e r t 的系统,该系 统能够基于用户的肯定和否定反馈推荐新的w e b 站点。该系统与众不同的地方 在于它把相关文献的确定看作一个分类问题,即将文献分为两类:热( 相关) 及冷 ( 不相关) 。p a z z a n i a n db i l l s u s 同样论证了将用户提供的关键词与反馈相结合不 断修改模型的模型获得方法。 1 9 9 8 年 1 1 中的过滤系统使用了通过用户对过滤结果的反馈来与用户交 互,至今,用户建模的显式方法仍然是信息过滤系统最常用的方法。有很多采 用显式用户建模的商业系统和学术系统如y a h o o “2 1 和i n f o s e e k “”。 1 9 9 9 年s i t , i f 应用了一个处理用户浏览历史的个人代理“”,系统试图预测 网络数据仓库中用户可能感兴趣的文档。 2 0 0 0 年b o u a c k e r 等提出的c i t e s e e r 中提到了一种用从出版物中摘录出的代 表信息特征的占位符来表示用户模型的方法“”。在客户端,使用c o o k i e 分配一 个唯一的用户识别码来标识一个唯一的用户模型。同年,出现了基于规则和语 义网络的过滤系统,利用规则来标识用户模型,如应用到邮件系统n e t s c a p e e m a i l “6 3 和微软的o u t l o o ke x p r e s se m a i l “”。 2 0 0 3 年c n c gl i n d e n 等在 1 8 中提到著名的a m a z o n 网站的信息过滤系统 利用空间向量方法得到用户之间的相似程度,找到具有相似兴趣用户,为用户 提供购买意见。 2 0 0 4 年过滤系统f o x t r o t “”用知识本体描述领域知识,为信息系统提供语义 基础,克服了传统信息过滤系统仅对孤立词语过滤的缺点,同时将用户模型通 过可视化方式展示给用户,并提供用户在自己的兴趣变化曲线图上修改自己模 型的功能。文 2 0 中采用了本体整合方式中的翻译法进行基于多个本体的信息 过滤。 7 江苏大学硕士学位论文 2 3 信息过滤技术分类 信息过滤技术基本可分为三类:基于内容的过滤( c o n t e n t - b a s e df u t e r i n g ) , 合作过滤( c o l l a b o r a t i v ef i l t e r i n g ) ,经济过滤( e c o n o m i cr a t e g ) 。 2 3 1 基于内容的过滤 在基于内容过滤模式中,每个用户假定是相互独立操作的。过滤的结果只取 决于用户信息需求模型( 即用户模型p r o f i l e s ) 与信息源的匹配程度。在相关反馈 的基础上,系统辅助维护用户模型。基于内容过滤的系统利用资源与用户兴趣的 相似性来过滤信息,如s i f t , p e r s o n a lw e bp e r s o n a l i z e r , l n f o s c o p e 等。1 “。它的优 点是简单、有效,比较适合分析文本信息,缺点是难以区分资源内容的品质和风 格,对声音、图像、视频等形式的媒体还缺乏有效的自动分析方法。 2 3 2 合作过滤 合作过滤的出发点在于任何人的兴趣不是孤立的,而是处于某个群体中。从 用户所属的个性化用户模型中推断用户的兴趣和习惯。根据相同或相近兴趣的 用户对相应信息做出的评价,向其它用户进行推荐。由于不依赖于内容,这种模 式不仅适用于文本格式,也可以广泛应用于非文本介质的资源,如视频、音频等。 合作过滤系统如:t a p e s t r y , g r o u p - l e n s ,f i r e f l y , s e l e c t , l i l e m i n d s 和c i t e s e e r 等 ,它们利用用户之间的相似性来过滤信息。基于合作过滤系统的优点是能为 用户发现新的感兴趣的信息。但是,它也存在两个致命的缺点:其一是稀疏性问 题,即在系统使用初期,由于系统资源还未获得足够多的评价,系统很难利用这 些评价来发现相似的用户。另一缺点是系统可扩展性,即随着系统用户和信息资 源的增多,系统的性能会下降。 2 3 3 经济过滤 依赖于成本和用户获益的计算,依赖于价格机制。经济过滤选择信息是按 照经济的规则:选择一条信息是由于它所用的开销小于不选择它所损失的代价。 如所描述:设c s 表示某一条信息的开销,c r 表示拒绝该条信息而损失的代 价,如果c s 。 江苏大学硕士学位论文 对上述兴趣表示我们可以进行扩展。假定现实世界有无限个事物。每个事 物相对于用户均对应一个兴趣项l ,用户可能对这些事物中的少部分感兴趣,可 以假定每个用户对所有事物都感兴趣,因此每个用户的兴趣项向量的维数是相 同的,即:t r d i g ,”咄,峨,只是这些兴趣项中有些可能用户的兴趣度 为0 或者是一个设定的阈值艿( o 墨m ,s l ,当m , 万时,我们认为该用户对兴趣 项感兴趣,当m ;= 0 时,我们则认为该用户没兴趣) ,此时的兴趣度向量为 w 一cw l ,m ,m , ,在本文,阈值艿即为第五章提到的最小支持度阈值。 4 1 2 用户个人兴趣模型和共同兴趣模型 ( 1 ) 用户个人兴趣模型。建立用户个性化兴趣模型时,首先采用交互法, 在初使用系统时,用户要注册用户名n 令,被要求回答一系列问题。系统对用 户回答进行必要词干抽取处理和关键词切分,从而生成用户兴趣生成树,如图 4 1 所示。树的每一节点均为抽取出的用户兴趣关键词。 图4 1 用户f 的兴趣生成树 f 蟾4 1 r e s f i n g 峨o f 蝴i 用户个人兴趣模型( p c r n a lm o d e l ,p m ) 的建立,就是从兴趣生成树的根节 点通往叶节点的过程。则用户j 的个人兴趣模型可表示为一个二元组集合 丹= ( 嘲j ,m 矗( 啊j ,岷:k ,( w 嘲,) 。若用户在某一段时间内不查询某关 键词,则认为对此词没有兴趣,在模型中删除,并更新其他项的权值。同时, 用户可以直接修改模型中不同关键词的权值以修整自己的兴趣项;修改完, a g c n t 重新计算各关键词的权值,使其归一化。例如:用户,输入关键字:搜 索引擎,中文,过滤,a g e n t 。用户希望这几个关键词的各重要度分别为:2 ,1 ,5 ,2 , 江苏大学硕士学位论文 可以直接进行修改,这样过滤时,用户,的个人兴趣模型为p m = ( 搜索引擎, 2 ) ,( 中文,1 ) ,( 过滤,5 ) ,( a g e n t ,2 ) 。 ( 2 ) 用户共同兴趣模型。共同兴趣模型( c o m 0 d e l ,c m ) - 与个人兴趣模型具有 相同的格式。但是,建立共同兴趣模型主要的目的是根据相同或相近的用户兴 趣来过滤信息,为用户发现新的感兴趣信息。 设在某具有相同或相似兴趣的用户群中已有七个用户建立了个人兴趣模型, 在4 2 节中介绍如何将用户按兴趣相似程度分组。建立共同兴趣模型的过程如 下:查看用户j 的个人兴趣模型p m i ,若w o r d l , 。不在共同兴趣模型c m 中,则将 其加入,即c mu ( w o r d j ,w t , j ) - - c u ;若w 峨j 已在c m 中,则将其权值相加。直 到检查完k 个用户的个人兴趣模型为止。重新计算权值:w i r , ,= ;红, 磊w _ 。 ( u 2 0 ,1 ,2 ,k ,j = 0 ,1 ,2 ,n ) ,使宝w :,- 1 。根据w f 。j 的大小将关键词 ,毗 w o r d u j ( u = 0 ,l ,2 ,k ,j = 0 ,1 ,2 ,n ) 按从大到小排序。 4 1 3 基干强化学习的用户兴趣反馈 在建立用户兴趣模型后,为了提供给用户真正感兴趣的信息,需要对用户 兴趣进行机器学习。学习a g e n t 根据用户的浏览行为、阅读习惯和评价等反馈 信息对用户兴趣进行学习。在本文,用户兴趣反馈分为隐式反馈和显式反馈两 种。 ( 1 ) 隐式反馈。在用户没有明确参与评价搜索结果的情况下,监视a g e n t 通过跟踪用户行为得到用户兴趣。监视a g e n t 在客户端浏览器的后台时刻监视 和跟踪用户的浏览行为和操作,通过用户在某个网站的停留时间或者在一段时 间内反复登录某个网站等行为来推断出用户兴趣。 假定用户i 在一段时间h 内经常上网( 以小时为单位) ,若在此期间花叠的 时间上网,其中用户i 对感兴趣的页面总浏览时间为扈;对一些认为重要的页 面测览了于次,对感兴趣的页面浏览次数为z ;对一些认为重要的页面内容保 存了矿次,对感兴趣的页面保存次数为e 。定义用户f 对兴趣项嵋,的兴趣度 ,i 为: 江苏大学硕士学位论文 “争咿丁t i 垆笋 ( 4 1 ) 其中a ,为浏览时间、浏览次数和保存次数三项对兴趣项w o r d , ,的影响因 予,0 s 口s 1 ,o 芦s 1 ,0 ,1 ,且口+ ,+ ,= 1 。口,的取值可通过机器学习 得到或通过经验取值。式( 4 1 ) 计算出j ,且0 l 。将获得的用户兴趣项 w o r d 。,和关注各关键词的兴趣度j ,更新对应的个人兴趣模型。若只峨没有项 ,叫,则将其添加到模型中脚u ( w o r d , ,) 一用。此时用户i 的个人兴趣模 型为如式( 4 2 ) 所示。 p m , : ( w o r d , ,贮兰土- ) ,( w o r d , 。鲢兰,( w o r d , ,吐兰: ( 4 2 ) ( 岷+ 岷,( j + m ,) ( 啦,+ m , 构成兴趣项的关键词及相应关键词权重向量通过大量的文本训练学习由学 习a g e n t 获得。在兴趣向量,- 壕翱枷 斑游 图4 2 学习a g e n t 跟踪用户行为推断用户兴趣过程 f 毡4 2t h e p o c c d i l o f l e m n i n g a g c n t 恤c i 】唱u s e r b e h a v i o r a n d i n f r i n g l i s z t i n t e r e s t 当a g e n t 所处的状态是s ,此时的兴趣度向量为w “m ,m , ,w e b 浏览器根据该状态下的用户兴趣从i n t e m e t 上搜索相关的信息并显示到浏览器 上,用户根据这些相关信息进行浏览和点击相关链接,同时环境a g e n t ( 目p 与除 学习a g e n t 以外的其他a g e n t ) ,也将根据用户的兴趣度,去搜索已经存在的与 其兴趣相似用户的知识库,直接把这些用户的知识库的内容显示到浏览器上, 供该用户浏览查询。a g e n t 就是通过反复不断地学习和发现到用户的兴趣并最 终达到用户的个性化要求的。 动态q 学习算法主要是在式( 4 3 ) 中调整因子和妒的取值。z 越大,表明 用户兴趣的实时改变较小;而矿越大,则表明当用户兴趣转移时,能够及时地 得到反映。a g e n t 在当前环境状态s ( 即用户输入了欲查询内容的关键词) 下,学 习a g e n t 对用户行为进行分析,估计用户的下一兴趣项变为口o 。,基于随机策 略选择用户当前的兴趣项4 。: d 口( s ,o t t o , ) y m 口f m 陋卜云 5 其中,虿( s ,4 。) ,y 是基于状态s 下的信念b 的期望q 函数值,即: q ( s ,吐“) cq ( s ,4 一,a o t k e r ) t , s - 正( q ,口,) b ) 和 ( 4 6 ) 在时刻t ,环境改变到新的状态s ( 即输入了新的关键字) - 得到行动的奖励 值丫,a g e n t 基于下面的公式更新q 的值: 江苏大学硕士学位论文 q ,4 ) 一o q 硷。岱,口抽,4 柑) + q + ,啤钆 ,口0 ,口o ) ) ( 4 7 ) 其中,a o 埔。,ta r gm a x 。:。 p s 一,4 m 。为用户实际感兴趣的网上内容, 呸【0 ,1 】,是学习率。q 随着时间衰减,以利于学习算法的收敛。 通过动态q 学习算法使得a g e n t 找出最优动作策略4 加,也就是说,a g e n t 较好地得到了和伊的取值,这样a g e n t 在以后跟踪用户意图的过程中,能够 不断作出调整用户兴趣的行为动作,以适应用户兴趣转变和个性化的要求。 4 2 兴趣相似度模型的改进 4 2 1 兴趣度页面推荐模型 合作过滤算法优点是在某类相似兴趣用户中能发现用户新的兴趣信息。设 若用户“具有与用户“的最相似兴趣,那么用户”对关键词w o r d , ,所在页面的兴 趣度的预测值为觑似d ,计算方法为( 4 8 ) 式所示: 脚,d 一,m 苫+ 七蚤“;,一 m s ) x s ( u ,砧) ) ( 4 8 ) 日 ,; u j 为对关键词”喊,所在页面进行评价的所有用户集;t2 了南为根据用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论