已阅读5页,还剩64页未读, 继续免费阅读
(模式识别与智能系统专业论文)基于rss的用户兴趣建模与更新.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基rr s s 的_ 户兴趣建模与更新 摘要 摘要 互联网迅速发展,个性化信息服务成为研究的热点之一。在个性化信息服务的研究中,用 户兴趣建模是核心问题之。对于新闻信息源,静态的和已有的动态的用户兴趣建模方法无法 及时更新以反映( 1 ) 用户关注的信息主题发生变化,( 2 ) 用户对主题失去兴趣,( 3 ) 用户对主 题的感兴趣程度发生变化等用户* 趣的变化。本文采取r s s 新闻信息源,设计了分层次树状模 型,可以根据用户不断的反馈行为,对用户兴趣子类和对应的兴趣度权重进行更新。兴趣度的 更新依靠兴趣度函数实现,子类更新有生成、扩充、合并、收缩、删除等更新操作,子类更新 与兴趣度更新相辅相成,共同完成模型更新。该模型可以实现对用户兴趣主题的变化和感兴趣 程度的变化及时有效的跟踪,动态性能好。 本文选择r s s 标准的信息体作为输入。根据实验室相关研究基础,设计和实现了r s s 格式 信息生成器,r s s 信息自动聚合器,图片新闻聚合器以及新闻信息聚合平台。为本文用户兴趣 模型的研究奠定了基础。 本文研究的模型是基于向量空间的三层树状用户兴趣模型,由用户模型节点,信息类别和 用户兴趣子类三层构成。最上层为虚节点,为以后的用户分类设计。信息类别来源于r s s 聚合 器的频道,是对新闻信息类别的划分。用户兴趣子类是代表用户的兴趣主题,设计思想来源于 语义概念的方法。同时对模型进行了形式化的描述。 通过用户对于信息体的初始操作,积累一定量的信息作为初始化模型的样本数据。对于文 本样本数据,使用统计方法进行向量化,在向量空间中进行划分子类的操作。并且根据相关的 用户操作行为设定用户兴趣子类初始的用户兴趣度权重。在模型构建好之后,将根据用户的反 馈行为4 :断的进行模型的更新。 本文也对基于该模型的应用信息推荐服务,进行了系统设计。同时引入信息冗余的思想, 在无法准确描述用户兴趣主题的情况下,加入适当信息冗余会提高信息推荐服务的效率和人性 化。信息冗余度的调整根据信息类别的兴趣权重进行调整。 关键词:用户兴趣子类,子类更新。信息推荐,真正简单的联合 基rr s s 的用户兴趣建模与更新 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,p e r s o n a l i z e di n f o r m a t i o ns e r v i c e ( p i s ) h a sb e c o m eo n eo f t h e m o s tp o p u l a rr e s e a r c h e s u s e ri n t e r e s tm o d e l i n gi so n eo ft h ec o r ei s s n e so ft h ep i sr e s e a r c hw o r k r e g a r d i n gn e w sr e s o u r c e ,t h es t a t i ca n dd y n a m i cu s e ri n t e r e s tm o d e l s ( u i m ) 也a th a v e b e e n r e s e a r c h e dc a l l tu p d a t ei nt i m et oa c c o m p a n yt h e s es i t u a t i o n s :( 1 ) t h ec h a n c eo fu s e rt o p i c ,( 2 ) d i s a p p e a r i n go fs o m et o p i c ,( 3 ) t h ec h a n c eo fd e g r e eo fu s e ri n t e r e s to ns o m et o p i c ,i no r d e rt or e f l e c t t h es t a t u sq u oo fu s e ri n t e r e s t i nt h i sp a p e r , at h r e e - l a y e rt r e eu i mh a sb e e nd e s i g n e db a s e do nr s s r e s o u r c e ,w h i c hc a nu p d a t et h eu s e ri n t e r e s ts u b c l a s s ( u l s ) a n dm i n t e di n t e r e s tw e i g h ta c c o r d i n gt o t h ec o n t i n u o u sf e e d b a c kf r o mu s e r i n t e r e s tw e i g h t su p d a t i n gd e p e n d so ni n t e r e s tw e i g h tf u n c t i o n , a n du i su p d a t i n gh a ss e v e r a lu p d a t i n go p e r a t i o n s ,i n c l u d i n gg e n e r a t i n g ,e x p e n d i n g ,u n i t i n g ,s h r i n k i n g , d e l e t i n g i n t e r e s tw e i g h t su p d a t i n ga n du i su p d a t i n ga r ew o r k i n gt o g e t h e rt or e a l i z eu i mu p d a t i n g t h eu i mi n 也i sp a p e rw i t hb e t t e rd y n a m i cp e r f o r m a n c ec a l lt r a c kt h ec h a n c eo f u s e ri n t e r e s tt o p i ca n d t h ei n t e r c s td e g r e ei nt i m ea n de f f i c i e n t l y i nt h i sp a p e r , t h ei n f o r m a t i o ni t e m sb a s e do nr s si sa st h ei n p u to f u i m a n db a s e do nt h ef o u n d a t i o n r e s e a r c hw o r ko fo u ri a b , t h ea u t h o rd e s i g n e da n di m p l e m e n t e dt h em o d u l e s ,s u c ha sr s sg e n e r a t o r , r s sa g g r e g a t o r , p i c t u r en e w sa g g r e g a t o r , a n dn e w sa g g r e g a t i n gp l a t f o r m a l lt h ew o r kg i v e sa s t r o n gb a s ef o rt h ef o l l o w i n gr e s e a r c hi nt h ep a p e r t h eu i mi nt h i sp a p e ri sa t h r e e - l a y e rt r e em o d e lb a s e do nv s m ,i n c l u d i n gu s e rm o d e ln o d e ( u m n ) , i n f o r m a t i o ns o r t ( i s ) a n du s e ri n t e r e s ts u b c l a s s ( u l s ) ,u m ni st h ef i r s tl a y e rw h i c hi sav i s u a ln o d e f o ru s e rc l a s s i f i e r i si st h es e c o n dl a y e rw h i c hi si d e n t i f yt h ei n f o r m a t i o ns o r tf r o mr s sc h a n n e l u i s i st h et h i r dl a y e rw h i c hi sm a p p i n go f u s e ri n t e r e s t e dt o p i ca n dg e t sb e n e f i tf r o mt h ei d e ao f c o n c e p t t h e r ea r ef o r m a l i z a t i o nt ou i ma n dc o m p a r et oo t h e ri d e a s u i mc a ng e ts o m ei n i t i a ld a t af r o mu s e r sa c t i o n t h et e x ts w a t c hs h o u l db ec h a n c e dt ov e c t o ra n d c l a s s i f i e di nt h ev e c t o rs p a c eb ys t a t i s t i c sw a y t h ew e i g h to fu i sw i l lb ei n i t i a t e db yr e l a t e du s e r a c t i o n s u i mw i l lu p d a t ec o n t i n u o u s l yr e g a r d i n gt h ef e e d b a c kf r o mu s e ra f t e ru i mi si n i t i a t e d t h er e s e a r c hw o r ko ni n f o r m a t i o nr e c o m m e n d a t i o n , o n ea p p l i c a t i o nb a s e do nu i m i sa l s oi nt h i s p a p e r a n dt h er e d u n d a n c yi sa l s oi m p o r t e d r e d u n d a n c yc a ni m p r o v et h ee f f i c i e n c ya n ds e r v i c e q u a l i t yo ft h es y s t e mw h e ni t i ss od i f f i c u l tt od e s o f t b et h eu s e ri n t e r e s td e f i n i t e l y h o wm u c h r e d u n d a n c yn e e dd e p e n d so nt h ei n t e r e s tw e i g h to f i s k e y w o r d s :u s e ri n t e r e s ts u b c l a s s ,s u b c l a s su p d a t i n g ,i n f o r m a t i o nr e c o m m e n d a t i o n ,r s s 基丁jr s s 的用户兴趣建模与更新1 概述 1 1 引言 1 1 1 背景 1 概述 随着网络技术的巨大发展以及互联网使用者的不断增加,互联网已经成为主流的信息发布 媒介之一。较传统的各种信息发布媒介,用户在网络中发布和阅读信息要方便得多,但正因为 如此,互联网上的各种信息资源浩如烟海,对用户的使用以及信息服务提供者提出了巨大的挑 战。如何快速、准确地找到所需信息,并且以更加人性化的方式为用户提供服务成为了网络技 术研究的热点。 搜索引擎的出现从一定程度上缓解了信息过载和获取特定信息之间的矛盾。它支持通过给 定的关键词来获取相关页面的搜索服务。但是这种搜索的结果是页面的链接且其中有相当数 量的用户所不需要的结果,且检索的模式比较简单,所以这种信息搜索服务的效率仍比较低。 信息推荐也是种解决之道,通过对于用户行为信息的分析进行t 一些预测性的信息推荐服 务。由于获取用户信息的途径少,获取用户信息数据有限,且常常一些比较关键的细节数据无 法获得,但这种方式在一定程度上可以满足商家对于营销方面的目的,信息推荐服务的个性化 程度仍然受到限制。 信息代理是针对于个体用户的个性化比较好的一种信息服务模式,在这方面的研究直足 热点之。信息代理服务可以提供自动信息获取服务,但其获取用户个性化信息的手段比较单 ,且更新较慢,用户是一个不断变化的服务对象,除了一些比较固定的个人属性外,有很多 方面的信息需求取向会随着外界因素的变化而不断变化。 对于大量隐式信息的研究为个性化信息服务提供继续深入的基础。隐式信息极大的丰富了 用户行为信息源,使得用户兴趣建模所需要的各种数据更加丰富、全面和细致。 跟踪用户兴趣变化,提供更加个性化的信息服务是一种发展趋势。并且随着各种相关技术 的发展,信息服务的个性化程度也将随之提高。 1 1 2 个性化信息服务 个性化信息服务已经成为目前研究的热点之一。不仅是从学术角度进行相关算法和建模方 法的不断探讨,而且著名的i t 公司也在致力于这个领域的研究与产品开发: 来自s m n f o m 的g l e nj e h 和j e n n i f e rw i d o m 的s c a l i n gp e r s o n a l i z e dw e bs e a r c h 一文获得 i n t e r n a t i o n a lw o r l dw i d ew e bc o n f e r e n c e 的2 0 0 3 年度最佳论文奖; s i g k d d s i g k d d 有专门的智能用户接口方面的专项会议,会议主题涉及用户兴趣建 模,个性化信息服务,每年举行一次,有大量的研究者汇聚与此: m i c r o s o f t 、i b m 有针对于电子商务中个性化服务的产品,并且有相当的资源投入到相 关研究中。 基于r s s 的片j 户兴趣建模与更新1 慨述 个性化信息服务可分为个性化搜索、信息推荐和信息代理等。信息代理从某种角度来说也 是种信息过滤器,以帮助用户可以得到更为准确地信。息 y d l 0 3 1 。个性化信息服务属于典型 的交叉学科f 由研究领域,就目前针对的基于互联刚的信息服务就涉及到计算机科学、统计学、 图论、心理学、行为学、营销学以及社会学等来自不同学科门类的知识。 针对于1 i 同的信息服务种类,都有相应的个性化方面的研究。斯坦福大学的g l e nj e h g j e n n i f e rw i d o m 在g o o g l e 原有的p a g e r a n k 算法的基础上提出了个人p a g e r a n kf 自 ( p p v ) 算法 j w 0 2 l ,属于个性化搜索技术,由于搜索引擎面的是所有的互联网用户,没有特别针对的用 ,l _ ,用户群体广大,要求的个性化程度较低,要求效率优先;基于对大量用户的电子交易以及 w e b l o g 的数据分析与挖掘的a m a z o n 商品推荐算法是信息推荐的代表,以人量交易数据为基础, 对商品分类,根据类别进行推荐,适应子服务器端的个性化模式 l s y 0 3 j 。信息代理技术相对来 说是针对于单个用户的服务,个性化程度较高,但是数据源的获取是个问题,对于各种非结构 化的信息模式,进行深入的个性化建模是相当困难的。 在各种信息类型中。新闻是最为常见的互联网用户通过网络获取的信息。无论s i n a 、s o h u , 还是q q 这样的新闻信息提供者都是以其信息门户为基础,通过直接或者间接的方式让用户浏览 门户酬站来获取所需的新闻信息。这种方式对于用户来说是不够高效的方式因此大量的新闻 定制服务形式出现,但是对于个性化新闻定制仍然有相当的困难。过于准确地定制可能很难以 在用户的兴趣变化时保持对用户兴趣的追踪以及信息服务的人性化程度,但是对于过于宽泛的 兴趣范围发置,会给用广带来太多的冗余信息,反而降低服务的效率。在适当的信息冗余与用 ,、兴趣高效追踪的问题上,自- 很多问题需要研究。 1 1 3 用户兴趣建模 对于个性化信息服务来说,用户模型是问题的关键。从模型的设计来说,过于复杂和过于 简单的模型都宵其1 i 可弥补的先天缺憾。对于不同类型的个性化信息服务,由于要求的命中目 ,j ;的需求和涉及的信息体范围等因素的不同,对于模型的设计有着不同的要求,总的来说,复 杂的模掣确定用户兴趣的准确率上会比较高,适合于相对复杂的信息源,并且可以提供相对较 好的趋于静态的用户兴趣建模,也可以说是对于用户习惯建模:而相对简单的模型,对于较复 杂的数据源的适应程度会比较低,但是对于用户兴趣变化方面响应速度上会有一些优势。自然, 模型一f i 的不同部分对于复杂程度的要求决定于用户模型针对的具体用途。 h 前的并种用户模型构建主要是基于使用的数据源的结构,有基于大量底层数据流的统计 模型,基于s e s s i o n 级别的概念树模型,还有基于统计数据及语意理解模型的向量空间模型等。 但大多数模型还是趋于静态信息的个性化服务的用户模型,个性亿程度有限对用户兴趣的跟 踪不够及时准确。 对于信息代理的用户模型构建,由于对获取的信息进行颓处理需要大量的工作且有相当的 难度,所以建模者要倾注很大的精力在模型的前端,信息获取和预处理模块,加之用户模型预 处理有可能无法产生很好的数据结果,从而也在一定程度上限制了对数据进行深层次的加t , 以提供更为个性化的信息服务。 至于新闻,这种信息体裁的特点就是内容相对规范简单,但是时效性很强,且数量庞大。 基于r s s 的用户兴趣建模与更新 概述 针对于新闻的个性化信息服务要求其个性化算法的核心:用户模型,准确地说是用户浏览新闻 的兴趣模型需要有相对简单的前端数据预处理模块,自适应程度更高的模型设计并且完整的 服务形式规划。 从新闻入于研究个性化信息服务可以说是一个不错的选择,研究的重心可以放在如何提高 个性化程度,提高信息服务质量上来。且就目前的发展趋势,相对规范的信息体在网络f l 越来 越多,而且本文认为这种趋势是一种不可阻挡之趋势。从网络发展以及计算机发展的历史来看, 很多疑难问题的最终解决是靠规范化来实现的。目前人们一方面从网络信息抽取的方句来研究, 通过不断加深对于网络中信息体结构的把握来实现自动的抽取,这样可以包容网络中由于信息 提供者差异而造成的信息体的差异,又提高网络使用效率;而从另一个方面来说,需要有一定 的规范化使得网络可以给用户提供更加标准的机构化信息源。 1 2 本文的工作 针对于上面的分析,本文中结合实验室的相关工作,进行了以下这些工作: ( 1 ) 与其他组员共同开发丁嘲页信息抽取平台。并独立负责了整个平台源代码的所有整理 注释工作实现了r s s 新闻信息聚合平台,可以自动聚合给定网址的r s s 新闻信息; ( 2 ) 设计种由用户模型根节点、信息类别和用户减趣子类构成的三层结构的树状用户兴 趣模型,对模型进行形式化描述。该模型根据用户点击等隐式信息,通过文本相似判 定,自动形成用户兴趣子类;信息类别与用户兴趣子类均有对应的兴趣度:用户兴趣 模型的更新是通过用户兴趣子类的更新与相关必趣度的更新完成的:并且提出信息冗 余度的思想。 ( 3 ) 针对用户兴趣变化以及相关的用户兴趣度函数进行了研究,建立了自适应的用户兴趣 度函数,选取不同用户类型数据进行了相关的模拟实验,对实验结果进行了分析;基 于用户兴趣度函数,对用户兴趣子类更新机制进行研究,对负向子类更新机制进行了 仿真的实验。最终对整个更新机制进行了全面的阐述。 1 3 本文的组织 本文的第一章概述,介绍本文的研究背景以及本文的主要工作和文章组织。第二章个性化 信息服务研究,介绍了个性化信息服务和用户建模方面的相关研究现状。第三章r s s 信息的自 动抽取,介绍针对r s s 新闻信息聚合平台的设计与实现。第四章用户兴趣模型的描述,描述了用 户兴趣模型的框架以及主要特点。第五章构建和更新用户兴趣模型,介绍了用户兴趣模型的构 建与更新的设计思路以及具体的算法流程。第六章用户兴趣模型应用研究,讨论了通过该模型 实现信息推荐的过程,提出了信息冗余的观点第七章模型关键技术深入研究,对用户兴趣模 型的关键技术用户兴趣度函数和兴趣子类更新机制进行了详细的介绍,并且进行了相关的实验 工作对结果进行了分析。第八章是对本文所做工作的总结和对束来工作的一些展望。 基j :r s s 的_ j 户兴趣建模与更新 2 个性化信g , q t 务研究 2 个性化信息服务研究 个性化的信息服务并非是互联网兴起之后才产生的,对于信息服务的个性化要求是信息服 务达到一定的效率和质量之后种很自然会提出的要求。这体现了一种对于效率的追求和服务 质景的提升的不断要求。 所谓个性化服务即针对具体用户或者特定的用户群体提供满足他们具有某种特性的需求 的服务就是个性化服务而个性化信息服务,显而易见是针对某些用户的个性化的信息服务。 在前互联网时期,个性化信息服务由于信息获取,信息发送等信息渠道方面的技术和形式有限, 个性化信息的服务较少,而个性化服务却有相当的研究,超级市场以及书籍出版商等不同的服 务提供者,通过各种可行的方式进行着用户信息的收集,通过相应的消费心理学、市场营销学、 社会统计学等方面的研究,来更好的满足用户的需求,以提高自己的经济收益。 在互联网出现之后随着网络的发展,网络用户的不断增加,人们对于使用网络进行信息 获取和信息发送越来越熟悉和依赖,个性化的信息服务通过网页中的电子表格和电子邮件传送 等形式来提供,由于信息传递方式的巨大改变,提高了个性化信息服务的效率。 随着数据库技术的大量使用,个性化的信息服务从某种意义上来说就是要通过嘲页中电子 表格的用户回答来明晰用户对于所获取信息的具体描述。最终能够通过数据库查询技术来实现 最终的信息获取。但不是所有用广都能够将自己所想要的信息通过标准的方式提交给数据库服 务器,而数据库服务器t p 叉不能储存了网络中所有的各种信息,网络巾的信息数量庞大而形式 繁杂,同时更新的速度也非常快,所以这种信息获取是比较理想化的,要求数据结构化良好, 用户能够准确描述自己的信息需求。 之后搜索引擎的出现大大提高了用户获取信息的自由度,使用户获取信息能力得到了大幅 度的提升。但是搜索引擎提供的信息服务方式让用户体会到获取的信息范围过于广泛。通过关 键字描述需求的方式会获得相当多的噪声数据,或者说是多余的数据,因为用户很难清晰的描 述自己的真正的兴趣所在 h k t 0 3 。搜索引擎从搜索查询信息的角度满足了用户对信息的获取 需求,但是用户会有一些常态化的信息需求,搜索引擎不是这种服务的最佳选择。 综上所述,在互联网建立的前期阶段,即个性化信息服务还属于相对机械的方式,提供服 务有限,形式相对僵化。提供服务的思路来源于其他领域的研究。随着用户需求的不断提高和 细化,自适应的个性化信息服务越来越成为研究的热点。 2 1 自适应个性化信息服务研究 自适虚的个性化信息服务,根据用户* 趣的变化,自动对新的用户信息需求进行跟踪,并 且不断的进行针对用户需求的信息服务。 对于网络,用户的需求就是获取信息,获取自己所需要的信息随着网络的快速发展,这 种需求1 i 断提升,细化。由于网络中信息量巨大,用户获取所需信息可以采取不同的方式,比 如通过点击链接浏览具体网页,信息门户进行搜索。通过自动程序进行信息自动获取。直接点 基于r s s 的用厂i 兴趣建模与更新 2 个性化信息服务研究 击链接浏览网页对于用户时间要求相对较高,效率比较低,但是可以相对直接的浏览到信息体 全部内容给以用户的选择范围更大;在用户无法确定信息来源的时候,如果需要获取信息, 通过网络门户例如g o o g l e ,y a h o o ,s o h u 和s i n a 这样的门户,通过它们提供的搜索引擎服务, 快速缩小信息检索范围,或者直接定位到用户所需信息体上;而对于一些信息源相对比较稳定, 所需信息格式相对规范的信息体,如e - m a i l ,新闻等,通过自动程序进行定期的信息获取是效 率最高的形式,服务比较人性化,但是对于信息源的要求最高与搜索引擎相比个性化程度将 更高。信息门户网站和个人信息代理将成为最为常用的两种互联网用户获取信息的有效方式。 而作为互联网用户来说,在互联网上获取信息也在成为一种学习途径,研究步骤乃至整个 的生活方式。互联嘲用户对于信息服务的追求将像对其他生活资源的追求一样,能够在需要的 时候得到最为方便的供给。研究的目的就是要将人使用电脑通过网络进行学习生活的过程中, 更多的部分由电脑来自动承担,并且保证原有的用户对信息获取的效率和要求。 i b m 公司目前正在不断地强调其经营的理念“o nd e m a n d ”,即随需应变的经营方针。这 种思想十分明确的表明了用户需求的至上原则。 提供个性化的且自适应的信息服务其基础就是对于用户的分析理解和对相关技术的把握。 信息自动获取,信息内容挖掘以及用户兴趣的建模和跟踪就是自适应个性化信息服务的关键技 术的核心信息自动获取为整个信息服务的前端。承担着系统的全部输入由于互联网上的信 息格式纷繁杂乱,所以这也是信息预处理的一个模块。信息内容的挖掘与用户措趣的建模和跟 踪都属于对所获取的信息进行进一步的处理和分析,以深化和细化个性化的信息服务。用户兴 趣的建模和跟踪是整个个性化信息服务的核心和基础,模型对于用户兴趣信息获取的完整程度 与准确程度直接影响着最终的个性化信息服务的质量。 在本文的后续部分中,个性化信息服务即指自适应的自动的个性化信息服务。 2 2 个性化信息服务形式 个性化信息服务的研究由于信息服务的对象不同,提供服务者的不同,服务要求的不同, 所以在服务的形式上就各有不同。虽然有些个性化信息服务的形式与本文中的研究没有直接的 联系,但是在它们研究的思路中,有许多值得借鉴。 对于个性化信息服务按照信息服务形式来分类可以根据以下的几条标准: 提供服务者规模 面向的使用群体 信息源 获取用户特征途径 根据上面的标准,主要可以分为三类:个性化信息搜索服务,个性化信息推荐服务和个性化信 息代理服务。 个性化信息搜索服务所面向的用户是所有使用互联网进行信息获取活动的用户,所以搜索 引擎的服务提供者拥有强大的s e r v e r 以及集群的结构方式,搜索引擎的数据主要来源于网络 s p i d e r 或者w r a p p e r 程序从网络中获取的各种信息,通过自动获取的信息来更新s e r v e r 中数据 库中的信息。互联网中网页的更新速度根据网页类型的不同而不同,但是作为s e r v e r 中的数据 基于r s s 的用户兴趣建模与更新2 个性化信息服务研究 的更新并小快,由于搜索数据的时间消耗,以及为了维护服务的延续性所以其更新的频率也不 可能很高。对用户实现个性化的搜索服务主要是通过w e b l o g 来进行的,也属于隐式信息,噪声 数据较多。 个性化信息推荐服务的提供者一般是图书馆电子信息系统和电子零售及其他电子交易商, 所面向的是信息或者商品的消费者。用户群体的规摸相对搜索引擎服务小,但数量仍旧很庞大, 对于信息服务提供者的要求亦是相当高的。其主要的信息来源是各种商品的供货商所提供的信 息或者图书信息,这些信息更新较慢,且格式相对规范,数据来源相对稳定。对用户特征的获 取除了通过对大量的w e b l o g 进行分析以外,还通过用户个人填写的些电子表格来明确用户 的基本信息需求,是隐式信息和显式信息的结台。 个性化信息代理服务的提供者一般是单机系统,或者p c 系统,面向的是特定的用户或者 用户群体。其获得信息的途径是多种多样的,主要是由用户设定来源或者利用自动信息抽取软 件来根据某种规则去抽取用户需求相关信息。代理的需求可以由用户通过比较明确的方式确定, 亦可以通过对用户的鼠标点击流和网页信息等用户使用信息自动确认用户兴趣特征。 三种形式的信息服务由于服务目的不同,用户对于信息服务个性化的要求也各不相同,同 时实现个性化的技术不同,难点也不同。个性化程度最高的应该是代理服务推荐服务次之, 搜索的个性化要求最难以实现,主要是其用户信息获取的途径相对单一,且用户使用搜索服务 的使用记录历史联系性不高,所以即便获得用户的网络使用记录,其分析也是非常有难度的。 但是用户使用的记录中有很重要的一个参数是以显式方式给出的,即所需要信息的关键字。所 以闱绕关键字的提示并且根据用户的连续点击记录,可以比较好的进行个性化的结果按相关 度排序。而对于信息推荐服务来说,用户信息需求相对有一条或者几条明确的线索,且使用的 信息源足第三方提供的比较规范,检索与挖掘与用户需求相关的信息相对容易一些。对于代理 程序来说由于基于单机,面向特定用户,所以其所能够获得用户信息丰富且完整,并且有显 式提供的用户兴趣特征,所以对于用户特征的把握更容易也更细致准确。 而对于获取信息来说,推荐服务的信息源更稳定规范,搜索引擎以及代理程序的信息获取 由于是自动获取,所以在获取难度上较大,获取的结果会由于信息源的特征不同而有极人的不 同。搜索引擎要获取的结果相对简单,即信息体链接,所以获取相对比较容易。而对于代理来 说要求就耍更高一些,其获取不同格式的信息并且处理成相对规范的形式的工作是非常有难度 的。 从需求来说,三种信息服务的形式都是有非常稳定的需求基础的。搜索服务面向的是所有 的信息搜索需求者。对于巨大的互联网信息资源。搜索引擎恐怕是唯一的或者是最为有效的 种快速定位服务。对于信息推荐服务来说,商品的丰富以及消费者对于商品了解的相对匮乏使 得推荐服务有了用武之地对于任何一个互联网用户来说,如果其生活中的某种信息获取完全 依赖于网络的话,且要求相对稳定,自动实现这种信息获取以及呈现的程序是用户所希望得到 的种网络信息使用的辅助程序,即信息代理服务。 对于个性化信息服务的分类的阐述已经比较详尽本节后面的内容将对三种个性化信息服 务形式所采用的典型的研究方法以及解决问题的思路进行阐述。 基rr s s 的用户兴趣建模与更新 2 个性化信息服务研究 2 2 1 个性化信息搜索服务 个性化信息搜索服务也即在原有的搜索引擎提供的服务的基础上,加入个性化的元素,根 据用户点击的各种信息来确认搜索到的信息与用户需求的相关度,并进行排序,提高用户获取 信息的效率。 g o o g l e 是搜索引擎的代表,无论从其技术上还是用户规模上都是互联网上最有影响力的搜 索引擎。s m n f o r d 的g l e nj e h 和j e n n i f e rw i d o m 在原有g o o g l e 技术的基础上,作了火量的关于 个性化网页搜索的研究。他们的工作是个性化信息搜索服务的代表,他们的名为s c a l i n g p e r s o n a l i z e dw e bs e a r c h 的论文获得i n t e r n a t i o n a lw o r l dw i d ew e bc o n f e r e n c e 的2 0 0 3 年度最佳 论文奖。传统的网页重要性是靠网页链接的结构来判断的,g o o s e 所使用的p a g e r a n k 算法就 足这种思路的代表算法,作为研究的深入,根据用户的观点进行搜索结果的重要性排序会更有 意义。 p a g e r a n k 算法简言之就是根据网络中具体节点联入的网页的多少,以及与主题的相关度对 网页进行排序的一种网页优先级捧列算法,这种排序算法没有加入用户个性化因素。在此基础 上,经过适当的演变形成了p p v 算法,即p e r s o n a l i z e d p a g e r a n k v e c t o r p p v 算法就是将p a g e r a n k 算法的使用范围缩小于一个个人兴趣集上,以计算针对于个人兴趣主题的网页相关度优先级的 算法。由于研究的主体是个性化搜索引擎,如何高教建模,完整保存和快速搜索用户兴趣相关 主题的嘲页是其主要要解决的问题。其用户模型可以用每一个用户对应的p p v 来表示,但是每 次搜索都重新计算每一个用户的p p v 是不现实的,所以在p p v 这个概念层次下面有b a s i c v e c t o r 和h u b s 两个层次。b a s i cv e c t o r 是由基本网页集h u b 集中的基本网页组成,相当于基本的兴趣 主题集,这样就利于用户兴趣共享。h u b 是基本网页集,这个集中网页有些是利用了p a g e r a n k 算法求出的权值很高的大众兴趣集中网页,如y a h o o ,或者是用户指定的感兴趣网页集。 在p p v 算法研究的过程中,有几条基本的定律构建了其理论基础: 线性定律:规定每一个p p v 是由一些相关的b a s i cv e c t o r 线性组合而成: h u b s 理论:使得每个b a s i cv e c t o r 可以有基本的h u b 所合成; 分解理论:建立了通过p p v 求取相关的b a s i cv e c t o r 之间的线性计算关系,有效的减 少了总体的计算量。 这些定律的使用体现了其主要问题即搜索引擎的效率至上问题。对于过于庞大的信息源,整 个互联网络中所有的公开化的网页建立一个和具体用户个性化需求相关的模型最主要的问题 不是个性化程度的高低,而是如何高效的建立模型,存储模型并且在用户需要搜索结果的时 候使用模型以提供相对个性化的重要性排序才是最为重要的问题。将整个集合通过树形层次结 构进行划分,并且通过利用计算p a r t i a lv e c t o r s 的动态算法,以快速建立其模型,并对模型进行 更新。同样由于计算量过于庞大,对于模型计算的优先性、稳定性以及收敛性方面的问题必须 进行相应的研究。 整个的算法流程。在建立p p v 的时候,首先通过p a g e r a n k 算法将一些重要的用户普遍关 注的网页节点即h u b ,并且通过线形组合方式将h u b 组合为b a s i cv e c t o r :b a s i cv e c t o r 的线形 组合就是最终p p v ;当使用用户模型进行搜索结果个性化的熏要性捧序的时候,通过相应的p p v 用户模型,根据分解定理,首先分解成相应的基本向量集,即b a s i c v e c t o r 的层次再通过b a s i c 基3 - r s s 的用户兴趣建模与更新 2 个性化信息服务研究 v e c t o r 的分解至h u b 集,通过基本向量对应到相应的刚页上,将结果列出。 p p v 算法的优点在于其组台分解算法效率很高,并且网络用户的兴趣可以共享,这体现了 种经典的思想。由于层次结构,搜索快速。但是p p v 的个性化程度比较低,用户特征过于简 单,这种粗糙的数据模型没有办法细致入微的体察用户的兴趣特征,但是在一定程度上能够满 足个性化信息搜索服务的个性化要求。 针对其他的搜索引擎,由于受众群体的规模相对较小,对于效率的要求远没有g o o g l e 的高, 所以在个性化方面的研究也较少。围绕p a g e r a n k 算法以及g o o g l e 的模式进行这种个性化重要 性排序的还有j a nm k l e i n b e r g 等人的一些研究 j w 0 2 】。 2 2 2 个性化信息推荐服务 个性化的信息推荐服务即通过用户个性化的浏览信息的行为记录,构建用户兴趣特征模型, 然后自动将与用户兴趣相关的信息推荐给用户的服务。推荐算法就是针对于特定用户的服务, 故大多数推荐算法都属于个性化的信息推荐服务研究范畴。 推荐算法常被用于电子交易网站和图书馆电子信息系统之类的情况下。通常情况下,解决 推荐问题一般采取三种方法:传统的组台过滤、聚类模型和基于搜索的模型。传统的组合过滤 算法是将用户视为n 维的向量,每一个纬度代表一种商品,n 即商品的数量。每个纬度的具体 权值足由用户的正向与负向的行为决定。在向量模型得到足够的数据支持的情况下,用户模型 即建立。通过对用户向量的相似性判断,可以实现相近用户类别的信息推荐。聚类模型将用户 推荐税为一个分类问题。通过分类的结果进行针对具体类别的用户进行信息推荐。至于基于搜 索的模型,通过将用户的购买与其他交易行为视为搜索条件,按照其中相关关键属性进行搜索 以获得较好的推荐效果。 a m a z o n c o r g i 是最著名的电子交易网站,其采用的是传统组台过滤的一种改进算法,即 i t e m t o i t e m 组合过滤。这种算法在解决推荐服务的实时准确,处理海量数据以及推荐质量上都 有独特之处。作为电子交易嗍站,这种推荐行为其实是一种典型的以市场为目标的行为。与其 将用户进行比较,该算法采取了另一种思路,将物品与物品进行比较,使用物品相似度来实现 物品分类,思路是将一个物品与其他所有相关物品进行相似性比较,具体如下: f o r e a c hi t e mi np r o d u c tc a t a l o g ,11 f o re a c hc u s t o m e rcw h op u r c h a s e dll f o re a c hi t e mi _ 2p u r c h a s e db y c h s t o m e rc r e c o r dt h a tac u s t o m e rp u r c h a s e di1a n di2 f o re a c h i t e m i2 c o m p u t et h es i m i l a r i t yb e t w e e ni 1a n d 例2 1i t e m 相似度算法 计算相似性可以有很多种方法,该算法采用的是传统的组合过滤算法中提到的那种通过建立向 量,然后通过向量的相似性判断来实现相似性的计算。这种算法的好处显而易见,a m a z o n ,e o m 可以将所有的产品先进行相似性的计算,在用户需要进行产品推荐服务的时候,只需要将s e r v e r 基于r s s 的用,、兴趣建模与更新2 个性化信息服务研究 一l 统计的与目标物品相似度达到一定阈值的物品推荐出来,或者推荐相似度的排序的前几位的 产品。这样就保证了砸对庞大的用户群体,大量的动态交易信息进行有效的推荐的问题。但 是这种算法的前提就是其信息获取相对比较简单和规范,而且大多数据属于静态数据或者是相 对静态数据,这样才能够通过s e r v e r 端的提前运算来满足动态变化的用户模型需求 l s y 0 3 。 推荐算法和用户行为预测是同一个研究领域,研究的出发点有所不同。推荐算法是一直是 比较热点的研究方向之。推荐算法的研究中,有通过用户使用s e s s i o n 的分析使用增强式学 刊的算法或者遗传算法来分析用户的模型,以预测用户的下一步行为目标。增强式学习算法对 f 用广模型变化的跟踪方面有比较天然的优势,因为用户的兴趣信息如果是动态的,那么模型 就必须对新的信息加以反映。对于用户的多步操作的预测,不少研究者自然会考虑到使用统计 上的m a r k o v 过程以及相关的一些随机过程理论来研究。但是用户的行为是有记忆性的,用 m a r k o v 过程来描述,存在着天然的些困难。但是在有相对比较丰富的数据积累的情况下,使 用这种方式也是效果较好的。 由于推荐的目的不同,用户对推荐结果的要求不同,实现推荐的环境园素的不同,信息推 荐服务所采取的技术也就不同。每种研究方向都有其自身的优势和劣势,在不同的情况采取针 对性的研究方法,并且合理的结合其他的方法,可以更好的解决问题。 2 2 3 个性化信息代理服务 个性化信息代理服务是通过基于单个用户或者特定用户群的自动信息获取程序,或者可以 称之为信息获取与过滤装置,来实现针对用户需求的信息服务。代理即a g e n t ,作为a g e n t 就是 要独立完成一种功能的自动程序。a g e n t 的功能是多种多样的,在本文中,主要以提供信息服 务的a g e n t 为研究重点。 a g e n t 技术分为智能a g e n t 、多a g e n t 系统( m u l t ia g e n ts y s t e m ) 和面向a g e n t 的程序设计 ( a g e n t - o r i e n t e dp r o g r a m m i n ga o p ) 这3 个方面 b z l 0 3 ,其中智能a g e n t 也叫做单a g e n t 。智能 a g e n t 是一类在特定环境下能感知环境,并能自治地运行代表其设计者或使用者实现一系列目 标的计算实体和程序 h 0 3 。它包含的基本特性有:反应性、自治性、面向目标性和针对环境性。 信息代理服务应用的领域很多,有娱乐选择,网页浏览,电子邮件处理等等。提供网页浏 览代理服务的a g e n t ,帮助用户过滤庞大的信息源,解决用户无法在有限的时间内阅读所有的内 容,迫切希望有合适的工具过滤网上大量的信息流,提供自己感兴趣的资料。著名的网络电子 选取a g e n t ( 如l e t i c i a 系统) 能够根据当前网页和用户感兴趣的知识提供那些满足用户条件的 相关网页与内容。它还能够提供更详细的提示信息,如有关窗口显示和当前页的索引,提示用 户不要漏调必要的信息。 个性化信息代理服务的研究有很多种方法可以采用。a g e n t 技术的研究是在最大的程度上体 现了以用户的需求为中心的思想。a g e n t 研究主要要解决的是信息自动获取信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026泰安高新技工学校招聘笔试备考题库及答案详解
- 特区建工集团2026届春季校园招聘笔试参考题库及答案详解
- 2026江苏联环药业集团有限公司招聘3人笔试参考题库及答案详解
- 2026河南商丘柘城县人民医院助理全科医生培训招聘20人笔试参考题库及答案详解
- 2026四川宜宾市屏山县中医医院康复科招聘1人笔试模拟试题及答案详解
- 科技旅游与旅游住宿业合作合同
- 外汇管理2026年外汇资金托管合同
- 线上新闻内容合作开发合同
- 创新管理软件授权协议
- 产品开发2026年研发合作协议
- SHA1-42(01)-2025 上海市市政工程养护维修估算指标 第一册 城市道路
- 四川省成都市成华区2024-2025学年八年级(下)期末物理试卷(含解析)
- 老年人睡眠改善策略-洞察及研究
- 2025至2030美术馆产业市场深度分析及发展趋势与发展趋势分析与未来投资战略咨询研究报告
- 医学检验试题及答案
- 执业兽医资格重点考点大全2025
- TCFA 0106012-2023 汽车压铸件孔隙率测定方法
- 2025届四川省绵阳市名校联盟英语七年级第二学期期末统考试题含答案
- DB14T 1023-2025 公路工程施工危险源辨识指南
- DB11∕T 969-2016 城镇雨水系统规划设计暴雨径流计算标准
- GB/T 44399-2024移动式金属氢化物可逆储放氢系统
评论
0/150
提交评论