(计算机应用技术专业论文)基于神经网络的用户建模和web信息过滤研究.pdf_第1页
(计算机应用技术专业论文)基于神经网络的用户建模和web信息过滤研究.pdf_第2页
(计算机应用技术专业论文)基于神经网络的用户建模和web信息过滤研究.pdf_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于神经网络的用户建模和w e b 信息过滤研究 内容摘要 学科专业:计算机应用技术研究方向:网络应用神经网络 指导教师:李建国教授研究生:代学武( 2 0 0 0 2 8 4 ) w e b 个性化服务是当前人工智能和信息技术领域研究的热门课题之一。以搜 索引擎为主的信息检索技术并没有考虑用户的兴趣、偏好的不同,相同的关键词 返回相同的结果。而且返回的结果良莠不齐,用户需在大量噪音中找寻有用信息。 用信息过滤技术改进i n t e r n e t 信息检索系统已成为非常重要的研究方向,是个性 化服务的基础。 利用用户模型可以更好的进行信息过滤。用户模型( u s e rm o d e l ) 是对一个 类别的用户组或单个用户的描述。基于用户模型,计算机中可以表达、存储、复 现用户模糊的、变化的兴趣特征,其中存储的用户信息构成了过滤条件,使得信 息过滤更有效。 本文首先分析了目前i n t e m e t 上个性化文本信息检索的研究和应用情况,以 及以模糊逻辑、神经网络为代表的软计算的发展现状。借鉴a n f l s 网络,提出了 一种将神经模糊网络技术应用到用户建模中,建立个性化自适应用户模型,并应 用于w e b 信息过滤的方法。文中讨论了以下几个关键问题: ( 1 ) w e b 页面和用户兴趣的表达,采用了向量空间模型( v s m ) ,将w e b 页面映 射为向量空间中的内容向量彤。艇过滤之前,由用户输入检索关键词和若干w e b 页面作为样例,经分词抽取出用户的兴趣向量u i 。,r ( 2 ) 信息过滤的目的是将w e b 页面分为相关w e b 页面集合r 和不相关w e b 页 一, 一 面集合r 。用术语在g 和r 中的局部权重的不同,选择权重差别最大的那些术 语作为特征术语,以确定和调整向量空间的维度,在降低向量空间维度的情况下, 尽量保持模型的准确性。广丫 ( 3 ) 用户模型结构的建立( 模型的结构辨识) 。f 利用模糊集合理论,建立了一 组模糊w - t h e n 规则,并用a n f i s 网络实现。用户的兴趣向量u i 和权重r i 作为 参数存储到网络中。巧作为输入变量,输出量是系统对巧和u i 相关度的评判值 n r p r e d j n 卜 ( 4 ) 用户模型参数的优化( 模型的参数辨识) 。睬用的是c a n d i d a t e r a n k 模 式,在“学习一过滤一反馈一再学习一再过滤”中调整参数。将用户的相关 反馈r u s e r j 和r p r e d j 的差值作为误差信号,采用w i d r o w - - h o f f 算法在线式学习, 优化r i 。当与用户的交互达到一定程度后,进行离线式学习,对u i 进行调整。厂呻 基于以上讨论,实现了一个基于模糊神经网络用户模型的信息过滤原型系统 a u m & i f ,并利用该原型系统对g o o g l e 返回的w e b 页面进行过滤。通过过滤前后 准确度的比较,验证了该系统的有效性。 ( 本文中的一些思想对类似的应用有一定的借鉴价值少巾 关键词:用户模型信息过滤模糊集合神经网络a n f i s t h er e s e a r c ho nn e u r a l n e t w o r k s _ b a s e du s e r m o d e l i n g a n dw e bi n f o r m a t i o nf i l t e r i n g d i s s e r t a t i o ns u b m i t t e dt o s o u t h w e s tc h i n al q o r m a iu n i v e 商t y f o r t h ed e g r e eo f m a s t e r o f e n g i n e e r i n g b y d a i x u e w u m a j o r :c o m p u t e ra p p l i c a t i o n d i r e c t i o n :n e t w o r k s a p p l i c a t i o n n e u r a ln e t w o r k s s u p e r v i s o r :l ij i a n g u o a u t h o r :d a ix u e w u ( 2 0 0 0 2 8 4 ) a b s t r a c t t h ew e b p e r s o n a l i z e ds e r v i c ei so n eo fh o t s p o t si na i a n di n f o r m a t i o nt e c h n o l o g y t h ec u r r e n ti n f o r m a t i o nr e t r i e v a ls y s t e mw h i c hm a i n l yb a s e so ns e a r c he n g i n ed o n t c o n c e r ne n o u g ha b o u tu s e r s d i f f e r e n ti n t e r e s t s u s e r sg e tt h es a m er e s u l t si ft h e y s u b m m i tt h es a m eq u e r yw o r d s a tt h es a m et i m e ,t h eg o o da n db a da r ei n t e r m i n g l e d u s e r sh a v et of i n ds u i t a b l ei n f o r m a t i o nf r o mh u g ea m o u n to fw e b p a g e sm a n u a l l y i t s i m p o r t a n tt oi m p r o v ec u r r e n ti n f o r m a t i o nr e t r i e v a ls y s t e mw i t hi n f o r m a t i o nf i l t e r i n g i n f o r m a t i o n f i l t e r i n gi st h eb a s i so fp e r s o n a l i z e di n f o r m a t i o ns e r v i c e u s e rm o d e l i n gc a ne n h a n c et h ep e r f o r m a n c eo fi r u s e rm o d e li sad e s c r i p t i o n a b o u tau s e rg r o u po ra ni n d i v i d u a lu s e r w i t ht h eu s e rm o d e l ,c o m p u t e rc a na c q u i r e , s t o r ea n dr e s t o r eu s e r sf u z z yd y n a m i ci n t e r e s t s t h ei n f o r m a t i o ns t o r e di nu s e rm o d e l m a k e u p t h ec o n d i t i o no fi ra n dm a k ei rm o r ee f f e c t i v e i nt h i s p a p e r , t h e c u r r e n tr e s e a r c ha n da p p l i c a t i o no ni n t e r n e t p e r s o n a l i z e d i n f o r m a t i o nr e t r i e v a li sa n a l y z e d a n dt h e ns o f tc o m p u t i n g i n c l u d i n gf u z z yl o g i c a n d n e r u a ln e t w o r k sa r ei n t r o d u c e d t o o a c c o r d i n gt oa n f i s a ni m p r o v e d n e r u a lf u z z y n e t w o r k si si n t r o d u c e di n t ou s e rm o d e l i n ga n dw e b i n f o r m a t i o nf i l t e r i n gt os a t i s f yt h e u s c kt h e f o l l o w i n gk e yp r o b l e m s a r ed i s s c u s s e di nt h i sp a p e r 1 v ( 1 ) h o w t oe x p r e s st h ew e b p a g e sc o n t e n ta n d u s e r si n t e r e s t s t h ev e c t o rs p a c e m o d e li su s e dt om a pt h ew e b p a g ei n t oa v e c t o rp j b e f o r ef i l t e r i n g , t h eq u e r yw o r d s a n d p a g ee x a m p l e si n p u tb y t h eu s e ri sa n a l y z e da n d m a p p e d i n t ov e c t o i su lt o o ( 2 ) h o w t os e l e c tt h ec h a r a c t e rt e r m st od e c r e a s et h en u m b e ro fd i m e n s i o n s i nt h e i f , t h eo b j e c to ff i l t e r i n gi sr e t r i v a l e dw e bp a g e s t h e s ep a g e sc a nb ed i v i d e di n t ot w o c l a s s e s :o n ei sr e l e v a n tp a g e sr ,a n o t h e ri su a r e l e v a n tp a g e s r t a k i n gu s eo ft h e d i f f e r e n c eo fl o c a lw e i g h tb e t w e e nra n dr ,w ec h o o s et h et e r mw i t hm o s td i f f e r e n c e a sc h a r a c t e rt c r i l l ( 3 ) h o w t om o d e lu s e ra n df i l t e ri n f o r m a t i o n a c c o r d i n gt ot h et h e o r yo f f u z z ys e t s , a g r o u p o fi f - t h e n p r i n c i p a l sa r ec o n s t r u c t e da n di m p l e m e n t e db ya n f i s t h e u s e r s i n t e r e s t su ia n dr a r es t o r e di na n f i sa s p a r a m e t e r s p ji st h ei n p u tv a r i a b l e 。a n dt h e r e l e v a n c e b e t w e e np ja n du 1 ,n a m e d r p r e d j 。i s t h e o u t p u t v a r i a b l e ( 4 ) h o w t oo p t i m i z ea n da d j u s tt h ep a r a m e t e r s w ea d o p tc a n d i d a t e r a n km o d e t h e p a r a m e t e r s a r e o p t i m i z e d i na w a y t r a i n i n g - f i l t e r i n g - f e e d b a c k i n g - t r a i n i n g - f i l t e r i n g t h ed i f f e r e n c eb e t w e e nt h eu s e r sf e e d b a c kr u s r ja n dt h ea n t i so u t p u t r p r e d ji st a k e na st h ee r r o r w eo p t i m i z er i naw i d r o w - h o f fa l g o r i t h m a n do p t i m i z e u ji nab a t c h l e a r n i n g a c c o r d i n gt ot h ed i s c u s s i o nb e f o r e ,t h ea u m & i fs y s t e m ,ap r o t o t y p eo fu s e r m o d e l - b a s e dw e bf i l t e r i n gs y s t e m ,i se v a l u a t e db yc o m p a r i n gi t s p e r f o r m a n c ew i t h a n a l o g o u ss y s t e m s t h er e s u l t sa c h i e v e ds h o wt h a tt h eu s eo fu s e rm o d e l i n gt e c h n i q u e s c a n i m p r o v et h ep e r f o r m a n c eo fw e bi n f o r m a t i o nf i l t e r i n gs y s t e m ,a n dp o i n to u t i n t e r e s t i n gc h a l l e n g e sf o rf u t u r ei n v e s t i g a t i o n s s o m ei d e a si no u rw o r kc a l lb e h e l p f u lt ot h es i m i l a ra p p l i c a t i o n k e y w o r d s :i n f o r m a t i o nf i l t e r i n g ,u s e rm o d e l i n g ,f u z z ys e t s ,n e u r a l n e t w o r k s ,a n f j s 第一章 绪论 采用人工智能技术的w e b 个性化服务是信息领域研究的热门课题之一。利用 用户模型【1 】可以较好的存储、描述用户的兴趣、偏好等。基于用户模型,计算机 系统能在与用户的交互中获取用户的兴趣、相关反馈,并据此来调整信息过滤系 统的参数,实现个性化和自适应,更好的为用户提供个性化信息服务。 以模糊逻辑、神经网络为代表的新的人工智能技术一软计算一的发展,为我 们提供了一种解决类似于用户建模这类不精确、不确定问题的实现方法。 本文尝试在模糊神经网络与用户模型之间找到结合点,利用软计算方面的技 术建立个性化的自适应的用户模型,有效实现信息过滤。 1 1 课题的研究背景 人类进入信息时代,人们对信息的依赖也越来越多,i n t e m e t 和w w w ( w o r l d w i d ew e b ) 技术的成熟,使基于这一技术的应用以惊人的速度向社会生活的方方面 面渗透。i n t e r n e t 的信息具有一下两个特点: ( 1 ) 信息分布无组织:i n t e m e t 的信息分布于全球的各个角落,且无严格组织, 使得用户获取信息时不知道在哪里才能找到所需信息。 ( 2 ) 数据半结构化:各种w e b 信息虽然采用了某种标记语言( m a r kl a n g u a g e ) , 但标记过于简单、随意,并不能完整的描述w e b 信息,使得信息通常是模糊的。 i n t e r n e t 本身所固有的这两个特点似使得利用搜索引擎来获取w e b 信息时存 在以下不足:( 1 ) 返回的结果成千上万、良莠不齐,用户在寻找自己喜欢的信息 时犹如大海捞针,出现息过载( i n f o r m a t i o no v e r l o a d ) 。用户找不到对自己有用的信 息,并不是因为信息太少,而是信息总量太多,但有用信息太少太少。( 2 ) 只要 使用的关键词相同,所得到的结果就相同,它并不考虑不同用户的偏好的不同。 个性化服务( p e r s o n a l i z e ds e r v i c e ) 是解决这一问题的有效途径。个性化的实 质是针对性,即对不同的用户采取不同的服务策略,提供不同的服务内容。而个 性化服务的挑战存在于如何把人的因素( 如人的行为特性、智力因素和思维因素) 融合进计算机技术中去,因而产生了人机交互( h u m a n c o m p u t e r i n t e r a c t i o n ) 。h c i 研究【3 4 】的一个核心领域是:用户建模( u s e rm o d e l i n g ) 。用户模型( u s e rm o d e l ) 复= 童缝迨 是对一个给定类别的用户的描述,一个用户模型就清楚的代表了一个或一类用户 的特征( 如信念、知识、目的、兴趣等) 。基于用户模型,可以在计算机中更好的 表达出人的特性,使得计算机系统能识别用户的特性并调整计算机的行为来满足 用户的需求和偏爱。通过用户模型来描述用户特定的信息需求,利用用户模型生 成过滤条件,对信息检索中的信息进行过滤,就可实现个性化的信息检索服务。 另一方面,以模糊逻辑( f u z z yl o g i c ) 、神经网络( n e r u a ln e t w o r k s ,n n ) 为代表的区别于符号推理的新的人工智能技术一软计算( s o f tc o m p u f i n 舀s c ) 一 的发展,为我们提供了一种解决不精确、不确定问题的可实现的方法。l a z a d e h 在1 9 6 5 年提出的模糊集合理论【3 】利用隶属度函数表示语言变量,提供了一种在计 算机中通过数值来表达和计算模糊信息的方法。建立在模糊i f _ n 规则上的 模糊推理系统,可以有效的对特定领域中的人类专门知识建模,但仍缺少对变化 的环境进行适应的能力。而神经网络中学习的概念正好能解决自适应的问题。f l 和n n 的结合在数量上和种类上迅速增长,促进了软计算的发展和应用。研究人 员提出了若干模糊推理系统【3 】,从家用电器和工业过程控制到决策支持和金融贸 易,都可以看到软计算的应用f 4 1 。 对于i n t e r n e t 这样一个分布的信息空间,为了改善信息系统的性能,将f l 与 n n 相结合,运用模糊神经网络解决用户建模和信息过滤这类具有模糊性质的问 题,不失为一种可行的方法。运用n n 中学习算法可以随着用户兴趣的改变而动 态调整系统参数,进一步提高系统的个性化和自适应性。 1 2 相关工作 随着i n t e m e t 和w e b 的广泛应用,在信息检索的基础上,基于用户模型和 w e b 数据挖掘的信息过滤技术发展迅速,已经出现许多试验性或商业性的个性化 信息服务系统的。i f 通常作为信息检索系统的一个重要功能而嵌入到信息检索系 统之中。其中典型的系统有: 1 2 1 i f w e b 【5 】 i f w e b 是由u d i n e 大学的f a b i oa 等开发的,运行于客户端的基于用户模 型的a g e n t 系统。它有两种工作模式:一种是导航模式,按照w e b 页面上的连接, 系统自动搜索相关页面并分类,将结果以导航栏的方式提供给用户。一种是文档 检索过滤模式,系统根据用户输入的关键字去检索文档,然后利用用户模型进行 2 复二里缝迨 过滤,将符合要求的文档提交给用户。 在i 俐曲中,用户的p r o f i l e 以加权语义网络( w e i g l l t e d s e m a t i cn e t w o r k s ) 的 形式存储于客户端,利用语义网络来对概念( 语义) 和概念之间的各种关系进行 描述。网络中的节点表示一个词义,两个节点间的连接弧表示在文档中这两个语 义共同出现,弧上的权重表示了语义同时出现的重要性。节点之间的连线代表概 念之间的关系。通过语义网络,表达出了用户想要获取哪种信息。 i f w e b 由i n t e r f a c ea g e n c y ( 负责获取用户相关反馈) 、i f w e ba g e n c y ( 完成 w w w 页面搜索) 、i f i b o l a g e n c y ( 负责用户建模和信息过滤) 三大模块组成。 i f w e b 支持用户的隐式反馈,可以搜集用户对当前浏览页面的操作信息,获取用户 的兴趣所在,逐渐形成用户的个性化用户模型。i f w e b 中不仅记录了用户对哪些感 兴趣,同时也纪录了对哪些不感兴趣,因而也就更加全面的描述了用户的兴趣。 而且j r w e b 中融入了一种“兴趣随时间衰减”的机制。给用户的兴趣加上了一个 时间因子( 遗忘因子) ,随着时间的推移,用户原有的兴趣对当前兴趣的影响越来 越小。信息的评价和过滤中采用了n d p m 的比较方式。 1 2 2 s i t e s e e r 6 1 r u c k e r 和j p m a r c o s 等开发的s i t e s e e r 是采用合作方式的页面推荐系统。 用户p r o f i l e 的形成来自两个方面的信息: 一是从用户的书签文件( b o o k m a r kf i l e s ) 中抽取关键字形成的。用户的书签 文件,类似于i e 中的收藏夹,可以有多个目录结构,每个目录结构下有多个u r l , u r l 指向用户感兴趣的文档。 二是其他用户的p r o f i l e 。s i t e s e e r 中通过对用户p r o f i l e 中的u r l 所指向的文 档进行比较,来判别两个用户的兴趣是否一致,从而获取用户可能的兴趣。 s i t e s e e r 采用合作式过滤,系统需要存储大量用户的p r o f i l e ,s i t e s e e r 中所有 p r o f i l e 是集中存储在一个服务器中的,其过滤算法也是在服务器端实现的。 1 2 3p r o f u s i o np e r s o n a la s s i s t a n t 和p r o f u s i o nf 7 1 p r o f u s i o np e r s o n a la s s i s t a n t 也是一个信息过滤工具,用于和元搜索引擎 ( m e t as e a r c he n g i n e ) p r o f u s i o n 相配合。 用户首先需要登录p r o f u s i o n 网站,提交查询请求。系统自动分析用户提交的 请求,识别主题,将用户的请求翻译解释后提交给多个搜索引擎,然后对这些引 擎返回的u r l 进行重新检索和合并,去掉重复的,并创建一个按文档相关性排序 箜二童缝迨 的列表( r e l e v a n c er a n k e dl i s t ) ,过滤后的u r l 按相关性大小呈现给用户。 用户的p r o f i l e 被分为感兴趣的和厌烦的两类。对于已标记的每一个文档,均 赋以两个分值描述该文档和这两个类的关系。对于待判定文档,按照向量空间模 型中的余弦法则,比较它与相关集合和不相关集合的相似度来判定用户对这篇文 章是感兴趣还是厌烦。p r o f u s i o np e r s o n a la s s i s t a n t 采用显式反馈( 喜欢,厌烦) 获取用 户判断,把文档加入到相应的类别中,然后更新这个类别的特征向量。 p r o f u s i o n 采用合作式信息过滤,用户的p r o f i l e 存储于服务器端。用户在检索 开始时,可以选择一个已经存在的用户兴趣组,也可创建一个兴趣组。一个组可 以有多个兴趣点,允许对好几个方面的内容感兴趣。 1 2 4 国内研究现状 国内的如清华大学电子工程系的张俐等【8 】开发的“网络指南针”,针对中文 字词的特点,在向量模型的基础上,认为每一个关键词都是一个最简单的分类器, 每个词对分类的作用是不一样的,因此赋以不同的权重,分类的结果是对各个关 键字的判断的综合。如曲建华 1 4 】等采用增强学习和隐式反馈来整用p p r o f i l e , 从而更新用户兴趣。程静【1 5 】等采用a g e n t x i j w e b 信息进行过滤,将w e bu s a g e m i n i n g 和w 曲c o n t e n tm i n i n g 集合起来,在服务器端对用户日志文件进行分析,构 建用户模型,实现信息的有选择服务。再如傅忠廉【9 】等利用向量模型,根据用户 提供的示例文本,用k o h o n e n 神经网络进行聚类分析,找到用户的兴趣中心,用 k o h o n e n 聚类的结果训练b p 网络,再用b p 网络信息进行过滤。清华大学自动化系 的卢增祥等 t 0 1 在用户信息获取方面,通过扩展浏览器上的b o o k m a r k 功能,跟踪用 户信息需求,并直接利用用户评价文章来表达用户需求在匹配算法方面,提出最 大间距进行r a n k i n g 的算法利用b o o k m a r k 服务进行网络信息过滤。中国科大汪晓岩 【1 1 】等采用分布式a g e n t 技术、相关反馈学习算法和基于多用户个性化模式的层次 智能滤波算法,建立了面向i n t e m e t 的个性化智能检索系统 1 3 当前研究状况小结 通过对以上几个信息检索和信息过滤系统的描述,进一步分析可以看到,一 个基于用户模型的信息过滤系统可以从静态的和动态的两个方面来理解。 静态的来看,信息过滤包括三个的模型: 4 复= 重缝迨 一 资源模型( w e b 内容的表示模型) 用户模型( 用户兴趣的表示模型) 界面模型( 获取用户兴趣,呈现过滤结果) 。 动态的来看,包括过滤算法和学习算法 过滤算法( 将资源模型中的w e b 页面和用户模型中的用户兴趣进行匹 配,决定是相关还是不相关) 学习算法( 根据用户反馈信息来更新用户模型,实现自适应) 在构建个性化信息过滤系统时,这四个方面通常是融合在一起,相辅相成的。 用户模型使信息过滤个性化,过滤算法决定了信息过滤的有效性,学习算法实现 了信息过滤的自适应性。详细说明如下: 1 资源模型:是信息表示的问题,以怎样的形式来描述w e b 信息。一般采 用的是b o o l e a n 模型、向量模型,也有的系统使用了语义网络来表示文档的内容。 2 用户模型:是用户表示的问题,以何种形式来描述用户兴趣和信息需求。 由于用户的兴趣、需求是模糊的,用户模型的关键是:如何构造用户模型,描述 用户模糊的信息需求。为了便于过滤算法的顺利进行,用户需求的表示通常采用 与信息表示方式相同,比如某个信息类别的中心或者信息的特征项,有的系统采 用了b o o k m a r k 文件 1 0 1 。用户模型通常以p r o f i l e 的形式存在。 3 界面模型:是人机交互的问题,主要负责用户信息的获取和以何种形式将 过滤结果呈现给用户。 用户的信息获取包括两方面的工作,一是用户信息需求、兴趣的获取:通 常采用的是用户提交查询关键词。也有的采用导航模式,用户一步一步选择感兴 趣的类别或兴趣组【6 】【7 】。二是获取用户的相关反馈。主要有显式反馈( 用户直接 给出对检索结果的评价,如p r o f u s i o np e r s o n a la s s i s t a n t 7 ) 和隐式反馈( 跟踪用 户的操作,从用户低级别的操作信息中推断出用户对检索结果的评价,如 1 4 和 if w e b 中的i n t e r f a c e a g e n c y 5 ) 。 过滤结果的呈现:以何种形式将过滤结果呈现给用户,通常采用的是导航 推荐模式。更多的采用是列表方式,列出检索结果,用户点击相应的项目,则显 示出该项目的详细信息。 4 过滤算法:即如何利用用户模型对信息进行有效的过滤。一般采用的都是 筮二重缝迨 匹配技术,即在信息中寻找那些与用户需求相一致的信息。匹配的关键是判断信 息内容与用户兴趣的相关性。过滤的方式有合作式过滤和单个过滤,这取决于建 立的用户模型是单个用户的模型,还是一组用户的模型。合作模式的信息过滤中, 用户的判断往往来自其他兴趣相同或相近的用户推荐,通过利用其他用户的评注 信息来预测某个文档与某用户的相关程度。合作式过滤需要集中式的用户管理, 用户需要到多个系统分别注册,过滤在服务器端进行,限制了应用范围,用户反 馈是显式反馈的。单个过滤通常式在客户端运行,有利于收集到用户比较全面的 反馈信息。虽然用户使用方便,但受客户机的限制,获取的w e b 信息有限,运算 量不能过大。用户反馈可以是显式的也可以是隐式的。 s 学习算法:如何根据用户反馈信息训练并调整用户模型,使之更准确的表 达用户的兴趣。一方面用户的兴趣会改变,另一方面为了提高用户模型的准确性, 都需要利用用户对信息的反馈( 如:好,一般,差) 来修正已有的用户模型。有 两种方法。一种是离线学习算法,也可叫做批量学习算法,是将用户的操作信息 记录下来,定期集中对用户模型进行更新,即只有在获取了一定数量的信息后才 更新。这种方式可以达到全局的最优,但运算量大,且更新不及时。另一种方式 是在线学习算法,利用用户的反馈立即更新用户模型,获取一次信息就更新一次 模型。随着系统与用户间的交互不断进行,用户模型一步一步变得明晰、准确。 现有系统的个性化水平虽然比原有的搜索引擎技术有了很大的提高,仍然存 在一定的问题有待更好地解决,主要表现在: 1 用户通过检索关键词来表达兴趣。而实际上,每一个用户在检索的时候都 有他自己的目的、兴趣、爱好等,对信息的需求是不一样的。而且用户对信息的 需求可能本身就是模糊的,描述是不准确的,甚至是有干扰的。这些兴趣、爱好 等并非用简单的几个查询关键字就能表达出来的。 2 ,对于用户的多个兴趣,只是简单的取并集,处理得不很好。用户的兴趣是 多方面的,而且通常是有重叠部分的,有时用户想获得介于几个相关方面的交叉 信息。如图1 - 1 ,兴趣a 和b 相交部分的信息才是用户想获得的。现有的系统虽 然允许用户有多个兴趣,但它们认为这些兴趣是相互独立互不影响的。对于交叉 信息,先按单个兴趣,独立处理,然后取并集。当某篇文档距离几个兴趣中心的 距离( 相似度) 都差不多时,原有的系统几乎是随机的选择了相关或不相关来过 箜二童缝迨 滤,可能返回了大量a 方面的信息,而把交叉部分的信息当作b 类别而漏掉了。 f i g 1 1 用户对交叉信息的需求 3 现有系统不能快速、准确的识别用户兴趣。信息过滤系统依赖于大量的长 期的用户记录,以形成用户p r o f i l e ,从而获得用户的兴趣。这给用户造成了一些 额外的负担( 比如每次都要登录等) 。而且对历史记录的处理不很完善,通常是加 个时间衰减因子,对于用户的兴趣发生转移移,则不能很好的处理。 针对以上问题,本文结合信息过滤本身所具有的反馈特性,将软计算中的神 经模糊技术应用到用户建模和信息过滤中来,找到二者的结合点,以提信息过滤 系统的个性化和自适应性。 1 4 课题的研究内容及创新 本文的主要内容是:在i n t e r n e t 分布式信息检索的环境下,建立用户模型描 述用户模糊的信息要求,根据用户模型,利用模糊神经网络对w e b 网页进行过滤, 为用户提供个性化的信息服务。尤其是在没有用户的历史记录的情况下,当用户 的需求并不是非常明确,或者当用户所需的信息是“交叉”信息时,如何实现信 息过滤,为用户提供满意的信息。 本文的创新在于: ( 1 ) 提出了一种新的基于模糊神经网络的用户建模方法,找到神经模糊技术 和用户建模、信息过滤的结合点。利用模糊i f 啊_ t h e n 规则使得用户模型能处理 用户模糊的信息需求,具有个性化;神经网络的参数优化技术使得用户模型具有 自适应性。个性化自适应的用户模型使得信息过滤更加有效。 ( 2 ) 通过显式的提交样例w e b 页面和隐式的用户模型来获取用户兴趣,能 较好的反映用户模糊的信息需求,避免了使用布尔查询式的不足。精确的布尔表 达式很难将用户模糊的信息需求表达清楚的。 ( 3 ) 对模糊的信息和交叉部分的处理是本文的主要创新点。使用加权平均算 子的r b f n 对于两个或多个接受区的交叠区中的点,会在交叠接受区的输出之间 得到良好的插值过的总输出。本文使用的a n f i s 和r b f n 同源,因此适合于对” 交叉”信息的处理。 7 ( 4 ) 建立用户模型时不需要大量的用户历史记录。采用了c a n d i d a t e r a n k 模 式,在“学习一过滤一反馈一再学习一再过滤”中优化用户模型,在与用户的 不断交互中能迅速获取用户信息,而不是从大量历史信息中获取用户信息。一方 面简化了系统的设计,另一方面系统能很好的跟随用户兴趣的变化。 1 5 论文结构安排 论文的结构安排如下:第一章,绪论;第二章,对本论文所需的相关支撑理 论做简要的论述,第三章用户建模,主要是阐述了资源模型、用户模型和用户界 面模型,包括向量空间的生成,用户模型参数的确立,输入空间的划分,获取用 户反馈,第四章过滤算法和学习算法,包括内容向量和兴趣向量的匹配,用户模 型参数的动态更新等方面的工作。这两章主要论述我自己的工作。第四章,相关 实验,总结了相关实验的结果,对模型的评价;第五章,对迸一步的工作的展望。 第二章理论基础 本章介绍了本文中所涉及到的理论基础,讨论了m 中常用的资源模型和匹配 算法;给出了用户模型的定义、评价标准和用户建模的内容。对于用户建模和信 息过滤中所涉及到的模糊集合论、f i s 、n n 、r b f n 和a n f i s 作了简要的介绍。 2 1 信息检索和信息过滤 信息检索( 和信息过滤( i f ) 是为满足人们快速有效的收集信息而产生的一 种技术手段。i r 是从海量信息中获取相关信息的手段,而i f 是从相关信息中进一 步选择最有用信息的方法。瓜提供了访问大量信息的方法,用户通过i r 可以获得 许多相关的信息。i f 则针对用户的特点,有选择的从瓜的结果中优先选择与用户 需求紧密相关的信息提供给用户。 i r 和i f ,本质上来说是都是信息的分类过程【3 7 】。i r 将信息分为多个类别; 而i f 是将信息分为相关和不相关两个类别。要用计算机实现信息检索和过滤,需 要将信息表达为便于计算机处理的形式,即用某种数学模型来描述原来是由人脑 处理的信息。由于i r 和i f 本质上的一致性,i f 中用到的信息模型和i r 中是一致 的。 对于文本信息而言,其基本的成分是词。一篇文档中所包含的词语反映了文 档的内容。但并不是所有的词语都可以反映文档的内容的,有些词语对文档的内 容影响很大,有的影响很小,有的甚至没有影响。我们通常选用文档中的那些重 要的词语来表达文档的内容,这部分词语称之为术语( t e h 吣。只要术语选取得足够 和恰当,文档得内容就可以得到几乎是无失真得重现。 设t 是所有文档关键字的集合,t = t l ,t 2 ,t 3 ,t n ) 。一篇文档可以表示为一个 关键字的集合d = t d ,1 ,t d ,2 ,一t d ,m ) ( m s n ) ,其中t d ,i t 。进一步,若干文 档的集合则可以表示为一个“单词一文档”矩阵a : 爿;( w i i ) 这里,h 钾表示术语t i 在文档d j 中的出现情况。a 的每一列表示一个文档中 的所有术语出现的情况,每列表示一个文档;每一行表示一个术语在所有文档中 9 箍三耄堡迨基趟 一一一一 出现的情况。由于术语的个数很多,矩阵的维数可能非常之大。某个术语并不是 在所有文档中都出现,所以a 常常是一个稀疏矩阵。 基于术语的表达方式,通常用到的资源模型有三种:布尔模型,向量空间模 型,概率模型。为便于说明,在下面的关于信息检索和信息过滤的论述中,将用 户的查询认为就是用户的兴趣。 2 1 1 布尔模型 布尔( b o o l e a l l ) 模型是基于集合论和布尔代数的一种简单的信息模型。由于集 合的定义是非常直观的,b o o l e a n 模型提供了一个信息检索系统用户容易掌握的框 架。布尔模型是目前大多数文档数据库在检索和过滤时采用的主要模型,匹配算 法简单,容易实现。 b o o l e a n 模型定义术语在文档中只有两种状态,出现或者不出现。从术语权 重的角度来看,就是把术语的权重f 简单的取为1 或者0 。用户的兴趣,用户的 查询通常以语义糟炼的布尔表达式方式输入,q 是一个传统的b o o l e a n 表达式,如 q 2 吃 0 6 v 1 f c ) 。设q d n f 是q 的分离形式,假设q c c 是r 的任何种分 离形式,文档d i 与q 匹配时,相关度的定义为: s 嘲砌= 让嘉训刑幻喇沪鼬c c 的 如果s i r e 砂= 1 ,b o o l e a n 则认为文档d j 与q 相关,认为文档d j 就是用户所想 要的文档,应当提交给用户。否则,认为文档d i 与用户需求无关。 b o o l e a n 模型的主要优点是,具有清楚和简单的形式,直观,简洁,但存在 一些缺陷:( 1 ) 它对信息的检索和过滤时,采用的策略是二元判定( b i n a r yd e c i s i o n c r i t e r i o n ) 。对于术语只有出现和不出现两种状态,缺乏对术语的重要性的分析,无 法对文档进行分级( r a n k i n g ) ,会导致提交给用户的结果太多或者太少。 ( 2 ) 虽然布尔表达式具有精确的语义,但常常很难将用户的信息需求转换为 布尔表达式,因为用户的需求通常具有模糊性。实际上大多数用户发现要将他们 所需的信息用布尔表达式来表达,并不是一件很容易的事。 一篇文档的内容,不是简单地取决于某些术语是否出现。两篇内容不同的文 档,出现的术语可能是有交叠的,甚至是相同的。用术语是否出现来区分它们很 1 0 困难。实际上,同一术语在不同的文档里所占的重要性是不同的,可以依据术语 在文档中的重要性来进一步区分它们。这一想法导致了向量空间模型的产生。 2 1 2 向量模型( v s n ) 向量模型,也称作向量空间模型( v s m ) 1 6 1 ,其基本思想是:由文档中出现的 术语构成一个向量空间,文档和用户需求都由这个空间中的向量来表示。通过文 档向量和用户需求向量之间的夹角大小来判定文档与用户需求之间的相似度。 v s m 中,用w f f 表示术语t i 在文档d j 中的重要性,称w f f 为术语t i 在文档d j 中的权重( w e i g h t ) 。在计算w f 时,不仅依据术语是否出现,而且还考虑其出现的次 数、位置、字体大小,是否有超链接等,得到的w f f 是一个区间内的连续数值。通 常,如果术语t i 在文档d i 中没有出现,则w f ,= o 。如果术语t i 在文档d j 中出现 了,则需选择一个计算方法,计算出术语t i 的权重,。这个计算方法,通常称 之为加权法。加权法有很多种,大部分方法都是基于对文本的两个经验【1 7 1 : 个术语在一个文档中出现次数越多鼬会各单词同该文档的主题越相关, 个术语在所有文档中出现的次数越多。这个单词越不能禺来区分文档, 设向为术语t i 在文档d j 中的出现次数,即出现频率,n 为全部术语的总数, m 为文档集合中的文档数目,而m i 为术语i 在整个集合中出现的次数。通常用到 的加权法,有以下几种取法: 词频加权法:f = 五f 词频加权法的的核心思想是:用单词在文档中出现的频率作为权值。这种方 法假设单词在文档中出现次数越多,则说明文档的内容越倾向于该单词的含义, 该单词也就包含了较多的文档信息, t f i d f 加权法 1 8 前述方案没有考虑单词在集合中所有文档中的出现频率。事实上,单词在所 有文档中的出现频率也是单词包含信息多少的一个重要标志,例如那些在每个文 档中都出现的单词可以认为不包含任何有用的信息。在一个著名的方法 t f * i d f ( t e r m - f r e q u e n c r 。- i n v e r s e - 。d o u c u m e n t f r e q u e n c y ) l 加权法 1 8 中,权值w i j 同该单词在这个文档中出现的频率成j e l i :,并且同包含该单词的文档数目成反比。 却l o g t f c 加权法 t d * i d f 加权法并不考虑文档之间的长度差别。t f c 加权法 1 8 】中同t f x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论