




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得( 注:如没有其他需要特别声明的,本栏 可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 礴奔 导师签字:促德爻 学位论文版权使用授权书 本学位论文作者完全了解山东师范大学有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权山东 师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:礴昂导| 师签字:1 丕 宴炙 签字日期:2 0 06 年斗月扩。日签字日期:2 0 0g 年j - 月3 - 日 山东师范大学硕士学位论文 摘要 人类社会已经进入信息化时代,面对因特网上大规模的在线文本信息,如何帮助用户快速、 准确的找到自己感兴趣的文本信息成为一个重要的研究课题。文本过滤可以帮助用户获得自己 感兴趣的文本,实现个性化的信息服务,因此,文本过滤的研究具有广泛的应用背景和实用价 值。 文本过滤从形式上可以分为两种,即;内容过滤和协作过滤。内容过滤主要采用自然语言 处理、人工智能、概率统计等技术对文本进行内容分析,然后与用户模型进行相似度计算,主 动将相似度高的文本发送给该用户模型的注册用户,但是内容过滤难以区分同一主题过滤结果 的内容质量好坏,不能为用户发现新的感兴趣的信息。另外一种方法,协作过滤主要利用兴趣 相似用户的评价进行预测和推荐。目前它已经被成功的应用到个性化推荐系统中,但随着系统 规模的扩大,它的性能会逐渐降低,暴露出一些问题,比如矩阵稀疏性、扩展性以及早期级别 等问题。 本文首先对文本过滤的两种方法进行了描述,然后分别对这两种过滤方法进行了研究。针 对内容过滤,我们重点讨论了内容过滤的学习机制,把在线文本信息过滤表示为强化学习问题, 这样可以通过计算用户的隐性反馈自动获取强化信号,然后设计一个自适应信息过滤系统,通 过实验证实可以明显的改善自适应过滤系统的功能,提高了内容过滤系统的性能。在协作过滤 中。针对其存在的缺点,提出了一种用户一信息项关联模型,利用该模型,有效的提高了协作 过滤系统的推荐值的准确性,一定称度上解决了协作过滤中存在的问题,并通过实验,证明利 用该模型可使协作过滤系统的性能得到了提高。最后,我们将内容过滤与协作过滤结合起来, 提出了基于混合模式的文本过滤系统,由于这两种过滤技术之间不存在内在的依赖性,因此我 们让内容过滤和协作过滤分开执行,然后把这两个过滤的预测值结合起来进行推荐,即所谓的 基于混合模式的文本信息过滤。 我们通过实验,分别对内容过滤、协作过滤以及基于这两种过滤方法的混合模式进行实 验,对这三种过滤方法的得到的过滤结果的准确性进行了比较,结果表明混合模式方法可以提 高文本过滤系统的准确性。最后,指出了本文存在的问题,以及今后要继续努力研究的方向和 目标。 关键词:内容过滤协作过滤混合模式强化学习关联模型 山东师范大学硕士学位论文 a b s t r a c t w h e nt h es o c i e t yh a se n t e r e dt 1 1 el n f o r m a t i o nt i m e s ,f a c i n gt h ea b u n d a n to n l i n et e x ti n f o r m a t i o n , h o wt oh e l pt h eu s e rf i n dt h ei n f o r m a t i o nt h a ti si n t e r e s t e di sav e r yi m p o r t a n tt a s k t e x tf i l t e r i n gc a l l h e l pt h eu s e rt oo b t a i nt h et e x t sw h i c ht h e ya r ei n t e r e s t e di na n d c a l lr e a l i z ep e r s o n a l i z e di n f o r m a t i o n s e r v i c e t h e r e f o r e ,t e x tf i l t e r i n gi so f g r e a tv a l u ea n du s e dv g i d e l y t h e r ea r et w ok i n d so ft e x t f i l t e r i n g :c o n t e n t - b a s e df i l t e r i n g a n dc o l l a b o r a t i v e f i l t e r i n g c o n t e n t b a s e df i l t e r i n gm a i n l ya d o p t ss o m et e c h n o l o g i e s s u c ha sn a t u r a l l a n g u a g e p r o c e s s i n g 、a r t i f i c i a li n t e l l i g e n c ea n dp r o b a b i l i t ys t a t i s t i ct oa n a l y z et e x tc o n t e n t ,t h e nc a l c u l a t e d e g r e eo fs i m i l a r i t yb e t w e e nc o n t e n tv e c t o ra n du s e rp r o f i l e sv e c t o ra n ds e l e c th i g hc o r r e l a t i v et e x tt o r e g i s t e r e du s e r s h o w e v e r , i ti sd i f f i c u l tf o rc o n t e n t b a s e df i l t e r i n gt od i s t i n g u i s ht h eq u a l i t yo ft h e f i l t e r e dr e s u l t so ft h es a n et o p i c s o ,i tc a nn o tf i n dt h en e wi n f o r m a t i o nt h a tt h eu s e r sa r ei n t e r e s t e d i n c o l l a b o r a t i v ef i l t e r i n gm a i n l ym a k e su s eo fu s e r s o p i n i o n sw h oh a v es i m i l a ri n t e r e s tt op r e d i c t a n dr e c o m m e n d n o wi th a sb e e nu s e di np e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e m b u tw i t ht h es y s t e m s c a l ee n l a r g i n g ,i i se f f i c i e n c yg r a d u a l l yd e c l i n ea n ds o m ep r o b i e m ss u c ha ss p a r s i t ya n de a r l yr a t e r w i l la p p e a r n e p a p e rf i r s td e s c r i b e st h et w ok i n d so ft h ef i l t e r i n gm e t h o d s t h e nw es t u d yt h e ms e p a r a t e l y w e p u tt h ef o c u so nt h es t u d ym e c h a n i s mo ft h ec o n t e n t b a s e df i l t e r i n g w et r e a tt h eo n l i n ei n f o r m a t i o n f i l t e r i n ga sar e i n f o r c e m e n tl e a r n i n gp r o c e s s am e t h o di st h e np r e s e n t e dt h a ta c q u i r e sr e i n f o r c e m e n t s i g n a l sa u t o m a t i c a l l yb ye s t i m a t i n gu s e r si m p l i c i tf e e d b a c k u s i n gr e i n f o r c e m e n tl e a r n i n g ,am o d e l f o ra d a p t i o ni n f o r m a t i o nf i l t e r i n gi m p r o v et h ep e r f o r m a n c ei ni n f o r m a t i o nq u a l i t ya n da d a p t a t i o n s p e e d a b o u tc o l l a b o r a t i v ef i l t e r i n g ,w ep r o p o s e a p r o b a b i l i s t i cu s e r - i t e mr e l e v a n c em o d e lw h i c hc a n e f f e c t i v e l yi m p r o v et h ep r e c i s i o no ft h er e c o m m e n d a t i o na n ds e t t l et h ee x i s t e dt h ep r o b l e m s b y m a k i n gt h ee x p e r i m e n t ,i ts h o w st h a tt h em o d e lc a l li m p r o v et h ep e r f o r m a n c eo ft h ec o l l a b o r a t i v e f i l t e r i n gs y s t e m l a s t l y , w ec o m b i n et h et w ok i n d so ft h ef i l t e r i n gm e t h o d sa n dp r o p o s eah y b r i d m o d e lf o rt e x tf i l t e r i n g t h e n ,w em a k ee x p e r i m e n t sb a s e do i lt h ec o n t e n t b a s e dt e x tf i l t e r i n g 、c o l l a b o r a t i v ef i l t e r i n ga n d t h eh y b r i dm o d e lf i l t e r i n gm e t h o ds e p a r a t e l y w ec o m p a r et h eg r o u pr e s u l t so b t a i n e df r o mt h et h r e e k i n d so f m e t h o d s i ts h o wt h a tt h eh y b r i dm o d e lc a n i m p r o v e t h ep r e c i s i o no f t h ef i l t e r i n gs y s t e ma n d h a sb e t t e rp e r f o r m a n c et h a nt h eo t h e rm e t h o d s i nt h ee n d ,w ep o i n to u tt h es h o r t a g ea n dt h e p r o b l e m se x i s t i n gt h es t u d ya n dt h ep a p e r a n dt h eg o a lt h a t 讯w i l lr e a c hi nt h ef u t u r e k e y w o r d s :c o n t e n t b a s e df i l t e r i n g ,c o l l a b o r a t i v ef i l t e r i n g ,h y b r i dm o d e l ,r e i n f o r c e m e n ts t u d y , r e l e v a n c em o d e 】 2 山东师范大学硕士学位论文 第一章引言 人类社会已经进入信息时代,i n t e m e t 在全球的迅速蔓延和计算机软、硬件的飞速发展, 加快了信息的传输,缩短了人与人之间的距离,打破了传统的地狱疆界概念,改变了人们的生 活方式,使人们感受到世界正在变得更小。互联网的高速发展已经使其成为世界上覆盖面最广、 规模最大、资源最丰富的信息网络。互联网中涵盖着大量用户需要的有效信息,它已经成为人 类获得信息的最重要途径之一。 “新摩尔定律“指出:i n t e m e t 上的信息正以每六个月翻一番的速度爆炸般的产生。它使 任何上网寻求信息的人都难以选择。面对浩瀚如海的网上资源( 包括新闻、电子杂志、电子期 刊、电子邮件、技术报告以及网上图书馆等) ,人们往往感到束手无策,无所适从,针对如何 繁多的信息,仅仅依靠手工来收集和整理所需要信息的方法显然不够。所以人们正以从来没有 过的迫切心情,要求能借助某些工具,自动筛选这些信息,所以,自动收集和整理所需要的各 类信息成为信息产业面临的挑战和发展契机,否则人们就会被湮没在信息的海洋中,迷失方向。 基于此,引进文本过滤的思想和技术为人们快速准确的提供健康有用的文本信息服务就显得尤 为重要与迫切。 n 在当今的社会,信息资源已经成为人们竞争的重点,有价值的信息已经成为_ 种新的财 富,掌握了信息才能掌握未来。大规模文本过滤,作为自然语言处理领域中的一个相当活跃的 分支,所研究的内容就是如何准确的表达用户需求,进而在大规模的信息流中自动地筛选出满 足用户特定需求地信息1 1 , 2 17 使人们更有效地利用信息资源。因此文本过滤技术在帮助人们获 取有用信息,滤除无用和有害信息方面起着至关重要的作用。也引起了自然语言处理领域专家 学者们的极大关注。 1 1 文本过滤的背景及意义 文本过滤( t e x tf i l t e r i n g ) 是一种“文本找人”即实现文本的个性化主动服务的前提。个 性化服务的实质就是针对性,即针对不同的用户采用不同的服务策略,提供不同的服务内容。 主动服务的实质就是主动性,即系统自动按照用户的文本信息需求提供相应的服务。个性化主 动服务将使用用户通过尽可能小的投入获得尽可能好的服务回报。在文本信息领域,每个用户 都有自己特定的、长期的、感兴趣的文本信息需求,这些需求组成过滤条件,从动态的信息资 源流中过滤除服务需求的内容,屏蔽掉无用的信息并进行服务,这种做法就是文本过滤 3 】。 山东师范大学硕士学位论文 在因特网日益普及的今天,文本过滤在文本挖掘。不良信息的屏蔽以及文本自动获取等 方面发挥着越来越大的作用。正是在这个背景下,各种过滤理论和相应的过滤系统纷纷出现。 在一些文本过滤系统中提出了用用户模型来描述用户的文本信息需求【4 1 ,将新收集到的文本 与用户模型进行相似度计算,主动将相似度高的文本发给该用户模型的注册用户。这种文本过 滤技术虽然简单、有效,但是不能区分同一主题过滤结果的质量的好坏,不能为用户发现新的 信息,只能发现和用户已有兴趣相似的信息。为了实现更有效的过滤还需结合人们的质量评价 信息。协作过滤技术正是应这种需要而产生的,它考虑了用户之间的兴趣相似性和用户评价的 反馈信息,评价级别越高,表明过滤结果质量越好或者说越感兴趣,反之称质量不好或不感兴 趣。目前协作过滤在文本过滤和推荐系统中正迅速成为一项很受欢迎的技术。 1 2 国内外相关的研究发展概述 文本过滤随着计算机应用的发展从而设想成为现实,并不断地完善自身地功能,经历了 很长地发展时期,并在因特网日益普及的今天,在信息发掘方面发挥着越来越大的作用【7 $ j 。 1 9 5 8 年,l u h n 提出了“商业智能机器”的设想 9 1 ,在这个概念框架中,图书馆工作人员 为每个用户建立用户需求模型,然后通过精确匹配的文本选择方法,为每个用户产生一个符合 用户信息需求的新文本清单,同时记录下用户所订阅的文本用语更新用户的需求模型,虽然微 缩胶片和打印机技术的发展,使得实现的物理细节有所不同,但他的工作涉及到了信息过滤系 统的每一个方面,为文本过滤发展奠定了有力的基础。 1 9 8 2 年,d e n n i n g 提出了“信息过滤”的概念【1 0 1 ,他的目的在于拓宽传统的信息生成与 信息收集的讨论范围。他描述了一个信息过滤的需求的例子,对于实时的电子邮件,利用过滤 机制,识别出紧急的邮件和一般例行邮件。他采用了一个“内容过滤器”来实现过滤。其中采 用的主要技术有层次组织的邮箱、独立的私人邮箱、特殊的传输机制、阈值接收、资格验证等。 1 9 8 7 年,m a l o n e 等人发表较有影响的论文1 ,并且研制了系统“i n f o r m a t i o nl e n s ”。提 出三种信息选择模式,即认知、经济、社会。所谓的认知模式相当于d e n i n g 的“内容过滤器”, 即基于内容的过滤( c o n t e n t - - b a s e df i l t e r i n g ) 经济模式来自于d e n n i n g 的“阈值接收”思想; 社会模式是他最重要的贡献。目前也称为“合作过滤”j 在社会过滤中,文本的表示是基于以 前读者对于文本的标注,通过交换信息,自动识别具有共同兴趣的团体。 1 9 8 9 年,在这个时期信息过滤获得了大规模的政府赞助。由美国d a r p a 资助的“m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ”,极大地推动了信息过滤的发展。他用信息抽取技术支持信息的选 择,在将自然语言处理技术引入文本过滤研究方面进行了积极的探索,1 9 9 0 年,d a r p a 建立 4 山东师范大学硕士学位论文 了t i p s t e r 计划,目的在于利用统计技术进行消息预选,然后再应用复杂的自然语言处理。 这个文本预选过程称之为“文本检测”。 1 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年一次的t r e c ( t s x tr e t r i e v a lc o n f e r e n c e 文本检索会议) ,对于文本检索和文本过滤倾注了极大的热忱。 t r e c 的两个传统的任务是路由寻径( r o u t i n gt a s k ) 和专项检索,而过滤( f i l t e r i n gt r a c k ) 是 路由寻径任务的重要子任务。这个t r e c 7 之前,过滤项目都是以大规模语料作为训练集,使 每一个主题( t o p i c ) 都有相应的相关文档集,然后在新语料中进行测试。从t r e c 7 开始过 滤项目再度细分,可以通过三种方式进行文本过滤,即适应性过滤( a d a p t i v ef i l t e r i n g ) 、批过 滤( b a t c hf i l t e r i n g ) 和路由寻径( r o u t i n g ) 。t r e c 在最近的几次会议中,着重于文本过滤的 理论和技术研究以及系统测试评价方面。对文本过滤的形成和发展提供了强有力的支持。目前 t r e c 的过滤任务要求用户的信息需求自适应地、实时地从具有时序的文本流判断每篇文本是 否相关,主要是模拟时间要求很高的文本过滤应用。 随着因特网的迅速发展,需求的不断增加,在文本过滤以及相关技术方面,取得了长足 的进步,成为信息产业新的增场点,许多文本过滤系统相继的开发完成1 3 1 。 s t a r t f o r d 大学的t a kw y a n 和h e c t o rg a r c i a m o l i i m 开发了基于内容的过滤系统s i f t ( s t a n f o r d i n f o r m a t i o n f i l t e r i n g t 0 0 1 ) ,该系统用于因特网上新闻组的过滤,它使用向量空间模 型来实现用户信息需求与新闻资料之间的匹配,它的用户需求信息,即用户模型( u s e rp r o f i l e ) , 。 是由用户通过提交喜欢的词汇和想要比年的词汇手工建立的,并且可以自我更新。s i f t 每天 为每个用户模型提供2 0 个排序输出的文本,用户利用w w w 浏览器来选择自己感兴趣的文本。 s i f t 对于建立用户模型提供了非常便利的机制。初始时依据当天的文本,让用户确定哪些文 本可以接受,哪些可以拒绝,允许用户在文本集合中调整文本的位置,感兴趣的文本在上方, 通过反复调整,构成用户模型。为了维护用户模型,在使用w w w 浏览器处理文本时,那些 对文本排序顺序起作用的词汇给予加亮显示。通过检查那些建立模型时所未能预见词的上下文 环境,用户可以选择附加的词汇,将其加入不感兴趣的词汇列表中。s i f t 提供了一个高校的 过滤算法。由于将大量的用户模型与中心服务器上的因特网上的每条新闻相比较,工作量很大, 有效的方法时将用户模型分组,分组处理模型比起单个处理显然效率更高,这样可以将一组文 本分配给一组兴趣相同的用户 1 2 i q s t e v e n s 研制了i n f o s c o p e 系统,它采用自动用户兴趣模型学习机制,降低通过上下文环 境构造用户模型的复杂度。它是基于准确匹配规则的系统,通过观察用户阅读行为,如阅读花 费的时间,是否选择保存等,提出相应的过滤规则。i n f o s c o p e 为了减轻用户认知负担,极力 避免用户对于每个文本的明确取舍判断,由于受当时计算机处理能力的限制,它仅能处理每个 5 坐查塑垄查兰塑主堂竺堕茎 文本的头部信息,如主题、作者、新闻组名等信息。此外,处于探讨用户和机器之问合作潜能 的目的,它采用了基于规则的严格匹配机制,因为用户可以经常的描述所使用的选择规则, s t e v e n s 认为规则改变的可视化比起通常依据排序输出来改变模型的难度要小。i n f o s c o p e 的机 器辅助用户模型学习机制、用户可控的提取机制、隐式的用户反馈使它成为基于内容过滤的典 型例子【1 2 1 。 协作过滤的第_ 个实例是t a p e s t r y ,它是n i c h o l s 等人开发的。目的在于过滤个人电子邮 件、新闻组信息等。用户手工构造用户模型,不仅根据文本内容,也可以参考其他用户对于同 一文本的评价,这些评价即用户对文本相关的明确判断,“是”或“否”。t a p e s t r y 依赖团体中 每个人明确的观点进行协作过滤,但该方法的前提是团体中每个人相互了解。对于一个较大的 团体,这一点很难实现。t a p e s t r y 与i n f o s c o p e 相似的是模型由规则组成。规则表明选择文本 所应符合的条件。两者的主要区别在于t a p e s t r y 允许用户为每条规则进行打分,通过比较规则 的得分情况,可以生成排序的输出文本。这个处理过程分为两个步骤,实现时采用客户朋匣务 器方式。首先由服务器确定哪些文本满足哪些用户模型,传递给相应的用户,然后在客户端进 行更为负责的规则匹配任务,产生最终的排序输出。实验表明,对于众多具有相同兴趣的用户, 采用协作过滤效率较耐1 2 1 3 1 。 g r o u p l e n s 是m i l l e r 等人开发的u s e n e tn e w s 协作过滤系统,它建立在客户朋髓务器模式上, 它采用了两种服务器,一是内容服务器,即标准的因特网新闻服务器;二是评注服务器。系统 设计允许复制内容服务器和评注服务器,一边使每个服务器服务于一定数量的用户。g r o u p l e n s 的评注是5 级的确定性判断,评注服务器收集用户的评价级别,依据它预测用户对新文本的接 受程度,并把这些文本发送给客户端。在g r o u p l e n s 系统的客户端还可以监视用户阅读文章所 用的时间,并以此获得一个隐含的兴趣级别反映用户对文章的喜欢程度。g r o u p l e n s 对于协作 过滤的贡献在于分布式评价服务器和模型学习机制呤”】。 还有一些系统进行协作过滤推荐,如:r i n g o 、v i d e or e c o m m e n d e r 和m o v i e l e n s 系统是 对电子邮件、网页和电影进行协作过滤推荐 1 4 - 1 6 1 。 目前已有一些过滤方案试图将内容过滤和协作过滤相结合。f a b 系统是集合内容和协作 两种过滤模式的典型系统,用于推荐网页。在该系统中,用户的相关性反馈用来生成公共主题 过滤器( c o m m u n a lt o p i cf i l t e r ) 和个人过滤器( p e r s o n a l f i l t e r ) 。系统过滤出的文档最初是由 公共主题过滤器根据与用户兴趣主题的一致性程度过滤出,然后将文档发送给个人过滤器,由 用户对文档进行兴趣相关性反馈。最后,这些相关性反馈被用于修改个人过滤器( 用户个人需 要的信息) 和公共过滤器( 与公共兴趣主题匹配的信息) 1 1 7 1 。 m a r y l a n d 大学的i a nm s o b o r o f f 和c h a r l e sk n i c h o l a s 介绍了一种结合内容和协作过滤的 6 山东师范大学硕士学位论文 技术。该技术使用潜在语义索引l s i ( 1 a t e n ts e m a n t i ci n d e x i n g ) 方法来生成用户兴趣模型,这 些用户模型是由与用户信息需求相关的文档中的词构成的向量。该技术中过滤出的文档根据与 l s i 中的用户模型的相似性还进了顺序排列1 8 】。 p r o b u i l d e r 系统也结合使用了内容过滤和协作过滤技术,也用于推荐网页。用户被提供了 一个单独的交互界面,有两列被推荐的网址。一列是由协作过滤生成的推荐网址,另一列是有 内容过滤生成。但是两列是相互独立的,没有结合在一起形成一列结合的推荐网址,也未给出 每种过滤预测的相对重要性,以便用户从两列网址中选择最好的推荐网址 1 9 1 。 另外,美国n e c 公司附属的n e c i 研究所于1 9 9 7 年开发研制了r e s e a r c h l n d e x 科技文献 电子图书馆系统【2 0 1 。该系统的整体设计思想主要是借鉴了s c i ( s c i e n t i f i ec i t a t i o ni n d e x i n g ) 对 科技文献的组织和评价方法,特别是通过对文献引文的详尽分析,实现了科技文献全自动的引 文索引。 在国内,东北大学的姚天顺教授和林鸿飞博士等人进行了中文文本过滤技术的研究( 使 用新闻资料作为其语言语料库) ,在他们提出的中文文本过滤模型中,用户需求采用基于实例 文本的主题词表示,文本表示采用向量空间模型,需求与文本的匹配技术采用向量夹角余弦作 为相似系数,为了更好的排列满足阈值要求的文本,在对文本进行索引的时候,他们引进文本 结构分析技术,从文本中获取逻辑层次信息,以期提高文本片断检索时文档与查询的匹配效率 【2 “捌最另外,他们还进行了基于混合模式的文本过滤模型,其基本思想是将基于内容过滤方 法和协作过滤方法结合起来,给出了用户评注的权威性和一致性度量,以便更好的运用用户的 评注信息。在此基础上,结合用户的个人兴趣,给出了文本特征抽取机制、文本推荐机制、文 本与信息需求模型的匹配机制。 复旦大学吴立德教授和黄萱菁博士等人参加了t r e c 9 会议德f i l t e r i n g 子项目,利用t r e c 提供的规范语料库,他们从主题描述和正例文档中抽取特征向量作为用户的初始需求模型,在 与训练集的交互( 即计算相似度) 中获取关于每个主题的初始闽值。之后再与测试集进行交互, 判断测试集中的文档是否大于某主题的阈值条件,如果满足条件,则将其归入正例文档集,否 则归入反例文档集,然后从正、反例文档集中抽取特征向量,以更新初始需求模型,其中包含 对阈值的动态调整【2 3 】。 清华大学自动化系的李衍达教授和卢增样博士等人提出潜在语义标引技术进行双语过滤 ( 使用新闻资料作为其实验语料库) 和最大间距法进行信息过滤的匹配算法,目的是为他们的 b o o k m a r k 服务系统提供技术支持 2 4 , 2 5 。他们也进行了协作过滤的初步研究,探讨协作过滤的 反展方向【2 6 】。 中国科学院软件研究所的阮彤等博士进行了信息过滤研究,提出了基于贝叶斯网络的信 7 山东师范大学硕士学位论文 息过滤模型b m i f ,描述了信息过滤的基本结构,提供了6 种节点用于描述影响信息过滤的事 件之间的关系,在此基础上,提供了b m i f 的各种使用方法,将词法知识用b m i f 表示,以及 将自动学习与手动交互结合,将协作过滤与内容过滤结合等口7 1 。 1 3 基于混合模型的文本过滤系统的提出 在信息领域内,存在“信息过载”和“信息迷向”问题,使得用户很难找到自己真正需要 的信息。这一问题已经引起了研究者的关注。其中,解决信息过载问题的方法可分为两种:信 息检索和信息过滤。 由于信息检索是一种“人找信息”的信息服务形态,它要求用户通过提交查询关键词来查 找与之匹配的信息。每次检索都要求用户一次性提交一个或几个查询关键词,这很难全面准确 的描述用户真正的信息需求,并不具有智能性,不能学习用户的兴趣,尤其是对具有特定专业 兴趣的用户,输入相同的关键词只能得到相同的检索结果。因此为了真正满足用户的需求,一 种新型的信息服务机制一文本过滤技术已经产生。 文本过滤作为对信息检索服务有益的补充,不但设法提供给用户感兴趣的信息,还对用户 的兴趣倾向进行跟踪记录,并从中抽取其兴趣特征。在信息过滤系统中提出了用户模型来描述 用户的信息需求,将新收集到的信息与用户模型进行相似度计算,系统主动将相似度高的文本 发送给用户模型的注册用户;当用户在收到新文本的同时,可以反馈给系统自己对新信息的兴 趣评价,在用户与系统的互动中提高用户获取信息的效率和质量。目前由于互联网上大量的信 息载体为文本形式,并且我们通常是对文本形式的信息进行科研处理,所以文本过滤首先成为 研究的重点。文本过滤分为两种: ( 1 ) 基于内容的过滤,简称为内容过滤; ( 2 ) 协作过滤,也称之为社会过滤( s o c i a lf i l t e r i n g ) 。 内容过滤根据信息资源和用户兴趣相似性来过滤信息,并且每个用户都独立操作,不需要 考虑别人的兴趣爱好,内容过滤虽然简单有效,但是难以区分同一主题过滤结果质量好坏,不 能为用户发现新的感兴趣的信息,只能发现和已有兴趣相似的信息,如果匹配计算不准确还会 导致过滤结果很不准确,存在很多不感兴趣的信息。 协作过滤利用周围人的推荐信息,它分析用户兴趣,根据兴趣相同或相似的用户对文本的 评价信息,形成系统对其他用户或自己的喜好推荐。协作过滤虽然可以利用其他人的评价信息 为用户发现新的感兴趣的信息,提供更准确的个性化信息推荐,但它也存在许多问题:早期级 别问题、稀疏性问题和可扩展问题,具体我们在下文中有详细的介绍。 8 山东师范大学硕士学位论文 为了解决以上两种文本过滤技术中存在的主要问题,我们有必要探索出一种较为完善的方 法。提出将分别对内容过滤和协作过滤进行研究,改进它们的性能,并把这两种过滤技术进行 结合,充分利用它们的优点,取长补短,使过滤系统的性能得到提高,最终给用户提供更好、 更准确的个性化的信息服务p j 。 1 4 本文的组织结构 本文的工作主要集中在实现基于混合模型的文本过滤系统的关键技术上,包括将强化学习 应用到内容过滤中模板更新上,即机器学习方法;在协作过滤出提出用户一信息项模型,以提 高协作过滤的性能,以及两种过滤方法的有效结合。 全文共分六章,本文的第一章首先介绍文本过滤的意义以及研究现状;第二章我们引出了 两种文本过滤技术,内容过滤技术和协作过滤技术:第三、四、五章是本文的核心部分,该部 分详细介绍了内容过滤技术和协作过滤技术,并在内容过滤部分中,将强化学习应用到模板的 学习中,在协作过滤部分,提出了一种用户一信息项关联模型,该模型可以很好的提高协作过 滤推荐值的准确性;最后,该部分介绍了将这两种过滤技术结合起来的方法,提出了辊合模式 的文本过滤系统。第六章是本文的实验部分,通过实验验证混合模式较于其他单纯的过滤方法 是可以提高系统性能的。最后对所做的工作进行总结;并指出了不足,以及今后要努力的研究 方向。 山东师范大学硕士学位论文 第二章文本信息过滤 广义的信息过滤包括文本、音频、图像、视频等多种信息存在形式的过滤处理。狭义的信 息过滤是指对文本信息的过滤处理。由于目前在因特网上大量的信息载体为文本形式,而且文 本也是广大用户所习惯接受的形式,所以文本过滤技术首先成为研究的焦点,本文所研究的信 息过滤即为狭义上的过滤,也就是文本过滤。 2 1 文本信息过滤的涵义与分类 文本信息过滤是个将用户感兴趣的文档从某个文档集中筛选出来的过程。文本信息过滤 系统是指从持续不断的文本流中依据用户兴趣模型筛选出与用户需求相关的文本,并主动把其 中相关度较高的文本提供给具有该类需求的注册用户:用户同时将自己认为最相关的文本反馈 给过滤系统的服务器;系统也可以通过监视用户的操作行为来获取用户兴趣,最后由过滤系统 自动更新现有的用户兴趣模型,以不断的提高系统的准确率。文本流与用户兴趣是根据信息检 索的相关匹配技术来进行的,但信息过滤与传统的信息检索有许多不同之处。过滤系统关注的 用户对特定兴趣主题长期稳定的信息需求,并将这种需求通过用户兴趣模型来表示,其作用相 当于信息检索中的查询索引项( q u e r yt e r m s ) 。但用户兴趣模型能够反映出用户在相当长的 段时间内其信息需求的主要倾向,随着用户反馈信息的增加和对用户行为的跟踪记录,过滤系 统利用机器学习方法对当前的用户兴趣模型进行调整更新,使其符合用户真正的信息需求。由 此可见,信息过滤系统集信息检索方法和机器学习方法于一体,实现一种新型的、个性化的、 主动的信息服务【6 , 2 8 1 。 有关文本信息过滤的研究方法有多种分类方法( 2 7 1 。按照过滤方法分,有基于内容过滤和基 于协作过滤两种。按照过滤的对象分,有面向新闻组与邮件的过滤系统以及面向文章的信息过 滤系统。按照信息过滤的目的来分,有用于防火墙的内容过滤、用于信息供应商的信息发送以 及通用的主题探测等。本文我们主要进行文本信息过滤中协作过滤和内容过滤方法的研究。 2 2 文本过滤逻辑模型 随着互联网的迅速普及,网上的信息增长的速度非常快,这些因素为文本过滤技术提出了 更高更新的要求。参照已有模型,我们给出文本过滤的逻辑模型图: 山东师范大学硕士学位论文 幽1 文本过滤系统的逻辑模型图 说明:用户兴趣模型空间存储各个用户的兴趣特征词向量。具体保存的是用户兴趣特征词和相 应的权重。 文本集保存从网上收集到的最新文本对应的文本向量。 已被评价的文本集保存的是用户评价过的信息文本,用于用户反馈模块使用,以便刷新用 户相应的兴趣模型。 浏览文本模块以可视化的方式让用户浏览过滤引擎提供的结果,并可以对文本进行兴趣反 馈评价。 反馈模块提供利用用户反馈改进过滤算法的功能。 过滤引擎是系统的调度核心,它从文本集中依次取出文本与每个用户的兴趣模型进行匹 配,把过滤结果发送给用户。又利用用户对文本的反馈,调用反馈模块,刷新相应的用户模型 f 3 1 。 山东师范大学硕士学位论文 第三章内容过滤技术 前面已经提到过,文本信息过滤按照过滤方法,可以分为两种:基于内容过滤与基硬协作 过滤。 在基于内容过滤模式中,每个用户假设是相互独立操作的,因此,过滤结果仅仅依赖于用 户信息需求模型( 也称作用户兴趣模型) 与文本的匹配程度。在用户反馈的基础上,过滤系统 将进一步更新用户兴趣模型【2 1 丑】。 3 1 内容过滤的含义 内容过滤是信息过滤中最基本的一种方法。它主要采用了自然语言处理、人工智能、概 率统计和机器学习等技术进行过滤。把每个用户的信息需求表示成一个用户兴趣模型,即表示 成向量空问中的一个用户向量,并通过对文本集内的文本进行分词、标引、词频统计加权等过 程来生成一个文本向量,然后计算用户向量和文本向量之间的相似度,将相似度高的文献发送 给该用户模型的注册用户。 在内容过滤中,是对信息流中的所有的信息项进行过滤,并且每个用户是相互独立操作的。 当系统收集到新的与用户兴趣相符合的信息时,系统主动通知用户;用户在接收到新信息的同 时,可以反馈给系统自己对新信息的兴趣评价,比如可以评价为相关和不相关。在此基础上, 系统可以利用这些反馈信息对用户模板进行维护和修改,在用户与系统的互动中来提高用户获 取信息的效率和质量。另外,内容过滤还可以对用户的兴趣倾向进行跟踪记录并从中抽取其感 兴趣的特征。 内容过滤的关键在于对文本的理解,而文本理解的关键在于对文本的结构分析,只有充分 的了解文本的各个组成部分,才能了解文本表达的主题,从而抽取出代表文本主题的许多特征 词或生成文本摘要等可视化表示。文本过滤的另外一个关键是用户兴趣模型的构造,即用户建 模技术,只有描述准确用户的信息需求,才能进行更好的过滤服务。下面主要介绍用户模型构 造的相关技术。 3 2 用户兴趣模型 用户兴趣模型是在信息过滤系统中提出的,是对用户信息需求的一种描述形式。其作用相 当于信息检索中的查询需求,但用户兴趣模型与检索时用户提交的查询请求并不相同。因为在 1 2 山东师范大学硕士学位论文 信息过滤系统中,用户的需求信息需要长期驻留在系统服务器端,该需求信息将随着用户兴趣 的调整细化而及时更新;在信息检索系统或搜索引擎中,用户的需求信息就是用户当前提交的 查询关键词,对检索系统来说两次查询之间是互不相关的,检索系统服务器对此类信息不作专 门保留,因而是一次性的【3 1 。 用户兴趣模型用来表示用户对特定主题信息相对稳定的兴趣需求,它应该能够反映出某用 户在相当长的一段时间内对信息需求的主要倾向,随着对用户反馈信息的收集和对用户行为的 跟踪,文本过滤系统将利用机器学习方法对当前的用户兴趣模型进行调整,以使其更好的反映 用户兴趣,符合用户真正的需求 3 】。 信息过滤系统中的用户兴趣模型刻画的是:用户的信息需求自提交到注销这段时间内,对 其某一兴趣需求的一体化描述,其中包括了用户兴趣模型随着需求调整进行动态更新的过程, 以达到及时、准确地反映用户的兴趣信息需求的目的。 根据用户兴趣模型的表示方法的不同,我们将用户兴趣分为两类”: 基于关键词的用户兴趣模型:这种用户模型使用一系列关键词来描述用户的兴趣爱好。在 向量空间模型中,每一个关键词都对应一个权重。这种方法很简单,而且用户模型的更新也非 常容易。但是它要求这些关键词之间是正交关系,没有描述出关键词之间真正的关系。 基于概念的用户兴趣模型:这种方法从本质上讲也是使用一些关键词来描述用户的兴趣, 但是它同时还描述了这些关键词之间的联系,我们可以使用语义网( s e m a n t i cn e t w o r k ) 、联 想网( a s s o c i a t i v en e t w o r k ) 、推理网( i n f e r e n c en e t w o r k ) 来描述这些关键词之间的联系。 3 3 自适应内容过滤概述 在内容过滤中,自适应过滤是文本过滤的子任务,也是最接近真实哥境的。我们将重点讨 论自适应过滤。图1 是一个典型的自适应文本过滤系统的结构。 山东师范大学硕士学位论文 甲 8 接受的文档 口用瓢 8一寸g 一回一 图1 从图l 中我们可以看出,对用户描述以及正例文本进行初始化后,得到一个系统模板。使 用系统模板对属于文档集中的每篇文档进行打分,得到每篇文档的得分值,该得分值是表征文 档与系统模板相关程度的一个指标,可以是相对的也可以是绝对的。不同的系统的得分值的取 值范围也可以不同。系统根据该得分值进行过滤决策,然后将系统认为相关的文本提交给用户。 当得到用户的反馈以及对输入文档集处理过程中收集到的各种信息后,白适应过滤系统可以通 过机器学习的方法对系统模板进行修改,以提高系统性能。其中的关键技术包括系统模板以及 过滤决策的建立、模板和过滤决策的机器学习。如何表达用户的需求以及如何确定过滤决策是 系统初始化的重点。同样作为自适应文本过滤系统中极为重要的步骤,机器学习的主要任务也 是对系统模板及过滤决策的学习o ”。 在自适应过滤中,系统根据用户描述和非常少的正例文本建立系统模板和过滤决策。根据 建立的初始模板,系统对输入文档进行过滤。将系统认为相关的文档提交给用户,提交给用户 的文档可以得到用户的反馈。系统根据用户的反馈相应地调整系统模板和过滤决策,以使系统 性能得到逐步提高。 一般来说,自适应文本过滤系统的基本问题有【3
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商铺联合经营合同书范本
- 工程项目人员变更申请流程及表格
- 2025年营养学营养不良病例分析考试卷答案及解析
- 甲醇危害知识普及及预防宣传卡设计
- 2025年皮肤科常见皮疾鉴别诊断实践模拟答案及解析
- 财务人员内部控制风险防范培训方案
- 高铁运营管理岗位职责说明
- 幼儿园美术教育课程心得体会
- 2025年血液内科血液疾病诊治知识检测试卷答案及解析
- 全套建筑工程施工技术指导手册
- 部编版初中语文《艾青诗选》整本书阅读公开课堂实录
- 2024-2029年中国司美格鲁肽行业市场现状分析及竞争格局与投资发展研究报告
- 奥氮平氟西汀胶囊-药品解读
- 4D厨房区域区间管理责任卡
- 提高住院患者卒中知识知晓率
- 公司组织知识清单范例
- 烘焙类产品的特性及应用
- 公路交通安全设施工高级工培训内容
- 第三章转录及转录调控
- GB/T 7193-2008不饱和聚酯树脂试验方法
- GB/T 3810.3-2016陶瓷砖试验方法第3部分:吸水率、显气孔率、表观相对密度和容重的测定
评论
0/150
提交评论