




已阅读5页,还剩71页未读, 继续免费阅读
(计算机软件与理论专业论文)基于文本分类的信息过滤系统模型研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互联网i n t e r n e t 的飞速发展,网络上的信息呈指数增长。如何能 够更有效、更准确地找到自己感兴趣的内容,关系到我们能否充分利用这 个巨大的信息资源,这己成为基于i n t e r n e t 的网络信息获取的热点问题, 也是本文的研究目标。 本文首先分析了网页上信息过滤的基本问题,包括:信息过滤的体系 结构;过滤系统的特点及分类;检索和过滤的关系;过滤系统常用的模型 以及过滤系统的性能评价指标等。从总体上对过滤系统进行一定的论述, 指出信息过滤系统中现存的问题。 针对过滤系统中存在的部分问题,在现有信息过滤技术的基础上,对 过滤算法进行了一定的改进,并给出了具有智能性、主动性和扩充性的个 性化过滤系统的模型。本文的主要研究内容为以下三个部分:文本自动分 类系统;个性化模式库的表示、建立和维护;改进的过滤匹配算法。 在文本自动分类系统中,本文给出了一个基于改进的向量空间模型的 文本自动分类系统框架模型,重点描述此系统的实现算法。提出了一种“平 均值”匹配阈值调整方法。 对于个性化模式库的表示,本文给出了一种多用户多主题的表示方式。 使得每个用户个性化文件只表达一个用户的一个主题,这样可以更清晰的 表达用户的兴趣。 在改进的过滤匹配算法当中,本文结合了布尔模型和向量空间模型的 优点,综合考虑了过滤过程中的匹配度和相似度,给出一个新的过滤匹配 算法。 关键词信息过滤;文本分类;向量空间模型;个性化模式;用户兴趣 整些查兰三兰堡圭兰竺笙苎 a b s t r a c t w i t l lt h er a p i dd e v e l o p m e n to fi n t e r a c t t h ei n f o r m a t i o no ni ti n c r e a s e si n e x p o n e n t h o w t os e a r c ho u to n e sm o s ti n t e r e s t e dc o n t e n t sd e m a n d si r r e l e v a n t 幻u s e r sd e c i d e so nw h e t h e rw ec a l lu t i l i z et h eh u g ei n f o r m a t i o nr e s o u r c e s 。i t h a sb e e nt h ef o c u sq u e s t i o no f s e a r c h i n gi n f o r m a t i o no nt h ew e b ,a n di ti sa l s o t h em o s ti m p o r t a n tq u e s t i o no f t h i s p a p e r t 1 i sp a p e r p r o p o s e st h em a i ni s s u e so f i n f o r m a t i o nf i l t e r i n gi n c l u d i n gt h e s t r u c t u r eo fi n f o r m a t i o nf i l t e r i n gs y s t e m ,t h ec h a r a c t e r i s t i ca n dc l a s s i f i c a t i o no f f i l t e r i n gs y s t e m ,t h er e l a t i o nb e t w e e nr e t r i e v i n g a n df i l t e r i n g ,t h ec o m m o n m o d e lo f f i l t e r i n gs y s t e m ,t h ee v a l u a t i o ni n d e xo f t h es y s t e mp e r f o r m a n c ea n d s oo n i td w e l l s0 1 1t h ei fq u e s t i o n sa saw h o l ea n dp o i n t so u tt h ee x i s t e n t p r o b l e m si nc u r r e n t i fs y s t e m s a i m i n ga tp r o b l e m si nc u r r e n ti fs y s t e m sa n db a s e do nt h ee x i s t e n ti f t e c h n o l o g y , t h i s a r t i c l e i m p r o v e s o nt h e f i l t e r i n ga l g o r i t h m a n d g i v e s a n i n d i v i d u a t e d f i l t e r i n gs y s t e mm o d e lw h i c hh a st h ei n t e l l i g e n tc h a r a c t e r i s t i c , s u b j e c t i v ea b i l i t ya n de x t e n d i b i l i t y t h em a i n r e s e a r c hi s s u e so ft h i sa r t i c l ea r e a sf o l l o w s :t e x tc a t e g o r i z a t i o n , t h er e p r e s e n t a t i o n ,c r e a t i o na n dm a i n t e n a n c eo f t h ei n d i v i d u a t e dm o d e la n dt h ei m p r o v e d f i l t e r i n g m a t c h i n ga l g o r i t h m i nt h et e x tc a t e g o r i z a t i o ns y s t e m ,t h i sp a p e rg i v e st h ea r c h i t e c t u r eo fa n i m p l e m e n t e da u t o m a t i c t e x t c a t e g o r i z a t i o ns y s t e m b a s e do nv e c t o r s p a c e m o d e l f o c u s i n go ni t si m p l e m e n t a t i o na l g o r i t h m sw h i c h d e t e r m i n et h ev e c t o r f e a t u r es e l e c t i o nd i m e n s i o nv i at e s ts e ti nt r a i n i n gp r o c e s sa n dp r o v i d ea n a v e r a g e ”m a t c h i n g - t h r e s h o l da d j u s t m e n t m e t h o d a sf o rt h er e p r e s e n t a t i o no ft h ei n d i v i d u a t e dp a t t e r n b a s e ,w ei n t r o d u c ea n e wr e p r e s e n t a t i o nm e t h o db a s e do nm u l t i u s e r sa n dm u l t i - t o p i c s ,s oa st o m a k ee a c hp r o f i l eo n l yd e n o t e so n eu s e r st o p i c t l i sm e t h o dm a k e si tp o s s i b l e t oe x p r e s st h eu s e r si n t e r e s te x p l i c i t l y n 摘要 i nt h e i m p r o v e df i l t e r i n g - m a t c h i n ga l g o d t h r n ,w ep u tf o r w a r dan e w f i l t e r i n g m a t c h i n ga l g o r i t h m t 1 1 i sm e t h o dc o m b i n e st h ea d v a n t a g e so f b o o l e a n m o d e la n dv e c t o r s p a c e m o d ea n dt h i n k so v e rt h e m a t c h i n gd e g r e e a n d s i m i l a r i t yd e g r e ei nt h ew h o l e o f f i l t e r i n gp r o c e s s k e y w o r d si n f o r m a t i o nf i l t e r i n g ;t e x tc a t e g o r i z a t i o n ;v e c t o rs p a c em o d e l ; i n d i v i d u a t e d p a t t e r n ;u s e r sp r o f i l e i i i 第1 章绪论 1 1 研究背景 第1 章绪论 由于互联网i n t e m e t 的飞速发展和在全世界范围的普及,越来越多的数 据库和信息不断加入到网络之中,网络上的各种信息正以指数级的速度增 长。i n t e r n e t 已经发展为当今世界上资料最多、门类最全、规模最大的信息 库和全球范围内传播信息的主要渠道。w w w 以超文本的形式呈现给用户 各种各样的信息,构成了一个异常庞大的具有异构性、动态性和开放性的 分布式数据库。 然而,在信息极大丰富的同时,用户也面临着信息过载和资源迷向的 问题。i n t e r n e t 上的信息过于庞杂,而且具有不稳定和变动快的特点,没有 也不可能有一个权威机构能对这些信息进行全面的整理和归类,因此,面 对缤纷复杂的网络空间,面对信息的海洋,用户往往感到无所适从,不知 道如何去获取自己需要的内容。 人们上网获取信息的一种普遍方式是浏览。i n t e m e t 上的文档一般都是 通过超链接结构互相联系起来的,借助i n t e r n e t 浏览器来浏览w e b 页面的 内容。这种浏览方式适合于目的不明确、时间要求不紧迫的情况。当需要 查找一个具体的内容时效率很差,一般不能够在较短时间内获得所耍的信 息,特别是对i n t e r n e t 不太熟悉、缺乏上网经验的用户。因此,用户试图通 过浏览网页来发现信息已经变得非常困难,往往花费了很多时间和精力却 所获甚少,人们期待效率更高的信息获取工具的出现。 自从1 9 9 4 年4 月w e b c r a w l e r 搜索引擎在网上正式发布并开始服务以 来,搜索引擎己经成为发展最快、最引人注目的网络服务之一。当时的搜 索引擎数据库容量小,查询算法简单,效率不高,但却改变了传统的检索 方式。1 9 9 6 年后,搜索引擎开始进入“容量建设期”,出现了一些著名的搜 索引擎,如a l t a v i s t a 、l y c o s 、h a r v e s t 等,网页数量都超过百万甚至千万。 燕山大学工学硕士学位论文 中文搜索引擎虽然发展较晚,但是经常使用的一些搜索引擎网页数量也都 在十万以上。然而在简单的匹配算法下,这对用户来说并不是一个很好的 事情。 当前,搜索引擎正经历着从“数量累积”向“质量精炼”的变革。随 着i n t e r n e t 上的信息数量呈指数级增长,大量信息垃圾也混杂其中。如何向 用户提供质量好且数量适当的检索结果成为搜索引擎技术发展的方向之 一。由于大多数搜索引擎的搜集范围是综合性的,它们的r o b o t 尽其可能 的把各类网页“抓”回来,只经过简单的加工后存放到数据库中备检;另 外,搜索引擎赢接提供给用户的检索途径大都是基于关键词的布尔逻辑匹 配,返回给用户的就是所有包括关键词的文献。这样的检索结果在数量上 远远超出了用户的吸收和使用能力,让人感到束手无策。这也就是现在经 常谈论的“信息过载”、“信息超载”现象。其实,这就是这一代搜索引擎 的突出缺陷:缺少智力,不能通过“学习”提高自身的检索质量。目前大 部分信息检索系统存在着检索精度不高的问题,如何提高检索精度,为用 户提供高质量、高相关度的查询结果,是信息检索领域中重要的、亟待解 决的问题。信息过滤技术就是在这样的背景下开始受到人们的重视。信息 过滤技术的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加 深入,更加细致地参与到用户的整个检索过程中。从关键词的选择、检索 范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求 真正相关的资料。现在,i n t e r n e t 上已经有一些运行着的信息过滤系统和很 多有关这方面研究的文献。这些都表明了信息过滤技术对于网络的发展和 应用的重要意义。 针对以上情况,如何能够更有效、更准确地找到自己感兴趣的信息, 滤除与自己的需求无关的信息,真正做到“各取所需”,成为基于i n t e m e t 的网络信息检索的热点问题。因此,为了解决丰富的信息资源和低能的信 息获取能力之间的矛盾,信息检索和信息过滤技术应运而生,并获得了长 足的发展,正在被越来越多的应用于w e b 空间,并成为讨论的焦点。白9 0 年代开始,相关主题的国际会议不断举行,有力地推动了信息检索和信息 过滤技术的不断完善和进一步深入。 2 第1 章绪论 1 2 信息过滤的提出和研究现状 近年来,在信息查询领域中兴起了信息过滤( i n f o r m a t i o nf i k e r i n g ,简称 i f ) 技术,i f 与信息检索( i n f o r m a t i o nr e t r i e v a l ,简称i r ) 不同,i f 关注用户的 长线o o n g t e 珊) 需求【“。长线需求是指在一段时间内用户比较固定的信息需 求。在i f 中,用户的需求表示成p r o f i l e ,p r o f i l e 相当于i r 中固定的用户查 询条件“q u e r y ”,i f 系统根据p r o f i l e 对进入系统的文档流进行评价,同时 从用户直接或间接地得到反馈信息,并对p r o f i l e 进行修改。由于反馈信息 的存在,机器学习的方法在信息过滤中已得到广泛的重视,其中主要的方 法有b a y e s 学习方法、神经网络方法、决策树、k n n ( k n e a r e s tn e i g h b o r ) 、 s v m ( s u p p o r t v e c t o rm a c h i n e ) 等。 把信息过滤技术用于w e b 信息检索是非常重要的研究方向,它对于解 决网络信息的个性化、动态化以及提高被查询信息对用户的可用度有很大 作用。目前,人们已经研究了许多种过滤方法,提出许多模型,大致分为 两大类:一类是基于机器学习的大范围的检索过滤系统;另一类是智能化 的用户个性化信息检索过滤系统。 a m a l t h a e a 系统是一个信息发现和过滤系统,它能根据用户的兴趣爱 好,从分布的节点上发现有用的信息并进行过滤,然后以摘要的形式提交 给用户【2 1 。在运行过程中,能在用户兴趣改变后,根据用户的反馈和自身的 “显形”f p h e n o t y p e ) 和“基因型”( o e n o t y p e ) 的值修改其“适应度”,达到 “进化”的目的。 s a v v y s e a r c h 系统是一个基于经验学习的中介搜索系统,它能根据用户 提供的术语和反馈,建立中介索引,分析时间和经验因素,并对从搜索引 擎得到的结果进行过滤,从而发现用户真正需要的信息口】。 m e t a c r a w l e r 系统是w a s h i n g t o n 大学开发的基于i n t e m e t 中八个w w w 搜索引擎的“寄生虫”式的过滤工具f 4 】。它提供了统一的接口,用户将自己 的查询提交给m e t a c r a w l e r ,后者转交给各个搜索引擎,收集所有的结果并 以统一的形式反馈给用户。通过在实际的信息和用户之间生成一些信息过 滤处理层,以提高信息发现和过滤的灵活性。 燕山大学工学硕士学位论文 l e t i z i a 是m i t 媒体实验室开发的一种w w w 分类代理( a g e n t ) ,它能通 过执行广度优先搜索浏览w e b 页面,通过监视用户的浏览路径,对文档进 行词法分析,推荐相关文档,给用户提供个性化信息和导航建议【5 1 。 g o o g l e 系统是s t a n f o r d 大学开发的种w e b 信息、过滤检索系统。它 采用p a g e r a n k 算法,对查询性能进行了优化【6 】。 a n t a g o n o m y 通过研究用户行为,可以得到用户对电子新闻的爱好r ”。 该系统提供了两种类型的接口:一种用于隐式反馈,一种用于显式反馈。 在显式相关反馈中,需要用户根据文章的相关性来评价文章;而在隐式反 馈中,系统会根据用户的行为( 移动滚动条或对文章内容进行放大等) 来推断 用户对哪一类文章感兴趣。 目前,信息过滤系统研究的一个显著趋势是增加信息过滤系统的自动 化,从而自动有效的修改用户个性化p r o f i l e 和自动地进行相关的过滤操作。 通常研究人员利用“代理a g e n t ”( 即智能软件成分) 来实现信息过滤系统的 自主操作。将a g e n t 技术用于w w w 信息过滤中,既克服无智能过滤的弊 病,又克服人工智能局限于较旧的应用领域等缺点开拓a g e n t 在w e b 这个 最大的信息资源的发掘作用。 1 3 信息过滤技术现存的问题 目前主要有两种基于w e b 的信息获取方式:一种是网上搜索引擎,例 如:a l t a v i s t a ,y a h o o ,e x c i t e 等。另一种是人工跟踪或浏览文档的超链接。 它们虽然起到了一定的信息定位的作用,但是由于网络的迅速发展,网上 信息量的急剧膨胀,使得用户使用搜索引擎检索某一主题的时候,检索的 结果很多,而真正感必趣的却很少:另一方面,当输入更具体的关键词时, 检索的结果往往为零,效果不很理想。分析原因,主要存在以下几个问题: ( 1 ) 现有大部分信息查询系统都采用关键词输入方式获取用户的兴趣, 这种方式难以满足用户的需求,明显存在着以下弊端:首先,用户需要正 确给出所要查询信息的关键字,即正确表达自己的兴趣,若给出的关键词 错误或者是模糊,检索系统可能会返回大量无关的信息,查询效率低;其 4 第1 章绪论 次,包含关键字的文档不一定是论述该问题的文档,而不包含关键词的文 档不一定是不涉及此问题的文档;第三,查询条件一般是一个与或关系的 字符串,往往导致查询结果集过大且包含许多不相关的文档。 ( 2 ) 现有系统大多采用集中搜索方式,各个集中式系统各行其事,重复 建设,没有充分利用现有的各种搜索引擎的优点,覆盖率低。实际上,网 上现有的搜索引擎已经对网上的信息进行了一系列的规范化,条理化,系 统化,但由于采用的是典型的集中方式,没有建立良好的通信和共享机制, 造成相同信息的重复检索,总体效率降低。 ( 3 ) 现有的大多信息获取系统,不具有识别用户兴趣、水平的能力,以 致不管什么兴趣层次的用户,只要在同一搜索引擎上进行查询且查询主题 一致,所得到的文档集都相同,使得用户依然需要在系统提供的“符合” 用户要求的广阔文档集中寻求自己所需要的信息,浪费大量的时间、精力, 不符合用户的查询意愿。 ( 4 ) 系统与用户问交互的方式局限于相关反馈技术,不能根据用户的兴 趣需求来定制检索结果,忽略了交互过程中用户的兴趣取向,缺乏对w e b 信息进行监控并在出现用户感兴趣的新信息时主动的通知用户的能力,缺 少主动性和智能性。 1 4 本文研究的主要问题 针对上述问题,本文对信息过滤系统中用户兴趣的获取、相关的过滤 算法和基于w e b 的信息过滤系统的体系结构等问题进行了研究改进,旨在 提出一种针对特定领域、性能较好的智能过滤系统。从智能性、主动性、 扩充性、易维护性等方面弥补了现有智能信息检索系统中的不足,提高信 息过滤的速度和精度,帮助人们最大限度的发现自己感兴趣的问题,以期 较好的解决网络范围内信息量大而有用信息少( r i c hd a t ap o o ri n f o r m a t i o n ) 的问题。本文在一些文献的基础上,重点作了以下几方面的工作: f 1 ) 信息过滤是一种系统化的方法,用来从动态的信息流中抽取出符合 用户个性化需求的信息。本文将文本分类技术 s j 引入信息过滤系统中,提出 燕山大学工学硕士学位论文 了一个基于文本分类的信息过滤系统框架结构,并对系统中的各模块的功 能进行了详细的描述。 ( 2 1 文本分类的核心问题是分类算法。本文在向量空间法的基础上提出 了一种改进的向量空间文本分类法。将计算文档间相似度的向量空间模型 表示法进行了改进,提出了一种基于文档问超链接结构的向量空间表示方 法。比较传统的向量空间模型,新算法用相邻链接文档的内容来决定目标 文档的特征向量。能够更加准确的表示出文档的内容,有利于文档的分类 查找。在分类中还有一个很重要的问题:阈值的确定。每一类都有一个阈 值,当相似度大于该值时,文档属于该类。对于阐值的选取目前理论上还 没有很好的方法。本课题提出了种“平均值”方法,即在调整阶段对每 个类的闽值进行调整。 ( 3 ) 本课题提出了一种新的兴趣表示方式:多用户多主题的兴趣表示方 式。用户兴趣文件包含了一个或多个主题,不同主题涉及不同的方向或者 领域,表明了用户的不同兴趣需要,并用相关反馈的方法修改用户的个性 化模式库。这种方式能够更清晰的表达用户的兴趣,在检索和过滤过程中 提高了检索精度。 第2 章信息过滤与信息检索 第2 章信息过滤与信息检索 当今大量的信息以多种多样的格式、媒体形式分散的存储在众多的地 点,构成了一个庞大的、分布的、异构的信息网络。网络中大多数信息都 是动态变化的,都有其初始价值和价值衰减率,这意味着信息像商品一样 有有效期;同时信息空间正以指数规模在高速增长着。这使得用户要在合 适时间、合适地点得到正确信息,越来越成为一个非常困难的任务。另一 方面,信息系统是一种不对称系统,客户数量远大于服务器数量,使服务 器没有足够的能力同时处理众多的用户请求。信息产品和网络规模的不断 增长,使有关抽取用户所需信息的研究( 特别是对信息过滤的研究) 正变得 越来越受到重视。 信息过滤( i n f o r m a t i o nf i l t e r i n g ,i f ) 是一种系统化的方法,用来从动态 的信息流中抽取出符合用户个性化需求的信息;而传统的信息检索则是从 静态数据库中查找信息。信息过滤系统检查所有的进入信息流并与用户需 求进行匹配计算,只将用户需要的文档送给用户。 相比于传统的信息检索模式,信息过滤技术具有较高的可扩展性,能 够适应大规模用户群和海量信息;可以为用户提供及时、个性化的信息服 务;具有了一定的智能和较高的自动化程度。本章重点描述并讨论w e b 上 的关于信息过滤的基本问题,包括:信息过滤的体系结构;过滤系统的特 点及分类;检索和过滤的关系;过滤系统常用的模型以及过滤系统的性能 评价指标等。 2 1 信息过滤技术的基本理论 2 1 1 信息过滤系统的关键技术 信息过滤系统的关键技术主要体现在三个方面:信息过滤的匹配技术 获取用户兴趣,建立用户个性化文件库;相关反馈技术。 7 燕山大学工学硕士学位论文 一个简单的过滤系统包括以下几个基本部分:信源( s o u r c e ) 、过滤器 ( f i l t e r ) 、用户s e r ) 、个性化文件库( p r o f i l e ) 。图2 1 是信息过滤系统的一种 简单结构图。信息过滤器是信息源和信息用户之间的中介。在大多数情况 下,信源和用户都不拥有有关对方的知识,使得与用户兴趣相关的信息难 以被发现。过滤器处于信源与用户之间,通过个性化文件库获取用户兴趣 信息,拥有有关双方的知识,既代表信源又代表用户。它能够检验信源中 的信息并将其中与用户兴趣相关的信息递送给用户,帮助用户克服日益严 重的信息泛滥现象。信源向过滤器提供信息,过滤器根据个性化文件库有 选择地向用户递送信息,用户可以自己决定是否向过滤器发反馈信息以指 明哪些信息符合他们的信息需求,使过滤器通过学习、调整可以更好地提 供符合用户个性化需求的信息。 图2 - 1 信息过滤系统模型 f i g 2 - 1t h e m o d e lo f i n f o r m a t i o nf i l t e r i n gs y s t e m 信息过滤系统主要面对的是半结构化和非结构化的数据,它为用户的 长期的信息需求提供服务。通常用户的信息需求是相对比较稳定的、长期 的、变化较慢的。用户的兴趣模型可用“用户描述数据”的形式来表示。“用 户描述数据”在一些英文文献中以“u s e rp r o f i l e ”出现,也可以译为“用户 个性化文件”。 它是对用户检索兴趣的一种描述,表明了用户对什么样的内容感兴趣, 对什么内容不感兴趣。在实际检索过程中,它其实就是用户输入的关键词 串。现在大多数的搜索引擎提供的检索界面多是它的“简单检索”方式。 用户在输入关键词的时候一般也只输入感兴趣的词,而很少输入那些应该 被排除的词。在很多情况下,用户很难精确地表达出个人兴趣,只是能够 第2 章信息过滤与信息检索 判断一篇文档是否与他们的个人兴趣相关。因此一般的用户描述数据只是 表达了用户感兴趣的内容。信息过滤系统将信息和用户个性化p r o f i l e 文件 进行比较,根据比较结果选出用户需要的信息。图2 2 给出了这种信息过滤 的处理流程。 图2 - 2 信息过滤系统的处理流程 f i g 2 - 2p r o c e s so f i n f o r m a t i o nf i l t e r i n gs y s t e m 9 燕山大学工学硕士学位论文 2 1 2 信息过滤系统的特点 信息过滤的目的是向用户提供需要的信息。信息过滤系统有以下最常 见的特点: ( 1 ) 信息过滤系统是为无结构化和半结构化的数据而设计的信息系统, 它与典型的具有结构化数据的数据库系统不同。一个电子邮件就是半结构 化数据的例子,它的头域有明确的定义而它的正文却是半结构化的。 ( 2 ) 信息过滤系统主要用来处理大量的动态的信息。非结构化数据这个 词常用来作为它的同义词使用。一些多媒体信息系统包含图像、声音和视 频信息。对于这些信息,传统的数据库系统没有进行很好的处理和表示。 f 3 ) 过滤系统包含大量的数据。一些典型的应用基本上都要处理上兆字 节的正文信息,其它媒介要比这还要大得多。 ( 4 ) 典型的过滤系统应用包含输入的数据流或是远程数据源的在线广播 ( 比如新闻组、e m a i l ) 。过滤也用来描述对远程数据库的信息进行检索,可 用智能代理来实现。 ( 5 ) 过滤是基于对个体或群组的信息偏好的描述,也称为用户趣向。一 般来说,这种用户趣向表示的是用户长久的信息偏好。 ( 6 ) 过滤是从动态的数据流中收集或去掉某些文本信息。 2 1 3 信息过滤系统的分类 信息过滤的分类方法很多,主要有以下几种: ( 1 ) 根据操作的主动性分为主动过滤系统和被动过滤系统。主动过滤系 统能从w e b 上为其用户主动选择真正相关的信息;被动过滤系统则从输入 的信息流中选择相关信息。 ( 2 ) 根据操作的位置可分为中间服务器过滤和客户端过滤。一般来说, 为减少服务器和客户端的负荷,过滤系统可能处在信息提供者和用户“之 间”的专门的中间服务器上,即中间服务器过滤。中间服务器如同一个大 型的网络缓存器,w e b 上的信息要经过它的过滤才能进入本地系统或局域 网,而内部信息也要经过它的中转才能传递出去,因而可以设置相应的限 第2 章信息过滤与信息检索 制,对部分网址和信息进行有效控制。若把过滤系统设置在客户端,称为 客户端过滤,用户根据需要设置一定的限定条件,把不感兴趣的无关信息 排除在外。 ( 3 ) 根据过滤方法的不同,过滤系统分为基于内容的过滤( c o n t e n t b a s e d f i l t e r i n g ) 、社会过滤( s o c i o l o g i c a lf i l t e r i n g ) 、经济过滤( e c o n o m i cf i l t e r i n g ) 。 基于内容的过滤是按照信息内容的特性做出选择。社会过滤是根据其它用 户的推荐或注释挑选信息。经济过滤是通过计算选择信息的费效比来选择 信息。 基于内容的过滤,也称为认知过滤,在此过滤方法中,用户个性化p r o f i l e 文件及过滤技术是基于信息内容的,可以利用基于关键词的方法将进入信 息流和用户p r o f i l e 文件进行匹配计算。用户p r o f i l e 文件由用户感兴趣的主 题组成,过滤过程侧重于查明数据项内容相关的程度,用户对系统数据项 的相关性排序的反馈被用于更新用户p r o f i l e 文件。i n f o s c o p e 利用基于规则 的a g e n t 观察用户的使用风格、监测信息的内容特征,判断其是否是用户 感兴趣的,并向用户提供建议。这种方法较容易实旌,但内容过滤比较适 合于分析文本信息,而对声音、图像、视频等形式的媒体还缺乏有效的自 动分析方法。另外基于内容的过滤也难以按质量、类型等要求过滤信息。 例如,当两个文档拥有同样的关键词时,就不能区分出哪个较好、哪个较 差。 社会过滤,也称协作过滤( c o l l a b o r a t i v ef i l t e r i n g ) ,是“相似”用户的合 作过程,是用户通过相互协作、依据其它用户对信息做出的评价来过滤信 息的方法。在社会学过滤系统的用户p r o f i l e 文件中,社会学参数如用户的 知识、经验、职业、兴趣爱好及习惯等对于过滤任务是相当重要的。因为 在个用户群中,总有一部分用户是积极的,他们愿意及时、主动地提供 对文档的反馈信息,这些反馈信息可以被不太积极的用户利用来过滤信息, 这是协同过滤法的设计基础。换句话说,可从用户所属的个性化文件库中 推断用户的默认信息( u p 关于用户信息需求的偏好和习惯) ,而用户可根据他 们的社会学参数分到相应的用户个性化文件库中。其中,信息的选择既可 以按个人标准、也可以按集成的标准( 即大多数成员认可的具有共性的标 燕山大学工学硕士学位论文 准1 。 经济过滤依赖于成本和用户获益的计算,依赖于价格机制。经济过滤 选择信息是按照经济的规则:选择一条信息是因为选择它所用的开销小于 不选择它所损失的代价。 在以上三种过滤方法中,基于内容的过滤和社会过滤是两个主要的方 法,对经济过滤的研究正在逐渐地受到重视。社会过滤在跟踪信息更新方 面更为有效,而在按主题搜集信息方面,基于内容的过滤更合适。在许多 场合,将两种方法综合运用可以取得更好的效果。目前主要有两种结合方 式:连续使用方式和并行使用方式。 ( 1 ) 连续使用方式。其中一个过滤方法为主要方法或更重要的方法。检 索内容首先经过该方法过滤,只有在其结果排序( r e s u l t i n gr a n k ) 超过某一相 关阈值时,才应用第二种过滤方法,进行第二次相关排序。因此,过滤结 果的最终相关性排序是两次排序的加权平均值,其中主要方法的加权值更 大;如果该主要方法的相关排序低于某一阈值时,其排序结果就是检索结 果的最终排序。连续使用方法比较适用于这样一种情形:其中一种方法更 重要或有效,同时另一种过滤方法对其进行细微的调整,以明确过滤结果 的总的相关度。 ( 2 ) 并行使用方法。即两种过滤方法都采用,并提供检索结果的相关排 序,其中总的排序是这两种方法排序的平均值。并行使用方法适用于这样 一种情形:两种过滤方法比较起来都不是更重要的或更有效的方法。 研究证明,基于内容的过滤和社会过滤的结合使用,要优于任何一种 方法的单独使用,为进行快速有效的过滤提供了强有力的工具。不同过滤 方法的结合使用比单纯应用一个过滤方法来说可以产生更好的过滤结果。 2 2 信息过滤与信息检索的关系 信息过滤和信息检索如同同一硬币的正反面。大部分信息过滤的早期 研究源于这样的一种假设:有效的信息检索技术同样也是有效的信息过滤 技术。许多过滤方法是建立在过去成功的检索方法基础之上的,如标引、 1 2 第2 章信息过滤与信息检索 匹配等。1 9 9 6 年c a l l a n 等对这一观点提出了挑战,其思想为:为了设计和 评价有效的信息过滤和信息检索系统,需要不同的技术和评价方法。尤其 是与信息检索相比,信息过滤需要经过相关反馈学习等更为复杂的技术。 信息检索和信息过滤都是帮助用户寻找自己感兴趣的信息,两者之间 有着极为密切的联系,过滤实质上是建立在检索基础之上,但又有其自己 的应用背景和处理技术。信息过滤在检索的基础上引入了用户兴趣文件 p r o f i l e 和相关反馈的概念。二者的相似性表现在以下几个方面:有基本一 致的组件,处理同样的信息流和相似的体系结构。在信息源相对稳定的情 况下,信息检索能够适应用户兴趣的不断变化,快速有效的获取信息;相 反,当用户兴趣在一段时间内比较固定时,通常采用信息过滤技术,从动 态变化的信息流中滤除掉无关信息,尽量定位到自己所需信息。 基本来说,二者的区别在于: ( 1 ) 信息过滤的用户需求是相对稳定的、长期的查询;而信息检索的用 户查询则是随机的、易变的。 ( 2 1 信息过滤所面对的信息源是动态的;而信息检索所面对的信息流是 相对稳定的。 ( 3 ) 信息过滤的用户需求通常是相对稳定的,所以需要保存和维护,因 此需要更新和改善效果;而信息检索的用户壹询则是短暂的,不必保存和 维护的。 ( 4 1 信息过滤较之信息检索更需要用户的反馈,通过用户提供的反馈信 息,增进需求的表达能力,改进过滤效率。而信息检索的用户查询是随机 的、短暂的查询,通常不需要反馈信息。 2 3 三种经典的信息过滤模型 经典的信息过滤模型使用一组具有代表性的关键词( 索引术语) 来描述 数据库中的每一篇文档。关键词是文档中的一些简单的单词,通过它可以 与数据库中的文档相联系,所以我们使用关键词( 术语) 来索引文档的内容。 一般来说,关键词大部分是名词,因为名词的语义很容易理解识别,而形 燕山大学工学硕士学位论文 容词、副词和连接词经常以补语的形式出现,因此很少被用作关键词。然 而在某些系统中,也可能将文档中的每个不同的单词作为关键词,如某些 基于w e b 的全文检索系统。全文检索是以原始记录中的检索词、检索字间 的特定位置为对象的运算,它是一种可以不依赖序词表直接使用自由词的 检索方法。a l t a v i s t a 、e x c i t e 、o p e n t e x t 、w e b c r a w l e r 等搜索引擎采用了全 文检索的方案。 在一组关键词中,并不是所有的字词都能用来描述文档的内容。根据 关键词的重要程度来摘要出文档的内容是很好的方法。如果一个词出现在 每一篇文档中,显然这个词作为关键词是无意义的,因此,用来描述文档 内容的关键词必须是适当的。我们可以通过为每一篇文档中的关键词分配 一个数组权重来解决这个问题。假设k 表示一个关键词,d 表示一篇文档, w ,表示序偶对( k t , d ) 的权重。关键词的权重之间是相互独立的,因为关键 词在文档中出现的次序和次数是相互无关的。 2 3 1 布尔模型 布尔逻辑模型是最简单的检索模型,也是其他检索模型的基础【9 】。它是 一种简单的严格匹配模型,它定义了一个二值变量集合来表示文档,这些 变量对应于文档中的特征项,如果特征项对文档内容有贡献,赋值为t r u e , 否则赋值为f a l s e 。在具体检索时,是通过以下3 个布尔运算符来实现其功 能的。 a n d ( 逻辑与) :可用来表示其连接的两个检索项的交叉关系,也即交集 部分。如果用a n d 连接检索词a 和检索词b ,则检索式为:a a n d b 。即 表示让系统检索同时包含检索词a 和检索词b 的信息集合c 。 o r ( 逻辑或) :用o r 连接检索词a 和检索词b ,则检索式为:a o r b 。 表示让系统查找含有检索词a 、b 之一,或同时包括检索词a 和检索词b 的信息。 n o t ( 逻辑非) :用n o t 连接检索词a 和检索词b ,检索式为:a n o t b 。表示检索含有检索词a 而不含检索词b 的信息,即将包含检索词b 的 1 4 第2 章信息过滤与信息检索 信息集合排除掉。 布尔模型定义关键词只有两种状态,出现或不出现在某一篇文档中, 样就导致了关键词权重都表现为二元性,例如w 。= 0 , 1 ) 。查询串q 是一个 传统的布尔表达式,文档与查询串的相关度定义为: 1 1n d s i r e ( d , q ) 2 信q 2gd(2-1) 如果相似度等于1 ,布尔模型表示查询串4 与文档d 相关,否则表示与 文档d 不相关。 布尔模型的主要优点在于具有清楚和简单的形式,实现简单,检索速 度快。而主要的缺陷在于文档表示能力差,无法区分特征项对文档内容贡 献的重要程度,并且逻辑表达式过于严格,往往会因为一个条件未满足而 忽略了其他全部特征项,造成大量的漏洞。或者是完全匹配导致太多或太 少的结果文档被返回。因此给关键词设置权值能从根本上提高了过滤系统 的功能,从而导致了向量空间模型的产生。 2 3 2 向量空间模型 s a l t o n 在2 0 世纪6 0 年代就开始了信息检索的理论研究,经过多年的努 力研究提出了一套系统的理论框架 10 】:用向量空间模型进行特征表达,用 t f i d f ( 特征项赋权因子) 进行特征项赋权,用倒排文档进行索引,用余 弦夹角进行距离度量,用查全率和查准率评价检索系统性能。这些成果被 成功地运用到基于关键字的信息检索系统中,到现在仍然是信息检索的研 究基础。 为了兼顾查全率和查准率,检索系统在对特征项进行赋权时,应同时 包含提高查全率和查准率的赋权因子。特征项赋权因子由频率因子、文档 集因子两部分组成。 ( 1 1 在文档中频繁出现的特征项一般情况下都具有较高的权重,因此检 索系统常使用频率因子t f 进行特征项赋权,使用高频特征项进行查询可以 提高检索系统的查全率。 燕山大学工学硕士学位论文 ( 2 ) 仅使用频率因子并不能保证系统的查询性能,提高查全率时会影响 系统的查准率。因此需要引入一个与文档集合有关的因子,加大文档间的 区分度。如果特征项在集合中较少的文档中出现,则相应的文档集因子i d f 较大。在文档总数为的集合中,如果包含某特征项的文档数为”,则文档 集因子i d f = - l o g ( n n ) 。较好的查询表达式通常包含能将一些特定文档与文档 集合中其它文档区别开来的特征项,这种特征项不仅要有较高的出现频率, 还要在文档集合中较少的文档中出现。将频率因子和文档集因子相乘就可 以实现此目的,这就是文本检索模型中最常用的t f i d f 赋权因子。 向量空间模型的一些基本定义说明如下: ( 1 ) 特征项膻。特征项腩是指出现在文档中的能够代表该文档特征的基 本单位。 ( 2 ) 特征项权重w 。特征项权重w 。是指特征项t k 能够代表该文档内容 的程度大小。 ( 3 ) 文档的特征向量。设文档的特征项为t l ,t 2 ,“每个特征项的权重分 别为。,w f 2 ,w 则文档的特征向量为( 嵋,w ”,w k ) 。 利用t f i d f 我们定义每个特征项的权重为: 毋i d f a 2 嚣山s 陋2 , 1 1 ,、仃 其中矿( 埔,p ) 是特征项腑在文档p 中出现的频率,n 为文档集中的所有文档 数,腑为晴出现的文档数。由于特征项t l , t 2 ,“互不相同,我们可以将文 档的向量看作竹维的空间向量。因此文档间的相似程度可以用向量之间的 距离来表示,文档d ,d ,的相似度可以定义为两文档特征向量之间的余弦 夹角: s i m ( d t ,t ) = c o s o = w , k x w j k k = l ( 2 - 3 ) 第2 章信息过滤与信息检索 以向量空间模型t f i d f 为基础的信息检索模式如下: ( 1 ) 抽取文档集中文档的特征项,建立特征项库。 ( 2 ) 依据t f i d f 算法计算文档各个特征项的权重,建立该文档的特征向 量集合。 ( 3 ) 对用户的查询条件进行布尔转换,并与目标文档进行相似性比较。 ( 4 ) 按照相似度大小的排序输出查询结果。 向量空间模型的优点在于: ( 1 ) 关键词权重的算法提高了过滤的性能。 ( 2 ) 部分匹配的策略使得过滤得到的结果文档集合更接近于用户的查询 需求。 ( 3 ) 根据结果文档对于查询串的相关度,通过余弦公式对结果文档进行 排序。 向量空间模型的t f i d f 算法同样也存在着以下问题:t f i d f 算法中 的i d f 函数在本质上是一种试图抑制噪音的加权。然而,i d f 函数简单地 认为文本频数少的特征项就重要,文本频数多的单词就无用,这显然太武 断了。i d f 函数的简单结构使它不可能更好地反映特征项的重要程度。另 外在文档向量权重计算过程中每增加一个文档都需要重新计算文档集中每 个文档的向量。 2 3 3 基于超链接结构的文档表示模型 为了解决这个问题,在以后的研究中,w e b 文档
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- Artemether-13C-d3-Dihydroqinghaosu-methyl-ether-sup-13-sup-C-d-sub-3-sub-生命科学试剂-MCE
- 3-Isopropylbut-3-enoyl-CoA-3-Isopropylbut-3-enoyl-coenzyme-A-生命科学试剂-MCE
- ASP-1948-生命科学试剂-MCE
- 发票审核要点培训课件
- 防雷安全知识培训课件
- 许昌市消防安全知识培训课件
- 消防知识集中培训课件
- 2025年系统分析师真题分析及试题与答案
- 2025年水生产处理工岗位职业技能资格知识考试题库(附含答案)
- 中国世界遗产欣赏知到智慧树答案
- DBJ50T-330-2025 建筑楼地面隔声保温工程应用技术标准
- (高清版)DG∕TJ 08-2314-2020 建筑同层排水系统应用技术标准
- 航空行业飞行安全手册
- 维修电子设备合同协议
- 微信电子欠条协议书模板
- 微信视频号账号协议合同
- 运输公司值班管理制度
- 编译原理教案
- 2024年7月廉洁警示教育
- 中国诗词文化概论课件
- 第46届世界技能大赛贵州省选拔赛美容技术文件
评论
0/150
提交评论