(计算机软件与理论专业论文)文本内容过滤的关键技术研究.pdf_第1页
(计算机软件与理论专业论文)文本内容过滤的关键技术研究.pdf_第2页
(计算机软件与理论专业论文)文本内容过滤的关键技术研究.pdf_第3页
(计算机软件与理论专业论文)文本内容过滤的关键技术研究.pdf_第4页
(计算机软件与理论专业论文)文本内容过滤的关键技术研究.pdf_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 2 1 世纪是信息时代,也是网络时代。随着信息科学的进步和因特网的普及,网络信 息资源越来越丰富,网上信息呈爆炸式增长。这一方面给用户发现信息、利用信息带来 了方便,另一方面,无序、极其庞大的信息世界和成千上万的超级链接,又常常使用户 在查找其所需信息时感到力不从心。 网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流 中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。信息过滤是实现信 息的个性化主动服务的前提。个性化服务的实质是针对性,即针对不同的用户采取不同 的服务策略,提供不同的服务内容。主动服务的实质是主动性,即系统自动按照用户的 信息需求提供相应的服务。个性化主动服务将使用户通过尽可能小的投入获得尽可能好 的服务回报。 本文从基本概念入手,阐述网络信息过滤的基本问题,包括信息过滤基本原理、过 滤系统的一般处理流程、过滤系统的分类、相关信息检索模型以及过滤系统的性能评价 指标等。然后,着重对文本内容过滤中涉及的关键技术进行深入地分析和探讨。主要包 括中文自动分词技术、文本特征抽取技术、用户需求模板的表示和文本分类技术。在此 研究基础上,设计一个文本内容过滤原型系统,并对系统总体框架、功能模块以及系统 实现的主要方法进行详细阐述。 关键词:信息过滤;文本过滤;中文分词;特征抽取 a b s t r a c t t h e2 1 蚍c e n t u r yi san e we p o c h0 f 证f 0 皿a _ t i o nt e c h i l o b g y ,a n di ti sa b 0an e we p o c h0 f k t e m e t w i t l lt l l ea d v a n c e si n 衄u n i c a t i o nt c c h o l o g y 衄dt h ep o p u l a r i z a t i 0 0 fb t 唧e t , t h ea m o u mo fi i l f o r m a t i o nf o ru s e 瑙w i nb e c o m ei n c r c 硒i n 百yi m p o n 锄t ,e s p o c i a l l yo nt h e w b d dw i d ew 曲h t e m e tb r i n g sac h 觚c ef o rl l s e r st 0d i 删e rm u c hm o r ci n f b 加a t i t h 柚 c v c r b u to nt h eo t h e rh 姐du s e r s0 f t e nf e e lc o n f u s e df a c i n gs u c had i s o r d e r ,h u g ei n f b 蛐a t i s p a c ew h i c hc o m a i n st h o u s a n d su p o nt h o 惦姐d sn e t w 日r kl i n l 【s f i l t e 血gi so n em e t h o dt oh e l pu s e r st oo b t a i t h ei n f o 珊a t i o nt h a tm o s u y 丘t st h c i r n e e d s 1 1 1 ef i l n c t i o n0 fi n f 0 皿a t i 衄f i l t e i i n g ( 9i st os c l e c tr e l c v 壮ti f o 珊t i 0 re l i m i n a t e i r r d e v 粕ti i l f b n n a t i o nf 如md y n a m i ci n f o m a t i o nf l o wo n 血eh t 哪e t 蝴r d i n gt 0c c n 刁【i c r i t e r i aa n ds o m e a p p m a c h e s h f 0 姗a t i o n f i n e r i n g i st h e p r e c o n d i t i o n t oa l i z e i n d i v i d u a l i z e di n f o m a t i s e i c e d i f e r e n tu s e r sh a v ed i f e b r 即ti n f o 皿a t i o nn c c d s , i n d i v i d u a l i z e di n f o r m a t i o ns e r v i c e0 妇f c rd i 妇f c r e n ts e n ,i c e st om e c tt h e i rn e e d s 1 1 1 i sp m o e 鼯i s a l s ov o l u m a 彤t h ep u r p o s eo fi n d i v i d u a l i z e di n = e o m 狐0 ns e n r i c ci st oo a h 璐e 璐b c s t s e r v i c e s m e a n w h i l et h eu s e r sa 丘b r dl i m e t 1 l i s 也e s i sc o m m e n c c st h eb a s i cc o n c c p t0 fi n f o 加a t i o nf i l t e 凼g d i s c u s s 鹪t l l e p 血c i p l e a i l db a s i c p n ) :e s s i n gp i o c e d u r e o fi n f b 加a t i o n f i l t e r i n 岛 s u m m a r i z e st h e d a s s i 丘c a t i o no ff i n c r i n gs y s t e m s ,a i l a l y z c ss e v e r a ld 髂s i cj n 】盼m a t i o nr e 仃i e 、试m o d e l s 觚d i n t m d u c e s 也em e 也o d sa b o u th a wt oe v a l u a t et l l ep e r f b 姗卸c e0 ff i l t c r i n gs y s t e m s t h e nk e y t e c h n i q u e si i lc o n t e n t - b a s e dt e x tf i l t e r i n ga r ep a n i c u l a r l yd i s c u s s e d ,t h a ti sh o wt 0s e g m e n t 嘶髓ew o r d s ,h o wt oe x 昀c ts u i t a b l ef e a t u r e sf 幻md o c u m c n t s ,a i l dh o wt oc o n s t n l du s e r p m f i k ,e t c f i n a l l y ,也e 也c s i sp m p o s e sad e s i 印s c h e m e0 fc o m e n t b a s c dt e x tf i l t e r i n g p m t o t y p es y s t e ma n dd e s c i i b e st h ed e 乜i l so fi t si i n p l e m c n t a t i o n k e yw o r d s :h 陆珊a t i o n 丘l t e r i n g ;1 c x tf i l t e 血g ;a 血e s ew o r ds e 鲫c n t a i i o n ;f e a t l l r e s e l o c t i o i i 独创性声明 本人声羁耩璧交戆学整论文楚零久在导爨捂导下遴行楚磅究工终及驳褥戆 研究成果。据我所知,除了文中特嬲加以标注移致谢的地方外,论文中举包含 其他人已经发表或撰写过的研究成果,也不包含为获褥东北师范大学戏其他教 育机构的学位溅证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已农论文中作了明确的说明并表示谢意。 学位论文作者签名: if 蠢鹾期:z 盛。如i 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文的规定, 即:东北师范大学有权保留并向圆家有关部门或机构送交学位论文的复印件和 磁盘,允许论义被套阅和借阕。本人授投表j 师范大学可以将学位论文的全都 凌蘩分内蜜编入蠢关数据疼遴霉予狻索,霹戳采蠲影露、缝露或其它复裁手毅保 存、汇编学位论文。 ( 保密的带位论文在解密届灞用本授权书) 学位论文终者签名:曼垄l 攒导教舞签名: 匿 期:瑚,、 嚣 麓: 学整论文佟喾毕业后去雇: 工作单位: 通讯地址: 电话: 邮编: 1 1 信息过滤产生的背景 第一章引言 随着信息科学的进步和因特网的发展,网络信息资源越来越丰富,网上信息呈爆炸 式增长。信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改 变着我们的生活和工作方式,我们真正处于一个“信息爆炸”的时代。这一方面给用户发 现信息、利用信息带来了方便,另一方面,无序、极其庞大的信息世界和成千上万的超 级链接,又常常使用户在查找其所需信息时感到力不从心。 目前解决这个矛盾的方法大致可分为两种:信息检索和信息过滤。所谓信息检索, 是指对有序化知识信息的检索查找,本质上是一种“人找信息”的服务形态,每次检索 时要求用户一次性提交一个或几个查询关键词。由于无法全面准确地描述用户真正的信 息需求,传统信息检索技术已经远远不能满足需要,网络信息过滤技术应运而生。 网络信息过滤,就是根据用户的信息需求,利用一定的工具从大规模的动态信息流 中自动筛选出满足用户需求的信息,同时屏蔽掉无用的信息的过程。广义的信息过滤包 括对文本、音频、图像、视频等多种信息存在形式的过滤处理,狭义的信息过滤是特指 对文本信息的过滤处理。由于目前在因特网上主要的信息载体为文本形式,文本信息过 滤技术首先成为研究焦点,本文主要探讨文本信息的过滤技术。 网络信息过滤具有重要的现实意义和巨大的应用价值。信息过滤可以克服重复查 询,网络信息是时常变化的,用户关心这种变化,在搜索引擎中用户只能不断地在网络 上查询同样的内容,以获得变化的信息,这花费了用户大量的时间;信息过滤是实现信 息的个性化主动服务的前提。个性化服务的实质是针对性,即针对不同的用户采取不同 的服务策略,提供不同的服务内容。主动服务的实质是主动性,即系统自动按照用户的 信息需求提供相应的服务。个性化主动服务将使用户通过尽可能小的投入获得尽可能好 的服务回报“1 。信息过滤能实现有害信息的过滤,比如一些反动言论、谣言和色情内容; 能实现垃圾信息过滤,比如常见的垃圾邮件;能实现有用信息推荐,比如可以根据不同 用户之间需求的相关性来推荐信息。 1 2 相关研究 1 2 1 国内外相关研究概述 1 9 8 2 年,d 皿n i g 提出信息过滤( h f 0 皿a t i o nf i l t e r i i l g ) 的概念圆。他描述了一个信 息过滤的实例,在电子邮件系统中,利用过滤机制区分紧急的邮件和一般的例行邮件, 同时根据用户需要限制例行信息的显示方式。为了解决这个问题,d e 加曲g 构造了一种 “内容过滤器”,其中采用的主要技术包括有层次组织的邮箱、独立的私人邮箱、特殊 的传输机制、阈值接受、资格认证等。 在此后的十年间,关于信息过滤的应用研究逐渐开展起来,研究领域也从最初的电 子邮件延伸到其他相关领域,出现了许多研究成果,其中最有影响的是m a l e 和他的 同事在1 9 8 7 年发表的论文0 1 。他们提出了三种信息选择模式,即认知模式、经济模式和 社会模式,并研制了h f o 加a t i o n k 璐系统。 在这一期间,信息过滤研究得到了大规模的政府资助。1 9 8 9 年,美国国防高级研究 项目署( d e f e n s ea d v a n c e dr e s e a r c hp m j e c ta g e n c y ,d a r p a ) 资助了第一届“m e s s a g e u n d e r s t a l l d i n gc o n f e r e n c e ”旧,极大地推动了信息过滤的发展。 1 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年一次的文 本检索会议( t e x tr e t r i e v a l ,匝c ) ,对于文本检索和文本过滤倾注了极大的热忱“1 。 也c 旨在通过提供规范的大规模语料( g b 级) 和对文本检索系统性能进行客观、公 正的评测,来促进技术的交流、发展和产业化;促进政府部门、学术界、工业界之间的 交流和合作,加速技术的产业化;发展对文本检索系统的评测技术。这对文本过滤技术 的形成和发展提供了强有力的支持。 随着因特网的迅速发展,需求的不断增加,在文本过滤以及相关技术方面,取得了 长足的进展,成为信息产业新的增长点,许多文本过滤系统相继开发完成。 如s t 锄d f b r d 大学开发的s 刀盯佟t 粕d f o r dm f o 姐a t i o nf i l t e r i n gt b 0 1 ) 系统嘲、s t e v e n s 研制的h l f o s c o p c 系统”1 、基于协作过滤的系统t 却e s t r y 阻”和g r o u p l e n s “1 。也有一些 过滤方案试图将内容过滤和协作过滤相结合,如r 出系统“4 就是结合了内容过滤和协作 过滤两种模式的典型系统,该系统用于推荐网页。 1 2 2 网络信息检索技术 要研究网络信息过滤问题,必然要谈到信息检索技术。二者密不可分,目前实现信 息过滤的一个主要思路就是基于改造的检索模型。同时,信息检索和信息过滤作为两种 重要的信息处理方法,它们又有各自的特点。在传统的信息检索系统中,当新的查询提 交给系统时,集合中的文档保持相对静止的状态;而在过滤系统中,当新的文档进入( 或 离开) 系统时用户查询保持相对静止的状态o “。 ( 1 ) 网络信息检索的原理 网络信息检索的工作原理可以概括为“:通过自动标引程序r o b o t ( 或人工) 来广 泛搜集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理 后形成供检索用的数据库,创建目录索引,并大多数以w e b 页面形式向用户提供有关的 资源导航、目录索引及检索界面。用户可以根据自己的信息查找要求,按照检索工具的 句法要求等通过检索界面输入想要查找的检索项、提问式。信息检索软件接受用户提交 的检索提问后,按照本系统的句法规定对用户输入的字符串、运算符、标识符、空格等 2 进行识别和判断后,代理用户在数据库中检索,并对检索结果进行评估比较,按与检索 结果的相关程序排序后提供给用户。 ( 2 ) 网络信息检索的特点 网络信息检索是最能体现i n t e m e t 特色的新型信息检索工具,也是目前网络环境下 的水平最高的信息服务方式。网络信息检索的主要特点可以归纳为以下几个方面: 交互作业方式 所有的网络信息检索工具都具有交互式作业的特点,因此具有良好的信息反馈功能 和瞬间相应功能。这两个指标是衡量信息检索系统性能的最重要指标,在网络环境下也 具有同样的意义。 用户透明度 网络信息检索对用户屏蔽了网络的各种物理差异。这里所指的物理差异包括主机的 硬件平台、操作系统等软件上的差异、客户程序和服务程序版本上的差异、主机的地理 位置、信息的存储方式甚至通信协议的差别等。 信息检索空间的拓宽 网络信息检索工具可以同时使用多个主机甚至是所有主机的某种资源而用户不必 知道它们的具体地址。 ( 3 ) 信息检索技术的未来 信息检索始终是信息科学研究的焦点,可以说,网络环境充当了最新信息技术的展 示厅,同时也为信息技术的研究与发展提供了更广阔的实验场所。展望网络信息检索的 发展趋势具有以下特点: 以人工智能为代表的信息检索自动化趋势 以人工智能为代表的信息检索自动化技术是网络信息检索工具的基本技术。网络信 息检索自问世以来,自动化技术就占了主导地位。包括自动标引、自动文摘、自动分类 等信息自动化技术极大地促进了检索效率的提高。信息自动化技术的发展取决于人工智 能技术的研究发展程度,其中的自然语言分析和处理使人工智能与信息检索有着密切的 联系。 多媒体信息检索技术的成熟与发展 w 曲出现以前,由于检索工具本身的限制,信息检索仅限于文本检索,以显示多媒 体为特点的w 曲为非文本信息检索提供了良机。目前,包括图形检索、影像检索和声音 检索的多媒体检索成为信息检索领域研究的热点。 多语种检索的支持 信息社会中的信息存在方式是依托于各种语言的,而要求每个信息使用者同时掌握 几门语言又似乎不可能,因此网络信息检索的多语言支持功能就显得愈加重要。 个性化检索 通用的检索工具具有无法弥补的缺陷,只是寄托于提供检索工具的标引和检索机制 收效不是很显著。有些研究者提出把改善检索效果的着重点从网络信息检索工具转向 “智能代理”,它能够帮助用户选择检索工具、定制检索策略、进行检索操作、搜集并 3 整理检索结果,充当用户和网络信息检索的中介。“智能代理”的本质特点是体现了用 户个人的信息需求,由其根据用户的需求实现网络信息的定向化检索。 1 2 3 自然语言理解技术 由于自然语言理解技术是智能信息处理的核心,而网络文本信息过滤以对文本进行 智能分析为基础,因此有必要对相关的自然语言理解研究加以介绍。 所谓自然语言理解就是研究如何让计算机能正确处理人类语言,并据此做出人们期 待的各种正确响应“”。自然语言理解研究分为书面语理解和口语理解,相对而言,书面 语比较规范,相对口语来说比较容易用机器处理。自然语言的识别和处理是人工智能研 究的最重要的课题之一,也是人工智能研究的关键。对于人工智能的研究来讲,为了使 人工智能系统更有效地获取人类知识,有更强的学习功能,就必须具有相当高的人机对 话能力,那么系统必须具有较强的自然语言识别和处理能力。实际上,自然语言处理和 人工智能的其他领域( 如定理证明、问题解答、模式识别、机器博弈和机器人科学等) 的根本问题都是知识表达和利用问题。说得全面一点就是:如何去获取各种不同的知识, 并以一种计算机可以使用和处理的方法表达知识。实际上,一旦适当的知识结构和表达 理论充分建立了,那么自然语言处理的瓶颈问题也就消除了。 通常所说的计算机理解了某些事件,实际上是把这些事件的一种表示形式转换为另 一种表示形式,每种表示形式对应着一组动作。为了得到关于理解的总体描述,通常将 语言看成是源语言和目标语言的二元组,两者存在着映射。理解自然语言之所以困难, 有三个重要因素: ( 1 ) 目标表示的复杂性。如语义的概念依存网表示。要从语句中提取这种表示的 关键字相当地复杂,同时还需要更多相关的客观世界的知识。 ( 2 ) 映射的类型。对于源语言到目标语言表示的映射,一对一类型是最理想的。 但现实中,自然语言表示到目标语言表示的映射很难达到一对一的要求。 ( 3 ) 成分间的交互程度。在语言中,每个语句都是多个成分组成的,若每个成分 的映射与其它成分无关,那么映射过程就比较简单。遗憾的是,自然语言中的成分交互 程度相当高,句子中改变一个成分常常会大大改变句子的整体结构,这使得映射的复杂 度大大增加。 通常,为了达到理解语言的目的,需要进行三步工作:理解所出现的每个词;从词 义构造表示语句意义的结构:从句子语义结构表示言语的结构。在这三个过程中,需要 着重解决如何有效地使用语法、语义、语用及与其相关的各种知识问题。 自然语言理解技术在网络信息检索中的应用 目前在搜索引擎方面主要应用的自然语言理解技术是机器翻译与语义理解技术。应 用了这些技术的搜索引擎我们称之为智能搜索引擎。由于它将信息检索从基于关键词层 面提高到基于知识( 或概念) 层面,对知识有一定的理解与处理能力,因而具有信息服 务的智能化、人性化特征。它允许用户用自然语言进行信息检索,为他们提供更方便、 4 更确切的信息服务。 与传统的目录查询、关键词查询模式相比,自然语言查询的优势体现在:一是使网 络交流更加人性化:二是使信息查询变得更加方便、快速和准确。现在,已经有越来越 多的搜索引擎宣布支持自然语言搜索特性。比如国外的搜索引擎g o o 西e 、怂崎e e v e s , 国内的搜索引擎网易、百度等。现在的计算机智能还远远没有达到能够像人一样理解自 然语言的水平。因此关于计算机对自然语言的理解一般是从实用的角度进行评判的。如 果一个计算机系统实现了一定程度的人机对话、机器翻译或自动文摘等语言信息处理功 能,则认为该计算机系统具备了自然语言理解的能力。 1 2 4 文本信息过滤任务描述 作为一个崭新的研究领域,文本过滤的任务一直在逐渐演化,难度越来越大,以更 好地模拟真实环境。以著名的国际文本检索会议也c 为例:从1 9 9 7 年的t r e c 6 开 始,文本过滤的主要任务逐渐固定下来,即给定一个主题描述( 用户需求) ,建立一个 能从文本流中自动选择最相关文本的过滤模板( f i l t e r i l l g p r o f i l e ) 。随着文本流的逐渐进 入,过滤系统自动地接受或拒绝文本,并得到文本相关与否的反馈信息,再根据反馈信 息自适应地修正过滤模板“”。 文本过滤项目包含三个子任务:分流、批过滤、自适应过滤。 ( 1 ) 分流( r 0 u t i n g ) 子任务。它是这样被定义的:用户需求固定,提供对应于该 用户需求的训练文本集中的相关文本,从用户需求构造查询语句来测试文本集。 ( 2 ) 批过滤( b a n c hf i l t e 血g ) ,它和分流子任务很类似:用户需求固定,提供对于 该用户需求的训练文本集中的相关文本,构造过滤系统,对测试文本集中的每一个文本 做出接受或拒绝的决策;不同的是分流任务要求按照相似度从大到小的顺序检索出一批 文本,而批过滤则要求将文本分成相关和不相关两类。 ( 3 ) 自适应过滤( a d a p t i v ef n t c r i n g ) 。它要求仅仅从主题描述出发,不提供或只 提供很少的训练文本,逐一判断输入文本流中的文本是否相关。对“接受”的文本,能 得到用户的反馈信息,用以自适应地修正过滤模板,而被“拒绝”的文本是不提供反馈 信息的。这是最接近真实环境也是最困难的子任务。 本文研究w 曲文本信息过滤的相关理论及其实现方法,本文的工作主要有: 1 对当前主要的信息过滤方法进行分析和比较,从而确定一种适宜在文本过滤中 采用的方法。 2 研究对文本信息进行特征提取的算法,选择合适的数学模型,对特征提取的结 果进行建模,以便于下一步对文本进行过滤。 3 在此基础上,给出一个文本内容过滤原型系统的解决方案,并对其进行评价和 分析,提出进一步改进的设想。 5 1 3 本文的内容安排 本文共分五章,大致结构如下: 第一章介绍论文的研究背景和研究意义,阐述信息过滤相关领域国内外的研究现 状,并给出了信息过滤的定义和任务描述。 第二章研究w e b 信息过滤的基本问题,分析信息过滤系统的基本原理,阐述过滤系 统的一般处理流程,介绍过滤系统的分类方法,探讨相关信息检索模型在信息过滤中的 应用,并对信息过滤系统的性能进行评价。 第三章研究文本信息过滤所涉及的关键技术,主要有中文自动分词技术、文本特征 抽取技术、用户需求模板的表示方法和文本分类技术。 第四章设计一个文本信息过滤的原型系统,并阐述其功能设计与实现方案。 第五章对全文进行总结,并提出未来的研究工作方向。 6 第二章w e b 上的信息过滤问题 2 1 信息过滤系统概述 2 1 1 信息过滤系统基本原理 一个最简单的过滤系统包括四个基本组成部分:信源( i n f 0 珊a t i o ns o u d c c ) 、过滤 器( f i l t e r ) 、用户( u s e r ) 、用户需求模板( p m m e s ) 。图2 1 是信息过滤系统的一个简 单结构图。信源向过滤器提供信息,信息过滤器处于信源与用户之间,通过用户需求模 板获取用户的兴趣信息,并据此检验信源中的信息,将其中与用户兴趣相关的信息递送 给用户。反过来,用户也可以向信息过滤器发送反馈信息以说明哪些信息的确符合他们 的信息需求,通过这种交互行为使得过滤器不断进行学习,调整自身的过滤操作,进而 能在以后提供更多更好满足用户兴趣的信息。 图2 1 信息过滤系统基本原理 2 。1 z 信息过滤的一般处理流程 网络信息过滤系统主要处理的是半结构化的和非结构化的数据,为用户在工作、学 习和生活中产生的信息需求提供服务。通常,这种信息需求在较长的一段时间里是相对 稳定的,变化较慢的。要以计算机能够理解的形式揭示用户的信息需求,就是用户需求 模板( u s c rp r o m c s ) ,也叫做用户个性化文件、过滤模板。它是对用户兴趣的一种描述, 表明了用户对什么样的内容感兴趣,对什么样的内容不感兴趣。也就是说,对用户需求 模板的描述可以是正向的,也可以是逆向的,既可以揭示用户希望得到的信息,也可以 描述用户希望剔除的信息。一般情况下,系统不对动态的网络信息流作预处理,只是当 信息流经过时才运用特定的技术将信息揭示出来。过滤匹配算法与用户需求模板的描述 方法、信息的揭示方法是相互联系的,常用的模型主要有布尔模型、向量空间模型、概 7 率模型、潜在语义索引模型等,主要任务是将信息与用户需求模板进行比较,根据比较 结果滤掉不相关信息,选出用户需要的信息,并以合适的形式递送给用户,比如将过滤 结果按相关性大小排序输出。为了提高过滤过程的效率和精度,系统还根据过滤的结果 提供了相应的反馈机制作用于用户和用户需求模板,使用户的信息需求越来越明确,越 来越具体。 图2 2 信息过滤系统处理流程图啪1 2 2 网络信息过滤系统分类 2 2 1 根据过滤方法分类 1 基于内容的过滤( c 0 n t e n t _ b a s e df 丑t c 血g ) 这种方法按照信息内容的特征做出选择,主要采用了自然语言处理、人工智能、概 率统计和机器学习等技术进行过滤。过滤系统把每个用户的信息需求表示成一个用户需 求模板,利用关键词将进入的信息流与用户需求模板进行相似度匹配计算。过滤的结果 作为反馈更新用户需求模板。内容过滤能够监测现有信息的内容特征,为用户提供与其 曾经感兴趣信息相似的信息,但不能为用户发现新的兴趣信息。这种方法比较适合于分 析文本信息,但对声音、图像、视频等形式的媒体信息还缺乏有效的自动分析方法。 2 协作过滤( c o l l a b o r a t i v ef i l t e r i n g ) 8 协作过滤是“相似”用户间的相互协作过程。通过分析用户兴趣,在用户群体中找 到与指定用户兴趣相同或相似的用户,综合这些相同或相似用户对某一信息的评价,形 成系统对该指定用户对此信息的喜好程度预测“1 。在协作过滤系统中,用户的知识、经 验、职业、兴趣爱好以及思想观念对于过滤任务是相当重要的。由于不依赖于内容,这 种过滤方法不仅适用于文本信息,也可以推广到非文本形式的信息。 2 2 2 根据操作的主动性分类 1 主动过滤( a m 代f 丑t c r i 鐾) 系统主动从w 曲上为其用户推送相关的信息。在有些主动信息过滤系统中,预先对 网络信息进行处理,例如对网页或者网站预先分级、建立允许或禁止访问的地址列表等, 在过滤时可以根据分级标记或地址列表决定能否访问“”。 2 被动过滤( p a s s i v ef i l t e 血g ) 系统不对网络信息进行预处理,当用户访问时才对地址、文本或图像等信息进行分 析以决定是否过滤及如何过滤。 2 2 3 根据过滤操作的位置分类“日 1 上游过滤( u p s t r 锄f i l t e 血g ) 用户需求模板存放在服务器端或者代理端上。一般说来,为了减少服务器端和客户 端的负荷,过滤系统也可能处在信息提供者与用户“之间”的专门的中间服务器上,这 种情况也叫做中间服务器过滤。中间服务器如同一个大型的网络缓存器,h t e m e t 信息 只有经过它的过滤才能进入本地系统或局域网,而本地信息也要经过它的中转才能传递 出去。上游过滤的优点是不仅支持基于内容的过滤,也支持协作过滤,缺点是模板不能 用于不同的网络应用中。 2 下游过滤( d 0 w n s 仃e 眦f n t e r i l l g ) 用户需求模板存放在客户端上,也称为客户端过滤。用户根据自身需要设置一定的 限定条件,将不感兴趣的信息排除在外。优点是模板可用于不同的网络应用,缺点是只 能实现基于内容的过滤。 2 3 相关信息检索模型 可以将信息检索模型定义如下“”: 一个信息检索模型是将文档表示、查询以及它们之间关系进行建模的框架,它由三 元体 f d ,q ,月( 岱,d ,) 】 表示。其中,d 是文档集中的一组文档逻辑视图( 或称为文档的表示) ;q 是一组用户 9 信息需求的逻辑视图( 表示) ,这种视图( 表示) 称为查询;r ( q i ,d j ) 是一个排序函数, 该函数输出一个与查询q i q 和文档表示d j d 有关的实数。这样就在文档之间根据查 询q i 定义了一个顺序。 信息检索中的四个传统模型是:布尔模型、向量空间模型、概率模型和逻辑模型。 近些年来,研究人员对于每种传统的模型都提出了各种不同的改进模式,如在基于集合 论的检索模型中,提出了模糊布尔模型和扩展布尔模型;在代数型模型中,衍生出广义 矢量模型、隐含语义索引模型和神经网络模型;在概率检索模型中发展出推理网络模型 和信念网络模型等。除了涉及文本的内容之外,模型还应该涉及文本的结构。在这种情 况下,就应该还有表示文本结构的结构模型。对于文本的结构模型,主要有两种类型: 非重叠链表模型和邻近节点模型。 对于这些检索模型可以用图2 3 表示它们的层次关系。 图2 3 信息检索模型的分类 下面对其中常用的几种检索模型加以介绍。 2 3 1 布尔模型 布尔模型( b o o l e 蛆m o d e l ) 是最广泛使用的模型之一。利用布尔模型进行信息过滤, 就是给定一系列具有二值逻辑的特征变量。这些变量从文档中抽取出来,用来描述文档 的特征。大多数时候是关键字或索引词,也有的时候是时间、作者的姓名等信息。布尔 模型是基于集合论和布尔代数的一种简单的过滤模型,用布尔表达式精确表示用户的查 询串。在一个查询中,两个查询关键词之间用布尔操作符a n d 相关联,表示这两个关 键词必须同时包含在被过滤文档中。如果两个查询关键词之间用布尔操作符0 r 相关联, 则表示这两个关键词中有任何一个包含在被过滤的文档中即可。如a = k , ( k 2 v k 。) 。 利用布尔模型构造的系统理解起来相对容易,在运算环境下过滤效果显著,但布尔 1 0 过滤也存在一些不足。 1 ) 对于一个信息获取系统的初学者来说,由于很难掌握布尔操作符的使用方法, 因此很难将一个查询公式化。故可能产生有背于人类逻辑思维的结果,在一次布尔查询 中,只有包含此查询中所有关键词的文档才会被检索出,包含其中任意几项与一项也不 包含的文档均被视为不相关。例如有一个查询 k 1 如dk 2a n dk 3 姐d 磁a n dk 5 ) ,对于仅 包含其中四个关键词的文档将不会作为结果得出。 2 ) 布尔过滤的匹配策略是基于二元判定标准( b i i l a r yd e c i s i o nc r i t c r i o n ) ,对于某一 篇文档而言,只有相关和不相关两种状态,没有对文档进行相关度排序。 3 ) 布尔过滤中没有区分不同关键词的重要性因子或权重。所有过滤过程中涉及到 的关键词都处于同样的地位,没有主次之分。 2 3 2 向量空间模型 向量空间模型( v c c t o rs p a c cm o d e l ) 是已被人们普遍认可的一种非常有效的检索模 型。在这种模型中,文档和用户需求模板都用关键字来描述,并被表示成多维空间中的 向量。每个关键字被赋予一个权重,代表了其重要性程度。文档和用户需求模板之间相 似程度的度量是通过比较它们对应的向量来进行的,比如余弦相似度或者内积。 向量空间模型具有如下优点: 1 ) 向量空问模型使得对查询向量中关键词权重的赋值成为可能: 2 ) 利用计算得到的相似度可以对获取的文档按照相关度排序; 3 ) 许多实验表明:向量空间模型比布尔模型能够得到更加正确的结果。 向量空间模型也有一定的缺点: 1 ) 向量空间模型没有考虑关键字的排序。例如,像这样的文档:“一匹马比一辆车 好”和“一辆车比一匹马好”被认为是一样。 2 ) 向量空间模型不能表示语义方面,关键词之间的依赖并不存在。例如,“1 址eo 丘 v o u rs h o e s ”和“r e m o v et h ef b h d 时e a r ”,被认为是不同的,而实际上这两句话表达的是 同一个意思。 3 ) 在查询中,不能像布尔模型一样使用关键词之间的逻辑关系。 2 3 3 潜在语义索弓 潜在语义索引模型( l a t c n ts 唧姐c i ch d e x i n gm o d c l ,简称l s i ) 用概念表达文档。 它要求对整个文本进行研究,来抽取关键词和文档之间的关系。l s i 模型应用一种强大 的、完全自动化的统计方法来计算和模拟这些关系,即奇异值分解( s i n g i l l 盯- 、埘u e d e c o m s i t i o n ,简称s v d ) “”。与前两种模型相比,l s i 模型挖掘了文档的内在语义信 息,其性能要优于前面两种技术。因为l s i 是根据用户需求模板与文档的语义相近与否 来确认该文档是否满足用户信息需求,即只要被考查文档与用户需求模板的语义相近度 高,就认为符合用户需要并将其递送给用户。但有时反而适得其反,比如有些文档只是 1 1 与用户以前阅读的文档稍有不同,用基于l s i 模型的过滤系统来分析,会得出这些文档 与用户需求模板的语义相近度极高,然而用户并不想反复阅读内容如此相近的文档。 2 3 4 神经网络模型 神经网络中创建的神经元之间的连通机制也适用于信息获取。一个神经网络由一系 列的简单处理单元神经元组成。这些神经元之间通过在大量带权的网络连接上相互 发送信号来通信。每个神经元只接受信号和计算,然后得到一个即将传播给其他神经元 的输出。对于信息获取系统来说,每个关键词与一个输入神经元关联,而每个文档与一 个输出神经元相关联。一个查询通过激活与其期望的关键词所对应的神经元而进入该网 络,然后该网络计算输出信号。那些激活的输出神经元就是与所期望得到的文档相关的。 神经网络模型具有如下优点: 1 ) 该模型具有学习的功能: 2 ) 隐含层考虑了关键词之间的相关性。 信息获取的神经网络模型在实际中很少直接应用,这主要是由于需要太多的神经元 来表示信息库中的文档和关键词以及因而产生的大量计算,尤其在网络训练阶段。 2 4 文本过滤系统的性能评价 除了采用在信息检索中常用的查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 指标外,批 过滤和自适应过滤子任务还采用u t i l i t y 和f 值来评价,而分流子任务则根据平均非插 值准确率( a v e r a g eu n i n t e r p 0 1 a t e dp r e c i s i o n ) 评价。 2 4 1 查全率和查准率 对某个测试参考集,设信息查询实例为i ,i 对应的相关文档集合为r ,用lri 表 示该集合中的文档数目。假设用给定的( 将要评价的) 检索策略对信息查询i 进行处理, 并生成一个文档结果集a ,用lai 表示该集合中的文档数目。另外,设ir al 表示集合 r 与a 的交集中的文档数量,那么查全率和查准率指标就可以定义如下: 查全率是指检出的相关文档与相关文档( 集合r ) 总数的比值,即查全率 ,- 譬 ( 公式2 _ 1 ) 查准率是指检出的相关文档与检出文档( 集合a ) 总数的比值,即查准率 p 一臀 忪式2 - 2 ) 在同一运行环境下,查全率和查准率之间存在着相互制约的现象,即提高查全率会 使查准率下降,提高查准率会使查全率下降。这是因为,若要增大查全率,必须使需求 表达尽量全面,以确保获得所有可能相关的信息,因此用户最终得到的信息量要比实际 需求的信息量大,这就造成了相对低的查准率;若要增大查准率,必须准确表达用户需 求,从而确保用户获得的信息肯定是需要的信息,这就造成一些相关信息不可避免地会 被漏掉,降低了查全率。图2 4 表示查全率和查准率之间的关系。因此在实际应用过程 中,必须同时兼顾查全率和查准率,不可片面追求某一方面。 l o 铽的蠢盎攀l 的盎稚搴 糟户祷捌彳举瓣鬟骑惯惠用户设寄耨瓢所青曩鼙的倍慧 图2 4 查全率和查准率之间的关系 给定主题和文本,文本可能是相关的,也可能是不相关;过滤系统可能检出该文本, 也可能未检出。于是可以建立如下的四分表: 相关不相关 l 检出 r f kn 愿 l 未检出 砭f e 砥沌 检出相关文本和未检出不相关文本都是过滤正确的情况。而未检出相关文本意味着 遗漏,检出不相关文本意味着错检。线性u t i l i t y 函数对这四种情况赋相应的权重: l i n e a ru t i l i t y = a 半r + + b n + + c 木r - + d 木n 一( 公式2 3 ) 这里的r + r 一n 丫n 一指的每个主题四种文本的数量。参数a ,b ,c ,d 决定了每种情况的 代价。显然a ,d ) = 0 而b ,c = d 。u t i l i t y 值越大,系统的过滤性能就越好。 将全部主题的u t i l i t y 数值进行平均,就得到全局的u t i l i t y 数值。 2 4 3f 值 f 值基于v a nr i j s b e r g e n 的定义,是查全率r 和查准率p 的函数。定义为: ,;继 母。p + r 其中p 为控制查准率和查全率权重关系的参数。 ( 公式2 4 ) 2 4 4 平均非插值准确率 平均非插值准确率是分流子任务的评价目标,它定义在排序的文本列表上: 删咖南m 剐撼垤,) c 一, 对每个主题q ,将检索结果( 允许返回1 0 0 0 篇文档) 按相关度排序,对列表d 中 的每篇相关文本口,计算此时的准确率,即从表头开始到当前位置正确检出的文本数, 与从表头开始到当前位置的全部文本数( 即为f ) 之比;将所有位置的准确率相加,再 除以全部相关文本数ir d ( q ) l ,即为主题q 的平均非插值准确率;对每个主题的4 阡进 行平均,就得到全局的平均非插值准确率。 1 4 3 1 文本预处理 第三章文本内容过滤的关键技术 预处理通常包括以下几种类型“: 1 网页清洗。在信息过滤的第一个阶段,必须对要接受过滤的信息流中的全部文 本进行分析,产生潜在的特征列表。w 曲页面的格式是一种半结构化的文档,其中有许 多噪声对过滤有不利影响,比如广告、图片等无用链接信息在过滤前必须被去掉。w 曲 文档的正文部分定义了w 曲页面的内容,是我们要过滤的主要部分。正文部分有大量 控制结构和格式的标记,这些标记本身在过滤中没有任何意义,而且会给后续的处理带 来困难。因此,过滤系统预处理的第一步是进行网页清洗,去除w e b 页中无用信息,从 中抽取出页面文件的主要内容并且将其转化为纯文本。 2 去除停用词( s t o p w o r d ) 。停用词是指介词、冠词等语义内容很少的词,也指在 文档集中的每个文档中都可能出现的高频词。停用词由于出现在很多文档中,所以对区 分文档的内容价值不大,这些词通常在预处理阶段被去掉。 3 词性标注。词性标注是给文档中的每个词选择一个最有可能的词类。自然语言 中词存在着大量的兼类现象,举例来说,单词“c o o k ”有两个意思,一个指某种人( 厨 师,如a 0 k i s i n t h e k i t c h e n ) ,另一个指的是动作( 烹调,如h e 啪c 0 0 k d e l i d o u s f o o d ) 当c o o k 作第一种意思时,它是一个名词,而作为第二种意思时,它是一个动词。词性 标注可以排除由于词的兼类而形成的歧义。 4 词还原。词还原的主要目的是把一些变形词复原为该词原来的表示形式。主要 包括下面一些内容。 ( 1 ) 名词复数去除。把名词复数形式恢复为其原来的形式。在一个文档中,名词 的重要性是不言而喻的,文本检索和过滤的过程中名词尤其有举足轻重的意义。 ( 2 ) 动词时态转换。把动词在各种时态的形式恢复至其原来的形式 ( 3 ) 动词第三人称转换。把动词在第三人称下的形式恢复至其原来的形式。 ( 4 ) 词根还原( p e r f o 加w o r ds t 锄m i n g ) 。词根还原是指从文档中去掉词的前后缀, 用以形成和系统内部模型一致的项( t e 瑚) ,这样做的目的是将具有同样概念的词作统 一处理。p o r t e rs t e m m e r 是一个大家熟知的词根还原算法,不过使用时要小心,例如 “p o r t e r ”将被p o r t e r 系统还原为“p o n ”,这将导致把关于船和葡萄酒的文章分在一个 类目中( 在英语里,“p o n e r ”是搬运工的意思,“p o r t ”有港口和酒桶阀门的意思) 。 ( 5 ) 简写词复原。文档中存在着大量的简写词,如d h 原为d o l l a r ) ,m l n ( 原为n l i l l i o n ) 等,预处理中必须把这些简写词复原为该词原来的表示形式。简写词复原可以通过分析 测试集,获得所能见到的简写词,将其汇编成简写词表。 1 s 5 词组辨认。自然语言文档中存在着大量的词组,如i i l t e r e s tr a t e ,g m s sn a t i o n a l p r o d u

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论