




已阅读5页,还剩51页未读, 继续免费阅读
(计算机软件与理论专业论文)基于混合策略的中文文本过滤技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文 m a s t e r st h e s i s 摘要 信息过滤是自然信息处理中的一个重要课题。近年来,过滤系统在各类应用领 域中得到了广泛的应用,它们阻断无用或不良信息,为用户提供定制的信息服务, 使得他们在有限的阅读时间内获得最优化的数据。 由于网络上的信息以文本为主,因此文本信息的过滤就成为应用的焦点。目前 两种典型的解决方案分别是基于内容的过滤和协作式的过滤。其中,基于内容的过 滤通过分析文本信息与用户需求模型间的匹配程度,将满足用户兴趣要求的文本集 合检索出来。而协作式的信息过滤根据相同或相近兴趣的用户对相应信息做出的评 价,向其它用户进行推荐,主要利用用户之间的相似性来过滤信息。这两种方法各 具特点。基于内容的过滤原理简单,可以直接在检索技术的基础上加以改进,从而 获得比较有效的查询算法,但是它难以区分资源内容的品质和风格,无法完全解决 信息过载的问题。协作式的过滤系统则可以很好地利用资源内容的品质信息,并且 能解决新兴趣的发现问题,但是受数据稀疏性问题影响严重,尤其是对新系统而言。 针对上述问题,我们尝试性的提出了一种基于混合策略的文本过滤模型,并对 不同策略下各种技术的使用进行了深入的探讨与分析。本文的研究工作主要包括以 下几个方面: 1 探讨了基于窗口大小的文本特征表示,对句子窗口、段落窗口以及块窗口下 的特征加权方法和匹配方法进行了比较研究,其中块窗口的使用对提高过滤精度显 示出一定优势。 2 在传统推荐策略的基础上,改进了基于用户的最近邻算法,提出了基于相似 项目的评分预测和推荐方法,缓解了数据稀疏性导致的无效预测。 3 提出了一种基于混合策略的文本过滤模型,结合基于内容的过滤方式和协作 式过滤方式,我们首先使用前者生成候选推荐集,在此基础上使用后者产生p 推荐,有效的提高了推荐的可靠性。 关键词:文本过滤;基于内容的过滤;协作式过滤;文本特征表示 最近邻居;您推荐 a b s t r a c t i o r m a t i o nf i l t e r i n gi sa ni m p o n a l l tr e s e a f c hi s s u ei nn a t i i f a l1 a n g u a g cp r o c e s s i n g i nr e c e n ty e a r s ,f i l t e r j n gs y s t e mi sw i d e l yu s c di na k i n d so fa p p l i c a t i o n s t h e ya ” v a r 咖gi nt ec :h i l o l o g y ,b u ta l ls h a r et h eg o a lo fa u t o n l a t i c a l l yd h d i n gt h em o s tv a l u a b k i l l f b m l a t i o nt ou s e r si na c r d a n c ew i t l lt h e i ru s c rm o d e l ,柚dh e l p j n g 也e ms p 蛐dl i m i t e d r c a d i gt i m em o s to p t i m a u y t e x t6 n e r i i i g b e 0 0 m e st l i e 妣u so fi 响m a t i o nf i l t e f i n gr c s c a r c h ,f o rm cm 黜o f o n - l i n ei i l f o 肌a t i o ni si t h ef o mo ft e x t n o w a d a y s ,t l l e r ea r et w o t y p i c a la p p r o a c h e sf o r t e x tf i l t 甜n g :c o n t e n t - b a s e da l l dc o l l 蜘曲e c o n t e n t - b a s e df i l t c r m gc h 硼l d e r i z e st h e c o t e n t so ft h ed o c i l m e n t s 卸dt h ei n f o 册a 啪nn c e d so fp o t e n t i a lm e s s a g cr c c i p i 锄t s ,柚d t h u s i n gi l i e s er e p r e s e n t a t i st oi l l t c l l i g e n u ym a t c hm e s s a g e st o 蜊:i p i e n t sb 勰e do n n t e n t c o l l a b o m t i v ef i l t c f i n g 孤t o m a t c st h ep r o c e 站o fh u m a nr c c o m m e n d a t i o n s ad a t a i t e mi sr e c o m m e n d e dt oau s e r 曲t h eb a s i so fi t sb e i l l gr e l e v 柚tt oo 血i i ru s c r sh a v i g s i l n i l a rt 鹤t e s t 1 l e s et w o a p p r o a c h e sa f ed i 丘c r c n ti ns o m cc h a r a c t c r i s t i c s ( ) 0 n t e n t - b 弱e d f i l t e r i n gm e t h o di se a s yt oi m p l e m c n t ,b u th a r dt od i s t i n g i l i s ht e x t sq u a l i t i e s 柚dd i s c o v c r u s e r sn e wi n t c r c s l s ,w h i l ec o l l 矗b o r a t i v ef i l t e r i l l go v e r c o m ct l l e s cs h o n c o m i l l g s 锄dt a k e c o l d s t a np m b l e m 髂i t so w n d i s a d v a t a g e i nt h i sp a p e r ,w ep m p o s eat e x tf i l t e r i n gm e t h o db a s e do nac o m b i n a t i o nm o d e l ,a l l d p a ym u c ha t t e n t i o nt ot l l er e s e a r c ho fc o m e m - b a s e dm a t c ha i g o r i t h ma 1 1 dc o l l a b o r a t i v e r e c o m m e n d a t i o n a l g o r i t t l m t h em a i nw o r k s a r ea sf o l l d w s : 1 d i s c u s st h et e x tr e p r e s e n t a t i o nm e t l l o d sb a s e do nv a f y i n gw i n d o ws i z e s c 0 m p a r e a l l1 ( i n d so fw e i g l l t i n gs c h e m e sa n dm a t c h i n ga l g o r i t h m s ,w h e r es e m a n t i ca n a l y s i si su s e d t og i v ed u c so fd i f f e r e n ts u b j e c ti i lt h es a m et e x t 2 i i n p r o v et r a d i t i o n a ln e a f e s tn e i g l l b o r h o o da l g o r i t l l l n np r e d i c t si t e mf a t i n g st h a t u s e r sh a v e o tr a t e d b yt l l es i m i l a f i t yo fi t e m s ,粕dt h e nu s e san e ws i m i l a r i t ym e a s u r et o 丘n dt h et a r g e tu s e r s n e i g h b o r s i t sc f f e c t i v ew i t t le x t m es p a r s i t yo fu s e rr a t i n gd a t a 3 p r 叩o s e at e x t 丘l t e i i gs t r a t e g yb a s e do nac o m b j i l a t i o nm o d d i tu s e s c o n t e n d - b 硒e dm a t c hm e t h o dt os p c d f yar e m m e n d a t i o nc a n d i d a t cs e t ,f 如mw h i c ht l l e t 0 p nr c o o m m e n d a t i o ni sf i n a l l yp r o d u c e d k e yw o r d s :t e x tf i l t c 血g ;c t c n t _ b a s c df i l t c i i n g ;c o l l a b o 珀t i v ef i n e r i n g ; t e x tf e a l l l r er e p r e s e n t a t i 锄;n e a r c s tn e i g h b o f h 0 0 d ; t b p nr e c 0 姗e n d a t i o 颇士学住论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均己在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名:拿泛鸸日期:沙6 年6 月量日 学位论文版权使甩授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权华中师范大学可以将本学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 作者戤:蝴 日期:2 “年毛月6 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程”,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库”中全文发布,并可按“章程”中的 规定享受相关权益。回重途塞逞銮卮溢匡;旦圭生;旦二生;旦三生筮壶! 作者签名:v 矿纯吗 日期:n 6 年6 月石日 硕士学位论文 m a s t e r st h e s i s 1 1 课题背景及意义 第一章绪论 信息社会的高度发展使得信息成为当今最为重要的资源。面对浩瀚如海的信 息,如何有效地管理、利用它们,是信息技术领域的热门问题。近年来搜索引擎应 用和服务迅速兴起,掀起了互联网产业新一轮发展热潮,并广为公众认识和使用。 现有的搜索引擎和分类目录技术,通过对超文本链接的浏览和关键词检索,在 一定程度上满足了普通用户对信息的需求。但是,随着信息规模的不断激增,人们 在使用传统方法获取信息的过程中也遇到了一些新的问题和需求: ( 1 ) 信息过载,知识匮乏。利用现有的检索方式,当输入一个关键词进行查 询,往往会有成百上千条乃至更多的信息被提供给用户,而真正为用户所需的信息 却仅仅是其中的一部分,甚至没有,这就是所谓的信息庞大而知识匮乏。如何寻找 出与用户兴趣真正符合的信息,是信息过载危机所要解决的关键问题。 ( 2 ) 特定用户的信息定制。对于具有特定专业兴趣的用户来讲,其信息需求 倾向会在相当长一段时间内保持不变或变化不大,相对网上瞬息万变的动态信息, 如果要长期关注某类信息的发展,只有不断在网上查询同样的内容,这样必将造成 许多不必要的浪费。所以,为特定需求用户定期推送个性化的信息,成为信息处理 领域的必然趋势。 ( 3 ) 不良信息影响恶劣。网络上的信息浩瀚如海,其中充斥着大量的垃圾信 息,比如:一些敏感的政治言论,不健康的文章等等。这些垃圾信息潜伏在因特网 中就好比一颗定时炸弹,会侵蚀国人的精神文明建设,并有可能威胁到国家的安全, 对这类信息的屏蔽成为刻不容缓的任务。 所以,结合现有的信息检索方法,以解决网络信息的个性化查询以及提高被查 询信息对用户的可用度为目的的信息过滤技术应运而生。 近年来,过滤系统在各类应用领域中得到了广泛的应用。这些过滤系统的典型 应用包括:在互联网上查询结果的过滤软件;基于用户自定义规则的e m a 过滤器; 为讨论组或个人设计的新闻组过滤器;用于阻断无用信息的浏览器过滤插件;专门 为少年儿童设计防止接触不良信息的过滤软件;以及为电子商务( e c o m m e r c e ) 应用专门设计,用于向潜在的用户提供产品及其宣传的过滤系统等。这些系统跨越 不同的领域,拥有不同的功能和多样的平台。它们使用来自信息检索、人工智能或 硕士学位论文 m a s t e r st h e s i s 行为科学等领域内的各类方法、概念和技术,但是却共享一个目标,那就是自动将 最有价值的信息指向用户,使得他们在有限的阅读时间内获得最优化的数据。 由于网络上的信息9 0 以上都是文本信息,因此文本信息的过滤就成为技术的 焦点。随着在线文本的日益增多,文本过滤技术已经成为信息处理领域中一个相当 活跃的分支。 1 2 文本过滤的国内外研究情况 国外对文本过滤的研究可以追溯到上世纪5 0 年代。1 9 5 8 年,b i h n 提出了“商业 智能系统”的概念。该系统中,图书馆工作者为每个用户创建一个符合用户信息需 求的新文本清单。同时,记录下用户所订阅的文本,用于更新用户的需求模型。这 样的构想事实上已经包含了信息过滤的基本要素,它与目前的过滤系统相比,只是 实现技术的不刚”。 1 9 8 2 年,d c 皿i n g 首次提出了“信息过滤”概念【2 】,同时描述了一个信息过滤的 需求例子:对于实时的电子邮件,利用过滤机制,识别出紧急的邮件和一般例行邮 件。他采用了一个“内容过滤器”来实现过滤功能,其中采用了层次组织的邮箱, 独立的私人邮箱、阈值接收、资格认证等主要技术。 1 9 8 7 年,m a l o n e 等人发表了较有影响的论文【3 】,并且研制了系统“h f 0 皿a t i o n k n s ”。他提出了三种信息选择模式,即认知的、经济的、社会的。社会模式是他 最重要的贡献,目前也称之为协作过滤( o 以l a b o r a t i v ef i l t e 血曲。在社会过滤系统中, 文本的表示是基于以前读者对文本的标注或评价,通过交换信息,自动识别具有共 同兴趣的团体。 8 0 年代后期,文本过滤的研究开始得到相当的重视与发展。1 9 8 9 年,d a p a r ( t h e d e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 支持了第一界m u c 会议( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) ,它用信息抽取技术支持信息的选择,在将自然语言 处理技术引入了文本过滤研究方面做了积极的探索。 近年来,已经有越来越多的学者和研发机构投入到此项富有市场前景和研究价 值的课题中来,并取得了一系列丰硕的成果。纵观这些过滤系统的解决方案和实现 技术,大多数的探索都在两类概念下进行:基于统计概念的方法和基于知识概念的 方法。 1 2 1 基于统计概念的方法 基于统计概念的方法( m e t h o db a s e do ns t a t i s t i c a lc o n c e p t ) 主要延续了传统信息 2 检索和自然语言处理中的理论和方法,尤其在对信息内容的理解和表示方面。用此 类方法实现的过滤系统通常将用户需求以用户模板的形式来描述,通过在过滤模块 中实现一个基于统计的算法,来计算用户模板与文档向量间的相似度,比如检索中 的c o s i l l e 方法就是其中最为通用的相似度计算方法。对评估过相似度的文档,依照 一定的算法进行排名,然后再根据事先定义的规则判断是否过滤该信息。过滤系统 还将通过用户的相关反馈实现一个学习的过程,在这个过程中,用户模板得到更新, 从而为新一轮的过滤提供更好的用户需求表达。系统可以通过多种方式获得反馈, 既可以直接要求用户对检索到的项进行相关和无关的判断,也可以对用户浏览信息 的行为进行隐式的跟踪。构造新的用户模板时通常会考虑模板中原有的查询项在相 关文档和无关文档中的频率【4 l ,赋予它们新的权值,或者从检出文档中选择新的查 询项对原有模板进行扩充。 利用统计概念实现的过滤系统拓展了以下主流技术的应用: 潜在语义索引 潜在语义索引t ts e m 姐t i ch l d e x i n g ,l s d 是d u m a i s 等人在1 9 8 8 年提出 的信息检索代数模型,主要是为克服传统的查询词与文档匹配检索技术的缺点而设 计的【5 1 。在向量空间模型( v c c t o rs p a c cm o d c l ,v s m ) 的基础上,l s i 利用线性代 数的知识,通过矩阵的奇异值分解( s j n g i l l 缸v a l u cd e c o m p o s i t i 衄,s v d ) 来进行潜 在语义索引。 l s i 的思想认为文本中的词与词之间存在某种联系,即存在某种潜在的语义结 构,用这种语义结构来表示词和文本,可以消除词之间的相关性,避免v s m 中各 维之闻概念正交的假设,达到化简文本向量的目的。l s i 使用统计技术去估计这些 潜在的语义结构,通过数学分析计算出文档集合中这些潜在概念之间的关系,减少 了概念表示之间的模糊性,降低了同义词和多义词带来的“噪声”。所以l s l 与其 他方法相比其好处在于可调节的表示能力;特征项和文本在同一空间中的确定 性表示;对于大型数据集合的计算简便性。 f o l t z 在1 9 9 0 年构造了一个基于潜在索引模型的过滤系统,是一个典型的用统 计概念方法实现的系纠6 】。这个系统包含一个在特征项间寻找语义连接的过程。这 就意味着,一旦两个特征项在语义上存在一定的联系,即便其中的一个没有出现在 文档里,也仍然会被认为是相关的特征。f 0 l t z 和d u m a i s 在一个关于传统向量表示 和l s i 的比较研究中发现,l s i 可以获得更好的结果吼但是l s i 不能广范围的使 用,因为它在进行过滤和表示的过程中具有很大的计算量。 3 项士学位论文 m a s t e r s t h e s l s 贝叶斯方法 比起文本检索,文本过滤的用户配置文件有一定的长期性,在此过程中,用户 可能会通过人机交互干涉过滤的结果。另外,用户选择信息的原因往往是多维的, 可以包括内容、质量、偏好等多种因素。一个信息是否满足需求也可以从多个角度 判断,如通过文章内容中的特征、通过元信息、通过相关用户是否对特定内容感兴 趣等【8 l o 而原有的基于文本处理模型和相关的学习方法,很少能够用来描述事件之 间复杂关系。 贝叶斯网络是一个图模型( g m p h i c a lm o d e d ,它描述了一组变量之间的概率依赖 关系。由于贝叶斯网络具有将先验知识与数据结合,以及网络结构对用户可见的优 点,已成为专家系统中记录不确定知识的最流行的方法之一1 9 1 。有关贝叶斯网络在 信息处理领域中的应用,a c mc o m p u 佃gs u r v e y s 的一篇文章l ”j 这样评价:“贝叶 斯方法是最有前景的一种方法,因为它将领域知识引入信息检索领域中”。贝叶 斯网络被用在信息检索中始于h ( w a r dr n 【r t l e 的博士论文【1 1 】。c a l l 柚将t u n l e 的 工作改进后用到信息过滤1 2 ,其研究仅对信患检索模型做了简单改进,没有涉及到 协作过滤、用户交互等信息过滤应用的特点。s r i n in a r a y a i i 孤【蚓将贝叶斯网络用在 单词二义性识别上。 u b r a 系统则利用贝叶斯方法实现了一个基于内容的推荐系统【1 4 1 。通过训练个 体用户提供的示例,在网上过滤出相关图书的信息并进行推荐。相关测试使用了 2 0 0 0 年a m a z o n c o m 上的图书数据,系统在缺少其他用户信息的情况下显示了有效 的推荐结果。 基于统计的贝叶斯方法还被用于a n d r o u t s o p o u l o s 等人的系统,该系统用于过滤 大批量的非法邮件【1 5 l 。多数反垃圾邮件过滤器都是基于人工构造关键词模式【1 6 l , a m d f o u t s o p o u l o s 等人则使用了朴素贝叶斯分类器监测垃圾邮件。朴素贝叶斯方法基 于这样一个假设,即向量空间中的特征项是没有关联的。试验结果标明,使用了贝 叶斯分类器的过滤系统在性能上优于基于人工构造关键词模式的系统。 值得注意的是,在实际的应用中使用贝叶斯方法实现过滤模块有一定的适用条 件:各类别总体的概率是己知的;决策分类的类别数是一定的。 支持向量机 支持向量机( s u p p o nv e c t o r m a c h i n e s ,s v m ) 是v a p n i k 等人提出的一种基于统 计学习理论的机器学习方法,它以最大化分类间隔构造最优分类超平面来提高分类 器的泛化能力,较好的解决了非线形、高维数等问题【1 7 j 。通过学习算法,s v m 可 以自动找出那些对分类具有较好区分能力的支持向量,对支持向量的分类等价于对 4 所有训练样本的分类。 使用s 、m 方法实现的过滤系统,首先从原始空间中抽取特征,然后将原始空 间中的样本映射为高维特征空间中的一个向量,以解决原始空间中线性不可分的问 题。该方法的优点在于能够在训练样本数很小的情况下达到具有很好泛化能力的学 习算法,并且能够做到与文本空间的维数无关。但是,标准支持向量机等同对待所 有训练样本,因此对那些混杂在另一类中或不完全属于某一类别的样本点( 野值点) 非常敏感,从而降低了过滤的精度。 2 0 0 0 年,f i s h 等人利用s w a m i 系统对统计概念下的3 种预测算法进行了对比: 传统的p e a r s o n 方法,支持向量机以及使用聚类分析的p e a r s o n 方法。实现结果显示, 后两种方法对于大规模的文本过滤具有额外优越的性能f 1 8 l 。 2 0 0 3 年,h w a n j o y u 等人扩展了传统的s v m 方法,将新方法s c ( s u p p o n 、忱t o rm a c h i n ec o n v e r g 朗c c ) 应用在文本过滤等分类任务中 捌。他们利用文本特征 空闻中数据分布的自然间隙( g a p ) 来分析正例文本与反例文本的边界。该方法在 正例数据稀少的情况下显示出了很好的性能。随着过滤过程的进行,s 订c 能够适 时的停止继续过滤出噪音过大的结果。 1 2 2 基于知识概念的方法 基于知识概念的过滤系统使用了人工智能中的相关技术,如规则生成 ( p r o d u c t i 0 一l e s ) ,语义网( s 锄a n t i c - n e t ) 和神经网络( n c u r a l n e t 、v o r l 【s ) 。系统 使用它们来构造用户模板,从而进一步实现过滤和学习的功能。 基于规则过滤系统 这类系统通过使用一系列的规则来表示用户模板,每一条规则可以表示一条用 户需求信息或者一种过滤模式。比如,在垃圾邮件过滤器中,规则可以用邮件的头 信息来定义,如:发送者,发送时间和发送主题等。对这些元信息的值进行约束, 从而得到某种过滤模式。例如,如果发送者没有出现在事先定义的列表中,这封邮 件就获得相对较低的相关度排名;如果邮件的主题是关于一个特定主题的,这封邮 件就获得一个较高的排名。 基于规则的系统中对信息过滤的过程也由一组规则来实现。这组规则被应用在 待过滤的数据流中,规则指示过滤部件要么过滤掉数据,要么认为它相关。如果流 入的数据是半结构化的,规则只在其结构化的部分起作用。如果流入的数据是非结 构化的,规则中则需要定义一定的变量,并且由数据分析部件来为其选择合适的值。 在实际的应用中,为非结构化的数据定义一套对满足用户需求的规则是一件困难的 5 硕士学位论文 m a s t e r st h e s i s 事情,所以基于规则的过滤方法更加适合应用在结构化或半结构化的数据源中,如 电子邮件的过滤。 k 娜是第一个在表示用户模板中引入规则的过滤系统,它利用邮件的头信息过 滤邮件消息例。对于每个头信息,系统都事先设定了一套候选值,用户只需选择相 应的值就可以定义一个新的过滤模式,当然执行这类操作要求用户对系统事前充分 了解。k l l s 系统还提供了一个规则编辑器,用户可以在这个编辑器中,使用不同于 系统设定值的个性化过滤规则。 当今一些著名的垃圾邮件过滤器也都使用了类似的方法,如网景e m a i l i z ”, m i c f o s o no u n 0 0 k 和o u t l o o ke x p r c s se m a i l 。 基于规则的系统中一个致命问题是:规则的时效性。随着过滤过程的推进,原 有规则逐渐退化,基于原有规则得到的过滤信息其噪音也被不断增大。所以,结合 了机器学习的技术,在一段时间周期之后自动生成新规则的系统应运而生,替代了 由系统管理员手工调节规则的工作。 基于语义网的过滤系统 语义网( s e m 锄t i cw e b ) 是对下一代万维网的展望,致力于开发“以计算机可处 理形式表示信息的语言”【2 3 1 。砸mb e m e f s k c 提出了这个新概念。它是现有w 曲 的扩展,信息被赋予定义良好的含义,更便于计算机和人的协同。语义网概念基于 很多现有技术,如文本标识、知识表现等,其核心意义在于网络内容是由多种可以 识别的数据组成的。语义网中最基本的元素是语义链接,通过本体、x m l 、元数据 等技术提升了万维网及其互连的资源的可用性和有效性。 一个使用语义网的典型过滤系统是i 侧曲【2 4 1 。其用户模型由文档特征和加权语 义网来描述。语义网中的节点对应文档中找到的特征项,边的连接则对应特征之间 的关联。 s i t e i f ( s t e f a n i s t r a p p a r a v a ,1 9 9 9 ) 通过追踪用户从一个页面到另一个页面的行 为,实现隐式的模板更新机制【矧。系统使用w b r d n e t 语义资源,在网页用户模型 ( w u p ) 的基础上建立语义网络。其中概念作为节点,两个概念共现关系作为边。每 一个节点和每一条边都有相应的权重,对应用户的浏览动作进行动态的更新,反映 了用户的兴趣。使用w b r d n e t 部件主要的好处在于通过对文本的概念理解支持了更 高的召回率。但是,其折中为过滤带来了更多的噪音,降低了精度,必须结合排歧 策略来减少错误。 基于神经网络的过滤系统 神经网络方法借鉴动物神经元的行为模式,通过有导的学习实现输入向量到输 6 出向量的非线性映射。它的处理能力存贮在单元间的链接强度或者权重中,信息处 理是通过神经元之间同时相互作用的动态过程来完成的1 2 6 】。 系统中,用户模扳由不可见联系的用户概念来表示,这些概念来自于对用户 反馈的训练。网络的初始输入为文档的特征向量,输出为用户给出的评价值。网络 经过训练实现文档向量到评价值的映射,把代表不同文档的特征向量映射为大小不 等的评价值,从而实现了区别用户不同必趣的任务。 j o h 蛐髂s c h 0 1 t e s1 9 9 3 年于a m s t e r d a m 大学的博士论文是将该方法用于信息检 索的较全面的资料。他使用的技术是:构造一个同义词词典,然后相应于同义词词 典中的每个概念在隐藏层建立一个对应的节点吲。 b r o w s e 系统使用这种技术来读取u s e n c t 上的相关新闻,并通过神经网络模 型对相关文档进行排名l “。排名的文档通过一定的域值进行过滤,一旦用户对检出 文档评估完毕,一个用于更新网络模型的子程序s o o z e 便自动运行。神经网络模型 还构建了词对问的相关性。它可以发现隐藏在多个词语间的相关性,即使他们实际 上没有出现在一篇特定的文档中。 另外一个用神经网络实现的系统是a n t w d d d 【2 9 1 。系统由符合用户查询的相关网 页的判断进行训练,并且指明相似查询下的检出页面的相关性。神经网络在这里被 用于建立查询间的联系和提供相关页面。 基于进化式遗传算法的过滤系统。 进化式的遗传技术借鉴了d a 聊i l l i a n 自然生存的概念自然选择最符合的个体留 下,遗传的模式被这些个体传递到下一代闭。遗传过程在重新组合个体对的遗传码 时发生,得到的新个体继承了上一代的一些优良特质,因而明显优于上一代,由此 逐步朝着更优解的方向进化。作为一种有效的全局并行优化工具,进化式的遗传技 术在文本过滤中得到了广泛的应用。在这个模型中,一个基因被表示成一个术语, 一个个体被表示成一个向量空问里的文档,一个社群被表示成一个模板。一个恰当 的目标函数被作为生存过程引入,来决定是否更新模板1 3 ”。 进化式的遗传技术通常作为以混合方法实现的过滤算法的一部分。i n t e l n g e n t 就是一个例子,该系统中相关反馈过程和遗传算法相互影响、协同工作【3 l 】。一方面, 通过直接修正术语的权重,未来的检索被相关反馈影响。另一方面,遗传部分加入 了用户模板特征项和与其排文档频率值的动态组合。在也c - 6 中,i n t e l 认g e n t 表 现了令人满意的结果。 c i f s 应用分类器和遗传算法的学习特性来减少用户的信息负荷。系统用进化模 式从用户的反馈和行为中进行学习。当用户模板趋向稳定,a f s 就永久的保留对他 7 硕士学位论文 m a s t e r l st h e s i s 们的改进【j q 。 综上所述,我们发现文本过滤是一个融合了众多信息处理技术的课题,很多来 自其他领域的技术在这里都得到了广泛的应用,如文本分类、文本检索、文本摘要 等等。这些方法并不完全孤立,既可以使用一种来改进系统某一部件的性能,也可 以结合多种方法来提升系统的整体性能。 1 2 3 国内研究主流与趋势 我国在信息过滤领域的研究起步相对较晚,近年来,随着自然语言处理技术研 究的日益深入,文本过滤作为新一代的个性化信息获取手段,才被迅速的推向历史 舞台,成为各类研究的关注热点。其中最有代表性的研究来自复旦大学黄萱菁等研 究人员基于向量空间模型的文本过滤系统【3 3 】。2 0 0 0 年,该系统参加了第9 届文本检 索大会( t r e c 9 ) 中过滤任务的比赛,在来自世界1 5 个机构提供的系统中,获得 了自适应过滤任务的第三名和批过滤任务的第一名剐,代表了我国文本过滤领域的 前沿水平,也为国内文本过滤的研究展现了一个广阔的前景。该系统使用的主要技 术是:引入伪反馈概念,在训练阶段,通过特征抽取和伪反馈建立初始过滤模板和 初始阚值:在过滤阶段,根据用户反馈,自适应的调整阈值以提高系统性能。除此 之外,国内其他有代表性的研究和系统还包括: 南开大学陈彩云等研究人员( 2 0 0 3 ) 在奇异值分解的基础上,运用粗糙集理论 进行文本过滤【3 5 】。粗糙集( r o u g l ls e t ) 中决策表上的规则推理方法被用来生成过滤 用户感兴趣信息的规则库,将未知文档的条件属性与规则库中规则进行匹配,从而 实现过滤的过程。 厦门大学尤建文、李绍滋等研究人员( 2 0 0 3 ) 提出了基于语义词典对用户模板 进行扩充的文本过滤模型【3 q 。他们利用w 嘶悄e t ( g a m i l l c f r b e e k w i m ,1 9 8 5 ) 提供的语义关系对特征项的同义词集进行扩充,把与文本中特征项表示相同概念的 特征放在一起,这样对于那些使用相同概念但词形不同的文本就可以识别出来,提 高了系统的召回率。 大连理工大学林鸿飞( 2 0 0 2 ) 提出基于聚类的文本过滤模型【翊。系统在预定的 层次目录下,利用关联矩阵对用户给出的过滤模板进行扩张。然后通过对模板的聚 类分析,使得每一个模板类由表达相同或相近的用户模板组成。文本先推送到模板 类中,在计算与类中具体模板的相似度。 山西大学李荣陆等研究人员( 2 0 0 2 ) 利用遗传算法构造基于多实例的自适应用 户模型,在一定程度上抑制了传统用户模型表示中同义现象对精度的影响,使用户 硕士学位论文 m a s t e r st h e s r s 模型具有关键词自动扩充和自适应能力【3 哪。 清华大学田范江等研究人员( 2 0 0 0 ) 利用进化式方法从多个角度描述用户的信 息需求,通过类似自然选择的过程达到最优【3 9 1 。 以上方法主要探讨了用户模板相关方面的问题,可见,构建一个好的用户模板 对过滤系统而言是至关重要的。模板既要最大程度的描述用户的兴趣,又要避免无 关主题带来的噪音。模板的自适应优化和语义扩张是解决这些问题的主流方案。 来自中科院声学所的晋耀江等研究人员( 2 0 0 3 ) 在文本过滤语义模型的研究上 作出了积极贡献。他们利用文本形式化的语义模型语境框架【4 1 】( h n c ) ,将文 本内容抽象成领域( 静态范畴) 、情境( 动态描述) 、背景( 褒贬、参照等) 三个框 架。根据语境相似度的计算,把文本过滤问题转换成语义框架的匹配问题,有效地 处理了语言中的褒贬倾向、同义、多义等现象。 复旦大学的刘永丹、胡运发等研究人员( 2 0 0 4 ) 采用格语法作为语义分析的基 础,从而分清关键字在句子中的角色与其他项的语义关系,减少盲目匹配1 4 ”。在进 行局部分析时他们采用了基于规则的方法,在进行全局分析时则采用了简化的统计 方法。 复旦大学吴立德课题组( 2 0 0 4 ) 在文本语义分析上的另一项探索是:以知网为语 义知识库【4 3 】。试验标明,基于语义信息的文本特征项抽取方法,比单纯词汇信息更 能体现文本的概念特征,从而获得较优的过滤性能。 北京工业大学张晓东等研究人员( 2 0 0 2 ) 提出了文本过滤的模糊聚类模型1 4 4 j 。与 大连理工大学林鸿飞等研究人员使用的聚类方法建立用户模板类的目的不周的是, 这里给出的模糊聚类算法主要考虑文档之间的语义联系,即建立恰当的文档类。 以上研究在文本特征挖掘和表示等方面做了深入的探索,单纯的主题词表示方 法已经不能满足对过滤精度的要求。而且用户的过滤需求也不再停留在获取与主题 词匹配的文档上,倾向性的过滤成为过滤任务中的一个重要组成部分,这也顺应了 过滤系统产生的初衷,即对敏感的政治言论、不健康的文章等的屏蔽。这里,对“敏 感”与否,或“不健康”与否的评价带有强烈的主观倾向色彩,简单的二值判断已 经很难满足这样的需求。 另外,中科软件所朱寰等研究人员( 2 0 0 2 ) 在文本分割算法对文本过滤的影响作 出一定研究,比较了不同的文本分割方法、机械分词方法以及特征抽取阈值对信息 过滤结果的影响【4 5 】:重庆大学于洪等研究人员( 2 0 0 3 ) ,东北大学王波等研究人员 ( 2 0 0 5 ) ,哈工大陈清才等研究人员( 2 0 0 4 ) 对r o u 曲s c t 在过滤系统中的研究提供了 众多的理论成果【4 6 】f 4 7 】【删;比较完整的系统设计包括中科院声学所的复旦大学的倾向 9 顽士学住论文 m a s 丁e r l st h e s i s 性文本过滤系统( t c n d e n c y t e x tf i l t e r i n gs y s t e m ,t 1 1 唱) ,以及西安交通大学的网 络实时过滤系统( n e 押o r kh f o 皿a t i o f n t c r i n gs y s t e m ,n i f s ) 【4 9 】刚。 总之,从国内文本过滤领域的众多研究成果中,我们不难发现文本过滤在近年 来所受到的广泛关注。这些领域成果也体现了文本过滤的一些研究特点,预示了未 来一个阶段的研究方向,归纳起来主要有以下几点: ( 1 ) 文本过滤目前的主流技术仍是基于统计概念下的各种模型,如向量空间 模型,潜在语义索引模型。 ( 2 ) 为了满足用户对获取信息的知识可用性,在用户模板的构建和文档的表 示中使用语义分析技术是必然的趋势。其中,使用语义资源o n t o l o g y ,或对模板 提供合理的扩张是比较有效的方式。 ( 3 ) 通过在某一个功能部件上寻求有效的算法来改进系统的整体性能,是文 本过滤的研究的传统手段。目前,对多种方法、技术进行组合使用,成为构建 高效文本过滤系统的新途径。 ( 4 ) 加强对实用系统的开发,使系统真正具有应对实时文本流的自适应功能, 是国内文本过滤领域研究的终极目标。 1 3 主要工作与本文组织 本文旨在提出一种基于混合策略的文本过滤模型,在传统基于内容的匹配方式 下,结合协作过滤中的推荐机制对相关文档进行判断,并试图利用文本的品质信息 ( 用户评价) ,提高检出文档的可用性。为了达到预期的研究目标,需要依次解决 以下关键问题: 第一,在基于内容的过滤模式下提高主题层面的匹配能力。主要工作包括: 缓解多主题长文本带来的噪音和高维问题 定量分析特征项位置对主题的贡献能力 探讨具有主题揭示能力的文本表示方法 第二,利用文本的品质信息为用户产生有效的推荐。主要工作包括: 推荐策略的选择和优化 缓解数据稀疏性对推荐性能的影响 获取相似文本和相似品质间的关联 第三,创建基于混合策略的文本过滤模型。主要工作包括: 解决不同文本过滤策略的协同使用问题 探讨混合策略下的方法优化问题 1 0 硕士学位论文 m a s t e r st h e s i s 本文各章安排如下: 第一章是绪论,概述了文本过滤的课题背景及其应用背景,介绍了国内外学术 界对文本过滤领域的研究情况,并且总结了主要的研究方法、特点和趋势。 第二章是关于文本过滤的几个重要概念,介绍了文本过滤的基本任务和系统的 评估方法。鉴于文本过滤系统与现有检索系统的相似性,我们分析了它们在技术策 略上的相同点与不同点。 第三章到第五章是对提出的关键技术的详细介绍。其中第三章阐述了如何在基 于内容的过滤模式下提高主题层面的匹配能力,并在这个目标下探讨了特征表示窗 口选取对过滤性能的影响;第四章介绍了基于信息项的协作过滤推荐策略,对经典 的最近邻算法进行了扩展,缓解了数据稀疏性对推荐能力的影响,满足了多兴趣下 的推荐需求;第五章提出了基于混合策略的文本过滤模型,使用候选推荐集的对文 档推荐进行优化。 第五章对全文进行总结并展望了未来工作。 第二章文本过滤的相关概念 2 1 文本过滤的典型任务 文本过滤从动态的信息流中将满足用户兴趣的信息挑选出来,而用户的兴趣一 般在较长时间内不会改变。为了实现这一过程,过滤任务通常又被分解成四个子任 务,分别由四个功能组件来实现:数据分析组件,用户建模组件,过滤组件以及学 习组件。各组件间的数据流如图2 1 所示”1 : 图2 1 文本过滤系统的功能组件 任务一:构建用户需求模板 用户需求模板( u s e rp r o f i l e ) 用于揭示一个或一组用户长期的信息需求,由 用户建模组件来实现。用户需求模板是个性化信息服务的基础,模板的准确性、实 效性直接决定服务质量的优劣,即过滤系统的性能。对于用户的信息需求,可以要 求用户填写表单、评价固定文档集和跟踪用户的网络行为等方面来获取;对于用户 的需求模板既可以从正面揭示,也可以从反面解释,也就是说,既可以描述用户需 要的感兴趣的信息,也可以描述用户不需要的不感兴趣的信息。多数方法通过抽取 与兴趣相关的特征词列表来表达用户需求模板,并借助学习算法,动态调整特征项 权值以适应用户兴趣的变化。由于特征词在语义上的多义性,使得一开始就很难选 择出与用户兴趣完全一致的特征项。所以,模板的扩张和自适应的调整是该任务中 的主要难点,许多研究目前都着眼于解决模板准确性问题上。”。”。 构建用户需求模板所使用的主要模型包括:向量空间模型、朴素贝叶斯模型、 神经网络模型、遗传算法模型等。 任务二:文档信息描述 1 2 在文本过滤系统中,文档分析组件用于将动态的文本流表示成为结构化的信息 ( 如:特征向量) ,以便为下一步的过滤过程做好准备。一个好的文档信息描述可 以在一定程度上揭示文档的主题信息。经常出现的情况是,过滤系统选择出一篇相 关文档,仅仅因为文档中存在与用户模板一致的特征项。这种单纯的字符串匹配极 大的限制了滤出文档的可用性。所以,在文档信息描述中引入浅层的语义分析,试 图揭示出更多的文档主题信息是解决这一问题的有效途径“”“1 。 文档信息的描述模型有多种,其中布尔模型和向量空间模型由于清晰简单,而 且计算复杂度较小,成为目前最常用的两种文档表示模型。 任务三:用户模板和文档间的匹配 用户模板和文档间的匹配在过滤组件处完成,这个过程也是文本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年农村环境治理工程项目经理面试技巧与题目解析
- 2025年市场营销师认证考试模拟卷及解析
- 护理心理学3试题及答案
- 贵阳市村民管理办法
- 2025年中国石油天然气集团招聘面试攻略及模拟题答案
- 医疗机构环境表面清洁与消毒规范考试题(含答案)
- 医疗十八项核心制度考核试题(附答案)
- 山东省莱芜市钢城新兴路学校高中英语 Module5 TheFourth Period Listening说课稿 外研版必修5
- 设备及材料管理办法
- 2025年外贸业务员实操经验与面试模拟题集
- GB/T 17421.7-2016机床检验通则第7部分:回转轴线的几何精度
- 共享服务中心(HRSSC)课件
- 电工技能测试
- 药事管理学全套课件
- 数字色彩课件
- 社区心理学课件
- 一年级上册科学课件-第一单元 走近科学 复习课件-鄂教版(共23张PPT)
- 煤矿现场急救技术
- 质量整改通知单(样板)
- 2020届高三北京高考“多文本阅读”总攻略
- (高职)中外民俗电子课件(全套)
评论
0/150
提交评论