




已阅读5页,还剩55页未读, 继续免费阅读
(计算机应用技术专业论文)基于机器学习的文本过滤方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 基于机器学习的文本过滤方法研究 摘要 互联网的迅猛发展和计算机水平的提高带来了信息过载问题,如 何快速地从中获取用户所需要的部分,成为一个亟待解决的问题。文 本过滤所研究的内容就是如何准确地表达用户需求,进而在大规模的 信息流中自动地筛选出满足用户需求的信息,使人们更有效地利用信 息资源。文本过滤涉及的知识范围非常广泛,综合了自然语言理解、 人工智能以及知识论等领域的知识,其关键技术主要包括文本分词、 文本特征向量降维、文本特征提取、用户模板和过滤阂值初始化以及 机器学习等。 本文首先阐述文本过滤的基本问题,包括文本过滤的发展历史和 研究现状、文本过滤的研究内容、文本过滤系统的性能评价指标以及 与文本检索的关系等。然后,着重对文本过滤中涉及的关键技术进行 深入地分析和探讨。主要包括文本过滤模型、中文分词技术、文本特 征项的提取与权重计算以及文本过滤的主要方法,并提出了一种改进 的基于词长的t f i d f 特征项权值计算方法。最后,本文对自适应文 本过滤中的机器学习进行了深入的研究,包括用户模板学习和阈值学 习。在此研究基础上,本文设计了一个基于机器学习的文本过滤系统 模型,并对系统总体框架、功能模块以及系统实现的主要方法进行详 细阐述,最后,对该系统做了测试,实验证明,该系统具有较好的文 北京化t 大学顾i :学位论文 本过滤性能。 关键词:文本过滤,向量空间模型,特征提取,用户模板,机器学习 l i a b s t r a c t t e x tf i l t e r i n gm e t h o dr e s e a r c hb a s e do n m a c h i n el e a r n i n g a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n t e r n e ta n dt h eg r e a ti m p r o v e m e n to f c o m p u t e rt e c h n o l o g y , p e o p l ea r eg r a d u a l l ys u r r o u n d e db yt h ei n f o r m a t i o n o v e r l o a dp r o b l e m i no r d e rt of i n du s e f u li n f o r m a t i o ne m b e d d e di n e l e c t r o n i cf o r m ,e f f i c i e n ta n de f f e c t i v et e c h n i q u e sf o rl a r g es c a l er e a lt e x t p r o c e s s i n gh a v eb e c o m eo n eo ft h em o s tu r g e n td e m a n d s t e x tf i l t e r i n g r e l a t e st oe x t e n s i v ek n o w l e d g e ,a n di tc o l l i g a t e sal o to fk n o w l e d g ei n n a t u r a ll a n g u a g e c o m p r e h e n s i o n 、a r t i f i c i a li n t e l l i g e n c ea n dk n o w l e d g e t h e o r ye t c t h ek e yt e c h n i q u eo ft e x tf i l t e r i n gm a i n l yi n c l u d e sp a r t i c i p l e o ft e x t ,d e c r e a s i n gd i m e n s i o no ft e x te i g e n v e c t o r , f e a t u r ee x t r a c t i o n ,a n d i n i t i a l i z a t i o no fu s e rp r o f i l ea n df i l t e r i n gt h r e s h o l da n dm a c h i n el e a r n i n g e r e t h i st h e s i s g i v e s ab r i e fi n t r o d u c t i o nt ot e x t f i l t e r i n ga b o u ti t s h i s t o r y ,c u r r e n tr e s e a r c h ,t h er e s e a r c hc o n t e n to ft e x tf i l t e r i n g ,t h e m e t h o d sa b o u th o wt oe v a l u a t et h ep e r f o r m a n c eo ff i l t e r i n gs y s t e m sa n d t h e r e l a t i o n s h i p b e t w e e nt e x tr e t r i e v a la n dt e x t f i l t e r i n g t h e nk e y 北京化丁人学硕i :学位论文 t e c h n i q u e si nt e x tf i l t e r i n ga r ep a r t i c u l a r l yd i s c u s s e d ,t h a ti st h em o d e lo f t e x tf i l t e r i n g ,h o wt o s e g m e n tc h i n e s ew o r d s ,h o wt oe x t r a c tt e x t c h a r a c t e r i s t i c ,t h em e t h o d sf o rc o m p u t i n gw e i g h to ft e x tc h a r a c t e r i s t i c a n dt h em a i nm e t h o do ft e x tf i l t e r i n g a c c o r d i n gt ot h e s e ,i m p r o v e d t f i d fm e t h o df o rc o m p u t i n gw e i g h to fc h a r a c t e r i s t i ci t e mb a s e do nt h e l e n g t ho fw o r di sb r o u g h tf o r w a r d f i n a l l y , w em a k er e s e a r c ho nm a c h i n e l e a r n i n gi na d a p t i v et e x tf i l t e r i n g ,i n c l u d i n gp r o f i l el e a r n i n ga n dt h r e s h o l d l e a r n i n g t h e n ,t h et h e s i sp r o p o s e sad e s i g ns c h e m eo fm a c h i n el e a r n i n g b a s e dt e x t f i l t e r i n gs y s t e mm o d e la n dd e s c r i b e st h e d e t a i l so fi t s i m p l e m e n t a t i o n f i n a l l y , w eg e tt h et e s tr e s u l t i th a sv e r yg o o dt e x t f i l t e r i n gp e r f o r m a n c e k e yw o r d s :t e x tf i l t e r i n g ,v e c t o rs p a c em o d e l ,f e a t u r ee x t r a c t i o n , u s e rp r o f i l e ,m a c h i n el e a r n i n g i v 北京化工大学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文 的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本 人完全意识到本声明的法律结果由本人承担。 作者签名: 垒垫碧蜀 日期:2 1z :主 关于论文使用授权的说明 学位论文作者完全了解北京化工大学有关保留和使用学位论文 的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北 京化工大学。学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全 部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编 学位论文。 保密论文注释:本学位论文属于保密范围,在上年解密后适用 本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授 权书。 作者签名: 导师签名: 一 厶釉 i = j 簸j :2 1 翌:笸:2 日期:竺三:z :主 第一章绪论 第一章绪论 1 1 课题研究的背景和意义 随着信息科学的进步和互联网的迅猛发展,功能强大的信息网络使人们享受 到前所未有的获取信息的便利条件,信息技术己经渗透到我们社会生活的各个方 面,正以惊人的速度和能力改变着我们的生活和工作方式。但随之而来的“信息 过载 的问题也日益突出,面对着因特网上的海量信息,人们往往感到困惑。一 方面是因为要在浩瀚的信息资源中查找出自己需要的信息需要花费大量的时间 和精力。另一方面,网络上的信息良莠不齐,大量的有关各种暴力、犯罪、色情、 邪教、反动等不良信息充斥于网络之中,这些非法的不良信息正在侵害着人们的 精神生活并时刻威胁着人们的信息安全。如何过滤掉这些不良信息给人们提供一 个良好的信息资源获取环境,已经成为信息时代亟待解决的问题之一。 互联网上提供的信息可以分为文本信息和非文本信息( 比如图像、图形和声 音等) ,目前的网络信息大部分表现为文本形式,所以有关文本处理的各种技术 在这种形势下得到极大的促进和发展,文本过滤技术便是其中之一种。国际学术 界及企业界对文本过滤表现出极大兴趣,著名的文本检索会议( t e x tr e t r i e v a l c o n f e r e n c e ,简称t r e c ) 及主题检测和跟踪会议( t o p i cd e t e c t i o na n dt r a c k i n g , 简称t d t ) 都把文本过滤作为主要研究内容之一。文本过滤技术作为上述问题 的有效解决方法,( 1 ) 可以向用户主动提供个人兴趣相关的信息;( 2 ) 过滤敏感 性信息( 如国家安全、暴力、色情和反动信息) 。另外,在网络环境下,尽量减 少无效数据的传输对于节省网络资源、提高网络传输效率具有十分重要的意义。 通过文本过滤,可减少不必要的信息传输,节省费用,提高经济效益。 1 2 课题的主要创新点 文本过滤中的文本表示一直是一个广泛关注的问题。很显然,文本表示是整 个文本过滤系统中的基础,其重要性不言而喻。文本表示的研究重点是特征项的 提取和权重计算,每个特征项对于该文档在内容和类别上的贡献是不一样。由 s a l t o n 等人提出的向量空间模型( v s m ) 是一种经典的文本表示模型,基于v s m 的特征权重计算方法主要有布尔权重、词频权重和t f i d f 权重等,这些特征权 重计算方法着重考虑频率和反文档频率等因素,而没有考虑特征项的类内,类间 北京化t 大学硕: :学位论文 分布与低频高权信息。 同时由于中文文本的特点,不仅要考虑到文本中词汇概率信息,还结合文本 语义等多方面信息来计算文本特征项的权值。为此,本文提出一种改进的基于词 长的t f i d f 特征项权值计算方法。在该方法中,首先不是简单的依据词频来计 算特征项的权值,而是对词汇在文本中的出现概率及语义特点进行分析并通过词 长加权因子来确定特征项的权值,也就是从中文文本的语义角度出发,希望能通 过对相应权值的改变来反映文本的语义特征,同时将语义信息反映到向量权值 中,使得文本过滤系统的性能得到相应的改善。 1 3 论文的主要工作与组织结构 本文的主要工作是对文本过滤中涉及的关键技术进行了深入地分析和研究。 主要包括文本过滤模型、中文分词技术、文本特征项的提取与权重计算、文本过 滤的主要方法以及机器学习中的模板学习和阈值学习,同时提出一种改进的基于 词长的t f i d f 特征项权值计算方法。在此研究基础上,本文设计了一个基于机 器学习的文本过滤系统模型,并对系统总体框架、功能模块以及系统实现的主要 方法进行详细阐述。 本论文内容共分为六章: 第一章在对本课题的研究背景和意义进行介绍的基础上,针对传统特征项权 重计算方法的不足,利用词长加权因子,创新性提出了一种改进的基于词长的 t f i d f 特征项权值计算方法。 第二章主要对文本过滤的产生发展和研究现状、文本过滤的研究内容、文本 过滤系统的性能评价指标以及与文本检索的关系等进行了全面的介绍。 第三章讨论了文本过滤中涉及的一些关键技术,重点介绍了文本过滤模型、 中文分词技术、文本的表示和文本过滤的主要方法,同时提出一种改进的基于词 长的t f i d f 特征项权值计算方法。 第四章详细介绍了自适应文本过滤中的机器学习,主要包括模板学习和机器 学习两个方面。 第五章设计一个基于机器学习的文本过滤的系统模型,阐述其功能设计与实 现方案,并对其进行测试评价。 第六章对本论文的主要工作做了总结,同时也提出了今后需要进一步做的研 究和工作。 2 第二章文本过滤概述 第二章文本过滤概述 2 1 文本过滤的产生发展及研究现状 2 1 1 文本过滤的产生发展 文本过滤是信息过滤的一个研究分支,它涉及的知识范围非常广泛,综合了 知识论、人工智能以及自然语言理解等领域的知识。文本过滤从产生到不断完善 经过了较长的一段时间。文本过滤的最早雏形可以追溯到1 9 5 8 年,当时l u h n 提出了“商业智能机器”的构想【l 】。在该概念框架中,图书馆工作人员为每个用 户建立一个用户需求模型,然后通过精确匹配的文本选择方法,为每个用户生成 一个符合用户需求的新文本清单,同时记录下用户实际订阅的文本,用于更新用 户的需求模型。虽然实现过程的物理细节各有不同,但该构想涉及到了信息过滤 系统的各个方面,为后来文本过滤的发展奠定了坚实的基础。 1 9 6 9 年,选择性分发系统( s e l e c t i v ed i s s e m i n a t i o no fi n f o r m a t i o n ,s d i ) 心j 引 起人们的广泛关注,美国信息科学协会为此成立了专门的兴趣小组。但当时只有 极少的系统能够自动更新用户需求模型,大多数系统仍遵循l t l h n 模型,s d i 兴 起的两个主要原因是实时电子和用户需求模型与文本匹配计算的可实现性。 1 9 8 2 年,d e n n i n g 首次提出了“信息过滤”的概念【3 】,在他描述的信息过滤 例子中,可以通过“内容过滤器 识别出紧急邮件和一般邮件,以此提示对接受 到的信息内容进行有效控制。其中,采用的主要技术有:层次组织的邮箱、独立 的私人邮箱、特殊的传输机制、阈值接收、资格验证等。 1 9 8 7 年,m a l o n e 等人研制出了“i n f o r m a t i o nl e n s 系统,并发表了相关的 论文【4 】,提出了三种信息选择模式,即认知、经济和社会。认知模式相当于d e n n i n g 的“内容过滤器 ,即基于内容的信息过滤;经济模式来自于d e n n i n g 的“阈值 接收 思想;社会模式是他最重要的贡献,即“合作过滤 。在社会过滤系统中, 文本的表示是基于以前读者对文本的标注,通过交换信息,自动识别具有共同兴 趣的团体。 1 9 8 9 年,美国消息理解大会( m e s s a g e u n d e r s t a n d c o n f e r e n c e ,m u c ) 成立,将自然语言处理技术引入到文本过滤的研究中来,并将信息抽取技术用于 支持信息的选择,该大会极大地推动了信息过滤的发展。 1 9 9 0 年,美国d a r p a ( 国防部高级研究计划局) 建立了t i p s t e r 计划,目的 在于利用统计技术进行消息预选,然后再应用复杂的自然语言处理。这个文本预 3 北京化工人学硕l :学位论文 选过程称之为“文本检测”。 1 9 9 2 年,n i s t ( 美国国家标准和技术局) 与美国d a r p a 联合赞助了每年一次 的t r e c 会议,对文本检索和文本过滤的发展提供了强有力的支持。1 9 9 7 年, t r e c 又将文本过滤细分为自适应过滤、批过滤和分流过滤,使得对文本过滤的 研究更加深入。到2 0 0 4 年为止该会议已举办了1 3 届,t r e c 旨在通过提供规范 的大规模语料( g b 级) 和对文本检索系统性能的客观、公正的评测,来促进技 术的交流、发展和产业化;促进政府部门、学术界、工业界问的交流和合作,加 速技术的产业化;发展对文本检索技术的评测技术。对文本过滤的形成和发展提 供了强有力的支持。目前,随着网络的不断普及和信息技术的发展,文本处理技 术的需求不断增加,使得文本过滤技术得到了更进一步地发展,并成为信息处理 领域中十分重要的研究方向。 随着文本过滤的需求的增长和研究的深入发展,其他领域的许多技术被应用 到文本过滤中来,并取得的很好的效果。如信息检索中的相关反馈、伪相关反馈 以及查询扩展技术,文本检索中的向量空间模型的相关技术,文本分类和聚类技 术,机器学习以及自然语言底层的处理技术都被应用到信息过滤中来,极大地拓 展了文本过滤的研究广度和深度,推动着文本过滤理论研究与技术应用不断走向 完善与成熟。 2 1 2 文本过滤的研究现状 文本过滤作为信息过滤的分支已成为十分重要的研究方向。目前,国外已出 现投入使用的信息过滤系统有c i t e s e e r ,也称r e s e a r c h l n d e x ,是由美国普林斯顿 的n e c 研究所( n e cr e s e a r c hi n s t i t u t e ,i n c ) 所属公司研制开发的。该过滤系 统采用机器自动识别技术搜集互联网上p o s t s c r i p t 和p d f 文件格式的各种类型的 学术论文,然后依照引文索引方法标引和连接每一篇文献。至今c i t e s e e r 存储的 文献全文达6 0 万篇,标引的网页数超过1 0 0 0 万,内容主要涉及计算机科学领域, 主题包括智能代理、人工智能、硬件、软件工程、数据压缩、人机交互、操作系 统、数据库、信息检索、网络技术、机器学习等【5 】。除此之外还有p e r s o n a l w e b w a t c h e r 、l e t i z i a 以及i f w e b 等等【6 】,这些系统虽然有很多不足的地方,仍需 要不断的改进和完善,但是它们在特定范围内成为快速、有力的工具,从而在一 定的程度上为人们迅速地获取有价值的信息提供了方便。 国内对于信息过滤研究起步较晚,有关信息过滤的研究目前主要多见于一些 算法。这些算法主要是针对自适应过滤系统中文本特征提取、相似度计算、用户 模板构造、过滤算法以及模型设计等一些关键技术进行研究的。在文本特征提取 4 第二章文本过滤概述 方面,刘七针对通常采用的用字、词作为特征项的方法具有无法表达文本语义信 息的显著缺点,在向量空间模型的基础上提出了一种以知网为语义知识库、基于 语义信息的文本特征项抽取方法f _ 刁林鸿飞、战学刚、姚天顺根据中文文本的特 点,提出了基于因子分析的文本特征抽取机制,通过识别文本中潜在的概念结构 来抽取特征项【8 】;刘明吉、王秀峰、饶一梅以向量空间模型为w e b 文本的表示方 法,提出了一个基于遗传算法的w e b 文本特征抽取算_ ! 去【9 】;薛翠芳、郭炳炎从自 动文摘的需求出发,探讨特征词自动抽取的方法和技术,设计并实现了两种不同 的特征词自动抽取算法,即基于分类的特征词抽取方法和基于统计的特征词抽取 方法【l o 】;晋耀红、苗传江把文本内容抽象成领域( 静态范畴) 、情景( 动态描述) 、 背景( 褒贬、参照等) 3 个框架,在语境框架的基础上,设计实现了文本特征提 取算法【】;刘明吉基于数据挖掘技术,用向量空间模型表示文本,提出了一个基 于协同演化遗传算法的多文本特征抽取算法【1 2 1 ;张鹏飞、李赞、刘建毅、钟义信 提出了基于与统计量相关的相对词频作评估函数的改进模型,此模型结合现代汉 语词频统计结果,使用相对词频来选择特征词,较好地区分了特定类别与类别外 文本【l 引。晋耀红在相似度计算方面,在语境框架的基础上,设计实现了文本相似 度计算算法,从概念层面入手,充分考虑了文本的领域和对象的语义角色对相似 度的影响,重点针对文本中的歧义、多义、概念组合现象,以及语言中的褒贬倾 向,实现了文本间语义相似程度的量化【1 4 1 。黄钢石、张亚非、陆建江、肖江在用 户模板构造方面,提出了一种基于非负矩阵分解( n m f ) 的用户模板构造方法, 应用n m f 算法分解项文本矩阵来获取项之间的相关性,而且在此基础上引入了 语义向量和权重向量的概念并通过定义语义向量的类别区分度来提取用户模板 【1 5 1 。林鸿飞、王剑峰、姚天顺、马雅彬分别提出了基于混合模式、基于合作模式、 基于聚类的文本过滤模型以及基于示例的中文文本过滤模型【1 6 】f 1 7 1 1 8 1 9 】;腾少华、 张巍、黎嘉喜在定义元符号及演算规则的基础上,基于字符串匹配,给出了一个 不良信息文本过滤模型【2 0 1 。近几年来随着信息安全、信息定制等应用在国内的兴 起,人们越来越重视对信息过滤技术的研究。清华大学、复旦大学、中科院和微 软亚洲研究院等一些科研机构较早地开展了信息过滤技术的研究。其中,中科院 计算所、复旦大学都曾参加了t r e c 评测中的信息过滤任务,取得了较好的成绩。 此外哈工大、南开大学等重点科研单位也正着手对信息过滤方向进行研究。 2 2 文本过滤的研究内容及与文本检索的关系 2 2 1 文本过滤的研究内容 5 北京化t 人学硕i - 4 位论文 文本过滤是信息过滤的一个研究分支。信息过滤随着信息检索的发展而被人 们长期关注并给予研究,它是从大量的动态信息中找出最大程度地满足用户真实 需求并且滤除其它无用信息和非法信息的过程,也就是一个寻找符合人们兴趣的 信息的处理过程。 信息过滤根据处理的信息内容可以分为文本信息过滤和非文本信息过滤。文 本信息过滤,即文本过滤,就是根据用户的信息查询需求,从动态文本流中检索 满足用户需求的文本的过程。t r e c 把文本过滤分为两种类型,基于内容的文本 过滤和基于合作模式的文本过滤。 ( 1 ) 基于内容的文本过滤 基于内容的文本过滤( c o n t e n t b a s e df i l t e r i n g ) 将潜在需求信息内容构造成 用户的信息需求模型( 即用户模板) ,然后与待过滤文本进行匹配,其中相似度 计算都来自文本自身的内容。并假设每个用户是相互独立的,文本表示只依赖于 文本自身的内容,过滤的结果仅仅依赖于用户模板与文本的匹配程度。同时基于 内容的文本过滤可以通过用户模板学习等方法来提高过滤的效率。它基本上包括 以下几个过程:首先把用户的查询要求表达出来,并结合一定的训练文本进行相 关训练;然后把输入的文本表示出来,以便能够与用户的查询要求进行相似度计 算;最后经过用户查询需求和待过滤文本的比较,把输入文本中的相关文本提交 给用户。 ( 2 ) 基于合作模式的文本过滤 基于合作模式的文本过滤,也称为社会过滤( s o c i a lf i l t e r i n g ) 。它主要是通 过一个群体内用户个体间相互联系来实现信息过滤,其出发点在于任何人的兴趣 都不是孤立的,而是应该处于某个群体当中。它不仅根据文本的内容,还根据其 它用户对该内容的评价进行过滤。在日常生活中,人们接受的信息往往是周围人 推荐的结果。因此,根据相同或者相近兴趣的用户对相应文本作出的评注,向其 他用户进行推荐。它的基本过程是:首先根据用户对文本的评注结果,将用户划 分为若干不同的类别,使兴趣相同或相近的用户归于同一类;用户的推荐机制综 合考虑来自类别内部和类别外部的影响,按照影响的强度向用户推荐相应的文 本:根据用户的评注,动态调整用户类别以及相应地修改各类参数,以便改善过 滤效率。 此外,t r e c 中的信息过滤主要面对的是基于内容的信息过滤,并将过滤任 务划分为三个评测子任务:自适应过滤( a d a p t i v ef i l t e r i n g ) 、批过滤( b a t c hf i l t e r i n g ) 和分流( r o u t i n g ) 过滤。目前研究重点大多集中在基于内容的信息过滤。 6 第二章文本过滤概述 2 2 2 文本过滤与文本检索的关系 文本过滤和文本检索既有相似之处又有不同之处。二者都是为了帮助用户寻 找感兴趣的信息。文本过滤实质是建立在文本检索的基础之上的,因为它借鉴了 许多检索的表示方法和技术。文本过滤是监测新到达的文本并筛选出和用户模板 相匹配的文本,而文本检索则根据用户的查询采用基于相似度的方法从文本集中 列出所要检索的文本列表。可以说,文本过滤和文本检索是同一硬币的正反两面。 简单的说,二者存在以下四点不同:第一,文本检索系统用查询来描述用户的检 索需求;而文本过滤系统则是用用户需求模板来描述用户的过滤需求。第二,文 本检索系统是根据用户动态变化的检索需求从静态的数据资源中检索出用户需 要的信息;而文本过滤系统是根据用户静态的、稳定的过滤需求将用户不需要的 信息从动态的信息流中过滤掉。第三,文本检索系统无需了解用户情况,任何用 户都可以提交检索需求并使用检索系统;而文本过滤系统则需要了解用户的兴趣 爱好、社会背景等信息,并将这些信息保存在用户需求文档当中。第四,文本过 滤需要用户的反馈,以此加强需求的表达能力,改进过滤的效果,而信息检索的 用户查询因为是易变的,所以不需要保存和维护。 2 3 文本过滤评测指标 文本过滤采用自动和人工相结合的评测方法,其主要的评测指标包括:基于 无序集合的评测指标,包括准确率( p r e c i s i o n ) 和查全率( r e c a l l ) 其它评测指 标,包括u t i l i t y 、f 值等【2 l j 。这些指标中我们常用的有准确率、查全率、f 值以 及u t i l i t y 等【2 2 】【2 3 】【2 4 】【2 5 1 。 ( 1 ) 准确率 准确率是信息检索的性能指标,定义为被检出的相关文档数除以所有检出的 文档数的值。其数学公式表示如下: 猴确率( f e d s i 。n ) = 箜蓑盖黼 式( 2 1 ) 准确率反映了过滤系统找对满足过滤条件的信息的能力,准确率越大,非相 关信息返回的越少。 ( 2 ) 查全率 查全率是信息检索的另一个性能指标,定义为检出的相关文档数除以集合中 全部相关文档数的值。其数学公式表示如下: 7 北京化1 = 人学顾1 4 位论文 褒全攀( r e c a l l ) = 必 、 。式( 2 2 ) 查全率反映了过滤系统发现满足过滤条件信息的能力,查全率越高,漏检的 信息越少。 比较以上两种评价方法,准确率表明系统的精确性,查全率反映了系统的覆 盖性。这两个指标不是独立的,其中一个指标的提高往往以另一个指标的降低为 代价f 2 6 1 。 ( 3 ) f 值 f 值基于v a nr i j s b e r g e n t 2 7 】的定义,是准确率和查全率的函数。定义为: f = 瓮p 警j 8 l z 寺r 其中p 为准确率,r 为查全率,p 为控制正确率和查全率权重关系的参数, 在本文中取值为l 。f 值也是本文过滤系统所采用的评价指标之一。 ( 4 ) u t i l i t y u t i l i t y 指标,称为效率指标,它是一个线性函数。给出的待滤文本和用户查 询主题可能相关也可能不相关;过滤系统可能会检出相关文本也可能不能检出相 关文本,根据这些情况可建立如下表格: 表2 - 1 文本过滤的四种可能情况 t a b l e2 1t h ef o u rc a s c so ft e x tf i l t e r i n g 栩荚 不相关 梭出r l 点氏 n 1 ,b 来梭出 r d 圮n 0 ,d 很明显,检出相关文本和没有检出不相关文本都是过滤正确的情况;而未检 出相关文本意味着遗漏,检出不相关文本意味着错检。u t i l i t y 对这四种情况赋相 应的权重: u t i l i t y = a 木r i + b * n i + c * r 0 + d * n 0 式( 2 - 4 ) 这里的r 1 r 0 n l n 0 指的是每个主题四种文本的数量,a ,b ,c ,d 决定 了每种情况的代价。显然,a ,d 0 ,b ,c d 。u t i l i t y 值越大,表明系统的过滤性能就越好。 8 第三章文本过滤模型及关键技术 第三章文本过滤模型及关键技术 3 1 文本过滤模型 文本属于一种非结构化的数据,本质上是一个由众多字符构成的字符串,无 法被学习算法直接用于训练或过滤。要将机器学习技术运用于文本过滤问题,首 先需要将作为训练和分类对象的文本,转化为机器学习算法易于处理的形式。即 运用各种文本表示方法,将所有文本都表示成具有某种相同结构的数据。文本表 示最理想的境界就是模拟人所理解的语义,通过函数f ,使得: 人所理解的语义= f r 文本) 但这种精确反映人所理解语义的函数是很难定义的,或者也许根本不存在, 对于自然语言来说,由于涉及到人这个认知主体的思维活动,不同的认知主体往 往会有不同的理解,自然语言的形式极其意义之问是一种多对多的关系,很难合 理的定义一个反映语义的函数。 下面将介绍目前在自然语言处理中常用的几种文本表示模型。 3 1 1 布尔模型 布尔模型是基于特征项的严格匹配模型。首先建立一个二值变量的集合,这 些变量对应着信息源的特征项。信息源用这些特征项变量来表示,如果在信息源 中出现相应的特征项,则特征变量取“t r u e ,否则特征变量取“f a l s e 。查询是 由特征项和逻辑运算符“a n d , o r 和“n o t 组成的布尔表达式。信息源 与查询的匹配规则遵循布尔运算的法则。根据匹配规则将信息源分为两类:相关 类和不相关类。由于匹配结果的二值性,所以无法对结果集进行相关性排序。 布尔模型的优点是实现简单,检索速度快,易于理解,在许多商用的过滤系 统中得到了应用。但是这种传统的布尔过滤技术也存在着一些不足之处:1 原始 信息表示不精确。布尔模型仅仅以特征项在原始信息中出现与否的布尔特性来表 示原始信息,忽略了不同特征项对信息内容贡献的重要程度,容易造成结果的冗 余。2 基于布尔运算法则的匹配规则过于严格,容易造成漏检。严格且缺乏灵活 性的布尔过滤规则往往会导致仅仅因为一个条件未满足的文档被漏检。3 布尔模 型匹配结果的二值性导致系统无法按结果信息的相关性大小为用户提供信息。因 此,布尔模型被认为是最弱的经典方法。 为了克服传统布尔模型的缺陷,人们对其进行了改造,引入了权重来表示特 9 北京化t 人学硕i 二学位论文 征项对文档的贡献程度,形成了所谓的加权布尔模型,即拓展的布尔模型 ( e x t e n d e db o o l e a nm o d e l ) 。 3 1 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l s ,即v s m ) 是由g s a l t o n 等人于6 0 年代末 提出的并成功的应用于著名的s m a r t ( s y s t e mf o r t h e m a n i p u l a t i o na n dr e t r i e v a l o f t e x t ) 系统。从此之后,该模型及其相关的技术,包括特征项的选择、加权策 略,以及采用相关反馈进行查询优化等技术,在文本分类、自动索引、信息检索 等许多领域得到了广泛的应用【2 8 1 ,主要原因是它具备概念简单,应用方便,以及 利用空间相似性来逼近语义相似性的特点。向量空间模型用特征项及其相应权值 代表文本信息,所以其应用前提是一篇文本的中心涵义能通过其中的词汇信息 ( 即特征项) 体现出来。在进行信息检索时,文本与查询请求之间的相关程度是通 过向量运算来描述的。如果将文本过滤中的新文本和用户兴趣模型也用向量形式 表示出来,那么向量空间模型将同样适用于信息过滤领域。目前v s m 已成为最 简便高效的文本表示模型之一。由于v s m 的这些特点,在文本过滤领域,v s m 也是被广泛采用的文本表示模型。 v s m 的基本概念如下: 定义3 1 文档( d o c u m e n t ) :泛指一般的文本或文本中的片断( 段落、句群或句 子) ,一般指一篇文章。尽管文档可以是多媒体对象,但在本文的讨论中我们只 认为是文本对象,并且对文本与文档不加以区别。本文中用d 表示一篇文本。 定义3 2 项( t e r m ) :文本的内容特征常常用它所含有的基本语言单位( 字、 词、词组或短语) 来表示,这些基本的语言单位被统称为文本的项,即文本可以 用项集( t e r ml i s t ) 表示为d ( t l ,t 2 ,o o 9t n ) ,其中t k 是项,l k n 。 定义3 3 项的权重( t e r mw e i g h t ) :对于含有n 个项的文本d ( t l ,t 2 ,t s ) , 经常用一定的权重w k 表示项t k 在文本d 中的重要程度,即d = d ( t l ,w l ;t 2 ,w 2 “ t s ,w n ) ,简记为d = d ( w l ,w 2 ,o o o o 9w n ) 。这时我们就说项t k 的权重为w k ,1 k n 。 定义3 4 向量空间模型( v s m ) - 给定一自然语言文档胪d ( t l ,t 2 ,t n ) , 由于t k 在文档中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的 难度。为了简化分析,可以暂时忽略考虑t k 在文档中的先后顺序并要求互异( 即 没有重复) 。这样就把文档d 简化以特征项的权重为分量的向量表示:d ( w l , w 2 ,oo ,w n ) 。即把t l ,t 2 ,o o o ,t s 看成一个n 维的坐标系,而w l ,w 2 ,, oo o ,w n 为相应的坐标值。我们称d ( w i ,w 2 ,w s ) 为文档d 的向量表示或向量空间 l o 第二三章文本过滤模型及关键技术 模型。 定义3 5 相似度( s i m i l a r i t y ) :两个文本d i 和d j 之间的内容相关程度( d e g r e e o fr e l e v a n c e ) 常常用它们之间的相似度s i m ( d i ,d j ) 来度量。对于文档d i ( w i i , w i 2 ,w i l l ) 和文档d j ( w j t ,w j 2 ,w j n ) ,我们可以借助向量之间的某种距离 来表示文档之间的相似度,常用向量之间的内积进行计算: s i m ( d k ,d 2 ) ;w w u h l 式( 3 1 ) 或用向量的夹角余弦值来表示: y w l t 讹 & 哦d l ,嘎) 嚣c o s o - - 向量空间模型的最大优点在于它在知识表示方法上的巨大优势,文本被简化 为多维空间中的特征项及其权重的向量表示,把对文本内容的处理简化为向量空 问中的向量运算,大大降低了问题的繁杂度,提高了文本处理的速度和效率。并 且也正因为把文本以向量的形式定义到实数域中,才使得模式识别和其它领域中 的各种成熟的计算方法得以应用,极大提高了自然语言文本的可计算机性和可操 作性。所以说,文本的形式化表示方法向量空间模型是基于文本处理的各种应用 得以实现的基础和前提。但向量空间模型也有明显的缺点:它是一种忽略了特征 项之间顺序的词代文本表示模型,虽然带来了计算和处理上的方便,但过多的简 化必然会丢掉大量的文本结构和语义信息( 如句子中词序的信息:“我打你”和“你 打我 的语义是不同的,但它们都有相同的项集) ,而这在自然语言中是至关重 要的。另外,它在权重和相似度的计算中也作了许多简化工作,对不同语言单位 构成的项大都只考虑其统计信息并采用统一的权重计算方法,所以计算出的权重 未必能反映其真实的重要性。再有,向量空间模型是建立在所有项两两正交这一 假设的基础上的,没有考虑特征项之间的相关性,对于有着丰富语义的自然语言 来说,这种假设过于严格,不能很好地反映自然语言的特征。总之,语义关系实 际上是一个很复杂的运算,用简单的初等运算来代替语义,误差势必存在。在以 自然语言为研究对象的知识处理和知识获取问题中,知识表示始终是主要瓶颈。 如何确定和弥补现有文本内容映射到特征项时大量有效信息的损失是自然语言 处理领域需要关注和解决的问题之一。 尽管向量空间模型有需要改进的地方,但由于向量空间模型简化了文本处理 的复杂度,大大提高了文本处理的速度和效率及网页信息过滤系统实时性要求高 的特点,所以本文采用向量空间模型进行文本表示。 北京化t 大学顾l :学位论文 3 1 3 概率模型 概率模型是为解决信息过滤中存在的一些不确定性的问题而引入的。信息过 滤中用户信息需求表示的模糊性、原始信息与用户模板相关性判断的不确定性都 可能导致不确定性的问题。概率模型考虑到了词条、文档间的内在联系,利用词 条间以及词条和文档间的概率相依性进行信息过滤。 概率模型的理论基础是概率排序规则:如果文档按照与查询的概率相关性的 大小排序,那么排在前面的文档是最有可能被检索到的文档。 在基于概率模型的信息过滤中,用户模板和原始信息一般都表示为同一关键 词空间的关键词集合,过滤的依据是原始信息和用户模板之间的相关性,若原始 信息与用户模板不相关,则过滤掉。如果某一文档d i 满足公式( 3 3 ) 则该文档 被认为是与用户模板相关的,否则被过滤掉。 p ( ri 谚) 烈n riz ) 斗,、 一r k ) 。j , 其中r 是与查询相关的文档的集合,n r 是与查询不相关的文档的集合, p ( r l d i ) 表示文档d i 与用户模板p 相关的概率,p ( n r i d i ) 表示文档d i 与用户模板p 不相关的概率。 由此可以记文档d i 与用户模板p 之间的相似度的计算公式为: s 聊c d , ,力= 厕p ( r id , ) 运用贝叶斯原理,公式( 3 4 ) 可以改写为( 3 5 ) 。 砌t 埘烹高龋 一式( 3 _ 4 ) 计算s i m ( d i ,p ) , 若s i m ( d i ,p ) l ,则认为文档d i 与用户模板p 相关,按 相似度大小的顺序提供给用户,否则被过滤掉。 概率模型采用基于统计概率的方法来描述文本信息,比布尔模型、向量空间 模型有所改进的是考虑了词条文档之间的统计概率。优点是可以根据相关概率的 降序,对信息样本进行排序。但是它需要猜测一个初始的划分,将信息样本分成 相关和无关的两个集合,没有考虑特征项在一个信息样本中的频率( 即所有的权 重都是二值的) ,仍然假设索引项之间是相互独立的,并且参数估计的难度比较 大,文件和查询的表达也比较困难。 1 2 第三章文本过滤模型及关键技术 3 1 4 潜在语义索引模型 在自然语言中,词与词之间存在着同义性和异义性,同义性是同一个概念在 文本中用不同的词来表达,导致过滤时不能和相关主题匹配;异义性又会使不同 的概念用同一个词来表达,导致文本和不相关的主题匹配。 潜在语义索引模型( l a t e n ts e m a n t i ci n d e x i n gm o d e l ,l s i ) i j i 入概念空间来解 决上述问题,它的基本思想是:文本中词与词之间存在某种联系,即存在某种潜 在的语义结构,因此采用统计的方法来寻找该语义结构,并用语义结构来表示词 和文本,以达到消除词与词之间的相关性、化简文本向量的目的。它要求对整个 文本进行研究,来抽取关键词和文档之间的关系。l s i 模型应用一种强大的、完 全自动化的统计方法来计算和模拟这些关系,即奇异值分解( s i n g u l a r - v a l u e d e c o m p o s i t i o n ,简称s v d ) 。 l s i 模型挖掘了文本的内在语义信息,其性能要优于前面两种技术。这种模 型与向量空间模型都是将文本以多维向量来表示,关键词向量中的值表示词在文 本中出现的频率,而语义索引模型向量中的值是通过s v d 分解得到的缩减了的 值。 基于内容的潜在语义法使信息过滤从关键词匹配上升到内容匹配,过滤的精 度有了较大的提高。但它采用潜在的语义结构,算法复杂,系统执行速度慢,其 过滤性能也会随着新词的加入而下降。 3 2 文本预处理 从文本过滤的整个流程可以看出,文本预处理是整个文本过滤过程的第一个 阶段。预处理通常包括以下几种类型: ( 1 ) 网页净化。w e b 页面是一种半结构化的文档。浏览w e b 上的网页,我 们会发现它们通常包含两部分内容:一部分内容体现的是网页的主题信息,我们 称之为“主题”内容;另一部分则是与主题内容无关的导航条、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年美容师初级技能水平测试卷:皮肤护理专业知识与实践操作试题
- 2025年高压电工考试:高压设备操作流程规范解析与试题
- 新能源企业节能减排管理规范
- 基于IPMI的服务器可信带外管理:技术剖析与创新设计
- 基于HPLC数字化指纹图谱的刺五加及刺五加注射液质量评价与成分剖析
- 基于GX担保公司的财务风险剖析与防控策略探究
- 基于GPU的光线跟踪算法加速结构的比较与剖析:性能、特性与应用
- 高效率酒店清洁计划制定
- 经典文学《世界还很年轻》阅读解析
- 幼教活动设计与家园共育案例分析
- 国开2025年《行政领导学》形考作业1-4答案
- 广东省广州市天河执信中学2024-2025学年九年级上学期期中考试化学试卷(含答案)
- 安徽省蚌埠市2025-2026学年高三上学期调研性监测语文(含答案)
- 医生进修6个月汇报大纲
- 外科病人的心理护理讲课件
- BSEN50342-1-2015铅酸起动电池完整
- 2025至2030中国特殊教育市场现状调查及前景方向研究报告
- DL∕T 817-2014 立式水轮发电机检修技术规程
- (高清版)DZT 0334-2020 石油天然气探明储量报告编写规范
- 2024年浙江卷1月读后续写(路痴的自我救赎)讲义-高考英语作文复习专项2
- 脑电图与脑功能活动
评论
0/150
提交评论