(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf_第1页
(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf_第2页
(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf_第3页
(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf_第4页
(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机系统结构专业论文)基于短语模式的文本情感分类算法及其在邮件过滤中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 摘要 文本情感分类是文本分类一个新的研究分支,其目的是判断一篇文章对评 价对象所持有的情感倾向是支持还是反对。它可以广泛应用在文本检索、文本 过滤等领域中。 对情感分类的研究,目前国外有些学者初步提出了一些方法,同时还建立 了供公开测试的语料库,国内一些学者也开始了在这一领域的研究尝试。 本文在总结前人工作的基础上,从文本中词和短语的分析着手,提出了基 于短语模式的文本情感分类算法( p h r a s ep a t t e r n sb a s e dt e x ts e n f i m e i l l c l a s s i f i c a t i o n ,以下简称p t s c ) 。该算法通过分析文本中的情感词以及由这些 情感词构造的短语模式,来作为文本的情感特征,并利用这些特征实现文本的 情感分类。该算法改善了以往基于统计的文本分类算法因缺乏语义上的约束而 在文本情感分类上的不足。 p t s c 算法主要包括情感词汇的选取、短语模式的构造、短语模式情感倾 向的评价以及文本情感倾向值的判断。算法通过分词、标注、抽取有效的短语、 计算全文情感倾向值等步骤实现,文本情感分类的结果依据全文情感倾向值来 确定。 该算法在邮件过滤项目中得到应用,达到了较好的查准率和查全率,有效 地控制了过滤的误判率,保持了较高的过滤时空效率,取得良好的效果。通过 开放性实验验证,基于短语模式的文本情感分类算法过滤的查准率达到了 8 9 8 ,查全率达到了9 3 8 。 关键词:自然语言处理,文本分类,语义分析,邮件过滤 上二海大学硕士学位论文 ! 堕坠! g ! 鲤型! ! ! ! 坐! ! ! ! ! 竖! ! ! ! ! ! ! 型堡 a b s t r a c t t e x ts e n t i m e n tc l a s s i f i c a t i o ni san e we m b r a n c h m e n ti nt e x tc l a s s i f i c a t i o n ,i n g e n e r a l l y ,s e n t i m e n tc l a s s i f i c a t i o nm e a n st oa n a l y z ew h e t h e rt h e a u t h o rh o l d s p o s i t i v eo rn e g a t i v es e n t i m e n tt oas p e c i f i cs u b j e c t i tc a nb eu s e di nt e x tr e t r i e v a l , t e x tf i l t e r , e t c n o w , s o m ee f f e c t i v em e t h o d sh a v eb e e nb r o u g h tf o r w a r di nt h i sf i e l d , a n ds o m ec o r p u s e sa r es e tu pf o rt e s t i nt h i sp a p e r , w ea n a l y z et h ee x i s t e dt e x tc l a s s i f i c a t i o nm e t h o d s ,t h e np u t f o r w a r dt h ep t s c ( p h r a s ep a t t e r n sb a s e dt e x ts e n t i m e n tc l a s s i f i c a t i o n ) a l g o r i t h m t h a tc a nb ef i t t e df o rt h ec h i n e s et e x ts e n t i m e n tc l a s s i f i c a t i o n t h i sa l g o r i t h m c l a s s i f i e st e x tb ya n a l y z e st h ew o r d sw h i c hc a ne x p r e s st h es e n t i m e n to r i e n t a t i o no f t h ea u t h o ra n dc o n s t r u c tp h r a s e sp a t t e r n sw i t ht h e s ew o r d s t h e s ep h r a s ep a t t e r n s w e r eu s e da st h ec h a r a c t e r so ft e x t t h e ya r ea l s ot h eb a s i so ft h ep t s ca l g o r i t h m t h ea l g o r i t h mi m p r o v e st h ep r e c i s i o nr a t i oo ft r a d i t i o n a lt e x tc l a s s i f i c a t i o nm e t h o d s w h i c hn o r m a l l ya r el o wd u et ol a c k i n go f c o n s t r a i no f t e x ts e m a n t i c t h ep t s ca l g o r i t h mi n c l u d e ss e l e c t i n gt h es e m a n t i cw o r d s ,c o n s t r u c t i n ga n d e v a l u a t i n gt h ep h r a s ep a t t e r n sa n dc o u n t i n gt h es e n t i m e n to r i e n t a t i o na n ds t r e n g t h o ft h et e x t t h ep r o c e s st or e a l i z et h ea l g o r i t h mi n c l u d e ss e p a r a t i n gw o r d s ,l a b e l i n g p o s ( p a r t o f - s p e e c h ) a n ds o ( s e n t i m e n to r i e n t a t i o n ) t ot h ew o r d sa n de x t r a c t i n g t h ep h r a s e sa n dc o u n t i n gt h es e n t i m e n tv a l u eo f t h et e x t t h er e s u l to f t h es e n t i m e n t c l a s s i f i c a t i o ni sb a s e do nt h es e n t i m e n to r i e n t a t i o no ft h et e x t w es u c c e s s f u l l ya p p l i e dt h ep t s ca l g o r i t h mt ot h ee m a i lf i l t e r i n gp r o j e c ta n d a c h i e v e daf a v o r a b l er e s u l t i no u re x p e r i m e n t a t i o n w eh a v ea c h i e v e dt h ep r e c i s i o n r a t i oo f8 9 f 8 a n dt h er e c a l lr a t i oo f9 3 8 t h ea l g o r i t h ma l s o k e e p sag o o d e f f i c i e n c yo ft i m ea n ds p a c ea n da l o wf a u l tr a t e k e y w o r d s :n a t u r el a n g u a g ep r o c e s s i n g ,t e x tc l a s s i f i c a t i o n ,s e n t i m e n t a n a l y s i s ,e m a i lf i l t e r i n g i i 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:导师签日期 匕海大学硕士学位论文 ! 生! ! ! 坚型型! 坠望! ! ! 塑! ! ! g 墅! ! 生篓坚 1 1 课题来源 第一章绪论 本文所研究课题来源于上海市科学技术委员会重点研究项目“基于语义的特 定内容检查与过滤技术及其应用研究”( 项目编号0 3 5 1 1 5 0 2 8 ) 。该项目旨在改进 以往文本过滤方法在应用中的不足,提高过滤的正确率和时空效率并降低过滤的 误判率,研究出有效的方法过滤在互联网上通过电子邮件等途径传播的各种不良 文本信息。 1 2 课题研究的背景和意义 第十四次中国互联网络发展状况( c n n i c ) 统计报告指出,中国网民数和上 网计算机数继续增长,截止2 0 0 4 年6 月3 0 日,两者达到8 7 0 0 万人和3 6 3 0 万台; 网民平均每周收到4 6 封有效电子邮件,9 2 封垃圾电子邮件,每周发出电子邮 件4 3 封。由此可见,互联网在我国的使用日益普遍,人t i j 币r j 用网络传输文本信 息的应用也越来越多。 这些在互联网上传播的数量如此巨大、影响范围如此广泛的信息,一方面有 很多内容是有价值的,另一方面这些信息中也会参杂一些有害信息,包括宣传 非法内容的网页、非法电子邮件以及垃圾邮件等等。为了净化网络,避免因这些 信息带来的危害,必须阻止它们在网上的传播。因此,有效地防止有害信息在网 络上的传播已成为一个很重要的研究课题。 1 3 国内外研究概况 为防止有害信息在互联网上传播,国内外都在这一领域不断展开研究,一般 采取的方法都是通过文本过滤来实现。目前常见的文本过滤方法有两种:一种是 基于关键字匹配的方法,这种方法在很多邮件过滤器、网页过滤插件中都有应用, 甚至包括些聊天工具的聊天内容过滤也广泛采用这种方法。这秘方法简单,时 间空间复杂度低,但它误判率高,只要文本中出现所选定的关键词,就被过滤掉, 这给文本信息在互联网上的正常传送带来了很大不便。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 另一种文本过滤方法是利用文本分类算法进行过滤。通过分类的结果判断哪 些文章在过滤的范围内,哪些不需要过滤。目前常用的分类方法一般都是基于统 计的,通过对从统计量中获得的一些特征建立分类模板,分类时从待过滤文本中 抽驳特征与模板进行匹配,完成文本分类,再根据分类的结果判断是否需要过滤。 这种方法目前也取得了一定的应用效果,不过这种基于统计的文本分类方法由于 文本特征表达仍然有限,不能很好体现文中的语义信息,因此分类的正确率还不 能很好的满足实际应用的需要。其次文本分类过程复杂,时间、空间复杂度都较 高。所以目前基于文本分类的文本过滤方法在实际应用中还不多。 综上可知,基于关键字的文本过滤方法由于其方法本身的限制,满足不了文 本过滤的进一步要求。而基于文本分类算法的过滤则需要通过改进,提取文中更 多的特征,提高分类效率,来满足当前文本过滤的需求。本文在这样的背景下, 提出了一种改进的文本分类算法来满足当前文本过滤应用的要求。 1 4 本文的主要工作 本文在总结前人工作的基础上,根据目前文本理解的发展趋势以及应用要 求,在研究过程中发现通过句子中的局部词语的搭配,组成特定模式的短语,可 以分析出文本中部分语义信息,利用这些信息就可有效地表达出文章的情感倾向 特征。所以,本文从分析文本中短语模式着手,提出了适用于中文的基于短语模 式的文本情感分类算法p t s c ( p h r a s ep a t t e r n sb a s e dt e x ts e n t i m e n tc l a s s i f i c a t i o n , 下文都简称作p t s c 算法) 。该算法通过分析文本中的特定短语模式来获得文本 的情感特征,并利用这些特征实现文本的情感分类,弥补了基于统计的文本分类 方法在文本情感分类应用上的不足。该算法在非法邮件过滤中得到了应用,取得 了良好的效果,满足了项目在文本过滤上的需求。 1 。5 本文的主要内容 本文的内容作如下安排: 第二章介绍文本分类的一些基本概念及传统的文本分类中常用的方法,分析 这些传统分类方法如何获取文本特征,以及如何利用所获取的文本特征进行分 类。然后指出这些文本特征在表达文本的语义信息时的缺陷,说明传统的基于统 计的文本分类方法不完全适用于文本情感分类。 上海走学碗十学位论文 ! 生! ! ! g ! 坐! ! ! ! 堕! ! 堕! ! ! ! 韭! ! ! 坐! ! 型 另一种文本过滤方法是利用文本分类算法进行过滤。通过分类的结果判断哪 些文章在过滤的范围内,哪些不需要过滤。目前常用的分类方法一般都是基于统 计的,通过对从统计量中获得的些特征建立分类模板,分类时从待过滤文本中 抽耿特征与模板进行匹配,完成文本分类,再根据分类的结果判断是否需要过滤。 这种方法目前也取得了一定的应用效果,不过这种基于统计的文本分类方法由于 文本特征表达仍然有限,不能很好体现文中的语义信息,因此分类的j 下确率还不 g r e e t 好的满足实际应用的需要。其次文本分类过程复杂,时间、空间复杂度都较 高。所以目前基于文本分类的文本过滤方法在实际应用中还不多。 综上可知,基于关键字的文本过滤方法由于其 法本身的限制,满足不了文 本过滤的进一步要求。而基于文本分类算法的过滤则需要通过改进,提取文中更 多的特征,提高分类效率,来满足当前文本过滤的需求。本文在这样的背景下, 提出了一种改进的文本分类算法来满足当前文本过滤应用的要求。 1 4 本文的主要工作 本文在总结前人工作韵基础上,根据目前文本理解的发展趋势以及应用要 求,在研究过程中发现通过句子中的局部词语的搭配,组成特定模式的短语,可 以分析出文本中部分语义信息,利用这些信息就可有效地表达出文章的情感倾向 特征。所以,本文从分析文本中鼯语模式着手,提出了适用于中文的基于短语模 式的文本情感分类算法p t s c ( p h r a s ep a t t e r n s b a s e d t e x ts e n t i m e n t c i a s s i f i c a t i o n , 下文都简称作p t s c 算法) 。该算法通过分析文本巾的特定短语模式来获得文本 的情感特征,并利用这些特征实现文本的情感分类,弥补了基于统计的文本分类 方法在文本情感分类应用上的不足。该算法在非法邮件过滤中得到了应用,取得 了照好的效果,满足了项目在文本过滤上的需求。 1 。5 本文的主要内容 本文的内容作如下安排: 第二章介绍文本分类的一些基本概念及传统的文本分类中常用的方法,分析 这些传统分类方法如何获取文本特征,以及如何利用所获取的文本特征进行分 类。然后指出这些文本特征在表达文本的语义信息时的缺陷,说明传统的基于统 计的文本分类方法不完全适用于文本情感分类。 计的文本分类方法不完全适用于文本情感分类。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 另一种文本过滤方法是利用文本分类算法进行过滤。通过分类的结果判断哪 些文章在过滤的范围内,哪些不需要过滤。目前常用的分类方法一般都是基于统 计的,通过对从统计量中获得的一些特征建立分类模板,分类时从待过滤文本中 抽驳特征与模板进行匹配,完成文本分类,再根据分类的结果判断是否需要过滤。 这种方法目前也取得了一定的应用效果,不过这种基于统计的文本分类方法由于 文本特征表达仍然有限,不能很好体现文中的语义信息,因此分类的正确率还不 能很好的满足实际应用的需要。其次文本分类过程复杂,时间、空间复杂度都较 高。所以目前基于文本分类的文本过滤方法在实际应用中还不多。 综上可知,基于关键字的文本过滤方法由于其方法本身的限制,满足不了文 本过滤的进一步要求。而基于文本分类算法的过滤则需要通过改进,提取文中更 多的特征,提高分类效率,来满足当前文本过滤的需求。本文在这样的背景下, 提出了一种改进的文本分类算法来满足当前文本过滤应用的要求。 1 4 本文的主要工作 本文在总结前人工作的基础上,根据目前文本理解的发展趋势以及应用要 求,在研究过程中发现通过句子中的局部词语的搭配,组成特定模式的短语,可 以分析出文本中部分语义信息,利用这些信息就可有效地表达出文章的情感倾向 特征。所以,本文从分析文本中短语模式着手,提出了适用于中文的基于短语模 式的文本情感分类算法p t s c ( p h r a s ep a t t e r n sb a s e dt e x ts e n t i m e n tc l a s s i f i c a t i o n , 下文都简称作p t s c 算法) 。该算法通过分析文本中的特定短语模式来获得文本 的情感特征,并利用这些特征实现文本的情感分类,弥补了基于统计的文本分类 方法在文本情感分类应用上的不足。该算法在非法邮件过滤中得到了应用,取得 了良好的效果,满足了项目在文本过滤上的需求。 1 。5 本文的主要内容 本文的内容作如下安排: 第二章介绍文本分类的一些基本概念及传统的文本分类中常用的方法,分析 这些传统分类方法如何获取文本特征,以及如何利用所获取的文本特征进行分 类。然后指出这些文本特征在表达文本的语义信息时的缺陷,说明传统的基于统 计的文本分类方法不完全适用于文本情感分类。 上海人学硕士学位论文 坠! ! 坐! ! ! ! 坐! 塑坐! ! ! ! ! 竖堕! 坐竺型 第三章详细介绍基于短语模式的文本情感分类算法p t s c ,给出p t s c 算法 的理论、设计思路和实现过程,以及如何根据分类的需要进行选词、构造短语模 式、计算短语情感倾向度以及设定文本的情感倾向域值,然后在分类的实现过程 中如何分词、标注、匹配短语模式以及计算全文情感倾向。 第四章介绍该分类算法在邮件过滤项目中的应用。通过设计并实现一个针对 项目需求的邮件过滤器,并根据p t s c 算法针对该过滤任务的适用性,把p t s c 算法成功应用在邮件过滤项目中。 本文的最后一章给出结论和未来的研究设想。 上二海大学硕士学位论义 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 第二章传统文本分类方法及其分析 2 1 文本分类基本概念 文本分类是海量文本信息库的一种数据组织技术,准确的文本分类可提高 检索的速度和精度,克服人工分类带来的周期长、费用高、效率低等诸多缺陷。 文本分类可以应用在很多领域,如对新闻分类,把新闻分成政治、体育、 军事等不同的栏目;还可以用在文本过滤中,如对于垃圾邮件或特定信息的网 页过滤,利用分类技术识别出垃圾信息或者有害信息加以过滤。 文本分类的一般定义为:给定分类体系,自动将文本分到某个或者某几个 类别中。比较常见的文本分类有文本主题分类、文本情感分类等等。其中主题 分类最常见,应用和研究都开展得比较广泛,它通常指根据主题的不同,对文 章进行分类,如判断一篇文章是是否属于政治、体育、军事领域,或者判断一 篇文章是评论国家关系的,还是讨论恐怖事件的等等。由于它的研究时间较长, 应用范围也较广,以往的很多文本分类方法都是针对文本主题分类而设计的。 文本情感分类近些年才有些研究,主要是分析文章对评论对象所持的态度 是支持还是反对。如判断一篇电影评论是肯定这部电影还是否定这部电影,或 者判断一篇介绍某个组织、团体的文章是对这个组织持有支持的态度还是反对 的态度等等。 文本分类目前主要有下面两种分类模式,一种是两类问题,就是判断一篇 文章属于或不属于某一类,上面提到的情感分类就是属于这一模式。另一神就 是多类问题,上面提到的主题分类通常就属于这个模式。在多类模式的情况下, 一个文本可以属于多类。比如,一篇文章的分类结果可以是它既属于新闻类, 又属于体育类。 有些文本分类还会按照层次关系给出一篇文章的类别。如下面是y a h o o 对 一个网页的分类结果,它分有很多层次,按照分类结果一级一级列下去: 体阏与生活,体育运动 是l 移球酞s 俱乐帮,国际米兰, 上海大学硕士学位论文 堡! ! 墼型! 坐堡! j ! ! ! ! 型! ! ! ! 唑! 坐 2 2 传统文本分类的研究方法 文本分类的研究已经发展了很长时间,从上个世纪七十年代初就开始了 【1 2 ,1 3 。它最初是应用在信息自动存取上,当时计算机没有像今天那样普及, 其应用远没有现在广泛。文本分类的快速发展是在上世纪九十年代初开始,随 着计算机和i n t e m e t 的普及,对文本分类的研究迅速发展起来。由最初的手工 分类发展到最简单的基于关键词的机器自动分类,发展到现在,已经有很多比 较成熟的自动文本分类方法。一般来说,目前常用的文本分类方法都包含如图 1 1 所示的过程。 :文本表示过程:! 训练学习过程! 图1 1 常见文本分类算法分类流程 图1 1 把一般的文本分类过程表示成三个部分。第一部分是文本表示过程, 如图中的左上框中表示部分。这一部分从原始训练文本中获得词和短语,然后 从这些词和短语中形成一些统计信息。第二部分是训练学习过程,如图中的右 上框中表示部分。这部分从文本表示的结果中抽耿特征,用这些特征来表示一 类文本,通过不断地对样本进行学习和训练,形成针对这类文本的分类器。第 三部分就是新文本的分类过程,如图中的下框中表示部分。这部分把需要分类 的新文本经过特征抽取后,经过分类器进行分类,获得文本分类结果。 下面详细介绍这些过程。 上海丈学硕士学位论文 堡! 塑! g ! ! ! ! 坐! 堕! ! ! ! ! ! ! g ! ! ! ! ! ! ! ! ! ! ! 翌 2 2 1 传统文本分类的文本表示方法 目前,一般的文本表示过程是先对去掉干扰后的文本经过分词、标注,然 后对得到的词、短语或其他文本中的信息做出统计,最后把统计结果表示成向 量空间模型( 、,c c t o rs p a c em o d e l ) 1 7 ,3 6 】。 向量空间模型是目前在文本分类领域最常用的文本表示统计模型,它是 g s a l t o n 在1 9 7 5 年提出的。其基本思想是把文本d 看作向量空间中的一个n 维向量( t l ,w ( t 1 ) ,t 2 ,w ( t 3 ) ,t 。,w ( t 。) ) ,其中( t l ,t 2 ,t 。) 为表示该文本 的n 个特征,w ( t k ) ,k = l ,2 ,n 是该文本对应第k 个特征的权重,一般取 为词频的函数。对于中文文本来说,由于词是语义的最小单位,因此一般选择 词作为特征。各维特征通常表示成词频t f ( t k ) 和反文档频率i d f ( t k ) 的函数,即有 w ( t k ) = t f ( t k ) i d f ( t k ) 。其中t f ( t k ) 表示词t k 在文档中出现的次数,而反文档频率 i d f ( t 1 ) = i o g ( n d f ( t k ) ) ,n 为文档集中的全部文档数,d r ( t 0 表示出现词t k 的文档数。 为了计算方便,通常要对向量进行归一化。在向量化的过程中,如果向量 维数过高,会影响分类效果和分类效率等,还需对向量降维。有些不能表示文 本特征的词会引入分类噪声,降低分类精度,影响分类算法的时空效率,比如 “如果”、“但是”等,这些虚词,不表示实际意义,在每篇文章中出现概率大 致相等,对分类来说是“平凡词”,应该从特征集中去掉。因此,用来向量化 的词必须进行筛选,选出那些能有效表示出文本特征的词。 可以看出,传统的文本分类的文本表示中,词的选取非常重要,其查准率 和时空效率主要取决于特征词的选取。 2 2 2 传统文本分类中特征抽取方法 在文本表示的基础上,要进行特征抽取。文本特征抽取是从每一类文档的 文本表示结果中抽取那些能够把此类文本与其他类型的文本区分出来的特征 项。文本分类需要依据这些特征来进行,所以文本的特征抽取是文本分类中最 重要的部分。 对基于统计的文本分类方法,在进行特征抽取时,一般都要通过对大量已 知类属的文本的统计量进行选择,选出能够反映此类文本的类属的特征。如果 文本的特征能比较好地代表某一类文本的特点,那么利用这些特征,文本就容 :海大学硕士学位论文 ! 生! ! ! ! ! ! 塑! 坐! ! ! ! ! ! ! ! ! ! 翌g ! ! ! ! ! 竖! ! ! 型 易分类。因此,文本特征抽取是目前文本分类研究的重点。 常见的基于统计的文本特征选择方法有:文档频率法( d f ) 1 5 ,3 7 、信息增 益( i g ) 法 1 5 ,3 7 、互信息( m i ) 法 3 7 】、x2 统计法( c h i ) 3 8 】,期望交叉熵法【3 8 】, 文本证据权法 3 9 ,优势率法 3 9 等等。下面简单介绍几种有代表性的文本特 征抽取方法。 1 ) 文档频率法。词条的文档频率( d o c u m e n tf r e q u e n c y ,简称d f ) 是指在 训练语料中出现该词条的文档数。采用d f 作为特征抽取基于如下基本假设: d f 值低于某个闽值的词条是低频词,它们不含或含有较少的类别信息。将这 样的词条从原始特征空间中移除,降低特征空间的维数,提高分类的精度。文 档频率是最简单的特征抽取技术,其具有相对于训练语料规模的线性计算复杂 度,常被用于大规模语料统计。 2 ) 信息增益法。信息增益( i n f o r m a t i o ng a i n ,简称i g ) 在机器学习领域被 广泛使用 1 5 。对于词条t 和文档类别c ,i g 考察c 中出现和不出现t 的文档频 数来衡量t 对于c 的信息增益。i g 中采用如公式2 1 的定义: ,g ( f ) - 一p ( c ,l o gp ( c 。) ) + p ( ,) p ( c , t ) 1 0 9p ( c ,ff ) f - li 一1 + p ( f ) l ogp ( c ,i ,) ( 2 1 ) 其中p ( c i ) 表示c i 类文档在语料中出现的概率,p ( t ) 表示语料中包含词条t 的文档的概率,p ( c , l t ) 表示文档包含词条t 时属于c ,类的条件概率,p ( t ) 表示 语料中不包含词条t 的文档的概率,p ( c ,i t ) 表示文档不包含词条t 时属于c 的 条件概率,i 1 1 表示类别数。特征抽取时,一般都对在语料中出现的每个词条计 算其信息增益值,从原始特征空间中移除低于特定闽值的词条,保留高于闽值 的词条作为表示文档的特征。 3 ) x2 统计法。x2 统计方法计算词条t 和文档类别c 之间的相关程度,并 假设t 和c 之间符合具有阶自由度的x 2 分布 1 6 。词条对于某类的x2 统计 值越高,它与该类之间的相关性越大,携带的类别信息也较多。令n 表示训练 语料中的文档总数,c 为某一特定类别,t 表示特定的词条,a 表示属于c 类且 包含t 的文档频数,b 表示不属于c 类但是包含t 的文档频数,c 表示属于c 类但是不包含t 的文档频数,d 是既不属于c 也不包含t 的文档频数,则t 对于 c 的x2 值由公式2 - 2 计算: 上海大学硕士学位论文 ! 生! ! ! ! g ! 型坐! ! ! ! ! ! ! i ! 竺g ! ! ! ! ! 竺坐! z2 ( f = 而可等瓷麓 :, 如果文本分类要求的是多类问题,则分别计算t 对于每个类别的x2 值, 再用公式2 。3 计算词条t 对于整个语料的x2 值,分别进行检验: z2 ( f ) = maxl l z2 ( f ,c ,)( 2 3 ) 其中i t i 为类别数。最后从原始特征空间中移赊低于特定阂值的词条,保 留高于该闽值的词条作为文档表示的特征。 从上面介绍的几种文本特征抽取方法可以看出,它们基本上都是基于词条 统计的。其他的一些没有介绍的常见方法基本上也类似,这些方法都依赖于文 本中独立的词的统计结果。 2 2 3 传统文本分类判定方法 文本特征抽取后下一步一般都是对文本特征的学习狃训练过程,通过对样 本的学习和训练,形成每一类文本的特征模板。在分类时,把需要分类的文本 和特征模板进行匹配,判断其所属的类。 目前存在各种各样的文本分类算法,如文本相似度法( 也称向量空间法) 4 0 】,n a i v eb a y s e 方法 3 7 ,4 0 】,k 一最近邻算法 4 1 】( k n e a r s t n e i g h b o u r ) ,n e u r a l n e t w o r k 方法【4 2 】,s v m 方法【4 3 等。文本相似度方法和n a y v eb a y s e 方法是应 用较多的两种方法,它们具有分类机制简单,处理速度快的优点,下面进行简 单介绍。 在向量空间法中,通过计算待分类文本和模版向量之间的相似度来进行分 类。模板向量和训练文本之间的相似度采用如公式2 - 4 的余弦公式获得: d 。+ 巩 列州无2 蒋丽 q 4 公式中的p f g 菱示模板向量,d 表示文本。d k 是d 中第k 个词的权重。按公 式( 2 - 5 ) 计算: 吃= 1 + l o g 级( 2 5 ) 其中,娠是d 中第k 个词的频率。 ! ! ! ! ! ! 塑型坐! 些! ! ! ! ! ! 塑! ! 竺! 型:! ! 竺! 一 根据s i m ( d ,曲的计算结果,判断d 和p f 的相似度,确定待分类文本d 是 否属于模板向量p f 所表示的这个类别。 在n a i v eb a y e s 方法中,通过计算待分类样本属于各类的后验概率,把该 待分类样本判分为后验概率最大的那一类。分类器的一个基本前提是各特征之 间的独立性假设,即假定文本中各个特征项属于特定类别的概率相互独立。 它的判分准则如公式2 - 6 所示: c :ma xp ( dc ,) p ( c ) = ma xp ( c ,) np ( 7 c ,) ”忆。 ( 2 6 ) j 1 + t f ( t “) 其中:p ( t1 c ,) = 并1 一,( 2 - 7 ) l 矿l + t f ( t ,) j 。1 忙i t f ( t j i ) 表示词t i 在c 类的第i 篇文档中出现的次数,l v l 为总词数,d i 表示 c 类的总文档数。n ( t k ,d ) 表示词t l ( 在文档d 中出现的次数。 由上面介绍的文本特征抽取、学习训练以及分类算法可以看出,传统的文 本分类方法基本上都是建立在统计量的基础上。最终分类的结果或者是通过计 算文本特征之间的相似度,或者是通过计算所属类别的概率等。 2 2 4 文本分类评价方法 为了评价各种分类算法的分类效果,目前形成了一些标准的评价方法,常见 的有下面三个评价标准 31 】: 正确率( 查准率) :p :鱼! 竺生竺竖 ( 2 8 1 a n s w e r s p r o d u c e d 、 召n - g ( 查全率) :r :兰竺竺竺竺塑! ! lr 2 9 、 t o t n l p o s s i b l e c o r r e c t s 、。 综合评价指标 f :尝( 2 - 1 0 ) 口2 + p + r 公式2 - 8 、2 - 9 中,c o r r e c ta n s w e r s 是正确分类文本数,a n s w e r s _ p r o d u c e d 是指总文本数,t o t a l a g o s s i b l e c o r r e c t s 是指测试样本中的需要捡出的文本数。 p 是正确率,也叫查准率,r 是召回率,也叫查全率。f 是一个综合评价指标, b 是一个调整系数,b 越大,r 对f 的影响越大,一般取b = 1 ,这时p 和r 上海丈学硕士学位论文 ! 生! ! ! 塑塑! 坐! ! ! 坐! ! ! ! 竺g 型! ! ! :! ! ! 坐 有同等的权重。 这几个评价标准中,公式2 8 比较常用,我们在测试中用了公式2 8 和公式 2 - 9 。 目前基于统计的文本分类查准率一般达到8 0 左右,查全率在7 5 左右, 当测试样本不同时,分类准确度的差距是明显的 4 4 1 。分类效果的有效评价依 赖于较大规模真实文本客观、定量的评测。随着标准语料库规模的增大,由测 试样本的不同所造成的评测差距将会缩小【2 8 。 2 3 传统文本分类方法分析 目前传统的文本特征分析方法基本上都是如2 2 节介绍的基于统计的特征 抽取方法。利用统计量作为文本特征项时,直观、可实现性好,因而被广泛采 用。但这种方法却没有从自然语言本身来对文本进行理解分析,仅仅停留在对 符号表面知识的查找和匹配。文章 2 7 】中甚至提到,基于统计的方法是懂计算 机而不懂语言学的人所采用的方法,由此也可以看出基于统计的方法所存在的 不足。 造成基于统计的方法带来一些问题的一个主要原因就是在特征提取过程 中,由于统计的只是孤立的词频,丢失了文本所蕴含的其他重要信息,缺乏语 义上的约束,无法获得文本中的语义特征。这样的统计,把一篇文本中连续词 语组成的句子所蕴含的语义信息基本都丢失了,就连最基本的词之间的顺序都 完全没有考虑,每个词失去了它所在的语境,下面用一些例子进行说明。 例2 1 : 张三字丁7 李四, 李西打7 张三; 这两句话,从孤立的词都可以看出表达了一个打架事件,但却看不出谁是 打人者,谁是被打者。 例2 2 : 张三眈李四优秀, 李西冼张三优秀, 同样,这两句话如果只从孤立的词来分析,不考虑词的顺序,也看不出差 上海大学硕士学位论文 望! ! ! ! 堡! 塑! 苎! ! ! ! ! ! ! ! ! ! ! 竺g ! 型! ! ! :! ! 韭 别,不知道谁更优秀。 例2 3 : 郡罩的气候狠温和, 张三的骅气银温和, 上面两句中都出现了“温和”这个词,但如果只分析孤立的词,没有考虑 “温和”这个词所修饰的对象,也就看不出这两个词在表达含义上有什么差别, 无法体现出一个是评价人,另一个是评价气候。 例2 4 : 张三做得很好李四做得报差, 上面这一句,如果只分析词,根本就不知道表扬的到底是“张三”还是“李 四”,也就不知道对“张三”和“李四”的评价态度。 例2 5 勉现在比以前做得好。 他以前比现在做得蜉, 从例2 5 的两句话,前一句肯定了“他”现在的成绩,对他有赞扬的含义, 而后一句否定了“他”现在的成绩,表达了对“他”以前成绩的否定。 所以,由上面5 个例子基本可以看出,缺乏上下文语境,从孤立的词上是 很难看出词在语义上的差别。所以在用基于统计的方法形成特征向量时,缺乏 语义上的约束,不能很好地表达出文本的语义特征。 基于统计的方法是i b m 公司最早提出的,在当时的应用背景下,解决了 自然语言处理中的很多难题,但随着研究的发展和深入,人们发现概率统计方 法的效率在上升到一定阶段后就走向一个平台,很难进一步提高它的查准率 2 7 】。 这一问题在以往的文本分类和文本检索的研究中,早在上世纪八十年代末 就被提出了。d a v i dd l e w i s 在1 9 9 2 年提到:基于单个词的统计的方法在新的 索引语言上使用是很不利的,因此建议使用短语的方法来作为文本索引。这里 的索引就是指文本的特征。在这样的背景,部分学者提出了基于短语的各种分 类方法,到目前发展了十余年。还有学者从语法分析的角度来分析文本,但由 上海大学硕士学位论文 旦! ! ! 窭! ! ! ! 坐望型! ! ! ! ! 竺g 墅! ! ! ! 篓堕 于自然语言的复杂性,导致这一类方法并未取得显著的成果。 用词的统计量形成向量作为特征的方法还会带来其他些弊端,比如容易 造成向量维数过高,造成各种学习算法的失效,需要设法降维等等。 因此,有必要对文本分类方法进行改进,使其满足应用的需求。本文介绍 的p t s c 算法就是在文本分类方法上做出的一个尝试。 2 4 语法分析在文本分类上的应用分析 语法分析是语义分析基础,因此在分析文本语义信息的时候,如果能进行 语法分析,会较容易获得文本语法以及语义上的特征 4 5 。 自然语言语法分析主要完成的任务就是确定输入结构以及语法结构的规 范化。确定输入结构主要就是识别句子中的中心词及动词的主语、宾语以及他 们的修饰词或修饰短语。 如, 张三 打了李四。 f f 河i 丁 是一个典型的主谓宾结构的句子。通过这个语法结构,可以发现这是一个主语 “张三”把行为执行在“宾语”上,所执行的动作是“打”。 语法结构规范化就是把句子规范到标准的语法结构,如恢复被省略的信 息,改变句子的次序等等,便于进行语义分析。 例如:莸是手厚久,错芭是。 恢复为:藏:是尹茸久,僧馥是尹卤久。 但是,汉语结构并不都像上面的例旬那么简单,那么容易进行语法分析, 况且目前文本的语法分析技术还不是很成熟,中文语法分析的查准率最好的也 不到8 0 4 5 】,而提高语法分析查准率时所花的时间开销代价也是非常大。 由目前语法分析的应用情况来看,文本分类算法还不能依赖于语法分析, 也没有基于完全语法分析进彳于文本分类的方法f 4 6 ) 。 但是为了获得上下文词语所表达的文本语义特征,还需要分析出句子中主 要的结构关系,获得词语之间的相互关系。所以本文在解决这个问题的时候, 按照目前自然语言处理的发展趋势,采取分析文中的部分信息,把语法分析和 上海大学硕士学位论文 坠! ! ! 迎! ! ! ! 坐! ! ! 坐! ! ! ! 竺! ! ! ! ! ! :! ! ! ! 望 词频统计折中起来考虑,方面统计出有代表性的词语,另一方面利用构造的 短语模式,代替复杂的语法分析。通过句子中局部短语来分析词的上下文关系, 获取更多的文本特征,对文本进行分类。 2 5 小结 本章主要介绍了基于统计文本分类的基本方法,包括文本表示、文本特征 抽取、文本分类的学习和训练以及如何通过训练得到分类器进行分类等。然后 介绍了文本分类的评价方法,这些文本评价方法在自然语言处理领域都是通用 的。本章最后就传统的文本分类方法中的特征抽取方法进行了分析,指出了基 于统计的文本特征抽取方法的不足。 在发现基于统计的文本分类方法不能进一步满足文本分类的需求,而基于 语法分析的文本分类方法目前还难以实现的情况下,最终着手从分析句子中的 部分短语出发,以此作为文本在语义上的约束特征,来实现文本的分类。 上海大学硕士学位论文 t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n i v e r s i t y 第三章基于短语模式的文本情感分类算法 p t s c 3 1 文本情感分类简介 文本情感分类是文本分类的一个分支,对它的研究随着应用需求的不断提 出近些年才兴起。情感分类就是识别出一篇文本中作者对评价对象所持的态度 是肯定还是否定,或者支持还是反对。 t e t s u y a n a s u k a w a 给情感分类定义了如下的任务 3 】: 1 ) 找到文中的情感表达方式; 2 ) 区分情感表达方式的倾向和情感强度; 3 )找到表达方式和评价对象的关系。 由上面提到的情感分类的三个任务可知,情感分类比起主题分类来说,更 需要对文章语义层的理解,需要找到文本中能表达情感的语义层的信息。 由于目前自然语言理解研究的现状,全面分析理解文本的主题思想,并给 出明确的解析表达,还有一定的困难。即使不考虑查准率,对整个文本进行语 法、语义分析,也往往会因为资源和响应时间的制约,无法有效地进行。以往 用统计量作为特征来分析文本也是一种试图绕过语法分析而迫不得己的方法。 在自然语言处理领域,一个新的发展趋势就是对真实文本采取部分分析。 文本由句子组成,但不是句子的简单叠加,各句子按照一定的逻辑关系排列, 呈现一定层次关系,各句子的外延决定了文本的外延 1 8 。因此,理解句子成为 理解文本的重要基础。 在这一发展趋势下,近些年不断有人在对文本分类新的途径做各种各样的 研究 3 ,4 ,7 ,8 ,2 2 。在文本情感分析领域内,比较有代表性的是t e t s u y a 的 情感分析方法 3 和t u r n e y 的情感分类方法【4 。他们没有局限于传统的基于统计 的特征提取方法,而是通过使用文中的短语信息,获取更多的语义特征,实现 了文本的有效分类。还有一些是把基于统计的方法和文本局部短语分析的方法 结合起来分析的,如m u l l e n 一等人使用了h y b r i ds v m 方法【2 2 1 ,该方法把传统 1 4 上海大学硕士学位论文 !

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论