(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf_第1页
(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf_第2页
(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf_第3页
(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf_第4页
(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机软件与理论专业论文)中文文本多粒度情感分类计算的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 文本情感分类及判别是通过自动划分评论中肯定或否定的意见去挖掘对于某一产 品的客户意见,并对其进行褒贬性的判别分类。文本中涉及到情感分类的对象一般有词 汇、句子、段落以及篇章。而汉语语言的复杂性往往使词汇、句子及文本的情感检测研 究面临很多的困难。由于在文本情感分类计算领域中,通常对各粒度层面的研究方法都 不同,而且对涉及到某些语言学中情感因素的知识理解还不够详尽,从而造成对某些研 究对象的情感判别出现与主观判断不符的情况。因此,本文首先在知网的基础上,对词 汇语义倾向计算方法予以改进,并且根据语言学知识扩展了影响情感的各种因素。最后, 对中文句子主题抽取与极性判别方法进行了详细的方法改进,并提出运用搭配规则匹配 算法进行句子情感倾向的计算。 以下是本文的主要研究内容: ( 1 ) 在知网理论前提下,对基于中文的情感词汇倾向计算方法进行了改进。具体解 决了知网中概念义原描述错位及出现概念歧义的问题,这一部分的工作有利于后续进行 句子情感倾向的判别。 ( 2 ) 提出了对句子情感倾向影响因素的考虑及定量分析。首先将否定词进行扩展, 并搭配语义倾向词汇对具体的修饰极性进行定量,更进一步研究了中文句子中否定共享 问题,以及否定比较句中情感极性的转移问题,因为这些因素往往影响着复句结构中情 感的倾向度。其次,对感叹句进行了详细的分析研究,分别从感叹词与搭配规则入手, 从语言学角度出发,对可能出现的各种感叹句形式及表述予以情感分析。 ( 3 ) 改进了句子极性判别的具体方法,不再单纯依靠依存结构中的句法结构关系来 转移极性值,而是根据定义的依存结构关系先对句子主题进行抽取,再考虑依存语法距 离和修饰词极性对句子极性的影响。然后对句子进行否定规则匹配,使得句子层面的极 性判别更为准确。其次,在词汇、句子情感倾向研究的基础之上,对中文文本情感倾向 进行了具体的分析计算及设计应用。 最后,针对本文提出的词汇、句子情感倾向所采用的方法,对系统进行了测评,并 与其它基于知网的研究方法进行实验比较,结果表明本文提出的方法的有效性,且情感 分类的准确率和精确率均有所提高。 关键词:文本情感分类,情感倾向,知网,依存语法,句子极性 r e s e a r c ho n c o m p u t a t i o no fc h i n e s et e x ts e n t i m e n tc l a s s i 6 c a t i o n o fm u l t i - g r a n u l a r i t y a b s t r a c t t e x ts e n t i m e n tc l a s s i f i c a t i o na n dd i s c r i m i n a t i o nt h r o u g ht h ea u t o m a :t i cd i v i s i o no f t h e c o m m e n t sp o s i t i v eo rn e g a t i v ec o n u n e n t st o 卸c u s t o m e rf e e d b a c kf o rap r o d u 吐卸叫 j u d g m e n tt h ec l a s s i f i c a t i o no ft h e m t e x tc l a s s i f i c a t i o no f o b j e c t sr c l a t e dt os 锄t i m e n tw o r d s 湖t 嘲,p a r a g r a p h sa n dc h a p t e r s t h ec o m p l e x i t yo ft h ec h i n e s el a n g u a g et e n dt 0m a l ( e w o r d s ,s e n t e n t e sa n dt e x to f t h es e n t i m e n td e t e c t i o ns t u d i e st h e r eh a v eb 渤m a n y d i f f i c u l t i e s 。 b e 圮a u s ei nt h et e x tf i e l do fa f f e c t i v ec o m p u t i n gc a t e g o r y , u s u a l l yg r a n u l a rl e v e l so f v a r i o u s 懈e 砌m e t h o d sa r ed i f f e r e n t , f o rs o m eu n d e r s t a n d i n go f l i n g u i s t i c si sn o t 咖岷g l ld “l 吐 r e s u l t i n gi nd i s c r i m i n a t i o no fc e r t a i ns e n t i m e n ta n ds u b j e c t i v ej u d g m e n t sa p p e 盯i n c o n s i s t e n t s i t u a t i o n t h e r e f o r e ,t h i sa r t i c l eo nt h eb a s i so ff i r s ti nh o w n e t ,i n l p r o v et h e m c t h o do fw o r d s e n t i m e n lt h e na c c o r d i n gt ol i n g u i s t i c k n o w l e d g eo ft h ev a r i o u sf a c t o 塔t h a td e 鼬鹤t h e s 钮t l m e n tq u a n t i t a t i v e f i n a l l y , t h es e n t e n c e t o p i c se x t r a c t i o na n dp o l i t yd i s c r i m i n a t i o n m e t h o dt oi m p r o v e ,a n dd e s i g nw i t hr u l e - m a t c h i n ga l g o r i t h ma p p l i e dt 0t h ec a l c u l a t i o no f t h c s e n t e n c et ot h es e n t i m e n to r i e n t a t i o n t h i sp a p e rm a i n l yi n c l u d ef o l l o wa s p e c t s : ( 1 ) t h eh o w n e tt h e o r e t i c a lp r e m i s e ,b a s e do nt h ec h i n e s et 朗dt 0t 1 1 e s 锄t i m 锄t b m s c a l c u l a t i o nm e t h o d si m p r o v e d s p e c i f i c a l l y , e l i m i n a t i n gt h ec o n c e p to ft h eh o w n e ti nt h e 嘶g i n a ld e s c r i p t i o no fd i s l o c a t i o na n dt h ee m e r g e n c eo ft h ec o n c e p to f 锄b i g i l 啵眦p 础0 f t h ew o r kw a sc o n d u c i v e t os e n t i m e n to r i e n t a t i o nt oj u d g eas 姐t e n c c ( 2 ) p r e s e n t e dp a i r so fs e n t e n c e st e n dt os t u d ys e n t i m e n tc 0 n s i d 删i o n s 髓d q u a 苴l t i t 硝v e a n a l y s i s w i l lb ee x t e n d e dn e g a t i v ew o r d s ,a n dw o r d sw i t hs e i n 锄t i c so r i 删i o n t 伽dt 0t h e d “l so ft h em o d i f i e dp o l a rq u a n t i t a t i v e ,f u r t h e r s t u d ya p p e a r si nt h el i e g a t i v es h 龇证g s e n t e n t e si nc h i n e s e , a sw e l la st h en e g a t i v ep o h f i t yo f t h et r a n s f e ro fm o s a m m ti s 蛐e o fs e n t e n c e ,b e c a u s et h e s ef a c t o r sa l s ot e n dt oa f f e c tt h ed e g r e eo f r e s e n t e n c ct l l es 饥t i m e n t o r i e n t a t i o n ;t h e n ,d e t a i l e da n a l y s i so ft h ee x c l a m a t i o n , r e s p e c t i v e l m 而t 1 1m en i l e s 缸d m 蜘硎0 n ,s t a r tf r o mt h el i n g u i s t i cp o i n to fv i e w , o nt h ep o s s i b l ef 0 咖锄de x d 锄a t o r v e x p r e s s i o n so f v a r i o u ss e n t i m e n tt oa n a l y s i st h es e n t i m e n t ( 3 ) i m p r o v e dt h ep o l a r i t yo fas e n t e n c ed e t e r m i n et h es p e c i f i cm 劬o d ,n oi o n g e rr e l v s o l e l yo nt h ed e p e n d e n c ys t r u c t u r eo ft h er e l a t i o n s h i pb e t w e e n s y l l t a c t i cs 旬m c t u 陀幻托姐s 勋 。士p o l 瑟v a l u e s ,b u ta c c o r d i n gt ot h ed e f i n i t i o no ft h er e l a t i o n s h i pb 咖e 姐d 印饥d e l l c y s 仇1 c t u r e se x t r a c t e ds e n t e n c et o p i c , d e p e n d e n c yg r a m m a rc o m p r e h e n s i v ec o n s i d e f a 石0 n 也e n d i s t a n c ea n dt h ei m p a c to fp o l a rm o d i f i e r s ,w h i l et h er u l e so ft h es e n t e n c et oan e g a t i v em a t c h , m a k i n gt h es e n t e n c el e v e l ,t h ep o l a r i t yo ft h ed i s c r i m i n a n ta n a l y s i sm o r ea c c u r a t e n e x t , i n t h ew o r d s ,s e n t e n c e st e n dt os t u d yt h eb a s i so fs e n t i m e n t ,s e n t i m e n tc l a s s i f i c a t i o nf o rc h i l l e s e t e x ts p e c i f i cs y s t e md e s i g na n da p p l i c a t i o n f i n a l l y , f o rt h i sp a p e r , t h ew o r d ,s e n t e n c es e n t i m e n tt e n dt ot h em e t h o d su s e dt h es y s t e m o fm e a s u r e m e n t ,c o m p a r i s o n 谢mo t h e rr e s e a r c hm e t h o d sb a s e do nh o w n c t , e x p e r i m e n t a l r e s u l t ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e rt h ev a l i d i t y , a c c u r a c ya n dp r e c i s i o na r e i m p r o v e d k e y w o r d s :t e x ts e n t i m e n tc l a s s i f i c a t i o n , s e n t i m e n to r i e n t a t i o n , h o w n c t , d e p e n d e n c e g r a m m a r , s e n t e n c ep o l a r i t y h i 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读 学位期间论文工作的知识产权单位属于西北大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和 借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同 时,本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作 者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:! 垫莹指导教师签名: z 。j 9 年6 月le l川。年舌月多le l 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签名:施萄 弘f 口年月le l 西北大学硕士学位论文 第一章绪论 1 1 研究背景 近些年,万维网的使用使得传统的出版商以及文本报刊等实体媒体的阅读可能性大 大降低,而网络成为了人们海量评论的存储市场,比如:电影评论、产品追踪以及很多 蕴含在文章、博客中的观点。这都归因于i n t e r n e t 技术的迅速发展,新的信息平台 使得人们拥有更多的共享资源。在网络中也存在很多形式的产品评论:包括网站上对一 特定型号的产品进行说明,比如数码相机;报纸和杂志中刊登的特殊评论,比如用户使用 情况与消费者报告;当然还有针对电子商务以及很多私人用户方面的评论,比如 r o t t e n t o m a t e s t o m ;也有一些正式的评论被用于讨论模板的定制和邮件列表归档中去, 比如发布在谷歌新闻组论坛中的新闻发布;用户也可以在自己私人的网站和博客中评论 产品,然后整合成专门的网站进行发布。 政府、公司以及个人通过这些丰富的意见提炼民意并运用到各种实际应用中去。例 如,在线零售和意见聚合网站能够概括这些评论的平均信息指数。同样的任务也适合于 股票交易市场,利用专业人士对金融新闻进行情感分析以预测股市的波动。社会氛围中 的这种网络分析通常是被引用来证明或确定某些因素的,因此这种正面或者负面的引用 能够增强文本的自动判别性。 其他应用则需要更为详细的意见表达类型。例如政党和政府往往有兴趣去了解具有 舆论性和公平正义性的问题,所以就需要针对个人进行详细的调查。同样,传统的商业 市场研究技术包括进行调查研究或举办专题小组会议讨论,收集少数公众成员的意见。 相反,这些任务可以通过意见挖掘的信息检索技术自动完成,去确定意见倾向表达的各 个方面,比如:意见信息,意见持有者和主题。例如,我们需要知道一个产品的评论是 正面的还是负面的,评论者渗透的情感是什么,怎样对一些政治事件进行公众的反馈等。 当网络累计的情感数据信息越来越多时,我们就可以依赖此来过滤某些意见,从而 帮助我们做出明智的决定。人们评价某一产品前先表达对产品的使用感受。对许多企业 来说,客户的意见已经变成一种虚拟的货币影响着产品。他们对网络舆论进行监测,并 根据追踪机制对其产品质量或服务进行改进升级。 舆论数据在网络上扮演越来越重要的角色,然而专家们发现通过事实排列的意见分 类的传统文本分析算法具有极限性。因此,文本的情感分类研究在这种背景下应运而生。 第一章绪论 1 2 文本情感分类 文本分类的目的是把文档按照它们的主题或者主旨来划分类别。文本分类系统的任 务可以简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学 角度来看,文本分类是一个将未表明类别的文本映射到根据样本数据信息的总结规则上 并应用的过程,当遇到新文本时,根据总结出的类别判别方法确定文本所属类别 3 引。 传统的文本分类所关注的是文本的客观内容,而倾向性分类所研究的对象是文本的 “主观因素,即作者所表达出来的主观倾向性,分类的结果是对于一个特定的文本要 得到它是否支持某种观点的信息。这种独特的文本分类任务就称为文本情感分类【2 ,3 1 。 1 2 1 研究目的与任务 文本情感分类的目的是通过自动划分评论中肯定或否定的意见去挖掘对于某一产 品的客户意见。为了实现这个目标任务,核心的和必需的工作就是在文本中检测主观信 息,包括观点、意愿、态度和情感等,这就叫做情感的分类。这个任务具有挑战性的方 面就是区别于单纯依靠关键字识别主题的方法来进行传统的基于主题的分类检测,而情 感的表达是一个比较微妙细致的过程。举个例子,“这个数码相机的画面质量真差! 而 这款新型相机具有良好的画面质量,电池寿命长,而且外形美观! 这段话是将一个产 品负面的评论与另外一个产品正面的评论进行比较,由于涉及到相关文档,所以很难区 分其核心评估的对象。因此,情感似乎比一般的基于主题的分类需要更多的理解。 文本情感分类主要的研究任务分为:主客观分类、极性分类以及情感强度分类,前 者容易理解,就是内容描述的主客观性分类,而后两者则为褒贬性倾向与情感表述强弱 程度的判别分类。这里正如本文中所要研究分析的不同粒度对象和其程度级别的极性定 量。因此,本文中主要关注后两个方面中不同粒度的极性计算的分类问题【4 】。 1 2 2 研究分类与方法 文本情感分类根据分类结果分为两种方法【5 1 ,分别为二维的情感分类与多维的情感 分类。给出一个文件集合d = d l ,d n ) ,预先定义类别集合c = p o s i t i v e ,n e g a t i v e ) ,二维 的情感分类是将d 中的每个d i 进行分类,并且打上正面或者负面的标签。如果我们假设 c = s t r o n gp o s i t i v e ,p o s i t i v e ,n e u t r a l ,n e g a t i v e ,s t r o n gn e g a t i v e ) ,也将d 中的每个c l i 进行分 类,并且打上c 中的标记,这就变成了一个多维的情感分类问题。 大多数的工作都是通过学习识别二维分类中是否为正面或负面的情感,但是经常会 2 西北大学硕士学位论文 有很多在二维分类识别之外的有用信息,特别是要排列很多的建议或者比较很多评论者 的意见。k o p p e la n ds c h l c r 6 1 方法证明利用中性观点的例子去训练学习情感分类是非常 重要的。通过学习正面和反面的例子很难对中性的句子进行精确的分类。而且,使用中 性的训练集去学习特征要好于区分肯定与否定的例子【7 】。 文本情感分类主要有两种方法:机器学习的方法和语义倾向的方法【5 】。大多数现有 的方法依赖于监督学习的标记语料库,将预先标记好积极或消极的倾向的文本用来训练 分类器。这种标记语料库的在实际应用中很难获取。此外,训练过的单领域的情感分类 模型也很难在其他领域中应用。还有一些更加细致的情感分类问题,比如寻找特定产品 特征的用户意见,主题i 特征的抽取和情感分类都在两阶段的过程中,首先需要检测主 题j 特征关系然后设定某一主题的情感标记。不难发现,情感倾向依赖于主题或领域。 1 3 情感分类研究现状 文本情感分类最早开始于上个世纪九十年代【5 ,8 ,9 】,但是在2 0 0 0 年才成为信息管理 的主要领域学科。特别是应用于现实世界中的情感分类的主要方法才出现,这两种方法 分别是基于机器学习和语义分析的技术。在此之后,自然语义处理技术被广泛应用与各 领域,特别是文档的情感分析研究。现在的情感分类是一门自然语言处理和信息检索的 交叉学科,它需要分享很多的特征值去进行信息抽取和文本挖掘的工作。虽然很多国际 会议都特别声明了该主题,例如a c l , a a a i ,w w w ,e m n l p , c i k m 等,但是都没有系 统化的解决这一问题,也没对此进行完全深入的研讨。 情感分类的研究始于主观性分类。主观性是自然语言涉及的某些方面的语言,用作 表达意见和评价【4 】。主观性分类如下形式:假设s = s l ,s n ) ,由文档中的句子组合而成, 主观性分类的主要问题是区分哪些是表达主观意见的句子,其中,主观性句子的集合为 s s ,哪些是描述事实信息的客观性句子,其中,客观性句子的集合为s o ,且s s us o = s 。 这些工作主要针对相关的新闻报道和网络论坛中各类意见的表达。主观性分类的任务是 调查一个段落代表的意见是否是作者表述的事实。 事实上,很多研究表明主观分类与文档情感分类有着紧密的联系。p a n g & l e e ,2 0 0 4 ; w i e b e ,2 0 0 0 ;w i e b e ,b r u c e ,1 9 9 9 ;w i e b e ,w i l s o n ,2 0 0 2 ;y u h a t z i v a s s i l o g l o u ,2 0 0 3 1 0 , 1 1 , 1 2 - 1 4 的研究发现主观性分类对文本情感分类的帮助是阻止了些不相关的或者潜在的误导 信息。p a n ga n dl e e 1 l 】还发现主观性分析能够将评论压缩更短从而进行抽取审查,同时 又保留了一定水平的完整评论的极性信息。所以,文档情感分类的前提是对文本内容进 行主客观的分类,情感的表达往往蕴含在各种主观信息中。 3 第一章绪论 1 3 1 国外研究现状 一般来说,根据现有的知识可以将情感分类问题分为两类解决方法。一个是基于语 料库【1 5 , 1 6 ,另一个是基于词典【1 7 , 1 8 】。基于语料库一般是有监督的方法,例如,要求训练 集要足够大且标注的效果良好。y a r o w s k y ( 1 9 9 5 ) 描述了一个半监督的方法解决词汇歧义 问题,在一些高精确率的注释信息情况下利用一组初始化的种子集,这些注解是在情感 文本中启动一个信息迭代的学习过程,即在每个未标记的字意上使用迭代信息。 相反,基于词典是无监督的方法,只要求一些种子词汇,比如“e x c e l l e n t ”和 p o o r 。 相对于语料库的方法,基于词典的方法有独立于领域的特点,因为它比正确标注一些大 的训练集更容易获得种子词汇,一些研究人员甚至发现,种子词汇能够自动生成【1 7 】。 进一步的研究表明,基于语料库的方法和基于词典的方法可以互补。特别是基于词 典的方法在负面的评论中通常有很高的精确率,而基于语料库的方法在正面的评论中有 很高的精确率。换句话说,基于语料库的方法能够分类否定倾向的评论,而基于词典的 方法能够分类正面倾向的评论【l 引。这两种分类分别称为消极的分类偏见和积极的分类偏 见。这两种方法结合也是目前研究的一个方向。例如,a l i n aa n dr e e v s k a i a t l 9 】在论文中 直接集成的方法本质上是一种监督的方法,因为它仍然需要一个小规模的标注语料库。 大多数情感分类的工作是有监督的基于机器学习的方法。例如,p a n ge ta l 2 0 】收集了 电影评论并根据作者注明了情感标记,并且根据这些数据训练有监督的分类器。大量的 研究调查了影响分类精确度的不同因素,包括特征集的选择、机器学习算法和预选的文 本部分进行分类;例如,d a v ee ta l 2 1 】实验利用了语言学、统计学和n g r a m 特征方法进行 特征的选择和权值的定量。p a n ga n dl e e t l l 】使用基于图像的技术确定和分析文本中的主 观部分。y ua n dh a t z i v a s s i l o g l o u t l o 】利用语义倾向词汇确定句子层面的极性。这些工作大 部分都是二元型的分类即判别肯定或否定,有时候会增加一些中立的分类,中性即在极 性方面表现出的情感缺乏。虽然普遍的监督系统能实现很高的准确性,但是这样做只能 像测试数据集一样的训练数据。若要转移到别的领域就不得不收集新领域中注明的情感 词汇,并且训练分类器。 e n g s t r o m ( 2 0 0 4 ) 的报告显示由于情感在不同领域中的表达不尽相同,所以使得跨领 域的分类准确性大大降低。然而,它在实践中不可能对所有可能的领域标注数据感兴趣。 a u ea n dg a m o n 2 2 尝试解决自定义的情感分类器在新领域中使用来自其他域的训练数据 问题,即存在大量的未标记数据的情况。r e a d 2 3 还发现在同一领域中因评论出版时间不 同而造成分类准确性有所差异。 4 西北大学硕士学位论文 解决领域依赖性的办法之一就是不依赖于数据的注解。t u m e y 2 4 1 利用人工选择的两 类种子词汇( p o o r 和e x c e l l e n t ) 并连接一个大规模的文本语料库进行情感分类。短语的语义 倾向根据种子词汇的关联度来计算,并根据点态式互信息量来衡量。所有短语的情感倾 向平均值作为整个文档的语义倾向。 最近,又出现了情感分类的细粒度化研究,有时,评论者或意见持有者的意见包括 对一个产品不同特征的信息【2 5 , 2 6 1 。同时,m c d o n a l de ta 1 ( 2 0 0 7 ) 注意到文本资料中整个情 感倾向的信息,并且从文本中抽取更为准确的具体信息。 然而,这些方法处理上下文极性是有一定的局限性:( 1 ) 足够必要的训练数据,且要 运用全面监督的学习办法。( 2 ) 用一些词汇层面的情感表达来观测文本情感。与此不同, 如果我们考虑语义级范围内的信息,则可以得到更准确的分类,具体来说,主题信息很 大程度上决定着语义倾向,同时,句子层面的情感表达更能够准确的描述文本的情感。 1 3 2 国内研究现状 中文方面的情感分类计算是对中文句子、文档等层面的情感倾向做一个定量化的度 量值,以情感倾向度的计算结果进行分类判别。目前,情感分类计算也是自然语言理解 方面的热点研究领域,出现了很多情感分类的应用研究,比如对网上新闻与博客的自动 情感分类【2 7 2 引,这些设计实现了一种基于浅层语义分析的文本倾向性识别方法;还有一 些基础理论的研究,比如情感语料库的研究【2 9 】,以及对文本情感标注的研究【3 0 】;还有对 主题抽取及其极性的研究【3 1 1 ,根据依存语法抽取主题及极性设计开发了一个汽车评论 的挖掘系统;除此之外,也有对主观性分类的研究,该方法根据定量描述了主观性度量, 以不同级别显示主观程度【3 2 】。 目前,主要有以下几个方面的不同层面的研究: ( 1 ) 词汇方面。对中文词汇语义倾向值的获取有基于知网的词汇语义倾向计算方法 【3 3 】,具体根据知网中提供的语义相似度和语义相关场的计算功能,对词语语义倾向进行 判别;也有基于同义词词林的词汇褒贬性计算【3 4 】,该方法利用同义词词群扩展了褒贬种 子集合进行分析判别。 ( 2 ) 句子方面。对句子的语义倾向的研究目前相关工作很少,具体有章剑锋等提出了 对中文评论的主观性关系的抽取【3 5 j ,利用最大熵模型抽取主观信息及评价词与评价对象 之间的关联,实验表明该方法有效的提高了评论分析的性能;熊德兰等人提出了基于知 网的语义距离和语法距离相结合的句子褒贬倾向性计算方法【3 6 1 ,并且利用夹角余弦法对 语义倾向进行改进,同时又对名人网页的褒贬倾向做了评价【3 7 】; 5 第一章绪论 ( 3 ) 文本方面。对于文本篇章的情感判别方法有基于知n w e b 的文档情感分类【3 8 1 ,该 方法从一个基于向量空间的中文文本分类系统的实现过程中,着重探讨了文本自动分类 系统的实现和关键技术;还有基于语义分析的倾向性文本过滤【3 9 1 ,该方法提出了一种语 义分析的过滤方法,通过语义关系确定语义角色和语义框架,并且能够对某领域内的文 本进行有效的过滤与识别。在语义理解的层面上 4 0 l ,主要是通过知网词汇倾向结合篇章 中特有的语义特征项进行判别,而本文的方法就是在该方法上提出的改进和创新。 关于中文方面的情感研究范畴越来越广泛,对于篇章的情感倾向分析是我们的最终 目标,对文本内容进行倾向性过滤及相应追踪信息的倾向机制研究,能够使得情感分类 有更好的应用。国内的研究现状正在趋向于语言学与自然语言处理相结合的方法,从人 的主观认知出发,以更加合理有效的处理模式用机器来进行情感学习与表达。 1 4 存在的问题 众所周知,影响中文的情感因素具有多样化和复杂化,汉语表达中往往蕴含着多方 面的语义倾向,除了表现的各种显式情感表达外,还包括语气语调等。在将英文的情感 研究理论运用到中文中时,要更加注重汉语中相关语言学的理论研究,从自然语言理解 的认知角度入手,进行机器学习训练的情感分类。 首先,在基于知网的词汇语义倾向方面,没有考虑到概念义原有描述错位的情况, 及出现概念歧义的问题。如果只是单纯考虑义原距离的话,很可能忽略掉某些义原间义 原距离相同,义原相似度却不同的现象。同时,如果能够根据词汇的语义倾向度确定了 某个概念义原,那么对其情感的倾向判别也会更加准确,也会减少判别的误差。 其次,否定因素对句子的情感分析有很大的帮助。简单的抽取特征否定词并不能满 足对否定含义句子的处理,而往往现实语料中有很多扩展后的否定词对句子的情感倾向 有一定的影响。不同的否定扩展使得情感倾向出现不同的转变。同时,否定比较句中也 需要有对具体评价对象的情感判别。 除此之外,句型类别也使得句子的情感判别更加有据可依。中文句型分为单句及复 旬两种类型,一般研究的句型为单句中的陈述句,而对于感叹句、疑问句、祈使句等情 感抒发更为强烈的句型却没有进行详细的分析研究。同时,复旬的情感计算也并不是分 旬的情感叠加,因为有很多复句的前后分句的情感表达并不相同,比如主句的否定共享 影响及关联词中的转折复句等情况。 最后,在对评价对象即主题的抽取研究时,一般研究方法是根据抽取的主题特征作 为特征集,并且在基于依存语法的主题上运用极性转移算法,但是在对极性转移时,并 6 西北大学硕士学位论文 未考虑修饰词极性的影响,且一般有副词搭配后的情感词汇才是主题对应的极性值。同 时,句子中不同的依存语法距离大小也对整个句子的情感倾向有所影响。 综上所述,词汇与句子的情感研究成为本文的主要研究内容。句子的情感计算支撑 着文本情感的分类计算,而文本情感倾向并不单纯是文档中旬子情感倾向值的求和,还 需要考虑文本结构以及不同位置出现的句子权重值等因素。 1 5 本文研究内容 本文中主要针对影响情感倾向的各因素来定义不同粒度的特征值,比如选取具有情 感倾向的词汇、否定词及扩展的否定词作为特征项。除此之外,还根据不同的句型特点 进行情感分析,然后利用相应句法结构及模式定量对句子语义倾向进行判别计算,输出 句子的极性值作为衡量句子情感倾向的度量值。最后,根据评论文本结构中已有定义的 句子对文本情感类别贡献率的权值量,对文本情感进行计算,最终经过判别得到文本分 类结果。 本文首先介绍了情感分类问题的背景知识及任务定义,然后分别对文本情感分类的 各层面研究内容进行阐述,并提出词汇语义倾向与句子极性的计算方法,并最终应用于 文本情感分类计算的判别中。 具体的章节部署:第一章绪论。在情感倾向的研究背景与现状的基础上,主要阐述 了本文的主要研究对象与研究内容,并对存在的问题与解决的思路予以说明;第二章改 进了基于知网的词汇语义倾向方法。具体根据最大匹配方法对第一义原匹配对的影响因 子进行修正,并考虑了概念间相同的义原个数的影响;第三章主要论述了影响句子情感 的各种因素,具体有否定影响、感叹句、复旬关联结构,并分别进行情感分析与定量。 第四章根据依存句法分析抽取意见和主题,并提出了中文句子情感判别的具体方法;第 五章主要介绍了文本分类的关键技术。该章是文本情感分类系统设计的理论依据;第六 章针对文本情感分类的计算判别,介绍了系统应用开发的模块设计,并进行不同的实验 分析对比;最后总结创新点,并且讨论存在的问题以及未来的发展方向。 7 第二章基于知网词汇的语义倾向研究 第二章基于知网词汇的语义倾向研究 2 1 词汇情感分类方法 情感倾向的研究对象是多层次、多粒度的,一般从词汇、短语、句子、段落到篇章 逐级进行语义倾向的分类判别。这是一个循序渐进的过程。而在词汇方面,国外的研究 技术方法都趋于成熟,比如手动或者半自动构造一些相关的情感词汇字典1 2 4 1 1 ,通过词 汇先关联的分类来构建;比如对具有语义倾向的词汇和短语进行分类;还有通常预先选 择种子集的词汇,利用语言启发式看它是否表示肯定或否定的不同强度。例如,l i n 4 2 1 使用用途或意义类似的语言共同组成一组词汇;当然大多数的研究发现形容词的特征使 得分类效果更好【1 2 矧。然而,更多的研究发现多数形容词和副词以及一小部分的名词和 动词也具有语义倾向【2 2 ,4 3 1 。 除此之外,关于词汇层面上的情感自动标注方法也是研究的热点之一。目前主要有 两种方法:( 1 ) 基于语料的方法,( 2 ) 基于词典的方法。第一种方法主要在大的文档中依靠 同义词或相关联类的词汇去决定它们的情感。例如,h a t z i v a s s i l o g l o u m c k c o w n , 1 9 9 7 ; t u r n o y & l i t t m a n ,2 0 0 2 ;y u h a t z i v a s s i l o g l o u ,2 0 0 3 1 0 , 2 4 , 4 4 。第二种方法使用w o r d n e t 信息,尤其是通过同义词集合和层次结构来获取情感标注的词汇。例如,h u & l i u ,2 0 0 4 a ; k i m & h o v y , 2 0 0 4 ( 2 5 4 5 1 。或者采用候选单词的褒贬性和具有情感倾向词汇的相似度来计 算,例如k a m p s ,m a r x ,m o k k e n ,& d e 刚i c e ,2 0 0 4 4 6 3 。 因此,本章首先介绍分析了一些情感倾向词汇的研究方法及不足,然后提出具体的 改进方法。 2 1 1 分析连词与形容词 该方法通过分析成对的形容词去尝试预测主观形容词的倾向,如连词:通过、或者、 但是、也不、都不等,这些词汇在大量未标记的文档集中被抽取。这根本的依据是关联 形容词在情感倾向方面受制于语言上的限制。例如,通常两个关联的形容词具有相同的 倾向,或者转折的关联形容词具有否定倾向。下面给出三个例旬,其中前两句认为是正确 的,第三旬认为是错误的,这来自于h a t z i v a s s i l o g l o ua n dm c k e o w n ( 19 9 7 ) 4 4 1 : “t h et a xp r o p o s a lw a ss i m p l ea n dw e l lr e c e i v e db yt h ep u b l i c “t h et a xp r o p o s a lw a ss i m p l i s t i cb u tw d lr e e 衙v e db yt h ep u b l i c “t h et a xp r o p o s a lw a ss i m p l i s t i ca n dw d lr e c e i v e db yt h ep u b l i c ” 8 西北大学硕士学位论文 从分析连词来推断形容词的倾向,监督学习的算法可以按照以下四个步骤来进行: 1 从文档集中抽取所有的连词和形容词。 2 训练一个线性回归分类器,并且对取不同或者相同倾向的形容词对进行分类,对 假设相同或不同的词汇对用图来说明。 3 利用步骤二用聚类算法将图分作两个聚类分区。图示可以发现积极的形容词要比 消极的形容词用得更加频繁,文档中那些具有更高平均频率范围的词汇被认为都包含了 积极的情感。 4 线性回归的模型提供了一个如何预测的估计值,因为它定义y 值在0 和1 之间, 其中1 表达的是具有相同的倾向,减去相异度的关联值y 。从图中可以获得相同或者不 同倾向的边界值。将图中的节点按照相同的倾向值进行分区,聚类算法计算出目标函数 u 的值是每个可能分区p 的值,其中每一个形容词可能分为两个子分组c 的分区p 。 2 ,1 、 ( p ) 2 善y 善y d ( 驯 2 j ) 其中f c 。f 是基数集群,d ( x ,y ) 是形容词x 和y 的相异度。 通常由于模型是非监督的,所以该方法需要一个很大的词汇语料库作支持。 2 1 2 分析词汇关系 这个方法的策略是根据单词和短语之间的语义关联推断语义倾向。因此假设两个词 有相同的语义倾向,那么它们之间肯定有强大的语义关联。所以它们利用在w o r d n e t 定义的词汇关系来计算形容词之间的距离。我们可以定义一个具有词集和w o r d n e t 交叉 集的形容词图示,例如,t l 词集( t u m e y l i t t m a n ,2 0 0 3 ) e 4 3 ,每当表明它们之间存在同 义词关系时,就加入两个形容词之间的联系。并利用图集的理论定义一个距离度量。具 体方法可以按照如下步骤来实现: 1 构建相同层次词汇的关系。这里最简单的方法就是在w o r d n e t 里集合所有的词 汇,并且相关的词汇被认为是同义词,比如它们来源于相同的同义词组。 2 在图中t l 和t 2 之间定义一个距离测度值为d ( t l ,t 2 ) ,其中最短路径连接t t 和t 2 的长 度值。如果t l 和t 2 之间没有联系,则d ( t l ,t 2 ) = + c o 。 3 通过从种子集褒贬意义中的相关距离来计算其语义倾向。比如: 似垆掣c 1 2 ( g o o d 船b a d 攀) ( 2 2 ) , 9 第二章基于知网词汇的语义倾向研究 4 根据以下规则得到结果:如果s o ( t ) o ,则该形容词属于肯定语义倾向,由绝对值 来决定,通常,分母d ( g o o d ,b a d ) 常量不变,因此语义倾向的强度s o ( t ) 的值被限制在【1 ,1 】 范围之间。 这种方法是基于w o r d n e t 中的词汇定义来进行计算的,而单纯利用词间距离来度量 语义倾向有一定的局限性,需要考虑w o r d n e t 中对词汇的不同定义描述,才能消除歧义。 2 1 3 注释分析 这种方法的特点是利用了在线术语表或者词典中的定义注释,它的基本假设是如果 一个词在语义上倾向于一个方向,那么它的注释往往也具有相同的倾向【4 7 , 4 8 1 。例如,“好刀 的注释都有积极的表达意思,同时,“坏和“可怕的注释表达贬损的意思。通常, 这种方法根据它注释的分类来定义语义倾向,具体的过程有以下步骤组成: 1 定义种子集( s p ,啪代表着肯定与否定两种类别,由输入数据提供。 2 搜寻新的条件扩充s p 和s n ,利用s p 和s n 词库中的用语词汇的关系比如同义词, 或者在线词典寻找新的条件,附加到s p 和s n 中。 3 在s :u 中每一个条件t i 或者测试集,l l p 按条件分类好的集合,在一个机器可读 的词典里搜寻所有t i 的注释并生成一种文字表述。每个这样的表示值就被转化为标准文 本索引技术的载体。 4 二迸制文本分类器是在s :u 条件下训练的,同样能运用在测试集的条件下。 而依赖于词典中的释义往往缺少实际语料中语境情况下的词汇语义倾向,因此需要 根据句子的句法结构对具体的评价词进行判别。 2 1 4 点态式互信息分析 这种方法的总体策略是根据语义关联推断语义倾向,基本的假设是当它有“好的 关联时具有肯定的语义倾向,例如“浪漫情调 ;当它有“不好”的关联时具有否定的 语义倾向,例如“恐怖事件【4 9 】。 对某一词的语义倾向是计算与一组肯定词汇的关联强度,减去与一组否定词汇的关 联强度值。更准确的来

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论