




已阅读5页,还剩77页未读, 继续免费阅读
(计算机应用技术专业论文)产品评论信息的意见抽取研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 产品评论信息的意见抽取是一类与文本的情感分类相关的研究,是当 前智能信息处理、网络信息挖掘中的研究热点。情感词的自动发现与意见 抽取是这类研究中的关键技术。 本文在前人工作的基础上对情感词的自动发现与意见抽取技术进行了 研究,主要结果与贡献如下: ( 1 ) 提出了基于双解词典的情感词自动发现方法s o - b l ( s e n t i m e n t o r i e n t a t i o nb a s e do nb i l i n g u a ll e x i c o n ) 。利用一个词典阵列与已知情感倾向 的英文词表来预测中文词的情感倾向。实验证明s o b l 方法的准确率达到 了9 3 2 9 。 ( 2 ) 提出了基于h o w n e t 的情感词自动发现方法s o - h n ( s e n t i m e n t o r i e n t a t i o nb a s e do nh o w n e t ) 。其核心是用单个类别的种子集合抽取算法 e s s ( e x t r a c ts e e dw o r d sf o rs i n g l ec l a s so f w o r d s ) 来扩展种子集合。e s s 可 通过一个种子词扩展出与该种子词情感倾向相关的种子集合,提高了情感 词识别的范围。 ( 3 ) 提出了基于共享模式的动词情感标注方法v s o - a s ( s e m a n t i c o r i e n t a t i o n o f v e r b b a s e d o n t h e m o d e lo f a p p e a r i n gs i m u l t a n e o u s l y ) ,考虑了 动词的特殊性,将其情感类标由原来的“正面,负面”调整到“对主语褒 对宾语褒对主语贬对宾语贬”。 ( 4 ) 提出了一种新的意见抽取任务即意见实例抽取o i e ( o p i n i o n i n s t a n c ee x t r a c t i o n ) 及其解决方法,即以特性实例为中心的意见抽取算法 f c o i e ( f e a t u r e - c e n t e r e do p i n i o ni n s t a n c ee x t r a c t i o n ) ;提出基于位置线索的 语义关系识别方法s a r p c ( s e m a n t i ca s s o c i a t i o nr e c o g n i t i o nw i t hp o s i t i o n c l u e ,) ,用于在f c i o e 中识别对象实例与特性实例之间的语义关联。 ( 5 ) 本文将情感词自动发现和意见抽取技术应用于实际,提出并实现 v 上海大学硕士学位论文 了产品评论信息的意见检索系统o s s c p ( o p i n i o ns e a r c hs y s t e mf o r c o m m c n t so f p r o d u c m ) 。其目的是从网络评论中抽取产品评论信息的意见实 例,帮助用户快速定位感兴趣的意见信息。 关键词:情感词自动发现情感分类意见抽取 上海丈学硕于学位论文 一一- _ _ _ _ - - _ - _ _ _ _ _ - _ _ _ - _ _ - _ _ _ _ - _ - i i _ - _ _ - - - - _ _ _ _ _ - _ _ - _ _ - - 一 a b s t r a c t t h er e s e a r c ho no p i n i o ne x t r a c t i o nf o rc o l n _ r t l e n t so f p r o d u c t si sak i n do ft h e c l a s s i h c a d o no f t h es e m a n t i co d e n m t i o mi ti sh o tp o i n ti nt h er e s e a r c ha r e ao f i n t e l l i g e n ti n f o r m a t i o np r o c e s s i n ga n di n f o r m a t i o nm i n i n g h o wt oi d e n t i f y s e m i m e n tw o r d sa u t o m a t i c a l l ya n de x t r a c to p i n i o n sa r ct h ek e yp o i n t so fo t f f r e s e a r c h t h i sp a p e rt r yt oa n s w e rt h ep r o b l e m so fa u t o m a t i ci d e n t i f i c a t i o no fs e n t i m e n t w o r da n do p i n i o ne x t r a c t i o nb a s e do no u rr e s e a r c :h t h em a i nr e s u l t sa n d c o n t r i b u t i o n sa r ea sf o l l o w s : ( 1 ) am e m o du s i n gb i l i n g u a ll c x i o o nt oj u d g et h es e m a n t i co r i e n t a t i o no f c h i n e s ew o r d s ( s o - b l ) i sp r o p o s e d i tu s e sas e r i e so fb i l i n g u a ll e x i c o n sa n d s e n t i m e n tw o r d si ne n g l i s ht op r e d i c tt h es e m a n t i co r i e n t a t i o no fc h i n e s ew o r d s o u r e x p e r i m e n tr e s u l ts h o w s t h em e t h o dr e a c h e dh i g ha c c u r a c y ( 9 3 2 9 1 ( 2 ) am e t h o du s e dt oi d e n t i f ys e n t i m e n tw o r db a s e do nh o w n e t ( s o - h n ) i s p r o p o s e d 1 飞em e t h o de m p l o y s 缸a l g o r i t h mc a l l e de s st oe x t r a c ts e e dw o r d s f o rs i n g l ec l a s so fw o r d s ms e e dw o r d ss e tc a nb ee n l a r g e da u t o m a t i c a l l yb v e s sw h e ni n p u tas e e dw o r d ( 3 ) s e m a n t i co r i e n t a t i o no fv e r bb a s e do nt h em o d e lo fa p p e a r i n g s i m u l t a n e o u s l y ( v s o - a s ) i sp r o p o s e d t h i sm e t h o dc h a n g e st h es e n t i m e n tc l a s s t a g so fv e r bf r o m p o s i t i v ea n dn e g a t i v e t o p o s i t i v ef o rs u b j e c t ,p o s i t i v ef o r o b j e c t , n e g a t i v ef o rs u b j e c ta n dn e g a t i v ef o ro b j e c t ( 4 ) an e wo p i n i o ne x t r a c t i o nt a s ka n di t ss o l u t i o na r cp r o p o s e d t h en e wt a s k i sn a m e do p i n i o ni n s t a n c ee x t r a c t i o n ( o z e ) t os o l v et h et a s k , t h ea l g o r i t h m f e a t u r e c e n t e r e do p i n i o ni n s t a n c ee x t r a c t i o n ( f c - o l z ) i sp r o p o s e d s a 妒c a p p r o a c hi su s e dt of i n dt h es e m a n t i cr e l a t i o nb e t w e e na no b j e c ti n s t a n c e ( s o a n df e a t u r ei 5 r n c e ( f 0 ( 5 ) as y s t e mn a m e do p i n i o ns e a r c hs y s 把mf o rc o m m e n t so fp r o d u c t s ( o s s c p ) f o ro p i n i o ni n s t a n c ee x t r a c t i o na n dr e t r i e v i n gi sp r o p o s e da n d i m p l e m e n t e d t h es y s t e me x t r a c t so p i n i o ni n s t a n c e sw i t hf c - o i ef r o mw e b r e v i e w s a n di tc a nh e l pt h eu s e r st ol o c a t et h eo p i n i o ni n f o r m a t i o nq u i c k l y k e y w o r d s : a u t o m a t i ci d e n t i f i c a t i o no fs e n t i m e n tw o r d ,s e n t i m e n t c l a s s i f i c a t i o n , o p i n i o ne x t r a c t i o n v i i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 签名:矗畔哺珥拙 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅:学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:师签 n 上海大学硕士学位论文 第一章绪论 i i 课题研究的背景和意义 随着网络时代的到来,网络已经成为我们生活不可或缺的一部分,据中国 互联网信息中心c n n i c ( c h i n ai n t e r n e tn e t w o r ki n f o r m a t i o nc e n t e r ) 第十 六次调查数据显示,目前中国网络用户已达1 0 3 0 0 万,而且用户量还在不断增 加。互联网的普及,极大地促进了经济的转型,也改交了人们的生活方式,公 众开始更多地借助各种网络服务( 比如:网上新闻、b b s 、网上论坛、讨论组等) 来发布、传播和获取评论信息。这些评论信息在不同的领域有着不同的作用, 而产品评论信息有可能会影响消费者的潜在消费行为。 人们在购买产品之前往往会通过各种渠道去了解产品的信息,据有关调查 显示其中有很大一部分的信息来源于网络。在购买了产品后,也会通过网络发 布自己对产品的使用情况、对产品性能地比较、对产品的喜爱程度等信息。一 些需要购买产品但还没有购买的用户也会在网络上发布他们对产品的一些看 法。另一方面,商家为了收集各种反馈信息往往也会在自己的门户网站上增加 论坛板块,再加上一些专业的商品论坛网站地参与,他们给用户提供了一个很 好地交流信息和评价产品的平台。然而这些评论信息被离散地分布在各个评论 文章中,用户无法快速定位自己想要的信息,往往为了了解一个产品信息需要去 浏览很多网站进行比较才能得到较全面的信息。因此如果能将这些评价信息进 行收集和分析,对于商家和企业的营销、生产决策具有重要的指导意义。对于 消费者而言,也可以借此更好的了解产品在公众心中的形象,在充分的了解产 品的各类信息后,结合自己的需求挑选最合适的产品。针对这些被大量无关信息 掩埋和离散分布在各个交流平台中的产品评论信息,需要通过语义分析的方法 去获取具有价值的评论信息。为此,全文选择了产品评论信息的意见抽取为研 究内容,并探讨其在有关领域的应用。 上海大学硕士学位论文 1 2 课题研究的目标 结合产品评论信息本身的特点,本文侧重研究情感词自动识别和意见抽取 问题,以期能够识别出带有人类情感色彩的词汇,并进一步识别出评论信息中 的意见实例;此外在以上两个关键技术的基础上。本文还构建了一个产品评论 信息的意见检索系统原型,帮助用户快速定位到产品的评论意见,并提供对产 品意见的统计。 1 3 论文主要研究内容和组织 本文内容组织结构如下: 第二章介绍了与课题相关的知识,介绍和分析了现有情感词分类方法,文 本的情感分类方法,意见抽取技术以及情感分析在w e b 挖掘中的应用模型。 第三章提出了情感词自动发现方法,包括基于双解词典的情感自动发现和 基于h o w n e t 的情感词自动发现,并提出了基于共现模式的动词情感标注。并 将这些方法应用于近似文本分析的情感分类方法中。 第四章提出了一种新的意见抽取任务一意见实例抽取,将位置因素引入到 意见抽取的考虑中。其出发点是加强表达意见的元组与源文本之间的联系。并 介绍了“对象实例特性实例”的语义关系识别,以及“对象实例特性实例” 对偶的情感分类。 第五章提出了产品评论信息的意见检索系统,并介绍了系统的框架和组成。 最后在第六章对全文进行了总结,对未来研究提出了一些设想。 2 上海大学硕士学位论文 第二章相关技术介绍 2 1 现有情感词自动发现技术 情感词自动发现,旨在标注那些带有情感倾向1 的词汇,如在文斛1 3 l 【1 铂就将 情感词称为主观词。情感词发现结果的好坏对文本的情感分析起到关键作用, 有了大量准确的情感词汇后文本的情感分析将更加准确。一个词的情感方向或 极性是从词的语义规范和词域规范中脱离出来的【l5 j 。由于情感词的可评估特性, 它有时会根据其在语言中的使用情况而发生一些变化。 目前对情感词自动发现的研究主要集中在找出哪些词是带有情感倾向的, 方法可以分为两大类:基于语料的情感词自动发现【1 6 】【i7 】和基于词典的情感词自 动发现【。 2 1 2 基于语料的情感词自动发现 该类方法结合语言学的一些特性或将少量语料进行人工标注后,通过机器学 习或其它算法对大量的语料进行学习,从而识别出正面或负面的情感词。最具 代表性的研究是h a t z i v a s s i l o g l o u 和m c k e o w n 1 6 】的研究与t u m e y 和 l i t t r n a n 1 7 】的研究。 1 连词假设 h a t z i v a s s i l o g l o u 和m c k e o w n 1 6 1 的研究是最先讨论如何去预测一个词的语 义方向的研究工作。他们试图从大量未被标注的语料中去分析被连词( a n d , o r , b u t ,e i t h e r o r , n e i t h e r n o r ) 所连接的形容词对的情况,从而预测形容词的情感方 向。他们最根本的先验知识是连词在语言学上的使用规范。如“和”( a n d ) 通 常连接两个相同情感倾向的形容词,而“但是”( b u t ) 却经常连接两个情感倾 i 一般会用一个指标来描述情感倾向。这一指标在不同文献中提法不一比如:文献【16 1 f 1 3 1 【5 3 1 等称为语 义方向( s e m a n l i c o r i e n t a t i o n ) ;文献【3 4 】等称为极性( p o l a r i t y ) 在本文中,同时使用语义方向与极性这两 个术语。 上簿大学硕士学位论文 向相反的形容词。因此,他们提出了连词假设,认为连接形容词的连词提供了 间接的情感倾向性信息。连词假设方法通过下面的步骤来识别情感词: ( 1 ) 根据相关的语义形态学的关系从大量语料中抽取出所有由连接词所连 接的形容词对; ( 2 ) 把抽取出来的形容词对分成一个训练集和测试集。训练集的数据用来 构建一个基于对数线性回归模型的分类器,该分类器用来判定相关联的两个形 容词是否具有相同情感方向或相反情感方向; ( 3 ) 用聚类算法将步骤( 2 ) 中得到的所有形容词分为两个子集,将具有相 同情感方向的形容词尽可能多的分在同个子集中; ( 4 ) 比较两个子集中的平均词频,根据语料中的经验,正面的情感词使用 频率比负面的词要高,因此将平均词频高的那个子集标示为情感倾向性为正面 的( p o s i t i v e ) 子集。 实验证明连词假设是行之有效的。实验的结果表明该方法的正确率为 7 8 。0 8 。然而这样的准确率对目前的研究来说还是不够理想的,并且该方法只 能识别形容词,对于其它词性的词汇并未做讨论。 2 基于p m i 的系列方法 p o i n t w i s em u t u a li n f o r m a t i o n ( p m i ) 指的是互相信的概念【1 9 1 ,c h u r c h 和 h a n k s 在1 9 8 9 给出了两个词的互信息定义: p m i ( w o r d l , w o r d 2 ) = l o g s ( 黑w o r 端d w o r d 2 ) ( 2 1 ) p l lj p ( j 公式( 2 1 ) 中p ( w o r d l w o r d 7 ) 是指w o r d l 和w o r d 2 同时出现的概率。如 果两个词在统计学上是相互独立的话,那么他们同时出现的概率为p ( w o r d l ) 和 p ( w o r d 2 ) 的乘积,即p ( w o r d l ) p ( w o r d 2 ) 。p ( w o r d l & w o r d 2 ) 和p ( w o r d i ) p ( w o r d 2 ) 的比率是统计两个词的依赖性的一种测量。对这个比率取对数是描述两个词的 相关性的一种表现形式,取对数后大于0 表示两个词趋向于同时出现,如果小 于0 表示一个词出现的时候另一个词出现的概率就会很小。因此一个词的语义 方向被定义为: s o ( p h r a s e ) = p m i ( p h r a s e , e x c e h e n t ”) 一p m i ( p h r a s e , p o o r ”) ( 2 2 ) 4 其中“e x c e l l e n t ”是一个具有正面语义方向的种子词,而“p o o r ”是一个具 有负面语义方向的种子词。 计算p m i 的方法一般有两种:p m i i r ( p o i n t w i s em u t u a li n f o r m a t i o n i n f o r m a t i o nr e t r i e v a l ) 1 2 0 和p m i l s a ( p o i n t w i s em u t u a li n f o r m a t i o n l a t e n t s e m a n t i ca n a l y s i s ) 1 2 0 l 。p m i - i r 通过查询搜索引擎即信息检索( i r ) ,记录匹 配的文档数来评测p m i 方法。在p m i i r 方法中需一对已知语义方向的种子词, 这样其它词才能用该方法去计算它与种子词中的哪一方具有更大的相似性,从 而把它归为哪一类。p m i l s a ,通过l s a ( l a t e n ts e m a n t i ca n a l y s i s ) 算法来完 成同义词的识别。l a s 是一种基于奇异值分解( s i n g u l a r v a l u e d e c o m p o s i t i o n , s v d ) 的统计学算法。文酬2 0 1 已经证明p m i i r 的效果要比p m i - l s a 好。之后 t u m e y 在文献【1 刀中应用p m i i r 时又提出了可以使用多对种子词的概念,即种 子词不再是简单的一对,而是一个对立的集合s p 和s n 。在s p 中包含许多归为 p o s i t i v e 的种子词,而在s n 中包含许多归为n e g a t i v e 的种子词,则一个新词的 情感倾向性计算方法就演变为: 兀h i t s ( w o r d n e a r t n v o r d ) + n h i t s ( n w o r d ) s d - p m i ( 删) _ 1 0 9 :呵莆面而丽赢恭葫 m r d e , g p ”岬,d e 翻 ( 2 3 ) 其中n e a r 是搜索引擎中使用的类操作,表示两个词之间接近的距离程 度,而h i s t ( s ) 表示与搜索串s 匹配的文档数。 分析基于p m i i r 的方法,文献【1 刀的实验结果显示它的性能会随着文档集 合的大小而发生变化,且结果受搜索引擎的限制,计算过程非常耗时,对于实 际应用来说是个巨大的瓶颈。 2 1 3 基于词典的情感词自动发现 利用词典的词汇关系去判断一个词的语义方向也是一类新的方法。k a m p s 等1 2 1 使用在w o r d n e t ( w n ) 2 中定义的词汇关系信息来判断一个词的语义方向。 k a m p s 等定义了一个图,在任何具有同义关系的形容词之闯添加一条连接边。 2 h t t p :w o r d a c t p r i n c e t o n c d u 上海大学硕士学位论文 基于这样一个图他们还定义了两个词t 1 和t 2 之间的距离公式d ( t l ,t 2 ) ,用来表 示连接两个词之间的最短路径距离。当t l 与t 2 在图中不能连接时取d 0 1 ,t 2 ) :十 一。这样一个词的语义方向就能通过该词与两个对立的种子词之间的相对距离 来作出判断。如取种子词对为“g o o d ”、“b a d ”,则判断一个词t 的语义方向的 公式如下: s o ( n :d ( t , b a d ) - d ( t , g o o d ) ( 2 4 ) 7 d ( g o o d ,b a d ) 当且仅当s o ( t ) 0 时,词t 才被认为是正面的( p o s i t i v e ) ,而它的绝对值用 来量化该语义方向的强度。然而使用这个方法时,只有那些在w o r d n e t 中与你 所选择的种子词能够关联到的形容词才能做评测。这是该方法的一个缺陷,它 依赖于特定的词典,并且与你选择的种子词有关,种子词的选择也成了影响该 方法好坏与覆盖面是否够广的一个重要因素。并且该方式所使用的词典是英文 词典,无法应用于中文的情感词识别。 2 2 文本的情感分类介绍 文本的情感分类( 也称情感分析) ,近年来受到了广泛关注【3 1 1 1 3 2 1 1 3 3 i b 4 。情 感分类的目的,是判断给定文本片断所体现的说话者的情感倾向。 对于情感的识别与分类,与通常意义上的文本分类任务完全不同。传统分 类专注于文本所涉及的对象,而情感分类则强调文本对于对象的情感如何。章 节2 2 1 将介绍以往的一些文本分类任务。 情感分类的任务是将文本片段根据情感倾向进行区分,但是并非所有文本 片段都一定是包含情感的。如果不加限制地讨论句子的情感识别问题,那就需 要正确对待那些不包含情感的客观表达,此时有两种可选择的方法: ( 1 ) 将情感分类实现为三分类( i e 面,中性负面) 3 1 3 5 ; ( 2 ) 对于给定的文本,先进行主观分类,再进行情感分类 6 1 1 3 4 1 。 在本文的研究中采取了前一种方法,将判断文本是否含有情感以及判断情 感的方向合并在一起。但也有很多文献采取了后一种方法,章节2 2 2 将对主观 性分类进行介绍。 6 上海大学硕士学位论文 从一般意义上说,情感分类是指判别句子或文档的情感;但从广义上说, 情感分类还包含对单个的词汇、短语的情感识别,即情感词的自动发现在章节 2 1 已做介绍。章节2 2 3 介绍了对于句子或文档的情感识别。 2 2 1 传统文本分类 最常见的文本分类任务,是将文档按照主题进行分类,称之为主题分类。比 如将文档分为数学、物理、生物等不同主题。这类研究是信息检索的传统研究课 题之一,其中最著名的方法为向量空间模型( v e c t o rs p a c em o d e l ) 。该方法以向 量来表示一个文档,向量中每个成员为特定词汇在文本中频率,通过计算向量距 离来度量文档之间的差异。 除此之外,有一类研究是关于如何根据来源、风格对文档进行分类的【3 6 1 。比 如将文档根据作者、出版社、作者的母语背景、通俗程度进行分类p 7 1 3 蚋。 以上这些分类任务,或多或少,都可以通过词频差异的线索进行识别。但判 别文本的主观情绪显然不是仅依靠分析词频就能完成的【3 l l 。 2 2 2 主观性分类问题 主观性分析是个与情感分析相关的研究领域。其任务是判断词汇、短语或 者文本是客观描述,还是包含意见的主观表达。 根据文献【3 9 】【蚰】的定义,主观性( s u b j e c t i v i t y ) 是指语言中表达意见与评价的 部分。比如,句子“a ts e v e r a l d i f f e r e n t l a y e r s ,i t s a f a s c i n a t i n g t a l e ”是主观性的; 而句子“b e l l i n d u s l r i e s i n c i n c r e a s e d i t s q u a r t e r l y t 0 1 0 c e n t s f r o m 7c e n t s as h a r e ” 则是客观性的。 根据文献1 ,主观性表达可分两类: ( 1 ) 评价( e v a l u a t i o n ) :包括希望或仇恨等感情,以及评论、判断与意见: ( 2 ) 推测( s p e c u l a t i o n ) :非实际发生的事件或非实际持有的心理状态。 显然,倾向性语言表达完全被主观表达所覆盖。 许多文献涉及了语言主观性问题的研究。比如,w i e b e 提出以机器学习手段 从语料中获取主观性形容词【4 2 】。通过分布相似性( 例如,a 与b 常同时出现,a 上海太学硕士学位论文 与b 常同时出现,则a 与a 在分布上相似) 找到相似的形容词;同时,用文献【l 6 】 的方法识别种子词极性与程度( g r a d a b i l i t y ) :然后找到与种子相似的形容词,并判 断其极性与程度。h a t z i v a s s i l o g l o u 与w i e b e 提出了从语料中学习得到形容词的 语义方向,然后将之运用于句子的主观性识另i j t 4 孙。w i c b e 随后又在【4 l 】中讨论了 如何在训练语料中发现主观性搭配,并将之应用于文档级意见分类的问题。 语言的主观性分析可以用于许多领域,比如:情绪识别】嘲,邮件分类 4 0 - i , 识别说话者角色 4 7 1 ,评论挖掘【4 町,根据意识形态对文本聚类 4 9 1 等。 2 2 3 句子、文档级的情感分类 根据文献 6 1 的介绍,对于文档的情感分类研究可以追溯到文献5 0 1 与剐。它们 采用基于认知语言学的模型对整个文档的整体情感进行判断。 h u e t t n c r 与s u b a s i c 依靠手工构造的区分词字典,运用模糊逻辑来对文档进行 情感分类5 2 1 。d a s 与c h e n 同样也使用了手工构造的情感词字典嘲。他们所进行的 工作是研究人们在评论股票的文档中反应的情感与股价走势的关系。对于给定的 一篇文档,他们首先识别出其中的倾向性词汇,随后将文档中所有情感词的极性 累加( 正面词汇为1 ,负面为1 ,中立为0 ) 得到整个文档的极性,然后据此对文档 进行情感分类( 乐观悲观中立) 。 t o n g 提出了一种产生情感时间线( s e n t i m e n tt i m e l i n e ) 的系统田。该系统跟 踪关于电影的在线讨论,并显示被称为“情感时间线”的曲线图,该图反映了随 时间变化的带有正面意见的留言与带有负面意见留言的数量对比。在t o n g 雕3 实现 中情感分类所依赖的短语均为手工选择。这就意味着,需要为每个领域设计专门 的字典,除非能用自动方法寻找领域关键词以及判断词汇的语义方向 。 t u r n e y 提出了基于p m i i r 的无监督情感分类方法1 5 3 1 。首先是从语料中获得 情感词,其步骤为:使用p o s 标注器识别并抽取包含形容词或副词的短语;运 用p m i i r 方法计算给定短语的极性。然后是根据情感词来对文档进行情感分类。 具体地说,就是根据从文档抽取出的短语的平均极性,通过机器学习对文档进行 分类。 y u 等人提出为自动问答系统抽取出意见性句子的方法【3 ”。首先用b a y e s 分 8 上海大学硕士学位论文 类器判断文本是否含有意见;然后运用无监督统计方法( y u 等人尝试了相似性 法、n a i v eb a y e s 、多重b a y e s 等3 种方法) 从文本中识别出主观性句子;对于识 别出的主观性句子,进行情感分类并判别极性。y i 等人也提出了句子级情感分 类的方l 法【2 5 1 。不过,由于他们使用的是模式匹配的方法,所以其识别能力受到了 限制。 h u 与l i u 提出了基于产品特性的情感摘要旧。在这一工作,他们也实现了句 子级情感分类的方法:首先是通过w o r d n e t 的同义词与反义词关系,得到情感词 及其语义方向;然后根据给定句子中语义方向占优势的情感词类,判断句子极性, 从而实现对句子的情感分类。不过,他们在文献中指出该方法对于长句子效果不 甚理想。 2 3 意见抽取介绍 意见抽取的目的,是将文本中表达意见的文字内容提取出来并转化为结构化 的表达。以意见抽取结果为数据基础,后续的数据挖掘手段可以对意见进行更深 层次的分析,从而得到更有价值的知识。 已经有部分研究人员对这一问题进行了研究,比如: r i l o 自c 在文献【5 4 】中对自动获取抽取意见的模式进行了研究。他提出使用高精 度主观性分类的方法,来寻找主观表达的模式。 文献【5 5 1 提出使用共现模式来抽取意见表达,并将之表达为元组 。但这种方法并未对意见的极性进行判别。 文献【2 9 】将用于机器翻译的深层解析p e e pp a r s i n g ) 技术应用到文本解析中, 生成“语义单元” 这一方法对于以动词为中心的情 感表达抽取效果较好,但是更多的情感表达是通过形容词、名词等来反映的。 k o b a y a s h i 等人在文献【5 6 1 【5 7 】中将指代消解用于意见抽取,将文本中意见抽取 为( 特性,值 的形式。他们识别文中的产品特性与属性值,然后为每个属性值 找到最合适的产品属性,构成“属性一值”配对,最后判断“属性一值”对的意 见性。在识别情感方面采取了模式匹配而非句法解析的技术路线。 9 上海大学硕士学位论文 2 4 情感分析在w e b 挖掘中的应用 传统的文本分类技术不能解决带有情感倾向性文本的分类问题。情感分析 主要包括两个个步骡:首先,识别哪些文本是带有情感的信息。其次,是判别 带有情感的信息的极性( 正面的、负面的和中性的) 。情感分析的应用前景非常 之广,如可用于分析文章的立场、态度,也可分析评论信息的情感倾向。有许 多学者对情感分析的应用已做了探索性的研究,在这里做一简要介绍。 t o n g 提出了一种产生情感时间线( s e n t i m e n tt i m e l i n e ) 的系统1 2 】。该系统 跟踪关于电影的在线讨论,并显示被称为“情感时间线”的曲线图,该图反映了 带有正面意见留言与带有负面意见留言在数量上的对比随时间推移所发生的变 化。t o n g 系统的核心是通过寻找表达情感的短语来实现对每条留言的情感分类。 情感时间线有许多潜在的其它应用,比如:广告主可以跟踪广告活动的效果,政 治家可以跟踪民意,记者可以跟踪大众对于当前新闻事件的反应,股票交易商可 以跟踪金融界的动向。 在文献【7 j 中,m o r i n a g a 等人开发了一种对目标产品进行声誉分析的系统 r e p u t a t i o ns e a r c he n g i n e ( r s e ) 。该系统根据用户给定的产品名称,从互联网 上搜索相关意见,并标示出每个意见的极性及可能性。在可视化方面,该系统对 同一类别产品的用户评论进行比较,并用图形方式显示用户对于不同产品的偏 好。但该系统并未将意见细化到产品的各个特性。 d a v e 等人l lj 提出了r e v i e w s e e r 系统,用于搜索关于具体产品的意见句子,并 对这些句子按照语义方向的取值排序。与r s e 系统类似,r e v i e w s e e r 对于意见分 析的粒度仍在产品一级,而未细化到产品特性。 l i u 与h u 2 2 】提出了o p i n i o no b s e r v e r 系统,通过情感摘要,得到各产品在 各个特性上的用户综合评价,并以柱状图的形式进行反映。 1 0 上海大学硕士学位论文 第三章情感词的自动发现 情感词的自动发现主要包含两方面的工作。第一,需要判断一个词是否是 情感词;第二,如果这个词是个情感词,那么它是正面的还是负面的。因此实 际上情感词的自动发现就是一个情感词的三分类问题,中性,正面,负面。本 章提出了基于词典的情感词的自动发现方法以及在文本情感分类中的应用。 3 1 基于双解词典的情感词自动发现 3 1 1 问题的提出 情感词的自动发现,对文本的情感分类研究具有很重要的意义。不同学者 研究文本的情感分类问题时侧重点有所不同。如文献【l o i 侧重于文档级别,文献 嘲侧重于句子级别。k e n n e d y 等在文献嘲中分析了两种文本情感分类的方法。 第一种方法,统计评论中正面词组与负面词组出现的次数,当正面词组出现的 次数高于负面词组时则认为该评论是正面的,反之为负面的评论。第二种方法, 也是去统计正面词组和负面词组,只是统计时考虑了上下文的转换关系如否定 关系、加强关系等。但可以肯定的是情感词是文本情感分类的基本元素。 然而不管是从语言学的角度还是用统计学的方法,在中文文本中分析情感 词都要比分析英文困难。中文的表示方式非常复杂,所用的词汇变化也非常之 多。光从分词的角度来说,中文就比英文要复杂得多。中文词与词、字与字之 间没有分隔符,而英文却在每个单词之间有一个空格符作为分隔符,因此在中 文领域做深层语义研究是非常困难的。目前许多学者对英文词的情感分类做出 了杰出的贡献。鉴于直接用语言学或统计学的方法来做中文词的情感分类比较 复杂,本文利用在英文领域已经具备的成果和资源来分析中文的情感分类问题。 提出了一种新的基于词典的情感词自动发现方法。本文所使用的词典,不在是 传统的同义词林、w o r d n e t 等具有一定语义归类的词典,而是最普通和常用的 上海大学硕士学位论文 双解词典,该类词典具有信息全面的特点,并且适用于多语言之间的转换。 通过双解词典( 英汉) ,一个中文词能够被翻译成个或多个英文单词或词 组。在大多数情况下,这些英文单词是和该中文词相关联的。用中文词“优秀” 来举个例子。通过双解词典翻译后,它与英文单词o m s t a n d i n g ,g r e a t , s u p e r i o r , e x c e p t i o n a l ,e x c e l l e n c e ,s u p e r i o r i t y , d i s t i n c t i o n , f i n e ,i l l u s t r i o u s n e s s ,s u p e r e x c e l l e n c e 相关联。很显然这些英文单词都是与情感相关的,实际上其中的9 个明显是属 于正面( p o s i t i v e ) 的词,而其中的一个( e x c e p t i o n a l ) 在某些情感下是属于负面 ( n e g a t i v e ) 的。因此,中文词“优秀”应该可以被标示为一个正面( p o s “i v e ) 的词。 基于这些我们提出了一种新的方法去判断一个中文词的情感方向,基于双解词 典的情感词自动发现方法s o b l ( s e n t i m e n to r i e n t a t i o nb a s e do nb i l i n g u a l l e x i c o n ) 。 3 1 2s o b l 的整体框架 通过观察英文情感词在某个中文词的英文释义中出现的情况来预测该中文 词的情感方向。整个过程如图3 1 所示,分为以下几个步骤: ( 1 ) 将一个中文翻译成中英文释义; ( 2 ) 通过解析该中文词的中英文释义,得到与该中文词相关的英文词序列; ( 3 ) 根据该英文词序列计算该中文词的情感向量; ( 4 ) 用分类器去预测该中文词的情感方向 s o b l 方法的输入是一个中文词,输出是该中文词情感标记p o s i t i v e ( i e 面 的) 、n e g a t i v e ( 负面的) 、n e u t r a l ( q 6 性的) 。 上海大学硕士学位论文 图3 1s o - b l 的框架图 如图3 1 所示,首先获取一个中文词的中英文释义;然后用一个解析器去分 析中英文释义的内容,从而抽取其中的英文单词。最后用一个扫描器去分析英 文情感词在给定的中文词的英文释义中的出现情况,从而来判断该中文词与英 文情感词的关系。 通过双解词典可以得到一个中文词的中英文解释。然而,双解词典有它本 身的缺陷,即翻译的结果并不是十分准确。为了尽量避免语义的不完整性,在 s o b l 方法中将采用尽可能多的双解词典来参与整个的翻译过程。这样可以通 过同一个中文词在不同双解词典中的释义,来决定各个释义的权重。如某个汉 语“好”,在所有的词典中都有“g o o d ”这个释义,则说明g o o d 的这个释义的 权重应当加强。表3 1 给出了在s o - b l 中使用的1 0 本双解词典的描述。 上海大学硕士学位论文 表3 1 双解词典信息列表 编号双解词典名词汇量 1 2 1 世纪双解科技词典 8 0 9 4 8 6 2 新世纪英汉科技大词典 6 2 6 9 5 3 3 新世纪汉英科技大词典 6 2 1 2 4 1 4 朗道英汉词典 4 3 5 4 6 8 5 朗道汉英词典 4 0 5 7 1 9 6 2 1 世纪双解词典 2 1 3 7 2 3 7 x d i c t 英汉辞典 1 7 7 8 4 2 8 x d i c t 汉英辞典 1 6 0 9 9 7 9 c d i c t 5 英汉辞典 5 7 5 1 0 1 0 牛津英汉词典 3 9 4 2 9 3 1 3s o b l 的组成部分 s o b l 包含翻译单元、解析器、扫描器、分类器四个主要组成部分。 1 翻译单元 翻译单元负责将一个中文词翻译成中英文解释。首先通过不同的双解词典 将一个中文词翻译成中英文解释,其次将所有的解释合并。在这步工作中,我 们使用了一个电子词典系统星际译王来辅助完成翻译工作。星际译! e ( s t a r d i c t ) 是一套免费的桌面字典软件。它并不包含字典档,使用者须自行下载配合使用。 它可以运行于多种不同的平台,如l i n u x ,m i c r o s o f t w i n d o w s ,f r e e b s d 及 s o l a r i s ,并使用g p l 授权。它是由m o t i f 开发的,包含了星际译王源程序,中 文字体、音标字体,词库、音标库,使用帮助、开发计划等文件。它透过字典 的配合,可以翻查近五万单词,并带有常用词的音标,具有“通配符匹配”、 “选中区取词”、“模糊查询”等强大功能,而且自带中文字体,独立于系统 之外。目前支持的语言,除了简体、繁体中文与英文互译,还支持日文、俄文 等。所以它不仅仅是汉英和英汉词典;目前星际译王的词库非常多,它是一个 可动态扩展的双解词库;但国人大多还是用英汉和汉英比较多,并且提供了可 1 4 上海大学硕士学位论文 支持编程的命令行版本( c o n s o l e v e r s i o n o f s t a r d i e t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新疆维吾尔自治区和田地区皮山县2024-2025学年七年级下学期7月期末历史试题(含答案)
- 宗教管理创新研究-洞察及研究
- 技术赋能体验升级-洞察及研究
- 气候数据同化方法-第1篇-洞察及研究
- 基于增材制造的分离杆总成复杂曲面成型技术瓶颈
- 国际贸易壁垒倒逼下染料红FB产业链的供应链韧性提升与区域协同策略
- 国际标准体系与苦丁茶出口认证的博弈困境
- 可降解助剂添加对电子元件绝缘性能的潜在干扰机制
- 变频算法优化与用户行为数据隐私保护的边界争议
- 双电源冗余控制系统在极端温度波动下的容错阈值
- 北京京剧院劳动合同制职工招考聘用(必考题)模拟卷
- 教学课件:《新能源材料技术》朱继平
- 专业技术职称与职业(工种)技能人才评价对应表(试行)
- DB37∕T 4328-2021 建筑消防设施维护保养技术规程
- 银行信贷实务与管理课件
- 实习任务书(标准模版)
- 钢结构加工制造方案(60页)
- 大连石化“3.14”亡人事故
- NFPA12-二氧化碳灭火系统标准(2005版)
- 学生体质健康调查表
- 井下变电所高压开关整定计算
评论
0/150
提交评论