(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf_第1页
(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf_第2页
(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf_第3页
(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf_第4页
(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)基于hownet的中文语义倾向性分析技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分类号 u dc 作者 指导 申请学 学科专 论文提 学位授 评阅 2 0 0 8 年0 6 月 芝 参 n o r t h e a s t e r nu n i v e r s i 锣 j u n e2 0 0 8 7 节 、 , 龟 上 r r , 寸 k 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中 取得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表 或撰写过的研究成果,也不包括本人为获得其他学位而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确 的说明并表示谢意。 学位论文作者签名:闰f 毛五 日期: 工呶艿6 工q 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学 位论文的规定:即学校有权保留并向国家有关部门或机构送交论文的 复印件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学 位论文的全部或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年一年口一年半口两年口 学位论文作者签名:闰德反 签字日期: 及嘣6 土。 导师签名:丈织 签字日期:d 箩么川 , 东北大学硕士学位论文摘要 基于h o w n e t 的中文语义倾向性分析技术研究 摘要 让计算机理解人类的情感是人工智能的最高境界,对文本进行正面、负面的语义倾 向性分析是基础,也是目前富有挑战性的工作。在w e b 2 0 时代,海量的网络评论蕴涵 着很多有价值的信息,为及时、自动、智能、准确地发现这些信息,迫切需要应用语义 倾向性分析技术来解决这一问题。 语义倾向性分析目前最大的价值在于从某一个主题的评论中分析得出总结性的结 果,这首先涉及到从互联网上获取大量的评论数据,可行的策略是使用并行技术。并行 网页获取技术已经得到深入研究,但是研究集中在为通用搜索引擎的网页搜集部分服 务,目标一般是全球的网页。针对一个主题的评论通常集中在一些站点,网页也呈现高 度结构化。因此针对这样的应用,本文设计了动态任务分配模型来并行下载网络评论。 基于关系数据库和豆瓣网的实现证明了该模型的蜘蛛设计简单、对运行蜘蛛的机器要求 低、可伸缩性好。该模型同样可以用于垂直搜索引擎的网页搜集部分。 语义倾向性分析离不开情感知识库,而中文研究中目前尚无一个完善的情感词典。 h o w n e t 虽然提供了相当数量的情感词,但在本文的语义倾向性分析中尚不能直接应用。 因此本文研究了基于h o w n e t 的情感词典的构建。 在篇章的语义倾向性分析方面,本文认为语言学的知识、规则可以用来提高统计学 习算法的效果,因而基于情感词典,提出了属性加权的统计学习算法来进行篇章的情感 分析,增强情感词在文本倾向性分类中的贡献,具体实现了属性加权的朴素贝叶斯和属 性加权的评分算法。针对中文网络评论的语义倾向性分析实验结果表明:属性加权的统 计学习算法改进了倾向性分类的效果。 , 关键词:倾向性分析;情感分析;并行蜘蛛;加权朴素贝叶斯:情感词典;知网 一i i s r 东北大学硕士学位论文 a b s l r a c t s t u d yo nc h i n e s es e m a n t i co r i e n t a t i o na n a l y s i s b a s e do nh o w n e t a b s t r a c t t h e1 1 i g h e s tl e v e lo f 枷f i c i a ln e l l i g e n c ei st 0m a k ec o n l p u t e ru n d e r s t a l l dh u m a n f e e l i n g s p r e d i c t i n g 也es e m a i :瞄co r i e m a t i o no fd o c u m e n t si saf b n d a m e m mb mt e c h l l i c a l l y c m l e n 勘gt a s k 删c hh a sg r e a t 砌u c e s p e c i a l l y o n 也ew e b 2 o ,m eg r e a tv o l 眦eo f r e 、,i e w so nw e bc o n 诅i 璐1 0 t so fp o t e n t i a li r 曲m l 撕o n t of i n d 也e 幽肌a t i o na u t o m a t i c a l l y a 1 1 d i 1 1 t e l l i g e m l y i nt i i n e ,“s r e q i i i r e du 玛e n t l yt oa p p l ys e m a n t i co r i e n t a t i o na n a l y s i s t e c h n o l o g yf o rs o l v i l l g 也ep r o b l e m : t h eb i g g e s tv a l u ef o rs e m 锄i co r i e n t m i o na n a l y s i si sg e n e r a t i r 培s u m m a r i e s 丘o mm a l l y r e v i e 、sw h i c hc o m m e mo n 也es 锄et o p i c ,s ot h i sr e f e r st oh o wt od o w m o a dl a 玛em m l b e r s o fr e v i e w ss p r e a d i 工1 9o nt h ew 曲p a r a l l e lc r a w l e r sa r e 吐1 ea v a i l a b l es 廿a t e g yt 0a d o p tw h i c h h a sb e e nd e e p l ys t l l d i e d ,a 1 1 dr e s e a r c h c 幅f o c u so ns e r v i i l gp a g e sg a t h e r i n gp a i to fg e n e r 2 l l s e a r c he n 百n e t k i rt a 玛e ta i l n sa tt h ew e bs i t e si nt h ew h o l e 、o r l d t h er e v i e w so no n et o p i c l o c a t ec o l l e c t i v e l yo ns e v e r a ls i t e sa n d 吐1 ec o m e n to fm er e v i e w si s1 1 i g h 】y 蛐n 】c t l l r e d ,s oi i l m i sm e s i s ,ad y n a r n j ct a l s ka s s i 舀u 1 1 e mp a r a l l e lm o d e l i sd e s i g n e dt og a t h e rw e br e v i e w sa n d 也em o d e l i s 血1 p l e m e m e d 埘t 1 1r e l a t i o n a ld a t a b a s eo nw w w d o u b a n c o mw e bs “e t h er e s 试t o ft h ee x p e r i 】:i l e ms h o w s 铲e a ta d v a m a g eo f 也em o d e l ,g o o ds c a l a b i l i 劬e a s i e rc r a w l e rd e s i 印 a i l d1 0 wr e q u i r e m e mo nc o n l p u t e rw h i c hr u 璐c r a 、l e r s t h em o d e lc a na l s os e r v ea sw e bp a g e g a _ t h e r i n gp 砒o fv 鳅i c a ls e a r c he n g i r l e s e n t i m e mr e p o s i t o r yi st h eb a s i s0 fs e m a n t i co r i e n t a t i o na n a l y s i s ,b u tm e r ei se v e ni l o s e m i m e n td i c t i o l l 2 u r ) ri i lc l 曲e s e n 1 0 u g hh o w n e tc o n t a i n sl o t so fs e m i l n e n tw o r d s ,i t sh a r d t 0b ea p p l i e dt os e m i m e ma 1 1 a l y s i sd i r e c u y s os e m i i l l e n td i c t i o r 坷叮c o n s 觚c t i o ni ss t u d i e d b a s e do nh o w n e ti nt m s 廿1 e s i s o nt :h e a s p e c to fd o c u m e n tl e v e lo r i e m a t i o n 锄a l y s i s ,n l eb 1 0 、v l e d g e a n dr u l eo f l i l l g u i s t i c si sc o l l s i d e r e du s e 觚f o r 跏i s t i c a ll e 如血l ga l g o r i t h mb y 也i st 1 1 e s i s ,s oa na c c 曲u t e w e i g h t e ds t a t i s t i c a ll e a m i n gm e t h o di sp r 叩o s e do ns e m a l l t i co r i e m a t i o n 砌y s i s ,w h i c h a u g m e n t st h es e m i m e n tw o r d sc o 嘶b u n o ni 1 1d o c u r ! n e n to r i e n t a t i o nc l a s s i 丘c a t i o n w e i g h t e d n a j f v e b a y e sa n d 、e i g h t e ds c o r ea l g o r i 也ma r ei i n p l e m e m e da 1 1 d t h ee x p e r i i i l e m a lr e s u h s h o w st 1 1 a ta :c c r i b u t ew e i 如d 鲰撕s t i c a ll e a m i l l gm e 也o dc a ni 1 p r o v et 1 1 ea c c u r 2 u c yo f i i i 一一 , t - 东北大学硕士学位论文 目录 目录 独创性声明i 摘要 a b s t r a c t 。i i i 第一章绪论。:1 1 1 语义的事实性与倾向性1 1 2 语义倾向性分析及应用:1 1 3 中文语义倾向性分析研究存在的问题2 1 4 本文研究的问题及课题背景3 1 5 本文的组织结构4 第二章相关理论与技术5 2 1 相关工作5 2 1 1 词汇倾向性分析的相关研究。5 2 1 2 句子倾向性分析的相关研究6 2 1 3 篇章倾向性分析的相关研究。7 2 2 自然语言处理技术8 2 2 1 词法分析技术。9 2 2 2 句法分析技术1 1 2 2 3 语义分析技术1 1 2 3 文本挖掘技术l3 2 3 1 文本挖掘过程_ 1 3 2 :3 2 特征选择1 3 2 3 3 自动文本分类15 2 4 本体技术1 7 2 5 本章小结18 第三章动态任务分配的并行评论获取1 9 3 1 问题提出1 9 3 2 网络评论特点分析:2 0 3 3 网络评论内容抽取2 0 3 4 评论并行获取研究2 2 一v 一 东北大学硕士学位论文 目录 3 4 1 网络蜘蛛的工作原理2 2 3 4 2 并行网络蜘蛛框架2 3 3 4 3 基于动态任务分配的并行模型2 5 3 5 基于动态任务分配并行评论爬取系统在豆瓣网上的实现2 6 3 5 1 基于o r a c l e 和豆瓣网的实现2 6 3 5 2 动态任务分配模型总结2 8 , 3 6 本章小节2 9 第四章基于属性加权的倾向性分类算法3 1 t 4 1 问题提出31 4 1 1 语义分析中的理性主义和经验主义31 4 1 2 统计方法和规则方法的融合3 2 4 2 基于h o w n e t 的情感词典构建3 2 4 2 1 关于h o w n e t 3 2 4 2 2 基于h o w n e t 的词汇相似度计算3 4 4 2 3 情感词典的构建3 5 4 3 统计学习分类算法3 6 4 3 1 朴素贝叶斯分类器3 6 4 3 2 评分算法3 8 4 3 3 统计学习分类算法分析4 0 4 4 基于属性加权的统计学习分类算法4 0 4 5 本章小结。j 4 2 第五章实验结果及分析4 3 5 1 数据来源4 3 5 2 实验的设计与实现4 4 5 2 1 系统流程图及模块介绍4 4 5 2 2 关键算法4 6 5 3 实验结果及分析4 7 5 3 1 基于属性加权的朴素贝叶斯分类器4 7 5 3 2 基于特征加权的评分算法4 9 5 4 本章小结:51 第六章总结。5 3 6 1 本文工作总结5 3 6 2 进一步的研究工作5 4 参考文献。5 5 一v i 一v i i l f 东北大学硕士学位论文第一章绪论 第一章绪论帚一早珀t 匕 1 1 语义的事实性与倾向性 语义的事实性和倾向性相关研究开始于新闻界。新闻报道最重要的一个原则是客观 性,要求报道忠实于事实,不带有个人的主观倾向性。然而新闻界一直也没能摆脱报道 倾向性的困扰,最终人们相信新闻报道是不可能达到绝对客观的。实时上,在我们观察 事物时,我们的感觉和知觉就有主体上的差异,不可能完全忠于事实;当我们用语言描 述观察到的事实时,传统、文化和个人价值观又会不自觉的产生作用而使描述无法绝对 客观。从而任何非自然科学的文章都是事实性和倾向性的结合体,只不过有的文章“完 全立足于事实,只引用事实和直接以事实为根据的判断 j ,客观性强一些;有的文章 更多的是作者观点的表达,包含了显著的个人情感,倾向性明显。 日常实践中,本文认为语义事实性是通过文章中没有明显情感的陈述来表达的,表 现为对事件的描述,作者没有加入自己对事件的理解和主观判断,以传递事实信息为主。 明显表达作者观点的论述则认为具有语义倾向性,倾向性反映了作者的立场或感受,实 际上是个人情感的表达。断言和评论是最主要的主观性文本,都有显著的倾向性。 文章的语义倾向性分类与人的情感分类是息息相关的,目前还没有普遍接受的分类 方法,e k m a i l 窿】把它分为:高兴、悲伤、愤怒、恐惧、厌恶和惊奇。概括上可以分为以 赞美、肯定为主的正面和以批评、反对为主的负面两大类。也有人将其概括为三类,即 把中性也包含在内,认为中性即是没有情感表达。语义倾向性往往是通过情感词汇表达 出来的,比如喜欢、漂亮、吸引人等表达了正面的倾向,而讨厌、丑陋、恶心等传递了 作者负面的情感。例如: ( 1 ) “我很喜欢这部电影,情节很曲折 。 ( 2 ) “看这本书完全是浪费时间,我感觉被骗了”。 第一句话通过情感词“喜欢”表达了一种正面的倾向,有向其他人推荐的功能;第 二句话则通过“浪费”、“骗表达了负面的倾向。 1 2 语义倾向性分析及应用 语义倾向性是作者立场或感受的表达,可以称为观点。按照鼬m 和h o v y 对观点 的定义【3 】,观点由四个元素组成,即主题( t o p i c ) 、持有者( h o l d e r ) 、陈述( c l a i m ) 和情感 ( s e m i m e m ) ,通常是观点持有者针对某个主题发表了具有情感的陈述,表达了某种倾向 性。所谓文本倾向性分析就是对观点持有者的观点( 或称态度、情感) 进行分析,理解 一1 一 , , 、 东北大学硕士学位论文第一章绪论 持有者表达的倾向性,是正面还是负面的;情感程度如何,强烈的还是温和的。语义倾 向性分析属于计算语言学的范畴,研究人员也称倾向性分析为情感分析,文本的语义倾 向性也称作文本的极性。 在很多文章中,作者把一个主题又分成了若干子主题或子特性,针对每个子主题进 行了具有情感的陈述,对不同的子主题表达了或正面或负面的倾向性。在进行倾向性分 析的时候需要首先抽取子主题,分析每个子主题的倾向性和强度,最后总结出作者总的 倾向性。 进行文本的倾向性分析是很有价值的活动,有着很广泛的应用前景。对单个文本进 行倾向性分析是有价值的,比如分析管理机构关于一个产业的政策性文件,可以了解该 机构是扶持还是压制,以及其引导的发展方向;倾向性分析的价值更多的还在于综合多 个评论的倾向性,反映总体的态度、观点。比如: ( 1 ) 管理机构希望通过收集民众关于某一个主题的评论,分析民众的观点,以进行 更好的决策; ( 2 ) 商业机构可以通过收集、分析大量顾客针对其提供的商品和服务的评论,分析 顾客需求,提供更好的产品和服务; ( 3 ) 消费者则希望了解其他人对商品的评价,帮助其做出购买或不购买的决定; ( 4 ) 广告代理商也希望能分析关于其代理商品的网络评论,如果该评论有正面的倾 向性,则在这个页面放置广告,能促进商品销售;如果该评论表达了强烈的负 面倾向性,在该页面放置广告显然是不明智的。 网络时代,尤其是w e b 2 0 的出现,使得网民能够轻松的在网络上发表帖子,表达 自己的观点,产生了大量的内容。人工分析这些评论的倾向性来理解每个人的观点已经 是不可能的了,只有借助计算机实现自动的文本倾向性分析。 人们能够比较容易的区分一篇文章中的事实性和倾向性,并能体会作者表达的倾向 性是正面的还是负面的,强度如何。然而以计算机目前的智能程度进行文本的语义理解 还有困难,在区分事实性和倾向性语句上还不太准确,让计算机自动理解文本表达的是 正面还是负面的倾向性更是具有挑战性的工作。 1 3 中文语义倾向性分析研究存在的问题 鉴于计算机进行自动文本语义倾向性分析的巨大价值,国内外很多学者开始重视倾 向性分析的研究,虽然研究还局限于比较浅的层次,但也取得了不少成果。主要的研究 方法可以分为两类:一类是基于知识库和规则进行文本的倾向性分析,比如简单的基于 情感词典,统计文本中正、负面情感词汇的词频;一类是把倾向性分析看作文本的正、 负面倾向性的分类问题,使用朴素贝叶斯、s v m 等统计学习的方法进行倾向性分析。 二2 一 东北大学硕士学位论文第一章绪论 相关研究人员的实验结果显示目前基于统计学习的方法效果比较好,唐慧丰等【4 j 针对中 文,使用自己收集的评论集进行测试,也获得了很好的结果。统计学习方的缺点是法针 对新的领域往往需要新的训练集训练,否则准确度下降。 关于中文的语义倾向性分析研究目前还不多,一个重要的障碍是没有关于情感分析 的公认的语料库作为训练集和测试集使用,使得每个研究人员都要自己去获取语料,这 是一个不小的工作量,尤其是统计学习的方法一般需要比较大量的语料库做训练集才能 显示出实际的效果。基于不同语料库的实验效果往往不同,因为目前的倾向性分析算法 在不同领域的评论中准确性不一样,比如针对电影的评论准确率就比较低。这使得不同 研究者的实验结果缺乏可比性和可信度,不利于研究人员的交流。 由于中文方面还没有一部情感词词典,国内对中文词汇的倾向性进行了一些研究, 主要是基于h o w n e t 【5 l 知识库来判断一个词是否是情感词,并计算出【- 1 ,1 中间的值来指 示倾向性强度。对于句子的倾向性和篇章的倾向性,实质性研究还比较少,主要原因是 需要自然语言理解做基础,而自然语言理解技术还不成熟,尤其是在语义理解的层次。 统计学习的技术目前虽然在基于较大规模语料的实验中效果比较好,但是其结果不易于 理解,仅仅使用复杂的学习算法难于进一步的提高其效果。目前还很少有人尝试将基于 知识库和统计学习的方法结合起来进行语义倾向性分析。 1 4 本文研究的问题及课题背景 互联网目前已经成为人类最大的图书馆,拥有以百亿计的网页。越来越多的人通过 互联网获取信息,中国互联网络信息中心2 0 0 8 年1 月发布的中国互联网络发展状况 统计报告【6 】显示,我国的网民规模已达2 1 亿。网络极大地改变了人们表达观点的方 式,他们可以方便地在商务网站对商品和商家评论,也可以在网络论坛上轻松地对任何 事情表达自己的看法。很多的网民还建立了自己的网络空间,产生自己的内容,中国互 联网络信息中心2 0 0 7 年1 2 月发布的2 0 0 7 年中国博客市场调查报告【7 i 显示我国的博 客规模已达4 7 0 0 万。 在如此多的内容里寻找需要的信息不是一件容易的事,目前最好的方法是通过 b a i d u 8 1 和g o o g l e 【9 】这样的通用搜索引擎,针对某个领域的问题使用垂直搜索引擎也可能 获得更好的结果,比如使用爱帮网f 1 0 j 搜索生活信息。不管是通用搜索引擎还是垂直搜索 引擎,目前还都只是使用机械的关键字匹配技术,返回包含搜索关键字的网页,垂直搜 索引擎在及时性、深入性上有提高。 互联网上主要的信息可以分为两类,一类是事实性( f a c t ) 信息,一类是观点( o p 试o n ) 。 目前的搜索引擎搜索事实性信息效果比较好,因为事实比较容易用关键字表示,对于一 个事实的描述我们不需要多个( 假定描述是真实的) ;搜索观点则容易导致片面性,我 一3 一 , i - 东北大学硕士学位论文第一章绪论 们可能希望了解对一个事件多个不同的观点,但搜索引擎的排序算法却导致某个主流观 点都排在前面。更别提希望搜索引擎给出综合性的信息,比如“有多少比例的网民赞成 政府的某一项政策? 。网络用户产生的海量评论蕴藏着丰富的信息,研究如何分析这 些内容,获取各种有用的信息目前显得越来越迫切。 本文研究中文网络评论的倾向性,以获得作者针对某个主题的倾向。针对目前中文 倾向性分析存在的问题,本文没有试图建立一个大规模的通用语料库,而是提出了一种 构建研究人员需要语料库的框架,减少研究人员浪费在语料收集过程中的时间。针对收 集的语料,使用统计学习算法和h o w n e t 知识库结合的方法对中文网络评论进行倾向性 分析的研究。 1 5 本文的组织结构 根据前述研究内容,本文共分六章。 第一章是绪论。介绍了语义的事实性和倾向性,阐明了语义倾向性研究的应用价值, 指出了当前中文语义倾向性研究中的主要问题。最后阐述了在网络经济时代的大背景下 进行网络评论倾向性研究的迫切性,给出了本文研究的主要问题。 第二章是相关理论和技术。首先列举国内外对语义倾向性研究的主要成果,然后对 语义倾向性研究涉及到的主要理论和技术进行介绍,包括自然语言处理技术、文本挖掘 技术、本体技术等。 第三章研究并行网络评论下载的技术,提出动态任务分配的并行评论获取模型,并 基于关系数据库和豆瓣网实现了该模型。证明了动态任务分配模型在网络评论获取上的 众多优点。 第四章介绍语言理解中的理性主义和经验主义,并设想将两者融合起来进行篇章的 语义倾向性分析。然后介绍基于h o w n e t 的情感词典构建以及朴素贝叶斯、评分算法两 种统计学习算法,最后提出了基于属性加权的文本倾向性分析方法。 第五章是实验和分析。介绍实验系统的实现,通过实验证明了基于属性加权的统计 学习算法在文本倾向性分析上的效果更好,也证明了基于规则的方法和基于统计学习的 方法结合是正确的途径。 第六章对本文的工作进行总结并指出的进一步的研究方向和问题。 一4 一 东北大学硕士学位论文第二章相关理论与技术 2 1 相关工作 第二章相关理论与技术 倾向性分析的研究可以分为词汇、句子和篇章三个层次。词汇的倾向性研究是句子 和篇章倾向性分析的基础,但是词语在不同语境下或者描述不同领域的对象时可能有不 同的极性,“曲折”在形容人生时带有负面倾向性,但是用来描述电影情节时则是褒义 的。在分析句子或篇章的极性时仅依赖词汇倾向性是不够的,还需要句法结构、领域知 识的帮助。 2 1 1 词汇倾向性分析的相关研究 无论是在汉语还是在英语中,研究人员发现部分词汇出现的句子,表达的语义倾向 性是固定的。以“陷入 一词为例,在两个月的人民日报统计数据中,出现了3 3 次, 表现出负面信息的有3 2 例可以确认,只有一例“陷入沉思”表现了中性含义,例句原 文如下:“吴书记眉头渐渐锁紧,陷入了沉思。 回到原文就可发现“沉思 所在的语境 所表现出来的也是一种愁苦的样子,也应该是负面含义。对这种能够决定句子语义倾向 性的词汇研究有很大意义。 词汇的情感分析目前主要有三种方法,一种是基于w - 0 r d n e t 和h o w n e t 这样的知 识库f 1 2 13 1 ,首先选择两组具有明显正面和负面极性的词语作为种子词,对于一个情感倾 向未知的词,计算这个词与两组种子词的相似度,与正向种子词组相似度高的就判定为 正面情感词,反之判定为负面情感词。 基于知识库的方法首先需要计算两个词的相似度,朱嫣岚等基于h o w n e t 的义原 树提出了一种计算中文词语相似度的计算方法,在其论文中将词语w d ,西,w d ,_ 吐的相 似度定义为: s i m ( w d 嘲,w d ,吐) 。脚2 翳。s i m 慨r ,见) , ( 2 1 ) ,= l m ,2 i m 。 其中,s i m p 。,) 是词w o 嵋和w d ,以的任意两个义原的相似度,计算公式为如下, 其中,d i s t p 。,p ,) 为义原p 。,p ,在义原树中的路径长度: 如川2 磊齑丽 ) 朱嫣岚使用公式( 2 1 ) 计算词汇与分表代表正面和负面倾向性的两组种子词的相似 一5 一 东北大学硕士学位论文第二章相关理论与技术 度,在常用词上达到了8 0 的准确度;江敏等【1 5 】基于h o w n e t ,使用自定义的相似度计 算公式并特别考虑了反义和对义词,计算词汇与分表代表正面和负面倾向性的两组基准 词的相似度来判断词汇的语义倾向性,达到了9 0 以上的准确率。 词汇倾向性分析的另一种方法是无监督的机器学习方法朋。这种方法同样需要先 确定两组等量具有明显倾向性的种子词,一组是褒义种子词,一组是贬义种子词。对于 一个新词,根据它和两组种子词的紧密程度对其倾向性进行推断,紧密程度的判断是根 据词语在语料库中的共现频率,称为点态互信息量( p o 缸o f m u t u a li n f o m a t i o n ) 。任意两 个词的互信息计算公式为: 蹦k 啪咖蚴扎g j 篙筹孝f , 将词语与褒义种子词的点态互信息量之和减去与各贬义种子词的互信息量之和,结 果的正负即表示词语的倾向性。而且结果的大小还指示了倾向性的强度。这个方法的点 态互信息量也可以通过使用搜索引擎来计算,w d 耐,的概率可以通过搜索引擎返回的 h i t s 值比上搜索引擎总的索引页面数,这样就不需用语料库了。 还有基于人工标注语料库的学习方法【l 引。首先标注情感倾向分析语料库,然后利用 词语的共现关系、搭配关系、语义关系和句子中的连接词判断词语的情感倾向性。这种 方法需要大量的人工标注语料库,目前使用这种方法的研究相对少些。 2 1 2 句子倾向性分析的相关研究 句子倾向性分析处理的对象是在特定上下文中出现的语句,其任务就是对句子中主 观性信息的分析和提取,然后可以根据情感词和程度副词进行情感倾向及强度分析。对 句子进行倾向性分析首先要判定这个句子是客观性的还是主观性的,客观性信息的提取 长期以来都是计算语言学的研究热点,但是还未研究透彻。 黜l o 行l l 圳在其论文中提出一个的方法是抽取主观性句子中的有效模式,建立主观性 句子规则库,基于规则判定句子是否是主观的。这种基于规则的方法准确率高,主观性 判断准确率可达9 0 ,但是召回率很低。w i e b e 2 0 】提出了一种不需要训练集的方法识别 句子的主、客观性,该方法基于鼬l o 行的研究成果: ( 1 ) 基于规则的方法判断句子是否是主观性的; ( 2 ) 判定的结果使用模式抽取,抽取出高频率的主观和客观性的句子模型; 。 ( 3 ) 使用抽取的模型训练贝叶斯分类器; ( 4 ) 用贝叶斯分类器判定句子是主观的还是客观的。 该方法在保持准确性可比的情况下有效地提高了召回率,但是召回率仍然不是很令 一6 一 东北大学硕士学位论文 第二章相关理论与技术 人满意。王根等【2 l | 使用一种基于多重标记c r f ( c o n d i t i o n a lr a n d o mf i e l d ) 的分级模型, 在保证情感分析中各子任务能够使用不同特征的前提下,将情感分析中的主客观分类、 褒贬分类和褒贬强弱分类任务统一在一个模型之中,在多个子任务上寻求联合最优,其 中三重标记的实验效果最好。文 2 2 还研究了对比性的句子识别,对比性句子往往包含 了观点。 2 1 3 篇章倾向性分析的相关研究 篇章级倾向性分析是要从整体上判断一个文本的倾向性,这里一般隐含着一个假 设,即假设该文本是对一个主题进行评论,对于一个文本包含多个子主题的情况只是进 行整体的篇章倾向性判断是不够准确的。 t u m e y 【1 6 1 对篇章的倾向性研究做了开创性的工作,他的方法如下: ( 1 ) 利用自动标注工具对文本进行标注。 ( 2 ) 抽取符合给定模式的二元组( 即两个连续的单词,对于中文则是相邻的两个汉 字) 。 ( 3 ) 使用点态互信息公式p m i 计算二元组与e x c e l l e n t 和p o o r 的互信息量,则二元组 的语义倾向性s 0 ( s e m a i l t i co r i e n t a t i o r l ) 计算公式为: s o p j i z ,( 硌p ) = p m i p j l z ,c l ,p ,”e x c e u e m ”) 一p m i p 办,c u p ,”p o o r ”) ( 2 4 ) 其中,点态互信息利用a l t a v i s t a 搜索引擎及其提供的n e a r 运算符实现,n e a r 运算符保证两个共现的词在篇章中的距离。 ( 4 ) 计算篇章的语义倾向性s o ( ,p v f p w ) : s o v 加) = 去s o p 办,傩p f ) ( 2 5 ) 1 1l 军l ( 5 ) 如果s 0 ( ,p v 招w ) 大于零,则认为文本是正面的倾向性,否则认为是负面倾向性。 仅仅计算二元组与优( e x c e l l e m ) 和差( p o o r ) 的互信息效果不够好,有研究者计算一个 词与多个分别代表正面和负面倾向性的词的互信息,提高了性能。但是由于算法基于 a l t a v i s t a 搜索引擎,因而结果不稳定,该搜索引擎目前已经不提供n e a r 运算符了,但 是在计算互信息时考虑项之间距离对其他研究也很有指导意义。 l i ub 等【2 3 】主要针对商品评论做了更深入的分析,突破了仅仅给出篇章总体倾向性 的研究。研究了从同一类商品的多个评论中抽取子主题的算法,然后对子主题倾向性分 析,综合多个语篇的分析得出总结性的结果,具有比较实际的商用价值。这也是商品评 论比较特别的地方,同一类商品的子主题比较容易确定,比如手机的评论一般包含多个 一7 一 , 东北大学硕士学位论文第二章相关理论与技术 主要部件或属性的评论,屏幕大小、照片质量、电池寿命、声音质量等。b i n gl i u 将商 品的部件和属性看作一个个特性( f e a n 鹏) ,分析过程如下: ( 1 ) 抽取评论中对象的诧a t l 】r e 。l i u 将评论分为三种主要形式,针对不同格式的评 论分别采用标记序列规则( l s rl a b e ls e q u e m i a lr m e ) ,频繁项集( f i ,f r e q u e n t i t e m s e t ) 等方法抽取f e a t i 鹏; ( 2 ) 对一篇评论的句子进行标注; ( 3 ) 对于评论中的一个句子,检查是否包含上一步抽取得f e a t u r e ; ( 4 ) 如果包含f e 栅e ,提取句子中有效的形容词,该词修饰的名词是f e a t l 】r e ; ( 5 ) 基于w 6 r d n e t 的同义词和反义词来判断有效形容词的倾向性,得出评论中针对 f e a t u r e 的评价倾向; ( 6 ) 综合多个针对同一对象的评论分析结果,给出可视化结果。 篇章的倾向性分析也可以看作是一个两类的文本分类问题,那么朴素贝叶斯、支持 向量机器( s v m ,s u p p o r tv e c t o rm a c l l i n e ) 、k 近邻( ,k n e a r e s tn e i g h b o r ) 等方法都可以 用来判断篇章的倾向性。p a i l g 等1 2 4 】利用机器学习的方法进行倾向性分析的实验结果表 明,在不进行词干还原、停用词处理的情况下对电影评论的倾向性分析,效果最好的 s v m 方法达到了8 0 以上的准确率。 倾向性研究目前已经有一些商用的产品出现,英国的c o 印o r a 公司开发了一套名为 “s e m i l l l e n t ”的软件,它能判断网络文章对一个政党的政策是支持还是反对,对一种商 品是赞美还是贬低。中文方面专业汽车网站爱搜车1 2 5 j 提供了汽车评论和比较的功能,与 l i u 的研究成果比较类似,但是只是针对汽车,可以人工辅助确定f e a t l 】r e ,还可以加入 领域知识辅助判断观点的倾向性,效果很好。 2 2 自然语言处理技术 自然语言处理技术是让计算机能够像人一样理解、处理自然语言涉及到的技术,这 与语言的构成有密切关系,图2 1 是语言层次结构图。 从语言的构成可以看出语言具有层次性,一个文字表达的句子是由词素专词或词形 专词组或句子;而用声音表达的句子则是由音素专音节专音词音句,其中每个层次都 受到语法的制约。因此,语言的分析和理解也是一个层次化的过程,具体过程如下: ( 1 ) 语音分析:根据音位规则,从语音流中区分出一个个独立的音素,再根据音位 形态规则找出一个个音节及其对应的词素或词; ( 2 ) 词法分析:主要目的是找出词汇的各个词素,从中获得语言学信息; ( 3 ) 句法分析:句法分析是对句子和短语的结构进行分析,目的就是找出词、短语 等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达; 一8 一 东北大学硕士学位论文第二章相关理论与技术 ( 4 ) 语义分析:语义分析就是通过分析找出词义、结构意义及其结合意义,从而确 定语言所表达的真正含义或概念; ( 5 ) 语用分析:研究在不同的上下文环境中旬子的运用。 回 词汇语法 j 词熟语词法句法 词素构形法构词法造句法词组构造法 图2 1 语言层次结构 f i g 2 1h i e r a r c h yo fl a n g u a g e 让计算机理解人的情感属于语义分析的范畴,因而文本的倾向性分析依赖于词法分 析、句法分析。对中文信息处理而言,词法分析包括将句子切分为词的序列,并对词性 进行标注,虽然这是目前自然语言处理中最成熟的技术,但是仍然面临着歧义切分、未 登陆词识别和兼类词的自动词类歧义排除等难题。 2 2 1 词法分析技术 由于中文文本是按句连写的,词之间没有空格,因而在中文文本处理中,首先遇到 的问题是分词的问题。词的正确切分是进行中文文本处理的必要条件。为了克服汉语词 计算机自动切分这一难题,许多年来,大量的学者都加入了这一领域的研究,使汉语自 动分词取得了丰硕的研究成果。现有的分词算法可分为三大类:基于字符串匹配的分词 方法、基于理解的分词方法和基于统计的分词方法。 2 2 1 1 基于字符串匹配的分词方法 基于字符串匹配的方法又叫机械分词方法,它是按照一定的策略将待分析的句子与 一个“充分大的 词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功( 识 别出一个词) 。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹 配;按照不同长度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配; 一般来说逆向分词的效果比正向的好,比如要对下面这句话分词:“他说的确实在理”, 正向最大匹配和逆向最大匹配分词法的分词过程分别如表2 1 和表2 2 所示。 一9 一 东北大学硕士学位论文第二章相关理论与技术 表2 1 正向最大匹配分词法 1 a b l e2 1f o n a r dm a ) 【i m a lm a t c h i n gw o r ds e g m e m a t i o n 表2 2 逆向最大匹配分词法 亿出l e2 2b a c k 、w 帕m a x i m a lm a t c h i l l gw o r ds e g m e n t a t i o n 2 2 1 2 基于理解的分词方法 由于字符串匹配的分词方法只是根据词典来分词,需要有一个容量很大的词典。通 常的分词系统,都力图在分词阶段消除歧义切分现象。其基本思想就是在分词的同时进 行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分: 分词子系统、句法语义子系统、中心控制部分。在中心控制部分的协调下,分词子系统 可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句 子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼 统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的 分词系统还处在试验阶段。 2 2 1 3 基于统计的分词方法 从统计学角度看,词在使用中是字的稳定组合,所以在一个大的语料库中,相邻的 字同时出现的频率越大,就越有可能构成一个词。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论