




已阅读5页,还剩45页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
合肥工业大学 i i i ii ll ll lli l ll lllllli y 18 8 7 2 5 2 本论文经答辩委员会全体委员审查,确认符合合肥工业大学硕士 学位论文质量要求。 答辩委员会签名:( 工作单位、职称) 主席:j 爿 甲闩嘶叛乇手 石。丫客投 委员: 11 挑 走叶 引吼1 饭 哥限y 饥苫为i ) 硪 每缈火 孑、j 7 叙投 j 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成 果。据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得 金胆王些太堂或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示谢意。 学位论文作者签字:努j 萼仁 签字日期:列j 年穸月彳日 学位论文版权使用授权书 本学位论文作者完全了解 金胆工些太堂有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借闭。本人 授权金胆王些态堂 可以将学位论文的全部或部分论文内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:哆三学仁 , 签字日期:ij 年夕月辟日 学位论文作者毕业后去向: 工作单位: 通讯地址: 导师签名: 签字日期: 电话; 邮编: ,例 息来源地,越来 越多的人通过互联网发表他们对诸如商品、服务的一些意见。通常,人们对某 一事物进行评论表达自己的观点的时候,一般都是具有倾向性的,因而文本倾 向性分析研究便应运而生了。对在线评论进行语义倾向性分析研究,提取对用 户和商家有用的文本信息,这些信息一方面可以帮助消费者进行购买决策,另 一方面也可以辅助产品制造商和销售商进行市场分析。如何根据实际的需求对 在线评论进行语义倾向性分析,已经成为自然语言处理中比较活跃的一个领域, 其研究工作具有非常重要的理论意义和实际应用价值。 本文以互联网上的在线评论信息为基础,采用文本挖掘技术研究语义倾向 性问题,主要进行了以下几个方面的研究: 首先,领域本体是用于描述指定领域知识的一种专门本体,它是语义倾向 性分析的基础。本文提出了一种面向特定领域文本语义倾向性分析的领域本体 的构建方法。 其次,基准词作为情感倾向分析以及观点分析的重要基础,针对目前基准 词选择方法仍有很大的随机性和主观性的问题,本文提出了一种基于词聚类的一 基准词选择方法,该方法将词聚类应用到基准词的选取过程中,通过从目标领 域中选择初始种子词,然后扩展、聚类、从聚类结果中选出下一代种子词,依 次迭代最终得出最优化的基准词。该方法很好的解决了基准词选择过程中随意 性和主观性,提高了基准词在词汇情感倾向性判别中的准确率。 最后,在第三四章的基础上,提出了在线评论语义倾向性分析的具体步骤, 并对其中的关键部分给出了具体的解决方法。然后将语义倾向性分析应用到基 于特征的文本摘要生成中,通过实验给出了一个基于特征的文本摘要的生成过 程和结果。, 关键词:领域本体;词的聚类;基准词;语义倾向性;文本摘要 r e s e a r c ho nt h em e t h o d o l o g yo fs e m a n t i co r i e n t a t i o n a n a l y s i so fo n l i n er e v i e w s a b s t r a c t n o w a d a y s ,a st h ei n t e r n e tt e c h n o l o g yi sd e v e l o p i n gr a p i d l y ,i n t e r n e th a sb e e n ag r e a ts o u r c eo fi n f o r m a t i o n m o r ea n dm o r ep e o p l ea i rt h e i ro p i n i o n st o w a r d s g o o d sa n ds e r v i c ev i at h ei n t e r n e t u s u a l l yp e o p l ea r eg e n e r a l l yt e n d e n t i o u sw h e n t h e yr e v i e wo ns o m et h i n g sa n de x p r e s st h e i ro p i n i o n s ,t h e r e f o r e ,t e x to r i e n t a t i o n a n a l y s i se m e r g e sa st h et i m er e q u i r e s s e m a n t i co r i e n t a t i o na n a l y s i so n o n l i n e r e v i e w si sm a d es ot h a tt e x ti n f o r m a t i o nw h i c hi su s e f u lt ou s e r sa n dm e r c h a n t sc a n b ee x t r a c t e d o no n eh a n d ,t h ei n f o r m a t i o n i sag r e a th e l pt oc o n s u m e r s 。 d e c i s i o n m a k i n gi np u r c h a s i n g ;o nt h e o t h e rh a n d ,i ta s s i s t sm a n u f a c t u r e r sa n d v e n d o r si nm a r k e ta n a l y s i s h o wt om a k eas e m a n t i co r i e n t a t i o na n a l y s i so n o n l i n er e v i e w sa c c o r d i n gt ot h ea c t u a ld e m a n dh a sb e e nam o r ea c t i v ed o m a i no f n a t u r a ll a n g u a g ep r o c e s s i n g ,a n dt h er e s e a r c hw o r ko ni ti so fp r o f o u n dt h e o r e t i c a l a n dp r a c t i c a ls i g n i f i c a n c e b a s e do no n l i n er e v i e w so ni n t e r n e t ,t h i sp a p e ru s e st e x tm i n i n gt os t u d y s e m a n t i co r i e n t a t i o np r o b l e m s ,a n di ti sm a i n l yc o m p o s e do ft h ef o l l o w i n gc o n t e n t : f i r s t l y ,d o m a i no n t o l o g yi s as p e c i a lo n et od e s c r i b et h es p e c i f i e dd o m a i n k n o w l e d g e ,w h i c hi st h eb a s i so fs e m a n t i c o r i e n t a t i o na n a l y s i s t h em e t h o do f c o n s t r u c t i n gt h ed o m a i no n t o l o g yo r i e n t e dt ot e x ts e n t i m e n to r i e n t a t i o na n a l y s i si n t h es p e c i f i e dd o m a i ni sp r e s e n t e di nt h i sp a p e r s e c o n d l y ,p a r a d i g mw o r d i sf o u n d a t i o n a lb a s e o fs e n t i m e n to r i e n t a t i o n a n a l y s i sa n do p i n i o na n a l y s i s t h ep a p e rp u t s f o r w a r dam e t h o do fs e l e c t i n g p a r a d i g mw o r d s ,w h i c hi sb a s e do nt h ee x i s t i n gr a n d o m n e s sa n ds u b j e c t i v i t yi s s u e i te x p a n d sw o r d sb yag r o u po fs e l e c t e di n i t i a ls e e dw o r d s ;a n di to b t a i n st h e s e c o n dg e n e r a t i o no fs e e dw o r d sb ym e a n so fh i e r a r c h i c a lc l u s t e r i n g ,a c c o r d i n gt o t h es i m i l a r i t yb e t w e e nt w od i f f e r e n te x p a n d e dw o r d s ,t h e ni te x p a n d sa n dc l u s t e r s t h es e c o n dg e n e r a t i o ns e e dw o r d s ,a f t e rt h a t ,i to r d e r l yi t e r a t e st h es a m ep r o c e d u r e t og e tt h eo p t i m a lc l u s t e r i n gs e e dw o r d sa st h ef i n a ls e l e c t e dp a r a d i g mw o r d s t h e e x p e r i m e n tr e s u l ti n d i c a t e s t h a tt h en e wm e t h o dg e t sr i do fr a n d o m n e s sa n d s u b je c t i v i t yi nt h ep r o c e s so fs e l e c t i n gp a r a d i g mw o r d sa n dh a sah i g h e ra c c u r a c y i ns e l e c t i n gp a r a d i g mw o r d sw h i l ec l a s s i f y i n gt h ed i f f e r e n te m o t i o n a lp r o c l i v i t i e s a tl a s t o nt h eb a s i so ft h ef o r m e rt h e o r yi nc h a p3a n d4 ,t h ep a p e rp u t f o r w a r dac o n c r e t ep r o c e s st oo n l i n es e n t i m e n to r i e n t a t i o na n a l y s i sa n ds h o w e dt h e i i s p e c i f i cs o l u t i o nt ot h ek e yp a n s t h e ns e n t i m e n to r i e n t a t i o na n a l y s i sw a sa p p l i e d t og e n e r a t et e x ts u m m a r yb a s e do nf e a t u r e ,t h ep r o c e s sa n dr e s u l to fw h i c hw a s o b t a i n e db yt r i a l k e y w o r d s :d o m a i no n t o l o g y ;w o r d c l u s t e r i n g ;p a r a d i g mw o r d ;s e m a n t i c o r i e n t a t i o n ;t e x ts u m m a r y 1 1 1 致谢 本论文是在我的导师刘业政教授的悉心指导下完成的。三年以来,刘老师 在学业上一直对我严格要求,我所取得的每一点进步、每一点成绩都离不开刘 老师的谆谆教诲。值此论文完成之际,我谨向导师刘业政教授表示诚挚的感谢, 并致以深深的敬意。刘老师渊博的知识、严谨的治学态度、敏锐的学术洞察力、 积极开拓和忘我的工作精神,都对我产生很大影响,将使我受益终生。在今后 的学习、生活和工作中,我将以导师为榜样,为社会贡献自己的微薄之力。 在三年的学习中我一直都是跟随着孙春华老师,在学习中孙老师给我了极 大的帮助与指导,在此特别感谢孙春华老师。 感谢合肥工业大学电子商务研究所为本人提供的良好的学习氛围和一流的 研究条件,感谢何建民、张结魁、凌海峰、魏婧等老师对我的关心、帮助和支 持,感谢陈思风、叶俊杰、张启平、姜元春、施旋、刘红燕、彭丹、韩丽勃、 许波、宋仙磊、姜婧、于彪、吕刘中、朱晶晶、蒋伟、刁翠霞、姬建睿、刑小 云、王平、余笪、曹荣涛、张可、温端湖、徐俊芬等师兄妹在我的学习和生活 上给予的帮助,在此一并向他们表示由衷的谢意。 在我的学习生涯中,我的家人从物质上、精神上给予了我无穷的支持与鼓 励,没有他们在我背后的支持,我将无法完成我的学业,他们是我强有力的精 神支柱。 感谢论文评审委员会的老师们在百忙之中对我的毕业论文提出宝贵意见。 最后,感谢所有帮助和关心过我的人。 i v 作者:彭学仕 2 0 11 年4 月 目录 第一章绪论1 1 1 问题的提出1 1 2 研究的目的和意义1 1 3 研究内容2 1 4 研究思路和方法2 第二章理论综述4 2 1 国内外研究现状4 2 1 1 词语倾向性分析现状4 2 1 2 句子倾向性分析现状5 2 1 3 文本倾向性分析现状6 2 2 基于语义的倾向性分析理论基础6 2 3 语义倾向性分析发展动态。9 2 4 本章小结10 第三章面向倾向性分析领域本体的构建1 1 3 1 常用的领域本体的构建方法1 1 3 2 面向倾向性分析的领域本体的构建方法。1 2 3 3 轿车领域本体的构建1 4 3 3 1 数据收集1 4 3 3 2 数据处理1 6 3 3 3 轿车本体的顶层框架构建1 7 3 4 本章小结l8 第四章基准词的选择1 9 4 1 基准词选择流程1 9 4 2 聚类初始词汇的选择及扩展1 9 4 3 词的聚类2 0 4 3 1 词的相似度2 1 4 3 2 词的聚类算法2 2 4 3 3 算法流程2 3 4 4 聚类迭代以及基准词的提取2 3 4 5 实验及结果分析2 3 4 6 本章小结2 5 第五章在线评论语义倾向性分析及应用2 6 5 1 在线评论语义倾向性分析流程2 6 5 2 在线评论语义倾向性分析的具体方法2 7 v 5 ,2 1 评论的预处理2 7 5 2 2 领域本体的构建2 7 5 2 3 基准词的选择和领域观点词词典的构建2 7 5 2 4 特征标注2 7 5 2 5 语义倾向性分析2 9 5 3 语义倾向性分析在基于特征的文本摘要中的应用3 1 5 3 1 自动文摘技术概要3 1 5 3 2 基于特征的文本摘要3 2 5 3 3 基于特征的文本摘要生成实验3 3 5 4 本章小结3 4 第六章总结与展望3 5 6 1 研究总结3 5 6 2 进一步研究3 5 参考文献3 7 攻读硕士学位期间发表的论文4 0 v i 表格清单 表3 1 领域情感词表结构1 3 表3 2 轿车类型及其下载评论数据表1 5 表3 3 轿车领域高频领域词1 6 表4 1 基准词集2 4 表4 2 评价指标2 5 表5 1 否定词表2 9 表5 2 程度副词表3 0 v i i 插图清单 图3 1g r u n i n g e r & f o x 本体创建流程1 1 图3 2u s c h o l d 本体建立模式流程1 2 图3 3 领域本体构建流程1 4 图3 4 面向倾向性分析的轿车领域本体结构图1 7 图4 1 基准词选择流程1 9 图4 2 聚类2 2 图4 3 领域本体底层实例图2 4 图5 1 在线评论语义倾向性分析流程2 6 图5 2 特征标注流程2 8 图5 3 自动文摘过程示意图3 2 v i i i 第一章绪论 1 1 问题的提出 互联网的迅猛发展将人类带入了信息社会和网络经济时代,对企业发展和 个人生活都产生了深刻的影响。越来越多的企业开始利用互联网发布信息和销 售产品,越来越多的消费者也开始加入了网络购物的行列。根据中国互联网研 究中心( c n n i c ) 发布的报告,第2 6 次中国互联网络发展状况统计报告中 指出,截至2 0 1 0 年6 月底,我国网民规模达4 2 亿人,互联网普及率持续上升增 至3 1 8 ,全国网络购物用户达到1 4 亿人,网络购物使用率为3 0 。网络购物 正在逐渐成为一种主流消费方式。消费者在网上购物之前,往往会搜寻有关产 品的信息。先前使用者创造的在线产品评论,是消费者了解产品的一个主要信 息源,过去的研究显示,在线产品评论所包含的产品信息和用户体验信息能够 帮助消费者进行购买决策,并促进产品销售“。正是由于认识到在线评论对 销售的促进作用,许多在线销售商在网站上提供了在线评论服务,邀请消费者 对购买或使用过的产品发表在线评论。除了产品销售网站以外,国内外还出现 了一些专业的在线评论网站,如e p i n i o n e o m 、k o u b e i c n 等。在线评论除了为消 费者提供产品信息,也为产品制造商和在线销售商的市场分析和营销策略提供 了决策依据。产品制造商和在线销售商可以通过对在线评论的分析,了解消费 者对产品的满意程度,发现不同消费者的需求差异,并制定相应的产品策略和 营销策略,如个性化推荐服务、市场定位和市场宣传、产品设计和改进等等。 一条完整的在线评论通常包括在线等级和在线评论文本两个部分,已有研究大 多使用的是在线等级数据,而在线评论文本由于信息处理的复杂性,没有得到 充分挖掘和利用。 近年来,随着自然语言处理技术的发展,中文文本信息的处理问题开始受 到研究者的关注。语义倾向性分析是指利用计算机技术自动分析带有观点信息 的句子或文档,提取出用户感兴趣的主题或特征,并分析其语义倾向( 褒义、贬 义或中性) 和强度。因此,从语义倾向性方面来对在线评论进行分析与研究具 有一定的理论意义和实践意义。 1 2 研究的目的和意义 互联网上的信息与日剧增,蕴藏着巨大的信息量。所以要想在较短的时间 内获得人们对于诸如人物、事件、产品等有价值的评价信息,往往是比较困难 的。如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不 切合实际的。因而,面对这些浩瀚的网络资源,如何通过有效的手段获取所需 的信息,是亟待解决的问题,所以我们采用自然语言的处理技术,对中文文本 信息进行处理,进而对在线评论进行语义倾向性分析研究,提取对用户和商家 有用的文本信息。在商业领域中,对评论进行文本倾向性分析,能够为企业挖 掘出许多有价值的信息,这些信息一方面可以帮助消费者进行购买决策,另一 方面也可以辅助产品制造商和销售商进行市场分析;在管理领域,文本的倾向 性分析能够帮助管理者及时准确的了解到用户反馈的意见,可以用计算机代替 人进行文本倾向识别,从而节省大量的人力、物力和财力;在研究领域,通过 这种计算机自动分析大规模文本中的倾向信息的技术,能够为文本过滤、自动 文摘、文本分类等自然语言处理的研究提供新的思路和新的手段。除此之外, 在线评论语义倾向性分析还可以与搜索引擎、过滤系统、个性化推荐系统等应 用系统相结合,优化系统的性能。 本文的研究目的在于,针对目前中文语义倾向性分析中基准词的选择存在 主观性和随意性的问题,从而导致了语义倾向性分析结果中的一些偏差,提出 了一种新的基准词选择方法,该方法针对特定的领域选取特定的领域基准词, 优化了传统的基准词的选择方法,从而使得基准词的选择更加合理有效。然后 利用此方法选择出来的基准词对观点词进行语义倾向性判别,通过观点词的倾 向性合成句子的语义倾向,最终合成整个评论的语义倾向,以此来提高语义倾 向性分析结果的准确率。 1 3 研究内容 本文的研究内容主要有以下两个部分: 第一部分,领域本体的构建和基准词的选择。首先,根据倾向性分析这一 最终目的,建立起领域本体的顶层框架和结构,然后对在线评论进行内容分析, 人工收集评论中涉及的所有产品特征,在此基础上构建出领域本体。基准词是 计算词情感倾向强度的基础,基准词的选择对词情感倾向强度有直接的影响, 本文通过将词聚类应用到基准词的选择过程中来,以此来优化基准词的选择。 第二部分,在线评论的语义倾向性分析,从不规范的评论文本中识别出特 征词和观点词、发现特征词和观点词之间的对应关系,通过对观点词的倾向分 析合成特征句的观点倾向,最后合成整条评论的语义倾向。最后给出了一个应 用实例,将倾向性分析应用到基于特征的文本摘要生成过程中。 1 4 研究思路和方法 文本倾向性分析在国内外已经有大量的研究,特别是对于英文的文本国外 的研究已有大量的成果,对于中文,由于语言本身的复杂性,目前的一些研究 还是在起步阶段,但也有不少的研究成果可供参考,因而这些均为本文的研究 提供了大量的资料,奠定了一定的基础。同时,课题组对文本挖掘特别是语义 的倾向性分析方面已经做了不少的研究,可以给本人提供有力的指导和支持。 在线轿车评论语义倾向性分析的实验设计方案如下: ( 1 ) 数据采集和数据处理 2 本文所有实验数据均采集于爱卡汽车网( h t t p :r e v i e w x c a r c o r n c n ) ,下 载了网站评论里国内外2 0 多个轿车品牌的1 0 0 0 多条汽车评论,数据处理采用 分词软件先进行分词和词性标注,然后根据需要编程提取所要的实验数据,编 程语言主要采用i a v a 编程语言。 ( 2 ) 领域本体的构建 通过查询汽车方面的专业书籍、浏览一些汽车方面的专业网站,和对汽车 评论数据处理等一系列方式对汽车领域知识进行整体的把握,首先构建出轿车 领域的顶层框架,然后不断向下扩展延伸,不断完善,最终构建出符合文本倾 向性分析需要的领域本体。 ( 3 ) 基准词的选择 基准词的选择直接影响着语义倾向性分析的结果,本研究通过将词聚类方 法应用到基准词的选择中来,从而很好的优化了以往基准词选择中的随意性和 主观性问题。 ( 4 ) 在线评论的倾向性分析 通过对评论中特征词和观点词的提取,然后对观点词进行语义倾向性分析, 通过观点词的语义倾向性合成句子以及整个评论文本的语义倾向性。 第二章理论综述 2 1 国内外研究现状 语义倾向性的研究可以追溯到2 0 世纪5 0 年代。1 9 5 7 年o s g o o d 邀请被试者对 大量的词进行打分,然后通过因子分析发现了三个主要的因子:评价因子n 3 ( e v a l u a t i v ef a c t o r ) 、力量因子( p o t e n c yf a c t o r ) 和活跃性因子( a c t i v i t y f a c t o r ) 。1 9 9 7 年h a t z i v a s s i l o g l o u 和m c k e o w n 把评价因子称为语义倾向性 旧。,他们在文献中尝试使用监督学习的方法对词语进行语义倾向判别,通过对 训练语料的学习,以此来进行语义倾向判别。从此,语义倾向性的研究在国外 得到了普遍的关注,并迅速发展起来。早期的研究大多集中在词这一水平上, 研究结果往往用于同义词或反义词识别以及词典的构建。近年来,网络文本的 语义倾向性分析开始受到关注,在线评论和新闻组的倾向性分析是其中两个研 究热点。 目前,针对英文在线评论的倾向性分析,涉及的领域包括汽车评论、电影 评论、旅游目的地评论、银行评论等。对于中文,语义倾向性研究还处于起步 阶段,无论汉语词汇还是汉语句子的语义倾向性研究,都在很大程度上借鉴了 英文词汇和英文文本的倾向性分析方法。除此之外,国内研究还在以下的一些 方面取得了进展:( 1 ) 基于中文语义词典的词汇倾向性分析。目前已经建设完 成的中文语义词典包括董振东先生的知网、梅家驹先生的同义词词林、 王国璋先生的汉语褒贬义词语用法词典、北京大学计算语言所开发的现 代汉语语义词典和山西大学构建的中文f r a m en e t 等,这些中文语义词典已经 被广泛用于中文文本的语义倾向性研究中。( 2 ) 基于汉语句法的句子倾向性分 析。针对汉语的特点,国内学者开发了针对汉语的词法分析器和句法分析器, 如哈尔滨工业大学信息检索实验室开发的汉语句法分析器d e p a r s e r 、中国科学 院计算技术研究所研制的汉语词法分析系统i c t c l a s 等。已有研究将汉语句法分 析结果应用于特征词与观点词的对应关系发现以及句子倾向性合成等旧。 语义倾向性分析属于计算语言学的范畴,文本的倾向性分析是自然语言处 理的一个方面,会涉及到数据挖掘和统计学的一些知识和方法。文本的倾向性 是由句子合成的,而句子的倾向性则是由词语的倾向性合成而来的,所以倾向 性分析会涉及词汇,句子,最后到整篇文档这三个层次。 2 1 1 词语倾向性分析现状 文本的倾向性研究是从词汇开始的,词汇是倾向性分析的前提和基础,一 般表达情感倾向的词语最主要的是形容词,也有少量的动词。词汇的语义倾向 性有小部分可以通过查相关字典可以得到,但大部分都没办法直接判别其倾向 性。如何正确的判别出给定词汇的褒贬倾向性,是目前研究的热点,主要的研 究方法如下: 4 ( 1 ) 构建领域词典的方法:基本思路是选择一些针对领域的观点词作为词典 的种子词,这些种子词的倾向性已经确定,然后使用在线词典,或者并列连词 等发现种子词的同义词或反义词,根据该词和种子词的关系来确定词汇的倾向 性,确定了语义倾向的词就加入观点词典,以此来达到扩展词典的目的。这种 方法对种子词数量的依赖比较明显。2 0 0 2 年,t u r n e y 在文献中提到,使用两 个极性已知且正负相对的词汇作为基准词,以此来判断其它词汇的语义倾向, 他使用了两个基准词,并且认为这个两个基准词代表了积极情感和消极情感的 类标,他在文献中还假设,与褒义基准词经常一起出现的词汇应为正面倾向的 词汇,而与贬义基准词经常一起出现的词则很可能是负面词汇。词汇的情感倾 向可以通过逐点互信息的方法计算得出,根据给定的阈值,词语的语义倾向可 以划分为褒义和贬义两个类别。2 0 0 3 年,t u r n e y 和l i t t m a n 在文献中又将原 来单对基准词扩展到多对基准词旧。,使用逐点互信息方法和潜在语义分析方法 计算给定词汇与正反面基准词对的关联程度,从而最终确定给定词汇的语义倾 向。 ( 2 ) 无监督机器学习方法:首先假设已经有了一些种子词,这些种子词的极 性已知,给定了一个新的词汇要判别其倾向性,我们可以根据它和种子词在语 料库中的联系的紧密程度,来对其情感倾向性进行推断。其实这种方法和情感 词典的方法很类似,只不过是度量词汇和种子词的联系紧密程度有所不同而已。 这种方法对种子词集的依赖性较强,而且噪声比较大。 2 1 2 句子倾向性分析现状 句子的倾向性分析是文本倾向性分析的基础,中文的倾向性分析研究主要 集中在句子层面,都是以词的极性分析为基础,合成句子的倾向性。对于句子 的倾向性分析已有的文献有,姚天叻,娄德成。在文献中提出,利用领域本体 来抽取观点词和它的属性,经过句法分析器分析来识别主题和情感描述间的关 系,以此来确定每个主题句的极性。潘宇,林鸿飞岬。通过构建好的极性词典,对 观点词进行情感分析,最后用观点词合成句子的倾向性。熊德兰,程菊明h 。提 出通过句法分析和词汇语义倾向性分析来衡量句子的褒贬倾向,用语义距离和 语法距离的计算为基础来识别句子的倾向性。王根,赵军w 等人在文献中提出, 把句子的主客观判别、褒贬分类和褒贬分级都统一在一起,提出了一个分级模 型,将句子分为主观和客观两类,主观句下面又可分成褒奖和贬斥两类,褒奖 和贬斥按程度不同可分为强烈和微弱两种,可以采用多重标记的方法来解决这 些分类标注。章建锋,张奇。等人在文献中提到,将同一句子中共现的评价词 与评价对象作为候选集合,应用最大熵模型并结合词、词性、语义和位置等特征 进行关系抽取,以此来确定评价词和目标对象之间的关联关系。 2 1 3 文本倾向性分析现状 在词汇和句子分析的基础上来进行文本倾向性分析,目前文本的语义倾向 性研究一般可以分为两类: ( 1 ) 基于语义的文本倾向性分析:语义分析方法的主要思路是将语义倾向性 问题转化为语义关联问题,通过目标词或短语与基准词之间的语义关联强度来 推断目标词或短语的语义倾向性,然后累加词或短语的语义倾向性得到句子乃 至文本的语义倾向性,其中词和短语的倾向性分析方法有s o p m i 、s o l s a 等, 句子和文本的倾向性分析通常采取简单平均法或者加权平均法。y i 等人u 。在文 献中提到,通过使用倾向性词汇表和倾向性模式库,对给定的句子和短语进行 语义关系分析,从而最终得到出文本的倾向性。刘永丹等人u 刮在文献中提出用 精简的格语法和语义框架表达文本中的语义关系,来对文本进行倾向性分析。 而郑宇等人。在文献中提出对文本进行倾向性分析,使用了倾向性词典,用倾 向性词典和语义规则匹配相结合的分析方法。 ( 2 ) 基于机器学习的文本倾向性分析:该方法的基本思想就是使用构造好的 褒贬分类器对文本进行分类,识别出文本的倾向性。已有国内外文献中所使用 的机器学习方法主要是有监督的学习方法,研究思路是将语义倾向性分析看做 一个文本分类问题,采用支持向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) 算法、 朴素贝叶斯( n a i v eb a y e s ) 算法、最大熵( m a x i m u me n t r o p y ) 算法、n - g r a m 算法等方法,让机器学会一个分类函数或模型,把文本映射到正面或负面的文 本类别中。2 0 0 2 年,p a n ge ta l 在文献中提出,使用标准的机器学习技术进行 文本分类工作u “,发现支持向量机的效果稍微比简单贝叶斯、最大熵方法好一 些。徐琳宏等人则在文献中首先通过选取褒贬倾向性强烈的词,然后用这些词 作为特征项,最后构造了一个支持向量机的褒贬分类器,从而对文本进行倾向 性分析。 2 2 基于语义的倾向性分析理论基础 语义倾向性分析方法也是从词汇粒度开始的,首先通过分析句子中的观点 词的语义倾向来合成句子的语义倾向,最后通过句子来合成整篇文本的情感倾 向。什么是语义倾向? 语义倾向就是指一个词汇与其基本义原的偏离程度。 对于汉语词汇,义原是一个非常重要的概念。那么到底什么事义原呢? 义原一 般而言,可以被认为是汉语中最基本的、不易于再分割其意义的最小单位。汉 语中的词语在不同的上下文语境中会有不同含义,所以如何定义一个词语的含 义会显得比较复杂。知网中为了能更好的理解汉语中词汇的含义,把词理解为 它所对应的所有义原的集合。在知网的知识辞典中,每一个词语的概念及其描 述就形成了一个记录。一个记录都主要包含四项内容,每一项均由两部分组成, 中间以“= 分隔,每一个“= 的左侧是数据的域名,右侧是数据的值。衡量 6 语义倾向主要是通过两个维度副u 剀,一个是方向另一个是强度,方向就是指 词汇表达的意义是正面的还是负面的;强度则是针对方向而言的,是指词汇表 达意义的强弱程度。目前,语义倾向性分析,主要是通过分析词汇间的关联程 度来确定词汇的倾向性。根据度量关联程度方法的不同,语义倾向性分析方法 大致分为两类,潜在语义分析和逐点互信息分析,除此之外,朱嫣岚瞄圳等人采 用知网中提供的功能,分别使用语义相似度和语义相关场计算词汇的语义倾向, 计算词语义原的相似程度以及词汇的关联程度,用计算的结果来度量词汇的语 义倾向性。 对于语义倾向性分析,目前在文献中提到的方法主要有以下三种:潜在语 义分析方法、逐点互信息方法、基于知网的语义倾向计算方法。 ( 1 ) 潜在语义分析方法 潜在语义分析( l a t e n ts e m a n t i ch n a l y s i s ,l s a ) 方法是一种使用统计计 算的方法对大量的文本集进行分析,从而提取出词与词之间潜在的语义结构的 方法m “。s d e e r w e s t e r 等人提出潜在语义索引( l a t e n ts e m a n t i ci n d e x i n g , l s i ) “引,假设在数据中存在着一些潜在的语义结构,这种语义结构被任意选 取的查询词部分地模糊化了,可以利用统计技术估计出这种潜在的语义结构, 并且摆脱含混的“噪声。基于这种潜在语义结构的词项和文档的描述用于建 立标引和检索。l s i 的基本思想是:首先从全部的文档集中生成一个“词项一文 档 关联矩阵,该矩阵的每个分量为整数值,代表某个词项出现在某个特定文 档中的次数。然后,将该矩阵进行奇异值分解( s i n g u l a rv a l u ed e c o m p o s i t i o n , s v d ) “,保留主要的关系模式,剔除较小的、不重要的奇异值。最后,可以通 过标准化得内积运算来计算向量之间夹角的余弦值以衡量其相似度,将候选文 档按其与查询的相似度大小降序排列。潜在语义分析可以用来计算句子之间的 相似性,以辅助解决汉语句子的主语省略问题。 ( 2 ) 逐点互信息方法 逐点互信息分析的方法是通过统计词语间共同出现的概率来计算两个词语 间的语义倾向“,定义如下: p m i ( w o r d l ,w o r d 2 ) = l 0 9 2 掣霉铡 p l w o r a i ) p l w o r a 2 ) 其中,p ( w o r d l & w o r d :) 是w o r d l 和w o r d 2 共同出现的概率,p ( w o r d l ) p ( w o r d 2 ) 是 两个词在统计独立条件下共同出现的概率。p ( w o r d l & w o r d 2 ) 和p ( w o r d t ) p ( w o r d 2 ) 之间的比率衡量了他们之间的统计独立程度。该比率的对数形式表示了我们发 现某一个词时,能得到另一个词的可能性。结果的p m i 值越大说明两个词汇的 相关性也越大。 根据逐点互信息的理论方法,词汇的语义倾向性计算的具体公式如下: s o p m i = p m i ( w o r d ,p w o r d ) 一p m i ( w o r d ,n w o r d ) 7 其中,p w o r d :是褒义基准词,n w o r d 是贬义基准词,一个词与褒义基准词集的 关联强度越大,则该词倾向于褒义的程度就越大,反之,它与贬义基准词集的 关联强度越大,则其倾向于贬义的程度就越大。 ( 3 ) 基于知网的语义倾向计算方法 知网副( 英文名称为h o w n e t ) 是机器翻译专家董振东和董强经过十多年的 艰苦努力创建的语言知识库,是一个以汉语和英语的词语所代表的概念为描述 对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的 常识知识库。 对于每一个单词怎样度量出其语义的倾向值呢,语义倾向值的大小与基准 词有关,把该单词与基准词的语义关联紧密程度作为语义倾向的度量值。对于 单词w 的语义倾向值计算公式如下: o r i e n t a t i o 刀( w ) = s i m i l a r i t y 一p j ,w ) - s i m i l a r i t y 畅一n 3 , w ) ( 1 ) 基准词一般都是成对出现的,其中,k e y - p 为褒义基准词,k e y n 为贬义基准词, o r i e n t a t i o nm ) 就是单词w 的语义倾向值,o r i e n t a t i o n ( w ) 数值大小代表单词w 的 语义倾向强烈程度,倾向值大于给定阈值零的为褒义,小于给定阈值零的为贬 义。s i m i l a r i t y ( k e y , w ) 的计算采用了两种不同的方法,即知网中的语义相似度计 算和语义相关场计算。 一、知网语义相似度计算词语的语义倾向值 知网中的语义相似度计算功能是根据刘群则论文中的提出的原理实现的。 通过计算两个词语义原之间语义相似度来确定词汇的语义相似度。我们可以随 机的选择两个词语输入,并准确的选取其义原,就可以得到两个词语的相似度 的度量值。对于公式( 1 ) 中的s i m i l a r i t y ( k e y ,w ) 采用知网的语义相似度计算功 能,计算出两个词语义原之间的相似度,最后保留词语义原相似度的最大值 s i m ( k e y , w ) ,以此来作为两个词语的语义相似度的度量值。 二、 知网语义相关场计算词语的语义倾向值 知网的语义相关场计算不同于语义相似度的计算,语义相似度是词语义原 问的相似程度,语义相关场则是两个词语之间的相互关联程度。语义相关场是 用两个词语在同一语境共同出现的概率来度量的。因此两个彼此相关程度很高 的的词语,一般而言语义会很相近,但也可能语义会相反。在知网中用语义相 关场计算功能可以得到一个义原的语义相关的一组词语。对于公式( 1 ) 中的 s i m i l a r i t y ( k e y ,w ) 采用知网语义相关场计算功能可以得到 s i m i l a r i t y ( k e y , w ) = 黑黧糕= 剖 以上式子中的r e l e v a n c e ( w ) 表示词语w 的所有义原,通过语义相关场计算得出的 所有词语的并集。r e l e v a n c e ( w ) c 、r e z p 蝴c e ( 坳) 表示两个词语相关场交集元素的 个数,r e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年新能源行业人才激励机制与绩效改进策略分析报告
- 汽车与交通设备行业新能源汽车电池回收与资源化利用政策分析报告
- 2025二手房交易合同范本电子版
- 蒲公英特点介绍
- 跨国科技公司境内股权转让及整合服务合同
- 离婚双方共同子女监护权与教育经费承担协议书
- 股权投资基金合同的法律风险分析与防范措施
- 旅游度假村投资合作协议的标的物运营管理与收益分配
- 生态校园建设背景下的私立学校校长聘任合同
- 离婚协议书范本:女方主动提出离婚财产分割协议
- 2025年未来就业报告
- 使用吹风机课件
- 安检流程课件
- 宠物经济下的宠物食品包装创新研究报告:2025年市场潜力分析
- 中国未来50年产业发展趋势白皮书(第四期)
- 2025年关于广告设计合同格式范本
- 临床基于MDT平台下的“5A”护理模式在改善脑卒中后顽固性呃逆患者中应用
- 蜂蛰伤的治疗指南讲课件
- 中学汉字听写大赛七年级组听写词语
- 小学科学名师工作室学员成长手册
- 直译与意译PPT课件
评论
0/150
提交评论