(计算机应用技术专业论文)基于语义的文本倾向性分析与应用研究.pdf_第1页
(计算机应用技术专业论文)基于语义的文本倾向性分析与应用研究.pdf_第2页
(计算机应用技术专业论文)基于语义的文本倾向性分析与应用研究.pdf_第3页
(计算机应用技术专业论文)基于语义的文本倾向性分析与应用研究.pdf_第4页
(计算机应用技术专业论文)基于语义的文本倾向性分析与应用研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 随着互联网技术的迅速发展,如今越米越多的人通过瓦联网发表他们对商品服 务的意见、交流对各种事件的看法,互联网已不仅仪是人们获取信息的仓库,更成 为人们发表观点、交流看法的园地,对于互联i 叫用户来说,互联网不仪改变了他们 的工作方式,同时也改变了他们的生活方式。通常,人们对某件事物进行评论或者 表达自己的观点的时候,常常足具有倾向性的,为了能从这些丰富的信息中提取出 有用的信息,文本的倾向性分析研究便应运而,了。对文本的倾向性进i r 分析,是 现在自然语言处理中比较活跃的一个领域,其日的是判断一篇文章对评价对象所持 有的倾向是支持还足反对。本文的主要工作概括如下: ( 1 ) 分析研究了传统的文本倾向性分析方法,并指出了其中的不足。通过对语 义信息和语义倾向的理论知识分析,讨论了i 种基于语义倾向的语义分析方法。 ( 2 ) 提出一种基于h n c 的语义相笑度方法计算词语的原始极性算法。在深入 研究h n c 基本理论的基础j :提出了基于h n c 概念摧元符号体系理论的语义相关度 计算方法,根据h n c 理论给出了语义棚关度计算策略,并实现了概念符号比较的量 化汁算的详细方法。最后将基于h n c 的语义相关度方法运用到嘲语的原始极性分析 上,从而可以较容易也较准确地计算出词语的原始极性。 ( 3 ) 提出一种改进算法计算词语的卜f 文极性。首先给冉文本倾向性算法的整 体框架,然后对算法的流程进行了详细的说明。由于忽略句子巾的火联词有可能导 致极性词的方向或者强度发生错误,所以提出基于上下义的训语的倾向性分析方法 来解决这一问题。利用计算极,阽成分在文本巾出现的j 度、密度和强度的方法,根 据极性词语的分布情况确定评论文本的倾向性。 ( 4 ) 在理论研究的基础上,将文本倾向性分析j 澎用到网络舆情监控系统一困保 情报系统中,实验表明,将文本倾向性分析应用到网络舆情盟控系统中可提高系统 的使用效率。 关键词:语义,文本倾向性,h n c 理论,网络舆情 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , n o wm o r ea n dm o r ep e o p l e e x p r e s st h e i rv i e w so nt h es e r v i c e so fg o o d sa n de x c h a n g et h e i ro p i n i o n so nt h ev a r i o u s e v e n t st h r o u g ht h ei n t e r n e t t h ei n t e r n e th a sn o to n l yb e e nt h ew a r e h o u s e so f o b t a i n i n g i n f o r m a t i o n ,b u ta l s ob e c o m et ot h ef o r u m sf o rp e o p l ee x p r e s s i n gv i e w sa n de x c h a n g i n g o p i n i o n s f o rt h ei n t e r n e tu s e r s ,t h ei n t e m e th a sn o to n l yc h a n g e dt h e i rw o r k i n gw a y ,b u t a l s oc h a n g e dt h e i rl i v i n gw a y u s u a l l y , p e o p l ec o m m e n to ns o m e t h i n go re x p r e s st h e i r o p i n i o n sw i t ho r i e n t a t i o n i no r d e rt o e x t r a c tt h eu s e f u li n f o r m a t i o nf r o mt h er i c h i n f o r m a t i o n ,t h ea n a l y s i so ft h et e x to r i e n t a t i o ni sb o r n a n a l y z i n gt h et e x to r i e n t a t i o ni s a na c t i v ea r e ai nn a t u r a ll a n g u a g ep r o c e s s i n g ,a n dt h eg o a li st oju d g et h eo r i e n t a t i o no f t h et e x ts u p p o r t i v eo rn e g a t i v e t h em a i nw o r ko ft h ea r t i c l ei ss u m m a r i z e da sf o l l o w s : ( 1 ) d e s c r i b et h em e t h o d so ft h et r a d i t i o n a lt e x to r i e n t a t i o na n a l y s i sa n dp o i n to u t t h e d e f i c i e n c y t h r o u g ht h ea n a l y s i so fs e m a n t i ci n f o r m a t i o na n dt h et h e o r e t i c a l k n o w l e d g eo fs e m a n t i co r i e n t a t i o n ,w ed i s c u s st h r e ek i n d so fs e m a n t i ca n a l y s i sm e t h o d s b a s e do ns e m a n t i co r i e n t a t i o n ( 2 ) p r o p o s ea na l g o r i t h mb a s e do nh n cf o rc a l c u l a t i n gt h eo r i g i n a lp o l a r i t yf o r w o r d s b a s e do nt h eb a s i c t h e o r y o fh n c ,t h em e t h o do f c a l c u l a t i n g t h e s e m a n t i c - c o r r e l a t i o nw h i c hi sb a s e do nt h es y s t e mo fh n c c o n c e p t sp r i m i t i v es y m b o l si s p r e s e n t e d t h e na c c o r d i n g t o t h eh n ct h e o r y ,t h ec a l c u l a t i o n s t r a t e g i e s f o r s e m a n t i c c o r r e l a t i o na r ep r o p o s e da n dt h ed e t a il e dm e t h o do fq u a n t i t a t i v ec a l c u l a t i o nf o r c o m p a r i n gt h ec o n c e p t ss y m b o l si sp r o p o s e da n dr e a l i z e d f i n a l l y ,t h em e t h o do f s e m a n t i c - c o r r e l a t i o nb a s e do nh n ci sa p p l i e dt ot h ea n a l y s i so ft h eo r i g i n a lp o l a r i t yf o r w o r d s ,s oi ti se a s i e ra n dm o r ea c c u r a t et oc a l c u l a t et h eo r i g i n a lp o l a r i t yf o rw o r d s ( 3 ) p r o p o s ea ni m p r o v e da l g o r i t h mt oc o m p u t et h ec o n t e x tp o l a r i t yf o rw o r d s f i r s t , t h eo v e r a l lf r a m e w o r ko ft h et e x to r i e n t a t i o na l g o r i t h ma n dt h e n g i v et h ed e t a i l e d d e s c r i p t i o no ft h ea l g o r i t h mf l o w b yi g n o r i n gt h ea s s o c i a t e dw o r d si nt h es e n t e n c e sm a y l e a dt ot h ew r o n g j u d g m e n to ft h ed i r e c t i o na n di n t e n s i t yf o rw o r d s ,s ot h eo r i e n t a t i o n a n a l y s i sm e t h o db a s e do nc o n t e x ta n a l y s i si sp r o p o s e dt os o l v et h ep r o b l e m u s i n gt h e m e t h o do fc a l c u l a t i n gt h ee x t e n t ,t h ed e n s i t ya n dt h ei n t e n s i t yo fp o l a r i t yw o r d s ,w ec a n d e t e r m i n et h eo r i e n t a t i o no ft h et e x ta c c o r d i n gt ot h ed i s t r i b u t i o no ft h ep o l a r i t yw o r d s ( 4 ) b a s e do nt h et h e o r e t i c a lr e s e a r c h t h ea n a l y s i so ft e x to r i e n t a t i o ni sa p p l i e dt ot h ep u b l i c o p i n i o nm o n i t o r i n gs y s t e m ,a n dt h es u b s y s t e mo fp u b l i co p i n i o nm o n i t o r i n h en a t i o n a ls e c u r i t y i n t e l l i g e n c es y s t e m t h ee x p e r i m e n ts h o w st h a t ,a p p l y i n gt h et e x to r i e n t a t i o na n a l y s i st ot h ep u b l i c o p i n i o nm o n i t o r i n gs y s t e mc a ni m p r o v et h es y s t e me f f i c i e n c y k e yw o r d s :s e m a n t i c ,t e x to r i e n t a t i o n ,h n ct h e o r y , o n l i n ep u b l i co p i n i o n 图表清单 图2 1 自然语言的语义9 图3 1h n c 理论的基本构成一l8 图3 2 算法框架一2 2 图3 3 基准词数量对实验效果的影响一2 5 图4 1 算法整体框架2 7 图4 2l c t c l a s 中文分词2 8 图4 3i c t c l a s 中文分词结果2 9 图4 4 改进的算法流程图3 3 图5 1 网络舆情监控系统框架图3 9 图5 2 趋势展示界面一话题热度变化图4 4 图5 3 趋势展示界面一观点对立度变化图4 5 表3 1h n c 概念组合符号的含义和示例1 9 表3 2 权重的初始指定值2 1 表3 3 测试集3 2 3 表3 4 一般词汇表中的褒义词2 4 表3 5 一般词汇表中的贬义词2 4 表3 6 不同计算方法下的词语极性判别准确率2 5 表4 1 主客观句判别算法3l 表4 2 否定词词表3 4 表4 3 程度副词词表3 4 表4 4 词语极性识别结果3 5 表5 15 个话题的评论分布4 3 表5 25 个话题的极性、热度、观点对立度、焦度计算结果( 其中= o 8 ,- - 1 0 0 0 ) 4 :; v 注释表 h n ch i e r a r c h i c a ln e t w o r ko f c o n c e p t s ,概念层次网络 h o w n e t 知网 w o r d n e t 语义网络 p m l p o i n to f c o n t a c ti n t b r m a t i o n ,点态互信息量 c r fc o n d i t i o n a lr a n d o mf i e l d ,条什随机域 n l pn a t u r a ll a n g u a g ep r o c e s s i n g 自然语言处理 n l u n a t u r a ll a n g u a g eu n d e r s t a n d i n g ,r 1 然语言理解 s o p m is e m a n t i co r i e n t a t i o nf r o mp o i n t w i s em u t u a li n f o r m a t i o n ,逐点语义分析 s o l s is e m a n t i co r i e n t a t i o nf r o ml a t e n ts e m a n t i ci n d e x i n g ,潜在语义索引分析 s v d s i n g u l a rv e c t o rd e c o m p o s i t i o n ,奇异值分解 v s mv e c t o rs p a c em o d e l ,向量空问模型 d f 文档频率 i d f 倒排文档频率 n p o s p a r t o f - s p e e c h 语法功能词性 v i 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的 研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人 完全意识到本声明的法律结果由本人承担。 学位论文作者签名:扔关呐 日期:w 0 1 年 1 2 月 1 8 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部 内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在年解密后适用本授权书。 本学位沦文属于 , 不保密凹。 学位论文作者签名:畅兵阑 签字日期:弘听年肛月f 2 日 导师签名:毒邑昱敏 签字日期:矽哆年厶月锣日 江苏大学硕士学位论文 1 绪论 1 1 研究意义 随着网络技术的迅速发展,网络上信息资源急剧增长。海量的信息资源虽然为 我们带来了极大的便利,却也常让我们困惑不已。因为在庞杂的信息资源面前我们 常常无从下手,不知所措。于是如何能快速有效地利用网络信息已成为人们关注的 焦点。大量的网络信息挖掘工作相继展开,其中一些已相当成熟,i :l 女i 网络信息的 主题分类( 即属于经济,还是体育、军事等) 技术。但对网络信息其他领域的研究 却相对匮乏,比如互联网上的倾向性分析。 对于互联网用户来说,互联网不仅改变了他们的工作方式,同时也改变了他们 的生活方式,如今越来越多地人通过互联网发表他们对商品服务的意见、交流对各 种事件的看法,互联网己不仅仅是人们获取信息的仓库,更成为人们发表观点、交 流看法的园地。通常,人们对某件事物进行评沦或者表达自己的观点的时候,常常 是具有倾向性的,为了能从这些丰富的信息中提取出有用的信息,文本的倾向性分 析研究便应运而生了。语义倾向识别i 、u j 题在许多领域都有着蕈要而不可替代的应用, 尤其在研究领域、商业领域、管理领域、社会舆情分析等领域都有着相关的研究和 应用,并具备极大的实用价值。 ( 1 ) 研究领域 通过这种计算机自动分析大规模文本中的倾向信息的技术,能够为文本过滤、 自动文摘、文本分类等自然语言处理的研究提供新的思路和新的手段。例如:在文 本过滤中,可以对语义倾向度量值设定一个合适的阂值,对于倾向值高于或者低于 该阈值的文章,也就是态度倾向过于偏激的文章进行过滤操作;或者可以将倾向值 赋予一定的权值,以此作为文本过滤中一个需要考虑的因素。在自动文摘中,可以 将具有强烈态度倾向的语句作为关键句摘出,从而町以更好地保留原作者的观点和 意见。同时,文本的倾向分析本身就可以作为一个特殊的文本分类问题来处理,和 一般文本分类所不同的只是在于其分类的依据是文本作者的观点倾向性,这就导致 了一些不同于传统文本分类方法的新方法的产生,这些新方法对于研究一般的文本 分类问题也有着一定的借鉴意义。 ( 2 ) 商业领域 通过倾向性分析可以为企业进行市场分析、市场调奄、从顾客反馈得到更多有 价值的信息。例如,当人们要购买一件商品时,都希望能了解已经使用过该商品的 人的倾向性意见作为参考,而作为商家,可以通过客户偏好的研究来确定产品的信 江苏大学硕士学位论文 誉度,以制定新的产品营销策略,提高企业收入。 ( 3 ) 管理领域 从网络信息管理的角度来看,通过倾向性分析,网络管理人员可以迅速掌握网 络信息的价值及目的,从而根据需要判断出是否为垃圾信息或违法信息,以便及时 作出相应处理。对政府管理部门,通过倾向性分析,网络信息可为了解民众意向、 制定政策和改善服务提供重要依据。特别地,对国家安全机构,需要随时了解网络 信息内容的安伞性,识别是台存在反动、诈骗、不良信息传播的潜在可能性,以做 到及时防范。 ( 4 ) 社会舆情分析 舆情是指在一定的社会空i 、开j 内,围绕中介性社会事件的发生、发展和变化,民 众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、 问题所表达的信念、念度、意见和情绪等表现的总和。舆情信息的主要来源有:新 闻评论、b b s 、聊j 天窄、博客、聚合新闻( r s s ) 等。同时,网络的开放性和虚拟性, 使得人们町以通过b b s 、新闻点评和博客网站立即发表意见,民意表达更加畅通; 同时,一个热点事件的存在加上一种情绪化的意见,也可能成为点燃一片舆论的导 火索;另外,由于发言者身份隐蔽,并且缺少规则限制和有效监督,网络自然成为 一些网民发泄情绪的空问,使得网络上史容易出现庸俗、灰色的言论。因此,对现 实巾出现的各种网络舆论,社会管理者可以利用文本情感分类计数对网络舆情进行 分析,从而加以控制和引导,防微杜渐,防患于未然。 综上所述,文本倾向性分析研究有着广阔的应用前景,可以创造出巨大的社会 和经济效益。由于网上文本的形式及内容的任意丌放性,致使文本的倾向性分析研 究特别网难,通常需要统计学、自然语言处理、语言学等多学科手段的交叉。 1 2 国内外研究现状 文本倾向性分析属于计算语言学的范畴。以前,在计算语言学以及相关领域, 研究人员普遍关注的事客观忡信息的分析和提取,对主观性信息分析与提取的研究 尚处于起步阶段,其中存在的很多i u j 题都需要进行全面探索。这项研究涉及到计算 语言学、统计学、数据挖掘和自然语言处理等多方面研究内容。因此,文本倾向性 分析也具有重要的学术研究价值。 总体来看,文本倾向性分析的研究大致可以分为词语倾向性分析、句子倾向性 分析和文本倾向性分析三个研究层次。接下来将介绍在各个层次所取得的研究进展。 1 2 1 词语倾向性分析现状 对词语的倾向性进行研究是文本倾向性分析的前提。具有倾向性的词语以名词、 动词、形容训和副词为主。其中,除部分词语的极性( 或称为褒贬性,通常分为褒 2 江苏大学硕士学位论文 义、贬义和中性三种) 可以通过查词典的方式得到之外,其余词语的极性都无法直 接获得。此外,词语的倾向性还包括倾向性的强烈程度。例如,“兴奋”的强度就远 远超过“高兴”,而这种程度很难由词典编撰者用人工的方式进行量化。另外,词语 的极性往往取决于特定的上下文环境。例如,“骄傲”在表示“自豪”概念时,是褒义 词;而在表示“自满”概念时,则是贬义词。 词语倾向性分析f 1 前主要有以下三种方法: ( 1 ) 由已经有的电子词典或词语知识库扩展生成情感倾向词典。英文词语情感 倾向信息的获取主要是在w o r d n e t 和g e n e r a li n q u i r e r 的基础上进行的文献;而中文 词语情感倾向信息的获取依据主要有h o w n e t 。这种方法的主要思想是,给定一组已 知极性的词语集合作为种子,对于一个情感倾向未知的新词,在电子词典中找到与 该词语义相近并且在种子集合中出现的若干个词,根据这几个种子词的极性,对未 知词的情感倾向进行推断。这种方法对种子训数量的依赖比较明显。例如,t u m e y l 2 j 使用两个i j 7 e “e x c e l l e n t ”与“p o o r ”作为基准词来削断其它词汇的语义倾向,并认为这 两个基准词代表了情感分类的类标“p o s i t i v e ”和“n e g a t i v e ”,同时,文献中还假设,与 “e x c e l l e n t ”经常一起出现的词汇倾向应为正面词汇,而与“p o o r 经常一起出现的则很 i 叮能足负面词汇。通过p m i i r 方法,计算词语的情感倾向值,根据给定的阐值把词 语划分为褒义和贬义两个类别。随后,t u m e y 和l i t t m a n 又将单对基准词扩展到多对 基准词,使用p m i i r 和l s a 算法度量了给定词汇与讵面基准词和反面基准词的 关联程度,并对两个数值进行比较,最终确定词汇的语义倾向。 ( 2 ) 无监督机器学习方法。这种方法与第一种方法类似,也是假设己经有一些 已知极性的词语作为种子词,对于一个新词,根据它和种子词的紧密程度对其情感 倾向性进行推断。不同的是,第一种方法的词语紧密程度的度量足以词典信息为依 据判断,而这种方法是根据例语在语料库中的| 一j 现情况判断其联系紧密程度。根据 文献【3 】的经典方法,假设以“真、“善”、“美”作为褒义种子词,“假、“恶”、“丑”作 为贬义种子词,则任意其它词语的语义倾向定义为,将与各褒义种子词的点态互信 息量( p o i n to f c o n t a c ti n f o r m a t i o n ,p m i ) 之和,减去与各贬义种子词的点态互信息 量之和后所得的结果。语义倾向的正负号就町以表示词语的极性,而绝对值就代表 了强度。词语a 和b 的点态互信息量定义为它们在语料库中的共现概率与a 、b 概 率之积的比值。这个值越高,就意味着相关性越大。有趣的是,点态互信息量计算 可通过搜索引擎进行。计算a 的概率,可以把a 当作查询送给搜索引擎,那么返回 的h i t s 值( 含有a 的页面数) 和总的索引页面数的比值,就可以认为是a 的概率。 要计算a 和b 的共现概率,只要把a 和b 同时送给搜索引擎即可。这种方法同样 存在着对种子集恶依赖性比较强的问题,而且噪声比较大。 ( 3 ) 基于人工标注语料库的学习方法。首先对情感倾向分析语料库进行手工标 3 江苏大学硕士学位论文 注。标注的级别包括文档级标注( 即只判断文档的情感倾向性) 、短语级标注和分词 级标注。在这些语料的基础上,利用词语的共现关系、搭配关系或者语义关系,判 断词语的情感倾向性。这种方法需要大量的人工标注语料库,典型的工作如威博 ( w i e b e ) 利用词语的搭配模式发现在主观性文本中的倾向性词语及其搭配关系。 1 2 2 句子倾向性分析现状 词语倾向性分析的处理对象是单独的词语或者实体,而句子倾向性分析的处理 对象贝l j 是在特定上下文中出现的语句。在句子倾向性分析的基础上,可以很方便地 进行文本的倾向性分析。 对于句子的倾向性分析,有关英文信息的研究很少,而对中文的研究主要集中 在句子倾向性论述的某个侧面。王根,赵军等人1 3j 提出了一个分级模型,可以将句 子的主客观性判别、褒贬分类和褒贬分级统一在一起:将句子分为主观句和客观句, 主观句分成赞扬和贬斥两类,每类再分成强烈和微弱两种强度,并提出了一种基于 多重标记c r f ( c o n d i t i o n a lr a n d o mf i e l d ,条件随机域) 的方法加以解决。章建锋 等人1 4 j 在中文评价挖掘中的主观性关系抽取中针对的具体任务是抽取评价词和 目标对象之间的关联关系。这里的关联除了句法上的直接天联,还包括语义上的间 接关联。目标对象又细分为直接评价对象和问接评价对象两种。他们把在同一句子 中共现的评价词与评价对象作为候选集合,应用最大嫡模型进行关系抽取。2 0 0 4 年 上海大学计算机研究所的z h o n g c h a of e i i5 ,主要是通过分析文本中旬子的词性组成 来进行的。他通过提取有代表性的训语,利用这些词语组成句子词性组成模式对照 表,计算不同的词性组成模式在不同的类别中的语义倾向度( 需要训练得到) j 然后 对句子的词性模式根据对照表进行对号入座,得出该句子的倾向性分析得分。 1 2 3 文本倾向性分析现状 文本倾向性分析就是对用户对某个事物的看法或评论文本的挖掘,从而得到该 看法或评论是属于对该事物的积极或消极意见。目前,国内外对于文本倾向性的研 究大体上分为两大类:基于语义的以及基于机器学习的文本倾向性研究。 ( 1 ) 基于语义的文本倾向性分析:基于语义的文本倾向性研究方法主要有两种。 第一种是先对待分析文奉中的形容词或能够体现主观色彩的短语进行抽取,然后对 抽取出来的形容训或短语逐一进行倾向性判断并赋二哥一个倾向值,最后将上述所有 倾向值累加起来得到文章的总体文本倾向性。第二种基于语义的文本倾向性的研究 方法是预先建立一个倾向性语义模式库,有时还会附带一个倾向性字典。然后将待 估文档参照语义模式库做模式匹配,最后累加所有匹配模式对应的倾向性值从而得 到整个文档的倾向性。等人【6 j 就使用一个倾向性词汇表和一个倾向性模式库来对 抽取出来的句子和短语进行语义关系分析,进而得到产品评论的文本倾向性。刘永 丹等人1 7j 将己有的语义分析技术用于倾向性判断,用精简的格语法和语义框架表达 4 江苏大学硕士学位论文 文本中的语义关系并进行倾向性分析。而郑宇等人1 8 l 采用了倾向性词典和语义规则 匹配相结合的分析方法米进行倾向性文本过滤。 ( 2 ) 基于机器学习的文本倾向性分析:其思想就是先通过人工标注一些文档的 倾向性,并将这些文档作为训练集,再通过机器学习的方法构造一个褒贬两类分类 器。最后使用构造好的褒贬两类分类器对待估文档进行分类,即识别出该文档的倾 向性。p a n g 等人桫j 分别使用朴素贝叶斯( n a t i v eb a y e s ) 、最大熵( m a x i m u me n t r o p y ) 及支持向量机( s u p p o i r tv e c t o rm a c h i n e s ) 方法进行文本倾向性研究,并对三种方法 作了比较分析,发现三者的效果差别并不太大,s v m 的效果稍微比前两种方法好一 些。徐琳宏等人i lo j 就是选取褒贬倾向性比较强烈的词作为特征项,构造了一个s v m 褒贬两类分类器来进行文木倾向性分析的。 综卜所述,信息时代人们对文本的语义倾向性分析的需求十分迫切,其中也蕴 含着极大的商机,文本倾向性分析的发展将在垃圾邮件过滤、信息安全、自动文摘 和网络舆情等众多领域发挥着重大的作用。虽然文本倾向性分析的研究道路还十分 曲折,但是无可否认,基于语义的文本倾向性分析将有一个美好的明天。 1 3 本文的主要工作 本文在前人研究的基础上,针对文本中带有主观性色彩的句子,研究极性词语 的上下文极性,并月尝试着利用自然语言处理技术,引进h n c ( h i e r a r c h i c a ln e t w o r k o fc o n c e p t s ,概念层次网络) 理论,并解决句子中关联词和修饰词对词语极性分析 造成的影响。主要工作如下: ( 1 ) 语义本质的研究。关于自然语言处理的语言理论,目前主要有基于语法的 语占理解系统和基丁语义的语言理解系统。前者从句法形式入手;后者从指称关系 入手。两种理解系统在文本输入、预处理和自动分词等早期环节上基本相| 一j ,不同 的足基于语法的理解系统先进行词法和句法分析,后进行指称和知识分析,认为句 予的句法特点取决于语义,理解一个语言形式的意义必须激发相关认知领域中的其 它认知结构。所以,语法结构只是语义结构的表层投影,基于语义的理解系统才符 合语言的牛成机制。语义描述是不依赖特定语言的,即与语言无关的。事实上,人 类语言的本质属性足语义性,其他属性都是它的派生。不同的自然语言之问尽管结 构类型迥然不同,但之所以能够互译,其基础就是存在可互通性语义。 ( 2 ) 引进h n c 理论,通过研究基于h n c 的语义相关度方法计算词语的原始极性。 h n c 理论是一个关于自然语言理解处理的理论体系,通过分析基于h n c 理论的语义 相关度计算方法,给出基于h n c 理论的词汇语义倾向性计算。h n c 理论从一开始就 是从概念的关联性出发而不是仅对词语或概念进行简单的聚类,利用h n c 的概念联 想脉络就可以非常容易地发现词语之间的语义相关性,也可以容易地给出其量化的 江苏大学硕士学位论文 数值。 ( 3 ) 对文本进行中文分词和词性标注后,提取出具有丰观陆的句子。文本倾向 性分析的目的是要对整个待分析文本的倾向性做出判断,即需要对文本中作者完整 表达出来的对指定事物的褒贬意思做出判断。而句子正是最小的能独立运用能表达 完整意思的语言单位。但是,文本中还有一些没有表达倾向性的非主观句子,因此, 排除掉这些非主观句子可以提高文本倾向性分析的效率。 ( 4 ) 对传统的词语倾向性分析方法进行改进。在对主观句子中的极性词进行倾 向性分析时,关联词及修饰词有可能会改变极性词的倾阳性或强度,因此可以根据 对词语上下文的分析,判断出关联词的类别及修饰词的程度。这样不仪可以确保正 确地识别其极性方向,还可以更准确地识别词语极性强度。 ( 5 ) 给出了一个具体的应用实例系统一网络舆情监摔系统。网络舆情监控系统 是一个结合了互联网搜索技术和中文智能信息挖掘的互联网舆情监控和分析系统, 提供对互联网海量信息自动采集、自动监控和分析的功能,为用户掌握网络舆情提 供有效的分析依据。本文通过利用文本倾向性分析对舆情关键点进行建模与发现, 提高了系统的实用价值。 1 4 本文的组织结构 本文主要对基于语义的文本倾向性进行研究和实践,并将其应用到舆情监控系 统中。论文共分六章,其组织结构如下: 第1 章,绪论。主要是介绍了选题的背景和意义,阐述了国内外r 前词语、句子 以及文本倾向性分析的研究现状,提出了本文的主要工作,并对论文结构进行了安 排。 第2 章,理论基础。主要是对传统的文本倾向性分析方法进行了分析并指出了 其中的不足,在此基础上提出了基于语义的文本倾向性分析。同时介绍了语义倾向 的相关概念以及基于语义倾向的语义分析的三种方法。 第3 章,详细介绍了h n c 理论及其基本内容,在此基础上提出了基于h n c 理论的 语义相关度计算方法,并将此方法应用到对词语的原始极性分析上,通过实验分析 证明了此算法的有效性。 第4 章,首先介绍了文本倾向性算法的整体框架,然后对算法的流程进行了详细 的说明,并提出了基于上下文的词语的倾向性分析方法对原有算法进行了改进。同 时利用计算极性成分在文本中出现的广度、密度和强度的方法,根据极性词语的分 布情况确定评沦文本的倾向性。最后通过实验测试证明了该算法的有效性。 第5 章,介绍了一个应用实例网络舆情监控系统,将文本倾向性分析应用到 舆情监控系统中,在对评论文本进行倾向性分析的基础上,发掘极性话题、焦点话 6 江苏大学硕士学位论文 题、敏感话题等舆情分析关键点的特性,给出了相应的数学模型,并设计了一个网 络舆情j | :i 控子系统国保情报系统,展示了将文本倾向性应用到舆情监控系统中 的结果,以提高网络舆情监控系统的实用价值。 第6 章,研究工作总结与展望。对全文的研究工作做了全面的总结,阐明了作者 的主要研究观点,并对课题研究进行展望。 7 江苏大学硕士研究生毕业论文 2 基于语义的倾向性分析理论基础 2 1 传统的文本倾向性分析方法的研究 文本倾向性分析的方法目前有:关键词测定、词汇类同、统计方法、手工制作 模式以及使用一种人规模真实世界知识来归类同常情境所含“基本”倾向性类型的方 法。 在各种算法巾,词汇类同分析方法不仅能明显判断出带有倾向性的词汇,还能 赋予训汇对某种情感可能的类同度,要比关键词测定智能些。另外,词汇类同度的 概率计算常受到语料库文本体裁偏差的影响,因此很难建立一个能再次利用的、独 立于语域的模式。 基于统计的n l p 方法( n a t u r a ll a n g u a g ep r o c e s s i n g ) 通过对训练集进行情感标 注,得h ,。种算法使机器f i 仪能像天键词测定法那样学习情感词汇的情感评价,而 月省邑像洲汇类同分析法一样考虑其他任意词的情感配价、标点和词汇共现频率。该 法在义本的倾阿陛分类中广泛使用潜在语义分析( l a t e n ts e m a n t i c a n a l y s i s ,l s a ) 等 统计方法,但目d 仃它在分析倾向性意义不明显的非关键词时的稳定性仍不高。此外, 基丁统计的文本分类法只在有足够人的文本输入时准确率才可以接受,对小单元的 文本倾阿| 生分析则不准确。 另外将倾向性分析视为一个深层故事的理解时采用的方法叫手工制作模型法。 d y e r 的d a y d r e a m e r 就是在心理学有关人类需求、目的和欲望的理论上分析倾向 性状态的于工模型。由于建立这样的模型需要对所分析文本有一个深层的理解,而 且对语义剖析的要求非常高,其应用范围十分有限。 基j :真实世界知识的文本倾向性分析模式与词汇类同分析法的相似之处在于其 概念和h 常情境都有一个情感配价几率,且具有一定的普遍性和鲁棒性。因为倾向 性在该方法中是处于故事句子概念水平的,所以该方法受否定旬或词汇歧义的干扰 较小。另外,该法所用的世界知谚 来自一个大规模的常识知识库,与词汇类同分析 法通常从已标注的语料库和训典巾挖掘统计模型不同。但该方法以知识库为前提, 目前很少被采用。 2 2 基于语义的文本倾向性 2 2 1 语义信息 “语义是什么”一直以来都是一个被激烈争论的哲学难题。古希腊时代柏拉图提 出,词语的意义就是其所指对象,这种观点称为真值论。维特根斯坦反对真值论, 8 江苏大学硕士研究生毕业论文 他认为词的意义是它在语言巾的用法,他的理论叫做用法论。到目前为止,关于什 么是语义的争论仍在进行,但显然不论是哪种观点,对于计算机自然语言理解的研 究来说,语义的定义显得极为关键。对语义的不同理解,则语义的计算机形式化及 进一步处理就会有着不同的方法和思路。 ( 1 )如果认为语义是词语的所指对象,那么为了让计算机真正理解“狗”这个 词,就需要将世界上所有形式的“狗”在计算机当中肜式化,利用词语所指对象的集 合来表示语义。 ( 2 ) 如果认为语句的意义与命题的真假有关,那么就需要根据现实世界的实 际情况对命题赋予真值,然后将命题连同其真值一并在计算机当中形式化,并根据 真值来实现对语言的理解。 ( 3 ) 如果认为词的意义是它在语言中的用法,那么就要从它和其他词语的搭 配,词语在语句中的位置,以及它和整个语境的关系等等这些角度出发,利用这些 显性的特征来刻厕词语的意义。 可见“语义”的定义是自然语言理解技术的基石。从本质上讲,对于语义的不同 理解和争议时来自研究者的研究角度不同。但之所以会有这么多不同的研究角度是 人类对思维和认知过程研究的薄弱造成的。人们不能直接观察内部心理过程或思维 过程,只能通过观察输入和输出的东西来加以推测。用的方法就是从可观察到的现 象来推测观察不到的心理过程。这样就难免造成由于不同的观察角度得到不同的结 论。 由于这样的研究都是从一类可观察到的语言现象出发,因此很难涵盖所有语言 现象。指称论对于那些抽象的词语便很难说清它的意义,如“大于”,“喜欢”,“知性”。 真值论过于依赖客观存在,例如,“亚当和夏娃住在伊甸园中”这一命题以真值论的 观点是没有意义的。用法论则过于强凋语言的用法,但显然在语言巾,有些词用法 不同,意思却一样;而有些词用法相同,意思却大相径庭。 自然语言 j l 话 h 1 r 心理模型 图2 1 自然语言的语义 f i g 2 1s e m a n t i co f n a t u r a ll a n g u a g e 9 江苏大学硕士研究生毕业论文 幸运的是有些问题都可以通过信息加工理论和心理模型理论得到很好的回答。 本文的观点建立在上述对于语言本质讨论的基础上,把语言符号所对应的心理模型 作为人类大脑对语言的理解,称作语义,如图2 1 所示: 近些年,随着自然语言处理在词性标注、词义消岐和句法分析等方面都得到了 快速发展。人们开始把对语言更高层次的理解和挖掘应用到信息检索相关的诸多领 域,出现了以计算理论为基础的基于矩阵分析的潜在语义分析方法i l ,还有基于统 计的分析方法,通过挖掘大量文本预料中词条的共现关系,提取出分布语义词典, 并将该词典资源用于文本分类的语义概念模型【1 2 j 【13 1 。另外,基于词聚类1 4 1 的方法目 前也已经得到许多研究者的认可。这些方法使人们对于文本信息处理不再停留在单 词的出现频率上,而足将单词出现时所处的上下文信息充分地利用。 2 2 2 语义相似度和语义相关度 语义相似度和语义相关度是类似的两个概念。语义相似度i i5 j 足两个词在不同的 上下文中可以互相替换使用而f s i m i l a r i t y ( k e y - n ;,w ) ( 2 4 ) ,= l j = l 其中,公式中的s i m i l a r i t y ( k e y ,w ) 的计算分别采用了h o w n e t 语义相似度和语义 相关场两种方法。 利用h o w n e t 语义相似度计算词语的语义倾向值,则 公式( 2 4 ) 中的s i m i l a r i t y ( k e y ,w ) = s i m ( k e y ,w ) ( 2 5 ) 1 4 江苏大学硕士研究生毕业论文 利用h o w n e t 计算两个词语义原之间的相似度,取两个词语义原之间相似度的 最大值作为跏( 铆,w ) 。 利用h o w n e t 语义相关场计算词语的语义倾向值,则 蛾2 m 的s i r e ,l a r i t y ( k e y , w ) = 篙焉书锱旺6 , h o w n e t 的语义相关场的获得是以义原为单位,即给出一个义原,可获得属于其 相关场的词语集合。这里所说的r e l e v a n c e ( w 1 表示单词w 所有义原的语义相关场词 语的并集。公式( 2 6 ) 的分子和分母分别表示两个词语相关场交集和并集的元素个 数。 基于h o w n e t 的语义倾向判别,有许多值得商榷和改进的余地。例如,在基准 词的选择方面,选择一些具有代表性且倾向性强

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论