(计算机应用技术专业论文)中文情感词汇本体的构建及其应用.pdf_第1页
(计算机应用技术专业论文)中文情感词汇本体的构建及其应用.pdf_第2页
(计算机应用技术专业论文)中文情感词汇本体的构建及其应用.pdf_第3页
(计算机应用技术专业论文)中文情感词汇本体的构建及其应用.pdf_第4页
(计算机应用技术专业论文)中文情感词汇本体的构建及其应用.pdf_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大连理工大学硕士学位论文 摘要 情感计算是人工智能的一个热门的研究领域,它的目标是使计算机拥有情感,能够 像人一样自然亲切的交流。随着i n t e r n e t 的发展,以文本形式出现的信息越来越多,逐 渐成为我们最容易获取也是最为丰富的一种交互资源,然而国内文本情感分析方面的研 究较少。 本文首先构建情感识别所需的语义资源,情感词汇本体库。根据目前情感分类发展 的现状,确定情感分类体系,在此基础上综合现有的各种情感词汇资源构造情感词汇本 体。在本体的知识获取过程中采用手工分类和自动获取相结合的方法填充词汇本体的框 架,详细描述了词汇的情感类别、强度和极性等,并进一步统计了情感词汇的分布情况。 在资源建设的基础上,为了减轻资源建设的人工劳动量,本文提出了基于c r f 的 情感词汇自动获取方法。将情感词汇的词汇自身规律,上下文规律,以及这些规律之间 的搭配与机器学习方法相结合,实现情感词汇的自动获取。并且根据实验结果,分析各 种规律对于情感词汇自动获取的作用,从而寻找出最佳的特征集用于情感词汇的自动获 取。实验最后对结果进行了进一步的错误分析,找出了导致错误发生的主要原因。 在情感词汇中,存在词汇的多情感现象。我们把在不同的上下文中,表达不同情感 的词汇称为多情感词汇。多情感词汇的获取采用了自动获取和人工确认相结合的方法。 在自动获取部分,使用了同义词词林确定多义词,并提出了大多数多情感词汇是多 义词的假设。多情感词汇的获取及描述还参考了情感词汇本体库中的相关信息。在人工 确认部分,指出了多情感词汇和含有多个情感的词汇之间的区别,为词汇的情感消歧指 明了目标。 由于多情感词汇的存在,那么就需要对多情感词汇,在特定的上下文中,进行词汇 的情感消歧。根据词汇的情感消歧和词义消歧的相似性以及差异性,在现有的各种词义 消歧的方法中,选用贝叶斯模型,用于词汇的情感消歧。同时还做了3 个实验基于 常用情感的词汇情感消歧、基于词性的词汇情感消歧,基于词性及情感频率的词汇情感 消歧。对这4 个实验的消歧结果的比较分析,表明了基于贝叶斯模型的词汇情感消歧的 有效性。 关键词:情感计算;情感词汇本体;情感消歧;本体自动扩充 中文情感词汇本体的构建及其应用 t h ec o n s t r u c t i o na n d a p p l i c a t i o no fc h i n e s ee m o t i o nw o r do n t o l o g y a b s t r a c t a f f e c t i v ec o m p u t i n gh a sr e c e i v e dm o r ea n dm o r ei n t e r e s t si nt h ef i e l do fa r t i f i c i a l i n t e l l i g e n c e ,a n di t sg o a l sa l et h a tt h ec o m p u t e rh o l d se m o t i o n s j u s tl i k eh u m a nb e i n g s ,t h e c o m p u t e rc o u l dc o m m u n i c a t ea m i a b l ya n dn a t u r a l l y w i t ht h ed e v e l o p m e n to fi n t e r n e t ,t e x t u a l i n f o r m a t i o nb e c o m e st h er i c h e s ti n t e r a c t i v er e s o u r c e s ;h o w e v e r , f e wr e s e a r c h e sh a v ef o c u s e d o na f f e c t i v et e x ta n a l y s i s s ow ec o n s t r u c t e dt h ec h i n e s ea f f e c t i v el e x i c o no n t o l o g yf i r s t l y n ep a p e ra n a l y z e dt h e s t a t u so ft h ee m o t i o n a lc l a s s i f i c a t i o n ,a n dt h e nc l a s s i f i c a t i o ns y s t e r nw a sd e t e r m i n e d f i n a l l y 。 a f f e c t i v el e x i c o no n t o l o g yw h i c hs y n t h e s i z e sv a r i o u sr e s o u r c e sw a sc o n s t r u c t e d i nt h ep r o c e s s o fa c q u i r i n gt h ek n o w l e d g e ,t h ef r a m e w o r ko fo n t o l o g yw a sf i l l e db yt h ec o m b i n a t i o no f m a n u a lc l a s s i f i c a t i o na n da c q u i r i n gt h ei n t e n s i t ya u t o m a t i c a l l y n ep a p e ra l s od e s c r i b e s e m o t i o n a lc l a s s i f i c a t i o na n dl e x i c a li n t e n s i t ye t c , a n d 也ed i s t r i b u t i o no fa f f e c t i v el e x i c o n s i no r d e rt or e d u c et h em a n u a ll a b o r , w ep r o p o s e dam e t h o do fa u t o m a t i ce m o t i o n v o c a b u l a r ya c q u i s i t i o nb a s e do nc r f i nt h ee x p e r i m e n t ,w eu s e ds o m er u l e s ,s u c ha st h e w e r d s f e a t u r er u l e s ,t h ew e r d s c o n t e x tr u l e s ,a n d , t h e i rt i e - i np a i r s a tl a s t , w ef o u n dt h eb e s t r u l e s ,a n a l y z e dt h er e s u l ts t r i c t l y ,a n df o u n dt h em a i nr e a s o n so fs o m em i s t a k e s i nt h ep r o c e s s i n go fm u r i a f f e c t i v ew o r d sc o n s t r u c t i o n ,w eu s e dt h es e m i - a u t o m a t i c w a y s i nt h ea u t o m a t i c p a r t s ,w es e l e c t e dt h em u l t i - s e n s ew o r d sb yt h e s a u r u s ,p r o p o s e dt h eh y p o t h e s i s t h a tm o s to ft h em u l t i - a f f e c t i v ew o r d sa r em u l t i s e n s ew o r d s ,a n da l s ou s e ds o m ei n f o r m a t i o ni n t h ea f f e c t i v el e x i c o no n t o l o g y i nt h em a n u a lp a r t ,w ee x p l a i nt h ed i f f e r e n c e sb e t w e e nt h e m u l t i - a f f e c t i v ew o r d sa n dt h o s em u l t i a f f e c t i v ew o r d sw h i c hn e e d e db ed i s a m b i g u a t i o ni n c e r t a i nc o n t e x t w et h i n kt h ed i f f e r e n c e sa r eu s e f u lf o r t h ef u r t h e rw o r da f f e c t i v e d i s a m b i g u a t i o n i nt h ew o r da f f e c t i v ed i s a m b i g u a t i o np a r t ,w ea n a l y z e dt h ed i f f e r e n c ea n dr e s e m b l a n c e b e t w e e nw o r da f f e c t i v ed i s a m b i g u a t i o na n dw o r ds e n s ed i s a m b i g u a t i o n 、ec h o o s eb a y e s i a n m o d e lt or e a l i z et h ew o r da f f e c t i v ed i s a m b i g u a t i o n a n d ,t h r e eo t h e re x p e r i m e n t s :w o r da f f e c t d i s a m b i g u a t i o nb a s e do nc o m m o ne m o t i o n ,w o r da f f e c td i s a m b i g u a t i o nb a s e do np a r to fs p e e c h , a n d ,w o r da f f e c td i s a m b i g u a t i o nb a s e do np a r to fs p e e c ha n de m o t i o n a lf r e q u e n c i e s t h er e s u l t s s h o w w o r da f f e c td i s a m b i g u a t i o nb a s e do nb a y e s i a nm o d e l i st h em o s te f f e c t i v e k e yw o r d s :a f f e c t i v ec o m p u t i n g :a f f e c t i v el e x i c o no n t o l o g y :a f f e c t i v ed i s a m b i g u a t i o n : a u t o m a t i ce x p a n s i o no fo n t o l o g y 大连理丁大学硕十研究生学位论文 大连理工大学学位论文版权使用授权书 本人完全了解学校有关学位论文知识产权的规定,在校攻读学位期间 论文工作的知识产权属于大连理工大学,允许论文被查阅和借阅。学校有 权保留论文并向国家有关部门或机构送交论文的复印件和电子版,可以将 本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印、或扫描等复制手段保存和汇编本学位论文。 作者签名: 导师签名: 日期:4 年月上日 日期:辱年上月上日 大连理工大学学位论文独创性声明 作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究 工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外, 本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请 学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献 均已在论文中做了明确的说明并表示了谢意。 若有不实之处,本人愿意承担相关法律责任。 学位论文题目: 鲨垒! 遗塾竭丝奎经丝拉塞亟笙叁塑 作者签名:缢垒整日期: 坦年上月上日 大连理工大学硕士学位论文 1绪论 1 1研究背景 在1 9 世纪末以前,除了在科幻小说中,极少有人将“情感 和无生命的机器联系 在一起。1 9 世纪末,人工智能的奠基人之一、美国m n 大学m i n s k y 提出:问题不在 于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感呢? 从此,赋予 计算机情感能力的研究、探讨引起了计算机界许多人士的兴趣。 那么什么是情感计算呢? 美国m 1 1 r 实验室的r p i c a r d 教授于1 9 9 7 年在她的专著 “a f f e c t i v ec o m p u t i n g ( 情感计算) 一书中对情感计算进行了定义:情感计算是与情 感相关,来源于情感或者能对情感施加影响的计算【1 1 。该定义成为了目前关于情感计算 的权威定义。通俗地讲,由于人类之间的沟通与交流是自然而富有感情的,因此,在人 机交互的过程中,人们也很自然地期望计算机具有情感能力。情感计算就是要赋予计算 机类似于人一样的观察、理解和生成各种情感特征的能力,最终使计算机像人一样能进 行自然、亲切和生动的交互。 目前国内外对情感计算的研究主要集中在图像、声音、生理信号、文本几方面。其 中,图像、声音、生理信号情感计算的研究成果在许多方面得到应用,如教育辅助软件 中侦测用户的情感,建立一个可视化的心理学系统,当然也可以应用在机器人,智能玩 具和游戏等产业中。在国外,许多有实力的科研机构和企业都投入到了情感计算的研究 中,英国电信公司组建了情感计算的专家组;i b m 开发的情感鼠标。还有麻省理工学院 对情感计算做了全方位的研究,包括通过可穿戴的传感器和新的机器学习的算法等分析 多模型的信息,使计算机更智能,能够理解和感知人类的挫败感,减少负面感情的作用 等。主要的研究项目包括情感地毯,自动表情分析,检测和分析驾驶员的压力,在线的 情感识别等。 就文本的情感计算而言,主要的研究领域有:语音合成、信息安全、智能机器人、 模式识别、个性化文本、解析文章情感结构等方面。现在主要的研究成果有 e m p a t h y b u d d y 邮件系统1 2 1 ,情感结构展示【3 】,动画文本【4 】、名人的评价f 5 】等。近些年来 一些研究机构和企事业单位都投入到文本情感计算中,主要的研究有:2 0 0 3 年麻省理工 学院的h u g ol i u 等提出通过文章的情感分析得出文章的可视化情感结构【2 1 。2 0 0 4 年东 京大学的h u aw a n g 等使用生理信号的传感器和动画文本实现在线交流情感【酬。2 0 0 5 年 东京大学的c h u n l i n gm a 等利用简单的句法分析与多种方式的组合分析文章的情感【7 1 。 2 0 0 5 年f 1 本德岛大学任福继等人基于结构化的情感知识库来识别文本的情感【4 1 。在国 中文情感词汇本体的构建及其应用 内,情感计算的研究较少,大部分集中在脸谱和声音的处理上,文本方面的研究就更少 了。北京广播学院的乐明等探讨了语篇情感计算与评估理论【8 】。 情感计算的研究已经在应用方面取得了许多进展,国内外的许多组织和机构也主办 了一些情感计算专题的研讨会,比较有影响的国际会议包括情感计算和智能交互会议 ( i n t e r n a t i o n a lc o n f e r e n c eo na f f e c t i v ec o m p u t i n ga n di n t e l l i g e n ti n t e r a c t i o n ) ;美国人工智 能协会主办的人工智能会议( c o n f e r e n c eo na r t i f i c i a li n t e l l i g e n c e ) ;人机交互国际会议 ( i n t e r n a t i o n a lc o n f e r e n c eo nh u m a n - c o m p u t e ri n t e r a c t i o n ) ;设计与情感国际研讨会 ( i n t e r n a t i o n a lc o n f e r e n c eo nd e s i g na n de m o t i o n ) ;情感对话系统专题研讨会( a f f e c t i v e d i a l o g u es y s t e m s ) 。这些国际会议聚集了众多的心理学家、生理学家和信息科学家一起 研究情感计算相关的难题,提供了一个交流和探讨的广阔平台,有效推动了情感计算学 科的发展。 1 2 情感词汇本体的研究现状 什么是情感词汇? 对情感词汇的定义是情感词汇本体构建的前提。情感词汇的一个 显而易见的定义是:能够表达情感的词汇即为情感词汇。那么问题就由一个问题转化为 了另一个问题,那就是对于情感的定义。目前,在情感计算领域,对于情感的定义有狭 义和广义之分。由于研究方法、技术水平的限制,以及长期以来,计算机二值分析的影 响,狭义的情感是指:褒贬二义的情感。而广义的情感,则涉及心理学的研究内容。心 理学辞典1 9 j 将情感定义为:指由某种刺激( 外在的刺激或内在的心理状态) 所引起的、个 体自觉的心理失衡状态。失衡的心理状态涵盖极为复杂的情感性反应,例如喜、怒、哀、 惧、爱、恶、欲七情之说,即指出情感的复杂性。 1 2 1w o r d n e t 中的情感词汇 目前关于情感词汇方面的资源较少,国外主要有w o r d n e t 。w o r d n e t 不是把单词以 字母顺序排列,而是按照单词的意义组成一个网络。w o r d _ n e t 仅包含名词、动词、形容词 和副词。由于不同词性的句法功能各有不同,其组织方式也就自然不同。名词在词典存 储中是按主题的等级层次组织的,动词按各种搭配关系来组织,形容词和副词以n 维超 空间组织。每一种词汇组织结构都反映了一种不同的分类组织方式,如果试图对所有文 法分类使用一种组织原则,将使词典知识中的心理学复杂性很难被正确的表达出来。 w o r d n e t 根据不同的文法分类,使用不同的组织原则,使其语义组织之间的根本差异清 晰可见。w o r d n e t 词汇之问的关系分为同义关系( s y n o n y m y ) 、反义关系( a n t o n y m y ) 、继 承关系( h y p o n y m y ) 、部分整体关系( m e m n y m y ) 、形态关系( m o r p h o l o g i c a l ) 、导致关系 ( c a u s e ) 、相似关系( s i m i l a r ) 、同样关系( a l s o ) 、属性关系( a t t r i b u t e ) 、扩展关系( d e r i v a t i o n ) 、 大连理工大学硕士学位论文 领域关系( d o m a i n ) 、成员关系( m e m b e r ) 等等。 在领域关系( d o m a i n ) 中,包含w o r d n e t a f f e c t ,即是w o r d n e t 中情感领域的相关词 汇。w o r d n e t - a f f e c t 中包含的情感标签( a f f e c t i v el a b e l s :a - l a b e l s ) 如表1 1 所示。包含的 情感( e m o t i o n ) i 百q 汇数量及其分布情况如表1 2 所示。 t a b 1 1 a - l a b e l si nw 0 r d n e t - a f f e c t w o r d n e t 仅对情感词汇,以及对情感有所影响的词汇进行了标注,但是却没有标注 情感词汇所属的情感类别。这样,在人机交互中,计算机仅仅能知道人类在表达情感, 但不知道表达的是何种情感。 1 2 2 知网中的情感词汇 2 0 0 7 年1 0 月2 2 日,知网( h o w n e t ) 发布“情感分析用词语集 。该词汇表的详细信 中文情感词汇本体的构建及其应用 息如表1 3 所示: 表1 2w o r d n e t - a f f e c t 中的情感( e m o t i o n ) i 司汇分布情况 t a b 1 2t h ed i s t r i b u t i n go fe m o t i o nw o r di nw o r d n e t - a f f e c t 表1 3 知网“情感分析用词语集”结构 t a b 1 3t h es t r u c t u r eo fs e n t i m e n tw o r di nh o w n e t 在知网中,还可以根据“良一,“莠 的属性词,抽取倾向性词汇,“良即褒义 词汇,“莠 即贬义词汇。抽取出来的倾向性词汇可以用于文本的倾向性分析。 知网的“情感分析用词语集集将情感分为正面情感和负面情感,正面评价和负面 评价,以及主张词语和程度级别词汇,即将情感分为正、负两种。但是人类的情感却不 是非正即负的,而是喜、怒、哀、乐、等等丰富多彩的。在具体的情感计算中,也不能 仅仅得出正、负的情感结论,而应该得出喜、怒、哀、乐、等等具体的情感。因此,细 一4 一 大连理工大学硕士学位论文 致而准确的文本情感计算,需要多类别的情感词汇的支持。 1 3 情感词汇本体的应用 情感计算是自然语言处理与心理学、语言学的交叉研究领域。目前国内外文本情感 计算的主要方法有以下几种:关键词定位的方法,即查找关键句中的关键情感词,用关 键词的情感类别作为句子的情感类别1 2 】;统计自然语言处理的方法,多采用机器学习的 方法,主要有l s a | 1 0 l ;根据句子中情感词汇求平均的方法确定句子情感【1 1 】;常识知识 库的方法,利用大规模的知识库可以处理那些不包含情感词汇的情感句,情感相关知识 是采用情感传播等方式获取【2 】;基于h m m 的情感建模方法【1 2 1 。 由以上的各种方法可以看出,一般的文本情感计算都是采用情感词汇驱动的方法, 常识知识库的方法也是在句子不包含情感词汇的情况下的处理方法,是对情感词汇驱动 方法的补充。由此可见,情感词汇本体是文本情感计算的基础,情感词汇本体的质量直 接影响情感计算的效果,以及基于情感计算的各个应用的效果。 1 4 论文的组织 全文分五章介绍了情感语义资源的建设和文本情感计算的方法: 第一章介绍了课题研究背景,阐述了情感计算的国内外常用的技术手段、研究现状 和研究成果,以及情感词汇本体的研究现状。 第二章说明了情感本体的构造方法,详细阐述了情感分类的方法、知识来源和本体 的描述方法,给出了本体的一些统计信息。 第三章分析了情感词汇的一般规律,并在此基础上实现了基于c r f 的情感词汇自动 获取。 第四章详细阐述了多情感词汇的自动获取、描述框架,以及多情感词汇的录入和统 计信息。 第五章介绍了现有的各种词义消歧方法。并在此基础上选择贝叶斯方法,进行多情 感词汇的情感消歧。 中文情感词汇本体的构建及其应用 2 情感词汇本体的构造 一篇文章是由许多的句子组成的,而每个句子又由若干的词汇构成,因此对词汇的 情感色彩的理解是分析整篇文章的情感色彩的基础。目前关于情感词汇方面的资源较 少,国外主要有w o r d n e t ,可以利用w o r d n e td o m a i n 对其进行分类,划分出w o r d n e t - a f f e c t 类。国内在这方面的资源还比较少。本文在综合现有多种词典和语义资源的基础 上,构建了一个情感词汇的本体,旨在为段落和篇章级的情感分类提供基础和依据。 2 1情感分类 到目前为止,心理学界对情感的划分还没有一个公认的标准,情感的分类有四、六、 八、十乃至二十几类不等,这主要是因为人类的情感复杂多变,并且人们对情感的认识 还不够深入和全面导致的。但是对情感划分的研究仍在不断的进步和发展中,主要的情 感分类方法有以下几种: ( 1 ) 6 类:高兴,悲伤,愤怒,恐惧,厌恶和惊奇f 1 3 】。 ( 2 ) p l u t c h i k 在1 9 6 0 年提出的8 种纯情感有:快乐,悲伤,愤怒,恐惧,期望,惊 奇,憎恨,接受。并认为其他复杂情感都是这些情感混合而成。 ( 3 ) 1 2 类:高兴,悲哀,恐惧,厌恶,愤怒,惊奇,喜爱,期待,焦虑,内疚,赞 扬,羞1 1 1 j 。 ( 4 ) p l u t c h i k 等提出的8 大类情感:狂喜、警惕、悲痛、惊奇、狂怒、恐惧、接受、 憎恨。 ( 5 ) 中国传统的七情大致分为:好,恶,乐,怒,哀,惧,欲。 ( 6 ) 心理学家林传鼎将情绪划分为1 8 类:安静、喜悦、恨怒、悲痛、哀怜、忧愁、 忿急、烦闷、恐惧、惊骇、恭敬、抚爱、憎恶、贪欲、嫉妒、骄慢、惭愧、耻辱【1 4 1 。 ( 7 ) 许小颖等人将情感词汇划分为基于心理感受和基于表现力的两大类,其中将基 于心理感受的词汇又细化为2 4 类:喜,乐;爱;愁,闷;悲;慌;敬;激动;羞,疚; 烦;急;傲;吃惊;怒;失望;安心;恨;嫉;蔑视;悔:委屈;谅;信;疑;其他。 将基于表现力的词汇细化为态度词,品性词,声音词和其他【1 5 】。 ( 8 ) 仇德辉等人提出人的情感可分为对物情感、对人情感、对己情感以及对特殊事 物的情感四大类,其中对特殊事物的情感又细分为对他人评价的情感、对交往活动的情 感、对不确定事物的情感、对自身状态的情感。 上面所列出的情感分类方法是目前国内外比较有影响的情感分类方法,在参照这些 分类体系的基础上,综合现有的情感词汇资源,本文将情感分为7 大类,2 0 小类。具体 大连理工大学硕士学位论文 划分如表2 1 : 表2 1 情感分类 t a b 2 1a f f e c t i v ec l a s s i f i c a t i o n 首先将情感分为7 大类,这是在国外比较有影响的e k m a n 的六大类情感的基础上 划分的。因为六大类情感中的积极情感只有“高兴 一类,刻画的不够细致,所以本文 又在“乐 的基础上增加了“好 一类来描述喜好,喜欢类型的情感。同时这七大类情 感也基本上与中国传统的“七情 说法一致。只是少了“欲 一类,这是因为在本文目 前的语义资源中描述“欲”类的情感词汇较少,所以没有单独划分出来作为一大类。 确定了七大类情感后,在每个大类内按照情感强度和复杂度的区别细化情感大类, 最终分为2 0 小类。如“安心 和“快乐”同属于“乐 类,但是“安心”类词汇的快 乐强度大部分要弱于“快乐”类。2 0 个情感小类的划分主要是参考林传鼎和许小颖等人 的情感分类方法,将一些词汇量较少,意思比较接近的情感类别合并。将情感词汇分为 中文情感词汇本体的构建及其应用 2 0 小类主要是为了详尽的划分大部分的情感词汇,并为以后情感类别的增加,减少和细 化等扩展情况提供方便。在情感类别的划分过程中,预先确定了一个初步的情感划分, 然后将部分词汇按照初步的划分方法分类,当某些词汇的情感不在现有的划分中,则根 据该类词汇的性质和数量考虑是否增加该类情感。本文预先录入约5 0 0 个情感词汇,采 用上述类似基于转换的错误驱动学习方法,修正初步的情感划分,最终确定了表2 1 中 2 0 个情感分类。由于情感的发展具有“绝对的变化性 和“相对的稳定性,所以随着 社会的不断发展,情感的分类也不是一成不变。文中的情感分类体系也可以随着时间的 推移,不断的修正,如增加一些分类来更准确的描述词汇的情感信息,具有一定的可扩 展性。 2 2 词汇本体的建设 1 9 9 3 年,g r u b e r 给出了本体的一个定义“a no n t o l o g yi sa ne x p l i c i ts p e c i f i c a t i o no fa c o n c e p t u a l i z a t i o n ( 本体是概念模型的明确的规范说明) 。本文给出的情感词汇本体利用 2 0 类基本情感描述词汇的情感信息,并对每个词汇从极性和强度等多个方面进行描述。 情感词汇本体通过一个三元组来描述: l e x i c o n = ( b ,r ,e ) 其中b 表示词汇的基本信息,主要包括编号,词条,对应英文,词性,录入者和版 本信息。 r 代表词汇之间的同义关系,即表示该词汇与哪些词汇有同义的关系。该部分主要 参考哈尔滨工业大学的同义词词林,从同义词中人工挑选具有情感色彩的词汇录入,然 后修改具有同义关系的一组词的“s y n ”域,以记录情感词汇之间的同义和近义关系。e 代表词汇的情感信息,是情感词汇描述框架中比较重要的一部分。 情感认知中有基本情绪论和维度论两种不同的研究途径。基本情绪论认为情绪有几 种原型,其他情感是在基本情感的基础上演化和综合而来f 1 6 1 。而维度理论是用几个维度 空间来描述人类的情感,人们普遍认同的是“大二 ( b i gt w o ) 模式,快乐度和唤醒度。 但是两者并不是完全矛盾的,例如可以把“快乐和“不快乐 看作两种基本情感。本 文在e ( 情感信息) 中就综合利用以上两种途径描述词汇的情感信息。分别通过情感分类、 强度和极性三个维度描述,每个情感词汇可以同时拥有多种情感分类,并且对每个分类 都有一个强度的等级。 例如,词汇“惊喜 的描述如下: a p a 0 0 0 3 2 惊喜 a 大连理工大学硕士学位论文 p l e a s a n t l ys u r p r i s e d p a 7 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,5 1 a 0 其中 域中的“p a 是快乐类情感的编号。 域是采用向量的形式 表明词汇都包含哪些情感以及强度等级,该域由2 0 个0 到9 之间的数字组成,每个分 量分别代表一个情感分类。0 表示不含该类情感,1 到9 表示包含该类情感。因为“惊 喜包含“快乐和“惊奇 两种情感,所以分别在两个情感的相应分量上用7 和5 表 示。强度分为1 ,3 ,5 ,7 ,9 五个等级,对于“惊喜 来说在“快乐 上的等级为7 , 在“惊奇 上的等级为5 ,表明主要情感是快乐。 表明词汇极性有褒义,贬义, 中性,褒贬兼有四类。 表明词汇包含的主要情感是消极、积极还是中性。 上述的描述框架包含了词汇的静态和动态两方面的属性,并从定量和定性两方面表 示词汇的情感信息,为以后段落乃至篇章级的情感分析和褒贬义识别提供更多的参考和 利用的信息。 2 3 本体的知识获取 2 3 1 知识的来源 情感本体的基本知识主要来源于现有的一些词典、语义网络等。其中词典包括现 代汉语分类词典【1 7 1 、汉语褒贬义词语用法词典【1 引、汉语形容词用法词典1 1 9 】、 中华成语大词典 z o l 、汉语熟语词典【2 1 1 、新世纪汉语新词词典阎。语义知 识网络有知网和w o r d n e t 。另外还加入了汉语情感系统中情感划分的研究中的部分 词汇。 2 3 2 获取的方法 以大量情感语料为基础采用手工情感分类和自动获取强度两种方法,从资源中获取 情感信息。 情感词汇通过两级筛选得到,一级筛选是从各类资源中初步挑选可能与情感相关的 词汇。各类资源的一级筛选方法如下:词典资源主要是利用词典中与情感相关的子类, 如心理、感觉、情感、性格、态度等类的词汇,但是也有一些词典没有相应的子类划分, 需要整本都做人工的过滤。知网中情感词汇的获取是先选择包含情感色彩的义原,主要 中文情感词汇本体的构建及其应用 有“情绪”、“态度等几大类,然后从知网中选取包含这些义原的词汇。w o r d n e t 是 利用w o r d n e t d o m a i n 抽取初级的情感词汇,w o r d n e t d o m a i n 划分w o r d n e t 中的s y n e t , 选择与p s y c h o l o g y 类型相关的s y n e t ,然后根据它们与词汇的对应关系选择相应的词汇。 二级筛选是采用手工分类的方法,人工从一级筛选的词汇中选择有情感色彩的词 汇,并划分情感类别,即指出词汇包含哪几种情感。并分别为每种情感类别的每个强度 等级确定一定量的标准词汇。 自动获取强度主要是指在上述手工分类的基础上,自动获取词汇的情感强度。具体 思想是在大规模的语料库中查找待定词汇和标准词汇的互信息,从而将待定词汇的强度 确定为与之互信息最高的标准词汇的强度。这样情感强度的计算首先需要两类资源,一 个是标准词,另一个是大规模的语料库。 标准词就是为2 0 类情感的五个情感等级分别确定一定量的标准词汇。通过计算词 汇与每个等级的标准词汇在语料中的互信息( e p 共现概率) 来初步确定情感强度,然后再 对不合理的进行人工调整。本文采用的是点互信息( p o i n t w i s em u t u a li n f o r m a t i o n ) ,它的 计算公式如( 2 1 ) : ,( w u , s ) l l 弗篙出 ( 2 1 ) 其中,珑表示包含u 类情感的词汇,e ;表示“类情感的第f 个标准词。计算矽与所 有u 类情感的标准词汇之间的互信息,选择互信息最大的那个标准词的强度作为词汇矽 在u 类情感上的强度。 语料库是计算点互信息的基础,如果语料数量较少或涉及词汇的范围较窄,那么在 计算点互信息时会出现数据稀疏的问题,不能正确反映词汇的强度。我们的语料是从网 上下载的与情感相关的文章,从风格上看包括寓言、散文、戏剧、小说、杂文、新闻等 多种文体;从时间和空间上涉及国内和国外不同时代的多个作家。去噪后的语料大约 1 5 0 m ,涉及的词汇的范围较广,保证了互信息计算的有效性。图2 1 统计了自动获取强 度的准确率( 与人工校正过的对比) ,可见自动获取的强度与实际强度完全相等的不是很 多,但是与人工校正的强度相差一个等级的却比较多,其中“妒忌 类强度符合程度最 高,达到8 4 。所以自动获取的强度有较大的参考价值,为人工核查提供了依据。 2 4 词汇本体的质量保证措施 质量是词汇本体的生命,是应用和更新的基础。但是由于汉语词汇的信息量庞大和 人类情感的复杂多变,质量的保证更成为本体建设过程中的一个关键问题。为此,我们 设计了一套规范化的操作方法,严格控制词汇情感信息的更新,并对词条信息采用多重 大连理工大学硕士学位论文 的人工检查流程。为了减少建设本体过程中的误操作,设计了一个方便快捷的录入界面 以保证词条语义属性的正确性与一致性,如图2 2 。 图2l 自动获取强度的准确率 f i g2 1p r e c i s i o n o f a c q u i r i n g w o r d i n t e n s i t y t “厂一竺j 。广厂一 雕l l l ll l l 雕l 厂 摘| ! “ 腩l 一女 f 一| l 酎22 情感词汇录入系统 f i g 2 2s y s t e mo f a d d i n ga f f e c t i v e l e x i c o n 中文情感词汇本体的构建及其应用 汉语词汇不断有新词出现,还有一些词汇产生新的释义,所以情感词汇的本体也在 不断的更新和维护中。通过不同时期版本的比较可以输出词汇信息的更新和修订情况。 2 5 统计数据 情感词汇的本体第一期收录词汇1 7 1 5 6 条,各类情感包含的词汇数量,及使用频率 等信息统计如表2 2 ,各类情感词汇的强度分配如图2 3 所示。 表2 2 各类情感词汇的数量 t a b 2 2 q u a n t i t yo fa f f e c t i v el e x i c o n 由表2 2 可以看出贬责和赞扬类的词汇数量较多,总数为1 0 6 2 7 个,这也是现在很 多研究都集中在倾向性分析的原因。但是如果加入其他类别的情感词汇,将能使情感计 算更细致,全面和准确。快乐、烦闷、喜爱、悲伤等表达强烈的情感的词汇的总数也较 多。这些词汇的存在对情感计算的效果,具有较大的影响。而妒忌、怀疑、相信和惊奇 等表达较轻的情感词汇数量较少。 图2 3 情感词汇的强度分配 f i g 2 3 t h ed i s t r i b u t i o na b o u ta f f e c t i v ei n t e n s i t y 大连理工大学硕士学位论文 可以看出强度等级为5 和3 的词汇数量在各个情感类别中都普遍高于其他强度等级 的词汇。其他强度等级的词汇在数量上分配的比较平均。总体来说贬责和赞扬类的词汇 数量较多,思、疚、慌等类的词汇数量较少。 情感词汇的在语料库中的平均使用频率如图2 4 所示,“妒忌”类的平均使用频率 最低,为5 6 1 7 次,而“惊奇 类词汇的使用频率最高,达到5 6 8 9 6 次。所有词汇的总 平均使用频率为1 4 3 3 7 次,一定程度上保证了词汇间互信息的获取,从而保证了自动获 取强度的可行性和有效性。 图2 4 各类情感词汇的使用频率 f i g 2 4f r e q u e n c yo fu s ea b o u ta f f e c t i v el e x i c o n 2 6 进一步的工作 目前词汇本体的建设工作还在继续进行中,我们计划加入更多的语义资源来丰富词 汇本体,在综合多种语义资源后第二期的词汇总量预计将达到三万词以上。同时以大规 模的语料库建设为基础,统计本身没有情感倾向的词汇,通过大规模的实际场景的训练 得到词汇以多大的概率出现在哪方面的情感中【2 】。这种扩展的情感词汇将极大的丰富我 们的词汇本体。通过带标语料库的建设,还可以进一步验证和修订目前词汇的情感分类。 情感词汇本体是篇章情感分析的基础,可以应用在多种情感识别系统中。由于人类 对情感认识的局限性和汉语词汇的复杂多变性,情感词汇本体的建设是一个长期而繁杂 中文情感词汇本体的构建及其应用 的工程。词汇本体还有许多需要完善地方,如增强情感词汇复杂度的描述,录入大量例 句等。今后还应根据实际的需要增加情感词汇的数量,不断修正词汇的描述信息,使情 感词汇的描述体系更加完善。同时还应从大规模的标注语料中抽取更多情感信息,校验 现有的情感分类。 大连理上大学硕士学位论文 3 基于c r f 的情感词汇自动获取 目前,上述情感词汇本体己收录情感词汇1 7 1 5 6 个,为段落级和文本级的情感计算 提供了基础和依据。但是,这1 7 1 5 6 个情感词汇的获取基本采用人工的方法,既费时又 费力,如何在现有的情感词汇资源的基础之上自动地获取情感词汇,从而节省人工成本, 成为了亟需解决的问题。 3 1 相似研究 关于情感词汇的自动获取,目前还没有相关的研究。与之相似的研究有:领域词汇 的自动获取和倾向性词汇的自动获取。领域词汇的自动获取,目前的方法主要有:前景 背景语料的方法网、领域词汇特定模式匹配的方法【2 4 l 、以及计算未知词汇和种子词汇 p m i ( p o i n t w i s em u t u a li n f 0 册a t i o n ) 的方法【瑚。倾向性词汇的自动获取,目前的方法主要 有模式匹配【冽和计算p m i 2 7 2 8 l 。 文l 硎中使用前景背景语料的方法,来获取体育新闻领域的词汇。前景背景语料的构 建需要有明显的领域界限,而情感词汇没有明显的领域界限,即使是在相对而言比较客 观的说明文中,也常常包含情感词汇。 文【硐中使用“a n d ”,“o r ,“b u t ”作为模式,来获取有倾向性的形容词对。这种方法仅 仅考虑了形容词,对于动词、名词、副词等,则不予考虑。而且模式有限,难以扩充。 文1 2 7 1 认为汉语词汇的少量m o r p h e m e ( 词素) 可以很好地指示大量汉语词汇的语义倾 向,选取含有强烈语义倾向的m o r p h e m e ,如:“奖、胜、优、富、健、欢、荣、努、 顺 ,“伤、贪、疑、困、急、妄、禁、拒 ,使用p m i 的方法,进行词汇的自动语义 倾向判断。但是文【2 7 j 的作者认为,这种方法只在小规模的语料范围内是有效的。 文【冽中使用a l t a v i s t a 搜索引擎索引的大规模语料,选用具有强烈语义倾向的词汇, 如“e x c e l l e n t ”,“p o o r 作为基准词,计算p m i ,来判断词汇的语义倾向。 倾向性词汇是指褒贬二义的词汇,而情感词汇还包括较多的中性词汇,例如“大吃 一惊 不是一个倾向性的词汇,但是表达“惊奇 的情感,是一个情感词汇。倾向性词 汇只是情感词汇的一部分,由于情感词的范围太广,从而基准词的选取存在一定的困难。 而且情感词汇相对于褒贬二义倾向性词汇而言更复杂,除了p m i ,还需要其他的语言学 特征,才能识别得比较准确,而搜索引擎只能返回点击数和少量的文摘片段,不利于语 言学特征的提取。 就p m i 而言,c h r i s t o p h e rd m a n n i n g 在“f o u n d a t i o n so fs t a t i s t i c a ln a t u r a ll a n g u a g e p r o c e s s i n g ”中提到1 2 9 j :“互信息是衡量独立性的一种很好的方法,但是不是衡量依赖性 中文情感词汇本体的构建及其应用 的种很好的方法。因为对于依

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论