




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
s e n t i m e n tc l a s s i f i c a t i o na n dr e t r i e v a l o n b l o gf a c i n gr e a d i n g p u b l i c at h e s i s s u b m i t t e di np a r t i a lf u l f i l l m e n to ft h er e q u i r e m e n t f o rt h em s cd e g r e ei nc o m p u t e rs c i e n c e b v v d u a nx i u t i n g p o s t g r a d u a t ep r o g r a m d e p a r t m e n t o fc o m p u t e rs c i e n c e c e n t r a lc h i n an o r m a lu n i v e r s i t y i suhetingtingsupervlsor:he 1m g t l n l z a c a d e m i ct i t l e :p r o f e s s o r s i g n a t u r el 让 1ill t l l l l l l i 7 4 0 a p p r o v e d m a y , 2 0 1 1 硕士学位论文 m a s t e r st h e s i s 华中师范大学学位论文原创性声明和使用授权说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,独立进行研究工作 所取得的研究成果。除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本声明的法律结果由本人承担。 作者签名: ti : 辐奄q 日期:细1 1 年l ,月j 日 学位论文版权使用授权书 学位论文作者完全了解华中师范大学有关保留、使用学位论文的规定,即:研 究生在校攻读学位期间论文工作的知识产权单位属华中师范大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借阅; 学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手 段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密,在年解密后适用本授权书。 非保密论文注释:本学位论文不属于保密范围,适用本授权书。 ?; 作者签名:疆表面导师签名:仃矿手臂彳 日期:t 0 1 1 年i 月1 日日期:2 0 q 年月f 日 本人已经认真阅读“c a l i s 高校学位论文全文数据库发布章程 ,同意将本人的 学位论文提交“c a l i s 高校学位论文全文数据库 中全文发布,并可按“章程”中的 规定享受相关权益。回重途塞堡交卮澄蜃;旦坐生;旦= 生;旦三生筮查! 作者签名:囊毳奶作者签名:书礓丑, 日期:1 , 0 1 1 年i ,月1 日言藏? 暂暂日期:2 f f 年月f 。日 硕士擘位论文 m a s t e r st i d :e s i s 摘要 随着计算机网络的发展,w e b 应用变得丰富多彩。相应地,越来越多的人们通 过博客、空间及微博等网络文本“对话 的形式来进行个人情感的表达和生活需求、 兴趣的交流。 情感计算主要是针对文本中的评论信息进行分析、计算,挖掘人们对海量信息 的评价观点和意见。通常我们所见到的博客大多是主观性文本,而主观性文本中又 包含了不同的情感内容,这些情感内容分属不同的类别,正是人们所关注的。如果 采用传统的文本分类方法进行分类,则会忽略文本中包含的情感语义信息,造成语 义的缺失。如何弥补这项不足,正是本文的立意所在。 本文针对博客情感分类和检索进行了较为深入的探讨,所做的工作主要包含以 下几个方面: 首先,采用了最大熵模型的方法从读者检索语句中抽取情感特征向量。我们对 读者输入的检索语句进行带词性标注的分词,然后采用基于最大熵理论的方法针对 不同的词性进行情感特征表现能力的测试,建立起读者的情感特征向量。 其次,设计了一种基于博客语料建立的情感数据库模型。我们给出了该情感数 据库的模型定义,对该数据库做了一个总体的描述;接下来计算了情感数据库中各 个文本的整体情感强度;最后将这些文本、情感类别以及情感等级强度值综合起来, 形成结构化的情感数据库。 最后,实现了面向读者的博客情感分类及检索系统。我们定义了读者情感特征 向量和博客文本的情感数据集合在数据库中的存储表示,然后建立了二者之间的混 合映射关系同时确立其存储表示;最后对读者如何检索博客文本的过程进行了细致 的讨论,建立起博客情感的检索系统。 总体而言,我们针对博客情感分类和检索的初步研究,取得了一定的成果,为 情感计算的研究打下了基础。 关键字:情感计算;情感分类;最大熵;特征抽取;数据库 m a n yw e ba p p l i c a t i o n s m o r ea n dm o r ep e o p l eb s et h ew e b b l o go rw e b p e r s o n a l - s p a c e n e t w o r kf o re x p r e s s i n gt h e i rp e r s o n a lf e e l i n g so rc o m m u n i c a t i n gt h i n g sh a p p e n i n gi nt h e l i f e t h e r e f o r e ,i t sv e r yu s e f u lt oc a t e g o r i z ea n dr e t r i e v a lt h es u b j e c t i v e l ye m o t i o n a l c o n t e n ti nb l o gt e x t sq u i c k l ya n dv o l u n t a r i l yf r o mt h eh u g ew e bi n f o r m a t i o n s e n t i m e n ta n a l y s i si sm a j o rt oa n a l y s i st h et e x ti n f o r m a t i o n t h e nw ec a na c q u i r e t h ev i e w sa n do p i n i o n s u s u a l l yw ef m dt h eb l o gt e x t sa r em o s t l ys u b j e c t i v ea n dc o n t a i n t h ed i f f e r e n te m o t i o nc o n t e n t t h i se m o t i o nc o n t e n ti so fd i f f e r e n tc l a s s e s ,w h i c hi st h e k e yc o n t e n to fc o n c e m i fw eu s et h et r a d i t i o n a lm e t h o d sf o re m o t i o nc l a s s i f i c a t i o n ,t h e e m o t i o n a la n ds e n t i m e n t a li n f o r m a t i o n 、i ub eo m i t t e d a n di ti sf a rf r o mt h ee m o t i o n c l a s s i f i c a t i o no fb l o gt e x t sa sw e l l s oh o wt om a k eu pf o rt h es h o r t a g ei sj u s tw h a tw e d i s c u s s t h i st h e s i sd e e p l yd i s c u s s e st h ee m o t i o nc l a s s i f i c a t i o na n dr e t r i e v a lo nt h eb l o g c o r p u sa n d i ti sc o m p o s e do ft h ef o l l o w i n gc o n t e n t : f i r s t l y , t h i st h e s i su s e sam a x i m u me n t r o p ya p p r o a c ht oe x t r a c tt h ee m o t i o nf e a t u r e f r o mt h er e t r i e v a ls e n t e n c e w ed ot h ew o r ds e g m e n t a t i o nw i t ht a go nt h es e n t e n c ew h i c h i s i m p o r t e db yt h er e a d e r ;t h e nw eu s et h e m a x i m u me n t r o p ym e t h o dt ot e s tt h e p e r f o r m a n c eo ft h ec a n d i d a t ee m o t i o nw o r d s 、析t l ld i f f e r e n tt a g s ;t h e nw ef o u n dt h e e m o t i o nf e a t u r ev e c t o rf o rr e a d i n gp u b l i c s e c o n d l y , t h i st h e s i sd e s i g n sae m o t i o nc o n t e n td a t a b a s eb a s e do nt h eb l o gc o r p u s w ep r e s e n taf o r m a ld e f i n i t i o no ft h em o d e lo nt h ee m o t i o nd a t a b a s e ,j u s tf o rag e n e r a l d e s c r i p t i o n t h e nw ec o m p u t et h ee m o t i o nd e g r e e so fe v e r yb l o gt e x ti nt h e e m o t i o n c o n t e n td a t a b a s e a tl a s t ,w ea d d e de v e r yb l o gt e x t ,i t se m o t i o nc l a s sa n di t se m o t i o n d e g r e e st o g e t h e rt ob u i l du pa ns t r u c t u r a le m o t i o nd a t a b a s ea st h er e s u l t f i n a l l y , t h i st h e s i sm a k e sas u m m a r yo ft h ea b o v ew o r ka n de n h a n c e sas y s t e m a p p l i c a t i o nf o re m o t i o nc l a s s i f i c a t i o na n dr e t r i e v a lo nb l o gf a c i n gr e a d i n gp u b l i c w e m a k eam a pb e t w e e nt h ee m o t i o ns p a c ed a t ai nt h ef i r s ts t e pa n dt h ee m o t i o nf e a t u r e v e c t o ri nt h es e c o n ds t e p t h e nw ec o n c l u d et h ec o r r e s p o n d e n c ea st h er e l a t i o n s h i po ft h e a b o v et w oa n dm a k ead a t as t o r a g eo ft h e m t h e r e f o r e ,p e o p l ec a ns e a r c ht h eb l o g s i i i i i 硕士学位论文 m a s t e r st h e s i s 目录 摘要 i a b s t r a c t 1 i l 绪论1 1 1 引言1 1 2 研究意义及应用领域1 1 2 1 研究意义。1 1 2 2 应用领域6 1 3 如何抽取博客中的情感内容7 1 4 相关研究工作8 1 4 1 情感分类的研究现状8 1 4 2 情感分类的方法9 1 4 3 本文主要解决的问题1 0 1 5 本文的组织结构1 0 2 读者情感特征向量1 2 2 1 情感分类。1 2 2 2 情感特征向量模型1 4 2 3 读者检索语句的情感特征1 5 2 3 情感特征的选择1 6 2 4 读者情感特征向量的建立1 7 3 博客文本的情感数据库 1 8 3 1 博客情感内容数据集的采集1 8 3 2 情感数据库建立规范及其形式化描述18 3 2 1 情感数据库的建立规范。1 8 3 2 2 情感数据库的形式化定义1 9 3 3 情感数据库的建立方法2 0 3 4 博客情感数据库数据示例2 1 4 博客情感检索系统。 硕士学位论文 m a s t e r st h e s i s 4 1 博客情感检索系统的映射关系2 3 4 2 博客情感检索系统的建立规范。2 4 4 3 博客情感检索系统的建立方法2 5 4 4 博客情感检索系统演示。2 7 4 5 博客情感检索系统的应用3 0 5 总结与展望3 2 5 1 工作总结3 2 5 2 研究展望3 2 参考文献 硕士期间发表的论文和参与的项目3 7 致谢 硕士学位论文 m a s t e r st h e s i s 1绪论 1 1 引言 随着计算机网络的发展,w e b 应用变得丰富多彩。这些应用在一定程度上改变 了人们阅读书籍和与人交流的习惯,越来越多的人们通过博客、空间及微博等网络 文本“对话 的形式来进行个人情感的表达和生活需求、兴趣的交流。于是如何 准确、有效地提取这些海量的文本信息中所包含的主观的情感信息就变得十分重 要,例如对博客文本中所包含的情感内容进行分类和检索。而传统的文本分类方法 不能使计算机在分类中包含对情感语义信息的“理解,达不到分类和检索的理想 效果。如何弥补这项不足,正是本文的立意所在。我们需要解决以下几个问题: ( 1 ) 如何理解读者的情感需求? ( 2 ) 如何在计算机中建立能够表示读者情感状态的读者情感需求向量? ( 3 ) 如何在计算机中识别和表示博客文本的情感内容? ( 4 ) 如何将情感数据存入包含博客文本的情感数据库? ( 5 ) 如何在读者情感需求向量和博客情感数据库联系起来? ( 6 ) 如何解决以上问题以生成“博客片断 ? 同时,如何方便读者的浏览和选 择? 其中,问题( 1 ) 是从情感计算瞳3 这一整个大的领域来看的;问题( 3 ) 是基于p m i i r 算法研究的关键技术之一,而问题( 2 ) 、( 4 ) 、( 5 ) 和( 6 ) 正是本文所研究的主要课题 面向读者的博客情感分类与检索。 1 2 研究意义及应用领域 1 2 1 研究意义 我们通过全球博客现状调查报告( 2 0 0 8 年初,t e c h n o r a t i 发布) 和中国博客市 场调查报告( 2 0 0 7 年底,c n n i c 发布) 的对比,来对网络博客的现状作一个整体性的 了解聆3 。这两份报告调查的内容所针对的时间都是2 0 0 7 年。以下五个方面是本文理 论研究意义的出发点: 第一方面:博客作者( 简称博主) 的性别。从全球范围来看,博主中约6 6 为男 性博主,3 4 为女性博主。再细化到年龄的分类上,其中全球2 5 4 4 周岁的人占到 一半以上。如图1 1 所示: 图1 1 全球博主年龄分布情况 从中国范围来看,女性占5 7 为大多数,各阶段年龄分布不详。如图1 2 所示: 图1 2 中国博主年龄分布情况 所以这里单独就性别分布来看,中国博主的性别比例与全球博主的严重不一 样,显然中国博主中女性所占比例要大的多。这为我们研究博客的情感分类和检索 提供了更多可用的简体中文语料。 第二方面:人们写了多少博客? 2 一t 硕士学位论文 m a s t e r st h e $ 1 s 图i 3 博客写作情况 如图1 3 所示,接近5 0 9 6 8 0 9 6 的人都是博客爱好者。因此我们可以看到,博客 这一网络应用已经快速地在大部分网民中流行起来,成为了人们网络生活中必不可 少的基础型、实用型应用,而其海量信息中所包含的主观性内容是非常值得情感计 算领域的工作者们所关注的。 第三方面:人们为什么要写博客? 这里将原因和目的分类列举如表1 1 所示: i no - 咖t o s l a km y 椭喇o n 舅憾a | 棚嘲 翻啪m y 删印啊惭删翻印嘲n 斟 翻爵蝴a 豳精隋 t o m u r a t 翻懈。翻鞠i 瞅懒i - 皤m h 酬p 哪o t o 翱嘲蜘f 泓嘲翻嗍u p d m o a o n 觯咿黼 1 b g 醴翻豳粕翻喇钟佃砷嘏喇i n 矗9 圈确狮嘲硼嘲 t o 嘲嘲暗晴删 ,臂翻邺巾m 耐m y i r 帕a m o t o n h 蛳铸m y h 嘴_ 啪 髓n 列峨r 黼晦i t o m y b 埘瞄r 嘲 o 柚8 0 图i 4 博客写作原因分布情况 上图中的内容可以总结如下: m a s t e r s t h e 溺 表达意见及情感 7 9 分享经验和心得 7 3 想认识具有同样志趣的人 6 2 与朋友和家人保持联系 3 2 0 5 希望能在媒体上发布 2 6 赚钱 2 4 推销自己 2 1 吸引客户 1 4 如图1 4 所示,记录自己的心情等情感内容的人数占大多数;其次是因为被自 己周围的朋友及同事带动或者想要关注感兴趣的明星而注册博客;另外,还有备份 照片、文字以及视频等资料。 因此,我们可以看出,博客主要目的是为了表达个人情感和与人交流,这些主 观性很强的内容正是本文所要研究和应用的对象。另外,值得注意的是,有一部分 人只把博客用来“备份自己的照片、文字等资料,这部分内容大都不可获取或者 是客观性很强的内容,因此它们不在本文的研究范围之内。 第四方面:成功博客的构成要素。 p 阳口l i _ _ b 融0 曲 一啪叫 r o f 弘蛳协o r e m m _ 墙i o m y 撕 n u m b e r d f 咖嘲卅确孵 i i 蚺l - b 盯o f 蛐缸,唧岫伢o m 酣研h _ n 啦瞻fo ir 搴8 咄a b e 悖 _ r 自婚m 均d 瞄- 埔咿_ 喇船蹦氍m m b 掣 口h 聃矗椰i 口啊- 肆翻 n 瑚l 由r 西弹口p k 时峨啪一翻帕俐,。弹嘲 鞠嬲麟嘲霸霸嘲翻瞄啊骝 翻黼嬲嘲麟嘲鞠麟嬲黛嘲嘲黼5 3 蠕 , 笋溯黼嘲嘲_ _ _ 一4 瘴 黼嘲翻_ - _ a 辨 舅嘲豳一3 噬l = 一 拶阙l 啪o 舞神蛳- 辟算嘲嘲嘲_ ,尊襄一烈宴粤鼙曼s u c c e s s ! ! 壁塑堡曼! 苎 i _ 岬蜘t 黼一删谚矗州跏- - 孵晡幽麴自鞘i1 泓! 一1 j 一一= 一f o 伯妁捆神临5 姚巷慨7 0 图1 5 成功博客构成要素分布情况 4 硕士学位论文 m a s t e r st h e s i s 表1 3 成功博客构成要素分布情况 满意度 7 5 评论数 5 8 浏览量 5 3 外链数 4 6 订阅数 3 9 博客排名 3 3 其他媒体好评数 2 2 关注量 1 8 收入 1 6 引导收入 1 0 如表1 5 所示,7 5 的人认为获得个人情感上的满足就是成功,这是内部因素; 评论数目、浏览量、外链、订阅数、博客排名等因素确定一个博客是否成功。这是 外部因素。因此,我们可以看出,选择博客文本作为我们文本情感分类和检索的语 料,是非常有意义的。 第五方面:博客给生活带来的好处。 i 阳岍m 柏撕? 眦哪i i 黼目嘲洲麴獭黝 。: 一 _ 慷舯黼h 砖h 鼬噜押簟晰l n i 蛔封鳓隅瓣 lh a mk 啪m h - d 瞄- 黼m , f 瓿鞭燃 e a 岫h 州h 铀积啊h 一曩憎薯辅研嘲g 鞠q i - - 憎釉隆黼峨伽秘脚嘲鬯啪i b 悖黝燃。二一一t 7 。州m 韵m 弘洲l 脚黼- 捌亿嗍m 硎黼删肿嗍蝴獬州溯溯“燃 t of l l 饽4 1 e l a 髑碱。彳n 嘲岫h 嗤b i 岫 拍矗m i r r l m u 蠡砷岫啊帅蛔糖t m e w t h a t i 锄鞠一 a 嗍 r 酗黼杆b 啪i b r 黼棚酗糟啪静蝴响白一豳删1, 刊m 懒骱脚嘲哪d 垴峭掣| 几删铷n 一 嗍峙嘲懒枷潮协m 蚋脯聊细嗍睁枘嗍蝴嬲黼j _ 啊珥q 嘲h 玎 _ 口- - _ u h ,龋嘲_ _ o 喘 o 鼬喙k 鞴嘲峨硝 图1 6 博客给你的生活带来什么? 表1 4 博客给你的生活带来什么? 认识更多朋友 6 7 + 4 7 更热爱自己的爱好与兴趣 6 0 拉近与朋友和家人的关系 2 9 周围的人所了解的我的博客 1 0 给周围的人带来不满和伤害 7 + 7 5 一一i _ :+ i 。l。1 - i |。i o 硕士学位论文 m a s t e r st h e s i s 从表1 4 中可以看出,分享和交流是博客最大的用途。为了加强博客的作者和 读者之间的互动,为了在操作上更好的方便用户,使博客的检索更加人性化和智能 化,本文采用了情感计算领域的技术来对中文简体语料的博客文本进行“语义分类 和检索 。 1 2 2 应用领域 为了提高高层语义级文本分类和检索的效率和服务质量,我们需要在博客情感 分类及检索中填补类似于“语义鸿沟的不足。我们研究的博客语料属于简体中 文文本语料,它可以分为三个不同的层次:理解博客文本和读者检索语句的情感层 嘲、数据处理过程中的认知层和最基础的文本特征层3 ,如图1 7 所示。 情感内容语义抽象层次各层示例 情感计算芒= = 必 ,卜高兴的气氛”“悲伤的心情” 1 质怒的情绪恐惧的心态” 。”、 “特定心情的描写” 沁毯多 = = = = : ”美好的事物” ”、 呔好了,我博客开通了” 箩 = = = = = 饲0 f j j j 怀着忐忑的心理查了违章 蠢嚣盼 企 记录” 鏊检索需攀,争 预处理 图1 7 博客的情感分类及检索系统结构图 特征层包括了直接从语料中提取的分词口3 、标点符号等低层特征,例如“太好 了,我的博客开通了! 或“最近似乎工作不顺 等;认知层包括了文本语 料数据中所含有的客观存在的具体的对象和事件,例如“特定心情的描写 ,或者 “美好的事物 等。然而,对于大多数用户而言,位于情感层的应用显得更为人性 化并且易于理解和交流,因而具有十分重要的研究价值。用户在检索文本语料时, 往往很难明确的定义和描述自己的需要,可能只有一个大致的概念,例如搜索“开 6 硕士学位凳文 m a s t e r st h e s i s 心的事 。像这样的检索关键词不但涉及到用户情绪和心理波动,而且具有很大主 观性和个性化色彩,是无法通过传统的仅仅基于特征层和认知层的分类技术来实现 的。 在如图所示的三个抽象层次中,对于前两个层次的研究已经开展了近1 5 年, 但是仅限于计算机智能、人工智能例和特征识别等。通过这些揉合了情感计算领域 技术的研究工作,我们可以开展以下有关博客情感分类及检索的应用: 应用一:基于内容的博客检索。情感内容是人们分类和检索信息的一种直观而 自然的准则,研究博客情感内容的表示和识别技术并将其用于博客情感内容的自动 化分类和检索,可以方便读者在网上进行浏览和交流。 应用二:博客写作。情感内容分析可以帮助博主掌握如何表达各种各样情感、 心情的方式和方法。该系统可以从其他博客中检索出相关的片断,在这些博客中, 这些情感、心情都非常突出。博主可以仿照这些博客片断中的表达方式和方法( 以 及修辞手法) ,在自己的博客写作中更好的表现出自己的个性和特色。而计算机对 博客的情感分类更加有助于博主在这方面做出有效的理解和应用。 应用三:用户分享博客与交流互动的平台。博客情感分类及检索正是要体现出 个性化的计算机系统,它能够响应用户的各种兴趣、习惯和需求,可以有效地帮助 用户进行学习、工作以及娱乐。本研究提出的博客情感分类及检索系统可以有效地 帮助计算机模拟人的情感和智能。 1 3 如何抽取博客中的情感内容 博客中的情感内容是主观的。与自然语言处理中的对客观性文本的研究不同, 主观性文本的分类中存在着计算机与人的理解能力之间的“语义鸿沟 。要做到语 义级的文本分类和检索,具体来讲,必须解决表示、识别和检索这三个方面的问题: 首先,在博客情感内容如何表示这一问题上,所要解决的问题是如何让计算机 能够形象直观地“表达 出原始文本中作者所表达出的情感信息,这就需要计算机 能够在目前机器所能显示的命令行结果甚至图形化界面上,如显示器、音响等,模 拟出人的视觉、听觉甚至感觉所能捕获的各种感观特征。这是从一个大的方面来讲 情感内容的计算,然而单就本文来说,面向读者的博客情感分类及检索系统所描述 的博客情感数据库该如何定义和描述? 博客情感数据库中的文本如果出现多种情 感混合的情况又该如何表示? 其次,在博客情感内容如何识别这一问题上,所要解决的问题是如何让计算机 能够“智能 地“理解 原始文本中作者所表达出的情感信息,这就需要计算机能 7 硕士学位论文 m a s t e r st h e s i s 够从目前机器所能理解的低级文本特征中,如词频、共现度、语义距离的计算等, 挖掘出人的高级意识形态所能理解的高层的情感语义。具体到本文所建立的面向读 者的个性化博客情感分类及检索系统来说,就需要更加细化地分别识别出读者和作 者的情感特征,同时要体现不同的特征之间的区别,比如如何抽取出读者的各种情 感状态中情感语义显著的个性化的部分? 如何建立读者的情感需求向量? 如何描 述博客情感数据库的不同文本的共性和个性? 最后,在博客情感内容如何检索这一问题上,需要综合之前所建立的读者情感 特征向量和博客情感数据库,在二者之间建立一种“有问必答 并带有检索相似度 的映射。由于读者情感特征向量和博客情感数据库的建立都是带有个性并且包括混 合情感的部分,所以这个映射也不能作为一个单一的映射存在,必然会为了符合读 者需求而成为混合了“一对多 、“多对多 的情况。 以上这些问题,也都是情感计算领域中情感分类和检索的重难点问题,我们将 在后续章节中通过有效的方法解决。 1 4 相关研究工作 1 4 1 情感分类的研究现状 如图1 8 所示,文本的情感分类大致可以分为以下三方面的工作例: 圈也竺型 图1 8 情感分类 ( 1 ) 主客观分类 主客观分类主要是区分文本是主观的还是客观的,可以从词语级、句子级和篇 章级三种粒度来研列1 0 】。 词语级的主客观判断方法要用在中文语料上是比较困难的,因为中文词语的歧 义较大,比如“卫生 一词,当作名词用在“打扫卫生中,显然是客观的,但当 作形容词用在“打扫得很卫生 中,显然是主观的带有褒义倾向的,而计算机并不 能直接识别这一点,如果使用规则的方法【l l 】又显得局限性太强。 8 硕士学位论丈 m a s t e r st h e s i s ( 2 ) 倾向性判断 倾向性判酬1 2 】主要是对文本的褒贬倾向性作出判断,也可以从词语级、句子级 和篇章级三个粒度上进行研究。 词语级的倾向性判断方法用在中文文本语料上同样是比较困难的,比如“好看 一词,用在句子“这件衣服很好看! 中显然是褒义,但用在不同语境的句子“我 要你好看! 中却变成了含贬义色彩,而“好看 这个词的上下文中并没有可以识 别出当前语境的标志。 ( 3 ) 等级强度判断 等级强度判断主要是对文本的主观性或倾向性的强度进行计算,判定其褒义或 贬义的等级强度,可从不同粒度进行,主要包括通过人工标注和机器统计的方法。 1 4 2 情感分类的方法 情感分类属于自然语言处理中情感计算领域的重点内容,大多数研究方法主要 是以情感分类的三方面工作为出发点,通过主客观判断来将文本划分为主观和客观 两类;或者通过倾向性判断来将主观性文本划分为符合用户需求的不同类别,这些 类别都在研究者确定的标准或经验值所限定的范围之内;或者通过情感的等级强度 来对主观性文本进行划分。但在以等级强度为前提的划分标准中,大多数分类都是 “模糊的,并通过一个数据化量度的“隶属度 来确定其“模糊 程度【l 引。现将 目前国内外主要的研究方法列举如下: 句子级、篇章级的主客观判断方法有很多,国外有采用人工标注语料的方法u 引, 但一般在人工标注的过程中都会带入标注人的个人主观意识,这对该语料的通用性 是很不利的。还有采用朴素贝叶斯【1 5 】、机器学习等经典或改进的方法进行主客观判 断的。在使用这些方法进行主客观判断时,不同的研究者作出了不同的改进,有适 用于通用性领域的,也有适用于特殊领域的。还有通过程度副词等修饰性因子进行 文本的主客观判断的【1 6 1 ,这和语言学中表达的习惯性用法是一致的。比如“很 、“非 常”、“特别等,往往在带有主观性描述的语句中出现。因而加入了程度副词这一 因子,对主客观判断的召回率有很大的帮助,但在准确率上仍有欠缺。 在词语的倾向性判断上主要有p m i i r 算法,即通过一个词语与极性词之间的 语义距离来计算该词语的褒贬倾向性【1 7 】。本文在之前的工作中也采用了基于该算法 改进的情感分类方法来对简体中文博客进行情感分类,达到了比较理想的效果i l 引。 另外,全昌勤博士以其所在实验室r e nl a b 用人工标注的方法建立了一个大型情感 语料库,然后将其作为背景语料库,对是否带有否定词、连接词和疑问标记的两类 9 硕士学位论丈 m a s t e r st h e s i s 句子进行句子级的情感识别比较,最后提出并证明了句子中存在“情感短语 的假 设【1 9 1 。 另外,还有通过语义词典h o 、n e t 【2 0 1 和w o r d n e t 、f r a m e n e t 、v e r b n e t 【2 1 】等结构化 词库来计算词语间语义距离,进而进行倾向性判断,划分出不同的情感类别;通过 最大熵工具包对情感词进行识别,进而根据对情感词的统计得出整篇评论或文本的 语义倾向性1 2 2 ;通过支持向量机s v m 、朴素b a y e s 等机器学 - 3 方法进行情感类别 的训练和判断的【2 3 1 。另外,还有关于中文情感词汇本体的构造,所采用的方法主要 是人工标注以及自动获取 2 4 1 。 目前研究和计算情感等级强度的工作较少,具有代表性的工作有德岛大学的任 福继教授在其研究课题中所做的工作大规模带人工情感标注中文语料库的智 能化研究,该课题中包括人工标注了”s u r p r i s e ”,”s o r r o w ”,”l o v e ”,”j o y , ”h a t e ”,”a n x i e t y ”,“e x p e c t ”,”a n g e r ”这八种情感的情感语料库r e n c e c p s1 0 【z 5 j , 每种情感的等级强度标注区间为【0 0 ,1 0 】。 1 4 3 本文主要解决的问题 本文所研究的中文文本语料的情感分类及检索,主要包括词语级的倾向性判断 和等级强度计算、篇章级的主客观分类和倾向性判断,具体描述如下: ( 1 ) 篇章的主客观分类:将文本分为主观客观两个类别,并使用其中主观类 别的文本作为下一步实验的语料,客观类别的文本不作考虑; ( 2 ) 情感词的倾向性判断及等级强度计算:根据词语的情感倾向性,将词语分 为喜( h a p p y ) 、怒( a n g r y ) 、哀( s a d ) 、惧( f e a r ) 四个情感类别啪3 ,并将其按p m i i r 算法计算出的值标注为等级强度; ( 3 ) 篇章的情感分类:根据篇章中所有情感词的倾向性等级强度加和,将文本 分为喜( h a p p y ) 、怒( a n g r y ) 、哀( s a d ) 、惧( f e a r ) 四个情感类别。 1 5 本文的组织结构 本文在理论部分主要研究的是情感计算领域的情感分类及检索问题,然后采用 了p m i - i r 算法、最大熵方法以及数据库的数据存储和检索阻 ,建立起博客情感分 类及检索系统。本文共分五个章节来对理论部分和实验部分进行阐述,第一章为理 论研究的部分,之后的第二章至第四章为实验实践的部分,第五章为总结以及对下 一步工作的展望。 第一章绪论部分主要通过对b l o g 文本所表达的情感等主观内容进行分类和检 1 0 硕士学位论文 m a s t e r st h e s l s 索问题的引入,提出三大建设性应用;再通过对当前情感计算领域的现状以及文本 情感分类的研究现状的描述,提出了三大难点。 第二章主要根据读者的需求,提取和选择能够满足读者要求的情感特征向量。 这一章所做工作为句子级( 短语级) 的情感分类。 第三章主要通过对博客文本的情感数据集的采集和标注,建立面向读者的情感 数据库的数据库,因而这一章的工作为篇章级粒度的情感分类。 第四章结合第二章和第三章所做的工作,把读者的情感特征向量映射到博客文 本的情感数据库上,从而进一步建立博客情感的检索系统。 第五章是对本文所做工作的总结,即对博客情感分类及检索系统如何建立的一 个总的概述,并列举出一些已投入使用的实际应用,最后对下一步工作进行了展望。 综合以上五章的内容,本文可以通过理论和实践相结合的方法建立起一套完整 的面向读者的博客情感分类及检索系统。 硕士学位论文 m a s t e r st h e s i s 2 读者情感特征向量 特征是人们从事物的表象中抽象出来的能够体现该个体个性的依据,因而特征 识别是人们用来识别个体的重要手段和有效方法。本章将根据读者输入的检索语 句,自动识别出其中的情感特征,并用机器统计的方法来获取该语句所表达的情感 强度,从而建立起读者的个性化情感需求向量。读者情感特征向量建立的流程如图 2 1 所示: 2 1 情感分类 8 口 图2 1 读者隋感特征向量建立流程 人类的情感复杂多变,并且在不同的情感之间还存在着情感的过渡( 包括渐变 和激变,如“恼羞成怒 ) ,这使得研究者使用计算机的结构化数据来形象地把握 并描述情感变得十分困难。因此目前情感的分类不但在情感计算这个领域,甚至在 心理学界也还是模糊的。 本文综合了现有的词汇资源,将本章读者检索语句中主要出现的情感划分为4 个大类,再细化描述为2 2 个小类。具体划分如下表所示: 1 2 硕士学位论文 m a s t e r st h e s i s 表2 1 情感分类的不同划分 编号情感大类别情感细划分 例词 1 喜快乐喜悦,欢乐,喜不胜收 2 安心踏实,淡定,问心无愧 3 惊喜欣喜,激动,又惊又喜 4赞扬赞赏,表扬,通情达理 5相信信赖,诚信,毋庸置疑 6 喜爱喜欢,爱慕,爱不释手 7 怒愤怒气愤,生气,怒发冲冠 8憎恶 厌恶,憎恨,深恶痛绝 9嫉妒妒忌,眼红,嫉贤妒能 1 0烦闷厌烦,讨厌,不胜其烦 1 1 责难责备,批评,吹毛求疵 1 2 展悲伤悲痛,伤心,肝肠寸断 1 3 失望遗憾,失望,心灰意冷 1 4耻辱蒙羞,耻辱,奇耻大辱 1 5忧愁担心,忧虑,牵肠挂肚 1 6 委屈憋气,有口难言,忍气吞声 1 7后悔懊悔,悔恨,悔不当初 1 8 思念相思,想念,望穿秋水 1 9 惧害怕惶惶,吓人,提心吊胆 2 0 恐惧惊骇,惊哭,风声鹤唳 2 1 吃惊惊讶,惊惶,惊弓之鸟 2 2害羞羞涩,脸红,面红耳赤 如表2 1 所示,各种情感分类方法都对情感的强度和复杂度进行了不同程度的 细化分类,本文将其分别对应的情感词也一一列举出来作为补充说明。以上四类是 将那些较细粒度的情感类别的划分方法归并起来,然后整合出来的四类粒度大、易 区分的情感类别:喜( h a p p y ) 、怒( a n g r y ) 、哀( s a d ) 、惧( f e a r ) 。 另外,博客文本的写作和阅读包括“作者”和“读者两个角度,因而其所包 含的情感内容也需要从这两个角度来辨。比如在一篇博客中,作者描写了天气、 身边发生的事件、对某些事物和看法等自身的感受和评论,都是包含了该作者自身 硕士学位论文 m a s t e r st h e s i s 人生观、价值观的体现,不同的读者阅读时也会根据自身的主观意识进而产生不同 的主观情感体验。比如一篇令人捧腹的笑话中并没有包含任何通常用来表示情感喜 ( h a p p y ) 的词语,相应地篇催人泪下的叙述也可能只用了很平淡但引用了中文诗 歌意象的词语( 如“枯藤 、“老树 、“昏鸦”等) 。另外,作者还会运用比喻、拟人、 借用等表达手法以及倒叙、插叙等表达方式来期望读者产生特定的情感状态。因此 本文定义读者检索语句中的情感内容就是读者角度的情感特征集合,博客情感内容 数据集中的情感内容为作者角度的情感特征集合。 2 2 情感特征向量模型 读者输入一条检索语句: “让人感到十分幸福和温暖的文章 可以看出,这里的“幸福和“温暖 是该检索语句的主要情感特征。很显然, 这两个词是形容词。但这仅仅是一个例子,我们不能说明所有的情感特征都只包括 形容词。因为文本的情感特征通常借助于带有语义倾向性的情感词来实现,这些情 感词主要包括形容词( a ) 和副词( a d ) ,有时也包括一些形容词要素( a n ,a g ) 和 名词( n ) 、名词要素( n r ,n z ,n g ) 等。我们这里需要对所有这些词性做出比较, 得出最能够代表读者检索语句中的情感特征的词性。 根据最大熵理论,我们可以从以上所有能够表现文本情感特征的情感词分布中 选择熵最大的分布作为最优的情感词词性嘲3 ,用公式表示如下: p = p le p 乃= e p f j ,1 ,) 公式2 1 p + = a r g m a x h ( p 1 公式2 2 p 凹 从以上公式可以得出,我们可以从包含了符合条件( 情感特征) 及不符合条件 ( 非情感特征的噪声) 中,即形容词( a ) 和副词( a d ) 、形容词要素( a n ,a g ) 和名 词( n ) 、名词要素( n r ,n z ,n g ) 等,采用最大熵方法啪1 抽取出最优的情感特征 分布标注。为了便于推理和计算,下面根据最大熵理论给出上述读者情感特征向量 的形式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湖北省华师一附中2026届化学高三第一学期期末综合测试试题含解析
- 心肺复苏技术和除颤技术
- 2024学年广州市七年级语文上学期期中考试卷附答案解析
- 脑卒中科普讲解
- 牛蹄解剖生理讲解
- 桥梁施工安全技术交底
- 汽车试制会议汇报
- 石膏模型灌注技术
- 细胞生态关系图解
- 虚拟化技术培训
- FZ/T 73069-2022少女文胸
- GB/T 6900-2016铝硅系耐火材料化学分析方法
- GB/T 29790-2020即时检验质量和能力的要求
- IFS公司产品综合介绍
- 北信源终端安全登录与文件保护系统用户使用手册
- 护理文书书写规范-课件
- 安全技术交底签字表格【范本模板】
- 工程质保期满验收报告模板
- 2023年版下肢动脉硬化闭塞症诊治指南
- DB21T 3164-2019 辽宁省绿色建筑施工图设计审查规程
- 工伤知识培训(工伤待遇篇)课件
评论
0/150
提交评论