




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于词典的中文情感倾向文本分析工具,情感倾向可认为是主体对某一客体主观存在的内心喜恶,内在评价的一种倾向。 情感倾向方向 情感倾向度,情感倾向,目前,情感倾向分析的方法主要分为两类: 基于情感词典的方法; 是基于机器学习的方法。,分析方法,文本情感分析的分析粒度: 词语; 句子; 段落; 篇章。,分析粒度,解决较短文本的情感分析, 篇章级文本情感分析的基础。,分析粒度,句子级的情感倾向分析:,使用工具: 语言:java 中文分词系统: FudanNLP-1.5 情感词典:知网情感词典,语言和工具:,1、文本切割转换,算法分析,3、情感聚合,2、情感定位,将文档D以换行符”/n”分割成段落P;
2、将段落P用中文里常用的句号、分号、问号、感叹号划分句意的符号,切割成不同的句子“。”,”;”,”?”,”!” ; 使用FudanNLP中的分词函数,对短句进行分词。,1、文本切割转换,文本切割的目的是将文本变成我们后续分析需要的格式: “我今天很不高兴。” (1,“我” ,“代词”),(2,“今天”,”时态词”),(3,“很”,”副词”),(4,“不”,”否定词”),(5,“高兴”,“形容词”),1、文本切割转换,2、情感定位,单词列表,是否为情感词,否,next,标记并存入情感词列表,next,是,否定词的修饰会使情感词语的情感极性发生改变。 多重否定:当否定词出现奇数次时,表示否定意思;当
3、否定词出现偶数次时,表示肯定意思。 否定词典NotDict,并设置其权值为W=-1。,常见的否定词如: 不、没、无、非、莫、弗、毋、勿、未、否、别、無、休,否定词和程度副词的优化,“我今天很不高兴”,当程度副词修饰情感词,该情感词的情感倾向程度发生了变化。,否定词和程度副词的优化,“今天坐了12个小时的车,身体极度疲惫。”,type | 权值 超|over 1.5 很|very 1.25 极其|extreme / 最|most 2 较|more 1.2 欠|insufficiently 0.5 稍| slightly 0.8,程度副词示例,经过文本切割转换 (1,“我” , “代词”), (2
4、,“今天”,“时态词”), (3,“很”, “副词”), (4,“不”, “否定词”), (5,“高兴”,“形容词”) 情感定位 (5,“积极词”,4), (4, “否定词” ,-1), (3, “程度词”,1.25),“我今天很不高兴。”,篇章级情感倾向通过聚合篇章中所有的句子的情感倾向来计算得出。 句子级由句子中所含情感词来计算。,3、情感聚合,情感值 = 否定词(-1) * 程度词权重 * 情感词权重,“我很不高兴”分词之后: 我 很 不 高兴 “我不很高兴”分词之后: 我 不 很 高兴,否定词和程度词位置关系,W = 1; If 位置(否定词) 位置(程度词):W = -1; 意群情感值 = W * 程度词权重 * 情感词权重; end If 位置(否定词) 位置(程度词):W = 0.5; 意群情感值 = W * 程度词权重 * 情感词权重; end 如果句子里出现多个否定词,则处理办法为: For n in 所有否定词: W = -1 * W,3、情感聚合,句子情感值 = sum(意群情感值1,意群情感值2) 段落情感值 = average(句子1情感值,句子2情感值) 文档情感值 = average(段落1情
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论