版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于2-POS模型的主观句判别
与
基于CRFs和句法分析的中文微博情感分析许歆艺,陈豪,黄晨楼博文,李子钰,王康指导老师:刘功申,苏波上海交通大学信息内容分析技术国家工程实验室目录基于2-POS模型的主观句判别基于CRFs(ConditionalRandomFields,条件随机场)的文本情感倾向性分析基于句法分析算法的文本情感倾向性分析基于2-POS模型的主观句判别2-POS模型N-POS模型是一种基于语料库的统计语言模型。在N-POS模型中,将词按词性(Part-Of-Speech,简称为POS)分类,再将语句中连续N个词性的顺序组合作为一个项,用这些项作为文本分类中的一个特征。当N取2时,即将连续两个词语的词性组合成一个模式,就是2-POS模型。例:天气很好nada2-POS:n-adad-a基于2-POS模型的主观句判别总体流程图
式中,
表示某一2-POS,
表示某一类别,这里有两类:主观,客观,N表示训练集中主客观句的综述,A表示属于类
并且包含
的句子数,B表示不属于类
但是包含
的句子数,C表示属于类
但是不包含
的句子数,D表示不属于类
并且不包含
的句子数。计算2-POS的卡方值设置2-POS主观权重计算得所有2-POS的卡方值并取其中前15个作为主观模式。使用每个选取为主观模式的2-POS的查准率作为这个2-POS的主观权重。选取15个2-POS作为主观模式选择主观评分阈值将文本中所有2-POS所得的主观评分加和,除以文本中2-POS的总数,获得文本最终主观性评分。最终结果在选择阈值为0.0001的时候,查准率达到0.74126,查全率达到0.77196,均比较理想。CCF自然语言处理与中文计算会议中文微博主观句识别评测结果CRFs(ConditionalRandomFields,条件随机场)CRFs简介CRFs是基于HMMs(隐式马尔可夫模型)与MEMs(最大熵模型)的基础上的改进。CRFs使用条件特征,可以对特征进行全局归一化。它在给定需要标记的观察序列的条件下,计算整个标记序列的联合概率。在现实的序列标注任务中,CRFs性能往往都优于HMMs和MEMs。 基于CRFs的微博情感分析流程图序列标注工作 将训练集的短文本的每个词作为第一列,将短文本的情感倾向性作为标注作为第二列。每个词都标注为这个文本的类别,这样短文本就转化为一个标注后的序列,可以用于训练。 测试集的短文本只需给出每个词作为第一列,第二列文本类别为空,留待预测。真的
正面是
正面非常
正面好
正面的
正面想法
正面值得
正面进一步正面探讨
正面序列标注示例特征模版的选取#UnigramU00:%x[-2,0]U01:%x[-1,0]U02:%x[0,0]U03:%x[1,0]U04:%x[2,0]U05:%x[-1,0]/%x[0,0]U06:%x[0,0]/%x[1,0]...真的正面是正面非常正面>>currenttoken好正面的正面只选择U05作为特征模版与选择所有作为特征模版准确率相差很小,为避免特征空间膨胀,仅选择U05作为特征模版。最终结果结论:链式CRFs的序列标注不仅保存了短文本的特征词,还保存了词之间的顺序关系,可以提高短文本情感倾向性分析的准确度。CCF自然语言处理与中文计算会议中文微博倾向性分析评测结果句法分析算法基于句法分析算法的
文本情感倾向性分析总体流程图获取评价对象候选集获取评价对象候选集1. 采用句法分析获得评价对象,然后通过词频排序的方式,构建评价对象候选集合,然后添加同义词,并且对评价对象赋予权值。获取评价对象候选集2.找到这个修饰对象所在的关系对,是否存在nn的依赖关系,如果存在,那么nn依赖对中的两个词语一次合并成完整的修饰对象nn(复合名词)例如:服务中心 nn(中心,服务)获取评价对象候选集3.检索是否存在dobj依赖对,如果存在,那么我们认为右边的词语是动宾结构的宾语,基于查找该宾语的依赖对中是否含有nn的结构,如果存在,那么nn依赖对中的词语将合并成为评价的对象,用于之后的匹配。dobj(直接对象)例如:浦东颁布了七十一件文件 dobj(颁布,文件)获取评价对象候选集4.检索是否存在比字结构,如果情感词出现在prep依赖对的左边,并且伴随着pobj依赖对的出现,我们认为这个情感词语修饰的是一个比较结构,pobj依赖对的右边的词虽然不是直接形容评价对象的词语,但是,对于比较结构,一定是一个同类的评价对象,属于隐式的评价对象之一。prep(介词短语修饰)例如:在实践中逐步完善 prep(完善,在)pobj(介词宾语)例如:根据有关规定 pobj(根据,规定)根据词频对评价对象排序
并对同义词增补
为不同评价对象分配权值处理情感词汇处理情感词汇1.查找该情感词语的其他依赖关系对,如果存在advmod结构,并且是情感词语出现在关系对的左边,那么右边的词语就是修饰这个情感词语的副词,我们找到这个副词,并且做副词程度匹配。advmod(状语修饰)例如:部门先送上文件 advmod(送上,先)处理情感词汇2. 继续寻找advmod依赖对,有时候往往会存在很多副词连续修饰一个情感词的情况,我们找到所有的修饰副词。处理情感词汇3. 继续查找情感词语的依赖对,如果存在neg依赖关系,那么情感发生变化,生面的情感词语认为前面加了否定的副词修饰。neg(负面修饰)例如:以前不曾遇到过 neg(遇到,不)通过上述方法得到情感词最终情感值
综合其修饰的评价对象的权值加入文章总的倾向性分数Nowproblemis:
短文本很难从以上依赖关系对中找到评价对象对于短文本的处理方法1. 对于短句中存在匹配到情感词语,但是无法用上面规则找到评价对象,我们向前寻找最近的标点符号,并且找到该标点的punct依赖对,并且有连接词出现在依赖对的左边,那么我们认为该情感词形容的评价对象是离它最近的一个之前的评价对象。对于短文本的处理方法2. 对于短句中没有匹配到情感词汇,但是存在punct依赖对,并且连接词可以在递进,转折等连接词列表中匹配到,那么如果是转折关系,我们将之前最近的一个评价对象的倾向性做相反方向的处理,如果是递进关系则更加强调之前的结果。最
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车辆使用管理制度
- 《青蒿素 人类征服疾病的一小步》青蒿素研究的知识产权保护课件
- 技术实物试题及答案
- ISO 9001-2026《质量管理体系-要求》培训师、咨询师和审核员工作手册之9-1:“9绩效评价-9.1监视、测量、分析和评价-9.1.1总则”雷泽佳编制-2026A0
- 药品不良反应监测培训试题及答案
- 广东省广州市增城区2026年中考一模英语试题附答案
- 药品价格管理试题及答案
- 药品配制规范试题及答案
- 医疗废物管理三基三严考试题库及答案
- 销售内勤竞聘试题及答案
- 2025年月嫂考试题及答案
- 药品管理追溯管理制度
- 媒介融合抵抗形态-洞察及研究
- 光伏运维管理制度
- 村文书考试题及答案甘肃
- 河南省郑州市建筑职业技术学院2024年4月单招考试职测试题
- 高职应用语文教程(第二版)教案 上篇 文学鉴赏
- 征地补偿申请书范文
- 甲方业主项目管理手册
- 冶炼过程数值模拟技术-洞察分析
- 踝泵运动健康宣教课件
评论
0/150
提交评论