中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt_第1页
中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt_第2页
中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt_第3页
中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt_第4页
中文微博情感分析系统LTLAB上海交通大学中德语言技术联.ppt_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、中文微博情感分析系统-LTLAB上海交通大学中德语言技术联合实验室,报告人:周霄,简介,在本届评测设立的3个评测任务中,LTLAB分别参加了任务1(观点句识别)和任务3(情感要素抽取)。 对于任务1:采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。 对于任务3:参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息,1. 预处理,预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分: URL 用户名及转发标志:变现为:“ + 用户名”,或“| + 用户名

2、” 话题:即一对“#”包裹的非空格字符 正常文本信息 分词和句法分析 分词使用了中科院的分词系统ICTCLAS,句法分析使用了Stanford Parser。 为了改善分词效果,评测小组成员从网络和评测样例数据中收集了一部分常用网络用语,加入用户词典中,1. 预处理,评价词抽取 基于评价词词典对词或词组进行匹配 分为正面评价词词典和负面评价词词典 词典来源由3部分构成:Hownet情感词集合、NTUSD情感词集合、来自网络和评测数据样例的评价词 词典加入正则表达式模板,如“丢.1,4的脸”可以匹配“丢我的脸” 对于抽取出的评价词,首先设定初始评价极性为词典中的极性;然后向前一个范围内寻找是否含

3、有表否定的词语,如“不”、“没有”等,每找到一个词就对当前评价极性进行一次反转,2. 观点句识别,基于VFI(Voting Feature Interval)分类器进行二值分类,正例即为观点句: 人工标注了评测样例数据作为训练数据。 VFI分类器的原理较简单,它假设各维特征独立,每维特征对所有类标识进行投票,每类的得分正比于该类得到的票数。 VFI分类器不显式考虑先验概率。由于训练数据不平衡(正例较少),因此有助于提高结果的召回率。下表是我们在小范围数据上使用各种分类器得到的结果,2. 观点句识别,对于微博中的每一句,抽取如下几种特征: 基于词性的特征。选取了在观点句中常出现的词性或词性组合作

4、为特征,如:连词个数、代词个数、副词+形容词个数、“不”+形容词个数等等 基于标点符号的特征:问号的数量和感叹号的数量 句中评价词的个数 纯粹表达主观意愿词的个数。评测要求纯粹表达主观意愿的句子不算作观点句。针对这一要求,我们人工收集了一些纯粹表达主观意愿词(如“祝愿”),并将句中该类词的数量作为一个特征 根据实验结果,人工调整了个别特征的权重,调低了分类器判分的阈值,3. 情感要素抽取,主要使用基于分类器的方法,辅以基于模板的方法。使用评价对象与评价词间的位置关系判别极性。 分类器同样采用VFI分类器。对于一条微博,首先抽取其中的候选评价对象,然后对于微博中的每个观点句,分别判断每个候选评价

5、对象是否是其正确评价对象,3. 情感要素抽取,候选评价对象抽取 有两种情况:句子中长度小于阈值的、句法成分为NN、NR、NP、IP、FW之一的词组;当前话题的关键词之一。 使用了两种方法抽取话题关键词: 方法一:使用话题中的名词。如“#假和尚搂女子#”,则抽取关键词“和尚”、“女子” 方法二:使用话题中的名词词组,以及整个话题。即“假和尚”、“女子”、“假和尚搂女子” 第二种方法的评测结果略好于方法一,3. 情感要素抽取,构建分类实例 对于每一个候选评价对象t,将其与微博中的每一句s分别组合构成分类实例。系统需要对每个分类实例判断true/false,对应t 是/不是 s的评价对象 每个分类实例抽取以下特征: t的句法成分 t与s的距离,即t与s间隔的字数。若t在s中,则距离为0;若t在s之前,则为一负值;若t在s之后,则为一正值 t是否是话题关键词 t是否出现在一对“#”之间 t在话题相关微博中出现的频次,3. 情感要素抽取,基于模板的方法 评测小组借鉴了史兴等人在COAE 2011论文集中使用的方法,对微博中所有都满足下表的三元组进行抽取,评价对象

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论