中文微博观点要素抽取研究课件_第1页
中文微博观点要素抽取研究课件_第2页
中文微博观点要素抽取研究课件_第3页
中文微博观点要素抽取研究课件_第4页
中文微博观点要素抽取研究课件_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、NLP&CC2013 中文微博观点要素抽取研究指导老师:丁晟春 汇报人:李霄南京理工大学信息管理系第1页,共17页。01 研究背景及意义02 研究方案03 中文微博娱乐本体设计04 评价对象抽取实验 05 总结与展望 第2页,共17页。研究背景及意义网络文本数量庞大情感分析观点挖掘观点要素抽取深层次的挖掘研究第3页,共17页。实验方案微博语料切分词特征赋值进行标记转换实验本体Hownet情感词表经特征赋值后的测试语料经特征赋值后的训练语料特征模板CRFs模型训练CRFs模型文件标注测试语料抽取结果语料预处理CRFs模型训练及测试实验语料: 训练语料:测评语料的20% 测试语料包含10个微博话题

2、,共计12382条微博。语料预处理: LJParser数据挖掘及语义分析智能开发平台中的语料库分词系统。实验方法: CRFs模型第4页,共17页。中文微博娱乐本体设计 微博中的话题涵盖了人物、事件等要素,具体的事件或影视作品又牵扯到方方面面之间的联系。在分析NLP&CC2013中文微博观点要素抽取评测语料基础上,构建中文微博娱乐本体。中文微博娱乐本体:类:27个数据属性:69个类间关系:33个实力若干第5页,共17页。中文微博娱乐本体设计核心大类之间的关系指示词评价对象评论者评论展现对其的感情描述提取出来源于写评论图1 核心大类之间的关系第6页,共17页。中文微博娱乐本体设计所定义的核心类基础

3、上,通过等级关系(subClassOf)扩展“评论对象”类和“指示词”类,形成的等级体系。在等级关系(subClassOf)的基础上继续扩展本体的等级关系,同时借鉴顶层本体SUMO中关系的定义,实现实验本体中非等级关系的定义。非等级关系包括整体-部分关系、同义关系、反义关系、转指关系、因果关系第7页,共17页。中文微博娱乐本体设计指示词分为属性指示词和情感指示词两种。属性指示词是指能够表示度量单位的词汇,这些词汇用来指示微博话题中一些属性的参数。情感指示词是指能够表示评论者对评论对象的褒贬态度的词汇,如“好/坏”指示某电影的水平等。第8页,共17页。中文微博娱乐本体设计“人物”类的层级定义(举

4、例1)人物图2 “人物”类的一级体系结构 导演摄影师编剧服装师Is-a道具师演员歌手作词者作曲者其他名人第9页,共17页。中文微博娱乐本体设计“新闻”类的关系定义(举例2)新闻图3 “新闻”类与其他类之间的关系 Is-a人物明星公益明星现场明星秘闻Is-aIs-a作为当事人第10页,共17页。评价对象抽取实验评价对象抽取之特征选择词特征词性特征情感特征本体特征本体特征表示的是词汇单元所具有的领域及其语义特性,反映了评价对象的领域共识。本文依据建立的实验本体,判断当前观察单元在该本体中的概念类别:类、属性或是实例,以辅助评价对象的抽取研究。微博中表达的显性评价特征通常都是单独的词汇单元或是多个词

5、汇单元组成的短语,直接反映了评价对象的构成规则。由于微博中评价对象在表述过程中都表现出一些语法规则,很大一部分评价对象都通过名词来表达,某些还可能通过动名词,形容词+名词,量词+名词(如部+电视剧)来表达。情感词不仅表达了评价者对评价对象的态度或是使用心得等评价信息,也在一定程度上能够反映评价对象在整条微博中的位置信息。情感词汇通常作为修饰的成分出现在评价语句中,或放在评价对象前,或放在评价对象后,因此该特性能够反映评价对象的位置信息。第11页,共17页。评价对象抽取实验特征选择预实验(五组实验) 实验 编 号特征模板识别出评价对象数准确率召回率F1词,词性,情感特征原子,位置复合51294.

6、48%87.01%90.59%2词,词性,本体特征原子,位置复合49096.69%85.17%90.56%3词,情感特征,本体特征原子,位置复合36396.76%82.39%88.99%4四类特征原子,位置复合48296.27%83.55%89.46%5四类特征原子,位置,属性复合49097.08%85.63%90.99%第12页,共17页。评价对象抽取实验评价对象抽取实验结果分析(宽松评价指标)参评标识号微平均宏平均正确率召回率F值正确率召回率F值11号(本单位结果)0.5660.3990.4680.5670.4120.475Best0.5630.5140.5380.5580.5040.52

7、6Last0.3810.3020.3370.3710.3060.332参评机构各指标平均值0.2940.2160.2340.2990.2140.229第13页,共17页。评价对象抽取实验评价对象抽取实验结果分析(严格评价指标)参评标识号微平均宏平均正确率召回率F值正确率召回率F值11号(本单位结果)0.3930.3200.3530.4060.3360.366Best0.4480.4080.4270.4480.4040.42217号0.2510.1710.2030.2710.180.212参评机构各指标平均值0.1670.1370.1440.1950.1370.143第14页,共17页。总结及展望模型能够尽可能多的识别出微博中的评价对象,同时获得了较高的准确率。验证了CRFs模型及实验中选择四类特征及设计的特征模板的有效性。对于一些隐性评价对象并没有识别出。没有进行详细的整条微博的语法分析。深入挖掘在线商品评论中隐性评论对象的特征,从而优化该抽取方法提高对评论对象的抽取整体效率。第15页,共17页。研究团队介绍骨干成员老师:丁晟春:研究方向为信息系统开发、文本挖掘与商务智能、信息检索、网络信息资源的开发。最近致力于商品评论的可信度,网络舆情及本体知识库构建等。吴鹏:用户心智模型,群体模拟与仿真等章成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论