自然语言处理 课件 第9章 文本分类与情感分析_第1页
自然语言处理 课件 第9章 文本分类与情感分析_第2页
自然语言处理 课件 第9章 文本分类与情感分析_第3页
自然语言处理 课件 第9章 文本分类与情感分析_第4页
自然语言处理 课件 第9章 文本分类与情感分析_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第九章文本分类与情感分析目录文本分类情感分析第九章文本分类与情感分析文本分类文本分类(TextCategorization或TextClassification,TC):是根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。第九章文本分类与情感分析文本分类第九章文本分类与情感分析例:A.中信证券建筑首席分析师罗鼎认为,发改委加大对重大基础设施建设项目审批力度,凸显逆周期调节重要性。B.2018年5月,太原国际马拉松赛被国际田联认定为银标赛事,成为全国第八个获得这项荣誉的马拉松赛。人类是如何进行区别的?文本分类第九章文本分类与情感分析分类体系一般人工构造政治、体育、军事中美关系、恐怖事件分类系统可以是层次结构,如yahoo!分类模式2类问题,属于或不属于(binary)多类问题,多个类别(multi-class),可拆分成2类问题一个文本可以属于多类(multi-label)这里讲的分类主要基于内容很多分类体系:Reuters分类体系、中图分类文本分类第九章文本分类与情感分析文本分类方法的分类基于传统机器学习的文本分类。基于深度学习的文本分类。文本分类第九章文本分类与情感分析基于传统机器学习的文本分类随着统计学习方法的发展,特别是在90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典方法,这个阶段的主要套路是人工特征工程+浅层分类模型。整个文本分类问题就拆分成了特征工程和分类器两部分。文本分类第九章文本分类与情感分析一般分类框架文本分类第九章文本分类与情感分析特征工程这里的特征工程也就是将文本表示为计算机可以识别的、能够代表该文档特征的特征矩阵的过程。在基于传统机器学习的文本分类中,我们通常将特征工程分为文本预处理、特征提取、文本表示等三个部分。基于传统机器学习的文本分类文本分类第九章文本分类与情感分析数据清洗,去除指定无用的符号让文本只保留汉字对文本进行分词(词性标注)去除停用词中文文本预处理流程(参考)目录文本分类情感分析第九章文本分类与情感分析情感分析情感与我们主观的感觉和感受密切相关,是人类心理活动的核心要素,也是影响人们日常行为的关键因素。情感分析,也称“观点挖掘”(OpinionMining),是指利用可计算方法,从文本中提取观点与情感信息的过程。第九章文本分类与情感分析情感分析美国伊利诺伊大学芝加哥分校刘兵教授在《情感分析:挖掘观点、情感和情绪》一书中,将情感定义为一个四元组:<g,s,h,t>,其中:g是情感评价的目标(target),可以进一步细化为更细致的实体(entity,或称对象object)和方面(aspect,或称属性attribute)。方面是实体的一个子属性,一个实体可以有多个方面,如一部手机(实体)的外观(方面1)和价格(方面2)等。s是针对该目标所表达的情感,是一个正面(褒义)、负面(贬义)或中立的情感倾向或打分,称为情感极性(sentimentpolarity)。h是观点持有者,通常是表达情感的文本内容的作者。t是时间,标识情感产生的具体时间。第九章文本分类与情感分析情感分析第九章文本分类与情感分析将复杂文本分解为六个可计算步骤实体与方面抽取01识别并归类文本中的实体(如手机)及其方面(如外观、价格)。情感持有者识别02定位并分类表达情感的用户或作者。时间信息提取03捕获并标准化情感表达的具体时间。方面情感判定04确定每个方面所蕴含的情感是正面、负面还是中性。生成情感五元组05综合以上信息,生成结构化的情感数据记录。情感分析第九章文本分类与情感分析情感词典提供最基本的情感倾向线索1关键资源情感词(如好、漂亮)是情感分析的核心线索,将其汇集形成的列表即为情感词典。2SentiWordNet经典的英文情感词典,为每个词义提供积极、消极得分。3HowNet&中文本体库中文情感知识库,将情感细分为正面、负面、评价等多个类别,并提供强度等信息。4词典的局限词典无法解决一词多义(如“奇葩”)、上下文依赖(如否定、讽刺)和隐式情感等问题。情感分析第九章文本分类与情感分析情感分析的粒度层次粒度任务描述典型假设适用场景篇章级整篇文档情感倾向单一实体+单一作者商品整体评价(IMDB,Yelp)句子级单句情感极性单一情感微博、推文(SemEval-2017)方面级针对具体属性的情感多方面共存细粒度产品反馈(电池、屏幕)隐式情感无显式情感词但含情感需常识/修辞理解讽刺、反问、事实暗示情感分析第九章文本分类与情感分析1任务本质本质上是一个文本分类问题,目标是将文本划分为预定义的褒义、贬义等情感类别。经典数据集包括IMDB电影评论、Yelp商户评论、Amazon产品评论等大规模公开数据集。2常用特征主要依赖词频、词性、情感词、否定词等传统文本分类特征。3篇章级情感分析:作为文本分类任务的特例情感分析第九章文本分类与情感分析句子级情感分析:短文本情感的快速判断1主要挑战相比篇章,句子包含信息更少,上下文更不明确,因此分类难度更大。2任务形式通常作为三分类问题,预测句子为积极、消极或中立。3常见数据集如SemEval-2017Task4的Twitter情感分析、NLPCC微博情绪分析等。情感分析第九章文本分类与情感分析方面级情感分析:细粒度情感分析的主流范式子任务任务描述示例分析1方面提取(AspectExtraction)“屏幕清晰,但电池太短”-AspectTerm提取AspectTerms:屏幕、电池-AspectCategory归类AspectCategories:screen∈{display},battery∈{performance}2方面情感分类{screen:positive,battery:negative}-ATSA:针对具体方面项的情感分析对“屏幕清晰”的评价为positive-ACSA:基于预定义类别的情感分析对“battery”在性能方面的评价为negative情感分析第九章文本分类与情感分析代表性方法:融合方面信息的LSTM模型,通过在模型结构中显式地融入方面目标信息,增强模型对方面相关上下文的建模能力。TD-LSTM:使用两个LSTM分别对方面和上下文进行编码,将两个方向的最终状态拼接后进行分类。1情感分析第九章文本分类与情感分析TC-LSTM:将方面的词向量平均值与句子中每个词的词向量进行拼接,以模拟人类寻找相关词的过程。2情感分析第九章文本分类与情感分析代表性方法:引入注意力机制的建模方法,注意力模型能够更灵活地处理不同方面,注意到句子的不同部分,显著提高性能。AT-LSTM在LSTM编码层之上引入注意力机制,让模型能够动态聚焦于对方面情感判定起关键作用的词语。情感分析第九章文本分类与情感分析ATAE-LSTM在词嵌入层就将方面向量与词向量进行拼接,使得每个词的表示从一开始就与方面相关联。情感分析第九章文本分类与情感分析隐式情感:指不包含显式情感词但通过客观陈述或修辞手法(如反问、反讽)表达主观情感的语言片段。分类描述示例关键挑战事实型隐式情感描述:基于客观事实表达出的情感,通常需要背景知识来推断情感倾向

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论