不平衡情感分类的分析研究PPT课件_第1页
不平衡情感分类的分析研究PPT课件_第2页
不平衡情感分类的分析研究PPT课件_第3页
不平衡情感分类的分析研究PPT课件_第4页
不平衡情感分类的分析研究PPT课件_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

-,1,Semi-supervisedTextCategorizationbyConsideringSufficiencyandDiversityShoushanLiSophiaYatMeiLeeWeiGaoChu-RenHuangNaturalLanguageProcessingLab,SchoolofComputerScienceandTechnology,SoochowUniversity,ChinaCBS,TheHongKongPolytechnicUniversity,HongKong,-,2,目录,半监督文本分类传统半监督方法所面临的问题样本的多样性与充分性多样性的实现特征子空间差异性实现实验设置实验结果分析结语,3,-,半监督文本分类,近些年来,半监督文本分类在自然语言处理研究领域获得了显著的发展。半监督文本分类旨在少量的标注样本基础上,利用未标注样本,提高分类性能。半监督情感分类常见方法:自训练(self-training)标签传播算法(LP)Tri-trainingEM,4,-,传统半监督方法所面临的问题,传统半监督学习方法(self-training)理论上应该是有效的:eg:ThisbrandistheworstqualitythatIhavepurchased.Iwouldavoidthisbrand.分类器从未标注样本中学习额外知识实际上传统半监督学习方法并不是很成功多样性充分性,5,-,样本的多样性与充分性,多样性(diversity):衡量半监督中加入的未标注样本与已标注样本之间的相似度。充分性(sufficiency):衡量分类器对样本分类的准确性。好的半监督学习方法应该考虑充分性的基础上,尽量保证样本的多样性,从而获得好的分类性能。,6,-,样本的多样性与充分性,7,-,多样性的实现,传统的半监督学习方法倾向于加入与已标注样本相似度较大的未标注样本。利用随机特征子空间增加样本之间的差异性,每次迭代选取不同的特征子空间保证相邻两轮迭代特征子空间的差异性在上轮余下的特征空间中挑选特征保证unigram的不同,扩展bigram,8,-,特征子空间差异性实现,以unigram作为种子词,扩展bigrameg:若包含特征excellent,则特征is_excellent,very_excellent均被加入。特征子空间的构建,unigram个数(r)固定,通过unigram加入与之相关的bigram。保证相邻两轮迭代特征子空间中的unigram特征不同,从而降低了特征子空间中特征的相似度,如excellent与is_excellent,加大了相邻特征子空间的差异性。,9,-,实验设置,实验语料:主题分类:20News,WebKB情感分类:book,DVD,electronic,kitchen实验设置200篇样本作为测试语料,余下的作为标注样本和未标注样本分类工具MALLET机器学习工具包中的最大熵分类器分类效果衡量标准分类准确率,10,-,分类方法对比,我们实现了以下分类方法的比较研究:Baseline:trainingaclassifierwiththeinitiallabeleddata(nounlabeleddataisemployed);Bootstrapping-T:thetraditionalbootstrappingalgorithm;Bootstrapping-RS:thebootstrappingalgorithmwithrandomsubspaceclassifiers;Bootstrapping-ES:thebootstrappingalgorithmwithexcludedsubspaceclassifiers;Bootstrapping-ES+:theBootstrapping-ESimplementationwithafeatureexcludingstrategytoguaranteethedifferencebetweendifferenttypesoffeatures,i.e.,wordunigramsandbigramsinthisstudy.。,11,-,分类方法比较-主题分类,12,-,分类方法比较-情感分类,13,-,特征子空间大小设置,14,-,实验结果分析,半监督学习在情感分类中要比主题分类困难比较Bootstrapping-T,Bootstrapping-RS,Boo

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论