基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@_第1页
基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@_第2页
基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@_第3页
基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@_第4页
基于流形学习和多视图的情感分类徐戈(08级博士生)xuge@_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于流形学习和多视图的

情感分类

徐戈(08级博士生)

xuge@

导师:王厚峰教授报告内容使用流形学习和多视图结合的方法进行情感分类流形学习和多视图方法的介绍在情感分析上的使用(主要是词汇级)有关读者情感的实验尝试emotion分类体系的探索注:此处的分类包含classification和Ranking;区别sentiment(情感)和emotion,前者包含后者,此外还包括观点等流形学习的例子

流形学习简介流形(manifold)的定义流形是高位空间中的内在几何结构,其上或者靠近它的点能够有低维的表示。呈现高密度的特点。流形假设(Manifoldassumption)如果两个点x1;x2∈X在P(x)蕴含的几何结构上是相近的,那么它们的条件分布P(y|x1)和P(y|x2)也应该是相似的。Manifoldlearning的最优化问题前两项有监督学习的内容。第三项是在整个样本空间上(包含有标也包含无标数据)的计算,保证f的变化率在高密度区域尽可能地小,从而满足流形假设。相对于通常的机器学习方法,流行学习的最大特点就是考虑了任意样本(有标记和无标记)之间的关系来协助学习过程。如何表示流形?我们可以认为P(x)中蕴含着流形结构,然而通常P(x)是未知的。通常借助加权的邻接矩阵来逼近,并假定这个矩阵中蕴含着流形结构。假设有N个样本点(有标和无标),那么使用一个N*N的矩阵就可以表示任意两个样本点之间的相似度。从而近似地表达这个流形结构。什么是视图?一般来说,特征的集合可以看成是一个视图。比如Co-training中文本的内容和链接信息分别作为描述一个页面的视图。即两个特征向量。有时,给定一个对象我们可能不容易用特征向量来描述(比如单词,句法树等),但可以知道两个对象的相似度。这种对象间的相似度量可以看成是一个视图。(相当于kernel方法中必然对应某个特征映射,但此时不关心特征映射具体是什么)。多视图的融合对于用特征向量表示的视图,最简单的融合方式就是把多个向量合成一个更大的向量。对于通过用相似关系(通常是矩阵)表示的视图线性的:若干个矩阵做凸组合。顺序的:每次使用一个矩阵来进行流形学习,然后其结果作为下一个矩阵的输入再进行流形学习。……目前来看,这种融合是简单的,很多时候都是靠经验或试验。使用流形学习和多视图结合的方法进行情感分类动机万小军,Graph-BasedMulti-ModalityLearningforTopic-FocusedMulti-DocumentSummarization.IJCAI2009在句子级提出了文档间和文档内两种相似度参加COAE2009在词汇级和句子级对文本对象进行ranking选择这种方法的原因(基本)满足流形假设语义相同的单词呈现相似的情感共现的单词呈现相似的情感……大量的可用资源语义的相似性存在大量的相似度计算方法,主要是基于语义词典(如wordnet,现代汉语词典)单词的共现等信息则可以从大量的语料中获得。……对象之间关系是依赖特定领域的,我们可以尽可能地在此使用语言学方面的知识。实验实验一Coae2009Task1单词情感rankingTask2句子情感ranking方法:manifoldlearning+multipleviews实验二数据:GI(GeneralInquiry)任务:Polarityinduction方法:manifoldlearning+multipleviews所选择的流形学习方法来自Rankingondatamanifolds(DengyongZhouetal.)可以得到解析解,但是要求逆阵,还是用迭代算法来做。与LabelPropagation很相似词汇级的视图(实验一) 对于单词而言,我们可以将单词在一句话中的共现看成是一种相似信息,出现在同义词词林的同一行也是一种相似信息。基于此,人民日报,同义词词林,现代汉语词典提供3个相似度矩阵。除了此外,我们还可以计算两个单词之间字的重合个数,作为一种相似度量。比如:“高兴”和“高高兴兴”有两个字的重复。 基于对各个相似性重要性的判断,在最终的相似度矩阵中,同义词词林和基于重合字个数的相似度矩阵的权重各占1/3,而人民日报和现代汉语词典的相似度矩阵权重为1/6。句子级的视图(实验一)两个句子的情感相似度等于情感词最强词上下文的相似度。用到了程度词表、否定词表等。词汇级的视图(实验二)1.Synonym:Iftwowordsappearinthesamesynset(synonymset)thentheweightofthelinkconnectingtwowordsis1,otherwise0.2.Hypernym:Ifanypairofsynsetsthattwowordsbelongtorespectivelyhavethesamehypernymthentheweightofthelinkconnectingtwowordsis1,otherwise0.3.Jiangsimilarity:ComputingsemanticrelatednessofwordsaccordingtothemethoddescribedbyJiangandConrath.4.Linsimilarity:SimilarwithJiangsimilarity.实验一结果(coaetask1)实验一结果(coaetask2)实验二结果实验二结果(续)需要深入的问题(Large-scale)Sindhwani,LargeScaleSemisupervisedLinearSVMs(2006)将对每个样本点的y预测,变成一个线性模型,减少了需要预测的变量。Tsang,I.,&Kwok,J.,Large-scalesparsifiedmanifoldregularization.(2006)Theintuitionisthatmostpairwisedifferencesf(xi)−f(xj)areverysmall.Bytoleratingdifferencessmallerthanǫ,thesolutionbecomessparse.FeiWangChangshuiZhang,LabelPropagationThroughLinearNeighborhoods(先用LLE,然后再用LP)SeemoreinSemi-SupervisedLearningLiteratureSurveybyXiaojinZhu需要深入的问题(续)相反信息的使用AndrewGoldberg,XiaojinZhu,andStephenWright.Dissimilarityingraph-basedsemi-supervisedclassification举例:高兴和难过消除view之间的相关性见实验二结果似乎还没有文章主要参考文献XiaojunWanetal.,Graph-BasedMulti-ModalityLearningforTopic-FocusedMulti-DocumentSummarizationDengyongZhouetal.,RankingondatamanifoldsXiaojinZhuetal.,Learningfromlabeledandunlabeleddatawithlabelpropagation

HanghangTongetal.,Graphbasedmulti-modalitylearningMikhailBelkinetal.,ManifoldRegularization:AGeometricFrameworkforLearningfromLabeledandUnlabeledExamplesRao

Delipetal.,Semi-supervisedpolaritylexiconinduction读者情感(ReaderEmotion)什么是读者情感?人们看到文章后表现出来的情感。和作者情感(writeremotion)区别。和主题,人物,事件紧密相关。任志强再发雷人言论:中国人太有钱房子太便宜(中新网)经销商清仓上海大众斯柯达晶锐跌破7.4万元(来自新浪)

李宇春续约几率小有意自组团队自控经纪约(来自新浪)态度:支持,我顶观点:好文章,枪稿,标题党,搞笑,炒作,无聊,无语,养眼(对图片)情绪:感动,雷人,愤怒,悲伤读者情感的相关实验已有的工作:WriterMeetsReader:EmotionAnalysisofSocialMediafromboththeWriter'sandReader'sPerspectivesRankingReaderEmotionsUsingPairwiseLossMinimizationandEmotionalDistributionRegression贾玉祥NLP-KE实验尝试贾玉祥提供中新网语料Writeremotionvs.Readeremotion无法找到一个很好的idea,不能做成纯数据分析RankingReaderEmotions要预测的是一个分布,而非单个标记,或者多标记(标记集合)。目前的做法是每个情感单独做回归然后归一化。Manifoldlearning预测readeremotion。文档之间的相似度定义比较困难,使用的是VSM+idf考虑各个读者情感之间的关系。比如,高兴和难过负相关,同情和难过正相关等等。实验效果都不理想emotion分类体系的探索动机COAE2009中:喜(高兴、喜欢)读者情感的划分很多相关的。比如(难过、同情、感动),(炒作、无聊)构建一些资源作为将来工作的基础。Emotionschema大连理工(林鸿飞)Wiki(Plutchik等)等等采用的方法(略)流形学习和多视图人工的标注(先定emotionschema)Schema笑眯眯是情绪的表现而非情绪本身。相信,怀疑似乎应该单独成组。烦闷是情绪,但被放在了恶(态度)中。从大类来看不包括“观点”,而赞扬和斥责中都是观点词。RobertPlutchik‘sschemaBasicemotionJoy喜vs.Sadness哀Trust好vs.Disgust恶?Fear惧vs.Anger怒?Surprise惊vs.Anticipation欲AdvancedemotionOptimismAnticipation+JoyDisappointmentSurprise+SadnessLoveJoy+TrustRemorseSadness+DisgustSubmissionTrust+FearContemptDisgust+AngerAweFear+SurpriseAggressivenessAnger+Anticipation反义关系成立吗?蔑视(anger?)其它emotionschema七情(来自网络搜索)“喜、怒、哀、乐、爱、恶、欲”“喜、怒、忧、惧、爱、憎、欲”“喜、怒、忧、思、悲、恐、惊”

EARL:TheHUMAINEEmotionAnnotationandRepresentationLanguage(EARL)classifiesthefollowing48emotionsLojbanemotions:TheartificiallanguageLojbanhasinterjectionsexpressingdegreesofemotionsSeedetailsat/wiki/List_of_emotions手工标注数据集的获取:8080/ccl_corpus/用“非常”和“十分”提取句子然后进行分词和词性标注,选择后接的形容词和动词(2400+)标注的类别意愿,态度,认知,情绪态度?(情绪、观点、还有潜在的行为)意愿好奇/a,有意/v,向往/v,眼馋/v,期望/v,好奇/v,期盼/v,急于/v,神往/v,希望/v,急切/a,指望/v,憧憬/v,愿意/v,怀念/v,留恋/v,盼望/v,惦念/v,想念/v,期待/v,挂念/v,乐意/v,企盼/v,想见/v,渴望/v,情愿/v,思念/v态度钦佩/v,忌妒/v,疼爱/v,体谅/v,在乎/v,恭敬/a,钦羡/v,肯定/v,敬仰/v,恭维/v,反对/v,钟爱/v,漠视/v,佩服/v,认可/v,嫉妒/v,轻视/v,热衷/v,担心/v,忌恨/v,景仰/v,藐视/v,畏惧/v,敬重/v,支持/v,厌恶/v,爱惜/v,鄙视/v,赞赏/v,爱好/v,尊重/v,痛恨/v,器重/v认知理解/v,纳闷/v,留神/v,疑惑/v,了解/v,犹疑/a,清楚/v,明白/v,困惑/a,费解/a,懂得/v,不解/v,注意/v,留意/v,蹊跷/a,觉得/v,熟知/v,困扰/v,明白/a,怀疑/v,奇怪/v,熟悉/v,茫然/a,疑惑情绪感慨/a,失望/a,后悔/v,惊喜

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论