北京大学学报 自然科学版 中文排版样式.doc_第1页
北京大学学报 自然科学版 中文排版样式.doc_第2页
北京大学学报 自然科学版 中文排版样式.doc_第3页
北京大学学报 自然科学版 中文排版样式.doc_第4页
北京大学学报 自然科学版 中文排版样式.doc_第5页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文微博观点句分类及情感倾向性判断国家高技术研究发展计划专项经费(2008AA01Z226)资助 收稿日期: 2009-12-03; 修回日期: 2010-04-12;网络出版时间: 网络出版地址:郭云龙1, 许文龙2 尚勇1 梁庆林11.西南大学计算机与信息科学学院,重庆 400715;2. 北京理工大学信息与电子学院,北京 100081; 通讯作者,E-mail: 286207758摘要 近期随着微博等网络社区的飞速发展,与微博数据相关的学术研究受到了广泛关注。本文依托参加CCF自然语言处理与中文计算会议(NLP&CC 2012)的中文微博情感分析&词汇语义关系抽取评测,采取工具模版标注及SVM特征分类方法提取微博观点句,采用基于Stanford Parser工具及构建情感词典对微博观点句进行情感倾向性判断。实验证明提取观点句准确率为78.1%,情感分类准确率为57.1%。CCF评测认定本文提取观点句准确率为78.3%,情感分类准确率为82.4%。关键词 微博;观点句;情感分析;SVM中图分类号 TN914A PCSI Feedback Rate-Reduced Adaptive SC-FDE SchemeWANG Wujun1, ,XU Wenlong2,SHANG Yong1,LIANG Qinglin11. School of Electronic Engineering and Computer Science, Peking University, Beijing 100871; 2. School of Information Science and Electronic Engineering, Beijing Institute of Technology, Beijing, 100081; Corresponding Author, E-mail: Abstract Traditional adaptive SC-FDE bears a major drawback of excessively high feedback rate. This paper tackles the problem by proposing a FR-ASC-FDE scheme which was derived from a CR-ASC-FDE model. Specifically, a normalized feedback factor criterion,which is responsible to determine the interval of PCSI feedback,was obtained , and accordingly, appropriate FR-ASC-FDE PCSI feedback patterns were designed with respect to different metropolitan environments. Simulations show that the proposed FR-ASC-FDE scheme dramatically reduces PCSI feedback rate under various fading speed of dual-selective channel environments, while still consistently keep excellent BER performance. Key words SC-FDE; PCSI; dual-selective channel; correlation time; AR(1) 1 引言1.1 研究背景随着web2.0的发展,微博,即微博客(Micro Blog)的简称,一个基于用户关系的信息分享、传播以及获取平台迅速兴起。据统计,新浪微博截至到2012年2月,注册用户已突破亿大关,用户每日发博量超过亿条。网络社区的信息量在与日俱增,这些资源共享信息为用户的学习、生活、工作都带来了的巨大便利。但同时,巨大的冗余信息也使人们很难在短时间内准确、迅速地获取对自己有用的信息。所以,针对微博数据的自然语言处理已成为国内外研究热点,而中文微博观点句抽取以及中文微博观点句情感倾向性判断作为该热点下的两前沿课题,也受到了众多学者的关注。近年来,在ACL、SIGIR、COLING等国际会议上,都有特别的议程探讨相关领域的发展,以及TREC Blog Track、NTCIR、COAE等评测也涉及该研究热点。1.2 国内研究现状中文微博观点句的抽取以及中文微博观点句的情感倾向性判断,可以理解为基于数据文本分类中的的一种二分类的句子级文本分类技术。当前国内对于句子级文本分类的主要方法还不成熟,算法比较单一,大致可以分为三个部分:(1)基于词典的方法。(2)基于有监督的机器学习方法。(3)无监督的方法。基于词典的方法,利用预先构建的词典(可以是人工标注或是机器统计的),处理文本中出现的词语其感情信息,进而判断其主客观性(即观点性或非观点性)。进而将词典分为正向情感词和负向情感词,统计待测文本中两类词语相差值,从而确定该文本情感类型。一般词典方法会结合标点符号和规则一起作为特征值,以姚天防,彭思威(2007)112】以词语和标点符号作为分类特征,对特定领域进行研究。基于有监督的机器学习方法,利用训练集,采用某种机器学习方法,对测试集进行分类。常用的机器学习方法有, 包括朴素贝叶斯( Naive Bayes )、最大熵( Max Entropy)、支持向量机(Support Vector Machine)。通过选取特征值,常见的方法有信息增益方法(IG)、卡方分布(CHI)值统计、文档频率(DF)、词频反文档频率(TF-IDF)。是目前最主流的文本分类方法。无监督的方法,有基于情感基准词的方法,也有基于图论分割句子,结合一定的规则,对文本进行分类。但这类方法适用领域太窄,或者说对情感基准词依赖太高。2 相关工作通过参加中国计算机学会举办(CCF)自然语言处理与中文计算会议(NLP&CC 2012)的中文微博情感分析&词汇语义关系抽取评测。选取子任务1(观点句识别)与子任务2(情感倾向性判断)。根据主办方提供的评测数据。评测数据来自腾讯微博1,全集包括20个话题,每个话题采集大约1000条微博,共约20000条微博。数据采用 XML格式,已经预先切分好句子,共31675句。2.1 观点句概念与情感侵向性概念本评测中观点句的定义不包括表达自我情感、意愿或心情的句子,只限定于对特定事物或对象的评价,不包括内心自我情感、意愿或心情。 例如“我感到很高兴”,这样的句子是情感句,但不属于本评测定义的观点句。“我真心喜欢iphone5的屏幕效果。”该句子属于本评测定义的观点句。本文参照张博(2011)12中文观点句提取一文中,对上述概念又分为显性观点句与隐性观点句。显性观点句:以指示性动词作为句子的核心谓语,明确地表达说话人观点的句子,称为显性观点句。根据该文章,我们修改其总结的72个指示性动词,并加入微博用户大量使用的网络指示性动词,构建出新的指示性动词表。当指示性动词出现时,人们通常是在明显地、高调地发表某些评论。此类词语的出现,会让研究人员在第一时间很确定地将其判定为观点句。这类句型具有较明显的观点句句法特征,我们将其统称为显性观点句。我们将使用工具模版标注的方法对显性观点句进行提取。隐性观点句:不含有指示性动词,但整体意图是为了发表某种观点、看法或评论的句子,称为隐性观点句。例如:日本人都该死!该例句中不存在任何指示性动词,但通读全句后,我们可以看出这句话是在对“日本人”这个对象进行分析并做出了评价。这类观点句没有明显的观点表达标志,并且表达形式多变,因此我们将此类观点句定义为隐性观点句。我们将主要采用SVM来处理此类句子。SVM是基于数学向量对其进行分类的一个工具,在机器学习文本分类领域有很强的实用性,其必须先将文本转换为向量,并输入一定的训练集,然后通过训练机对测试集的向量自动进行分类,其中关键性问题在于特征向量的选取、转换。情感倾向性:所有的观点句都是有情感倾向的,同时有情感倾向的句子也一定是观点句。我们将其简化为三种倾向:积极,消极和中性。我们通过建立的情感词典,其正负向情感词语的在待评测观点句中的差值,从而判断该观点句的情感倾向性。(我们最初的设想为SVM的2歩3分类,但可能由于特征值选取太少或者训练集标注不准确,SVM效果很差,从而选择了基于词典的方法。)2.2 文本预处理分词是文本预处理的重要环节,中文有别于英文,没有明显的词语分隔标志,中国科学院计算技术研究所研制出了汉语词法分析系统(ICTCLAS)能有效的快速的分隔出带有明确语义的词语。我们对其所分出的词语去噪,并采用其词性标注功能。由于ICTCLAS对繁体字支持较弱,我们先对待评测数据进行简繁体转化。这样,ICTCLAS的分词结果可直接用于斯坦福句法分析工具(Stanford Parser)的输入以及SVM所选取特征向量值的计算。3 工具使用与算法设计前文给出了国内目前对于该领域的研究现状,本文根据谢丽星(2012)23基于层次结构 的多策略中文微博情感分析和特征抽取一文中对于主流方法的总结以及张博(2011)12中文观点句提取一文中对文本观点句提取的方法,决定采取采取工具模版标注及SVM特征分类方法提取微博观点句。将采用基于Stanford Parser工具及构建情感词典对微博观点句进行情感倾向性判断。3.1 观点句提取设计前文给出了观点句的概念以及本文对显性观点句和隐形观点句的划分。本文将使用斯坦福句法分析工具(Stanford Parser)23结合构建的指示性动词表及显性观点句构成的模版规则,对显性观点句进行提取。将使用支持向量机分类方法(SVMs)123结合12个特征值筛选对隐形观点句进行提取。3.1.1 显性观点句提取设计斯坦福句法分析工具(Stanford Parser)是一款以Java实现的开源句法解析工具,主要基于优化的基于概率规则集和词汇化依存句法分析方法,是一个词汇化的概率上下文无关语法分析器,同时也使用了依存分析。根据不同的语法观点可以输出不同的的分析结果。所以,可以认为是一个使用混合分析方法的剖析器。(/software/lex-parser.shtml)其效果图(我真心喜欢iphone5的屏幕效果。)图1 斯坦福语法分析工具效果图Fig. 1 BER Performance of FR-SC-FDE, fD = 17.5Hz本文使用斯坦福句法分析工具,先把待测盘数据分离出若干个分句(IP)语法树,结合构建的指示性动词表与显性观点句构成模版,对语法书中词语进行匹配,确定符合模版规则分句,从而判断该句子是否为显性观点句。我们参照张博的论文将显性观点句的句法结构总结为以下三种模版,这三种模版均是以指示性动词作为匹配的起始点: (1)M1 =NP+ Indicative Verb+ADJP此模式的含义是,句子的主语是名词短语,句子的谓语动词或几个谓语动词基之一为指示性动词,且此谓语动词的父节点的其他子节点中存在形容词短语。 (2)M2=NP+ Indicative Verb+ADVP此模式的含义是,句子的主语是名词短语,句子的谓语动词或几个谓语动词之一为指示性动词,且此谓语动词的父节点的其他子节点中存在副词短语。 (3)M3=NP+Indicative Verb+VC是此模式的含义是,句子的主语是名词短语,句子的谓语动词或几个谓语动词之一为指示性动词,且此谓语动词的父节点的其他子节点中存在动词“是”。3.1.2 隐形观点句提取设计支持向量机 /wiki/%E6%94%AF%E6%8C%81%E5%90%91%E9%87%8F%E6%9C%BA#.E4.BB.8B.E7.BB.8D,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种监督式学习的方法,它广泛的应用于统计分类以及回归分析中。支持向量机属于一般化线性分类器。他们也可以认为是提克洛夫规范化(Tikhonov Regularization)方法的一个特例。这族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。已经被广泛应用于文本分类领域。本文使用台湾大学林智仁教授开发的libsvm。SVM常用的特征选取方法有以下几种:文档频率DF、信息增益IG、卡方统计CHI、词频反文档频率(TF-IDF)等,比较这么多的统计后,我们选取了卡方统计CHI。(公式会用公式编辑器调整 实验室WPS用不来)模式p与文本种类。j的CHI值。由于本研究属于二分类问题,所以cj即为观点或非观点。其中,N表示训练集中的句子总数,A表示cj类中模式p出现的次数,B表示非(cj)类中模式p出现的次数,C表示cj类中没有出现模式p的句子数,D表示非(cj)类中没有出现模式p的句子数。根据上述方法,我们参照该领域主流方法以及相关论文,结合自我思考,选择如下几个方面作为特征值备选:1) 情感词即带有某种情感倾向的形容词。通常,当某个人发表了一些带有情感倾向的言语时,我们会认为它带有观点性。实验所用的情感词词表包含9472个情感词,它由两部分组成,一部分是HOWNET的情感词词典,另一部分是从实验语料中提取出的形容词。在后面的实验中我们简称此特征为F1。对于F1的处理,我们首先将其看做一个9472维的特征向量,每一个维度的值用CHI值来表示。但最后发现,用此方法处理,并不好,因为一句话中能包涵的情感词是极其有限的,这将导致一句话形成的向量矩阵特别稀疏,并极度影响后面向量SVM的处理,因此我们将其做了如下修正:a. 将情感词典进行修正,原情感词典中,有一些不符合本文的判断依据,因此对其进行修正,最后形成8223个词语的情感词典。b. 特征值的修正。我们在此项中放弃使用CHI值。我们给每一情感词赋予权值,初始值都为1,在处理训练集时,当情感词t在观点句中出现,则将t的权值加一,若t在非观点句中出现,则将t的权值减一,最后形成情感词的权值表。在对测试集处理时,比对该权值表,每一句只对应一个一维向量,该向量的值等于句中所有情感词的权值之和。2) 动词通常是发表主观言论的标志,如“表示”、“相信”、“认为”、“预测”等,我们最终归纳了72个动词(见表格),将其作为实验所用的指示性动词词表。在后面的实验中我们简称此特征为F2。处理方式:在对比72维的chi值和1维的频率统计词的效果之后,我们选择了使用1维的频率统计,即如情感词的处理方式相同。3) 副词上文提取的情感几乎都是形容词性的,我们就设想统计副词也作为SVM分类特征值。但微博用户在发表博文中副词太少,或者错误地发成了形容词(“地”发成“的”),由特征值F1统计,导致副词的参考价值很低,所以我们不考虑该词性。4) 表情表情,作为微博的特色之一。直观、形象地表露着用户的情感、态度。应为微博观点句的重要参考因素。但经过我们观察发现,用户对表情使用的随意性令表情在体现用户观点态度上的作用大大降低。用户使用表情时往往并不是真实心态的写照,而是随性,搞怪心理。所以就不选取副词作为特征词。5) 网络词6) 词性的统计我们认为,观点句中的词性应该会展现出明显的特点,因此采用对观点句的词性进行统计,作为向量。将其称为F3.在中科院分词工具中,能将词语具体定义为96种词性,因此我们使用CHI值,生成了一个94维向量作为特征,但在实际应用中,发现这样的准确率很低,并影响SVM的分类。后来分析发现,这样简单使用,并没有将其上下文的关系体现出来,因此对其进行改进,我们选用连续词性的组合来作为特征。但连续词性的组合将会有96*96=9216种,因此预计将会出现情感词最初始处理时的方式(稀疏矩阵),实验验证后,确实效果不理想,因此,我们在处理训练集时,统计CHI值的前一百,将其作为特征,形成一百维的特征向量,最后的处理结果,还是较为理想的。7) 词语的统计一些特定词语往往充分体现着用户的态度,这里的词语具有普遍性,是经过中科院分词系统词语统计能得到一定的效果,我们称其为F4。鉴于词性的统计结果,我们直接对单个词语的特征和连续两个词语的特征都进行了统计,最后,由于训练集实在有限,导致连续两个词语的作用效果并不好,最后选用了单个词语的特征,但同样我们在处理训练集时,统计CHI值的前两百,作为特征,以避免稀疏矩阵的出现。表1 FR-ASC-FDE的PCSI反馈方案Table 2 PCSI feedback schemes of FR-ASC-FDE最大频移fD / HzPCSI反馈间隔(Blocks数目N0)PCSI反馈速率RPCSI / kbps归一化反馈因子FF是否成立?17.5501280.07是17.5100640.14是35252560.07是35501280.14是175232000.028是175416000.056是350232000.056是 表1中所设计的所有PCSI反馈间隔N0均满足式。节Error! Reference source not found.将分别针对以上各种PCSI设计方案进行性能仿真并分析仿真结果。4 实验数据本文重点关注了ASC-FDE中PCSI反馈速率RPCSI过高、占据大量频谱资源的问题。在介绍了AR(1)时变信道模型和本文所给出的恒定速率ASC-FDE系统模型之后,提出了降低RPCSI的FR-ASC-FDE方案并且给出了合理设计PCSI反馈间隔的FF判据;并且针对各种不同的城市应用环境和移动速度分别给出了FR-ASC-FDE的PCSI反馈方案。FF判据理论简洁,FR-ASC-FDE方案易于实现。仿真表明,所设计的FR-ASC-FDE在保证BER性能的前提下,针对双选信道不同衰落速率都具有较好的PCSI反馈效率。参考文献1Benyamin-Seeyar A, Falconer D, Shani D. IEEE standard for local and metropolitan area networks part 16: air interface for fixed and mobile broadband wireless access systems amendment 2: physical and medium access control layers for combined fixed and mobile operation in licensed bands and corrigendum 1. IEEE Std 802.16e-2005 and IEEE Std 802.16-2004/Cor 1-2005 (Amendment and Corrigendum to IEEE Std 802.16-2004), 20062Myung H G, Goodman D J. Single carrier FDMA: a new air interface for long term evolution. Wiley Publishing, 20083Falconer D, Ariyavisitakul S, Benyamin-Seeyar A, et al. Frequency domain equalization for single-carrier broadband wireless systems. Communications Magazine, IEEE, 2002, 40: 58664Gong Liang, Du Yan, Li Jianfei, et al. A new channel state information utilization criterion in SC-FDE. Radio and Wireless Symposium, 2006 IEEE, 2006:19225Du Yan, Gong Liang, Li Jianfei. Utilizing channel state information in SC-FDE:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论