




已阅读5页,还剩69页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
硕士学位论文突发公共事件网络在线评论情绪倾向性研究study on sentiment classification for online news comments of public emergenciesa thesis submitted toxian jiaotong universityin partial fulfillment of the requirementfor the degree ofmaster of engineering sciencebychengwei li(control science and engineering)supervisor: prof. qinke pengmay 2009摘 要论文题目:突发公共事件网络在线评论情绪倾向性研究学科专业:控制科学与工程申请人:李成伟指导教师:彭勤科 教授摘 要随着信息技术的发展和互联网的普及,网络媒体已经成为突发公共事件信息传播的重要渠道,网络舆论成为突发公共事件应急管理研究的热点问题。网民发表的大量评论信息反映了评论者对突发公共事件的直接反应和倾向性,对其研究是突发公共事件信息分析的重要方面。本文针对突发公共事件的网络评论文本的特点,研究评论文本情绪倾向性分类问题,主要工作如下:1 提出评论文本中情绪词的情绪倾向性分类算法hal-ii。首先研究语言类比超空间hal的生成算法和空间中概念的信息推理算法,然后在此基础上,hal-ii以情绪词与两类情绪种子词之间信息推理隶属度为依据,计算情绪词的情绪强度,对其分类。与基于知网hownet的语义相似度算法hownet-so比较, hal-ii具有较高的准确率。2 提出基于hal空间信息推理的评论文本情绪倾向性分类算法hal-so。该算法首先将中文词典与hal空间结合,增强hal空间的语义解释准确性,然后从评论文本中抽取特殊模式的短语,应用概念组合算法,将模式化的短语组合成概念,从而将评论文本表达为概念序列,最后利用基于hal空间的信息推理算法,对评论文本进行倾向性分类。与tc、朴素贝叶斯算法和基于情绪修饰词的svm算法的分类结果比较,本文使用的基于hal空间的信息推理算法hal-so具有较高的准确率和召回率。3 针对突发公共事件评论数据海量的特点,给出了情绪倾向性分类算法hal-so的并行方案,并给出在proactive的master/worker框架下的实现方案。4 网络评论情绪分析平台的构建。首先完成了软件平台的功能需求分析和模块设计,其次在eclipse java下,开发了“网络评论情绪分析平台”。关 键 词:突发公共事件;情绪倾向性;语言类比超空间;网络评论;短语模式论文类型:应用基础i本研究得到国家自然科学基金项目(no.60774086)资助abstracttitle: study on sentiment classification for online news comments of public emergenciesspeciality:control science and engineeringapplicant:chengwei lisupervisor:prof. qinke pengabstractwith the rapid development of informatin technology and extensive prevalence of internet, internet media has ascended as an important way to propagate information of public emergencies so that research on internet opinon has become a hot field in the study of public emergency response and management. huge amounts of comments posted on internet portals are direct reaction of netizens and reflect their opinons and attitueds toward related aspects of public emergencies, and research on these comments constitues an important branch of information analysis for public emergency. so catering to the new charatristics of commentary text of public emergecy, this thesis devotes to the sentiment classification of comments, and main works can be summarized as following:1 propose a classification algorithm hal-ii for sentimental words in comment text. firstly, construction method of hyperspace analogue to language(hal) and information inference algorithm are introduced and then according to information inference degrees between sentimental words and those of sentimenat seed sets, hal-ii calculate sentiment strength of words in question and classify them. compared to algorithm hownet-so based on semnatic similarity of hownet, hal-ii reports higher accuracy.2 propose a sentimental classification algorithm hal-so for commentary text. hal-so first integerates hal with a chinese dictionary to enhance its senmantic accuracy, then extracts phrases which match predefined patterns and blends the words in the extracted phrases into one conception so that a piece of comment text can be converted to a sequence of conceptions whose sentimental orientation can be calculated by the information inference algorithm. compared with results of tc, bayes model and valence-shifter svm, hal-so poses higher precision and recall rates.3 to timely process the public emergency comments of massive amounts, this thesis provides a parallel computing solution for the hal-so sentimet classification algorithm and proposes an implemental scheme based on master/worker framework of proactive.4 build of a software platform for sentiment analysis of online comments. firstly analysis of functional requriements and modules design of the platform are carried out and then using eclipse java, the “platform for sentiment analysis of comments” is built.key words: public emergencies; sentiment orientation; hyperspace analogue to language; phrase patterntype of thesis: application fundamentalsiiithis research was supported by national natural science foundation of china (no.60774086).目 录绪论v目 录目 录1 绪论11.1 研究背景与意义11.1.1 互联网与突发公共事件信息传播11.1.2 政府和学术界对突发公共事件的关注21.2 网络在线评论及相关问题研究现状31.2.1 网络在线评论数据抓取31.2.2 中文分词技术41.2.3 文本分类技术51.2.4 情绪相关问题51.3 本文的章节安排及内容概要72 中文词语情绪倾向性分类92.1 词语情绪倾向性概述92.1.1 情绪词的倾向性92.1.2 情绪词的研究现状102.2 知网(hownet)与语义相似度计算112.2.1 知网概述112.2.2 义原树与词语相似度112.3 语言类比超空间hal与信息推理142.3.1 语言类比超空间(hal)概述142.3.2 hal空间的研究现状142.3.3 hal空间生成算法142.3.4 基于hal空间的信息推理算法162.4 情绪词倾向性分类算法172.4.1 基于知网语义相似度的分类算法hownet-so182.4.2 基于hal空间信息推理的分类算法182.5 实验192.5.1 实验数据192.5.2 实验结果与分析202.6 本章小结213 基于情绪倾向性的评论文本分类223.1 评论文本分类223.1.1 文本分类与倾向性分类223.1.2 评价指标233.2 基于情绪修饰词的分类算法243.2.1 评论文本的表示243.2.2 评论文本分类算法263.3 基于hal空间的分类算法283.3.1 基于hal空间的概念组合283.3.2 评论文本分类算法303.4 hal-so的数据并行算法研究323.4.1 proactive并行环境323.4.2 proactive编程框架333.4.3 hal-so并行方案343.5 实验结果与分析343.5.1 数据集343.5.2 实验结果353.6 本章小结384 网络评论情绪分析软件平台的设计与开发394.1 软件系统设计394.1.1 总体功能需求394.1.2 软件结构设计404.2 软件功能实现454.2.1 语料处理界面464.2.2 hal空间界面464.2.3 倾向性分析界面474.3 事件驱动的网络爬虫实现484.3.1 ajax对网络爬虫的影响484.3.2 爬虫方案分析与功能实现494.4 hal-so并行方案实现514.4.1 并行环境搭建514.4.2 并行方案实现514.5 本章小结525 总结与展望535.1 总结535.2 展望53参考文献55致 谢58攻读学位期间取得的研究成果59声明contentscontents1 preface11.1 background of public emergency11.1.1 internet and information diffusion of pe11.1.2 attitudes to pe from governments and scholars21.2 related works of online news comments31.2.1 comments retrieve31.2.2 segment of chinese characters41.2.3 text classification51.2.4 related fields of sentiment51.3 brief contents72 classification of chinese words based on sentiment orientation92.1 review of sentiment orientation of words92.1.1 orientation of sentimental words92.1.2 related works of sentimental words102.2 hownet and senmantic similarity of words112.2.1 hownet112.2.2 primitive tree and similairty of words112.3 hyperspace analogue to language and information inference142.3.1 introduction of hal142.3.2 related works of hal142.3.3 construction algorithm of hal142.3.4 information inference based on hal162.4 algorithms of sentimental words classification172.4.1 hownet-so based on senmantic similarity of hownet182.4.2 algorithms based on informantion inference in hal182.5 results192.5.1 datasets192.5.2 results and analysis202.6 summary213 comment text classification based on sentiment orientation223.1 introduction of comment text classification223.1.1 text classification and classification based on orientation223.1.2 evaluation of classification models233.2 classification based on valence shifters243.2.1 representation of comment text243.2.2 classification model263.3 classification algorithms based on hal283.3.1 conception combination in hal283.3.2 comment text classification alogrithm hal-so303.4 parallel solution for hal-so323.4.1 parallel envoirnment of proactive323.4.2 programming framework of proactive333.4.3 parallel solution for hal-so343.5 results and analysis343.5.1 datasets343.5.2 results353.6 summary384 design and development of integrated platform for comment processing394.1 system design of integrated platform394.1.1 analysis of functional requirements394.1.2 model design404.2 system implementation454.2.1 corpus processing function464.2.2 hal function464.2.3 orientation analysis function474.3 design and implementation of event-driven crawlers484.3.1 impact of ajax on crawlers484.3.2 solution analysis and system implementation of crawlers494.4 implementation of parallel hal-so514.4.1 construction of parallel environment514.4.2 parallel implementation 514.5 summary525 conclusions and suggestions535.1 conclusions535.2 suggestions53references55acknowledgements58achievements59declaration章的mathtype的章标记(打印前将其字体颜色变为白色,在打印预览中看不见即可):vii4 网络评论情绪分析软件平台的设计与开发1 绪论1.1 研究背景与意义在当今信息时代,随着经济全球化和信息技术的飞速发展,突发公共事件发生的频率、产生的影响、造成的损失都越来越大,突发公共事件的应急管理已经成为国家国民经济和社会管理体系的重要组成部分,其有效运行直接关系到国民经济的正常运行、社会与政治的稳定、以及国家财产的安全。2008年1月中旬至2月上旬,我国南方大部分地区遭遇罕见低温雨雪冰冻灾害,交通运输严重受阻,电力设施损毁严重,群众生产生活受到严重影响。2008年3月14日,拉萨发生“314”打砸抢烧暴力犯罪事件,给当地人民群众生命财产造成重大损失。2008年4月,北京奥运会火炬在多个欧洲城市传递时受阻。2008年5月12日14时28分,四川汶川发生里氏8.0级特大地震,造成 69227名同胞遇难。2008年9月,三鹿奶粉事件引发社会对食品安全高度关注。2008年9月,伴随着多家华尔街金融巨头纷纷倒下,次贷危机引发了全球性金融危机,对我国出口与其他行业造成了巨大冲击。其他如“躲猫猫”、“虎照”和“杨佳袭警案”等突发性公共事件对我国社会与经济发展发生了深远的影响,使得政府和学术界深感突发公共事件应急管理体系建设及其研究的紧迫性1。1.1.1 互联网与突发公共事件信息传播突发公共事件的信息传播、信息分析、和信息管理对突发公共事件应急管理具有重要的作用23。在突发公共事件的传播扩散过程中,突发公共事件信息对民众的风险认知、心理和行为变化以及社会舆论会产生巨大影响,管理不当极易引起舆论失控,从而导致社会恐慌和不安定,扩大事件破坏程度,危及全社会的政治经济生活4。近年来,互联网的普及和多种网络媒体(bbs,blog,wiki)的产生使网络媒体成为突发公共事件信息传播的重要渠道,网络媒体对社会的影响力大大提高,根据中国互联网络信息中心(cnnic)2009年1月发布的第23次中国互联网络发展状况统计报告5,截至2008年底,我国互联网普及率以22.6%的比例首次超过21.9%的全球平均水平,见图 11。我国网民数达到2.98亿,其中,农村网民规模达到8460万,增长率超过60%,城乡差距有望逐步缩小。同时,国家cn域名数达1357.2万,使用手机上网的网民较2007年翻了一番还多,达到1.17亿。图 11 中国网民数量(来自cnnic的报告,2009.1)网络媒体地位的快速提高也引起了政府的高度重视,胡锦涛主席2007年1月23日下午在主持中共中央政治局第三十八次集体学习时强调,要以创新的精神加强网络文化建设和管理6。2008年6月20日,胡锦涛主席在人民网强国论坛首次与普通网民在线交流。2009年2月28日,温家宝总理与网友在线交流并接受了中国政府网和新华网的联合专访。全国各部门、省市领导人也不断通过网络与民众进行在线交流。这些都显示出中国领导层对互联网的重视,并通过其了解民意,汇集民智。2009年2月19日,云南省官方邀网友调查“躲猫猫”事件,显示出了网络媒体在信息透明化,提高政府公信力中起到的作用越来越得到政府部门的认同。而网络舆情所扮演的角色也越来越丰富,对社会上重大事态发展产生巨大影响,为各级政府领导决策提供参考。对突发公共事件信息的管理而言,网络媒体已经成为突发公共事件信息传播的重要渠道,而网络舆情本身所存在的一些偏差,如易情绪化,存在一些谣言,容易被敌对分子利用等,这使得网络舆情容易被误导和激化。因此,网络中突发公共事件信息的获取与分析是突发公共事件应急管理研究的重要方向78。1.1.2 政府和学术界对突发公共事件的关注 我国政府为了提高其保障公共安全和处置突发公共事件的能力,最大程度地预防和减少突发公共事件及其造成的损害,保障公众的生命财产安全,维护国家安全和社会稳定,促进经济社会全面、协调、可持续发展,国务院于2006年1月8日发布了国家突发公共事件总体应急预案,明确了各类突发公共事件分级分类和预案框架体系,规定了国务院应对特别重大突发公共事件的组织体系、工作机制等内容9。2009年国家自然基金重大研究计划10“非常规突发事件应急管理研究”中,以非常规突发事件应急管理为研究对象,充分发挥管理科学、信息科学、生命科学等多学科合作研究的优势,着重研究非常规突发事件的信息处理与演化规律建模,非常规突发事件的应急决策理论,紧急状态下个体和群体的心理反应与行为规律。该计划拟在非常规突发事件的特殊约束条件下,通过对相关多学科的观测、实验和理论创新与综合集成,形成对非常规突发事件应急管理的核心环节监测预警与应对决策的客观规律的深刻科学认识,并提供科学方法;构建“情景-应对”型非常规突发事件应急管理的理论体系,增强应急管理科技的自主创新能力;提高国家应急管理体系(包括应急平台/预案体系)的科学性,为国家科学、高效、有序应对非常规突发事件提供决策参考;构建应急管理交叉学科,培养应急管理创新型人才,在国际应急管理科学领域居于重要地位。1.2 网络在线评论及相关问题研究现状网络评论文本与传统文本不同,其长度短,而且没有规范的语法,国际上把这类文本称为新型文本11,这些评论的特点是反应快,内容短小精悍,口语化且有独特的非正规词语,目前,对评论文本的研究主要涉及到评论数据抓取、中文分词、文本情感倾向性识别、评论对象识别等。1.2.1 网络在线评论数据抓取由于突发公共事件具有突发性、不确定性、威胁性、紧迫性和影响广泛性,所以网络中往往存在大量从不同视角的报道、分析和评论,这些报道、分析和评论被湮没在海量的网络信息中,并且以分散形式存在于不同的新闻网页、新闻论坛、blog及其相关的新闻评论跟帖中。对这些数据的获取主要依靠网络爬虫。网络爬虫,又称robots、spiders和wanderers,几乎与互联网同时出现,它本质上是一个自动提取网页的程序,是搜索引擎的重要组成部分 。第一网络爬虫程序是matthew gray于1993年创作的wanderer12。当前开源网络爬虫主要有weblech、j-spider、heritrix和nutch等,商业爬虫有百度的baiduspider、yahoo的slurp3.0和谷歌的googlebot。图 12 网络爬虫结构图这些爬虫结构如图1-2所示,它们工作的基础是url,只能抓取具有具体url地址的web页面。其缺点是无法抓取基于ajax技术的网站。因为ajax网站,采用javascript驱动的异步请求/响应机制,根据用户需求和相关事件触发,对web页面的dom结构进行大量甚至全部变动,导致了具有相同url地址的web页面包含完全不同的页面内容。目前主要新闻门户网站的新闻评论页面都采用ajax技术实现,如新浪和腾讯等。这些评论页面,首先加载页面框架,然后根据用户的选择,触发异步传输事件,载入评论内容。因此,对于突发公共事件网络评论的抓取,需要能够抓取动态页面内容的专用网络爬虫,本文将在这一方面进行研究。1.2.2 中文分词技术分词是中文信息处理的基础,在汉语文木分类、文献标引、智能检索、自然语言理解与处理等应用中,首先都要对中文文木进行分词处理13。汉语自动分词系统的实现及效果依赖于分词理论与方法14。目前分词的基本算法主要有最长匹配法、最少分词法、基于统计语言模型分词法和基于隐马尔科夫模型的分词方法15。其中最长匹配算法属于有词表切分,也即机械切分,分为正向最长匹配算法 (fmm或mm),逆向最长匹配算法(bmm或rmm),分词速度快,但是处理歧义切分以及未登录词识别的能力很有限;最少分词法的切分原则是切分结果中包含的词数最少,符合汉语自身规律;需要的语言资源(即分词词表)也不多,但是不能有效地解决歧义切分以及未登录词识别问题;基于统计语言模型的分词法是利用字与字之间以及词与词之间的统计概率作为分词的依据,能够识别未登录词,但是模型计算量较大。基于隐马尔科夫模型的分词方法具备较强的歧义处理能力,算法简单,易于实现,执行效率较高,但是不易于融合更多的语言信息,对于某些复杂的问题处理不好。当前,对分词算法的进一步研究方向是基于语言理解的分词方法16,即以人工智能学科为基础。主要有基于心理学的符号处理方法和基于生理学的模拟方法。前者模拟人脑的功能,将自动分词过程看作是基于知识的逻辑推理过程,用知识推理与语法分析替代传统的“机械匹配分词十歧义,校正”的过程。后者将人工神经网络基本原理应用于计算机汉语分词,分词知识以统一的“权重”形式表示,以汉字为基本处理单元,分词网络动态生成,在结构与功能上使网络推理机与知识库完全分离,相互独立,互不影响。目前,已有的分词软件主要有中科ictclas、海量分词、清华大学的segtag系统、复旦分词系统、哈工大统计分词系和东北大学的neucsp等,其中ictcals的分词系统17具有中文分词、词性标注、未登录词识别功能,词性标注的一体化;未登录词与普通词处理的一体化;评估体系一体化。基本思想:采取hmm模型,建立切分词图。在词语粗分阶段,先得出n个概率最大的切分结果。然后,利用角色标注方法识别未登录词,并计算其概率,将未登录词加入到切分词图中,之后视它为普通词处理,最终进行动态规划优选出n个最大概率切分标注结果。其分词速度单机996kb/s,分词精度可达98.45%。1.2.3 文本分类技术文本分类(text classification)技术主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定未标定文本的类别。文本分类在自然语言处理、信息管理和内容信息过滤等领域都有着广泛的应用。20世纪90年代发展起来的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成,以及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例18。基于机器学习文本分类的基础技术由文本表示(representation)、分类方法及效果(effectiveness)评估3部分组成。sebastiani总结了文本分类发展历程及主要技术方法30,文本分类要点包括:(1) 文本向量空间表示模型(vsm),以及特征选择(selection)与特征提取(extraction)两种表示空间降维策略,包括2、ig、mi、or等用于特征过滤的显著性统计量、项聚类和隐含语义索引(lsi)等特征提取方法;(2) 分类模型,即分类器的归纳构造或模型的挖掘学习过程;(3) 分类效果评估指标,如准确率(precision)、召回率(recall)、f(常用f1)和精度(accuracy)等。近年来,将文本简化为所谓的bow(bag of words),在特征处理和统计学习算法的基础上获得对文本语义内容及类别信息的估计与预测,已经成为文本分类的标准模式。通过统计理论和语言学(linguistics)两种途径进行的文本表示和分类模型的研究也得到进一步拓宽或发展,相关领域的技术也在文本分类中得到新的应用19。当前,用于文本分类的机器学习算法主要有支持向量机(support vector machines, svm)、朴素贝叶斯模型和决策树等,这些算法虽然较好地解决大部分具有数据量相对较小、标注比较完整及数据分布相对均匀等特点的问题和应用。但是,对于海量的网络文本,大规模应用仍受到很多问题的困扰,其主要原因是20:(1) 大规模的类别体系给分类器训练带来扩展性的困难;(2) 建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合(overfitting)及数据偏斜的问题;(3) 文本和类别的更新频繁,在力求对每个类别获得更多的样本时,存在标注瓶颈的问题;(4) 类别间的关系也更加复杂,需要有更好的类别组织方法;(5) web文本是一种半结构化(semi-structured)的数据,其结构信息(如链接关系、主题等)可能对分类提供某些帮助。1.2.4 情绪相关问题在情绪的相关研究中,主要涉及到心理学上情绪的定义、情绪识别、情绪分析和主观性分析等,本节对这几个方面的研究现状进行概述。1) 心理学上关于情绪的定义研究文本中所蕴含的情绪,其首要问题就是要选择何时的情绪类别。本节讨论心理学上两个主要的情绪模型:认知情绪结构21和2-因素情绪结构22。认知情绪结构(cognitive structure of emtions)模型认为情绪是一种对事件(高兴vs 不悦)、人物(赞成 vs 支持)和事物(喜欢 vs 厌恶)的有价反应(valence reaction)。对事件的反应可以分为三类:涉及命运的(高兴、痛恨,幸灾乐祸和怜悯),涉及前景的(满足,害怕,宽慰和失望)和涉及个人幸福的(喜悦和痛苦)。对人物的反应包括对自己的(骄傲和羞耻)以及对他人的(羡慕和责备)。对物体的反应是一定程度上的喜欢和厌恶。该模型还描述了许多能够影响有价反应强度的变量,而且每种情绪的强度依据其定义的变量而变化。 2-因素情绪结构模型将情绪分为积极情绪(positive affect)和消极情绪(negative affect),并用两个维度来描述。对于积极情绪,其维度范围“高积极”到“低积极”,比如“从兴高采烈状态”到“昏昏欲睡状态”;对于消极情绪,其维度范围为“高消极”到“低消极”,比如从“害怕状态”到“停滞状态”。该模型进一步引申出pleasantness和engagement维度,它们是积极情绪和消极情绪维度的组合,如图 13所示,其中pleasantness维度是“高积极”和“低消极”的组合。图 13 2-因素情绪结构图2) 情绪识别当前,主要利用情绪的先验知识来识别文本中的情绪。由于情绪在情绪类别及表达情绪的词语本身固有的模糊性,一些学者尝试用模糊逻辑来研究情绪23,如subasic和huettner。他们基于语言学家的主观判断构建了一个情绪词典,词典的每个条目包含5个元素:词语本身、词性、情绪类别、向心性和强度。其中向心性表示该词语属于某类情绪类别的程度,而强度则表示词语能够表达其情绪类别的强弱程度。每个词语根据其不同的词性和情绪类别会存在多个条目。grefenstette等继续扩充该情绪词典24。他们利用turney25提出的逐点互信息(so-pmi-ir)方法验证现有词典并从因特网上挖掘新词。然后基于情绪词典,他们生成了一个包含类别程度的情绪同义词模糊词典。对于文本情绪分类,首先根据情绪词典,基于文本中词语的情绪向心性和强度,利用模糊逻辑来识别其类别。该方法只考虑文本中词语,而忽略了文本的结构信息。polanyi等研究了文本上下文中修饰词的作用和文本结构对情绪类别识别的影响26。3) 情绪分析当前,对文本的情绪分析,主要是依据其语义极性,判断文本的总体情绪倾向性,即,对于某个主题或者对象,文本作者的态度总体上是积极的还是消极的。pang等将本文分类的朴素贝叶斯、最大熵模型和支持向量机模型应用于文本情绪的分类27,他们通过人工参与的方式将训练集标注积极和消极两类,然后从测试集中抽取n-gram特征作为文本的表示,利用特征的出现概念来估计文本的情绪类别。pang等将他们的模型在电影评论数据上测试,贝叶斯模型取得了78.7%的准确率,而支持向量机则取得了82.9%的准确率。他们又将文本中客观性的句子剔除后进行分类,进一步提高了准确率28。尽管他们模型的分类结果较高,但是其缺点也很明显,模型的分类依赖于大训练集,而且是领域相关的。4) 主观性分析与情绪相关的另一个研究领域是识别文本中的主观性语句。riloff和wiebe提出了一种识别主观语句的自学习模型29。该模型首先需要一个未标注的大语料库和能够将文本按其语义倾向性分为积极和消极两类的高精度分类器。接着,分类器利用主观性模式将语料库中的句子分类,并且仅当分类结果具有高可靠性时,才对句子进行标注,否则不标注。然后,利用模式抽取学习模型学习已标注的句子,生成与主观性语句统计相关的模式集合。这些模式集合然后又被分类器当作主观性模式对语料库中的句子进行再标注,如此循环。该算取得了71%到85的准确率。另一模型用于主观性语句识别的是kobayashi等提出的一种半自动模型30,该模型通过查询语料库中共现的模式抽取三元组来识别主观性。三元组包括主观性、特征词和意见。他们首先利用一些web文档、手工标定的共现模式和三元组集合生成初始的候选模式,然后利用这些候选模式从语料库中抽取新的三元组,并将新的三元组再加入三元组集合,重新抽取候选模式,如此递归循环。最终,与人工标注的主观性语句集合比较,该模型的的覆盖率仅在40%左右,他们认为是共现模式数量的不足才导致如此低的覆盖率。1.3 本文的章节安排及内容概要本文的工作主要是针对突发公共事件网络评论文本的情绪倾向性分类问题,全文内容共分五章:第一章为绪论,主要介绍了当前突发公共事件研究问题的背景,对相关研究领域主要问题的研究现状进行总结。第二章为中文词语的情绪倾向性研究,首先讨论了情绪词及其倾向性分类问题。然后分析了情绪词的研究状况和倾向性分类的主要算法,接着讨论了基于知网hownet的语义相似度计算问题和基于hal空间的语义相关度计算问题,并在此基础上,给出本文的词语情绪倾向性分类算法hal-ii。最后,从评论文本中抽取形容词作为测试集,对本章使用的算法进行测试分析 。第三章讨论了评论文本的情绪分类问题。首先分析了评论文本中情绪修饰词对文本情绪的影响,并研究情绪加强词、消弱词和否定词的特征抽取方案,给出基于情绪修饰词的评论文本分类算法。然后研究评论文本中短语模式的抽取方案和hal空间中概念的组合算法,提出基于hal空间的评论文本情绪倾向性分类算法hal-so,并研究其数据并行方案。最后构建了两个数据集,测试本章使用的算法。第四章为第二、三章工作的软件实现,首先,分析软件系统的功能需求和结构框架,然后对各个模块进行详细设计并介绍功能界面,最后基于proactive并行环境,实现了评论文本情绪倾向性分类的数据并行方案。第五章对全文的研究工作进行了总结,并指出了进一步研究改进的方向592 中文词语情绪倾向性分类突发公共事件发生后,民众往往使用能够表达他们内心感受的词语来发表评论,这些词语能够反映民众为对事件的支持、赞成或者反对的态度,具有情绪倾向。词语的情绪倾向,是评论文本倾向性分类的前提条件和根本依据。本章分别从语义相似度的角度和基于hal空间的信息推理方面研究中文词语的情绪倾向性。2.1 词语情绪倾向性概述普通心理学认为:“情绪是指伴随着认知和意识过程产生的对外界事物的态度,是对客观事物和主体需求之间关系的反应。是以个体的愿望和需要为中介的一种心理活动。”31在突发公共事件中,人们对事件的情绪反映主要体现于其发表的评论文本中。比如,评论1:英勇的孩子!祖国的希望!祝她好运!评论2:没人性的家伙们,太可恶了!一定要严惩不待!这两条评论是网友分别对于四川5.12地震中幸存着勇于营救他人事迹和不法分子偷窃救灾物资两个事件的评论。评论1中“英勇”、“希望”和“好运”等词反映了网友对该事件赞成和支持的情绪,而评论2中的“没人性”、“可恶”和“家伙”等则表达了网友对不法分子的愤怒与斥责。这些词语是他们内心情绪的外在表达,体现了他们对事件的态度。这样的词,人们可以直接用来表达自己的情感:赞成/反对,愤怒/高兴,喜欢/讨厌等。尤其是当人们对某-事物作出评价是,往往可以通过这类词语鲜明的表达自己的观点。本文称这样的词为情绪词(sentiment word)。2.1.1 情绪词的倾向性情绪词是人们表达情绪态度的直接描述工具,如果评论中没有出现情绪词,那么可以认为该评论是一般的客观性描述,不具有情绪倾向,这类文本不属于本文的研究范畴。当然,情绪词只是表达情绪倾向与态度的重要元素之一,其他诸如标点符号、语气词、上下文语境和修辞等都对评论文本的情绪倾向起到一定的辅助作用。心理学22研究表明,情绪空间中包含两个单极的主导维度,即积极情绪(positive affect)和消极情绪(negative affect),二者相互独立。比如“优秀 精英 最好 最佳 幸福”等属于积极情绪词“流氓 虚假 残酷 变态 脆弱”等属于消极情绪词情绪词的倾向性一般用两个维度来表示32,一个是偏离方向(direction),一个偏离强度(strength)。偏离方向指该词汇表达的意义是属于积极的还是消极的,在突发公共事件评论文本中即指一个词语是赞成的还是反对的。偏离强度指该情绪词所表达的积极或消极意义的强度,在评论文本中指该词对事件中相关元素的赞成/反对或者喜欢/厌恶的强烈程度。以反义词为例。对于每一对反义词,虽然它们可以修饰同一事物,但其表达的意义和倾向性是完全相反的。比如优和劣,这两个词虽然都可以修饰产品的质量,但却反映了评论者对事物完全相反的看法与倾向。对这样的词来说,它们具有的情绪倾向是完全相反的。2.1.2 情绪词的研究现状目前,针对词语倾向性的分类方法,一般都是先手工标注一部分典型情绪词,从而建立一个种子词集合,然后根据新词(极性未知的词,下同)与情绪词集合中的元素的某种关系,计算该新词的极性方向和强度。hatzivassiloglou和mckeown首先提出了英文形容词的倾向性问题33。他们首先手工标注一部分形容词的极性,分别以“”、“”表示积极和消极倾向;然后,根据句子中的连接词(and/or/but/either-or/neither-nor),决定其他形容词的倾向性,比如,w1和w2为同一个句子中出现的形容词,并且已知w1为积极倾向的,若w2和w1之间出现连接词“and”或“or”则,记w2也为积极倾向的;若w2和w1之间出现连接词“but”,则,w2为消极倾向的。基于这种思想,他们从一大型的未标注的语料库中抽取具有连词,并手工标注了657个积极倾向的形容词和679个消极倾向的形容词作为种子词,使用有监督的机器学习方法对语料库中抽取的形容词对进行倾向性判别,准确率达到了78.08%。turney和littman利用altavista搜索引擎提供的near运算符,计算待分类的情绪词与种子词集合的逐点互信息(pointwise mutual information, pmi)34。他们共选择了14个种子词,如下:积极倾向种子词sp=good, nice, excellent, positive, fortunate, correct, superior消极倾向种子词sn=bad, nasty, poor, negative, unfortunate, wrong
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 植树节课件教学课件
- 校车安全课件
- 台州市黄岩元泰模塑科技有限公司年产17000吨电动车塑料件车间建设项目环评报告
- 2024-2025年幼儿园特色活动推广计划
- 信访稳定工作中各部门职责划分
- 建筑工程财务管理成本控制计划
- 学校校车管理制度与流程
- 带有非高斯Lévy噪声的哈密顿系统与相互作用粒子系统的几类极限问题
- 活动主办投资合同
- 高温自然冷却后Q460高强钢框架梁柱焊接节点的超低周疲劳断裂性能研究
- 22G101系列图集常用点全解读
- 北师大版六年级数学下册专项二 图形与几何含答案
- 《X线摄影检查技术》复习考试题库(带答案)
- MIDASM32调音台培训教程归纳
- DB63-T 2152-2023公路建设项目代建管理规范
- 普通地质学教材
- 05G414-5预应力混凝土工字形屋面梁(18m、双坡)
- 《脑出血的外科治疗》
- 六顶思考帽讲义
- 光学玻璃非球面元件模压过程仿真与实验
- DB23 2456-2019农村生活污水处理设施水污染物排放标准
评论
0/150
提交评论