(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf_第1页
(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf_第2页
(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf_第3页
(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf_第4页
(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

(计算机软件与理论专业论文)情感ontology构建及其网络舆情文本倾向性分析.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为主 体的民众对作为客体的国家管理者产生和持有的社会政治态度。最直接、最快速地反映 了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越大。政府 及相关管理者亟需对处于“未然态 的舆情信息进行挖掘与分析,把握网络舆情动态, 针对网络舆情资源进行资源的倾向性判断和区分并及时做出反应,这对提高处置网络突 发事件的能力和监管能力有非常重要的意义。舆情分析涉及到的技术非常多,而核心是 文本倾向性分析技术。文本倾向性分析技术就是用户关于某个事物的看法或评论文本的 分析,从而判断该看法或评论是属于对该事物的积极或消极意见。它在商业网络舆情分 析、产品评论分析上有着广泛的应用前景。 目前两类主流的文本倾向性分析方法( 即基于语义规则的文本倾向性分析方法和基 于统计的文本倾向性分析方法) 都是仅仅将文档看作是词或语义模式的集合,然后查找 或计算所有这些词汇或语义模式的倾向性值,最后将所有倾向性值累加得到整个待判断 评论性文档的文本倾向性值。这两种方法在分析的过程中往往因语义和语境信息不足等 因素导致文本倾向性分析结果存在片面性和孤立性等问题。 针对当前文本倾向性分析方法的不足,在对当前网络舆情分析研究现状进行调查和 研究的基础上,本文提出了一种基于情感o n t o l o g y 的文本倾向性分析方法。首先基于知 网( h o w n e t ) ) ) 从网络舆情资源中抽取能够表达资源倾向性的概念,并定义好这些概念 与概念之间的关系( 递进、转折关系等) 构建情感o n t o l o g y 。构建情感o n t o l o g y 是为 了更充分的表达情感词汇之间所蕴含的语义信息,这包含词汇的情感倾向性以及词汇间 的相似、递进和转折关系等,从而为文本的倾向性分析提供有效的语义和语境分析依据。 其次基于构建好的情感o n t o l o g y 和知网对网络舆情资源中的每一个词汇进行极性计 算。然后利用情感o n t o l o g y 中定义好的概念与概念之间的关系,对已经计算好的每一个 词汇的极性进行调整,以提高整个文本倾向性分析的正确率。最后再利用s v m 机器学 习方法对网络舆情资源进行分类。通过网络舆情语料的真实测试后本方法取得了较好的 召回率和准确率。 关键词:o n t o l o g y ,网络舆情,文本倾向性分析,知网 a b s t r a c t p u b l i co p i n i o ni st h ep o l i t i c a la t t i t u d e so ft h ep e o p l et o w a r d st h eg o v e r n m e n tm a n a g e r si nac e r t a i n s o c i a ls p a c e ,i ti sr e l a t e dw i t ht h eo c c u r r e n c e ,d e v e l o p m e n ta n dc h a n g e so ft h ei n t e r m e d i a r ys o c i a lm a t t e r s p u b l i co p i n i o nc a l lr e f l e c tt h es i t u a t i o na n dd e v e l o p m e n tt r e n di na l ls p h e r e so ft h es o c i e t yd i r e c t l ya n d r a p i d l y , a n dt h ei m p a c to nt h ec o m m u n i t yi sg r o w i n gm o r ea n dm o r eg r e a t e r g o v e r n m e n ta n dt h er e l e v a n t m a n a g e r ss h o u l dm i n ea n da n a l y s i st h ep u b l i co p i n i o nu r g e n t l yb e f o r et h em a t t e rt a k e sp l a c e ,s oa st og r a s p t h ed y n a m i cn e t w o r ko fp u b l i co p i m o n ,j u d g ea n dd i s t i n g u i s ht h eo r i e n t a t i o no ft h en e t w o r kr e s o u r c e sa n d m a k et i m e l yr e s p o n s e s ,i ti so fg r e a ts i g n i f i c a n c ef o rt h eg o v e r n m e n tt oi m p r o v et h ee m e r g e n c yd i s p o s a l a b i l i t yo ft h en e t w o r ka n dt h er e g u l a t i o na b i l i t y t h et e c h n o l o g i e si n v o l v e di np u b l i co p i m o na n a l y s i sa r e v a r i o u s ,w h i l et h ec o r et e c h n o l o g yi st e x to r i e n t a t i o na n a l y s i s t h et e c h n o l o g yi sa b o u tac e r t a i nv i e wo f t h i n g so rt h ea n a l y s i so ft h ec o m m e n tt e x t , s o 笛t od e t e r m i n et h ep o s i t i v eo rn e g a t i v eo r i e n t a t i o no ft h e v i e w so rc o m m e n t s i th a sab r o a da p p l i c a t i o np r o s p e c ti nt h ec o m m e r c i a ln e t w o r ka n a l y s i sa n dc r i t i c a l a n a l y s i so ft h ep r o d u c m a tp r e s e n t ,t h e r ea r et w ot y p e so ft e x tt e n d e n t i o u sa n a l y s i s ( t h et e x tt e n d e n t i o u sa n a l y t i c a lm e t h o d s b a s e do ns e m a n t i cr u l e sa n dt h et e x tt e n d e n t i o u sa n a l y t i c a lm e t h o d sb a s e do ns t a t i s t i c s ) ,b o t ho ft h e mt h i n k t h ed o c u m e n tt ob ea n a l y s e dj u s ta saw o r do rac o l l e c t i o no fm o d e l s ,t h e r ei sn oc o m b i n a t i o no fs e m a n t i c a n dc o n t e x t u a li n f o r m a t i o n ,a n dt h i sl e d st oi s o l u t i o ni nt h ep r o c e s so ft e x tt e n d e n t i o u sa n a l y s i s t h i sp a p e rp r o p o s e san e wm e t h o do ft e x to r i e n t a t i o na n a l y s i sb a s e do ns e n t i m e n to n t o l o g y , a n di t w e l lc o m b i n e st w ot e x to r i e n t a t i o na n a l y s i sm e t h o d s ,o n ei sb a s e do ns e n m a n t i cr u l e sa n da n o t h e ro n s t a t i s t i c a la n a l y s i s f i r s tu s et h es e n t i m e n tw o r d st h a th o w n e th a st a g g e dt ob u i l ds e n t i m e n to n t o l o g y , a n d t h e ns e l e c tt h ef e a t u r e sf r o ma nu n d e t e r m i n d e dd o c u m e n ta c c o r d i n gt os e n t i m e n to n t o l o g ya n de s t i m a t e t h e i ro r i e n t a t i o n ,a tl a s ta n a l y s i st h eo r i e n t a t i o no ft h ee n t i r ed o c u m e n tb yt h ef e a t u r e s t h ee x p e r i m e n t a l r e s u l t ss h o wt h a tt h ea c c u r a c yo ft e x to r i e n t a t i o na n a l y s i si m p r o v e dt o8 6 7 u s i n gt h ef e a t u r e se x t r a c t e d a c c o r d i n gt os e n t i m e n to n t o l o g yc o m p a r e dw i t ht h eb a s e l i n et h a tu s i n ga l lw o r d s 弱t h ef e a t u r e s u n d e r t h ec o n d i t i o no ft h es a m ef e a t u r e s ,t h ee x p e r i m e n tu s e dt w om e t h o d st oi d e n t i f yt h eo r i e n t a t i o no fa n u n d e t e r m i n d e dd o c u m e n ts e p a r a t e l y , s u p p o r tv e c t o rm a c h i n e ( s v m ) a n do r i e n t a t i o nw e i g h ts t a t i s t i c s ,a n d s v mi m p r o v e dt h ea c c u r a c yo ft e x to r i e n t a t i o na n a l y s i sb y7 6 1 c o m p a r e dw i t ho r i e n t a t i o nw e i g h t i i i s t a t i s t i c s k e y w o r d s :o n t o l o g y , n e t w o r kp u b l i co p i n i o n ,t e x to r i e n t a t i o na n a l y s i s ,h o w n e t i v 独创性声明与论文使用授权的说明 独创性声明 本人郑重声明:所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的 研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表或撰写的研究成果,也不包含为获得河南师范大学或其他教育机构的学位或证书 所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确 的说明并表示了谢意。 签名 关于论文使用授权的说明 日期: 本人完全了解河南师范大学有关保留、使用学位论文的规定,即:有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权河南师 范大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 妣雌聊签名膨 6 1 第一章绪论 1 1 研究背景及意义 第一章绪论 从上个世纪八十年代末至今互联网在人类社会中全面普及,同时也标志着人类社会 进入信息时代,互联网络作为信息保存和传播的主要载体,已经成为信息社会的神经和 血液。截至2 0 0 8 年6 月底,中国网民数量达到2 5 3 亿人,网民规模已跃居世界第一位。 随着因特网在全球范围内的飞速发展,网络媒体己被公认为是继报纸、广播、电视之后 的“第四媒体 ,据中国互联网络信息中心( c n n i c ) 2 0 0 7 年1 月2 3 日发布的第1 9 次中国互联网络发展状况统计报告【l 】显示,截至2 0 0 6 年底我国网民人数达到了1 3 7 亿,占全国人口总数的1 0 5 ,全国网页数和网页字节总数分别为4 4 7 亿个和1 2 2 , 3 0 6 g b ,网络成为反映社会舆情的主要载体之一。 舆情是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,民众对 社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表 达的信念、态度、意见和情绪等等表现的总和。网络舆情形成迅速,对社会影响巨大, 不仅需要各级党政干部密切关注,也需要社会各界高度重视。网络环境下的舆情信息的 主要来源有:新闻评论、b b s 、聊天室、博客、聚合新闻( r s s ) 。与国外相比,我国网 络舆情还存在以下特殊情况:一是由于历史的原因,我国曾长期处于封闭状态,容易受 到外来思想文化的冲击。二是目前我国正处于社会转型期,不可避免地存在诸多矛盾, 容易使一些人出现情绪化冲动,以致不能明辨是非。三是少数社会管理者对于舆论习惯 于回避或堵塞。网络舆情已经成了社情民意中最活跃、最尖锐的一部分,最直接、最快 速地反映了社会各个层面的舆情状况与发展态势,对社会产生的影响面和影响力越来越 大。政府及相关管理者亟需对处于“未然态 的舆情信息进行挖掘与分析,把握网络舆 情动态,针对网络舆情资源进行资源的倾向性判断和区分并及时做出反应。 文本倾向性分析( s e n t i m e n tc l a s s i f i c a t i o n ) 就是对用户关于某个事物( 如产品) 或者 事件的看法、评论或者观点文本的挖掘,从而判断该看法或评论是属于对该事物的积极 或消极意见。所以,文本倾向性分析( s e n t i m e n tc l a s s i f i c a t i o n ) 正是解决上述问题的关键 技术。 情感o n t o l o g y 构建及其网络舆情分析 综上所述,必须利用现代信息技术对网络舆情进行文本倾向性分析,从而实现对网 络舆情的合理控制和引导。在这样的背景下,网络舆情文本倾向性分析对提高处置网络 突发事件的能力和监管能力有着非常重要的意义,同时也有广泛的应用前景。 1 2 国内外研究现状及分析 1 2 1 网络舆情分析研究现状 舆情分析涉及到的技术非常多,而核心是自然语言理解技术。自然语言理解就是如 何让计算机能正确处理人类语言,并据此做出人们期待的各种正确响应1 2 1 。自然语言的 识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关键【3 】。从自然 语言理解的角度来讲,处理文本需要进行三步工作:理解所出现的每个词;从词义构造 表示语句意义的结构;从句子语义结构表示言语的结构。在这三个过程中,需要着重解 决如何有效地使用语法、语义、语用及与其相关的各种知识问题【2 j 。国外关于自然语言 理解方面的研究起步较早,一些卓有成就的语言学家、逻辑学家和心理学家都在自然语 言理解中的语法、句法及语义分析方面提出了一系列较为系统的理论的方法。比较有影 响的理论有:转换生成语法、依存语法、语义网络、蒙塔鸿语法、扩展转换网络、系统 语法、格语法和语义网络理论、概念依存理论、境况语义学、语料库语言学等【4 】。 另外还有许多计算语言学家或学者在总结前人的经验与成果的基础上又提出了不 少新方法、新理论和新思路,这为计算语言学的不断发展做出了贡献【5 】。 相比之下,国内在自然语言理解方面较为系统的研究成果则为数不多。因为我国的 自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究,并不以计算机处理 汉语为目的,尽管语言学家设计了许多汉语语法体系,可这些体系很难直接在自然语言 理解的研究中得到有效应用。同时,由于汉语是无形态变化的语种,因此无法直接套用 西方现有的语法、语义结构体系,这使得汉语自然语言理解研究工作困难重重【2 4 】。 近几年,国内自然语言理解的研究取得了很大的成绩,无论在汉语书面语的自动切 分、汉语电子词典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用 研究领域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现了 不少拓荒之作,取得了骄人的成果 2 , 4 1 。 近年来,我国在汉语自然语言理解方面的成绩主要有: ( 1 ) 机器翻译:以冯志伟教授等为代表的计算语言学学者早期在机器翻译研究方 2 第一章绪论 面做了大量的工作,并总结出不少珍贵的经验和方法,为后来的计算语言学研究奠定了 基础【6 】。从发展趋势看,规则和统计相结合的方法应该是机器翻译技术的一个发展趋势 【7 】 o ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学研究实验室,主要从 事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动生成句法规则、 自动统计字、词、短语名子的使用及关联频率方面做了大量的工作并发表了不少极具参 考价值的论文【2 1 。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔宾工业大学的王开铸教授等 在计算语言学的语篇理解方面( 特别在结合语义方面) 的研究进行了有价值的尝试并取 得了一定的成绩t 2 。 ( 4 ) 概念层次网络理论:中国科学院的黄曾阳先生提出了h n c ( h i e r a r c h i c a l n e t w o r ko f c o n c e p t ) 概念层次网络理论。它是一个以语义表达为基础的,融语义、语法、 语用为一体的自然语言理解的理论体系【引。这一理论的提出为自然语言理解研究开辟了 一条崭新的思路,h n c 理论研究现在已经发展为国内自然语言理解研究的重要流派。 目前网络舆情分析已经成为众多国内外专家研究的一个热点和重点。已有一些实际 的系统投入使用,见诸于报道的有: 国内:方正智思舆情监测分析系统【9 】 方正智思舆情系统作为舆情的监测分析工具辅助舆情监控部门对舆论信息进行评 估,分析规划舆情监控内容,形成舆情预警信息,同时根据舆情的监控级别规划新的监 控内容,开始新的监控周期,形成一个具有生命特征的周期往复的社情民意反馈系统。 方正智思舆情系统提供了舆情收集一分析一服务相关的辅助手段,主要包括智能网络页 面获取、智能检索、自动摘要、关联分析、聚类分析、自动分类以及统计报表等功能模 块。 国外:英国科波拉软件公司的“感情色彩”,软件【1 0 1 据新科学家杂志报道,该软件能判断报纸刊登的文章对一个政党的政策是持肯 定态度还是否定态度、或者网上评论文章是称赞还是贬低一种产品。这种软件能分辨语 法成分,例如名词、动词和形容词,并确定动词的主语和宾语。该软件甚至能分析“它 、 “他 和“她 等代词,找出这些代词指代的是什么。由于理解了语法结构,该软件可 以剔除与文章的感情色彩无关的词语,在很短的时间内得出结论。该软件分析的速度非 情感o n t o l o g y 构建及其网络舆情分析 常快,比如普通人需要- - d , 时才能浏览1 0 篇文章,而该软件一秒钟就够了。 美国有一个研究项目被称为t d t ( t o p i cd e t e c t i o na n dt r a c k i n g ) i h 3 l ,它的初衷 是要研究出一些算法,能够发现和归纳来自于数据流中的重要的信息和内容。t d t 中的 话题识别与跟踪的基本思想源于1 9 9 6 年,来自d a r p a 、卡内基梅隆大学、d r a g o n 系 统公司以及麻萨诸塞大学的研究者开始定义话题识别与跟踪研究的内容,并开发用于解 决问题的初步技术。这些初始研究的目的是要确定来自信息检索领域的基于主题的技术 在多大程度上能够用来解决基于事件的信息组织问题。为保持统一的命名方式,这些初 始研究及评测后来被命名为t d t l 9 9 7 。t d t 项目正式开始于1 9 9 8 年,经过了若干年的 演变,最新的版本是t d t 2 0 0 4 。在这个项目中采用了一种开放式的评估方法,它提供了 测试需要的文本集,并给出了测试的衡量标准:错误正确率( f a l s e a n d m i s s r a t e ) ,通过各 所大学的研究小组竞争的方式来对项目进行不断的研究。总的来说,t d t 项目中主要涉 及到了5 个研究内容:连续文本的分割( 针对广播新闻) ;t o p i c 肠a c k i n g ( 主题跟 踪) ;t o p i c d e t e c t i o n ( 主题发现) ;f i r s t s t o r y ( e v e n t ) d e t e e t i o n ( 新事件发现) ; l i n k d e t e c t i o n ( 相关发现) t l 】。 1 2 2 文本倾向性分析研究现状 文本倾向性分析( s e n t i m e n tc l a s s i f i c a t i o n ) 就是对用户关于某个事物的看法或评论 文本的分析,从而判断该看法或评论是属于对该事物的积极或消极意见。t e t s u y a n a s u k a w a 等在文献【1 4 】中指出:文本倾向性分析中的主要任务有以下三个:( 1 ) 找出文 档中能够体现情感的词或短语;( 2 ) 判断所找出的词或短语的倾向性极性以及强度;( 3 ) 找出所抽取的词或短语与主题的关系。在文本倾向性分析的中,主题确定分析或者是话 题检测不是文本倾向性所研究的重点。文本倾向性分析的研究更偏重与( 1 ) 和( 2 ) 两 点上,因此,我们假设所有文档的主题是已经确定了的,因此我们的研究重点主要集中 在( 1 ) 和( 2 ) 两点上。目前,国内外对于文本倾向性的研究大体上分为两大类:基于 统计的文本倾向性分析方法和基于语义规则的文本倾向性分析方法。 基于统计的文本倾向性分析方法的思想就是先通过人工标注一些文档的倾向性,并 将这些文档作为训练集,再通过统计学习的方法构造一个褒贬两类分类器。最后使用构 造好的褒贬两类分类器对待估文档进行分类,即识别出该文档的倾向性。p a n g 等人【1 5 】 分别使用朴素贝叶斯( n a t i v eb a y e s ) 、最大熵( m a x i m u me n t r o p y ) 及支持向量机( s u p p o r t v e c t o rm a c h i n e s ) 方法进行文本倾向性研究,并对三种方法作了比较分析,发现s v m 4 第一章绪论 方法的准确率能够达到约8 0 ,是这三种方法中最好的方法。之后,p a n g 提出对s v m 方法的分析结果按照语义倾向性强度进行进一步细分的方法,随后实验也证明了p a n g 所提出的这个方法的可行性1 1 6 1 。基于统计的文本倾向性分析方法在国内也得到较为广泛 的研究,例如清华大学夏云庆等人【1 7 1 利用s v m 统计学习方法开发了商品的意见挖掘系 统,其精确率能达到8 5 以上。 另外一种方法是基于语义规则的文本倾向性研究方法,其主要思想是在对能够表达 文档倾向性的词汇进行了倾向性计算之后,利用语言学中的语义规则对这些词汇的极性 进行调整以期望在文本倾向性分析中得到更高的准确率。h a t z i v a s s i l o g l o u 等人【”】使用连 接形容词的连词的语言学约束来判断所连接的两个形容词表达的感情是否一致,然后用 类聚方法来获得表示情感倾向的两个形容词类。t u m e y 等人【1 9 j 使用p m ii r ( p o i n t w i s e m u t u a li n f o r m a t i o na n di n f o r m a t i o n r e t r i e v a l ) 方法来估计短语与表示情感的两个立场的 基准词( 如“好”与“坏”) 的相似度,相似度计算用逐点互信息。 判断词的倾向性还有一类方法是基于一个现存的本体知识库,利用本体库中所蕴含 的语义规则对词汇的倾向性进行计算和调整,如英文的w o r d n e t 及中文的h o w n e t ,来 计算待估词与己选定的基准词对的语义距离,进而判断待估词的倾向性。k a m p s 等人f 2 0 】 就是利用w o r d n e t 的同义结构图计算待估词与所选基准词的语义距离来得到其倾向性 的。朱嫣岚等人口1 1 则利用h o w n e t 提供的语相似度和语义相关场的计算功能,计算待估 词与预先选好的褒贬基准词对组的相关性,从而得到该词的倾向性【2 2 1 。 通过以上分析,针对当前研究现状中所出现的问题,本文提出了一种新的基于情感 o n t o l o g y 的文本倾向性分析方法,该方法较好的结合了基于语义规则和基于统计的两种 文本倾向性分析方法。首先利用知网已标注好的情感分析用词集构建情感o n t o l o g y , 然后基于构建好的情感o n t o l o g y 抽取文本倾向性分析的特征词汇并判断词汇的情感倾 向性,最后根据抽取的特征词汇对整篇文本的倾向性进行分析。 1 2 3 存在的问题 在基于语义规则的文本倾向性分析方法中,整个待分析文档均首先被看作是词语或 短语模式的集合。然后对这些词和短语模式进行极性计算,最后再根据语料分析抽取得 到的语义规则模式库对词汇的极性进行调整。这样做不但孤立了词和语义规则的分析, 而且在语义规则匹配的过程中也产生了相应的语义规则匹配代价。词和语义规则相互孤 立的分析,导致词汇极性的语义性不强,很难得到理想中的正确率。另一方面,先不考 气 情感o n t o l o g y 构建及其网络舆情分析 虑语义规则的抽取是如何的耗费时力,但就说语义规则抽取的方法和评价标准就是一个 颇受大家争议的问题。也就是说,当前基于语义规则的文本倾向性分析方法都是把待判 断的评论性文档看作是词语或模式的集合。然后查找或计算所有这些短语或模式的倾向 性值,最后将所有倾向性值累加得到整个待判断评论性文档的文本倾向性值【2 2 】。 在基于统计方法的文本倾向性分析方法中,往往是将文档表示成一个特征向量,而 特征向量中的特征分量一般都是具有褒贬含义的词语或模式。因而,在基于统计方法的 文本倾向性分析方法中,还是将评论性文档当作词或模式的集合。 综上所述,目前,无论是基于语义规则还是基于统计的文本倾向性研究都是将文档 看作是词或模式的集合,在对抽取出来的词或模式进行分析的时候并没有充分考虑词汇 或语义模式的语义信息,这两种方法在分析的过程中往往因语义和语境信息不足等因 素导致文本倾向性分析结果存在片面性和孤立性等问题。 针对当前文本倾向性分析方法的不足,在对当前网络舆情分析研究现状进行调查和 研究的基础上,本文提出了一种基于情感o n t o l o g y 的文本倾向性分析方法。首先基于知 网( h o w n e t ) 从网络舆情资源中抽取能够表达资源倾向性的概念,并定义好这些概念 与概念之间的关系( 递进、转折关系等) 构建情感o m o l o g y 。构建情感o n t o l o g y 是为 了更充分的表达情感词汇之间所蕴含的语义信息,这包含词汇的情感倾向性以及词汇间 的相似、递进和转折关系等,从而为文本的倾向性分析提供有效的语义和语境分析依据。 其次基于构建好的情感o n t o l o g y 和知网对网络舆情资源中的每一个词汇进行极性计 算。然后利用情感o n t o l o g y 中定义好的概念与概念之间的关系,对已经计算好的每一个 词汇的极性进行调整,以提高整个文本倾向性分析的正确率。 1 3 研究目的和研究内容 1 3 1 研究目的 通过以上分析,存在上述研究问题的关键在于人们无论用那一种分析方法,虽然都 试图在分析问题和解决问题的时候进入语义因素,但最终都因为自身方法的不足而得不 到理想的分析结果。 本文提出了一种新的基于情感o n t o l o g y 的文本倾向性分析方法,该方法较好的结合 了基于语义规则和基于统计的两种文本倾向性分析方法。首先利用知网已标注好的 情感分析用词集构建情感o n t o l o g y ,然后基于构建好的情感o n t o l o g y 抽取文本倾向性 6 第一章绪论 分析的特征词汇并判断词汇的情感倾向性,最后根据抽取的特征词汇对整篇文本的倾向 性进行分析。 本论文的研究目的在于:通过上述研究,以期利用o n t o l o g y 中所蕴含的语义和语境 信息来解决以前文本倾向性分析方法中考虑语义和语境因素不足的问题。 1 3 2 研究内容 本文在网络舆情文本倾向性分析研究现状的基础上,主要做了以下几个方面的工 作: 第一、网络舆情文本倾向性分析系统研究。针对现今的网络舆情分析研究现状,本 文在第二章进行了系统的分析与研究,特别是对国内外在舆情分析方面所做 出的成果进行了介绍,根据他人所做的研究提出了自己的网络舆情分析系统 模型。 第二、情感o n t o l o g y 构建研究。构建情感o n t o l o g y 是为了更充分的表达情感词汇 之间所蕴含的语义信息,如词汇的情感倾向性以及词汇间的相似、递进和转 折关系等,从而为文本的倾向性分析提供有效的分析依据。我们所构建的情 感o n t o l o g y 是以知网中的情感词汇和知网所提供的词汇相似度计 算方法为基础的。 第三、网络舆情资源词汇倾向性计算方法研究。计算词汇的倾向性是文本倾向性分 析的基础。本文提出了一种基于情感o n t o l o g y 的词汇倾向性计算方。在进 行基于情感o n t o l o g y 的语义相似度计算时考虑了两个因素:词汇与情感 o n t o l o g y 中出现的所有词汇基于知网的语义相似度和词汇在情感 o n t o l o g y 中的深度。实验结果表明,该词汇倾向性计算方法取得较好的效果。 第四、基于情感o n t o l o g y 的网络舆情文本倾向性系统的设计与实现。结合第二章 所提出的网络舆情分析系统模型,设计并实现了基于情感o n t o l o g y 的网络 舆情文本倾向性分析原型系统,该系统在确定主题的情况下,能够较好的对 网络舆情资源进行文本倾向性分析。 1 4 本文结构 第一章是绪论,介绍了课题产生的背景及意义。同时分析了网络舆情的重要性和意 义,然后介绍了当前文本倾向性分析研究的现状与存在的问题。最后针对这些问题,提 7 情感o n t o l o g y 构建及其网络舆情分析 出了本文的研究目的和研究内容。 第二章主要介绍了当前的网络舆情文本倾向性分析原理。针对网络舆情理论研究现 状,本文在这一章里进行了系统的分析与研究,特别是对国内外在舆情文本倾向性分析 方面所做出的成果进行了介绍,根据他人所做的研究提出了自己了网络舆情文本倾向性 分析系统模型。 第三章是情感o n t o l o g y 构建。本章首先综述了o n t o l o g y 建模方法,分析目前这些 建模方法存在的问题,然后分析了当前o n t o l o g y 构建规范,包括需求分析、领域概念的 抽取、评价及o n t o l o g y 进化中的一致性管理。最后着重阐述了利用此规范构建情感 o n t o l o g y 的过程。 第四章是基于情感o n t o l o g y 的网络舆情文本倾向性分析方法。在这一章中详细介绍 了我们所提出的情感o n t o l o g y 的构建方法论和描述语言。然后详细研究和分析了网络舆 情理论现状。其次根据网络舆情理论构建出了网络舆情分析系统模型。最后根据我们所 构建的情感o n t o l o g y 和网络舆情分析系统模型提出了基于情感o n t o l o g y 的网络舆情文 本倾向性分析方法,并且做了相关实验。 第五章是基于情感o n t o l o g y 的网络舆情文本倾向性分析方法原型系统的设计与实 现。这一章在第四章所做的研究基础上,设计并实现了一个网络舆情文本倾向性分析原 型系统。 第六章是总结与展望。这一章对本文所做的工作进行了总结,并对下一步的研究方 向和改进进行了展望。 8 第二章网络舆情文本倾向性分析原理 2 1 引言 第二章网络舆情文本倾向性分析原理 在当今社会条件下,处于深刻历史变革中的中国,开放空前扩大,现代传媒迅速发 展,人们的交往日益密切,观念和价值冲突加剧,社会突发事件时有发生,加上自由、 自主增大,社会每时每刻都在自觉不自觉地传播、制造舆情流量,并使之不断扩充,人 人都生活在舆情的氛围中。网络舆情不仅形成迅速,而且对社会生活的各个方面产生了 极大影响。2 0 0 4 年9 月举行的十六届四中全会指出“要高度重视互联网等新型媒体对社 会舆论的影响”。网络舆情不仅仅需要政府的密切关注,也需要学术界给予高度的重视。 它有多种媒介传播方式:新闻评论、博客留言和论坛等。网络舆情具有“滚雪球”效应, 它靠一批热心网友的上帖、跟帖、转帖来造就 4 1 。 2 2 舆情的含义与特点 社会科学方面,我国学者对“舆情”这一概念目前还没有统一的认识,王来华对舆 情的定义是:“舆情是指在一定的社会空间内,围绕中介性社会事项的发生、发展和变 化,作为主体的民众对作为客体的国家管理者产生和持有的社会政治态度。如果把中间 的一些定语省略掉,舆情就是民众的社会政治态度。”【 5 1 舆情研究是新兴社会科学研究领域。党的十六届四中全会把建立和完善舆情信息汇 集和分析机制写入中共中央关于加强党的执政能力建设的决定,标志着党在提升执 政能力的过程中,对舆情研究重要性的进一步认识。目前,对国内的舆情研究尚处于起 步阶段,大多数研究成果属于应用性研究范畴,而对舆情理论的研究尚显不足。网络舆 情是社会不同领域在网络上的不同表现,有政治舆情、法制舆情、道德舆情、消费舆情 竺【4 ,2 3 】 可 。 周如俊【2 3 】等认为网络舆情的形成有三个方面的诱因:第一,社会矛盾。由社会矛盾 产生各种社会问题诱发意见,意见在网络上的普遍化可视为网络舆情的形成。这种社会 矛盾必须符合以下要求:( 1 ) 社会矛盾的解决受阻,陷入非常状态;( 2 ) 这种受阻最终 表现为矛盾纠葛,呈现出“有形的难题”;( 3 ) 这二种“社会难题”引起网民的关切和 议论;( 4 ) 社会矛盾获得解决,先使人民受益,网民发出赞扬声,也会形成舆情。第二, o 情感o n t o l o g y 构建及其网络舆情分析 个人意见的扩展。社会问题引起不同个体的反应程度和方向不同,个体通过选择网络论 坛或聊天室来发表见解,扩大见解,引起他人的注意。在不断有其他网民的跟帖、讨论、 响应下,个人的意见就会扩展成意见的“聚议量 。第三,偶发事件的激发。事件是舆 情形成的激发点,直接引起议论向舆论的转变。任何一个具体事件的发生都表现为历史 进程的必然性,而每个事件在什么时候发生,谁在事件中扮演什么角色又具有偶然性。 作为事件旁观者的大多数网民,通过网络或其他渠道了解,引起广泛议论。特别是一些 重大的社会事件,涉及到许多人的切身利益,直接关系到国家、民族、社会的命运,引 起人们的思虑,激起网民的众说纷纭,便会形成对事件的冲击波【4 】。 2 3 分析系统构建 2 3 1 原理概述 由于网上的信息量十分巨大,仅依靠人工的方法难以应对网上海量信息的收集和处 理,需要加强相关信息技术的研究,形成一套自动化的网络舆情监控系统,及时应对网 络舆情,由被动防堵,化为主动梳理、引导。这样的系统应该具备以下功能【2 4 】: 首先是舆情分析引擎。这是舆情分析系统的核心功能,包括:1 、热点话题、敏感 话题的识别,可以根据新闻出处权威度、评论数量、发言时间密集程度等参数,识别出 给定时间段内的热门话题。利用关键字布控和语义分析,识别敏感话题。2 、倾向性分 析,对于每个话题,对每个发信人发表的文章的观点、倾向性进行分析与统计。3 、主 题跟踪,分析新发表文章、帖子的话题是否与已有主题相同。4 、自动摘要,对各类主 题,各类倾向能够形成自动摘要。5 、趋势分析,分析某个主题在不同的时间段内,人 们所关注的程度。6 、突发事件分析,对突发事件进行跨时间、跨空间综合分析,获知 事件发生的全貌并预测事件发展的趋势。7 、报警系统,对突发事件、涉及内容安全的 敏感话题及时发现并报警。8 、统计报告,根据舆情分析引擎处理后的结果库生成报告, 用户可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进行查 询,并浏览信息的具体内容,提供决策支持。 其次是自动信息采集功能【2 4 】。现有的信息采集技术主要是通过网络页面之间的链接 关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。目前,一些搜索 引擎使用这项技术对全球范围内的网页进行检索。舆情分析系统应能根据用户信息需 求,设定主题目标,使用人工参与和自动信息采集结合的方法完成信息收集任务f 2 4 1 。 l o 第二章网络舆情文本倾向性分析原理 第三是数据清理功能【2 4 】。对收集到的信息进行预处理,如格式转换、数据清理,数 据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、发布时间、内容、 点击次数、评论人、评论内容、评论数量等。对于论坛b b s ,需要记录帖子的标题、发 言人、发布时间、内容、回帖内容、回帖数量等,最后形成格式化信息。条件允许时, 可直接针对服务器的数据库进行操作。 舆情分析系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文本分类、 聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信息内容识别技术【1 2 】。 这些技术一向是国内外信息工作者关注的领域。文本检索会议( t r e c ) 、情报检索专业 组会议( s i g i r ) 、文本检测与跟踪会议( t d t 等) 都是展示此类技术最新研究成果的 最主要的国际会议和论坛。其中基于关键词统计分析方法的技术相对比较成熟,但在其 有效性方面还有很大的提高空间。 近年来,专家学者一直在研究更加有效的方法,其中基于语义的内容识别方法是当 前研究的重中之重,虽然也取得了较大进展,但仍存在很多问题和困难需要克服。为了 增加我国网络信息控制能力,我们必须迎难而上,加强相关技术的研究 4 1 。 2 3 2 文本倾向性分析系统体系结构 从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖掘预测、 结果展示三个阶段【2 5 1 。基于以上各节对网络舆情的分析与研究我们提出了网络舆情分析 系统的体系结构,如图2 1 所示: 情感o n t o l o g y 构建及其网络舆情分析 1 2 网络舆情信息分析与处理 网络舆情信息收集与存储 图2 - 1 网络舆情分析系统体系结构 图2 2 给出的是网络舆情分析系统中文本倾向性分析的详细流程图: 图2 - 2 舆情分析中的文本倾向性分析系统体系结构 第二章网络舆情文本倾向性分析原理 2 4 网络舆情语料采集 网络舆情语料采集可以分为以下几种途径: ( 1 ) 基于网页抓取的采集 基于网页抓取的采集是舆情语料采集的主要手段,采集的对象包括各种网络媒体的 网页,如门户网站、论坛、博客等。内容采集又可分为基于文本的采集和基于多媒体信 息的采集。基于文本的采集过程包括网络抓取,h t m l 内容解析、提取;多媒体的信息 采集通常采用的方法为关联规则法和特征提取法。 在采集之后采用数据抽取和转换的方法将非结构化的多媒体信息转化或映射为结 构化的数据结构,然后再进行下一步的分析工作。这种方法的优点是采集的舆情语料比 较全面,能够从整体上反映一个时期网民的舆情情况;缺点是采集周期比较漫长,网页 过滤、内容抽取工作比较复杂。 ( 2 ) 搜索引擎方法 通过对指定话题( 关键词) 进行自动化的搜索,根据搜索获得的结果( u 信息、 内容信息) 进行下一步的网页抓取或者语料整理分析。这种方法的优点是能够快速有效 的获取指定话题的舆情语料,过滤、提取方法简便;缺点是难以进行话题发现,需要用 户指定一组关键词,才能进行反复的自动搜索,抓取。 2 5 本章小结 本章主要介绍了网络舆情分析的理论与方法,虽然现今还没有形成成熟的网络舆情 分析理论与方法,但本章通过对文献当前网络舆情中一些主要的观点和看法进行了调研 和分析研究,提出了自己独到的见解。 然后在对现状的网络舆情分析理论研究的基础上,详细分析网络舆情分析系统的主 要内容以及各个部分的功能,最后提出了网络舆情分析系统的宏观模型,同时针对网络 舆情分析模型中的第二部分网络舆情收集与存储在2 4 小节中分析了两种资料 收集的方法。 第三章情感o n t o l o g y 构建 3 1 引言 第三章情感o n t o l o g y 构建

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论