(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf_第1页
(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf_第2页
(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf_第3页
(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf_第4页
(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机科学与技术专业论文)互联网舆情分析关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理l 人学硕十学位论文 摘要 随着互联网用户爆炸式的增长,受众群体越来越广。在缺乏有效管理的互 联网上,对一些敏感案件和突发事件的不实言论和恶意煽动,误导和欺骗了广 大人民群众,扩大了人民群众的不满情绪,影响和破坏了社会的和谐稳定。互 联网信息的健康程度已引起各级政府的高度重视,有必要对互联网上涉及意识 形态安全的议题和言论进行有效地监管。互联网网页每天都以指数级的方式增 长,要人工去甄别每个网页所含的信息,并加以分析统计是不现实的。只有采 用计算机自动处理技术,使其自动地对互联网舆情进行分析、整理,才能建立 起全面、有效、快速的舆情监测预警机制,使互联网得以健康、快速的发展。 因此,对互联网舆情的获取与分析技术的研究已成为一项紧迫而又重要的课题。 本文对文本的语义倾向性分析这一关键技术进行了深入地研究,通过分析 现有语义倾向性识别技术的优缺点,结合隐马尔科夫模型在文本处理方面的良 好表现,将本文研究的文本语义倾向性分析方法应用到互联网舆情分析系统中, 对舆情信息进行分析,并提供舆情预警功能。 文本的语义倾向性分析的目的是判断文本针对评价对象所持有的情感倾向 是支持、反对还是中立。由于相似的评论文本,其内容必定有一定的内在联系。 互联网舆情信息的表现方式多种多样,本文以网络评论为研究对象,试图将隐 马尔科夫模型从已经成功应用的模式识别领域推广到语义倾向性分析系统。与 传统倾向性识别系统不同的是,此理论通过建立隐马尔科夫分类模型,将未知 文本进行状态序列化,得到文本中所有具有语义倾向的词语所对应的倾向性, 然后选定多数词的倾向性来作为文本的总体语义倾向。 本文实验系统采用m y e c l i p s e 7 o 平台的集成开发环境开发,分为语料采集、 构建模型和语义识别三个模块。语料采集模块为其它两个模块提供数据支持。 构建模型模块将采集得到的数据作为语料进行训练,得到语义识别模型;语义 识别模块完成对指定的文本的语义倾向性识别。本文通过对腾讯新闻论坛的数 据分别进行封闭测试和开放测试,结果表明,该分析模型可以很好地识别各种 未知文本的语义倾向性,并且当训练数据越全面,规模越大时,获得的识别率 更高、更稳定。 关键词:互联网舆情分析系统,语义倾向性分析,隐马尔科夫模型 a b s t r a c t m o r ea i l dm o r ep e o p l ea r ei n f l u e n c e db yi n t e n l e ta st h e 锄o u n to ti n t e n 】e tu s e r s i n c r e a l s e se x p l o s i v e l y h o w e v e r ,i ft h e r ei si n e 伍c i e n tm 肌a g e m e n to fi n t e n l e t ,u n r e a i t a l k i n ga n dm a l e v o l e l l te x a g g e r a t i o no ns o m es e l l s i t i v ec a s e s a n de m e r g e n c l e sc o u l d m i s l e a da n dc h e a tp e o p l e ,t h e i l 饥l a r g ep e o p l e su n s a t i s f a c t o r y ,a tl a s ti m p a c ta 1 1 d b r e a l ( t h es t a b i l i t ya j l d h 锄o n yo fs o c i 啊n ef i t n e s so fi n t e n l e ti n f o m a t i o nh a s d r a w n 孵a ta t t e n t i o n 舶ma 1 11 e v e l so fg o v e n l i i l 饥t sa j l di ti sn e c e s s a r y t oe f f e c t l v e l y s u p e i s et h et o p i c sa n de x p r e s s i o n so ni d e o l o g ys a f e t y t h ew e b p a g e o nm t e m e ta r e i n c r e a s i n ge x p o n e n t i a l l ye v e 眄d a ya i l di ti si m p o s s i b l et os c r e e l la n da n a l ) ,z ea l lt h e i n f o 彻a t i o no ne a c hw e b p a g eb ym a n p o w e r t 1 l eo n l yo p t i o nt oe s t a b l i s h o v e r a l l , e 虢c t i v ea i l df a s tm o n i t 嘶n ga n de a r l yw 锄i n g m e c h a n i s mo fp u b l i co p i n i o ni st h a t t oa d o p ta u t o m a t i cc o m p u t e rt e c h n o l o g ys ot h a tm ei n t e m e tc a nd e v e l o pm af a s ta i l d h e a l t h vw a y t h e r e f o r e ,t h es t l l d yo fg a i n i n ga n da l l a l ) ,z i n gt e c h n o l o g ) ,o fi n t e n l e t p u b l i c 叩i n i o nh a sb e e n 柚u r g e i l ta n di m p o t t i s s u e 1 1 1 i sp a p e rd e 印l ys t u d i e dt h ek e yt e c h n o l o g yo ft e x ts e m a n t l co n 锄t a t l o n l t a n a l v z e dt h ea d v a n t a g e狃d d i s a d v a n t a g e o fp r e s e n ts e m a n t i co n 饥t a t l o n i d e n t i 矗c a t i o nt e c h n o l o g ) ,锄dt h e ni n t e 孕a t e dm eg o o dp e r f o 衄a i l c e o fh i d d e n m a r k o vm o d e l0 nt e x tp r o c e s s i n g ,a p p l i e dt e x ts e m a n t i co n e n t a t l o n a n a l y z l n g m e t h o ds t u d i e di nt h i sp a p e ri n t oi n t e m e tp u b l i co p i n i o na i l a l y z i n gs y s t e r i lt oa t t a l n t h e 锄a l y z i n ga n de a r l yw 锄i n g o fp u b l i c0 p i n i o n n ep u r p o s eo ft e x ts 锄a i l t i co r i e f l t a t i o na n a l y z i n gi st oj u d g et h es e n t l m e n t t e n d e i l c vo ft e x t t o w a r d st h ee v a l u a t e do b j e c t i v e s t h et e l l d e i l c y l ss u p p o r t l v e , o p p o s e do rn e u t r a l i z e d ?s i m i l a rc o m m e n t sm u s th a v es o m et e x t w l t i ll n n e r e n t f e l a t i o n s h i p a sav 撕啊o fw a y st h ep e 墒姗a n c eo fi n t 锄e tp u b l i co p l n l o n ,t h j s p a p e rp u ti n t e h l e tc o m m e n t sa si t s 咖d yo b j e c t i v ea n dt r i e d t os p r e a dh i d d e nm a r k o v m o d e l 舶mn l ef i e l do fm o d e li d e n t i f i c a t i o ni nw h i c h “w a sa l r e a d ys u c c e s s 如l i y a p p l i e dt 0m es y s t e l t l o fs e n l 觚t i co r i e i l t a t i o na n a l 归n 吕t h ed i 脓e n c e 丹o m t r a d i t i o n a lo r i e n t a t i o ni d e i l t i f i c a t i o ns y s t 锄i st h a tm i st h e o r yp u tu 1 1 l ( i l o w nt e x t l n s e q u e n ts t a t et h r o u 曲b u i l d i n gh i d d e i lm a r k o vc l a s s i f i e dm o d e la i l d t h e ng o tt h e t e n d e n c v 舶ma l lt h et e n d e n t i o u sw o r d sa n de v e i l t u a l l yc h o s et h et 朗d e l l c yo tm o s t i l w o r d sa st h eo v e 捌ls e n l a i l t i co e n t a t i o no f t h et e x t 1 1 1m ee x p e n m e n t a ls y s t e mo ft h i s p a p w eu s et h ei n t e 黟a t e dd e v e l o p m e l l t e 1 1 v i r o 砌e f l to fm y e c l i p s e 7 o p l a t f o n i l , c o n s i s to ft h r e em o d u l e s : t h ec o r p u s c o l l e c t i o n ,b u i l d i n gm o d e l sa n ds e i l l 锄t i cr e c o 盟i t i o n t l l ec o 巾u sc o l l e c t i o nm o d u l e p r o v l d e sd a t as u p p o r t 内rt h eo t h e rt w om o d u l e s t h eb u i l d i n gm o d e l sm o d u l e t 】r a i n s t h ec o 印u st h a tc o l l e c t 酣b ym ec o r l ) u sc o l l e c t i o n m o d u l e ,a i l dt h e i lo b t a i n st h e s 锄a i l t l c r e c o 印l t l o nm o d e l n es e i i l a n t i c r e c o 印i t i o nm o d u l ec o m p l e t e st h e s p e c l n e dt e x ts e i i l a l l t i c so i l i e n t a t i o nr e c o g m t i o n i nt h i sp a p w ec o n d u c tc l o s e d t e s t a n d 叩e nt e s tr e s p e c t i v e l yo nt h ed a t a 劬mt e n c e n tn e w sf o m m ,a n dt h er e s u l t ss h o w t h a t “sa n a l 徊n gm o d e lc a n r e c o g n i z et h es 锄a n t i co r i e i l t a t i o no fv 撕o u sk j n d so f u n l l m o w nt e x te v e 巧w e l lb o mi n 叩e i la 1 1 dc l o s et e s t s ,w h a t sm o r e ,t h ec h a n c eo f r e c o g n l z l n gw l l lb em u c hm o r es t a b l ea 1 1 dh i g h e rw h e l lm ed a t ao f p r a c t i c i n gi sl a r g e r a n d 功o r eo v e r a l l k e yw o r d s :i n t e m e tp u b l i co p i l l i o na i l a l y s i ss y s t e i l l ,s 锄a i l t i co r i e n t a t i o n 觚a l y s i s , h i d d e nm a r k o vm o d e l l l l 独创性声明 本人声明,所呈交的论文是我个入在导师指导下进行的研究工 作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不 包含为获得武汉理工大学或其它教育机构的学位或证书而使用过的 材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 签名:聋拯垦, 日期:翌! :皇! ! 量 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定, 即:学校有权保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权武汉理工大学可以将本学 位论文的全部内容编入有关数据库进行检索,可以采用影印、缩印 或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学 认可的国家有关机构或论文数据库使用或收录本学位论文,并向社 会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 嗽) 秘郢徽纽删 武汉理j :人学硕士学位论文 1 1 引言 第l 章绪论 根据中国互联网络信息中心2 0 1 0 年1 月发布的中国互联网发展状况统计 报告【l j 数据显示,截至2 0 0 9 年底,中国网民规模达到3 8 4 亿人,较2 0 0 8 年 增长2 8 9 ,在总人口中的比例从2 2 6 提升到2 8 9 ,互联网普及率在稳步上 升。中国的网站数,即域名注册者在中国境内的网站数( 包括在境内接入和境 外接入) 达到3 2 3 万个。网页的规模反映了互联网的内容丰富程度。自2 0 0 3 年 开始,中国的网页规模保持成倍地增长,2 0 0 9 年网页数量年增长率超过1 0 0 , 达到3 3 6 亿个。网络新闻使用率为8 0 1 ,覆盖八成以上的网民群体,较2 0 0 8 年提高了1 6 ;用户规模达3 1 亿人,年增长7 3 6 9 万人,年增幅3 1 5 。2 0 1 0 年3 月5 日1 9 时5 2 分5 8 秒,腾讯公司宣布,q q 同时在线用户数突破1 亿。 这说明互联网应用、数字化生存方式已经很大程度上嵌入人们的同常生活。如 何对互联网信息进行监管,对突发事件和恶意言论等负面信息进行及时预警并 有效清除,己成为亟待解决的问题。 温家宝总理分别在2 0 0 9 年2 月2 8r 和2 0 l o 年2 月2 7 同两次接受中国政 府网、新华网联合专访,与广大网友在线交流网友进行了在线交流,并在访谈 结束时和网友约定,明年再来。网友提问十分踊跃,温总理答问真挚坦诚。在 交流中,温总理就加快转变经济发展方式、医疗卫生体制改革、住房保障、劳 动就业、社会保障、“三农”问题、教育改革和发展、物价走势、两岸关系、 中美贸易等回答了网友提出的问题。由此可以看出国家政府及领导人对网络媒 体的重视程度。 随着互联网在全球范围内的飞速发展,网络成为反映社会舆情的主要载体 之一。网络媒体作为一种新的信息传播形式,已深入人们的日常生活。网友言 论活跃已达到前所未有的程度,不论是国内还是国际重大事件,都能马上形成 网上舆论,通过这种网络来表达观点、传播思想,进而产生巨大的舆论压力, 达到任何部门、机构都无法忽视的地步。人民网舆情监测室对2 0 0 9 年7 7 件影 响力较大的社会热点事件的分析表明,其中由网络爆料而引发公众关注的有2 3 件,约占全部事件的3 0 。也就是说,约三成的社会舆论因互联网而兴起,可 以看出互联网成为社会舆论的独立源头。与传统媒体相比,互联网具有流通网 武汉理t 大学硕+ 学位论文 络化、产品数字化、发行便捷化等优越性,可网络同时也是把双刃剑,存在 监管不易、信息识别难、从业人员技术能力不齐、行业自律差等问题,给国家 安全和社会安定带来了很大的负面影响【2 1 。因此,加强监管力度,把握正确的舆 情导向,营造良好的网络交互平台已势在必行。 1 2 舆情相关理论研究现状 舆情分析系统的核心技术在于舆情分析引擎,涉及的主要技术包括文本分 类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等自然语言处理技术, 这些技术一直是国内外信息工作者关注的领域。下面介绍国内外相关技术的研 究现状与发展趋势。 1 2 1 国外研究现状 国外对自然语言处理方面的研究起步比较早,相继有一些相关学者和专家 都在自然语言处理中的语法、句法及语义分析方面提出了一系列较为有效的理 论和方法,当前比较重要的会议和论坛有:文本检索会议( t e x tr e t r i e v a l c o n 触n c e ,t r e c ) 、情报检索专业组会议( s p e c i a l i n t e r e s tg r o u po ni n f o m a t i o n r e t r i e v a l ,s i g i r ) 、话题检测与跟踪会议( t o p i cd e t e c t i o na n dt m c k i n g ,t d t ) 等。 其中基于关键词统计分析方法的技术相对比较成熟,但是在有效性方面还有很 大的提升空间。 1 、英国科波拉软件公司推出的一款叫“感情色彩”【3 】的软件,能够对网上 发布的新闻报道、网站等电子文章进行自动分析,得到民众的基本观点,从中 判断该报道是正面、负面还是中立的。为相关政府机构提供公关意见,也可以 帮助某些公司了解公众对他们的看法。 据相关报道,该软件能够自动分辨句子语法成分,可以识别句子中名词、 动词和形容词等,也可以确定动词的主语和宾语,甚至还对句子中的代词( 如: 他、她、它) 进行分析,找出其所指代的是内容。由于软件可以分析出所有的 语法成分,因此可以去除与文章主要内容无关的内容,可以起到去噪和降低分 析复杂度的作用,所以在很短的时间内就可以得出结果,从而判断文章是褒义 或者贬义。这使那些以往通过专业的咨询公司来得到民众意见倾向的政府或公 司可以更快、更方便的得到公众的想法。 该软件有非常快的阅读速度,一般人在1 小时内差不多阅读1 0 篇文章,而 2 武汉理j l :大学硕士学位论文 使用该软件则只需1 秒钟就能阅读l o 篇文章,可以说比人工阅读快了千倍以上。 2 、来自美国的一个研究项目:话题检测与跟踪( t o p i cd e t e c t i o na n d t r a c k i n g ,t d t ) 【4 罐】,这个概念最早产生于1 9 9 6 年,当时美国国防高级研究计划 署( d a r p a ) 根据现实的需求,提出要开发一种能在没有人工干预的情况下自 动判断新闻数据流主题的需求。在1 9 9 7 年,研究者丌始此需求进行初步研究, 并取得了一些初步成果,包括建立了一个针对t d t 研究的预研语料库,研究的 内容包括寻找内在主题一致的文本片断,也就是给出一段连续的数据流( 文本 或语音) ,让系统判断两个事件之间的分界,并且能自动判断新事件的出现以 及旧事件的再现。从1 9 9 8 年丌始,在d a r p a 支持下,美国国家标准技术研究 所( n i s t ) 每年都要举办话题检测与跟踪国际会议,并进行相应的系统评测。 在2 0 0 2 年秋季召开了t d t 的第五次会议( 即t d t2 0 0 2 ) 。这个系列评测会议 作为d a r p a 支持的t i d e s ( t r a n s l i n g u a li n f o m a t i o nd e t e c t i o n ,e x t r a c t i o na n d s u m m 耐z a t i o n ,跨语言信息检测、抽取和总结) 项目下的两个系列会议( 另一 个是文本检索会议t r e c ) 之一,越来越受到人们的重视。参加该评测的机构包 括著名的大学、公司和研究所,如i b mw a t s o n 研究中心、b b n 公司、卡耐基 一梅隆大学、马萨诸塞大学、宾州大学、马里兰大学、龙系统公司等。国内这 方面的研究开展得要晚一些,1 9 9 9 年国立台湾大学参加了t d t 话题检测任务的 评测,香港中文大学参加了t d t2 0 0 0 的某些子任务的评测。最近北京大学和中 科院计算所的研究人员也开始进行这方面的跟踪和研究。n i s t 为t d t 研究设立 了五项基础性的研究任务,包括面向新闻广播类报道的切分任务;面向己知话 题的跟踪任务;面向未知话题的检测任务;对未知话题首次相关报道的检测任 务和报道间相关性的检测任务。 1 2 2 国内研究现状 在国内方面,近几年在信息处理领域内成型的软件产品也很多,下面以国 内两个比较出色的系统作为代表,介绍国内研究的现状:北京方正电子政务技 术有限公司推出的方正智思舆情预警辅助决策支持系统1 9 j 和谷尼国际软件( 北 京) 有限公司推出的g o o n i e 网络舆情监控分析系统。 1 、北京方j 下电子政务技术有限公司推出的方正智思舆情预警辅助决策支持 系统,以整合互联网搜索引擎技术和自然语言处理技术,通过知识管理的方法, 对互联网海量信息进行自动抓取、分类和聚类、主题检测和专题聚焦,实现用 武汉理下人学硕十学位论文 户对互联网信息的监测和追踪等需求,得到以简报,报表或图表等多种形式的 分析结果,为系统用户全面了解互联网用户的思想动态,做出正确的舆论引导, 提供合理的分析依据。从业务层次上可以将整个系统分为三个模块: 信息采集模块:对互联网信息( 新闻、博客、论坛等) 的实时监测、数 据采集、内容提取和排重。 信息处理模块:对抓取的内容进行自动分类、聚类、主题检测和专题聚 焦等。 信息服务模块:将采集并分析处理后的信息通过各种表现方式为用户直 接或间接地提供信息服务,如自动生成舆情信息简报、对已发现的舆论焦点进 行追踪并形成趋势分析,用于为满足各种用户的不同需求,提供决策支持。 方正智思舆情预警辅助决策支持系统是以公司多年积累的中文信息处理技 术、图形图像处理技术和中文自然语言处理技术为基础,根据市场需求进行具 有针对性定制和开发,结合了人工智能、信息检索、文本数据挖掘和互联网技 术的研究成果,实现了对大规模的文本、图片、视频和音频等数字化内容进行 自动采集、自动处理和智能分析的功能。进而帮助用户解决在大规模数据环境 下所面临的各种难题,加快各级政府的相关宣传机构的信息化进程和信息传播 速度。 2 、谷尼国际软件( 北京) 有限公司推出的g o o n i e 网络舆情监控分析系统依 托自主研发的搜索引擎技术和文本挖掘技术,通过网页信息的自动采集处理、 敏感词过滤、自动聚类、分类、主题检测、专题聚焦、统计分析,完成各部分 对自己相关网络舆情监督管理的需要,最终形成舆情简报、分析报告、移动快 报,为决策层全面掌握舆情动态,做出正确舆论引导,提供分析依据。系统主 要功能有: 热点话题、敏感话题识别:可以根据新闻来源的权威度、发言时间的集 中程度等参数,发现指定时i 日j 段内的热门话题。并可以根据主题关键词和回帖 数进行整体语义分析,识别出所有敏感话题。 舆情主题跟踪:可以对文章进行聚类,分析新发表文章、帖子是否和已 有文章主题是同一话题。 自动摘要:可以对所有文章、话题倾向自动分析,形成摘要。 舆情趋势分析:可以针对某个主题分析人们在不同的时间段内的热度。 突发事件分析:可以对突发事件进行跨时空的全面分析,得出整个事件 发生的全貌并对事件的下一步的趋势进行预测。 4 武汉理一f 人学硕士学位论文 舆情报警系统:可以对突发事件、涉及内容安全的敏感话题进行及时发 现并产生报警。 舆情统计报告:根据舆情分析引擎处理后得到的数据生成相应报告,用 户可通过浏览器进行浏览,并提供了检索功能,可以根据指定条件对热点话题、 倾向性等自己感兴趣的话题进行查询,得到话题信息的详细内容,提供决策支 持。 除了以上介绍的系统外,国内在信息处理技术以及自然语言理解技术等领 域的研究还有不少成果。关于中文自然语言处理的研究的许多成果可以在中国 科学院计算技术研究所的“c n l p 中文自然语言处理丌放平台”和哈工大智能技 术与自然语言处理研究室中找到,这些资源对于互联网舆情分析系统的设计与 开发有着很大的帮助。 现有的互联网舆情监测系统的实际使用效果并不理想,主要原因是现有系 统对采集到的评论文本的情感倾向性分析不足、没有建立很好的解决方案。监 测系统中如果没有对评论文本的情感倾向的分析,将使其不能有效地对互联网 舆情进行自动分析而不能建立起有效且快速的舆情监测预警机制,进而不能有 效阻止各种负面信息在互联网中的蔓延。本文针对这种不足,将文本语义倾向 分析技术引入互联网舆情监测系统中,对评论文本的情感倾向进行深入分析。 文本情感倾向从语言学上来看属于语用信息的范畴,涉及作者的主观意图, 如何让计算机能进行自动识别是计算语言学的一个重要课题,高性能的自动识 别系统对于网络舆情监测等现实应用具有重要价值。近年来,虽然有学者对舆 情的特性进行了深度分析的研究,给出了一些舆情关键点的定义,但是没有给 出具体的数学模型,也没有提出很好的舆情信息分析方案。 1 3 研究的目的与意义 当前,互联网己经确立了它第四大媒体的主导地位,截至2 0 0 9 年底,中国 网民规模达到3 8 4 亿人,这其中很大一部分是青少年【j 】。而当前互联网上充斥 着大量黄色、反动和邪教等负面内容,在通讯工具发达、人员流动频繁和信息 化同益普及的今天,一旦发生突发事件,就很容易被发布到互联网中进行传播, 引起公众的各种反应,包括些负面的、消极的,也就可能会引起民众的混乱。 因此对突发事件的相关报道和媒体信息进行分析、预警,此时显得尤为重要, 只有做好这些,才能做到防患于未然。 5 武汉理r 人学硕十学位论文 互联网信息内容丰富多样,既有大量激进、健康、有益的正面信息,也有 不少反动、迷信、黄色的负面内容。互联网以其虚拟性、隐蔽性和随意性等特 点,逐渐成为人们表达个人想法的渠道,在为民众信息的交流和共享带来方便 的同时,也为不良信息的蔓延提供了捷径,进而给社会的公共安全带来了威胁。 从互联网受众上来看,互联网是完全开放的,每个人都有机会成为网络信息的 发布者,每个人也都有选择网络信息的自由。因此,在对互联网信息进行监管 的同时,组织相关部门进行信息的收集、整理和分析,可以做到对网络突发事 件及时掌握并控制的作用。同样,互联网舆情分析系统在各级政府管治中也有 很重要的现实意义: 互联网为广大人民群众提供了直接参与政府管治的手段和平台,包括对腐 败的监督。互联网拉近了政府与人民群众在时间上、空间上的距离,增进了政 府与人民群众的联系,为两者之间的相互沟通提供了实时、全方位、立体式和 高效的平台。各级政府可以通过互联网舆情分析系统完成政府网站、政府论坛 等网络窗口的实时监控,以及时、全面地得到各级群众的意见和建议,和其对 政府相关政策所持的态度,以便政府部门了解民意,更好的贯彻和执行相关职 能。 1 4 论文的主要内容 针对“主题文章一评论”形式的互联网舆情内容,本文在研究现有倾向性 识别方法及舆情分析系统理论的基础上,将基于隐马尔科夫模型的文本语义倾 向性分析技术引入互联网舆情分析系统之中,并对相关系统进行了研究和设计。 本文主要工作如下: 1 、针对现有舆情监测系统存在不能根据网民评论准确得到民意倾向、对敏 感信息不能及时发现和预警等问题,在舆情监测系统中引入文本倾向性分析技 术,对具有文本倾向性分析技术的互联网舆情分析系统进行了研究,试图将隐 马尔科夫模型引入到文本语义倾向性分析技术中。 2 、在研究现有汉语文本语义倾向性分析方法的基础上,设计了基于隐马尔 科夫模型的文本语义倾向性识别模型,给出了主要模块的设计实现方案,并实 现了相应的原型系统。 3 、舆情语料获取方面,设计了解决方案,实现了对指定网络舆情语料的获 取、分词、整理功能。 6 武汉理- t 大学硕士学位论文 4 、词典获取和整理方面,通过半手工方式建立小规模带语义倾向的常用词 词典,并标注初始倾向性;即通过知网情感分析用词语集的标注极性和强度建 立词语的初始倾向性词典,然后手工补充词语和修改部分不正确的语义倾向。 如:“骄傲”,在知网中被分为负面评价词语,而在现实中,“骄傲 具有褒 贬双义性。 1 4 1 论文的章节组织 本文结构安排如下: 第l 章绪论部分。对舆情研究的背景做出了简要的说明,介绍了舆情分析 的研究现状,并对本文的研究内容进行了概要说明。 第2 章互联网舆情分析理论介绍。本章先对网络舆情的含义进行了介绍, 接着详细说明了网络舆情分析在整个舆情分析预警体系中的地位。之后介绍了 一个典型的网络舆情监控系统的解决方案,并介绍了现有舆情分析各步骤的理 论框架和实现方案。 第3 章基于h m m 的语义倾向性分析理论介绍。本章首先给出了引入文本 倾向性分析技术的网络舆情监控系统的整体结构,之后给出了其模块划分和数 据处理流程分析,最后对各关键模块给出了设计和实现方案。 第4 章互联网舆情分析系统的设计。本章首先系统地研究比较了现有的汉 语文本倾向性分析技术,之后给出了几个段落文本倾向性分析方案,并对其进 行了比较分析,最后介绍了引入评论倾向性的舆情关键点发现模型。 第5 章总结与展望。对本文进行总结,并介绍了进一步的研究方向。 7 武汉理工人学硕+ 学位论文 第2 章互联网舆情分析理论 2 1 网络舆情基本概念 王来华f lo 】认为,舆情是指在一定的社会空间内,围绕中介性社会事件的发 生、发展和变化,做为主体的民众对作为客体的社会管理者产生和持有的社会 政治态度。张克生【l l 】认为,舆情是指国家决策主体在决策活动中必然涉及的、 关乎利益的民众生活( 民情) 、以及民众在认知、情感和意志基础上,对社会 客观情况以及国家决策产生的主观社会政治态度。舆情一旦形成,在很短的时 间内就可以迅速传播,对社会产生的影响巨大,不仅需要政府各级部分密切关 注,也需要社会各界高度重视。 网络舆情u 2 】是通过互联网表达和传播的各种不同情绪、态度和意见交错的 总和,其来源于现实。网络舆情信息则是民众在互联网上发布和传播的能够反 映民众舆情的文字、图像、音频和视频等,往往大多以文字形式为主,主要传 播途型1 2 】有:1 、电子邮件( e m a i l ) ;2 、新闻组( n e w s g r o u p ) ;3 、即时通讯 ( i m ) ;4 、电子公告板( b b s ) ;5 、博客( b l o g ) ;6 、维客( w i k i ) ;7 、 播客( p o d c a s t i n g ) ;8 、其他社会性软件( s o c i a ls o n w a r e ) 。 当今,信息传播与意见交互非常快捷、迅速,网络舆论的表达方式也同益 多元化。如果不进行j 下确地引导,那么负面的网络舆情将得以迅速传播,这会 对社会公共安全形成较大地威胁。因此,相关监管部门应当加强对网络舆情实 时地监测、正确地引导,以及对负面网络舆情的及时清除,对维护社会的稳定 和促进国家信息良性的发展,具有重要意义。 网络舆情能够产生、传播和变动,也需要有必要的构成要素。通过对网络 舆情及相关概念的分析得知,网络舆情主要包括以下构成要素【1 2 】:l 、网民;2 、 公共事务( 包括国家公共事务、政府公共事务和社会公共事务) ;3 、网络舆情 的时空因素;4 、情绪、意愿、态度和意见;5 、网络舆情的强度;6 、网络舆情 的质和量。 2 2 网络舆情特点 基于互联网的开放性、自由性、多样性和虚拟性等多种特性,决定了网络 武汉理。r 大学硕士学位论文 舆情具有以下特点: 1 、直接性。互联网是对所有用户开放的,每个人都可以随时随地的通过 b b s 、博客等媒介发布信息,使人们的活动空间得已扩展。人们可以在互联网中 随意表达自己的想法,反映自己的情绪,进而形成舆情,也可以自由查看别人 发布的信息,因此网络舆情可以比较客观地反映现实社会中的矛盾,可以比较 真实地体现社会不同群体的情绪。由于互联网操作的方便性,用户可以通过转 帖、复制等方式将网络舆情信息进行重新传播,使网络舆情影响得以无限扩大。 各种形式的舆论只要经过网络的传播,就能引起所有互联网受众的关注,成为 舆情焦点。 2 、突发性。网络舆情可以在非常短的时间内形成并加以蔓延。主要表现在: 当一个社会热点事件发生并被某个人或者某部分人发布到网络中时,广 大网民就可以根据自己的情绪发表自己的意见,进而将这些个体意见发展成为 公共意见; 网内和网外的人们可以在线上或生活中互相交流意见、互相影响,进而 快速地形成强大的舆情声势。 3 、丰富性。互联网是开放的,所以网络舆情的主题内容不受限制,任何人 都有发布、选择舆情事件的自由,只要是合法的内容就可以被广泛传播。主要 表现有: 从话题主体上看,社会中各个阶层、各个地方和各个领域的互联网用户; 从话题内容上看,无论是从天文到地理,从古代到现代,还是从生活琐 事到高科技,从群众生活到政府职能等等,可以包括人们生活中的各个方面; 从话题来源上看,网络舆情可以被任意传播,任何人也都可以发表评论。 4 、互动性。随着互联网的普及,网民发布信息的网络平台已日益丰富,人 们可以进行互动的机会、场合也越来越多。针对某一事件,网民可以在这些平 台上进行互动,很容易形成支持和反对的双方,一旦观点出现相对,则互相争 论、表达己见的评论越来越多,进而使话题的讨论更加深入。 5 、偏差性。互联网是虚拟的,因此对反正现实中的事件时,很容易具备偏 差性。也可能因网民的个人原因,致使产生这种特性,主要表现有: 一些公司、机构为了能够提升自己的声誉,通过在网络上发布竞争对手 的负面信息,而不可避免地存在不符事实的报道。 评论发布者由于缺乏理性、对社会问题片面认识、当时心情状态等因素, 使其在网络中发布具宣泄性、片面性或不合现实的言论。 9 武汉理:r 人学硕+ 学位论文 2 3 舆情分析系统功能 互联网信息形式多样、规模庞大,致使仅仅依靠人工方式进行收集、处理 已不在可能。应对这一现状,舆情分析系统弥补了单靠人工方式处理的不足, 应具备以下功能【l 列: l 、信息自动采集。现有的信息采集技术主要是以某几个或者有限数量的网 址为入口,进行采集,通过对网页中链接进行提取,为下一轮采集提供信息, 进而向整个网络进行扩展。这也是搜索引擎的一项技术,目前一些搜索引擎网 站是针对整个互联网中的网页进行采集,如百度,g o o g l e 等。舆情分析系统通 过此功能模块为整个系统提供数据,得到分析的对象,也是整个系统的起始模 块。 2 、信息抽取功能。对信息采集模块获取的信息进行处理,包括数据清理、 数据统计、数据格式化等。如对论坛提取其中帖子的标题、内容、发帖时间、 发帖人、回帖数量、回帖人、回帖内容等信息;对新闻评论提取其中的标题、 来源、时间、点击量、评论内容、评论人等。然后保存这些格式化的信息。 3 、舆情分析引擎。这是整个分析系统的核心模块,主要功能包括: 热点话题、敏感话题识别;倾向性分析;主题跟踪;自动摘要; 趋势分析;突发事件分析;报警系统;统计报告。其中倾向性分析功 能是本课题研究的重点,将在下面章节进行详细的介绍。 舆情分析引擎是整个舆情监控系统的核心模块【1 4 】,涉及的最主要的技术包 括文本分类、聚类、语义倾向性识别、主题检测与跟踪、自动摘要等自然语言 处理技术。这些技术一向是国内外相关语言信息工作者研究的领域。 2 4 舆情分析的作用 建立一个完备的舆情分析系统可起到以下作用l l5 j : l 、桥梁作用。互联网为人们进行交流、发表言论提供了平台。舆情分析系 统可以获取这些可以表达民众心理、当前动态的话题言论,进而了解民情、掌 握民情。网络为民众间的交流建立了桥梁,可以很快、很好地反映民情;而舆 情分析系统为获取民情、预测民情动态提供了桥梁。 2 、耳目作用。网络舆情已可以准确、完整地表示民情民意。舆情分析系统 可以通过对某一事件跨时空地分析、整合,使不同地点的信息整体化,使不同 1 0 武汉理j :人学硕士学位论文 时间评论连续化,得到一个真实而完整的事件真像。因此舆情分析系统可以“听 到 远隔千里之外的民众的想法,可以“看到”任何地方人们的现状,起到延 伸人们耳目的作用。 3 、决策作用。舆情分析系统以庞大的民情民意信息数据为基础,通过对这 些信息进行统计、分析趋势、提供决策建议等方式,为决策者提供系统、全面 的舆情信息,使其得以在较短时间内掌握大量信息,提升决策效率。 4 、预警作用。舆情分析系统通过对网络舆情的监测,可以对突发事件进行 有效预警,并通过各种表现方式进行呈现。为决策者起到提醒作用,以防止不 良事件的爆发、蔓延。 5 、引导作用。互联网是开放的,虚拟的,不可避免地会出现一些虚假的、 不良的负面信息,如果不进行正确的引导,很容易被网民采信,对社会形成危 害。而随着信息被广泛的传播,受众越来越多,很容易形成群体,形成偏激的 态度,走向极端【l 卅。针对这种情况,舆情分析系统可以对突发事件的舆情趋势 进行分析、正确引导,使其良性发展;而对不良信息可以提前预警、跟踪,以 免使其继续扩散,防止出现负面的影响。可以帮助舆情工作者正确、有效的引 导舆情。 2 5 本章小结 本章是为下面的章节做下铺挚,先对网络舆情的概念进行了简要说明,包 括其传播途径和构成要素;接着详细说明了舆情在互联网上表现出的各种特点; 然后重点介绍了常用舆情分析系统应具备的功能,分别阐述了各功能模块的内 容以及相互之间的联系,并指出他们在舆情分析系统中的侧重点;最后说明了 舆情分析系统对社会各界所起的作用。 武汉理1 :入学硕十学位论文 第3 章基于隐马尔科夫模型的语义倾向性分析理论 3 1 文本语义倾向性理论 文本语义倾向性分析【1 7 1 ( s e n l a n t i co r i e i l t a t i o na n a l y s i s ) ,主要就是通过分析 文本的情感倾向,对文本进行语义倾向性分类。根据文本语义倾向性的不同, 将文本分为正面褒义类、中立类、负面贬义类三种:1 、正面褒义类:评论者对 文本所指对象持肯定态度,带有明显的称赞、表扬、支持或者赞赏等情感倾向; 2 、中立类:评论者对文本所指对象持客观公j 下的态度,无明显的情感倾向;3 、 负面贬义类:评论者对文本所指对象持否定态度,带有明显的怀疑、讽刺、反 对或批评等情感倾向。 舆情监控系统的核心技术在于舆情分析引擎,语义倾向性分析也是舆情分 析引擎的核心功能之一,这在第二章中已详细介绍。接下来在介绍隐马尔科夫 模型的基础上,详细阐述本文的文本语义倾向性分析理论。 3 2 隐马尔科夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 3 2 1 隐马尔科夫模型的由来 18 7 0 年,俄国有机化学家v 1 a d i m i fv m a r k o v n i k o v 第一次提出马尔科夫模 型。但由于缺乏优化马尔科夫模型参数的方法,早期基于马尔科夫链的语言模 型直到上世纪6 0 年代末才开始被重新研究。 隐马尔科夫模型是对马尔科夫模型的种扩充,正在各个领域中获得广泛 的应用。它的基本理论形成于上世纪6 0 年代末期和7 0 年代初期,由l e b a u m 等人建立起来的,随后由c m u 的j k b a l ( e r 以及i b m 的f j e l i n e k 等人将其应 用于语言识别中【l 引。 目前隐马尔科夫模型在自然处理中有非常重要的用途,广泛地应用于汉语 自动分词和词性标注、文字识别和信息抽取等很多方耐1 9 圳l 。 3 2 2m a r k o v 过程和m a r k o v 链 马尔科夫过程是具有无后效性的随即过程。即在已知目前状态( 现在) 的 1 2 武汉理一i :人学硕士学位论文 么性吲 并且有。耋a 三1 ,阮= l i - p ( q 1 - s i ) ,其中1 三i 至n ,o 姜兀i 耋l , 万,= l 3 2 3h m m 的基

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论