(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf_第1页
(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf_第2页
(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf_第3页
(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf_第4页
(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(计算机科学与技术专业论文)文本倾向性分析在舆情监控系统中的应用研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学硕士学位论文 摘要 文本倾向性分析在舆情监控系统中的应用研究 摘要 舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展 和变化,作为主体的民众对作为客体的国家管理者产生和持有的社会 政治态度【。随着网络的普及,网络舆情以“舆论多元 为最大特点 f 4 l ,网络舆情的信息丰度呈现“爆炸的态势,一是网络舆情信息的 数量极为庞大,二是其类别繁多,三是背景信息复杂,尤其是突发 事件和社会流行事件,常常会立即引发各种社会集团、政治势力的 共同关注。在这种情况下,要人工去甄别每个意见的具体情况并加 以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语 料进行分析整理,才能够建立起全面、有效、快速的舆情监控预警 机制。 传统的网络舆情监控系统中,话题发现方法多采用聚类基础上 考察相关评论规模的方法,往往对网民评论的情感因素关注不足, 而且通常是停留在热点话题发现的程度,没有进一步根据倾向性特 性进行区分。近年来,虽然有学者对舆情的特性进行了深度分析的 研究,给出了一些舆情关键点的定义,但是没有给出具体的数学模 型,也没有提出可行的发现方案,发现方法多是手工采集整理。本 文尝试将自然语言理解技术中的文本倾向性分析技术引入舆情监控 系统之中,对文本倾向性分析技术在舆情监控系统中的应用进行了 研究。本文首先对引入文本倾向性分析技术的舆情监控系统进行了 整体设计,并详细设计了各主要模块;在建立词语倾向性词典的基 础上,研究了多种网络评论倾向性分析方案的优缺点,分析比较了 多种段落评论分析方案;最后在对主题文章进行聚类的基础上,根 据参与评论的网民规模发现其中的热点话题,建立包含网民倾向性 因素的极性话题、焦点话题、敏感话题发现模型,以提高舆情监控 系统的实用价值。 关键字:倾向性分析,舆情,极性话题,焦点话题,敏感话题 北京邮电大学硕士学位论文 r e s e a r c ho nt h ea p p l i c a t i o no f t e x t o i u e n t p 汀i o na n a l y s i si nt h ep u b l i co p i n i o n m o n i t o r i n gs y s t e m a b s t r a c t p u b l i co p i n i o nm e a n st h ep o l i t i c a la t t i t u d e so fm a j o r i t yp e o p l e t o w a r d st h es t a t em a n a g e r sa b o u tt h eo c c u r r e n c ea n dd e v e l o p m e n to f s o m es o c i a li s s u e su n d e rs o m ek i n do fs o c i a lc i r c u m s t a n c e s w i t ht h e p o p u l a r i t yo ft h ei n t e r n e t ,n e t w o r kp u b l i co p i n i o nt a k e ”m u l t i m e d i a ”a s t h eb i g g e s tf e a t u r e ,n e t w o r ki n f o r m a t i o na b u n d a n c eo fp u b l i co p i n i o n s h o w e x p l o s i v e p o s t u r e f i r s t t h ea m o u n to fn e t w o r kp u b l i co p i n i o n i n f o r m a t i o ni sh u g e ,a n dt h es e c o n di si t sn u m e r o u sc a t e g o r i e s ;t h i r d ,t h e b a c k g r o u n di n f o r m a t i o ni sc o m p l i c a t e ,e s p e c i a l l ys u d d e ne v e n t s a n d s o c i a le p i d e m i ce v e n t s ,o f t e nc a u s ec o m m o nc o n c e r no fv a r i o u ss o c i a l g r o u p sa n dp o l i t i c a lf o r c e si m m e d i a t e l y i ns u c hc i r c u m s t a n c e s ,s p e c i f y a n dc l a s s i f ya l lt h ev i e w sb yh a n di su n r e a l i s t i c o n l yb yu s i n gc o m p u t e r t e c h n o l o g yt oc o l l e c ta n da n a l y s i sp u b l i co p i n i o nc o r p u sa u t o m a t i c a l l y c a ne s t a b l i s hac o m p r e h e n s i v e ,e f f e c t i v ea n df a s tp u b l i co p i n i o n m o n i t o r i n ge a r l y - w a r n i n gm e c h a n i s m i nt h et r a d i t i o n a lp u b l i co p i n i o nm o n i t o r i n gs y s t e m ,t h et o p i cw a s d e t e c t e db yt e x tc l u s t e r i n gm e t h o d ,d e s i g n e r so f t e nt a k el i t t l ec o n c e r n a b o u te m o t i o n a lf a c t o r so ft h ec o m m e n t ,o f t e no n l yr e a c ht h el e v e lo fh o t t o p i cd i s c o v e r y i nr e c e n ty e a r s ,a l t h o u g ht h e r e i ss o m es t u d yo nt h e c h a r a c t e r i s t i c so fp u b l i co p i n i o nc o n d u c t e di n d e p t ha n a l y s i s ,a n dt h e y p r e s e n t e dt h ed e f i n i t i o no fs o m ek e yp o i n t so fp u b l i co p i n i o n ,b u tt h e y d i dn o tg i v eas p e c i f i cm a t h e m a t i c a lm o d e l ,f o u n dn ov i a b l eo p t i o n s d i s c o v e r ym e t h o d sm o r et h a nm a n u a lm e t h o d s t h i sp a p e l a t t e m p t st o i b r i n gt h en a t u r a ll a n g u a g eu n d e r s t a n d i n gt e c h n o l o g y , o r i e n t a t i o na n a l y s i s o ft h et e x t i n t ot h ep u b l i co p i n i o nm o n i t o r i n gs y s t e m ,s t u d i e do nt h e a p p l i c a t i o no ft h et e x to r i e n t a t i o na n a l y s i st e c h n o l o g yi np u b l i co p i n i o n m o n i t o r i n gs y s t e m t h i sp a p e rf i r s t i n t r o d u c e dt h es y s t e md e s i g no f p u b l i co p i n i o nm o n i t o t i n gs y s t e mt h a tw i t ht e x t o r i e n t a t i o na n a l y s i s 一一 t e c h n o l o g y , a n dt h e ng a v et h ed e t a i l e dd e s i g no f t h em a i nm o d u l e s o n t h eb a s i so ft h ef o u n d a t i o no fw o r dp o l a r i t yd i c t i o n a r y , t h i sp a p e rs t u d i e d t h ef e a t h e r so fs e v e r a lc o m m e n to r i e n t a t i o na n a l y s i ss c h e m e s a tl a s t ,t h i s p a p e rd e t e c tt h eh o tt o p i cb yt h es c a l e o ft h ec o m m e n t so fn e t i z e n s p a r t i c i p a t e di nt h ec l u s t e r a n dp r e s e n t e dt h ed e t e c tm o d e lo fp o l a rt o p i c , f o c u st o p i c ,s e n s i t i v et o p i ct oe n h a n c et h ep r a c t i c a lv a l u eo ft h ep u b l i c o p i n i o nm o n i t o r i n gs y s t e m k e yw o r d s :o r i e n t a t i o na n a l y s i s ,p u b l i co p i n i o n ,p o l a rt o p i c ,f o c u s t o p i c ,s e n s i t i v et o p i c i v 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:丝握主! 蕴 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它 复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在年解密后适用本授权书。非保密论 姓黧文雅秽胡,本人签名:至竺篁兰 导师签名:二丛孕l 适用本授权书。 日期: 日期: 沙而弓掰 北京邮电大学硕上学位论文 文本倾向性分析在舆情监控系统中的应用研究 1 1 课题背景 第一章绪论 当前,我国正处在新的历史转型期,社会充满了生机,但同时也存在许多 矛盾。这些矛盾开始时是自发的、零散的和轻微的,这时如果不及时发现和解 决,就有可能升华成为自觉的、有组织的、严重的群体性对抗,甚至是大范围 的、激烈的冲突。如何避免这样的问题发生已经成为我国能否顺利转型的关键。 舆情指在一定的社会空间内,围绕中介性社会事项的发生、发展和变化,作为 主体的民众对作为客体的国家管理者产生和持有的社会政治态度l l j 。舆情机制 是隐含了民众的“三位一体 的主体地位的决策机制h :建立有效的社会问题 预警机制,首先要能够收集分析反映社会生活的舆情信息。基本要求是要做到 “快、准、深、精,新、全 i j j 。其中网络舆情信息是非常重要的一块。网络 彻底打破了地域的界限,模糊身份的特征,使得广大弱势群体能够充分揭露出 社会底层的深刻现状;而且网络还具有实时性强、交互性好的特点,因此,对 网络舆情的分析和整理对于构建有效的社会问题预警机制具有很大的作用。 随着网络的普及,网络舆情以“舆论多元一为最大特点1 4 j ,网络舆情的信息 丰度呈现“爆炸的态势,一是网络舆情信息的数量极为庞大,二是其类别繁 多,三是背景信息复杂,尤其是突发事件和社会流行,常常会立即引发各种社 会集团、政治势力的共同关注。在这种情况下,要人工去甄别每个意见的具体 情况并加以分类统计是不现实的。只有采用计算机技术自动地对网络舆情语料 进行分析整理,才能够建立起全面、有效、快速的社会问题预警机制。 近年来,一些学者和研究机构已经进行了一些重要的舆情分析方面的研究, 取得了一定的研究成果。同时也存在一些不足,主要表现在:其一,将数理统计软 件化来代替舆情分析判据科学性纠;其二,将经典概率理论简单图示化来代替舆 情分析判据复杂性纠;其三,将热点重点层面的分析代替舆情分析的深层性。 如虽强调主题检测和追踪t d t ( t o p i ed e t e c t i o na n dt r a c k i n g ) 技术【o j ,试图自动发 现并追踪社会热点和焦点内容及舆情,但分析模式仅仅停留在热点发现方面, 难以深化。究其原因,根本在于忽视互联网内容及舆情本身的性质和特点,忽 视内容及舆情内在的深层结构和关系,忽视内容及舆情演化的规律和条件【7 1 。 虽然有一些学者对舆情的内在特性进行了研究,并对热点、焦点、敏点等【7 】舆 情问题给出了定义,但是给出的数学模型过于简化,而且对文本倾向性的考虑 不足。对舆情的大多数特点的研究还仅仅是在分析模式方面,没有可行的数学 模型和关键点提取方案。 1 2 舆情相关理论研究现状 舆情分析涉及到的技术非常多,而核心是自然语言理解技术。自然语言理 解就是如何让计算机能正确处理人类语言,并据此作出人们期待的各种正确响 应p j 。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工 智能研究的关键p j 。从自然语言理解的角度来讲,处理文本需要进行三步工作: 理解所出现的每个词;从词义构造表示语句意义的结构;从句子语义结构表示 言语的结构。在这三个过程中,需要着重解决如何有效地使用语法、语义、语 用及与其相关的各种知识问题例。 国外关于自然语言理解方面的研究起步较早,一些卓有成就的语言学家、 逻辑学家和心理学家都在自然语言理解中的语法、句法及语义分析方面提出了 一系列较为系统的理论的方法。比较有影响的理论有:转换生成语法、依存语 法、语义网络、蒙塔鸠语法、扩展转换网络、系统语法、格语法和语义网络理 论、概念依存理论、境况语义学、语料库语言学等。 另外还有许多计算语言学家或学者在总结前人的经验与成果的基础上又提 出了不少新方法、新理论和新思路,这为计算语言学的不断发展作出了贡献【剐。 相比之下,国内在自然语言理解方面较为系统的研究成果则为数不多。因 为我国的自然语言理解研究必须以汉语为研究对象,而我国传统的汉语研究, 并不以计算机处理汉语为目的,尽管语言学家设计了许多汉语语法体系,可这 些体系很难直接在自然语言理解的研究中得到有效应用。同时,由于汉语是无 形态变化的语种,因此无法直接套用西方现有的语法、语义结构体系,这使得 汉语自然语言理解研究工作困难重重1 6 j 。令人欣慰的是,近几年,国内自然语 言理解的研究取得了很大的成绩,无论在汉语书面语的自动切分、汉语电子词 典、汉语机读语料库、机器翻译、汉语人机对话、汉语情报检索等应用研究领 域中,还是在结合汉语、汉字特点探索计算语言学基础理论的研究中,都出现 2 北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究 了不少拓荒之作,取得了骄人的成果【8 1 。 近年来,我国在汉语自然语言理解方面的成绩主要有: ( 1 ) 机器翻译:以冯志伟教授等为代表的计算语言学学者早期在机器翻译研 究方面做了大量的工作,并总结出不少珍贵的经验和方法,为后来的计算语言 学研究奠定了基础【1 0 1 。从发展趋势看,规则和统计相结合的方法应该是机器翻 译技术的一个发展趋势【1 1 1 。 ( 2 ) 语料库研究:清华大学的黄昌宁教授领导的计算语言学研究实验室,主 要从事基于语料库的汉语理解。近年来,在自动分词、自动建造知识库、自动 生成句法规则、自动统计字、词、短语名子的使用及关联频率方面做了大量的 工作并发表了不少极具参考价值的论文嗍。 ( 3 ) 语篇理解研究:东北工学院的姚天顺教授和哈尔宾工业大学的王开铸教 授等在计算语言学的语篇理解方面( 特别在结合语义方面) 的研究进行了有价值 的尝试并取得了一定的成绩咧。 ( 4 ) 概念层次网络理论:中国科学院的黄曾阳先生提出了删c ( h i e r a r c h i c a l n e t w o r ko fc o n c e p t ) 概念层次网络理论。它是一个以语义表达为基础的,融语 义、语法、语用为一体的自然语言理解的理论体系 1 z j 。这一理论的提出为自然 语言理解研究开辟了一条崭新的思路,删c 理论研究现在已经发展为国内自然 语言理解研究的重要流派。 目前网络舆情分析已经成为众多国内外专家研究的一个热点和重点。目前 已有一些实际的系统投入使用,见诸于报道的有: 国内:方正智思舆情监测分析系统j j 方正智恩舆情系统作为舆情的监测分析工具辅助舆情监控部门对舆论信息 进行评估,分析规划舆情监控内容,形成舆情预警信息,同时根据舆情的监控 级别规划新的监控内容,开始新的监控周期,形成一个具有生命特征的周期往 复的社情民意反馈系统。 方正智思舆情系统提供了从舆情收集分析一服务相关辅助手段,主要包 括智能网络页面获取、智能检索、自动摘要、关联分析、聚类分析、自动分类 以及统计报表等功能模块。 国外:英国科波拉软件公司的“感情色彩一软件1 1 4 j 据新科学家杂志报道,该软件能判断报纸刊登的文章对一个政党的政 3 北京邮电人学硕上学位论文文本倾向性分析在舆情监控系统中的应用研究 策是持肯定态度还是否定态度、或者网上评论文章是称赞还是贬低一种产品。 这种软件能分辨语法成分,例如名词、动词和形容词,并确定动词的主语和宾 语。该软件甚至能分析“它、“他 和“她”等代词,找出这些代词指代的是 什么。由于理解了语法结构,该软件可以剔除与文章的感情色彩无关的词语, 在很短的时间内得出结论。该软件分析的速度非常快,比如普通人需要一小时 才能浏览1 0 篇文章,而该软件一秒钟就够了。 美国有一个研究项目被称为t d t ( t o p i cd e t e c t i o na n dt r a c k i n g ) 1 1 5 】【1 6 11 1 7 , 它的初衷是要研究出一些算法,能够发现和归纳来自于数据流中的重要的信息 和内容。t d t 中的话题识别与跟踪的基本思想源于1 9 9 6 年,来自d a r p a 、卡 内基梅隆大学、d r a g o n 系统公司以及麻萨诸塞大学的研究者开始定义话题识别 与跟踪研究的内容,并开发用于解决问题的初步技术。这些初始研究的目的是 要确定来自信息检索领域的基于主题的技术在多大程度上能够用来解决基于事 件的信息组织问题。为保持统一的命名方式,这些初始研究及评测后来被命名 为t d t1 9 9 7 。t d t 项目正式开始于1 9 9 8 年,经过了若干年的演变,最新的版 本是t d t 2 0 0 4 。在这个项目中采用了一种开放式的评估方法,它提供了测试需 要的文本集,并给出了测试的衡量标准:错误正确率恤l s ea n dm i s sr a t e ) ,通过各 所大学的研究小组竞争的方式来对项目进行不断的研究。总的来说,1 1 ) t 项目 中主要涉及到了5 个研究内容:连续文本的分割( 针对广播新闻) ; t o p i c t r a c k i n g ( 主题跟踪) ;( 查) t o p i cd e t e c t i o n ( 主题发现) ;( 查) f i r s ts t o r y ( e v e n t ) d e t e c t i o n ( 新事件发现) ;l i n kd e t e c t i o n ( 相关发现) 。 1 3 论文主要内容 针对“主题文章评论 形式的网络舆情语料,本文在研究现有倾向性确定 方法及舆情监控系统理论的基础上,将文本倾向性分析技术引入网络舆情监控 系统之中,对相关系统进行了研究和设计,并对关键的模块进行了详细设计和 原型系统实现,在计算主题文章相似度的基础上对主题文章进行了聚类,达到 根据相关评论规模发现网络话题的目的。本文深入研究了文本倾向性分析技术 在系统中的应用方案,在对评论文本进行倾向性分析的基础上,发掘极性话题、 焦点话题、敏点话题等舆情分析关键点的特性,并给出了相应的数学模型。本 文主要工作如下: 4 北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究 1 对引入文本倾向性分析技术的网络舆情监控系统进行了系统地研究和设 计,给出了主要模块的设计实现方案并实现了相应的原型系统。 2 舆情语料获取方面,设计了解决方案,实现了对指定网络舆情语料的获取、 整理、分词功能。 3 文本在研究现有汉语句子倾向性分析方法的基础上,设计了多种快速确定 网络评论文本倾向性的方案,给出了对比分析的结果。 4 舆情关键点发现方面,本文根据参与评论的网民规模发现网络中的热点话 题;在分析评论倾向性的基础上,建立包含网民倾向性因素的极性话题、 焦点话题、敏感话题发现模型,以提高舆情监控系统的实用价值。 5 其他相关工作 手工建立小规模网络奇异词语的修正词典,以及标注初始倾向性:通过对 知刚1 8 1 词汇的标注极性和强度建立词语的初始倾向性词典,并手工补充部 分词语;建立常见修饰副词和否定副词词典。 1 4 论文的章节组织 本文结构安排如下: 第一章绪论部分。对舆情研究的背景做出了简要的说明,介绍了舆情 分析的研究现状,并对本文的研究内容进行了概要说明。 第二章舆情分析理论介绍。本章先对网络舆情的含义进行了介绍,接 着详细说明了网络舆情分析在整个舆情分析预警体系中的地位。之后介绍了一 个典型的网络舆情监控系统的解决方案,并介绍了现有舆情分析各步骤的理论 框架和实现方案。 第三章网络舆情监控系统设计。本章首先给出了引入文本倾向性分析 技术的网络舆情监控系统的整体结构,之后给出了其模块划分和数据处理流程 分析,最后对各关键模块给出了设计和实现方案。 第四章文本倾向性分析在系统中的应用。本章首先系统地研究比较了 现有的汉语文本倾向性分析技术,之后给出了几个段落文本倾向性分析方案, 并对其进行了比较分析,最后介绍了引入评论倾向性的舆情关键点发现模型。 第五章总结与展望。对本文进行总结,并介绍了进一步的研究方向。 5 北京邮电人学硕上学位论文 文本倾向性分析在舆情监控系统中的应用研究 第二章网络舆情理论 2 1 网络舆情的含义与特点 社会科学方面,我国学者对“舆情”这一概念目前还没有统一的认识,王 来华对舆情的定义是:“舆情是指在一定的社会空间内,围绕中介性社会事项的 发生、发展和变化,作为主体的民众对作为客体的国家管理者产生和持有的社 会政治态度。如果把中间的一些定语省略掉,舆情就是民众的社会政治态度。 p 】舆情研究是新兴社会科学研究领域。党的十六届四中全会把建立和完善舆情 信息汇集和分析机制写入中共中央关于加强党的执政能力建设的决定,标志 着党在提升执政能力的过程中,对舆情研究重要性的进一步认识。目前,对国 内的舆情研究尚处于起步阶段,大多数研究成果属于应用性研究范畴,而对舆 情理论的研究尚显不足。 网络舆情是社会不同领域在网络上的不同表现,有政治舆情、法制舆情、 道德舆情、消费舆情等刿。在当今社会条件下,处于深刻历史变革中的中国, 开放空前扩大,现代传媒迅速发展,人们的交往日益密切,观念和价值冲突加 剧,社会突发事件时有发生,加上自由、自主增大,社会每时每刻都在自觉不 自觉地传播、制造舆情流量,并使之不断扩充,人人都生活在舆情的氛围中。 网络舆情不仅形成迅速,而且对社会、对社会生活的各个方面产生了极大影响。 2 0 0 4 年9 月举行的十六届四中全会指出,“要高度重视互联网等新型媒体对社 会舆论的影响一。网络舆情不仅仅需要政府的密切关注,也需要学界给予高度的 重视。 网络舆情通过多种媒介传播;新闻评论、博客留言和论坛等。网络舆情具 有“滚雪球效应,它靠一批热心网友的上帖、跟帖、转帖来造就。周如俊l 叫 等认为网络舆情的形成有三个方面的诱因:第一,社会矛盾。由社会矛盾产生 各种社会问题诱发意见,意见在网络上的普遍化可视为网络舆情的形成。这种 社会矛盾必须符合以下要求:( 1 ) 社会矛盾的解决受阻,陷入非常状态;( 2 ) 这种 受阻最终表现为矛盾纠葛,呈现出“有形的难题;( 3 ) 这种“社会难题 引起 6 北京邮电大学硕士学位论文 文本倾向性分析在舆情监控系统中的应用研究 网民的关切和议论;( 4 ) 社会矛盾获得解决,先使人民受益,网民发出赞扬声, 也会形成舆情。第二,个人意见的扩展。社会问题引起不同个体的反应程度和 方向不同,但个体可以选择网络论坛或聊天室来发表见解,扩大见解,引起他 人的注意。在不断有其他网民的跟帖、讨论、响应下,个人的意见就会扩展成 意见的“聚议量。第三,偶发事件的激发。事件是舆情形成的激发点,直接引 起议论向舆论的转变。任何一个具体事件的发生都表现为历史进程的必然性, 而每个事件在什么时候发生,谁在事件中扮演什么角色又具有偶然性。作为事 件旁观者的大多数网民,通过网络或其他渠道了解,引起广泛议论。特别是一 些重大的社会事件,涉及到许多人的切身利益,直接关系到国家、民族、社会 的命运,引起人们的思虑,激起网民的众说纷纭,便会形成对事件的冲击波。 2 2 网络舆情监控系统概述 由于网上的信息量十分巨大,仪依靠人工的方法难以应对网上海量信息的 收集和处理,需要加强相关信息技术的研究,形成一套自动化的网络舆情监控 系统,及时应对网络舆情,由被动防堵,化为主动梳理、引导。这样的系统应 该具备以下功能l 卅: 首先是舆情分析引擎。这是舆情监控系统的核心功能,包括:l 训1 、热点 话题、敏感话题的识别,可以根据新闻出处权威度、评论数量、发言时间密集 程度等参数,识别出给定时间段内的热门话题。利用关键字布控和语义分析, 识别敏感话题。2 、倾向性分析,对于每个话题,对每个发信人发表的文章的观 点、倾向性进行分析与统计。3 、主题跟踪,分析新发表文章、帖子的话题是否 与已有主题相同。4 、自动摘要,对各类主题,各类倾向能够形成自动摘要。5 、 趋势分析,分析某个主题在不同的时间段内,人们所关注的程度。6 、突发事件 分析,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测 事件发展的趋势。7 、报警系统,对突发事件、涉及内容安全的敏感话题及时发 现并报警。8 、统计报告,根据舆情分析引擎处理后的结果库生成报告,用户 可通过浏览器浏览,提供信息检索功能,根据指定条件对热点话题、倾向性进 行查询,并浏览信息的具体内容,提供决策支持。 其次是自动信息采集功甜训。现有的信息采集技术主要是通过网络页面之 间的链接关系,从网上自动获取页面信息,并且随着链接不断向整个网络扩展。 目前,一些搜索引擎使用这项技术对全球范围内的网页进行检索。舆情监控系 7 北京邮电大学硕七学位论文文奉倾向性分析在舆情监控系统中的应用研究 统应能根据用户信息需求,设定主题目标,使用人工参预和自动信息采集结合 的方法完成信息收集任务【2 0 1 。 第三是数据清理功能弘u j 。对收集到的信息进行预处理,如格式转换、数据 清理,数据统计。对于新闻评论,需要滤除无关信息,保存新闻的标题、出处、 发布时间、内容、点击次数、评论人、评论内容、评论数量等。对于论坛b b s , 需要记录帖子的标题、发言人、发布时间、内容、回帖内容、回帖数量等,最 后形成格式化信息。条件允许时,可直接针对服务器的数据库进行操作瞄o l 。 舆情监控系统的核心技术在于舆情分析引擎,涉及的最主要的技术包括文 本分类、聚类、观点倾向性识别、主题检测与跟踪、自动摘要等计算机文本信 息内容识别技术l z o 。这些技术一向是国内外信息工作者关注的领域。文本检索 会议( t r e c ) 、情报检索专业组会议( s i g i r ) 、文本检测与跟踪会议( t d t ) 等都是 展示此类技术最新研究成果的最主要的国际会议和论坛。其中基于关键词统计 分析方法的技术相对比较成熟,但在其有效性方面还有很大的提高空间。 近年来,专家学者一直在研究更加有效的方法,其中基于语义的内容识别 方法是当前研究的重中之重,虽然也取得了较大进展,但仍存在很多问题和困 难需要克服。为了增加我国网络信息控制能力,我们必须迎难而上,加强相关 技术的研究。 2 3 网络舆情监控系统的体系结构 从整体结构上看,实现舆情分析预警至少应包括:数据信息采集、统计挖 掘预测、结果展示三个阶段【2 1 1 。如下图所示: 8 北京邮电大学硕士学位论文 文本倾向性分析在舆情监控系统中的应用研究 醪_ 咐 图2 - 1 舆情监控预警系统结构 2 4 网络舆情语料采集 一孕 萄警 一r j 飞蠹 网络舆情语料采集可以分为以下几种途径: ( 1 ) 基于网页抓取的采集 基于网页抓取的采集是舆情语料采集的主要手段,采集的对象包括各种网 络媒体的网页,如门户网站、论坛、博客等。内容采集又可分为基于文本的采 集和基于多媒体信息的采集。基于文本的采集过程包括网络抓取,f i t m l 内容 解析、提取;多媒体的信息采集通常采用的方法为关联规则法和特征提取法。 在采集之后采用数据抽取和转换的方法将非结构化的多媒体信息转化或映射为 结构化的数据结构,然后再进行下一步的分析工作。这种方法的优点是采集的 舆情语料比较全面,能够从整体上反映一个时期网民的舆情情况;缺点是采集 周期比较漫长,网页过滤、内容抽取工作比较复杂。 ( 2 ) 搜索引擎方法 通过对指定话题( 关键词) 进行自动化的搜索,根据搜索获得的结果( u r l 信息、内容信息) 进行下一步的网页抓取或者语料整理分析。这种方法的优点 是能够快速有效的获取指定话题的舆情语料,过滤、提取方法简便;缺点是难 以进行话题发现,需要用户指定一组关键词,才能进行反复的自动搜索,抓取。 9 北京邮电大学硕士学位论文文本倾向性分析在舆情监控系统中的应用研究 2 5 热点发现理论 热点 网络舆情中的热点指的是:在某一段时间里,多次反复出现关于一个话题 内容的新闻、讨论。这里的话题的表现形式多种多样,可以是网页中的新闻评 论,可以是论坛留言板中的帖子和跟帖,也可以是博客中的文章和留言。总之, 这里的热点在网络中是通过各种各样的文字性的描述所共同表达的一个相同的 主题内容。网络舆情中的热点问题多数是网民对现实生活中某些热点、焦点问 题所持的有较强影响力、倾向性的言论和观点。由于互联网具有虚拟性、隐蔽 性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表 达观点,传播思想。 热点发现 热点发现为用户提供了指定时间和范围的话题和事件的热点发现功能,并 且为用户提供热点事件的关键字、摘要,相关链接等信息。这里的时间限定表 明了热点信息的时效性,而指定的搜索范围则表明了在处理热点发现问题的时 候应该考虑对事件进行必要的分类和索引。 目前较为有效的热点发现算法本质上来说是数据挖掘中的文本聚类算法。 聚类是根据数据的不同特征,将其划分为不同的数据类。它的目的是使得属于 同一类别的个体之间的距离尽可能小,而不同类别上的个体之间的距离尽可能 大哗j 。聚类算法的执行结果与文本聚类算法本身的特性以及算法应用中的各种 阈值的设置密切相关。 文本聚类是文本挖掘中的一个重要内容,主要应用于加速检索过程、对搜 索引擎检索结果聚类呈现、话题的自动发现等方面。 聚类分析的方法有很多,主要方法可以分为层次聚类、分割聚类、密度型 聚类、网格型聚类和模型聚类等几种。采用不同的聚类方法,对于相同的记录 集合可能有不同的划分结果。一些聚类算法集成了多种聚类方法的思想,所以 有时将某个聚类算法分类是很困难的。某些应用可能要求多个聚类技术。在网 络舆情分析领域,聚类算法能有效的将内容相近或相似的主题聚合到一个簇, 进而从大量舆情语料中发现热点话题。 1 0 北京邮电大学硕士学位论文 文本倾向丝坌堑在舆情监控系统中的应用研究 第三章网络舆情监控系统设计 本文设计了一个网络舆情监控系统,原型系统基本实现了对“主题文章评 论 格式的舆情语料的倾向性分析、主题文章聚类,舆情关键点发现等功能。 3 。1相关工具介绍 3 1 1 抓取工具一h e r i t r i x 本文采用h e r i t r i x 和h t m l p a r s e r 作为获取舆情语料的辅助工具。 h e r i t r i x 是一个由j a v a 开发的、开源的、互联网级的w e b 网络爬虫,用户 可以使用它获取各种互联网上的资源,h e r i t r i x 是一款严格按照r o b o t s t x t 文件 的排除指示和m e t ar o b o t s 标签来抓取资源的软件k o j 。它的主页是 h t t p :c r a w l e r a r c h i v e o r g 。h e r i t r i x 的强大之处在于它的可扩展性,开发者可以 随心所欲地扩展h e r i t f i x 的各个组件,来实现自己的抓取目标。下图就是h e r i t r i x 的运行之后的界面。 qh t + p ,1 2 70o18 r 3 0 0 i n d e xjx p 址正夏毯:一t a n t s a s0 f 詈巡嵝= 恶灿3 、呐l e l t s 出:n o a l e r t s a , h l t mc o n s o l e 0j o b s 丝她3 盟磐超幽4u r i si n7 s ( 00 s e c ) ( ia w l e ls t a 吣c i l w l i n ( ;j o b sl h o l d j o b s r l 峨b y r - j o b - b r o a d 0w a d i n e 3c o m p l e t e d 姐e i t sq ( q n 亟 j o bs t a t u s :r u n i 、 n gj | q 墼唑 t e r m m a t e r a t e s o0 u r i s ,s c c f 00a v e = ) 0y 强l s e c ( 0a v e = ) t u n e 7 se l a p s e d 1 5 sr f l a 曲叽g ( e s l a m a t e d ) t o t a k a l e m o r v 7 8 5 8 k bu s e d 11 8 0 0e bc u r r e n th e a p 6 5 0 8 8 k b n m h e a p l o a d 4a l 血v eo f 2 0t h r e a d s 10c o n g e s t i o nr 幽o 0d e e p e s tq u e u e 0a v e r a g ed e p f l a shutd o w nj j e n t n xs o f t v , , a r e | :! ! ! 1 n i d e n n 丘e ro r ga r c h t v ec r v l e rh e n m x 图3 - 1h e r i t i r x 的运行控制台 北京邮电人学硕士学位论文 文本倾向性分析在舆情监控系统中的应用研究 用户在控制台上面进行对任务的启动、停止等操作,还可以查看任务的执 行状态。h e r i t r i x 还有j o b s 、p r o f i l e s 、l o g s 、r e p o r t s 、s e t u p 等标签页,分别完 成抓取任务管理、任务模板管理、日志管理、抓取报表管理、系统设置等功能。 h e r i t r i xw e b 信息采集系统采用了模块化的设计方案。可以在运行时通过应 用界面设定使用的模块1 2 6 1 。开发者如果希望h e r i t r i x 按照自己指定的方式运行, 只需要重新编写对应的模块或者在原来的模块上进行扩展。 3 1 。2 网页解析工具一h t m ip a r s e r h t m l p a r s e r z t l 是一个开源的h t m l 解析j a v a 库。它在不依赖于任何第三方 j a v a 库的情况下,提供接口,支持线性和嵌套地解析h t m l 文本。它的主页是 h t t p :h i t m i p a r s e r s o u r c e f o r g e n e t 。h t m l p a r s e r 主要用于分析和提取h t m l 页面中 的内容。h t m l p a r s e r 能高速解析h t m l ,而且容错性能很好,支持解析网络 h t m l 。h t m l p a r s e r 是目前最优秀的h t m l 解析和分析工具之一弘剐。 h t m l p a r s e r 提供了一系列访问本地h t m l 文件和网络h t m l 资源的a p i 。 它们分为2 个层次,分别封装在h t m l l e x e r j a r 和h t m l p a r s e r j a r 中i 铡。h t m l l e x e r j a r 提供底层的接口,它负责访问h t m l 中的文本、注释、标签等节点,并把它们 转换成线性的节点。h t m l p a r s e r j a r 包含了h t m l l e x e r j a r ,它封装了底层的访问节 点的方法,以树形结构返回所有节点。 h t m l p a r s e r 依靠n o d e 、a b s t r a c t n o d e 、t a g 、r e m a r k 、t e x t 等元素来表达 h t m l 。n o d e 接口是形成树结构表示h t m l 的基础,所有的数据表示都是接口 n o d e 的实现,n o d e 主要定义了操作节点树的方法、定位节点的过滤方法以及 v i s i t o r 访问机制。a b s t r a c t n o d e 是n o d e 接口的一种具体的类实现,起到构成树 形结构的作用,除了同具体n o d e 相关的a c c e p t 方法,t o s t r i n g ,t o h t m l , t o p l a i n t e x t s t r i n g 方法以外,a b s t r a c t n o d e 实现了大多基本的方法,使得它的子 类,不用理会具体的树操作。t a g 是具体分析的主要内容。t a g 分成c o m p o s i t e 的t a g 和不能包含其他t a g 的简单t a g 两类。r e m a r k 表示网页中的注释元素; t e x t 代表了网页中的文字。n o d e 有三种类型:r e m a r k n o d e 、t a g n o d e 、t e x t n o d e 分别代表h t m l 中的注释、标签节点、文本节点。 h t m l p a r s e r 提供了两种访问节点的模式:v i s i t o r 模式和f i l t e r 模式。v i s i t o r 模式主要用于遍历整个节点树,按照节点类型对节点采取一些动作。h t m l p a r s e r 的v i s i t o r 包已经实现了一些n o d e v i s i t o r 类,用于遍历节点并执行一系列操作, 开发者还可以设计的n o d e v i s i t o r ,只需要继承n o d e v i s i t o r ,然后实现相应的接 1 2 北京邮电大学硕士学位论文 文本倾向性分析在舆情监控系统中的应用研究 口就可以了。f i l t e r 模式的设计目的很明确,就是按照一定的过滤条件定位节点, 提取信息。h t m l p a r s e r 定义了1 7 种具体的f i l t e r ,包括依据节点父子关系的f i l t e r , 连接f i l t e r 组合的f i l t e r ,依据网页内容匹配情况的f i l t e r 等。开发者也可以开发 自定义的f i l t e r 来提取节点。h t m l p a r s e r 为我们提供了非常方便的h t m l 解析方 式,针对不同的应用可以采用v i s i t o r 方式来遍历h t m l 节点提取数据,也可以 用f i l t e r 来过滤节点,提取出我们所关注的节点,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论