已阅读5页,还剩53页未读, 继续免费阅读
(通信与信息系统专业论文)基于网络研判的高校群体突发事件预警平台的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要:随着经济发展的不断深入,我国进入了社会发展的转型期。这一时期内, 社会矛盾凸显,社会利益急剧调整,容易对大学生群体的思想、信念造成冲击和 动摇。当代大学生具有较强的自我意识和很强的参与社会的愿望。如果其愿望、 诉求得不到表达,或者受到压制,容易产生过激行为,进而导致群体事件的发生, 影响高校及社会的正常秩序。高校是社会的窗口,大学生是国家的未来,有效预 防高校群体突发事件因此显得尤为重要。群体事件通常具有一定的组织性,事前 会出现大量的相关舆情信息。网络的深入普及和发展使网络成为舆情传播的新载 体。为了能及时有效的掌握舆情态势,就需要建设基于网络舆情研判的高校群体 事件预警平台。 本文以b b s 论坛、博客、具有评论功能的新闻网站为研究对象,通过提出集 成了舆情信息采集、内容分析、话题提取、趋势预测、预警发布等多种技术的群 体事件预警平台实现方案,为分析网络舆情、预防群体事件发生提供有益的思路 和探索。对群体事件的预警是建立在分析网络舆情信息、提取热点话题、预测话 题热度趋势、对预测结果与群体事件样本数据进行规则匹配的思路之上。 本论文的主要成果有:提出了基于网络研判的高校群体突发事件预警平台的 总体设计方案;实现了基于页面文档相似性分析、链接分析的面向主题的聚焦爬 虫,链接分析中应用了网络的无标度特性;设计了告警发布子系统的实现方案, 并基于a r i m a 模型实现了话题趋势预测模块,提出基于规则引擎的预警生成模块 方案并实现,为高校突发事件预警平台的实现提供了思路。 关键词:网络舆情分析;高校群体突发事件;聚焦爬虫;链接分析;a r i m a 模型 分类号:t p 3 1 9 1 1 1 a bs t r a c t a b s t r a c i w i t ht h ed e e p e n i n go fe c o n o m i cd e v e l o p m e n t ,s o c i a ld e v e l o p m e n to fo u rc o u n t r vh a s e n t e r e dap e r i o do ft r a n s i t i o n i nt h i sp e r i o d ,v a r i o u sc o n t r a d i c t i o n s o fs o c i e t yg e t h i g h l i g h t e da n de x p o s e d ;t h ei n t e r e s t so ft h ec o m m u n i t ya r eo u to fp r o p o r t i o na n d m a k i n gr a p i da d j u s t m e n t i t se a s yt o g e tm a s su n d e r g r a d u a t e st h o u g h ta n df a i t h s h o c k e da n db u d g e d u n d e r g r a d u a t es t u d e n t so ft h ec u r r e n tg e n e r a t i o np o s s e s ss t r o n g s e l f - a w a r e n e s s ,b u ta l s oh a v es t r o n gd e s i r e st op a r t i c i p a t ei ns o c i a la f f a i r s h o 、e v e r i f t h e yc a n te x p r e s st h e i ra p p e a la n dd e s i r e ,o rg e ts u p p r e s s e d ,i tw o u l d e a s i l yl e a dt h e s t u d e n t st oa c ti r r a t i o n a lb e h a v i o r , e v e nt ot h eo c c u r r e n c eo fm a s sc r i s i s ,w l l i c hw o u l d i m p a c tt h en o r m a lo r d e ro fc o l l e g e sa n do u rs o c i e t y c o l l e g e sa n du n i v e r s i t i e sa r et h e w i n d o wo fo u rc o m m u n i t y , a n ds t u d e n t sa r et h ef u t u r eo fo u r c o u n t r y t h e r e f o r e ,i ti s p a r t i c u l a r l yi m p o r tt oe f f e c t i v e l yp r e v e n tm a s su n d e r g r a d u a t ei n c i d e n t sf r o mh a p p e n i n g t h em a s sg r o u pi n c i d e n t sa l lh a v ec e r t a i ns e n s eo f o r g a n i z a t i o n , s ot h e r ew i l lb ea l o to fr e l a t e dp u b l i co p i n i o ni n f o r m a t i o n a n dw i t ht h ed e e p e n i n ga n dd e v e l o p m e r i to f i n t e r a c t ,i th a sb e c o m ean e wk i n do fv e c t o r - b o r n ef o rp u b l i c o p i n i o n i no r d e rt o a c q u i r et h et r e n da n ds i t u a t i o no fp u b l i co p i n i o n ,i ti si n t e n s i v e l yd e m a n d e dt h a tt h e c o n s t r u c t i o no fw e b a n a l y s i sb a s e d p r e - w a r n i n gp l a t f o r mf o rm a s su n d e r g r a d u a t ec r i s i s t h i st h e s i st a k e sb b s ,b l o g ,n e w ss i t e sw i t hc o m m e n t a r yf u n c t i o na si n v e s t i g a t e d s u b j e c t s ;p r o p o u n d sas c h e m ef o rm a s sg r a d u a t ec r i s i s p r e - w a r n i n gp l a t f o r m ,w h i c h a p p l ya n di n t e g r a t eav a r i e t yo ft e c h n i q u e ss u c ha sp u b l i co p i n i o ni n f o r m a t i o nc o l l e c t i o n , c o n t e n ta n a l y s i s ,t o p i ce x t r a c t i o n ,m e c h a n i s mo f e a r l yw a r n i n g ,e t c i ta l s op r o v i d e st h e u s e f u li d e a sa n de x p l o r a t i o nf o ra n a l y s i so fp u b l i co p i n i o na n de a r l yw a r n i n go fm a s s g r o u pi n c i d e n t s b e f o r em a k i n ge a r l yw a r n i n g ,i tt a k e sp r o c e s s e so ft h a ta n a l y s i so f p u b l i co p i n i o n ,h o tt o p i ce x t r a c t i o n ,f o r e c a s t i n gf o rt r e n do fh o tt o p i c ,p a t t e r nm a t c h i n g f o r e c a s tr e s u l t sw i t hs a m p l ed a t a t h em a i nr e s u l t si nt h i st h e s i si n c l u d e :t h ep r o g r a md e s i g no ft h ew h o l es y s t e m ; r e a l i z a t i o no fs u b j e c t - o r i e n t e df o c u s e dc r a w l e rw h i c hb a s e so np a g es i m i l a r i t ya n a l y s i s a n dh y p e r l i n k sa n a l y s i s ,a p p l y i n gt h ep r o p e r t i e so fs c a l e f r e en e t w o r ki n h y p e r l i n k s a n a l y s i s ;g i v i n gt h er e a l i z a b l ep r o g r a mo fp u b l i co p i n i o na l a r ms u b s y s t e m ;t h e r e a l i z a t i o no fa r i m ab a s e dt o p i ct r e n d sf o r e c a s tm o d u l e ;p r o p o s i n gt h ed e s i g na n d r e a l i z a t i o no fp r e - w a m i n gg e n e r a t i o nm o d u l eb a s e d0 1 1r u l e se n g i n e a l lo ft h ei d e a s p r o v i d e d a b o v et i t l e h e l p f u l f o rt h er e a l i z a t i o no fm a s s u n d e r g r a d u a t e c r i s i s e a r l y - w a r n i n gp l a t f o r m k e y w o r d s :n e t w o r kp u b l i c o p i n i o na n a l y s i s ;m a s su n d e r g r a d u a t ec r i s i s ; h y p e r l i n ka n a l y s i s ;f o c u s e dc r a w l e r ;a r i m am o d e l c l a s s n o :t p 31 9 v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除 了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也 不包含为获得北京交通大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的 同志对本研究所傲的任何贡献均已在论文中作了明确的说明并表示了谢意。 学位论文作者签名: 5 3 7 日 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名: 签字日期:卟参月7 日 豸月 毛年 垅1 叫 名 期 签 日 再:- 7 一 师 字 导 签 致谢 本论文的工作是在我的导师毕红军副教授的悉心指导下完成的。在此,我首 先要对毕红军老师两年来对我的关心、教育和培养说声:谢谢您! 在我攻读硕士 学位期间,毕老师干练的工作作风、深厚的学术功底、严谨的治学态度无时无刻 不在激励着我树立远大的人生目标、向更高的水平迈进。毕老师对我严格要求, 锻炼和培养了我在学习和工作上的独立能力,我取得的每一点进步都凝结着毕老 师的心血和汗水,在此衷心感谢毕老师。 还要感谢刘云教授,刘老师对工作高度的责任感、对学术的热情令我深深折 服,也令我学到很多为人处世的道理。张振江老师在论文的写作阶段为我提出了 建设性意见,对张老师的付出表示感谢。 李勇老师对我的论文提出了宝贵的修改意见,十分感谢李老师对我的指正。 孟嗣仪老师也对我的科研工作给予过指导,在此表示感谢。 在实验室工作及撰写论文期间,熊菲、程辉和张珏等同学对我论文中聚焦爬 虫和话题趋势预测的研究工作给予了热情帮助,在此向他们表示感谢。还要感谢 何震、郑浩、张树魁、刘毅、井雅、薛琛璋、徐禄军等同学,很高兴与他们共渡 两年时光。 衷心感谢父母对我的养育和支持,他们的付出使我能在学校里专心完成学业。 最后,感谢百忙中为我评阅论文的专家和老师,感谢所有关心和帮助过我的 人! 1 引言 1 1 研究背景及意义 高校为我们的国家和社会培养和输送着人才,在我们的社会生活中扮演着重 要的角色。尽管高校一直被称作“象牙塔,但并不是社会里的孤岛,高校与国家 政治、社会生活关系紧密相关,是反映和观察整个社会的一个重要窗口,而且是 社会上各种思想与矛盾的交汇点。 在任何一个现代社会,都会有不同程度的高校学生群体集会、示威、游行出 现。群体事件的出现,是学生们针对某些事件的情绪与态度的宣泄与表达。如若 管理部门反应不及时、处理不当,未能有效控制其发展,突发的群体事件将影响 到高校或社会的正常秩序,甚至有可能从高校学生的群体事件演变成群体危机, 并扩大和影响到更广泛的阶层,与社会和政府发生冲突。 在以往发生的高校群体事件中,规模和影响较大的如,1 9 9 9 年5 月的抗议美 国、北约轰炸我驻南大使馆的大规模学生运动,又如2 0 0 1 年南海撞机事件引发的 京、沪等九大城市大学生抗议游行,2 0 0 5 年4 月出现的反日本右翼势力的大规模 学生游行。这些大规模的学生事件,在社会上产生了广泛而深刻的影响。相比之 下更常见的是,因学校的规章制度中的某些条款不合理,或公共设施不到位,而 引起学生的不满和反感。当情绪积累到一定程度时,微小的刺激也可能引起学生 的强烈反应,出现在学校范围内的罢餐、罢课、对抗学校的管理制度等情况。其 影响虽不会直接波及到社会,但也干扰了学校的正常秩序、学生的正常生活。 因此,如何有效预防高校突发群体事件,不仅是当前我国管理科学领域的热 点和焦点之一,也是网络舆情分析工作的研究课题之一。 群体性事件通常具有一定的组织性,因而发生前会出现较集中的舆论信息, 较传统的方式如通过传单、公告、通知或者凭口头传播。相应的舆论监管工作也 集中在这些媒介中。现在越来越多的人在互联网上交流、共享信息,互联网已成 为新兴的信息平台,成为舆情的新载体。网络深入社会生活的各个领域,高校中 的网络应用则更为活跃。校园内部的b b s 、网络社区成为了大学生发表意见、参 与讨论的重要场所。传统的监管工作方式已经不能适应和满足实际的需求。为了 更好地掌握网络舆情的态势,监管工作需要应用信息化手段收集、分析、处理网 络舆情信息,才能发现可能出现的群体事件或掌握已发生的群体事件发展态势。 根据上述分析,本文提出建立信息化的高校群体突发事件预警平台。该平台 能针对选定主题收集、分析、处理舆情信息,提取热点话题,预测话题发展趋势, 并对过热话题做出预警,以便学校监管部门做出及时反应,避免因网络热议话题 引发群体性事件。 1 2 国内外研究现状 高校群体事件是大学生群体危机的一种表现形式,属于公共危机管理的范畴。 这方面的研究源自2 0 世纪9 0 年代系统安全和非传统安全理论的出现,目前国内 外在该领域的研究都处于初步阶段。国外关于大学生群体事件的研究,主要集中 特定的具体案例,结论缺乏普遍性意义,欠缺系统性的分析和研究。我国学者对 高校群体事件的研究起步则相对更晚,而且研究者多从各自的专业背景来分析事 件的成因、特点及预防控制策略,取得了一定成果,但缺乏理论性与实践性结合 相对较好的成果。 对于舆情的影响力,我国自古就有“防民之口甚于防川之说,如今舆情更 是各国政府关注的重点、学者研究的焦点。而随着网络舆情对社会的影响力越来 越大,网络舆情成为了舆情研究的新热点。国内外学者对网络舆情的研究包括舆 情信息的采集和处理、话题发现和提取、话题趋势预测、网络舆论的演化和引导, 以及群体性事件中网络舆情的演化与作用。研究中综合运用了网络、经济学、情 报学等多学科领域的理论和技术,取得了一定的研究成果,并出现了商用网络舆 情分析软件。但无论是理论成果还是技术创新,如理论的指导性和系统性、应用 技术的性能,都需要进一步的提高和成熟。 网络舆情已经成为群体性事件发展演变的一个重要因素,国内外学者的研究 多集中于网络舆情在群体事件中的表现及作用,国内学者更着眼于如何控制与引 导群体性事件后的网络舆情,以及对建立相关政策、制度的研究。 1 3 论文的主要工作及组织结构 论文分为六章,组织结构如下。 第一章:引言。介绍论文所选课题的研究背景、意义,国内外研究现状,并 给出本篇论文的组织结构。 第二章:高校群体突发事件与校园网络舆情概述。本章主要介绍了高校群体 突发事件的特点及影响、校园网络舆情、网络研判,以及网络研判在网络舆情分 析中的应用。 第三章:高校群体突发事件预警平台设计。本章主要阐述了系统的总体设计 2 思路、业务流程、架构设计和系统各主要功能模块功能等内容,之后着重介绍了 网络舆情信息研判模块和话题趋势预测模块的设计方案。 第四章:系统关键技术研究。本章介绍了系统实现时的相关核心技术,包括 聚焦爬取技术、热点话题发现技术和话题趋势预测技术,介绍概念、原理,并研 究相关算法或模型。 第五章:系统关键技术实现。结合第四章,主要介绍了面向主题的聚焦爬虫 和告警发布子系统的方案设计与实现。 第六章:结论与展望。本章对本文所做的工作做出总结,并指出今后的改进 方向。 3 2 高校群体突发事件与校园网络舆情概述 随着网络快速发展和广泛应用,网络已成为新兴的信息交流媒体和平台,相 比传统媒体具有更及时、更主动、更自由等特点。这些特点尤其体现在,当国家 的政策方针、涉及公众利益的事件等出现变化时,网络上通常会很快形成围绕这 些事件的大量舆情。如果舆情不能得到正确引导和控制,势必会在现实世界中寻 找表达和发泄的途径,就有可能导致群体性突发事件的发生。因此,网络成为了 “天然的 舆情信息来源与监控平台。 由于大学生的自身特点,校园网络中的舆情动态更加值得关注,以预防和监 控校园群体事件的发生和发展。 本章将从高校群体突发事件的成因与特点、校园网络舆情、网络研判,以及 应用网络研判分析网络舆情等四个角度展开。 2 1 高校群体突发事件 2 1 1大学生群体特征 大学生群体是一个特殊的社会群体,在具有一般特征的同时,也具有鲜明的 时代特征和自身特点。从社会整体角度上看,当代大学生群体文化程度较高,他 们既积极向上、要求进步,也有涉世未深、易于冲动等特点;他们同时身处社会 大环境,和学校小环境之中,既有参与社会的愿望,也因身处校园而缺乏社会经 验。大学生群体价值取向多元化,关注自我发展,选择更加务实,注重能力培养、 注重人际沟通、注重社会实践等i l j 。 2 1 2大学生群体突发事件成因及特点 大学生群体突发事件是指,在一定社会环境中的大学生群体,在外界压力或 刺激之下,对政府( 高校) 或某种国内外政治、经济、社会行为或现象,产生不 满和骚动,从而可能爆发大规模的集会、游行、示威、静坐或绝食;如果处理不 当,将导致学生采取过激行为,甚至对抗政府,影响社会或高校的正常秩序,构 成超越法律的状态或行为,并且极易引发社会力量卷入,演变为社会危机、政治 危机1 2 1 。 4 大学生群体突发事件既有一般突发事件的偶然性、不确定性等共同特点,又 有大学生群体特点所赋予的独有特性,如公众敏感性、主体活跃性等。若处理不 当,突发事件将会蔓延至校园以外,成为社会问题。其特点有p j : 1 大学生主体的特殊性。大学生在思想上容易冲动,行为具有很强的可塑性, 他们往往会在某些口号的驱动下做出平时无法想象的过激行为。 2 活动参与的群体性。在突发事件的早期,若处理不当,由于同龄人的相同 感受和发达的网络信息渠道,大学生往往会在很短的时间内聚集起来,由最初的 个别学生事件演变发展成群体事件,甚至形成辐射效应,引发更大规模的群体事 件。 3 事件发生的突变性。大学生群体突发事件虽然在发生前可能有些征兆,但 由于实际发生的时间、地点具有一定的不可预见性,而且也超出了正常的高校运 行秩序和师生习惯性的心理承受能力,从而具有突变性和危险性。 4 事件处理的非常规程序性。高校决策者对于学生群体性突发事件的处理时 间、信息和资源都是非常有限的,处理及对应策略往往更多的基于人工判断而不 是科学推理,事件须超常规进行处理。 我国正处在社会发展的转型期( g d p 产值处在1 0 0 0 美元 - - 3 0 0 0 美元的社会 危机高发期区间) 。这一时期,各种矛盾凸现,社会利益调整剧烈,大学生群体的 思想、信念容易受外界因素干扰出现波动。如果其愿望、诉求得不到表达,或者 受到压制,只能寻求其他途径表达,很容易导致群体事件的发生。 任何事情都不会没有任何原因与征兆的突然发生,其原因往往隐藏于工作疏 漏之中。根据新时期维护高校稳定工作体系及机制研究课题组所做的抽样问 卷调查,结果显示:大学生群体在不满意度高( 或压力大) 的情形下,参与群体 事件或学潮的危机倾向会增强1 2 j 。 因此,政府与高校相关部门都应提高警惕,预防大学生群体突发事件的发生。 2 2 校园网络舆情 2 2 1网络舆情概述 网络不再只是单纯承载、交流信息的平台,已经成为新兴的、言论具有更高 自由度的媒体,是各种思想、矛盾的交汇和冲突点。网络上一旦形成错误的舆论 导向,或者虚假、反动的舆论占据优势地位,就极易产生不稳定因素,造成社会 动荡,危害国家安全。所以网络就是我们的舆论阵地,我们要谨慎观察和把握网 络舆情的动态和热点,关注民众通过互联网对政府管理以及现实社会中各种现象、 5 问题所表达的政治信念、态度、意见和情绪;及时应对突发的群体事件,避免其 上升为危机事件。 舆论就是大众对于国家、社会的公开事务表达的观点和意见,而网络舆论则 是大众借助网络平台表达意见;所以,网络舆情就是大众通过互联网针对国家和 社会现实中的问题、现象所表达的观点、态度、意见及情绪的总和。 群体事件,一般指民众以非法的手段或形式聚众表达意愿的群体行为,反应 出部分民众对于管理者作为的不满甚至反对。而群体性事件网络舆情1 4 ,是指民众 以网络为平台,借助电子论坛( b u l l e t i n b o a r ds y s t e m ,b b s ) 、即时聊天工具( i n s t a n t m e s s a g e r ,i m ) 、博客( b l o g ) 、维基百科( w i k i ) 、电子邮件( e m a i l ) 及网络新 闻组( u s e n e tn e w s ) 等用户创建内容( u s e r - c r e a t e dc o n t e n t ,u c c ) 类型网络工 具,围绕可能发生或已发生的群体事件发表评论,所表达出来的观点和态度。 根据中国互联网络信息中心2 0 0 8 年1 月发布的中国互联网络发展状况统计 报告显示,截至2 0 0 7 年1 2 月底,中国网民数量以仅低于美国2 1 5 亿的2 1 亿 位居世界第二。统计结果还显示,我国网民年龄结构不仅更趋于年轻化,而且多 活跃于b b s 、博客、即时通信及具有评论功能的新闻类网站。 目前,利用网络组织、策划群体性事件,或炒作已发生的群体性事件,逐渐 成为群体性事件发展的新动向。网络信息的传播具有多样性、开放性、互动性和 匿名性等特点,传播主体多元化,而且能自由进行,这样相比于传统媒体,网络 传播削弱了“把关功能”,网络舆情常常直接引发群体事件,或将间接地导致群体 事件向恶性方向发展。 2 2 2校园网络舆情特点 大众在u c c 类网络工具发表的话题、提出的观点和发表的意见,将成为网络 舆情的内容基础,而形成中的网络舆情不但会吸引越来越多的舆论关注,而且还 将影响其中的观点、立场的力量对比。 由此,基于网络内容的网络舆情呈现出以下特点: ( 1 ) 网络话题具有突发性,可在短时间内吸引大量讨论: ( 2 ) 网络话题传播迅速,话题会通过网民发散似的传播到其他网站; ( 3 ) 网络热点话题在较长时间内具有较强的吸附力,大量网民会反复地参与 到讨论中; ( 4 ) 网络讨论影响的范围不断的扩大,并反映到人们的日常生活。 网络已经和大学生的生活密不可分。网络在成为大学生学习工具的同时,也 成为其娱乐生活的重要伙伴。上网已占据了大学生生活的相当一部分时间。除了 6 浏览社会中的公共网站之外,校内网站也是大学生浏览的主要站点。 大学生是校园网络的主要参与者,尤其是在校内b b s 、虚拟社区中,表现尤 为活跃。在这壁,大学生可以对自己感兴趣的话题自由发表观点、展开讨论。通 常,社会上的公共事件,如自然灾害、政治决策、经济行为等,以及校园中涉及 到学生利益的事情,都能引起学生们的热烈讨论。在讨论中,学生从不同的角度 和立场表达出自己的观点和立场。在校园网络中所形成的舆情,给我们分析、掌 握大学生的动态提供了良好的信息来源。通过对网络舆情的分析,对其发展给予 及时关注,做出正确反应,我们就能够避免群体事件的发生。 2 3 网络研判 针对校园网络舆情的网络研判工作,是综合的信息搜集和分析过程,通过对 校园内部站点上的舆情信息进行系统地收集、分析、归纳,提取并整理出具有指 导意义的预警性、线索性和资料性的信息或报告。网络研判工作的主要作用是从 基础的、散乱无序的内容中提取专门而有序的综合信息。 网络研判工作中的常用技术,包括信息采集技术和基于网络的内容分析技术。 2 3 1网络舆情信息采集技术 网络在深入我们的生活的同时,我们也变得更加依赖网络。网络上公开的信 息为所有人共享。信息时代的各种信息采集技术为信息的搜集和挖掘提供了便利。 只要运用合适的技术,任何人都能提取到其希望的( 公开) 信息。目前的信息采 集是通过各种搜索引擎来完成。 搜索引擎( s e a r c he n g i n e ) 是应用于互联网,根据一定策略、运用特定的计算 机程序完成互联网信息的自动搜集,经过组织和整理后,提供给用户进行检索的 系统。搜索引擎的功能包括:利用具有自动搜索功能的计算机程序,沿着u r l 构 成的网络拓扑遍历、抓取网页;对抓取的网页经分词、内容过滤、聚类、索引等 处理后存入数据库;接受用户查询,返回符合请求的结果,通常以链接列表的形 式返回。 搜索引擎按工作方式一般分为全文搜索引擎、目录索引类搜索引擎和元搜索 引擎1 5 1 。 全文搜索引擎是真正意义的搜索引擎,具有上述全部功能,常见的此类搜索 引擎有g o o g l e 、a l t a v i s t a 、百度b a i d u 等。全文搜索引擎按搜索结果来源又分为两 种,一种是拥有自己的检索程序( i n d e x e r ) ,俗称“网络爬虫 ( c r a w l e r ) 或“机 7 器人( r o b o t ) 程序,并自建网页数据库,直接从自有数据库中返回查询结果; 另一种则是借用其他引擎的数据库,按自定的算法对搜索结果排序后返回给用户, 如l y c o s 引擎。 目录索引,不属于真正的搜索引擎,其实质是按目录分类的网站链接列表。 用户可直接通过分类目录找到需要的信息。最具代表性的当属y a h o o ! ,此外还有 o p e nd i r e c t o r yp r o j e c t ( d m o z ) 、l o o k s m a r t 、a b o u t 等。 元搜索引擎,在接受用户的查询请求后,调用其他搜索引擎进行搜索,将结 果综合处理后返回给用户。著名的元搜索引擎有i n f o s p a c c 、d o g p i l e 、v i v i s i m o 等。 在返回结果排序方面,有的直接采用来源引擎返回结果的顺序,如d o g p i l e ,有的 则按自定规则重新排列结果,如v i v i s i m o 。 网络爬虫( c r a w l e r ) 是一种能按照链接构成的网络虚拟结构、自动提取网页 的程序,是搜索引擎的重要组成部分。传统的通用爬虫抓取网页是从一个或若干 初始u r l 开始,边抓取网页边从页面中抽取新的u r l 放入抓取队列,达到预定 抓取深度后停止。 聚焦爬虫则更关注抓取结果与主题的相关度和准确性,不以覆盖广度为目标。 其根据既定算法进行页面内容的相似性比较、过滤与主题无关的链接,只保留相 关的u r l 形成抓取队列,爬虫将从队列中选取相似度较高的u r l 作为下次的抓 取对象,重复上述过程,直到达到设定条件时停止。聚焦爬虫的相关技术见本文 第4 章。 目前广泛使用的主流引擎并不能完全满足本文研究系统的要求。为了达到系 统对信息相关性的需求,以及与主题或相关领域的查询需求,需要开发适用于本 系统的面向主题的聚焦爬虫,以获取所需信息。本文在第5 章设计并实现了一种 面向主题的聚集爬虫。 2 3 2网络舆情信息内容分析技术 内容分析技术是成形于二战时期的社会科学类研究方法,是一种基于定性研 究的量化分析法,将用文字表示的原始文献通过一定规则转换为数字表示的资料, 并用统计数字描述分析结果。通过定量分析文献内容,可以找到反映内容本质且 易于统计的关键,因而克服了定性研究的主观性和不确定性等缺点1 6 。 内容分析法在网络时代面临的问题之一是如何判定网络舆情信息的本质及影 响力 6 1 。网络信息的内容品质不等、类型多样、呈非线性结构,而且网络具有的交 互性强等特点,都给网络舆情信息的分析带来了困难。近年来,内容分析法应用 于网络信息的分析,显示出良好的应用前景。 8 网络内容分析技术,就是基于网络技术的、分析对象是网络公共信息的内容 分析技术,主要应用于对网络的内容、结构、使用记录的挖掘和分析中。 1 w 曲内容挖掘( w e bc o n t e n tm i n i n g ) w e b 内容挖掘是从w e b 文档内容中获取有用知识的过程,是挖掘网页上真正 有价值数据的过程,包括网页内容挖掘和搜索结果挖掘。由于网络数据类型多样, 因而w e b 内容挖掘是一种多媒体数据挖掘形式,但通常以对无结构的文本内容进 行挖掘为重点。 2 w e b 结构挖掘( w e bs t r u c t u r em i n i n g ) w e b 结构挖掘是通过分析网页的传入链接和引用链接数量以及对象,挖掘w e b 潜在的链接结构模式,发现w e b 文档间的链接关系,建立w e b 链接的结构模式, 实现网页归类。可以由此获得有关不同网页间相似度及链接关联度的信息。 3 w e b 使用记录的挖掘( w e bu s a g em i n i n g ) w e b 使用记录的挖掘,通过分析w e b 日志数据及相关数据,获取用户的存取 模式、使用习惯等有价值的信息。数据对象包括:网络服务器访问记录、代理服 务器日志记录、浏览器日志记录、用户简介、注册信息等。通常采用存取路径追 踪和专用化追踪来挖掘w e b 使用记录。 由此可见,网络内容分析法能对网络舆情信息的分析处理提供有效的方法支 持。其在网络舆情信息分析中的作用主要体现在三个方面【_ 7 j : 1 描述网络舆情信息:通过内容分析法,我们可以从舆情信息中发现问题的 起源、分析出舆论参与者的情绪和态度等。 2 推论网络舆情信息传播主体的意图、态度和情绪倾向。信息内容在一定程 度上反映了信息生产和传播者的倾向和意图,通过内容分析可以明确网络传播者 的意图和倾向1 8 】。因此,可以认为网络舆情信息在多数情况下真实地表达了网民的 态度和情绪,分析其言论,可以推断其观点和立场。 3 描述和推论网络舆情信息的产生和变化趋势。内容分析可以明确舆情信息 产生者与舆情信息特征之间的关联,这样就可以通过分析舆情信息的特征来查找 舆情信息的来源。此外,利用内容分析法,跟踪一段时间内集中反应某一热点话 题的网络舆情信息,可以得出网络舆情产生、变化和发展的规律或趋势,掌握网 络中的宣传、劝说和诱导性因素对舆情变化的影响。 网络舆情信息内容分析的一般工作流程见图2 1 ,因为建立假设和检验假设不 是所有研究共有的,以虚线表示。 9 一善: l ,产义分析,需i 、j l 一建立分折誊p 。 一 l 。罱化与警簟, 宴一小岳! 图2 - 1 网络舆情信息内容分析工作流程1 8 i f i g u r e2 一lc o m e n ta n a l y s i sp r o c e s s e so fn e t w o r kp u b l i co p i n i o ni n f o r m a t i o n 本文研究的系统就是结合网络舆情采集技术、以内容分析法的工作流程为思 路,设计系统的模块组成及业务流程。 2 4 网络研判在网络舆情分析中的应用 在网络舆情的搜索和分析领域,从相关理论到应用算法,前人已经做出很多 努力,也取得了显著成果。近年出现了专注于舆情搜索和分析的商用软件,如在 2 0 0 5 年4 月,英国媒体曾报道,英国“科波拉软件公司 开发的称为“感情色彩 的软件( 9 1 ,具有判断电子文章基调、态度倾向等功能。又如国内的方正智思舆情辅 助决策支持系统【1 0 1 ,具备话题搜索和跟踪的功能,能自动发现热点、焦点话题。 以及军犬网络舆情监控系统【l l l ,也具有很好的信息采集和数据挖掘功能。 本文研究的基于网络研判的高校突发群体事件预警平台,专注于搜索、分析 校园网络舆情信息;对网络舆情的内容分析,体现在通过分析、处理校园网络舆 情信息,从中提取学生关注的话题、事件,挖掘、统计学生对于这些问题的看法、 态度:发现舆情中的话题热点,预测热点话题的发展趋势,并对过热的话题或可 能发生的群体事件发布预警信息。 l o 2 5 本章小结 本章介绍了大学生群体的特征和高校群体突发事件的成因与特点,校园网络 舆情及网络研判中的应用技术,并简要分析了网络研判在当前网络舆情分析中的 应用状况。 3 高校群体突发事件预警平台设计 3 1 系统总体设计原则 系统的总体设计遵循流程化、标准化和模块化的设计原则,对系统进行功能 模块划分,并注意各功能模块的独立性、松散耦合且接口定义清晰,以使系统具 有较好的灵活性和扩展能力。此外,由于本系统主要面向高校的学生工作管理部 门,在系统设计时注重界面风格友善、信息量充分且组织合理、并易于管理和配 置系统,避免术语对系统使用者造成困扰。 3 2 系统业务流程及架构设计 3 2 1系统业务流程 高校群体突发事件预警平台业务流程设计如图3 1 示: 图3 - 1 系统整体业务流程 f i g u r e3 - 1s y s t e mo p e r a t i o nf l o w 1 2 3 2 2架构设计 依据系统总体设计原则并结合平台业务流程,同时为增强系统的灵活性,系 统采用b s 架构。设计系统框架为典型的三层结构:持久化数据层、业务逻辑层、 前端用户层。系统整体架构设计如图3 2 所示: 营螭用户层 i 堑务逻禽层 l 肆久化最拓展 ,一一一一一一一一、 图3 - 2 系统整体架构设计 f i g u r e3 - 2d e s i g no fs y s t e ma r c h i t e c t u r e 为了保证模块的功能独立及系统的可扩展性,本系统分为五个子系统:舆情 信息采集子系统,由网络舆情采集模块构成:舆情信息分析子系统,由网络舆情 信息研判模块构成:话题提取子系统,由热点话题发现模块和敏感话题提取模块 构成;告警发布子系统,由话题趋势预测模块、预测结果发布接口及预警形成模 块构成;用户管理及系统配置子系统,包括用户权限管理模块、系统管理配置模 块、综合查询模块及系统配置接口和综合查询接口。 系统的核心模块包括舆情信息采集模块、舆情信息研判( 内容分析) 模块、 热点话题发现模块及趋势预测模块。系统的其他功能在图3 2 中也有体现,如系统 的用户权限管理、系统参数配置等功能分别由用户权限管理模块、系统管理配置 模块实现。 系统通过数据接口实现各功能模块之间的互联互通和数据交流,在保证系统 整体功能完整的同时增强了系统的可扩展性和灵活性。当系统的功能组成发生变 化时,只需随之相应调整模块接口即可适应相应的变化。 3 3 系统功能模块 依据3 2 2 节的系统架构图,系统划分为以下功能模块和接口: 1 网络舆情采集模块 固固固回 本模块是系统的基础和数据来源,采集功能主要包括:通用采集和聚焦采集, 及页面内容提取。 1 ) 通用采集,即利用通用爬虫、采取广度优先或其他搜索策略对网络进行爬 取; 2 ) 聚焦采集,利用聚焦爬虫、面向某个主题或领域爬取网络信息; 3 ) 页面内容提取,完成抓取过程中页面的主体文本及引用链接的提取等操作。 2 网络舆情分析研判模块 舆情分析研判功能模块是本平台中的核心模块,是系统中除采集模块外的其 他模块完成功能的基础。分析研判功能主要包括:数据预处理、内容分词和文本 聚类等。 1 ) 数据预处理,对已爬取的页面数据内容进行净化、去冗、格式转化、提取 并格式化有效信息等处理,并比较不同页面、消除因多个爬取线程可能导致的页 面重复; 2 ) 内容分词,按自然语言或分词词典进行分词处理,便于之后的词频统计、 全文索引和综合查询; 3 ) 文本聚类,完成页面文档的聚类处理,所得结果作为热点、敏感话题提取 部分的数据源。 3 用户权限管理模块 系统依据高校学生工作管理部门人员的工作范围、职责等原则,设置、分配 不同的访问权限和操作权限。用户权限的具体划分要适应平台的设计,满足必须 的系统访问及操作权限,从而实现根据用户权限限制用户访问和操作的功能。通 过本模块可以查看、设置用户的角色、权限以及系统使用记录等。 4 系统管理配置模块 关联系统配置接口,通过接口用户可以完成以下操作: 1 ) 根据实际情况和需要,管理、配置系统各功能模块的运行参数,如设定采 集策略、爬取深度,定制热点话题和敏感词语、设定告警规则等; 2 ) 监视、查看系统模块的运行状态; 3 ) 可设置并管理用户组、用户权限等资源,用户管理模块则执行角色权限分 配等操作; 4 ) 查看并管理系统日志、各功能模块的运行日志。 5 综合查询模块 关联综合查询接口,完成定向查询、 信息处理过程中的聚类结果、热度话题、 行查询。主要功能有: 综合查询、联合查询等功能,面向舆情 敏感话题、趋势预测结果及告警信息进 1 4 1 ) 查询条件选择:在分析研判过程中,由于需要其它信息来辅助分析研判, 故需要选择查询条件,来定制辅助分析研判信息; 2 ) 查询请求:综合查询接口把选择后的查询条件发送给综合查询模块; 3 ) 查询结果:综合查询模块根据查询条件取得数据,并把结果返回给综合查 询接口。 4 ) 推送:综合查询接口把接收到的查询结果转送到内容分析模块,完成相应 处理,提取热点、敏感话题,进而考察话题趋势。 6 热点话题发现模块 从3 2 1 节的业务流程图可以看出,本接口从存储聚类结果的数据库中提取数 据,送入热点话题发现模块,进行话题热度评估,最终形成热点话题并保存到数 据库。 7 敏感话题提取模块 本模块的数据来源及流程与热点话题发现相同,通过与敏感词典中的敏感词 进行比较,检验聚类集合中是否包含敏感词,以确定聚类是否为敏感话题。 8 话题趋势预测模块 在3 2 1 节的业务流程图中,趋势预测处于热点提取和敏感发现的下一个流程, 本模块从热点话题数据库中提取数据,根据话题主题在观察时间内的热度数据, 来计算其在未来一定时间内的热度发展趋势,并以数据和曲线图的形式保存结果。 9 预警形成模块 关联预测结果发布接口。预警形成模块通过数据接口,从话题趋势预测模块 获取话题的预测结果,评判结果数据的热度,给出对应等级的告警消息,并对预 测结果和告警消息进行整编形成预警报告,发布到相关学生管理部门。 3 4 网络舆情信息研判模块设计 网络舆情信息研判模块是本系统的核心模块,主要由三个功能模块构成:w e b 数据预处理模块、内容分词模块和文本聚类模块。本模块的功能架构如图3 - 3 示。 1 5 信息采集接口 弋夕 厂 搠络舆博信息 、 研刿模块 。每 孽譬鼍。三i ;牌一 ( 鬻 妙妙妙 l 激最。 譬亨询期【:警鬟詈 图3 3 网络舆情信息研判模块功能架构 f i g u r e3 - 3s t r u c t u r eo fn e t w o r kp u b l i co p i n i o ni n f o r m a t i o na n a l y s i sm o d u l e 用户可以通过综合查询接口可以查询其感兴趣的话题关键字的聚类结果,热 点话题发现模块、敏感话题提取模块通过各自
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2026年高一历史(知识归纳)下学期期末测试卷
- 2025年大学生态学(生态系统结构)试题及答案
- 深度解析(2026)《GBT 18311.4-2003纤维光学互连器件和无源器件 基本试验和测量程序 第3-4部分检查和测量 衰减》
- 深度解析(2026)《GBT 18247.7-2000主要花卉产品等级 第7部分草坪》(2026年)深度解析
- 深度解析(2026)《GBT 18140-2000信息技术 130 mm盒式光盘上的数据交换 容量每盒1 G字节》
- 深度解析(2026)《GBT 17768-1999悬浮种衣剂产品标准编写规范》
- 深度解析(2026)《GBT 17625.9-2016电磁兼容 限值 低压电气设施上的信号传输 发射电平、频段和电磁骚扰电平》(2026年)深度解析
- 共享平台运营数据分析规则
- 青海交通职业技术学院《城市生态与城市环境》2025-2026学年第一学期期末试卷
- 安徽国际商务职业学院《西方音乐名作鉴赏》2025-2026学年第一学期期末试卷
- 小班美术《漂亮的帽子》课件
- 玉米高产栽培技术-课件
- 复合肥ISO9001认证程序文件
- 焊接记录表格范本
- 《印刷工艺》4 印刷报价
- 水泥窑用耐火浇注料施工环节的控制.课件
- GB/T 5976-2006钢丝绳夹
- GB/T 35513.1-2017塑料聚碳酸酯(PC)模塑和挤出材料第1部分:命名系统和分类基础
- 高速公路桥梁施工作业指导书
- 小学数学西南师大二年级下册二千米的认识 长度单位的整理与复习
- 《卓越领导力》课件PPT充分完整
评论
0/150
提交评论