(计算机软件与理论专业论文)舆情监控关键技术研究与系统实现.pdf_第1页
(计算机软件与理论专业论文)舆情监控关键技术研究与系统实现.pdf_第2页
(计算机软件与理论专业论文)舆情监控关键技术研究与系统实现.pdf_第3页
(计算机软件与理论专业论文)舆情监控关键技术研究与系统实现.pdf_第4页
(计算机软件与理论专业论文)舆情监控关键技术研究与系统实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

a b s t r a c t ab s t r a c t a l o n g w i t h t h e d e v e l o p m e n t o f i n t e rn e t , t h e n u m b e r o f i n t e rn e t u s e r i n c r e a s e s r a p i d l y a n d w e b s i t e f u n c t i o n e x t e n d s . a l s o , t h e m e t h o d o f i n t e rn e t u s a g e i s d e v e l o p i n g , fr o m i n f o r m a t i o n a c c e s s i n g t o c o n t e n t c r e a t i o n . i n t e rne t i s b e c o mi n g a c e n t e r o f n e w s , i n f o r ma t i o n d i s t r i b u t i o n , e v e n p u b l i c f e e l i n g s . h o w t o m o n i t o r t h e h o t t o p i c o n i n t e rn e t a n d g u i d e t h e d i r e c t i o n o f p u b l i c f e e l i n g s h a s b e c o m e m o r e a n d m o r e im p o r t a n t . r e s e a r c h o f i n t e rne t p u b l i c f e e l i n g s m o n i t o r in g h a s i m p o r ta n t s e n s e t o t h e s e c u r i t y a n d s t a b i l i t y o f a c o u n t ry . i n t e rn e t p u b l i c f e e l i n g s m o n i t o r i n g s y s t e m ( i p f m s ) i m p l e m e n t s t h e o p i n i o n m o n i t o r i n g b y o b t a i n i n g , c l a s s i f y in g m a s s i n f o a u t o m a t i c a l l y fr o m i n t e r n e t a n d f o c u s i n g o n s p e c i a l t o p i c . w i t h s u p p o r t o f i p f ms , r e l a t e d o r g a n i z a t i o n c o u l d g e t g u i d e f o r o p i n i o n d i r e c t i o n a n d m a k e d e c i s i o n r a t i o n a l l y . a l s o , w i t h t h e h e l p o f m a n u a l m o n i t o r i n g s y s t e m , e a r l y w a r n i n g m e c h a n i s m f o r q u i c k r e s p o n s e c o u l d b e b u i l t b y i p f m s . t h i s p a p e r r e s e a r c h t h e s t a t u s o f p u b l i c f e e l i n g s m o n i t o r i n g , a n a l y z e s t h e n e c e s s i t y a n d e s s e n t i a l i t y p u b l i c f e e l i n g s m o n i t o r i n g . p a p e r a l s o d i s c u s s e s t h e s t a t u s a n d s h o r t a g e o f e x i s t i n g p u b l i c f e e l i n g s m o n i t o r i n g t e c h n o l o g y . t h i s p a p e r r e s e a r c h e s t e x t c a t e g o r i z a t i o n , w h i c h i s t h e k e y t e c h n i q u e t o p u b l i c f e e l i n g s m o n i t o r i n g i n p a rt n e t w o r k . f r o m t h e p e r s p e c t i v e o f t e r m e x t r a c t i o n , p a p e r i m p r o v e s t h e e ff e c t o f t e x t c a t e g o r i z a t i o n w i t h t h e i m p r o v e d d f m e t h o d . e x p e r i m e n t s p r o v e d t h a t , t h e i m p r o v e d m e t h o d d e c r e a s e t h e n u m b e r o f t e r m , i m p r o v e s t h e e ff e c t o f t e x t c a t e g o r i z a t i o n w i t h l e s s t e r m d i m e n s i o n s . a c c o r d i n g t o t h e d e m and o f n e t w o r k m o n i t o r i n g , p a p e r b r i n g s f o r w a r d t h e t w o l a y e r s m o n i t o r in g m e t h o d : fi l t e r t h e i r r e s p e c t i v e c o n t e n t w i t h k e y w o r d m a t c h i n g , t h e n d e a l w i t h t h e c o n c e rn e d c o n t e n t w i t h t e x t c a t e g o r i z a t i o n , w h i c h s p e e d s u p t h e m o n i t o r i n g s y s t e m . b e c a u s e w e b s i t e s t y l e d i ff e r s fr o m e a c h o t h e r , s e tt in g u p i n d i v i d u a l c l a s s i f i e r f o r d i ff e r e n t w e b s i t e w i l l i m p r o v e t h e m o n i t o r i n g e ff e c t i n p r a c t i c e a t l as t , t h i s p a p e r d e s i g n s a p r o t o t y p e s y s t e m a n d i m p l e m e n t s b a s i c f u n c t i o n . k e y w o r d : p u b l i c f e e l i n g s m o n i t o r i n g , t e r m e x t r a c t i o n , t e x t c a t e g o r i z a t io n 南开大学学位论文版权使用授权书 本人完全了 解南开大学关于收集、 保存、 使用学位论文的规定, 同意如下各项内 容:按照学校要求提交学位论文的印刷本和电 子版 本; 学校有权保存学位论文的印刷本和电 子版,并采用影印、 缩印、 扫描、 数字化或其它手段保存论文; 学校有权提供目 录检索以 及提供 本学位论文全文或者部分的阅览服务; 学校有权按有关规定向国家 有 关部门或者机构送交论文的复印件和电 子版; 在不以赢利为目 的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名: 年月日 经指导教师同意, 本学位论文属于保密, 在年解密 后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年月日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下, 进 行研究工作所取得的成果。 除文中已 经注明引用的内容外,本学位 论文的 研究成果 不包含任何他人创作的、己公开发表或者没有公 开 发表的作品的内容。对本论文所涉及的研究工作做出 贡献的其他个 人和集体, 均已 在文中以明 确方式标明 。本学位论文原创性声明的 法律责任由本人承担。 学位论文作者签名: 年月日 第一章 绪论 第一章 绪论 第一节 研究背景与意义 自 从人类社会出现以来,任何一项技术革命的出现都对社会产生正负两方 面的影响。互联网技术的出现及网络媒体的发展,从一开始就表现出矛盾的双 重性。一方面它对信息的传播,特别是一些重大新闻事件和突发性的报道中, 表现出 传统媒体无法与其相比的优势: 快捷、 信息的多源 ( 便于受众比 较) 、互 动,让受众可以参与对事件的评论,发表自己的意见,引导和影响社会舆情的 发展.另一方面,由于绕过了传统媒体运作的“ 议程设置” 、 “ 把关人” 等程序, 分散了舆论, 特别是涉及色情、煽情及暴力等低俗恶俗消息的充斥,及一些流 言、谣言和虚假信息的蔓延又影响了 社会的 进步和社会的稳定。 根 据 最新中国 互联网 络发 展状况 统计报告 统计 显示 1 , 2 0 0 7 年1 月网民 总 人数达到1 3 7 0 0 万人, 上网计算机总数为5 9 4 0 万台,中国网 站总数为8 4 3 ,0 0 0 个, 全国网页数为4 4 .7 亿个。 年轻网民 ( 3 0 岁以下)占到7 0 %以上,文化程度 较低 ( 高中 及以下)的网民占 将近5 0 %。调查结果显示,年龄在1 8 岁以 下的网 民 对互联网的信任程度要高于其他年龄段的网民。随着年龄的增长,网民会更 加理性地看待互联网,此时对互联网的信任程度略有降低。 4 0岁以 上的网民 对 互联网的信任程度又有所提升 ( 如图1 . 1 所示) 。 本次调查结果显示,文化程度相对较低的网民对互联网表示 “ 信任”的比 例要高于文化程度相对较高的网民。随着知识和经验的积累,网民对待互联网 的认识和态度会有所改观,导致了 对互联网信任程度的变化 ( 如图1 .2 所示) 。 综上所述,网民平均每周上网时间达到新的历史高度:网民获取信息的主 要途径是网络;不同性别、不同年龄段、 不同文化程度的网民,对互联网持信 任态 度的比 例要远多于对互联网持不信任态度的比例。互联网的信息繁杂多样, 良 芳不齐, 进步健康有益的信息大量涌现,同时,反动、迷信、 黄色的信息也 随之而 来。加之互联网信息的 虚拟性、隐蔽性、发散性、渗透性和随意性等特 点, 越来越多的人们愿意通过这类渠道表达自 己的个人想法.于是,网络舆论 对信任网络的网民毫无疑问具有较大影响力,而这部分人较多集中于年轻网民。 年轻网民正是正确的道德认知,正确的人生观,价值观,世界观形成的阶段。 第一章 绪论 网络舆情的爆发将以“ 内容威胁”的形式逐渐对网民带来重要思想影响,并将 对社会公共安全形成威胁。 1 9 7 2 年, 德国学者诺伊曼从社会心理学的观点出发, 就臾论与大众传媒的关系进行了 研究, 提出了“ 沉默的螺旋” 的假说 2 1 。这一假 说在1 9 8 0 年出版的 沉默的螺旋:舆论一我们社会的皮肤一书中进行了 全面 的概括。诺伊曼认为,舆论的形成与大众媒介营造的意见气候有直接关系。 人 们由于害怕社会孤立,会对优势气候采取趋同行动, 其结果造成一方越来越大 声疾呼,而另一方越来越沉默下去的螺旋式过程。 赢 一黝 绪 6l 不信任非常信任比较信任 3 8 . 0 4 么 3 1 . 6 % 2 9 . 2 % 3 0 . 0 % 3 7 . 5 % 一般 0 .7 0 么肠 .2 % 5 5 .9 % 6 0 . 3 % 5 60 0/ a 5 0 .2 % 01 8 岁以下 互 0 . 9 % 峨6 % 3 . 嘴 % 5 . 3 % 6 3 %1 .6 %p 1 8 - - 2 4 岁 132 5 3 0 岁 .3 1 4 0 岁 5 .2 %1 .9 0, 么 6 .6 % 5 . 2 , 么 2 . 1 % . 3 %. 4 0 岁以上5吕 % 了1.十一一lllee、 图i . ! 不同 年龄段的网民 对互联网信任程度比 较 第一章 绪论 图 1 .2不同文化程度的网民对互联网信任程度的比较 (沉默的螺旋” 假说在互联网环境下的实证研究一文,通过问卷调查, 得出以下结论:“ 在网络空间,社会孤立的动机并没有消失;网络群体对个人意 见的压力方式有所变化,强度相对减弱, 但其影响依然不容忽视;从众心理的 动因继续存在,从众现象依旧普遍, 。因此, “ 沉默的螺旋”并没有从网络消失, 但同时, 鉴于网络传播特有的属性和我国现阶段网络媒体受众的历史阶段特点, 其表现方式也出现了 相应的变化. 从舆论形成与大众传媒对网 络引导的功能和 作用来看,发挥政府网络媒体的作用, 形成网络舆论的强势, 对引导网络舆论 将起到积极的作用。 过去的几年里,随着论坛, 搜索引擎,即时通讯, r s s ( r e a lly s i m p le s y n d ic a ti o n ) w e b 2 .0 , b l o g , s n s ( s o c ia l n e t w o r k in g s e r v ic e ) p 2 p 等 技 术的 革 新 和进步, 网 络内容迅猛增长, 网民 的参与性不断提高, w e b 不可避免的 从r e a d w e b 发展为r e a d / w r i t e w e b 。网络信息的传播速度,范围超出了传统媒体,网络舆论 带来了巨 大的影响力,正逐渐影响着人们的社会生活。当前, 有效的网络舆情 监控系统对于维护国家的信息安全,保障社会的舆情稳定具有积极的重要意义。 第一章 绪论 第二节 网 络舆情监控重要性 舆论作为一种社会行为,是伴随着人类社会的诞生而产生的。在社会生活 中, 每个人都能感受到舆论的存在,那么到底什么是舆论 呢? “ 臾”:众、 众 人的意思。 梁书武帝纪中1一 -1 “ 行能减否,或索定怀抱,或得之舆论。”其 中,f ( 论”即公 众的言论 ,或公众的意见。 这与现代意义上的 “ 舆论” 概念 是有很大区别的。现代新闻学中的 “ 臾论”是指:公众关于现实社会 以及社会 中的 各种现象、问题所表达的信念、态度、意见 表现的总 和,具有相对的 一致 性、 i n 烈程度和持续性, 对社会发股及有关事态的 进程产生影响。其中夹杂着 理智和非理智的成分。舆论是在外部社会环境、个人意见的表露、集体意识的 集合、 意见领袖的领导以 及新闻 传媒的介入等几个主要因素的相互作用下形成 的。 而新闻传媒在舆论的 形成、 传播和引导方面更是具有突出的地位,常 被看 作是 社会舆论的传声筒和放大 镜。 我们从革命导师的 相关论 述和新闻学者的著 述中 便可窥见两者的 “ 亲密关系”.马克思和恩格斯曾把报刊视为 “ 广泛的无 名的社会舆论的机关”,并形象地把报纸比喻为驴子,而它背上驮着的麻袋, 便是舆论。我国早期的新闻学者徐宝磺 在其 新闻学中写道:“ 代表舆论, 亦新闻 之重要 职务之 一。” 在我国 , 社会主 义的新闻 事业不仅是社会臾论的传 声筒和放大镜, 更是党和政府的喉舌,也是人民 群众真正的 喉舌。 用新闻媒介 反映人民意志, 表达人民呼声,这就是我国新闻传媒成为舆论代言 人的体现. 现代社会是一个多元化的社会,纷繁芜杂的声音此起彼伏,积极的、消极的舆 论相互交错斗争。 邓小平说过: “ 以正确的舆论教育和引导 人民,为伟大的社 会主义现代化事业而奋斗。 ” 江 泽民同 志在1 9 %年视察 人民日 报社的时候强 调, 舆论导向 正确与否,对于我们党的成长、 壮大, 对于人民政 权的建立、巩固, 对于 人民的团结和国家的繁荣富 强,具有重要的 作用。 舆论导向正 确,是党和 人民 之福; 舆论导向错误, 是党和人民 之祸。 并进一 步指出,党的新闻事业与 党 休戚与共,是党的生命的 一部 分。 可以 说, 舆论工 作就是思想政治工作, 是 党 和国家的前途和命运所系的工作。 网络媒体作为第四媒体逐渐在日 趋激烈的 媒介竞 争中, 无可争议地获得了 自 身 的地位,其影响己 全面而 深刻地渗入到 人们的政治、经 济、文化生活等各 个方 面,成为新闻 传播活动不可 须臾离弃的手段和方式。网 络已 经成为了 一种 新型 媒体,那么它不仅影响着我 们的 传播方式,也影响着我 们的舆论形态. 如 第一章 绪论 果我们把舆论按传播形式进行分类的话,除了广播、报刊杂志、电视 电影舆论 外,还存在一种新型舆论类型网络舆论。网络舆论就是在互联网_ 1 几 传播的 公众对某一焦点所表现出的有一定影响力的带倾向性的意见或言论。 网 络舆论与传统 媒体相比 具有明 显的 优势 3 1 : ( 1 ) 信息的海量、专门性和快 捷性; ( 2 ) 信息传播的同时 性、 个 人化和交互性; ( 3 ) 声音、 画面、 文字的一体性。 但是第四媒体也存在一些不足:缺乏严谨性、深刻性、 权威性,没有 “ 把关人” , 因 而网 络舆论又具有与广播、 报刊、电 视等舆论不同的以下 几个主要 特征: 1 .网 络舆论内 容无所不 包、 无所不及, 庸俗化和灰色的 舆论也随处可见; 2 ,网络舆论混乱、无序、权威性、导向性不够: 3 .网络舆论的 意识形态呈多元 化,西方渗 透无处不在: 4 .网络舆论的伦理相对主义强化和伦理基础准则的冲突比较明显: 5 .对网络舆论进行控制比较困难。 网络舆论己 成为一种不可忽视的 舆论力量,对社会有较大的 影响,甚至 对 有关部门的决策和施政产生了影响。 网 络舆论建设性的影响力 具体表现在以 下几个方面: 1 .网 络舆论是民 意的集中 反映; 2 . 网络舆论开辟出了另 一条真实体现民 意的通道; 3 .网 络舆论会促 进对政府官员、决策等的监督; 4 ,以网络舆论为先导有助 于确立新的媒体监 督机制。 网络舆论也存在自 身的弱点和一些问 题: 1 . 谩骂与攻击; 2 .发布虚假信息散布谣言; 3 .导致部分官 方网站因欠缺公 信力和亲和力 而衰落; 4 .有被敌对势力利用的危险。 网络舆论的产生具有迅猛性、传播具有急速性,在这种情况下,社会能量 会在瞬间聚集膨胀,在网络这张大网上裂变,流动,覆盖;其所形成的舆论强 势 是现实社会中的十倍、 百倍。 近年来,网 络舆论 在一系 列社 会重大事件中 显示出巨 大的威力。例如深 圳 “ 妞妞 事件” , 2 0 0 3 年1 0 月2 6 日, 深圳市一位 初中生 家长在天涯、 凯迪等论 坛 公布了一 封学校给家长的信, 信中披露深圳市五部门联合下 发文件, 要求初中 学生安 排在上课时间,自 费购票 观看电影 时差七小时 , 从而拉开了网上揭批 第一章 绪论 深 圳 “ 妞妞 ( 本名李倩妮) 事件”的序幕。网友 在论 坛中不仅 将其有关身份、 背景和内幕揭个 “ 底儿掉 , ,而且对目前官场中的 “ 潜规则”猛烈抨击。众多新 闻媒体随后也跟进报道,一时形成强大的舆论压力。1 1 月 6日身为李倩妮父亲 的 深圳市委副书记、 秘书长李 意珍通过媒体 进行了“ 道歉表 态” 。1 1 月 1 1 日, 深圳市委举行三届十次全体会议,专门就这一事件的调查和处理意见进行了通 报, 主要领导表示党的干部应 接受网 络舆论监 督. 其他如 著名的“ 刘涌案” , “ 黄 静案” , “ 宝马案” 等都具有广泛的社会影响。 网络臾论的力量不可忽视。 在各 级政府倡言提高执政能力的今天,能够科学而理 性地面 对网络媒体,也是执政 能力的一个重要的体现. 对政府部门 来说,网络不仅仅 是获得信息的途径, 更 是了 解舆论走向、了 解民 情的有效渠道。由 于传统媒体的 “ 把关人”作用, 传 统媒体的严谨 自 然有必不可少的一面,同时也带来了民众在其上面发言路径少、 难度大而且被屏蔽的 指数 也大的 结果。因此, 在网络上 对一些新闻事件发言, 甚 至就一些网络传言 发表看法, 这正是公共舆论形成的 最自 然、 最便捷、 最有 效 率的渠道。留 下这一窗口, 对决策者来说非常重要。从网民 的议论中,决 策 者 能够感受到公 众舆论的 走向, 看出人心的向 背和民 众的好恶, 从而有可能 做 出 更加合乎民心、 更为 合情合理的决策, 这是非常 必要的。 十六届四中 全会 中 共中 央关于加强党的执政 能力建设的决定中指出: “ 高度重视互联网等新型 传 媒 对社会舆论的影响, 加快 建立法律规范、 行政监管、 行业自 律、技术保障 相 结 合的管理体制,加强互 联网 宣传队伍建设,形成网 上正面臾论的强势。 ” 网络媒体作为一 种新的 媒体形式, 发展如 此迅疾, 受众如此广泛,影响如 此 重大,关注网络舆论,时 刻掌握网络舆情现状对辅助政府决 策,及时用正 确 的 舆论引导民众,在维护社 会安定等方面具 有重 大意义。建设 有效的网络舆 情 监控系统具有重要的现实意义。 第三节 论文的章节安排 本文由 六章组成,各章的内 容安排简要 描述如下: 第一章; 概述了 网络臾 情的背景和发展, 介绍了国内当前网络舆论对社会 的影响以 及网络舆情监控建设的必要性和重大意 义。 最后简要 给出了 文章的 组 织结构; 第二章:阐述了网络舆 情监控的研究现状, 发展历程, 并从技术上分 析了 第一章 绪论 不足之处,描述了网络舆情监控的具体需求: 第三章:系统介绍了网络舆情监控系统的若干关键技术:信息获取技术, 串匹配技术,文本分类技术等; 第四章:对具体需求进行分析,设计了两层舆情监控模型,提出了改进的 文本分类方法。并对提出的改进进行了实验测试,性能对比 分析; 第五章:针对网络舆情监控需求,进行了原型系统设计,实现了基本的系 统功能: 第六章:对已有的工作进行了总结,并对进一步的工作讲行了展望。 第二章 局部网络舆情监控概述 第二章 网络舆情监控概述 第一节 网络舆情监控现状 众多的网民创造了一个庞大的自由的舆论超市,他们在这个超市里浏览资 讯、评论小到身边的琐事大到国家政策,甚至以舆论压力影响政府决策。网络 舆论是社会舆论的一种表现形式。在社会转型时期, 各项制度尚在健全的过程 中,网络舆论对社会监督的确起到了很大的作用。但在网络舆论中人们熟悉的 舆论状态被打破,意见主体的真实遭遇到前所未有的挑战,使舆论的权威性受 到冲击,无限放任的观念为网络提供极其危险的言论, 舆论危机随时可能出现, 错误的舆论引起社会混乱,并导致制造和追随舆论的人陷入被声讨的困境.网 络带来的巨大社会影响引 起各国政府的重视。美国著名学者戴维波普诺在他的 社会学一书中说: “ 控制是指对人们的行动实际制约和限制,使之与社会规 范保持一致的任何社会过程。 ” 一个社会集团对某些不利于社会运行的舆论进行 控制,这是世界上所有国 家都在运作的一种模式。互联网出 现之后, 有关如何 控制、规范互联网虚假、 有害信息在德国、新加坡、法国、美国等许多国家进 行过热烈的讨论。 2 o 世纪9 0 年代中期, 许多国家就开始制定相关的法律。 美国 和 新 加 坡 都制 定了 相关 法 律 141 。 但是, 从技 术 上 来说 , 互 联网 是 完全开 放的 , 每 个人都有机会成为网 络信息的发布者,每个人都有选择网 络信息的自 由,因 此, 在加强互联网信息监管的同时,组织力量开展信息汇集整理和分析,对于及时 应对网络突发的公共事件, 全面掌握社情民 意很有意义.鉴于此,国内外均对 此进行了相关研究, 目 前,我国社会舆情监测网建设己 经取得成果, 大部分地区或单位舆情监 测网 络由 臾 情 站, 舆 情 监 测 点 , 舆情信息 员 三 个 层次 构 成 15 1舆情监 测网 的 核 心 是及时有效的实现舆情反馈,包括定期反馈和随时反馈。定期反馈是每个舆情 员 每月向 舆情监测点反馈信息,经舆情监测点整理,以 舆情专报的形式向 舆情 站反馈。 针对网络舆情监控也有相关的人工手段进行监控,人工阅读网站内容进行 监控,效率极其低下,耗费大量的人力物力。国内互联网的监管现状,从监管 第二章 局部网络舆情监控概述 手段来讲,一方面国内大量的监管方式尚停留在手工阶段。各个网站和新闻主 管单位一般上都有一个人、两个人或者一个小组监控指定数量的网站,可能是 5 0 个或者1 0 0 个量级的 新闻网站。 但是这种形式完 全不能 保证及时性,即使是 1 5 分钟浏览一次。 另外, 人工监控的范围也是有限的,即使有1 0 人, 每人监控 1 0 家网站, 也只能监控1 0 0 家网站。另一方面,国内上市的信息监控产品功能 比较少,性能比较低. 对新闻突发事件、热点的监控是新闻把关的难点和弱项。 热点的出现非常快, 新闻主办单位如何在新闻成为热点之前,提高红色预普机 制,做好舆论导向的准备呢?新闻把关人必须在突发事件发生的第一时间,通 过监管系统抓住专题, 搜集所有有关的新闻, 把整个专题和相关的内 容全部控 制起来。对于新闻热点的分析方法,新闻学有非常成熟的理论,但是这些需要 一定的时间和深厚的专业知识储备。一旦这些突发事件成为热点了,就有一种 不可扭转的强势. 借助技术解决方案成为一个急需的途径。由于新闻评论量是 网民 对信息关注程度的主要反映, 信息监控系统主要通过对新闻评论量的排序 实现热点把关。 目 前,关于互联网内 容安全正在逐渐从单 纯的内 容监控向舆情综合监控分 析阶段发展。 互联网舆情监控是一个新的研究领域,也是近年的研究热点, 涉 及互联网海量信息获取、自 然语言处理、 人工智能等技术,实际应用中面临一 系列的新问题。 现在据称超过一半的w e b信息是由 个人创造的, 而搜索技术的发展也使人 与人分享信息越来越快捷, 所以 对公司而言, 如果不重视网络言论就很难了。 i b m 基于这 种需 求, 开发了 名为p i m s ( p u b l i c i m a g e m o n i t o r i n g s o l u t i o n ) 的软 件, 使 用该公司的 文本和语义 分 析 技术, 为商 业 机构 提 供关 于自 身的网 络舆论 间 。 中国 搜索也推出了网络信息监控软件i - mo n i t o r , 用于监控网络热点话题。 当前,网络臾情监控己 成为各地政府一大重点 工作, 但很多地方采用人工 为主的搜集汇报方式。基于自 然语言处理的网络舆情监控分析系统相关研究工 作正在开展,以满足日 益增长的网络臾情监控需求。也已 经取得了一些成果, 但还不能适应实际的监控需求。 第二节 网络舆情监控需求 网站用户具有群居性,经过一段时间发展和竞争,会逐渐形成在某些方面 第二章 局部网 络舆情监控概述 具有较多在线用户数的网站,少数网站足以 代表当前网络舆论主题,过往的一 些网络舆论事件表明,突发信息即使发布于不知名网站,最终导致突发舆论形 成的也是经由转贴到部分知名网站。网络舆情监控只需要监控有限个热点网站. 系统的需求如下: 监控的对象为5 0 个以下网站。平均每个网站的页面规模在1 0 0 0 0 个左右。 对监控网站的处理周期要比较短,要小于网络突发舆论形成的周期,应在 1 - 2 天内完成一次监控处理。 对个别网站需要实时监控 ( 实时定义为较小的监控 时间间隔,比如一小时) 。 对于监控主题信息,用户可以自己定义。定义的方式:用户只要输入一定 量的训练样本就可以得到主题信息的特征,从而对主题信息进行搜集处理。 根据网络舆情监控系统的需求特征, 我们对以下涉及的关键技术进行研究: 如何快速有效的获取监控网站的更新内容,并尽量减轻服务器负担。同时 快速过滤掉大部分非监控主题内容. 采用合适算法, 如何快速有效的对采集的 信息按监控主题进行分类统计, 并具有较高的分类性能。 该系统由 舆情规划、舆情收集、分析处理、舆情预警四个环节组成一个完 整的生命周期,其特点概述如下: 舆情规划:根据决策者或使用者的信息需求,设定主题目 标,确定信息收 集任务. 舆情收集:根据规划的任务需求,高效获取网络信息,并有效进行过滤和 存储。 分析处理:对收集到的 信息进行分类, 按照主题重新组织信息,并生成臾 情信息。 舆情预警:以按需定制的方式将舆情预警信息提供给相关人或舆情监控部 门, 在舆情预警系统运行过程中,舆情监控部门可以 对己有的信息进行评估, 产生新的信息需求, 进而规划新的舆情监控重点,开始新的舆情监控, 形成一 个具有生命特征的周期往复的网络舆情监控系统。 不同于传统的内容过滤和监控系统,传统的内容过滤或监控系统主要监控 事前设定非法或敏感信息。而舆情监控则应可以 通过整体分析网络信息发现预 定主题舆情现状的功能。结合相关技术还可以 及时检测发现并追踪新舆情. 但 本文还是主要研究事前设定主题的舆情状况监控为目 标. 第三章 局部网 络舆 情监控关键技 术分析 第三章 网络舆情监控关键技术分析 第一节 网络信息获取 技术 根据最新的中国互联网络发展状况统计报告显示, 国内共有 4 4 .7 亿的网页, 统计显示每周改变的网页数量大概占 7 . 4 %,每月改变量大概为 2 6 .4 %,如今随 着网络论坛,新闻站点,博客等的迅速发展,网络内容交互性的增强,广大网 民的积极参与,每天新产生的信息量数以亿记。随着技术的飞速发展,信息以 指数级不断增长,远远超出了人们所能接受的程度,在这种信息爆炸的社会里, 人人都暴露于各种信息之下,对大量的信息无所适从,信息严重过载,传统的 阅读方式已 经不适合如此 海量的信息。 传统的 信息 获取方 式无论对于满足个人 阅读需求还是特定监控需求都无法满足实际需要。 网 络 爬 虫 , 又 称 为r o b o ts , s p i d e r 可以 根 据 起 始 链 接内 容, 按 用 户 指 定 范 围 自 动 的 获 取 需 要 的 信 息 。 第 一 个网 络 爬虫 是m a tt h e w g r a y 的w a n d e re r 7 1 , 出 现 于 1 9 9 3的 春天, 此后出 现了很多有关网 络爬虫的 论文, 但出于互相竞争, 爬 虫的设计结 构并没 有公开。 后来陆续出 现了一 些公 开设计的网络爬虫,如早期 版本的g o o g l e c r a w l e r , w e b c r a w l e r , i n t e rn e t a r c h i v e c r a w l e r 以及模块化设计的 m e rc a to r 181 。 一 般 的 单 节 点 网 络 爬虫 的 体 系 结 构 1 9 1如 图3 - 1 所 示。 网络爬虫的基本处理过程: 1 .确定一些初始 搜集页 面, 此处记为p o : 2 .从p o 中 获取所有新的u r l 并加入到 爬虫的 爬取队列中; 3 确定 爬行策略, 如宽 度有限 或深度优先爬行 策略, 爬行深 度问 题, 爬行 频率问 题以 及如何避免 爬行循环和陷阱 等。 不断循环 获取爬取队列指定的文 件, 并不断更新爬取队列, 直到人工停止。 国内外的一些大公司 对大型网络爬虫己 经有了 很成熟的 解决方案,并已投 入使用,但是这些大型网 络爬虫只能给大众用户提供一种普通的不可制定的 信 息获取途径, 它不 可能 考虑到特定用户的 各式各样的需求,多机分布式的 爬虫 设计对于中 小型应用又过于复杂 化,并且以 上所述爬虫均为 针对信息搜 索应用 开发,包含复 杂的网页重 要性判断,复 杂的 爬行调 度策略,复杂的存储文 件系 统设计以 及各爬行节点 之间的 通信模块等, 这些功能不适用于网络典情 监控具 第三章 局部网络舆情监控关键技术分析 体需求。因此本文针对特定的有限站点和监控处理需求对传统爬虫进行了针对 性改进 。 辫长灰扣封 、曰冷琳 特 卜载 链 m 一曰 调 度 队 列新 链 接困 图3 - 1网络爬虫 体系结构 对于监控分析系统,文档数量级别为百万 级, 文档存储采用文件系统来 实现,文本数据相关 信息采用数据库 存储, 便于统计分析处理。 搜集采 用多 机 独立搜集统一存储模式。如果搜集速度不够, 简单的在网 络接口 处增加一台 信 息采集机器, 配置连接到 服务器后,即可加 入到搜集系 统中。 下面给出 爬虫模 块结 构图 ( 如图3 .2 所示) 。 1 .选取待获取u r l ,出队列: 2 . 选取合适协议处理模块,获取文档; 3 . 获取的 文档信 息交由 通用处理接口 进行后续 处理; 4 . 存储模块根 据网 页内 容是否新文 档决定是否 存入数据库和; 5 . 分析抽取新获 取文档所含链接; 6 , 根据规则过滤 不需要的链接; 7 . 链接消重处 理; 8 .新链接入队处理。 第三章 局部网络 舆情监控关键 技术分析 井 监 控 站 点 口v $ 妞 f , . 甲 今 医tkgi41i1nt f7pt#ia4h1uu2 ii_ f 7 2117u . r . r侨 议 咒 j 里 悦块 . 链 降 劝 卫 几 库 t at tji: 图3 - 2 爬虫模块结构设计图 详细的 信息获 取实现将在系统设计一章中 结合系统整体设 计进 行介绍。 第二节 关键字匹 配算法简介 3 . 2 . 1串匹配算法概述 串 匹 配( s tr in g m a t c h in g p a tte rn m a tc h in g ) 是 计 算 机 科 学 领 域中 的 基 本问 题 之一,是指 在一 个符号序列中查找出一个或多 个特定符号序列的过程. 串匹配 在正文文本中 寻找 所有关键字集合中的关键字, 并报告关键字出现的位置。依 据在匹配过程中所要匹配的模式串个数,串匹配算法可分为单模式串和多模式 串匹 配算 法。 依据其功能来分, 串匹配算法 可分为三类: 精确串匹配算法( e x a c t s t r in g、 近 似串 匹 配( a p p r o x im a t e s tr in g m a tc h in g ) 1 t0 算 法 和 正 则 表 达 式匹 配( r e g u la r e x p r e s s io n m a tc h in g ) 算 法。 精 确 串 匹 配 算 法 是指 在 数 据 序 列 中查找出与 一个或多 个特定的模式串 完全一 致的子串 及其出 现位置, 例如串匹 配在精确文 本检索和入侵检测系统中的应用; 近似匹配算法是指按照算法定义 的相 似程度, 在数据 序列中查找 所有与一个或多 个特定的模式串的相似程度在 可接受范围内的所有子串及其出 现位置, 主要 应用在计算生物学和信号处理等 第三章 局部网络舆情监控关键技术分析 领域;正则表达式匹配算法是指根据正则表达式的描述,在数据序列中查找 满 足正则表达式的所有子串的出现位置,主要用来处理简单的关键字匹配无法描 述的问题。另外,还可将某些串匹配问题用硬件实现,这就是所谓的硬件匹 配 ( h a r d w a r e m a t c h i n g ) 。 串匹 配技术的 发 展是 与 其应用密切相关的 . 在计算机 发 展的早期阶段,串匹配常常用于文本编辑、全文检索系统、查询系统等。随 着 计算机信息技术的发展以及生物信息学的发展,串匹配已经广泛应用于网络入 侵检测系统( n e t w o r k i n t r u s i o n d e t e c t i o n s y s t e m ) 、 内容过滤、 生物科学计算、 新 闻主题提取等。 最早的单模式串匹配算法是蛮力算法 ( b r u t e - f o r c e算法) ,该算法的特点 是简单、 直观, 但是对文本串 的 扫描 常 常需 要回 溯, 因 而效率 较低。 1 9 7 0年 , c o o k 在理论上证明了串匹配问 题可以 在o ( m + n ) ( m和n 分别为模式串和文 本 的长度) 时间内 解决。 随后k n u t h d e 和p r a tt v r仿照c o o k 的 证明构造了 一 个 算法。 与此同时, m o r r i s j h在研究时也独立的 得出与前述两人本质上相同的 算 法。 这样两个算法殊途同归地构造出当 前计算机课本中最为经典的串 匹 配算 法, 称为k n u t h - m o r r i s - p r a t t 算法( 简称k m p 算 法) . 1 9 7 7 年, b o y e r r s 和m o o r e j s 两人 设 计了 一 个新的串匹 配 算法b o y c r m o o r e 算 法 ( 简称b m算 法) , 该算 法 是目 前最常用、 效率较高的算法之一。在 b m 算法的基础上,又派生出了 许多 算法 , o il 如:t u n e d b o y e r m o o r 算 法, t u b o b m算 法, b o y e r m o o r e h o r s p o o l 算法,以 及 其它 基于b m算法的改 进算法 等。 1 9 8 0 年, k a r p 和r a b i n 合作从 截 然不同于k m p 算法和b m算法的途径研究出 一种基于数值计算的新算法, 称为 k a r p - r a b in 算法( 简 称k r 算 法) . 1 9 9 0 年, s u n d a y d m提出t q u ic k s e a r c h 算法 ( 简称q s 算法) , 该算法实 质上是b m算法的简化, 在实际应用中是一 种 简洁高效的算法。 多模式串匹 配算法中一个经典算法是由a h oav和c o r a s i c k m j 提出 的 d f s a ( d e t e r m i n i s t i c f i n i t e s t a t e a u t o m a t a ) 算法。 该算法通过构造有限自 动机 来 实现匹配, 而构造有限自 动机的过程其实就是将多模式匹配问题转化为单模式 匹配问题,因此,完全可以在有限自 动机构造完毕之后应用一些现有的快速单 模式匹配算法来加快匹配速度。由 此,1 9 9 3 年f a n j j 和s u k y二人在d f s a算 法的基础上结合b m算法, 设计出了一种新型的f s 算法, 该算法在平均情况 下 比d f s a算法速度更快。 另外, s u n wu 和u d i ma n b e r 近年来在b m算法的框架 下派生出又一经典的多模式匹配算法,称为s u n wu 算法。 第三章 局部网络舆情监控关键技术分析 下面介绍基本的单模式匹配算法和较好的多模式匹配算法,并结合本文具 体环境特征选择合适的算法。 3 .2 . 2常用算法简介 单 模式串 匹 配问 题可以 描述 为:已 知p a t = p a t 0 , . . . , m - 1 表示要匹 配的 模 式 串, 长 度为m , t x t = t x t 0 , . . ,n - 1 表 示正 文 文 本, 长 度为n o 模式串 和 文本串 都 由字符表e 组成,字符表e大小为口。串匹 配的任务就是要在给定的t x t中 发 现所有的p a t 。 将匹配过程中p a 7 , 与t x t中长度为m的子串的一次比较称为 一 次尝试( a t t e m p t ) , 并报告所有的出 现位置。 单模式算法主要有b f . k m p , b m , k r等. 多 模式串 匹配问 题可以 描述为:已 知p a t = p a t , p a t , 二,p a t 为 一 个大 小 为m的模式串 集合, m i n l e n 为最短模式串的 长度, t x t = t x t 0 , 二,n - 1 表示正 文 文本, 长度为n , 其中 每个模式串 和文本串 都由 字符表e中的字符组成, 字符 表 e的大小为。. 多模式串匹配的任务是在文本串t x t中发现所有包含于p a t 中 的模式串, 并报告出 现位置。多模式算法主要为d f s a , f s . s u n w u 等。 3 .2 .2 . 1单模式匹 配简介 单模式匹配算法比 较知名的有b f ( b r u t e - f o r c e ) 算法,该算法是最早最简 单的单 模式串 匹配算法, 其匹 配思 想是把文本串中的每一 个字符 t x t i ( i e 0 , n - m ) 作 为 一次 匹 配 的 开 始, 并 依次比 较t x t i , . ,i + m - 1 与 模 式串p a t o . . .m - 1 是 否 全部相同,如果全部相同,则报告一次匹配,否则,从文本

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论