(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf_第1页
(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf_第2页
(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf_第3页
(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf_第4页
(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(模式识别与智能系统专业论文)论坛热点事件关键词识别与传播趋势研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留 并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本 人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本学位论文属于 保密口,在年解密后适用本授权书。 不保密 学位论文作者签名:f 东j 了目 z 口f 年6 月z 日 指导教师签 砌年压月l 纱日 独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文 不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全 意识到本声明的法律结果由本人承担。 学位论文作者签名:p 东和 日期:2 0f1 年6 月他日 江苏大学硕士学位论文 摘要 互联网的普及,网民数量的增加对社会生活的各个方面都产生了重要的影 响,尤其是社会的热点、矛盾越来越多的通过网络这一途径传播与体现。网络己 成为我国人民讨论公共事务,表达自己观点的重要公共平台,随之而来的是政府 有关部门对网络舆情的管理问题。如何能够及时发现舆情热点、正确引导民意走 势是当前急需解决的难点。 本文主要研究工作主要包括以下3 点: ( 1 ) 介绍了网页信息抽取的相关技术,通过对不同传播媒介的对比,指出在 现阶段论坛是研究热点事件的最佳场所。然后天涯社区页面要素分析的基础上利 用h t m l 标签、正则表达式、s q l 相关知识设计采集程序对热点事件的传播信息 进行抽取处理。 ( 2 ) 介绍了一些关键词的识别方法,并对影响识别结果的因素进行了分析, 然后组织语义表和训练语料,考虑关键词的词频,词性,长度,位置和互信息特 征设计算法通过关键词权重计算来识别热点事件关键词。通过与t f - i d f 算法的 对比,试验取得了令人满意的效果,准确率和召回率均有所提升。 ( 3 ) 介绍了现有的事件传播趋势分析方法及其不足,对抽取到的事件传播信 息进行统计,在统计基础上定义论坛中的“意见领袖 ,分析了“意见领袖”的 行为模式,设计了一套算法对传播趋势进行分析。通过实验证明,该方法对于识 别那些潜在的热点事件具有较好的效果。 关键词:信息抽取,关键词识别,热点事件,传播趋势,意见领袖 江苏大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ei n t e m e ta n dt h eg r o w i n gn u m b e ro fi n t e m e t u s e r s ,t h ei n t e r n e th a da ni m p a c ti na l la s p e c t so ft h ec o m m u n i t y m o r ea n dm o r eh o t s p o t sa n dc o n t r a d i c t i o n so fs o c i e t ya r et r a n s m i t t e da n dr e f l e c t e dt h r o u g ht h ei n t e m e t n e t w o r kh a sb e c o m ea ni m p o r t a n tp u b l i cp l a t f o r mf o rc h i n e s ep e o p l et od i s c u s s p u b l i ca f f a i r sa n de x p r e s st h e i rv i e w s w i t ht h e s ec h a n g e s ,t h em a n a g e m e n to fp u b l i c o p i n i o nf o rt h eg o v e r n m e n tf o l l o w e d h o wd e t e c t i n gh o ts p o t so fp u b l i co p i n i o na n d c o r r e c t l yg u i d i n gt h et r e n d so fp u b l i co p i n i o nh a sb e c o m ea l lu r g e n tp r o b l e mt os o l v e g e n e r a l l ys p e a k i n g ,t h em a i nw o r ki n c l u d e st h r e ea s p e c t s : ( 1 ) t h et e c h n o l o g yo fw e bi n f o r m a t i o n e x t r a c t i o nw a si n t r o d u c e da n db y c o m p a r i s o no fd i f f e r e n tm e d i a , w ep o i n t e do u tt h a tt h ef o r u mi st h eb e s tp l a c et os t u d y t h ec o m m u n i c a t i o no fh o te v e n t s a n dt h e nw eu s et h ek n o w l e d g eo fh t m l ,r e g u l a r e x p r e s s i o n sa n ds q lt op r o g r a m m i n g t h er e l a t e di n f o r m a t i o no fh o te v e n t sw a s c o l l e c t e da n ds t o r e di nt h ed a t a b a s e ( 2 ) s o m ea l g o r i t h m so fk e y w o r d si d e n t i f i c a t i o nw e r ei n t r o d u c e da n dt h ef a c t o r s w h i c hm a yi n f l u e n c et h ei d e n t i f i c a t i o nw e r ea n a l y z e d t h ew o r dt a b l ea n dt r a i n i n g m a t e r i a l sw e r eo r g a n i z e da n da na l g o r i t h mw h i c hc o m b i n e st h et e r mf r e q u e n c e ,p o s , l e n g t h ,l o c a t i o na n dm u t u a li n f o r m a t i o nt o g e t h e rw a sd e s i g n e dt oc a l c u l a t et h ew e i g h t o fk e y w o r d sf o rk e y w o r d si d e n t i f i c a t i o n t h er e s u l to fe x p e r i m e n ti ss a t i s f y i n gi n c o m p a r i s o n 、析mt f i d fa l g o r i t h m s t h ep r e c i s i o nr a t ea n dr e c a l lr a t eh a v eb e e n e n h a n c e d ( 3 ) s e v e r a la n a l y s i sm e t h o d so ft r e n dw e r ei n t r o d u c e da n dt h e i rd e f e c t sw e r e p o i n t e do u t a n dt h e nw ed i das u r v e yt ot h ei n f o r m a t i o ne x t r a c t e d t h e ”o p i n i o n l e a d e r s o ff o r u mw a sd e f i n e db a s e do ns t a t i s t i c sa n da na l g o r i t h mw a sd e s i g n e dt o a n a l y z et h et r e n do fh o te v e n t s t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dh a v ea g o o de f f e c to nt h er e c o g n i t i o no fp o t e n t i a lh o te v e n t s k e yw o r d s :i n f o r m a t i o ne x t r a c t i o n ,k e y w o r d si d e n t i f i c a t i o n , h o te v e n t , c o m m u n i c a t i o nt r e n d s ,o p i n i o nl e a d e r s i i 4 2 2 回复行为随时间的变化4 0 i i i 江苏大学硕士学位论文 4 2 3 发帖行为与回复行为比较4 l 4 3 热点事件传播中i d 的活动情况4 3 4 3 1 每日新增i d 情况4 3 4 3 2 传播行为的持续性4 4 4 3 3i d 活跃度分析4 6 4 3 4 人们对帖子的选择性4 8 4 4 基于“意见领袖”行为的趋势分析4 9 4 4 1 “意见领袖”的定义与行为特征分析4 9 4 4 2 “意见领袖”的识别。5 0 4 4 3 基于“意见领袖”行为的趋势分析5l 4 4 4 基于“意见领袖”行为的日内热点发现5 3 4 5 本章小结5 5 5 总结与展望5 7 5 1 总结5 7 5 2 未来工作展望。5 8 参考文献5 9 致谢6 2 论文及科研情况6 3 i v 江苏大学硕士学位论文 1 1 研究背景与意义 1 绪论 2 0 1 1 年1 月1 9 日,中国互联网络信息中心( c n n i c ) 在京发布了第2 7 次中国互联网络发展状况统计报告【l 】( 以下简称报告) 。报告显示,截 至2 0 1 0 年1 2 月底,我国网民规模突破4 5 亿大关,达到4 5 7 亿,较2 0 0 9 年底 增加7 3 3 0 万人:互联网普及率攀升至3 4 3 ,较2 0 0 9 年提高5 4 个百分点。我 国手机网民规模达3 0 3 亿,较2 0 0 9 年底增加6 9 3 0 万人。手机网民在总体网民 中的比例进一步提高,从2 0 0 9 年末的6 0 8 提升至6 6 2 。手机网民较传统互 联网网民增幅更大,构成拉动中国总体网民规模攀升的主要动力,人们开始更多 的依靠网络来了解新闻事件,传统媒体的新闻信息中,也有半数以上的报道或相 关资料均来源于网络新闻。 互联网的普及,网民数量的增加对社会生活的各个方面都产生了重要的影 响,尤其是社会的热点,矛盾越来越多的通过网络这一途径传播与体现。从2 0 0 8 年的三鹿奶粉事件,贵州瓮安事件,到2 0 0 9 年的湖北巴东邓玉娇案,杭州富二 代飙车案,再到2 0 1 0 年的“李刚门”,浙江乐青钱云会案各种影响社会稳定的事 件层出不穷。从国际统计数据的观察来看,人均g d p 处于1 0 0 0 3 0 0 0 美元之间 的国家或地区,通常对应着人口、资源、环境、效率、公平等社会矛盾的瓶颈约 束最严重的时期,属于公共危机事件高发期1 2 】。 在这些热点事件不断出现的过程中,互联网所扮演的角色日益突出,网络也 从最初的信息传播工具发展成为传播内容的发源地,成为信息汇聚和传播的主要 场所。与传统纸质、电子媒体相比,网络因其全时、无界、互动等特点,在突发 事件传播中成为社会舆论演变的主导力量,逐步取代传统媒体成为传媒的“轴 心”【3 1 。事件发生后,人们会在第一时间上网,将自己的见闻以文字、图片或音 像的形式发布出来。网络传播的开放性使得公众获得了空前的自主和自由,极大 地促进了公众对突发事件的参与和关注。 网络热点事件一旦形成,各种事件信息就开始通过网络迅速进行传递,接收 到信息的社会个体会产生相应的反应。在一个热点事件传播过程中,存在着大量 的传播参与者,他们每个人都会基于各自的性格观念采取不同的方式传播信息。 江苏大学硕士学位论文 由于网络事件演变为社会热点的突发性、阶段性、反馈互动性与衍生性,使得信 息不对称的现象普遍存在。一些谣言的传播会使公众对于政府的不满心理加剧, 引发社会危机。如何在第一时间识别出网络热点事件,对事件的传播进行追踪, 并作出相应的应对方案,降低危机事件的负面社会影响,是政府处理现阶段舆情 所面临的首要问题。 1 2 研究现状 t d t ( t o p i cd e t e c t i o na n dt r a c k i n g ,t d t ) 是美国国防部高等研究计划局 ( d e f e n s e a d v a n c e dr e s e a r e ha r o j e e t a g e n c y ,d a r p a ) 为解决网络信息过载,自动 确定新闻信息流中话题结构的问题而诞生的,一系列评测会议的推动着t d t 研 究的确立与发展【4 】。从1 9 9 8 年开始,在d a r p a 支持下,美国标准技术研究所每 年都要举办t d t 国际会议并进行相应的系统评测,参加者包括i b m 研究中心、 b b n 公司、卡内基梅隆大学、麻省理工大学等著名大学和研究机构。在这个 项目中采用了一种开放式的评估方法,它提供了测试需要的文本集,并给出了测 试的衡量标准,通过各所大学的研究小组竞争的方式来对项目进行不断的研究。 t d t 通过评测会议确定了五个子任务,分别为新闻报道的切分、新事件识 别、报道关系识别、话题识别和话题跟踪。各个子任务的解决将有助于最终研究 目标的实现。这5 个子任务具体包括以下内容【5 j : ( 1 ) 对新闻报道的切分( s t o r ys e g m e n t a t i o n ) :将连续的广播、电视新闻节目的 语音或文字记录分割为不同的报道。由于从新闻专线获得的文本信息流本身就是 以单个报道出现的,所以这一任务只适用于对来自广播、电视等媒体的音频数据 的处理。切分对象是音频信号或誊录音频信息获得的文本语料,这类数据内部不 同报道之间通常没有明确标记,报道切分就是要确定报道边界标记的位置。 对报道切分的处理,一个比较成功的做法是采用最大熵( m a x i m u me n t r o p y ) 和决策树混合的模型,利用各种与信息源相关的特性。另外,贝叶斯分类器、前 后边界触发词、停顿间隔、变化的能量级别等方法或信息,也常被采用或利用【6 1 。 ( 2 ) 新事件的识别( n e we v e n td e t e c t i o n ) :即在新闻报道信息流中识别出对一个 2 江苏大学硕士学位论文 新话题的首次报道。新事件是话题发现的第一步工作,被认为是t d t 中最有难 度的任务。 目前,在新事件识别任务中采用的典型方法是:用以向量或概率分布形式表 示的特征集合代表每篇报道,每遇到新来的报道,就将其特征集合与过去所有报 道的特征集合进行比较,据此判断该报道是否描述了一个新的话题。j a m e s a l l a n 等人认为采用这种基于文本相似性比较的简单方法已经不能指望通过简单的参 数调整来提高系统的性能【_ 7 1 ,必须要探索其他完全不同的方法,比如支持向量机 ( s u p p o r tv e e t o rm a c h i n e ) ,文档扩展等i 引。 ( 3 ) 报道关系识别( s t o r yl i n kd e t e c t i o n ) :判断两个随机选择的新闻报道是否讨 论同一个话题。多个报道对按时间排序,顺序处理。这项技术是其他几项任务的 一个重要的核心技术。一个好的关系识别系统也可用于解决话题跟踪、识别以及 对新发生事件的检测等问题。 目前,最成功的报道关系识别系统使用一个余弦相似性计算函数,并用到粒 度原理、t f i d f 模型掣9 】。停用词,词干分析,二元术语向量,增量修订t f i d f 取值,以及基于时间的罚分策略均为常为用到的一些资源和技术。 ( 4 ) 话题识另l j ( t o p i cd e t e c t i o n ) :识别出系统未知的话题,并将相关报道也识别 出来。对报道流建立一个报道簇划分系统,簇内所有报道描述同一话题,由新事 件发现和话题追踪两方面技术共同实现。该任务与文本聚类类似,但话题识别是 实时聚类,新闻报道按时间顺序流入系统。 话题识别可以看作是一种按事件的聚类,研究者常采用的算法有:对象迁移 自动机( o m a ) f l o 】、增量k - m e a n s 聚类、a g g l o m e r a t i v e 聚类、单遍聚类【1 1 l 等。 ( 5 ) 话题跟踪( t o p i ct r a c k i n g ) :监控新闻报道信息流以发现与某一已知话题有 关的新报道。用一个或几个报道定义一个话题,然后在报道流中顺序过滤出描述 该话题的所有报道。该任务与信息过滤比较相似,区别在于话题追踪的需求描述 和测试对象都具有时间效应,随时间动态演化。 目前关于话题跟踪的研究采用的策略主要集中在机器学习、查询扩展、相关 反馈、权重调整、事件框架、报道扩充、报道倾向性分类和语义框架等方面【1 2 , 1 3 1 。 常采用的方法有:k 临近分类方法、决策树方法、基于h m m 的语言模型等【1 4 】。 尽管话题跟踪研究已知的训练正例非常非常少,但系统的性能已经达到相当高的 3 江苏大学硕士学位论文 程度,可以在某些特定领域用于实用。 在这5 个子任务的基础上,t d t 在2 0 0 4 年提出一个新的子任务,分层话题 发现。 分层话题发现( h i e r a r c h i c a lt o p i cd e t e c t i o n ) :在一篇报道可描述多个话题的 前提下,话题发现的目标由原来的平面划分改为构建一个以话题簇、子话题簇为 节点的有向无环图。 对于分层话题发现,国内也有学者进行了一定的研究,于满泉等人提出的基 于多层聚类的m l c s 算法【”1 在2 0 0 4 年的t d t 评测中取得了很好的效果。 t d t 中有些概念被赋予了新的含义,例如:“话题 不再等同于信息检索中 的“主题”。因此,有必要明确t d t 中一些常用概念的含义f 1 6 】: ( 1 ) 话题( t o p i c ) - 一个种子事件或活动,以及所有与之直接相关的事件或活 动。 ( 2 ) 报道( s t o r y ) :与话题紧密相关、包含两个或多个独立陈述某个事件的子 句的新闻片断。 ( 3 ) 事件( e v e n t ) :由某些原因、条件引起,发生在特定时间、地点,并可能 伴随某些必然结果的一个事件发生在特定时间、地点,有共同的焦点或目的。 与信息检索、信息抽取、文本挖掘等几个交叉的相关研究相比,t d t 更强 调对新信息的识别能力,更关心涉及特定话题而不是相对广泛的主题类别的信 息。另外,t d t 的处理对象是随时间动态变化的语言信息流,而不是静态、封 闭的文本集合,其区别如表1 1 所示。 表1 1 ) t 与其他相关研究对比 t d t 信息检索信息抽取文本挖掘 数据动态时序数据流静态文档集合静态文档集合 静态文档集合 已知信息无 查询语句用户模版各类训练规则集 需求描述动态演化话题静态查询静态用户模版静态类别 用户是否相关否 是是否 实时要求是否否否 1 2 2 网络舆情监控 所谓舆情是指在一定的社会空间内,受中介性社会事项的刺激,作为主体的 4 江苏大学硕士学位论文 民众对作为客体的国家管理者产生和持有的社会政治态度。它是较多群众关于社 会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和【1 7 l 。 随着互联网的在中国的发展,网民数量不断增加,网络信息量越来越大,信 息在网络上传播的速度越来越快,网上突发热点事件不断出现。传统的处理主要 依靠人工进行分类与处理,由于需要实时跟踪监控的网站数量多、形式复杂、内 容广,无法及时对网上舆情作出有效反应。为解决这个问题就必须利用现代信息 技术对网络舆情进行自动监控,自动分析,从而及时应对网络舆情,提升政府危 机处理的效果,防止矛盾激化。 在t d t 相关技术的基础上,国内对网络舆情监控进行了一定程度的研究, 推出了一些成型的软件产品,如北京拓尔思的r t s 舆情监控系统【1 8 】,人民网舆 情分析系统【1 9 j ,北大方正智思舆情监控系统【2 0 】。 北大方正技术研究院的智思舆情预警辅助决策支持系统,成功地实现了针对 互联网海量舆情自动实时的监测分析,有效地解决了政府部门以传统的人工方式 对舆情监测的实施难题,对于促进加强互联网信息监管,组织力量展开信息整理 和深入分析,应对网络突发的公共事件,全面掌握社情民意都起到了一定的推动 作用。 江苏大学硕士学位论文 公务员龆厂了锈学 舆 鬣 嚣联网发布肉部网络发布 e m a 钧s m s 务 舆德须婺,舆情盥测詹息捡橐舆待援鲁仑茬他詹患 ,i r ? 矽 ! ;辅 助 决 策 支 持 骞 量 翥窦蒸塞羲奏婺 篓 鋈雪羹羹象鎏荽篙薪 羹 要词类娄折重辑溺析 翟 攫饿 态容管理平台和z 作滚弓l 擎 戤字让栗篥格爿:转纪栎豺上载数据库导入工具 蓊;黟掺引簇;s q l 桫7 一 攘弼!厨站:孝患 厨癸坷菇; 内 容 管 理 乎 厶 口 图1 1 方正智思舆情监控系统功能结构图 方正智思舆情预警辅助决策支持系统提供了以下功能: 全文检索、自动分类、自动聚类、主题检n 追踪、相关推荐与消重、关联 分析与趋势分析、自动摘要与自动关键词提取、突发事件分析、生成统计报表等 功能。 1 3 本文的主要工作 本文在前人工作的基础上,首先利用网页信息抽取技术抽取相关话题在论坛 中的传播信息,存入数据库,然后根热点事件识别的需要,提出一种关键词提取 算法进行热点事件关键词提取,最后在统计数据的的基础上定义参与“李刚门” 事件传播的“意见领袖”,利用“意见领袖行为的变化对事件的传播趋势进行 分析。主要工作如下: ( 1 ) 利用h t m l 标签树技术,正则表达式,使用火车采集软件的编程接口,设 定抽取模板与规则,直接从网页中抽取事件传播信息,存入数据库。 ( 2 ) 针对论坛热点事件关键词的特点,组织词表和背景语料,并设计算法进 行关键词权重计算,识别热点事件关键词。 6 智钱处理 鬓情分析处理 舆情采集存储 江苏大学硕士学位论文 ( 3 ) 在统计数据的基础上定义了“意见领袖”,并利用“意见领袖 传播行为 的变化对事件的传播趋势进行分析,并与传统的利用发帖数,回帖数的方法进行 对比,验证方法的有效性 1 4 本文的组织结构 本文主要基于论坛信息抽取得到的内容进行研究与实践,并利用其进行话题 识别与热点事件的传播趋势的研究。论文共分5 章,其组织结构如下: 第一章,绪论。主要介绍选题的背景和意义,论述了国内外关于话题识别与 追踪,舆情分析相关技术的研究现状,提出了本文的主要工作,并对论文的结构 进行了安排。 第二章,论坛信息抽取。利用h t m l 标签树,正则表达式等技术进行论坛多页 面特定位置的信息抽取。 第三章,论坛热点事件关键词识别。组织词表和训练语料,设计算法进行关 键词权重计算,识别热点事件关键词。 第四章,热点事件传播趋势分析。定义“意见领袖”,利用意见领袖的统计 信息变化来分析事件的传播趋势。 第五章,研究工作总结与展望。全面总结了全文的研究工作和实验结果,阐 明了作者的主要观点,指出后续进一步研究方向。 7 江苏大学硕士学位论文 2 论坛信息抽取 2 1 网页信息抽使用到的相关工具和技术 对论坛话题识别与热点事件传播趋势的研究,离不开大量数据的获取,而这 些数据均来自于网页,由于网页信息是非结构化的,这就对抽取网页中特定位置 的信息造成了困难,使得基于数据库数据查询统计的研究方法难以实现。要对论 坛进行话题识别与热点事件的传播趋势进行分析,就必须要从网页中抽取与各种 相关信息,加以分析与处理。 目前,学术界关于预处理中网页信息抽取、存储等技术的研究已经取得了一 些成果。流行的网页信息抽取技术包括:基于d o m 树的网页信息抽取方法【2 l l , 基于领域本体的信息抽取方法1 2 2 1 ,采用数据记录挖掘m d r ( m i n i n gd a t a r e c o r d s ) 2 3 1 方法,基于隐马尔科夫模型的方法【2 4 1 ,基于m d r 的改进方法d e p t a l 2 5 1 , 基于w r a p p e r 2 6 】等等,以上方法在信息抽取上都取得了一定的效果,但大多使用 到复杂的数学模型,实施较困难。工程上,现有的大多商用系统,对于网页信息 的抽取多基于网页结构的分析,利用标签模板进行网页信息的抽取,这方面的研 究包括:模板化网页主题信息提取的研究2 7 1 ,以及针对模板生成网页的自动信 息提取的研究【2 8 1 。本课题针对预处理模块所要完成的各项功能和论坛的页面结 构特点,使用一款集于u r l 分析、网页结构分析、h t m l 标签模板匹配、网页信 息抽取与数据库存存储其为一体的专业采集软件火车采集器,利用其预留的 编程接口编写采集规则与入库规则,针对论坛信息进行抽取与存储,其原理简单、 切实可行。 2 1 1 火车采集器 火车采集器( l o c o y s p i d e r ) 是合肥乐维信息技术有限公司开发的一款功能强 大且易于上手的专业采集软件,用户可以根据自己的需求,基于不同网络媒介的 特点编写网页采集和过滤规则,页面指定位置信息抽取规则,同时系统还自带有 数据发布模块编辑功能,可以很方便的把自己抽取到的信息按照自己设定的要求 存入数据库。目前,火车采集器已经成为国内使用人数最多、功能最完善、网站 8 江苏大学硕士学位论文 程序支持最全面、数据库支持最丰富的软件产品。其使用范围包括垂直搜索( 或 称为专业搜索) 服务,信息汇聚和门户服务,企业网信息汇聚,商业情报采集, 论坛或博客迁移,智能信息代理,个人信息检索,信息挖掘等。火车采集器的界 面友好,操作简单,只要掌握网页结构,h t m l 标签,正则表达式,s q l 等相关知 识,便可以自定义抽取对象,从网页中指定位置抽取数据,存入数据库。火车采 集器界面如图2 1 所示。 操作暖)任务c d 站点e 勘 视图o )打开心) 选瑷0 d工且q p 商级【u帮助q ) 新建缈毪! :兰竺“晦- 固发! 堕塑望坚墅竺1 黧签墨i ! i 望望堡望:塾垒翌! 至堕望 譬匿墨曩嘲臼l 口口 :乜目帖团团回 全佧炎菱网络簧浚较孛 ,乏空款件落伍考d i s c u zp h p c m sw e b 拜发两姑 五苴长孵h s c m sk l 戤 ( 霪站东擞据5 5 l a 豳片翻作鞲人才系缝傀 “”拓羊机建站 提示:蕾在尊重蜃投及拄麓免许帕箍内采集因果蠢引起的翻蛤与本软件无关- 话助:查羞置庄尽量工量齄室釜;壁i t :垒!边臣盘薤垃蠡 藏程:点击奎益客至塞塞蠢嚣垂盛囝 如同赢缀 开始: 2 颤 毯盘,! s 蕉篮童盔配置,! 在绂麓壹攫麓燕萋 纛建矗磊。 鑫缎蚴+ 幽 更新:当前版本为l o ,2 个人版c l o 1 1 坶重囊控曩 鼓舞:当前使用的本地保存致据库:a c c e 、,点击簋鼓盔篮聂:最 队列运行中一0 耽绪- 0 瞀停- 0 已完成一0 2 1 2h t m l 图2 1 火车采集器界面 h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) 即超文本标记语言或超文本链接标 示语言,是目前网络上应用最为广泛的语言,也是构成网页文档的主要语言。 h t m l 文本是由h t m l 命令组成的描述性文本,h t m l 命令可以说明文字、图 形、动画、声音、表格、链接等。h t m l 的结构包括头部( h e a d ) 、主体( b o d y ) 两大部分,其中头部描述浏览器所需的信息,而主体则包含所要说明的具体内容。 h t m l 标签通常是英文词汇的全称,但它们的与一般文本有区别,因为它们 放在单书名号里。有些标签说明页面如何被格式化( 例如,开始一个新段落) , 9 江苏大学硕士学位论文 其他则说明这些词如何显示,还有一些其他标签提供在页面上不显示的信息 例如标题。所以标签都是成对出现的,每当使用一个标签时,则必须以另一个标 签将它关闭。 h t m l 的常用标签如表2 1 。 表2 1h t m l 常用标签表 类别标签名 含义 h t m l 框架类标签h t m l 定义h t m l 文档 b o d y定义文档体b o d y h e a d 定义文档头信息h e a d t i t i e 定义文档的标题t i t l e h t m l 注释 标签 h t m l 图像与链接类标签a h t m l 链接标签a l m gh t m l 图像标签i m g h t m l 文字相关标签 h 定义一系列标题 p h t m l 段落标签p d i vh t m l 层d i v s t r o n g定义要强调显示的内容 h t m l 列表标签 u l 定义h t m l 列表u 1 1 i 定义h t m l 列表内容l i h t m l 表格类标签 t a b l e 定义h t m l 表格t a b l e t r 定义表格行t r t d 定义表格列t d h t m l 表单类标签 f o r m h t m l 表单标签f o r m i n p u t定义一个表单的输入i n p u t s e l e c t 定义可选择的h t m l 表s e l e c t t e x t a r e a 定义一个多行的文字输入域 2 1 3 正则表达式 正则表达式是指一个用来描述或者匹配一系列符合某个句法规则的字符串 的单个字符串。在很多文本编辑器或其他工具里,正则表达式通常被用来检索或 替换那些符合某个模式的文本内容。许多程序设计语言都支持利用正则表达式进 行字符串操作。正则表达式由一些普通字符和一些元字符( m e t a c h a r a c t e r s ) 组成。 普通字符包括大小写的字母和数字,而元字符则具有特殊的含义,在最简单的情 况下,一个正则表达式看上去就是一个普通的查找串。一些常用的表达符号功能 如表2 2 所示。 l o 江苏大学硕士学位论文 表2 2 正则表达式功能表 元字符功能描述 匹配任何单个字符。 $匹配行结束符。 匹配行的开始。 木 匹配0 或多个正好在它之前的那个字符。 f这是引用符,用来将这里列出的这些元字符当作普通的字符来进行匹配。 匹配括号中的任何一个字符。 | 匹配词( w o r d ) 的开始( ) 。 | 厂f 将( 和) 之间的表达式定义为“组”( g r o u p ) ,并且将匹配这个表达 式的字符保存到一个临时区域。( 一个正则表达式中最多可以保存9 个) , 它们可以用1 到9 的符号来引用。 将两个匹配条件进行逻辑“或”运算。 + 匹配1 或多个正好在它之前的那个字符。 ) 匹配0 或1 个正好在它之前的那个字符。 i ) i ,j 匹配指定数目的字符,这些字符是在它之前的表达式定义的。 2 1 4s q l 语言 s q l ( s t r u c m r e dq u e r yl a n g u a g e ) 结构化查询语言,是一种数据库查询和程序 设计语言,用于存取数据以及查询、更新和管理关系数据库系统。s q l 作为一 种高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指 定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不 同底层结构的不同数据库系统,可以使用相同的s q l 语言作为数据输入与管理 的接口。它以记录集合作为操作对象,所有s q l 语句接受集合作为输入,返回 集合作为输出,这种集合特性允许一条s q l 语句的输出作为另一条s q l 语句的 输入,所以s q l 语句可以嵌套,这使他具有极大的灵活性和强大的功能,在多 数情况下,在其他语言中需要一大段程序实现的功能只需要一个s q l 语句就可 以达到目的,这也意味着用s q l 语言可以写出非常复杂的语句。 s q l 语言可以分为数据定义语言,数据操作语言,数据查询语言,数据控制 语言4 个部分,各部分描述如表2 3 所示。 江苏大学硕士学位论文 表2 3s q l 语言基本分类 s q l 种类描述 数据定义语言( d d l ) ,c r e a t e 、d r o p 、a l t e r 等语句。 数据操作语言( d m l ) ,i n s e r t ( 插入) 、u p d a t e ( 修改) 、d e l e t e ( 删除) 语句。 数据查询语言( d q l ) ,s e l e c t 语句。 数据控制语言( d c l ) ,g r a n t 、r e v o k e 、c o m m i t 、r o l l b a c k 等语句。 2 2 论坛中信息的抽取 在话题与事件的传播过程中,论坛具有十分重要的多用,其重要性主要体现 在以下几点: 第一,从响应时间上来说,论坛反映往往十分迅速,由于在论坛上人人都有 信息发布的权利,与门户网站和主流媒体相比,省去了编辑选择核对的时间,所 以论坛往往能在事件发生后的第一时间作出反应。 第二,从人员地位来说,与博客和微博相比,人与人之间的地位更加平等, 在博客与微博中,由于名人效应的不断放大,人们关注的焦点往往集中在少数名 人博客,而在论坛上,人们更关注的往往是信息本身而不是谁发布了信息。 第三,从讨论的深度和广度来说,与贴吧相比,由于贴吧基于关键词而存在, 而关键词本身往往限制了讨论的的主题,所以不能向论坛那样更加广泛和综合的 对事件进行分析和评论。 第四,对热点事件的的筛选,百度指数基于用户关注度和媒体关注度,只有 一定量的积累后才会对事件作出反应,另外,由于每天更新的新闻事件本身也会 造成关键词关注度的提升,所以难以从指数上升本身来筛选热点事件。而论坛上 由于传播的持续性和用户群体的稳定性,可以更准确的发现热点事件。 在本文的研究中,选择天涯社区相关帖子为研究对象。下面是天涯社区的相 关介绍: 天涯社区,创办于1 9 9 9 年3 月,自创立以来,以其开放、包容、充满人文 关怀的特色受到了全球华人网民的推崇,经过十年的发展,天涯社区已经成为中 国最大的以人文情感为核心的综合性虚拟社区和大型网络社交平台。目前,天涯 社区注册用户超过5 0 0 0 万,拥有数百万高忠诚度、高质量用户群所产生的超强 人气、人文体验和互动原创内容,成为华语圈首席网络事件聚焦平台。由于论坛 1 2 江苏大学硕士学位论文 的访问量较大,忠实网民的基数庞大,在天涯社区中可以很方便的找到大量高点 击,高回复的帖子,这就为本文对热点事件传播的研究创造了前提。天涯社区包 括天涯杂谈、情感天地、舞文弄墨、关天茶舍、经济论坛、闲闲书话、诗词比兴 等等5 4 个版块,其中关天茶舍、天涯杂谈、舞文弃墨、时尚资讯、贴图专区、 娱乐八卦、情感天地等版块日p a g e v i e w 超过1 5 0 万,在业内具有较高的地位。 其中,天涯杂谈做为天涯社区中最大和最具影响力的版块,在中国的网络舆 论界有着举足轻重的地位,从2 0 0 8 年的三鹿奶粉特大食品卫生安全案件,贵州 瓮安事件,到2 0 0 9 年的湖北巴东邓玉娇案,杭州富二代飙车案,再到2 0 1 0 年的 “李刚门 ,浙江乐青钱云会案,在这些网络热点事件的背后,天涯杂谈均在事 件的初始和后续传播中发挥了巨大的作用。 2 2 1 论坛中的一些基本概念 首先定义网络论坛中几个重要的概念:版块,版主,帖子,主贴,回帖,发 帖人,回帖人,导航区。 版块:论坛是由很多的板块构成,版块与版块之间侧重点各有不同,属于人 工分类的范畴。 版主:版块的管理者,负责帖子审核和管理版块日常事务 帖子:一个帖子是指作者就某个问题在特定版块内发表的论述性文章。它分 为两类:主贴与回帖。一个帖子具有四个特性:发表时间、作者、标题以及论述 内容。 主贴:对特定问题讨论的发起者所为,起着发起一个论题讨论的作用。 回帖:对特定问题讨论的参与者所为,对主贴的观点提出看法和意见。 发帖者:主贴的作者,版块内的“意见领袖”,二级传播的核心力量。 回帖者:回帖的作者,版块内信息的接受者反馈者,三级传播的核心力量。 导航区:一个版块内帖子网址的集合,通常按最新回帖时间顺序排列。 当事件发生后,人们会迅速在特定的版块聚集,寻找和发表与事件相关的信 息与看法,产生事件相关的的讨论,这些讨论可以是关于该突发事件发生的时间、 地点、原因以及相关的背景知识或是事件的后续情况。相关的帖子在一定时间内 大量出现,持续讨论特定的话题,这就为我们对其行为模式的研究创造了便利条 江苏大学硕士学位论文 件。 2 2 2 天涯社区的页面要素分析 文件吧j嘲吧)查看世) 哆叠逸) 工且辽) 帮助凹 挚 图2 2 天涯杂谈的首页 图2 2 是天涯社区天涯杂谈版块的导航区页面,网民进入这个版块之后可以 很方便的浏览各种帖子,这里主要介绍版主,版面推荐,论题区,站内检索,发 帖信息,回帖信息6 个要素。 版主:指的是页面上部“斑竹 一栏的的显示i d ,版主分为两种,现任和 实习,其权限有所不同,版主是版面日常事务的管理者,在版块内拥有很大的权 限,天涯杂谈的论题发表实行审核制,作者写好帖子之后,只要帖子符合社区的 要求,就可提交成功,然后帖子会由版主进行审核,审核通过后即可发表。版主 大部分由热心网民担任,只要热心论坛工作,符合一定条件就可提出版主申请, 由社区审核通过后进行公示,无大的异议后方能继任。天涯杂谈之所以在网络舆 论界有现今如此的地位,与其宽松的言论环境密不可分,由于版主大多来自网民, 所以其审核的标准非常灵活,这就为网民营造了一个十分自由的言论氛围。一些 观点较为激烈尖锐的帖子仍能得以发表并引发很大的争论。 1 4 江苏大学硕士学位论文 版面推荐:版主栏下方与论题区之间的区域,这个区域的内容由版主人工设 置,通常是近段时间内版块的热点话题,或是具有高点击,高回复,或是观点具 有较大的争议性,版块推荐对事件信息传播具有推波助澜的作用,很多网络热点 事件例如“李刚门 ,“邓玉娇案”,“药家鑫案 都曾作为版面推荐的论题在这个 区域存在较长的时间。引来了大量的网民参与讨论。 论题区:帖子的集合,每一行都显示了一个标题,作者,访问数,回复数, 最新回复日期,帖子按照最新回复的时问排列,这就意味着早期发的帖子仍有机 会出现在版块首页,使后来者看到并参与讨论。每一页论题区显示1 0 0 个帖子, 这就使得网民可以在短时间内浏览大量的标题,迅速找到自己感兴趣的话题参与 进去。 站内检索:在导航区页面的右上角,是天涯社区提供的对社区内帖子进行检 索的功能,通过输入关键词,可以很方便的找出所有包含关键词的帖子。另外, 通过社区提供的高级检索设置,可以在指定的版块内进行搜索,并对搜索结果按 照回复数或回复时间进行排序显示。本文对热点事件传播趋势的研究即是通过检 索天涯杂谈论题中包含“李刚”,“李启铭 ,“河北大学”,“陈晓凤”,“张晶晶 这五个关键词的帖子来获取抽取对象的。站内检索页如图2 3 所示。 文件屯)嘲王t 哩】收置射工j 旺i 帮助叫 挚 o 雕o 固鸯舀歹j 精燃彤转。翊,o1 t 畦i 亡c 鹳h t t p ,dt 1 n r c 一:t t ,f 1 ;l 嘶叫却。菇。j f :o 岳1 i i 屯o i m i b 蜘5 h ,d ,:b 1 0 4 8 盯8 口0 3g 芷8 3 49 3 31 1 2 2 :3 1 3 2 一:3 1 2 ii 口转捌妊姆i 莉: 一 图2 3 天涯社区的检索页 江苏大学硕士学位论文 发帖信息:图2 4 是进入一个论题之后显示页面的发帖信息部分,在页面上 部的“天涯杂谈标签之后是帖子的论题,下部左端是帖子的点击数与回复数, 由于版主具有删除小广告,清楚谩骂回复的任

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论