




已阅读5页,还剩46页未读, 继续免费阅读
(教育技术学专业论文)网络论坛监测系统研究与原型实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着w e b 2 0 技术的成熟和广泛应用,网络论坛在人们的日常生活和工作学习中 扮演着越来越重要的角色,人们可以自由方便地在网络论坛中与他人沟通交流。网络 论坛的诸多优点吸引了大量网络用户参与其中,这些用户的在线活动使得网络论坛中 积累了海量的信息资源。由于互联网的开放性和网络监管机制的滞后性,网络上的信 息呈现出良莠不齐的特点,网络论坛往往容易沦为被人利用的工具,如不能对论坛进 行有效管理,可能就会对社会造成危害。另外,随着网民使用网络程度的加深,势必 会对原有的人际交往和社会结构发生重大影响。作为网络化的社会群体,论坛中用户 交流及其规律等也越来越受到研究者的关注。本研究的目的就是给网络论坛的研究者 和舆情研究人员提供一个网络论坛的监测工具。 本文通过对国内外相关技术的研究,结合当前需要,设计开发了一个网络论坛监 测系统的原型。本系统将论坛的数据采集系统和数据报表系统有机组合,构成了一个 有效的半自动监测系统平台。 网络论坛的信息抽取是本系统的构建核心,由于论坛的结构特点和论坛监测研究 的需要,现有的数据采集程序不能适用于论坛信息的抽取,本文基于对论坛页面结构 特点的分析,提出了基于重复模式发现的论坛信息抽取,较好地解决了在论坛信息抽 取过程中需要人工查找、定位重复模式或者通过人工分析论坛页面代码定制抽取规则 的问题。经过实验验证,该方法具有较好的准确性、通用性和实用性。 在论坛数据抽取结果的基础上,结合报表技术,本文设计实现了论坛监测的显示 部分。最后,为检验整个系统的实用性和可行性,课题选取了清华大学网络学堂部分 课程论坛进行了模型实验,并根据报表的数据情况,对结果进行了讨论和分析。 关键词:网络论坛,论坛监测,重复模式,论坛抽取 a b s t r a c t a b s t r a c t w i t ht h em a t u r i t ya n da p p l i c a t i o no fw e b2 0t e c h n o l o g y , t h ew e bf o r u m p l a y sam o r e a n dm o r ei m p o r t a n tr o l ei np e o p l e sd a i l yl i f e ,w o r k i n ga n ds t u d y i n g i nt h ew e bf o r u m , p e o p l ec a l lc o m m u n i c a t ew i t ho t h e r sf r e e l ya n dc o n v e n i e n t l y f 治6f o r u mh a ss om a n y a d v a n t a g e st h a ta t t r a c t e dal a r g e rn u m b e ro fn e t i z e n s ,a s ar e s u l t ,w e bf o r u m sh a v e a c c u m u l a t e dv a s ta m o u n t s o fi n f o r m a t i o nr e s o u r c e s b e c a u s eo ft h eo p e n n e s so ft h e i n t e m e ta n dt h eu n d e v e l o p e dm o n i t o r i n gs u r v e yo ft h ew e b s i t e ,t h ei n f o r m a t i o no nt h e i n t e r a c ti su n e v e n , a sar e s u l t ,t h ew e bf o r u mi so f t e ne a s i l yb e i n gu s e da sat 0 0 1 i ft h e r ei s n oe f f e c t i v em a n a g e m e n t ,t h ew e bf o r mm a y b eh a r m f u lt ot h es o c i e t y i na d d i t i o n , w i mt h e f u r t h e ru s eo ft h ew e bf o r u m ,i tw i l lh a v eas i g n i f i c a n ti n f l u e n c eo nt h e o r i g i n a l i n t e r p e r s o n a li n t e r c o u r s ea n ds o c i a ls t r u c t u r e a saf o r m o fn e t w o r ks o c i a lg r o u p , r e s e a r c h e r sp a ym o r ea n dm o r ea t t e n t i o nt ot h ed i s c i p l i n eo fw e bf o r u mc o m m u n i c a t i o n a n ds oo n 1 1 1 er e s e a r c hs u b j e c to ft h ei s s u ei st op r o v i d eam o n i t o r i n gp l a t f o r mf o rt h e r e s e a r c h e r so nw e bf o r ma n dr e s e a r c h e r sw h oc o n c e r n sw i t l lt h ep u b l i co p i n i o n so f n e t w o r k t h r o u g ht h er e s e a r c ho nd o m e s t i ca n df o r e i g nt e c h n o l o g i e s ,t h ed i s s e r t a t i o nd e s i g n sa p r o t o t y p eo fm o n i t o r i n gs y s t e mo f 黝f o r u ma c c o r d i n gt ot h er e s e a r c hp u r p o s eo ft h e i s s u e s n es y s t e me f f e c t i v e l yc o m b i n e sd a t aa c q u i s i t i o ns u b - s y s t e ma n dc r y s t a lr e p o r t s u b s y s t e mo r g a n i c a l l yt oc o n t r i b u t ea ne f f e c t i v es e m i a u t o m a t i cm o n i t o r i n gs y s t e m p l a t f o r m t h e p r i m a r yt a s ko ft h es y s t e mi si n f o r m a t i o ne x t r a c t i o nf r o mw e bf o r u m b e c a u s eo f t h es t r u c t u r eo ft h ew e bf o r u mp a g e sa n dt h er e q u i r e m e n to f m o n i t o r i n g ,t h ee x i s t i n gd a t a a c q u i s i t i o np r o g r a mc a nn o ta p p l yt ot h ei n f o r m a t i o ne x t r a c t i o no nw e bf o r u me f f e c t i v e l y a c c o r d i n gt ot h es t r u c t u r ea n a l y s i so ff o r u mp a g e s ,t h i sd i s s e r t a t i o ni n t r o d u c e sa l l i n f o r m a t i o ne x t r a c t i o nm e t h o df o rw e bf o r u mb a s e do nr e p e a t e d p a t t e r nd i s c o v e r y a l g o r i t h m 。功em e t h o ds o l v e dt h ep r o b l e mt h a tp e o p l eh a v et oa r t i f i c i a ll o c a t i n gt h e r e p e a t e dp a t t e r no rm a n u a la n a l y s i sp a g es o u r c ec o d ef o rt h ee x t r a c t i o nr u l e s t h e e x p e r i m e n t a lr e s u l ts h o w st h a tt h i sm e t h o dh a sh i g ha c c u r a c y , g o o du n i v e r s a l i t ya n d p r a c t i c a l i t y b a s e do nt h e p r e p a r a t i o n s o fd a t ae x t r a c t i o n , c o m b i n e dw i t h c r y s t a lr e p o r t t e c h n o l o g i e s ,t h ed i s s e r t a t i o nd e s i g n e da n di m p l e m e n t e dt h eo t h e rp a r to fp l a t f o r mf o rw e b f o r u mm o n i t o r i n gs y s t e m a tl a s t ,i no r d e rt ot e s t i f yt h ef e a s i b i l i t ya n dp r a c t i c a l i t yo ft h e e n t i r es y s t e m ,w es e l e c t e dt h ec o u r s ew e bf o r u mo ft h et s i n g h u an e t w o r ks c h o o la sa m o d e lt oc o n d u c ta n e x p e r i m e n tt h e nt h er e s u l t sw e r ed i s c u s s e da n da n a l y z e di n a c c o r d a n c ew i t ht h ec r y s t a lr e p o r t k e y w o r d s :w e bf o r u m ,f o r u ma n a l y s i s ,r e p e a t e dp a t t e r n ,f o r u me x t r a c t i o n 第1 章前言 1 1 课题研究缘起 第1 章前言 随着i n t e m e t 和相关技术的发展与成熟,互联网规模只益扩大,i n t e n e t 尤其是 w w w ( w o r l dw i d ew 曲) 逐渐成为人们发布和获取信息的平台。w w w 是i n t e m e t 上提供的最主要、应用最广泛的一种信息服务,它作为信息发布渠道以及全球化的 信息空间,渗入到世界的各个角落,使信息的发布、共享与查询不再受到时间和空 间的限制。w e b 论坛是网络上的虚拟社区,最初形式是网络电子公告牌,其早期只 是用户可以发表一些信息,如股票价格,商业信息等。随着网络的普及及其对人们 日常生活影响,w e b 论坛富于交互性、即时性、开放性的特色逐渐吸引了大批网络 用户,而且还呈不断增长的趋势。其内容涵盖的范围已从早期的少量有限的主题扩 展到技术、商业、新闻、娱乐、体育等日常生活的方方面面。在组织形式上也是不 断细化,具有相同兴趣和关注范围的人们总能很方便地在论坛提供的虚拟空间中聚 集,以极高的效率实现交流的需要,而获得特定的信息。w e b 论坛由于其巨大的资 源和影响力成为我们所关注的焦点。网络论坛在人们的生活和学习中扮演着越来越 重要的角色。论坛站点已成为信息化社会的重要组成部分。随着论坛的用户数不断 增加,论坛中积存了大量的信息资源,论坛中用户交流及其规律等研究也越来越受 到研究者的关注。网络论坛是一个人们可以自由交流的场所,但如果不能对论坛进 行有效管理,可能就会对社会对他人造成不好的影响。因此急需有效的信息抽取和 分析方法来对论坛信息进行监测分析。作为对社会和人们生活有着前所未有的重要 作用的论坛,如何去管理和分析这一庞大的数据,是人们迫切需要研究的问题。 1 1 1 网络论坛的发展现状 国家互联网络信息中,i , ( c n n i c ) 2 0 1 0 年1 月1 5 日在北京发布的“第2 5 次中国 互联网络发展状况统计报剖1 】显示,截至2 0 0 9 年1 2 月3 1 日,中国网民规模达到 3 8 4 亿人,普及率达到2 8 9 。网民规模较2 0 0 8 年底增长8 6 0 0 万人,年增长率为 2 8 9 。报告中的一份问卷调查显示,有四成至七成的网民分别有使用网上论坛、 社交网站、浏览他人的博客等网络经验。参与论坛的用户由2 0 0 8 年的9 ,1 0 0 ( 万人) 到2 0 0 9 年的1 1 ,7 0 1 ( 万人) ,其中大部分网民参与了论坛的交流。网民使用网络社 区的积极性正在逐渐增强;网民使用网络程度的加深,势必对原有的人际交往和社 会结构产生重大影响。网络论坛对人们的生活和学习有如此大的影响力是选题的原 因之一。 第1 章前言 1 1 2 课题研究的必要性与可能性 论坛在最近几十年的时间里得到了如此快速的发展,有以下原因: ( 1 ) 论坛交流可以使参与者不拘泥于时间、地点上的限制: ( 2 ) 论坛交互的方式方便参与者更好地组织自己的思维和语言。特别是对于一 些在众人面前交流比较害羞的群体,论坛无疑成为他们与人交流的首选; ( 3 ) 论坛技术非常成熟,对于软硬件条件和网络环境要求不高,比较容易搭建。 诸多的优势,使得论坛交流成为人们网络交流的重要方式之一。 网络的发展打破了人们传统的交流方式,人们足不出户便可以与它人进行沟通 和交流。不同用途的论坛也如雨后春笋,有的论坛人气非常旺盛,有的却一直冷冷 清清。人气比较旺盛的如天涯虚拟社区、西祠胡同、著名高校的b b s 、以及网易、 新浪、腾讯等几大门户社区;不景气的论坛也占有相当大的一部分,如针对网络课 程架设的课程论坛,往往是在线人数比较少。不管是对人气旺盛的论坛还是对人气 不济的论坛,都需要对论坛的交流进行监测。其原因如下: ( 1 ) 不少论坛自身也有监测的部分功能,但总体来说,还不够完善,对论坛的 监测也是根据特定的需求而进行的开发。另外,由于论坛在人们的生活中扮演的角 色越来越重要,论坛的舆情分析【2 】【3 】【4 l 也是当f j 信息安全部门的一项重要工作,如不 能及时预测和控制舆论的传播,甚至会危害到社会安全。这就需要一个客观的、独 立于论坛之外的,可以对现有的论坛的一个统一的监测平台。如中国人民公安大学 目前就有针对某管辖区域内的论坛而丌发监测分析系统的在研项目,其主要目的是 针对安全的需要。 ( 2 ) 论坛是一个社会群体的缩影,论坛中的交流活动存在着一些社会规律1 5 j , 不少社会学研究者对此展开一系列研究。论坛中的数据无疑是我们研究分析论坛的 一个基础。以往人们对论坛中的规律进行研究时,一般都是通过人工来获取论坛数 据,大大降低了研究的效率和即时性。另外,由于人工采集的局限性,对于拥有海 量数据的论坛进行研究分析时,只能取其部分数据进行分析,这就降低了研究来源 的可靠性。本研究通过计算机程序实现了对论坛数据的采集。 ( 3 ) 网络论坛在网络教育领域中受到了广泛的欢迎,教育部门重点支持建设的 精品课程、网络课程、电大在线课程评价指标中都有关于交互的评价,网络学习中 的交互功能一般由网络课程论坛承担。单纯对网络课程的定性评价难以全面反映网 络课程交流、使用的现状,通过论坛监测系统来实现课程论坛定量评价有着重要的 研究意义和研究价值。首先,论坛作为一项比较成熟的技术,可以方便地在网络课 程中架设,调研表明,大部分网络课程都有课程论坛;其次,已有的网络课程的评 价往往都是集中在定性评价方面,然而,单一的定性评价不足以反映网络课程的使 2 第1 章前言 用情况,要对网络课程进行更为科学更为客观的评价,需要将定性评价和定量评价 结合起来,论坛的使用和利用情况可以为定量评价提供良好的数据支持;再者,根 据建构主义的思想,网络课程评价的最终目的是促进学习,所以评价不应只注重学 习结果,对于学习过程的监测和评价调整更为重要,通过对学习者在论坛的活动进 行监测可获取这些信息;最后,对网络课程进行综合评价后并不意味着评价活动的 结束,必须把评价信息反馈给网络课程的制作者和使用者,制作者和使用者根据评 价信息对网络课程进行修改和调整,再次投入使用进行综合评价,继而再反馈,再 次修改和调整才能使网络课程的质量不断提高。所以,从网络课程的角度出发,构 建这样一个面向网络课程的论坛的交互监测系统也是网络课程自动量化系统的一 个重要部分。 综上所述,从信息安全角度考虑,建立一个针对论坛监测分析的工具是很有必 要的;其次,论坛的海量数据包含着大量的信息,如何发现这些数据中隐含的信息 也需要一个监测平台;最后,要对网络课程中的交互应用情况更为全面客观的评价, 建立这样的一个客观的、独立于论坛之外的、统一的论坛交互监测系统也是很有必 要的。随着计算机信息抽取、数据挖掘等技术的逐步成熟,网络论坛的监测系统通 过计算机技术实现变为了可能。 论坛数据项的抽取属于数据挖掘范畴【6 1 ,其重点就是从b b s 网页中的半结构化 的信息中将用户信息、帖子信息抽取出来,并将这些数据转换成结构化的并且语义 更加清晰的格式。w e b 信息抽取方法不但可以直接定位到用户所需信息,而且可 以以一定的方式将数据组织起来,为网络论坛中相关规律的分析提供数据平台支,j j 持。 通常对论坛中的规律进行研究一般都是通过人工的方式采集各项数据,然后借 助s p s s 、u n i t e 等统计软件进行分析,使用这些软件还需要较为专业的知识。另 外,论坛的动态特征,传统采集数据的方法显得力不从心。对于数据量较少的论坛 人工方法还可以进行,对于数据量比较大的论坛,只能采集论坛中部分数据,通常 做法只取某个时间段内的部分数据进行分析研究。随着数据挖掘等相关技术的发 展,这些工作通过计算机程序完成已经完全可能。 1 2 课题国内外研究现状 网络论坛在国内外被广泛的使用,关于它的研究文献也在迅速增加。其价值已 被越来越多的人所认可。目前的研究主要集中在:论坛的设计开发、论坛信息搜索、 论坛的信息抽取、论坛的交互规律研究、论坛舆情监测分析等。 3 第1 章前言 1 2 1 国外研究现状 国际上,有关b b s 的研究已成为一个重要的研究领域【7 】【8 】【9 】【1 0 1 ,国内外学者进 行了多方面的研究工作。如:基于网络心理学和网络虚拟社区的研究;网络讨论组 的研究( 包括邮件列表、新闻组、电子公告栏系统b b s ) ;网络论坛的不良信息监控; 网络论坛舆情分析研究;b b s 讨论规律和社会网络关裂1 1 】的研究。 国外网络监测相关的软件有p i n g p l o t t e r 、n e o t r a c e 、w h e r e l s i p 、m e g a p i n g 等, 但是它们共同的特点是功能比较单一,只能实现对于网络物理层或数据链路层层面 的监测,不开源,兼容性和稳定性都比较差。总结现有网络监测软件的特点之后发 现,仅有的几款网络工具不能实现对网络论坛从整体上监测分析,得到的数据对论 坛的后续研究来说没有利用价值,并且不开源,所以软件的维护和故障检测比较困 难,不利于实验室根据自身的需求调整功能和进行二次开发。 另外,w e bf o r u mr e a d e r 是一个独特的论坛信息阅读器,可以将关注的论坛加 入收藏列表,对新增和更新的帖子进行监测。它使用方便,可以同时监测多个论坛, 是一个很有用的网络应用工具,但不可以从整体上进行监测。 著名的搜索引擎站点g o o g l e 在2 0 0 3 年就推出了网络论坛的检索功能。y a h o o 和s o h u 都专门为论坛而特殊设计了搜索系统。专门的论坛搜索引擎有l y c o s d i s c u s s i o n ss e a r c h 、q i h o o 论坛搜索等。这些搜索引擎都只是简单的内容检索,存 储的是论坛的页面,最多仅对页面建立索引,满足不了对论坛数据进行分析的需要。 对论坛监测分析重点和难点都在对论坛的数据采集阶段。微软亚洲研究院对论 坛的爬虫程序研究较为集中,如微软亚洲研究院r u ic a i 对论坛抽取进行了深入的 研究,并在文献1 1 2 j 中总结了论坛抽取与普通w e b 抽取的不同和难点:( 1 ) 通用的 w e b 蜘蛛爬行器会有采集深度限制,而这种策略在论坛的采集中却是无效的,对 论坛来说,最具有价值的页面往往在网站的最深层结构。( 2 ) 论坛的主题索引页面 和论坛的内容页面存在着一定的指向关系,正是由索引页面和内容列表页面才共同 组成了完整的信息整体,而一般网站的w e b 页面都是相互独立的。( 3 ) 论坛存在 大量的采集陷阱,对于同一个帖子页面,可能有不止一次的链接指向。( 4 ) 论坛存 在分页功能,一般情况下,由于论坛的数据量变大,系统往往会采用分页功能。微 软亚洲研究中心y w a n g 在文献【1 3 j 提出了论坛蜘蛛的爬行策略:针对论坛的结构的 特殊性,先是重新构建论坛的网站地图,然后网络蜘蛛对这个网站地图进行爬取, 这个网站地图的页面结构主要包括三类的页面,b o a r d 页面,t h r e a d 页面,l i s t 页 面,这些页面通过链接的关系进行关联。通过文献分析,国外有关论坛抽取、监测 的研究在继续深入研究中。 4 第1 章前言 1 2 2 国内研究现状 国内针对b b s 的研究多是从社会掣5 】【1 4 】、舆论引导【1 5 】、心理学、语言学的角 度出发,从技术角度开始研究论坛起步较晚。 中国网络情报中心推出论坛情报监测功能,对一些有影响力的论坛,包括行业 性较强的论坛,为了更全面的监测相关的信息,中国网络情报中心推出“论坛情报 监测”服务,除了新闻的监测,还可以通过此服务更全面、快捷的获得论坛上的信 息情报,快速发现危机信息,方便决策制定、危机应对。 中科点击开发的军犬网络舆情监控系统使用强大的采集软件,对数千网站进行 监控,可以自动获取舆情信息的热度,并生成报表。同时可以获取热点主题的浏览 量、回复数,并跟踪发帖人,对舆情信息进行管理、标注和分类,并根据重要性对 舆情信息进一步筛选和过滤。 乐思软件开发了乐思论坛采集系统,可以快速而大量地获取目标论坛的各种原 始信息到数据库中,主要功能为:根据用户自定义的任务配置,批量而精确地抽取 目标论坛栏目中的主题帖与回复帖中的作者、标题、发布时间、内容、栏目等,转 化为结构化的记录,保存在本地数据库中。但使用软件的用户需要有相当的专业知 识才能进行使用。 。 中国人民公安大学有针对网络论坛监测的在研项目“市论坛监测系统研究 与实现”,该系统为公安厅项目,系统功能主要对管辖区的论坛进行监测分析,保 障辖区内论坛的信息安全。鹭 国内的论坛搜索引擎有五家,分别是q i h o o 论坛搜索、帖易( t e e i n c o m ) 、中 搜论坛搜索、t e e b i t 论坛搜索和c h i n a b b s 的找帖子。这些搜索引擎都只是简单的 内容检索,存储的是论坛的页面内容,满足不了对论坛数据进行分析的需要。 论坛信息的抽取作为论坛研究的一个重要方面,南京大学计算机软件新技术国 家重点实验室针对论坛的信息抽取进行了研究,对论坛中的消息、发信人、发帖时 间、标题采用基于规则的方式进行了抽取,基本实现了论坛信息的准确抽取。文献 【1 6 j 针对大规模的社会性论坛进行了抽取研究,取得了一定的成果。解放军信息工程 大学的肖建鹏在文献旧中采用基于后缀树的方式对w e b 论坛进行了信息抽取,不 论是召回率还是回收率,都有了明显的提高。中国科学技术大学的蒋凡在文献【1 8 】 针对传统的b b s 论坛中有影响力主题计算方法的不足,通过计算词语在回帖传播 链上的影响力,提出了一种根据对有影响力词语聚类的方法发现b b s 论坛中具有 影响力的主题,它能够使用户和论坛管理人员及时、方便准确地提取重要的主题信 息。大连海事大学的姚晓娜在文献【1 9 1 中,为了实现对b b s 网页的自动采集和信息 抽取,采用h t m l p a r s e r 包和正则表达式对h t m l 类型的b b s 网页进行解析,从 5 第1 章前言 中抽取b b s 帖子线索的各项信息,并将抽取结果存入x m l 文件中,文献【2 0 j 利用数 据挖掘技术较好地实现了对论坛文本信息的抽取。 由于计算机网络等技术发展,论坛在人们的日常交流和学习中扮演着越来越为 重要的角色,国内外的不少研究机构也对此进行着更为深入的研究。并且目前研究 预测,关于论坛的研究在未来一段时间内还会持续成为人们研究的热点。通过文献 调研发现,对论坛的研究,人们根据不同的目标,从安全角度、舆论角度、社会角 度等对论坛有针对性的进行研究。虽然研究角度各异,论坛的信息抽取都是一个必 须的步骤,如何做到论坛信息的准确抽取是本研究的难点和重点,最后,本研究根 据研究需要,设计开发了论坛监测平台。该平台可以为后续的其他研究提供采集的 论坛数据,并根据研究的需要,有针对性的对论坛进行了监测分析。 1 3 课题研究目标与研究内容 1 3 1 研究目标 论坛作为一种沟通交流的有效工具,其重要性越来越受到人们的重视,通过对 国内外的研究现状分析,已有方式已不能满足人们对论坛研究的需要。 本研究根据论坛的结构特点和信息抽取技术的可行性,提出了论坛重复模式发 现算法,设计并开发了论坛监测系统原型,为信息安全部门、论坛研究者提供直接、 客观、量化的数据,以便对论坛进行更客观、科学地分析。 1 3 2 研究内容 本文利用信息抽取等计算机前沿技术,设计开发了一个对网络论坛进行监测 分析的系统平台,通过平台可以直观的查看论坛基本情况,如运行情况和交互规 律,为后续的研究提供可靠的论坛原始数据支持和保障。本文在充分研究现有相 关技术的基础上,采用与实证研究相结合的方法,提出并设计了论坛的监测分析 原型。本研究主要针对要实现的各个功能,提出解决方案,来解决市面上一些网 络监测软件的不足,设计了一款适合实验室研究人员或信息安全机构使用的网络 论坛智能监测平台,保证了研究数据的可靠性,提高了研究人员的工作效率和研 究的准确性。具体完成的工作有: ( 1 ) 对网络监测技术、h t r p 协议、x p a t h 技术、数据挖掘技术和论坛信息抽 取技术进行深入的学习和系统研究。掌握这些技术的研究现状,发展趋势和优缺 点,根据论坛监测系统的需要,分析研究技术的可行性,找出系统与技术开发的 结合点。 6 第1 章前言 ( 2 ) 根据整个项目的监测需要和舆情分析中人们对论坛监测的需要,设计开 发一套完整的系统方案。 ( 3 ) 论坛信息采集方面,根据实验室已有的爬虫资源,根据论坛抽取的需要 修改和完善,以实现对论坛的信息项进行准确抽取。 ( 4 ) 根据论坛页面的结构特点,提出了基于重复模式发现算法的论坛信息抽 取方案,实验数据测试结果表明,该方案可以实现高召回率和高准确率的论坛信 息抽取,为论坛的监测分析提供可靠的数据保障。 ( 5 ) 根据研究的需要和目前研究人员对论坛监测的重点,本研究设计并最终 实现了数据的可视化报表,为使用人员提供直观、明了的统计数据支持。 ( 6 ) 最后,对该研究和系统进行了分析总结,并针对系统实用性和通用性的 特点,为未来的研究中需要改进之处指明了方向。 1 4 课题研究成果与创新之处 , 1 4 1 研究成果 本研究根据当前论坛监测的需求,设计开发了针对网络论坛的监测分析系统原 型。该系统可以为研究人员和用户提供直观的、准确的关于论坛的数据统计信息, 为论坛进一步的分析研究和论坛的舆情分析等研究提供可靠的数据保障和数据支 持。并且,本研究根据论坛页面的结构特点,提出了基于重复模式发现算法的论坛 信息抽取模式。实验数据表明,该方法可以实现高召回率高准确率的论坛信息抽取。 1 4 2 创新之处 ( 1 ) 设计了较为通用的论坛监测系统;实现了论坛的半自动化监测系统原型。 ( 2 ) 根据论坛页面的结构特点,提出了基于重复模式发现方法的论坛信息抽 取;实验结果表明,该方法有很好的适用性和通用性。 7 第2 章网络论坛监测系统总体设计 第2 章网络论坛监测系统总体设计 2 1 系统需求分析 随着网络技术等计算机技术的发展,i n t e r n e t 在当今的人们的生活中扮演着愈来 愈重要的角色。论坛交流已经成为当今人们沟通交流比较流行的方式。如当今国内 最大中文聊天社区天涯社区,有注册用户超过3 0 0 0 万,平均同时在线用户不少于 2 0 万,除了天涯社区外,其他如西祠胡同也通常有几万的在线人数,人民网强国论 坛,网易、腾讯、新浪等几大门户网站的论坛也是人气非常活跃的论坛。除了这些 有较大影响的论坛外,其他专业性论坛、区域性论坛也是遍地开花。各大院校也都 有自己的论坛,比较出名如水木社区、北大未名湖、南大小百合在教育领域都有一 定的影响力。教育部门这些年重点推广的网络课程课程论坛作为网络课程体现 交互性的最佳表现方式、师生交流、生生交流有效的工具一般都会架设在网络课程、 精品课程中。 w e b2 0 的出现使得用户不仅仅是浏览网页信息,而且可以真正参与其中。尤 其是对论坛来说,在短时间内论坛这些庞大的在线人数就能产生大量的数据信息。 随着论坛的用户数不断增加,论坛中积存了大量的信息资源,论坛的信息抽取成为 w e b 信息抽取的重要组成部分。作为对社会和人们生活有着前所未有的重要作用 的论坛,如何去管理和分析这一庞大的数据资源,是人们迫切需要研究的问题。因 此急需有效的信息抽取和分析方法来支持论坛的信息监测分析。 ( 1 ) 以往人们对论坛研究分析时,通常采用人工的方式收集数据,然后借助其 他软件工具统计收集的论坛数据,由于人工收集方式的有限性,这种方式既消耗了 大量的人力和物力。也限制了统计分析的范围。由于人工方式的局限性,不可能对 有着海量数据的论坛进行全部分析。而通过部分时间段内的数据采样可能并不足以 反映论坛的真实情况。 ( 2 ) 论坛舆情分析也是当前信息安全部门的一个热点研究方向。如不能及时预 测和控制舆论的传播,甚至会危害到国家安全。这就需要设计开发一个客观、独立 于论坛之外,可以对现有论坛进行监测的一个统一的平台。这也是本研究的目的之 一o ( 3 ) 从网络课程的角度出发,构建一个可以对网络课程论坛监测分析系统对网 络课程自动量化评价有着重要意义。 9 第2 章网络论坛监测系统总体设计 2 2 系统总体设计原则 网络论坛监测系统为了弥补当前网络论坛监测系统的不足而设计丌发的,并根 据当前对论坛研究需要做了扩充。它的创新之处在于设计开发了对指定论坛的监测 分析、论坛采集和数据处理,并且把论坛有关数据存入原始数据库,为其他科研人 员继续深入论坛研究提供数据显示平台,可为网络课程自动量化评价中课程论坛量 化分析提供可靠的数据支持。并且,该系统结合项目需要以及当前人们对论坛研究 的需求,实现了论坛监测分析的数据报表平台,对于后续的研究大大提高了研究效 率。基于以上目的和互联网本身以及软件开发的特点,在设计本系统时,遵循了如 下设计原则: ( 1 ) 系统的人性化设计。在人性化设计方面,系统的操作界面和功能设置在 满足用户需求的前提下,尽量做到美观大方,并且符合用户的使用习惯。为了达到 这方面的要求,在一些界面辅助控件的设计、使用和位置摆放上,系统参考了现有 w i n d o w s 操作系统中的一些设计,因为本系统所选用的开发语言c 挣也是m i c r o s o f t 的产品,所以容易找到一些设计上的共同点。 ( 2 ) 运行的持续性稳定性。鉴于网络信息传播的特点,要想对论坛运行、帖 子数量等情况有个比较准确的认识,并对其进行分析研究,就必须做到快速掌握论 坛上的信息。尤其是论坛这种舆论平台,他们的信息更新速度是非常快的。要想发 现和采集到有时效性的信息,就要求系统必须能够持续运行,或者说间断的次数不 能太多。一旦系统发生意外中断,要有断点保护,即恢复运行之后,原有数据不丢 失,不必再从头开始运行。 ( 3 ) 可控性。这点是特别针对信息采集模块而言的,可控的部分包括进行采 集的线程数,采集深度等参数的控制。这样用户可以根据当前网络的状况来设置参 与采集的线程数或者根据论坛网页的权威程度来设定采集深度。另外还有采集的暂 停与恢复等控制。 ( 4 ) 数据呈现。这里指系统应该能够给用户提供一个直观的数据表示,使用 户能够对当前情况一目了然,比如对于论坛的发帖时间规律等。 2 3 系统总体架构 从整体上看,本系统属于c s ( 客户端服务器) 架构,用户客户端负责显示抽取 的结果,而服务器端是系统的核心,负责制定网络论坛信息抽取工作。根据前面的 分析,系统的总体结构设计如图2 1 。 首先需要构建论坛信息抽取系统,爬取用户指定的论坛。由于本系统最后要对 论坛的数据进行监测分析,所以论坛数据采集要求有很高准确率和召回率。将半结 1 0 第2 章网络论坛监测系统总体设计 构化的数掘转换为结构化的数据之后,可以随之根据用户的需要进行报表。系统的 总体结构框架设计如下。 ,一、 爿( i n t e m e t ) 1 、7 图2 1 论坛监测系统的总体架构图 2 4 监测系统总体技术路线 技术路线是进行研究的具体程序的操作步骤,技术路线的设计决定着下一步系 统开发与实现。一个良好的系统软件,必须要有一个明确具体的技术路线。根据前 一章对论坛监测分析系统的总体设计、总体架构,论坛监测分析系统的技术路线分 为下面几个部分;( 1 ) 模拟登录模块设计;( 2 ) 指定论坛信息的数据项采集;( 3 ) h t m l 页面的预处理和格式规范化处理;( 4 ) 论坛监测的报表实现。 图2 2 是整个系统的技术路线,其中,论坛的信息抽取是本研究的重要步骤。 论坛信息抽取中重复模式发现器是本研究的难点部分,也是本系统需要重点解决的 关键问题。系统中一些程序模块( s g m l r e a d e r 组件) 采用了基于n e t 平台的雠语 言的开源类库。开源类库的优点是可以根据系统具体情况进行修改添加功能代码。 程序中还使用了一些现有的工具,如h t t p w a t c h 抓包工具,该工具可以方便地嵌入 当前主流浏览器中。除此之外,也可以通过其他途径或工具来完成该步骤。下面详 细介绍每个模块部分的技术路线。 程序模拟登录模块是针对需要登录以后才能爬取论坛数据信息的论坛而设计 的,如论坛不需要登录就可以爬取数据,可以直接跳过该步骤。该模块的技术路线 描述如下:输入需要抽取论坛的入口地址,如果论坛需要用户登录才能进行数据抽 取,我们需要提前通过人工注册一个论坛账号,然后在浏览器中打开h t t p w a t c h 工 具以查看登录提交的有关参数,需要记录的参数有用户名参数、密码参数、提交目 的页面地址参数、信息提交的方式、其他附加参数等。获得提交参数后,使用 h t t p w e b r e q u e s t 将这些参数提交到登录状态信息处理页面,然后利用 h t t p w e b r e s p o n s e 取得用户的登录状念信息,并将这些登录信息保存。这样在系统 第2 章网络论坛监测系统总体设计 爬取论坛数据页面时,首先将用户的登录状态信息提交到抽取页面。待抽取页面判 圉 图2 2 论坛监测系统总体技术路线图 断用户登录状态信息合法,采集程序可以进行数据采集和抽取。 论坛采集部分是整体系统的重点和难点,采集数据质量的高低直接决定后续监 测报表分析的有效性和正确性,为了确保抽取部分的准确率和召回率,该部分采用 人工参与的方式半自动化的生成论坛数据信息抽取规则。该部分技术路线描述如 下:通过下载程序获取论坛页面的源文件,为减少页面大量无关标记对格式转换工 具的影响和干扰,在格式转化前,先对页面的源文件进行预处理,例如把 等标签进行过滤,经过预处理程序后,页面只有 标记 之间的内容,其他! t l 、 、 、 等标记被过滤。s g m l r e a d e r 格式转换工具将预处理后的页面进行格式规范化处理,可以将h t m l 转化为格式规 范的x h t m l 语言,x h t m l 是x m l 的子集,论坛页面内重复模式的发现采用基 于x m l 的x p a t h 技术进行循环遍历,根据设定的重复模式阈值判断并定位重复模 式,用户根据抽取数据项的具体需要在可视化的界面中选择需要抽取的数据项如发 帖人、发帖时间、跟帖等数据信息。通过人工参与的方式半自动化的生成抽取规则, 论坛抽取程序根据生成的规则完成论坛所有数据项的抽取任务。并按照论坛的数据 第2 章网络论坛监测系统总体设计 结构将抽取信息存储为格式化的数据( 如数据库) 进行保存,数据库的设计确保拥 有常见论坛的抽取参数项。 监测报表部分要给人以直观的显示方式,通过报表技术,用户可以从大量不规 则无序的数据中发现其中的规律。由于本研究需要对一些较为复杂的论坛数据进行 监测,如需要对多表进行分析,经过比较推拉模式的优缺点,本文选择了可操作性 较高的推模式水晶报表技术。该部分技术路线为:根据监测的需要,从数据库中将 项目的数据集合进行查询,并将查询后的结果放入n e t 的数据结构d a t a s e t 数据集, 也可以将查询出来的数据集进行合并操作,但最后需要将多个数据集合并成为一个 数据集。最后将数据集推送给报表控件,完成不同功能的报表任务。 2 5 系统模块设计 2 5 1 论坛信息采集模块 论坛信息采集模块是本系统的一个非常重要的模块。可以说它是整个系统的基 础部分,它为后续的模块提供数据支持。在设计模块功能之前,我们先对论坛结构 特点做一简单分析。模块中关键技术将在第3 章详细介绍。 ( 1 ) 网络论坛逻辑结构 论坛中每个数据项都是需要采集的有价值的信息。为了便于管理和方便用户使 用,论坛是以一定的层次结构将这些信息组织起来。尽管每个论坛的显示风格都具 有自己的特色并且可能各不相同。但是在论坛中信息的组织却具有一定的逻辑层次 结构。 首先我们把涉及到论坛中的有关概念在这里进行说明。为了方便论坛的浏览和 使用,网络论坛被人为地根据不同的主题组织成若干个讨论区,这就是版面。用户 在讨论区中对有关话题发表讨论,用户发表的一篇文章,我们称之帖子,针对同一 个话题的所有帖子形成一个主题,主题中的第一个话题称为主帖,本系统均将第一 个帖子作为主题帖处理,其余帖子为跟帖。通过进一步研究发现,在各个版面中, 主题帖是以列表的方式显示的。当版面内的主题帖子数量超过一定数值,这些主题 帖子便以分页的方式组织。各分页之间通过数字或者是“上一页 、“下一页 进行 链接。并且每个主题帖子的内容一般都有热字链接。我们把主题帖列表的页面称为 主题列表页面。通过主题列表页面可以链接到帖子的详细页面,该页面除了包含主 题帖子的部分信息之外,还包含了所有对主题帖展开的讨论,由于该页面一般包含 了主题帖和多条回复帖子,该页面称为帖子内容页面。 我们给出的定义如下: 帖子:论坛中信息的最小单位,指论坛中用户发表的一段文字,可以是话题、 1 3 第2 章网络论坛监测系统总体设计 评论、回复。 主题帖:帖子的子集,关于某个话题发表的第一个帖子。 跟帖( 回帖) :帖子的子集,某个话题讨论中除了主题帖之外的其它帖子。 主题:关于一个话题的主题帖和所有跟帖构成论坛中的一个主题。 版面:信息的分类。包含所有帖子的分类。 主题列表页面:若干主题帖的列表,数据量较大时,或有分页。 帖子内容页:包含主题帖及回帖的页面,数据量较大时,或有分页。 论坛的逻辑结构如下图: 一坚里! ,寸主曼嬲堡蔓耍h 竺三! ! 三! i 厂 , 引 亘h 磊卜叵 d ! ! 堕二k 圈怔困 图2 3 网络论坛逻辑结构图 ( 2 ) 网络论坛数据采集的难点 对于多数的网络论坛,同一个页面可能有不同u r l 。在一个网络论坛站点 中,存在大量的噪声链接,像页面的“打印 功能以及页面上的广告,这些噪声链 接并没有什么有价值的信息,但可能造成的不好的结果,大量的噪声链接,不仅影 响了论坛爬虫爬行页面的效率,还会影响页面的下载页面的质量。最有价值的信 息在网络论坛的最深层,而一般的爬虫程序,都会设置爬行的深度层数【2 1 1 ,以防陷 入爬取的陷阱,而对网络论坛,最有价值的信息一般都在帖子内容页面,要想对论 坛进行爬取,爬虫程序必须要到达论坛的最深层页耐2 羽。 ( 3 ) 论坛采集模块设计 由于论坛信息采集与通用的蜘蛛搜索引擎有很大的区别,论坛的信息采集模块 需要抽取页面中的每个具体数据项。也就是说,我们对论坛的信息要求比较严格, 如果数据抽取的效果不够高,后续的数据分析也就没有意义。在论坛信息抽取模块 中,模块运行流程如下:首先输入要抽取论坛页面的入口地址,可以是资源定位符 或者是口地址。系统会首先检查地址的合法性,通过合法性检查之后,然后再通 过c 撵的s o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初三年级组长发言稿
- 古民居速写课件
- 时间小马车课件
- 二零二五年度食品饮料区域代理商合作协议
- 二零二五年度美容美发多人合伙创业合同
- 时事一点通时政课件
- 二零二五版医院被褥用品采购及消毒服务协议
- 2025版建筑工程施工劳务承包合同
- 2025版新能源汽车购销采购买卖合作协议
- 2025版房屋租赁抵押贷款合同范本
- 《儿童孟氏骨折》课件
- 《鸡防疫程序》课件
- 2024年河北港口集团有限公司招聘笔试参考题库含答案解析
- 《用户体验的要素》课件
- 基于现代文献探讨经方治疗冠心病(胸痹心痛)的处方用药规律研究演示稿件
- 钣金结构件点检表
- 一元二次不等式及解法
- 桩基工程验收监理质量评估报告
- 2022年脓毒血症指南解读(更新)
- 郭岩非煤矿山双重预防机制建设课件
- 中医揿针技术理论考核试题
评论
0/150
提交评论