




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/9基于搜索引擎的校园网站信息监控系统的设计与实现基于搜索引擎的校园网站信息监控系统的设计与实现摘要互联网的发展为知识与信息的传播提供了前所未有的便利,但同时也为不良信息的传播提供了条件。高校作为互联网应用与研究的前沿阵地,信息安全尤为重要。为了防止校园网上非法信息的传播,实现对网上信息内容的主动监管,保护网络信息的安全,本文设计并实现了基于搜索引擎的网站内容监控系统,它主动地扫描校园网网站,获取网站内容信息,利用关键词匹配技术及时发现包含敏感词的网站,并将结果及时提供给网络管理员。通过使用本系统有效地防止了非法信息在校园网中的传播,实现了对校园网站的主动监控与管理。关键词信息安全;内容监控;校园网络;分词处理;搜索引擎中图分类号文献标识码B文章编号16738454201615003403一、高校信息安全的现状随着高校信息化建设的快速发展,校园网络已遍及学校的各个部门,一方面校园网站的数量迅速增长,精品2/9课程等网站越来越多,网络已成为师生工作、学习、生活不可缺少的一部分;另一方面学校通过校园网站发布教学安排、学生管理、科研动态诸多方面的信息,学校的各项工作都与其形成密切的关系。然而网站信息安全管理却不容乐观,信息安全形势日趋严峻,由于网站大多是分散式的管理,网站管理人员安全防范意识不强,给计算机病毒和网络黑客以可乘之机,有的部门主页多次受到黑客的攻击,网页上的数据被更改,扰乱了学校正常的工作秩序。学校的电子留言板、公告板方便了师生交流,但同时也为非法言论等信息提供了交流的场所,一些不法分子利用网络传播小道消息,向高校散布有害信息,扰乱校园秩序。有的学生因在平时的学习、生活中受到一些委屈,就随意在网站中发表一些十分偏激的言辞,或对学校老师进行人身攻击,损坏了学校形象,因此网站信息安全监控成为亟待解决的问题。目前由于缺乏成熟的、针对特定网络应用下的信息内容监控系统,对网站内容的检查都是通过人工来完成的。但是这种方法不能做到实时地监控,并且效率低下,无法适应网络发展的需要。人们迫切需要计算机辅助来进行网络内容的自动监控。二、校园网络信息内容监控的现状与分析目前对网络信息内容的监控主要是使用网络安全审3/9计系统,通常部署在校园网络出口,通过对网络出口链路数据的镜像或者分光后从旁路接入审计系统,实时捕获网络数据包,还原并分析数据包的内容,可以实现对敏感关键字、非法URL的监控与过滤。这一类型的监控系统可以及时发现包含有非法词汇的网站,及时屏蔽包含该词汇的网页,使用户免受非法词汇的影响。但这种监控的缺点是它是一种被动的监控模式,只有通过出口访问的内容中包含敏感词汇才能被监控到,并且无法得到非法内容的来源,不能对整体的网络和特定网站中的网页信息进行监控。基于这种现状,笔者设计实现了一个基于搜索引擎的网站内容监控系统。它主动扫描整个网站,获得网站的网页内容,并对内容进行预处理分析,利用关键词匹配技术对结果进行匹配,及时发现网站中包含的非法词汇,并将结果提供给管理员,方便管理员对网络内容进行监控,还可以与报警系统相关联实现邮件或者短信息报警,使网络管理员在第一时间采取相应的处理措施,及时阻止这些内容的传播。从而实现对网站信息主动、实时的监控。三、本系统的设计与实现网站内容监控的过程其实就是对校园网站内容进行搜索、分析、比较的过程。首先要获取被监控网站的网页作为数据源,然后对网页数据内容进行分析预处理,为搜集到的网页建立索引数据库和分词库信息。通过与用户设4/9定的敏感关键字或URL链接信息进行对比匹配,从分词库中查找到包含敏感关键词的网页URL,再通过网页索引在网页信息数据库中查找并返回整个网页的全部内容。通过以上分析与研究,网站信息监控系统主要由以下五个功能模块组成网站内容采集模块、网页分析预处理模块、自动分词模块、查询匹配模块、结果反馈模块。为了提高搜索运行的效率本系统使用C多线程设计完成。处理流程如图1所示。1网站内容采集模块采集模块主要完成获取网页内容、分析链接、存储网页信息的功能。采集模块的核心是网页抓取程序,网页抓取的过程是从URL库获得输入,解析URL中标明的WEB服务器地址、与服务器建立连接、构造请求消息体并发送给服务器、获取服务器返回的网页信息,最后将获得的网页数据存储在网页信息数据库。我们使用网页抓取程序自动对指定IP范围内的网站进行遍历,主动发现网站信息。网页抓取程序将沿着网页上的链接按照深度优先算法进行网页搜集,然后从本网页中解析出所包含的的URL链接信息,看是否已经被访问过,将未访问的URL加入到URL列表中供网页抓取程序继续搜索,并从URL列表中移除已访问过的URL,最后将URL、IP地址、采集时间、数据长度信息保存到数据库建立网页信息数据库,采集模块结构如图5/92所示。2网页分析预处理模块网页分析预处理模块主要是为采集模块产生的网页信息数据库建立索引信息,并生成索引网页库。通过使用索引网页库我们就可以在网页信息数据库中快速定位到给定URL所指向的记录。如果不对网页信息数据库建立索引信息,也可以通过顺序查找的方法完成URL到指定记录的过程,但是会消耗大量的I/O,数据量增大的时候不能够满足快速响应的要求,因此网页预处理的第一步就是为原始网页建立索引,实现图1中的索引网页库,从而就能随机存取其所指向的网页,实现快速查询与匹配。我们对URL采用MD5算法生成URL摘要,产生16个字节的唯一标识,然后对URL唯一标识信息进行排序,生成一个有序的URL索引数据库。在查询匹配模块中可以使用二分查找算法在网页索引库中快速查找到相应的网页文档编号,然后再通过文档编号在网页信息数据库中查找到对应的网页。3自动分词模块如果直接在网页数据库中查找与我们所设置的关键字或者文本信息相匹配的网站,查询效率将无法满足我们快速搜索的需要。为了提高关键字与网页数据库中的内容匹配速度,我们需要把整个网页的文本内容字串分隔成词串,将整句切割成小的词汇单元,即分词处理。然后再为6/9分词库建立索引,来提高查询的效率。所以分词是对中文文本进行快速查询匹配的前提。在本系统中我们采用基于字符串匹配的分词方法,这种方法又称为机械分词方法,使用一部基本的分词词典进行串匹配分词,它按照一定的策略将待分析的字符串与已设定好的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。在使用逐词匹配算法的同时,我们还使用统计的方法来识别一些新的词,同时将这些新词添加到分词词典中。我们把串匹配和串频统计结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了统计分词结合上下文识别生词、自动消除歧义的优点。具体的流程为先取网页信息数据库中的HTML源代码,对源代码进行过滤,提取文本内容,然后调用分词程序,对文本内容进行分词处理。将得到的每个词串连同它所在的URL、文件名、浏览量作为一条记录,保存到分词库里,供查询匹配模块使用。4查询与匹配模块该模块主要实现了按照用户设置的关键字在网页信息数据库中查询包含敏感词记录的功能。首先将用户设置的关键词提交给查询代理,查询代理检索分词模块生成的分词索引表和索引网页数据库,并通过多表连接在网页信息数据库中查询返回具体的网页源代码信息,将返回信息7/9提供给结果反馈模块。结果反馈模块此模块主要负责把前四个阶段建立好的索引网页库、分词库、网页信息数据库进行处理后将结果呈现给用户,实现基于WEB的结果显示功能,包括响应用户的查询检索和记录用户的行为。我们使用进行网络程序设计,用户可以通过网页形式查看监控的结果,返回的结果包括网站的URL、IP地址、敏感关键字的位置等信息。也可以通过配置电子邮件网关将监控结果以电子邮件形式自动发送给管理员,并且可以按照IP地址、关键字等进行结果的查询和统计,同时将用户查询的内容和查询时间等信息记录到日志文件中。结果反馈模块还可以与专用SMS短信息收发平台互联实现短信息报警功能,使网络管理员在第一时间发现敏感信息并及时做出相应的处理。四、结束语本系统结合搜索引擎技术,对网站内容的获取、存储、分析、匹配问题都提出了较好的解决方案,通过对指定IP地址范围内或特定的网站内容进行自动扫描、分词、预处理后与事先设定的关键字进行匹配,及时发现违规信息,对网页篡改、不良信息的传播等可以及时报警,实现了网站内容的自动监控与管理。8/9此系统模块化设计,灵活可扩展,很容易扩展成一个集文字、图像监控于一身的综合监控系统,而自身体系结构无需大的变动。此系统除了在校园网中使用外也很容易推广到其他行业使用,如网络提供商、各企业事业单位以及需要对网络内容进行监控的单位或部门。此外对系统进行升级还可以实现自动搜索网站,及时发现未备案的网站和私自架设的网站信息等功能。参考文献1PIOTRKEARLYWARNINGANDATTACKIDENTIFICATIONSYSTEMCDUDAPEST,HUNGARYPROCEEDINGOF16THANNUALFIRSTCONFERENCE,XX35412陈红松,胡长军网络内容监控与预警系统的设计与实现J计算机工程与设计,2016,3013林海霞,原福永,陈金森等一种改进的主题网络蜘蛛搜索算法J计算机工程与应用,XX,43101741764梅龙宝赵毅校园安全管理信息系统设计与实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 事业单位人力资源管理中的绩效考核与激励策略研究
- 农村储水供暖管理办法
- 数字金融工具对实体经济转型升级的路径优化研究
- 智能座舱系统:双控卡技术探索
- 公安签约作家管理办法
- 探索经典魅力:人人成为句子迷的路径研究
- 积极心理理论在现代教育和人力资源开发中的应用与研究
- 公园自营项目管理办法
- 人工智能在智能电网中的创新应用研究
- 公安室内警营管理办法
- 抖音短视频运营部门各岗位KPI关键绩效考核指标表
- 2023年印度涂料市场亚洲涂料分析报告
- 钢结构起重机行车轨道安装工程检验批质量验收记录表
- 彩色完整测试页(测试版)
- 推理小说简介
- 热射病的诊断与治疗
- GB/T 9074.18-2017自攻螺钉和平垫圈组合件
- 长沙梅溪湖国际新城产业组织与西区土地一级开发
- GB/T 3768-2017声学声压法测定噪声源声功率级和声能量级采用反射面上方包络测量面的简易法
- 临床诊疗指南(急诊医学)
- 胸腔积液PPT.ppt 课件
评论
0/150
提交评论