(计算机应用技术专业论文)增强型网页过滤系统研究与实现.pdf_第1页
(计算机应用技术专业论文)增强型网页过滤系统研究与实现.pdf_第2页
(计算机应用技术专业论文)增强型网页过滤系统研究与实现.pdf_第3页
(计算机应用技术专业论文)增强型网页过滤系统研究与实现.pdf_第4页
(计算机应用技术专业论文)增强型网页过滤系统研究与实现.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

增强型网页过滤系统研究与实现 增强型网页过滤系统研究与实现 摘要 随着互联网技术的飞速发展,人们获得信息的途径更加便捷。但 是,互联网上充斥着大量不良信息,为了给用户提供一个健康、安全 的信息获取环境,有必要对非法网页进行过滤处理。 传统网页过滤技术可以分为u r l 过滤和内容过滤两种,u r l 过滤 处理效率较高,但是随着网络信息资源的快速增加,它需要不断地以 人工的方式增加也数据库中的记录;内容过滤具有即时内容分析的 能力,可以节省维护u r l 数据库的成本,但效率问题使得它的应用受 到限制。 本文提出一个结合这两种过滤方式的过滤方法,并且实现了一个 增强型的网页过滤器,该过滤器利用网页超本文的特征,设计实现了 二阶段网页分析过滤法,这种过滤方法具有u r l 过滤的效率,也能过 滤未知网页资源。对于那些u r l 过滤器无法处理的网页资源,本文采 用改进的贝叶斯分类器对该网页进行分类处理。经过实验证明该过滤 器比单纯利用分类器的过滤方式具有更好的效果。 本文首先介绍信息过滤的原理和分类以及通用信息过滤需要的数 学模型,然后介绍系统实现所涉及的相关技术:h t t p 协议、常见的 增强型网页过滤系统研究与实现 w e b 过滤技术、网页自动分类技术。接着提出一个增强型网页过滤器 的模型,并且根据这个模型设计和开发了一个网页过滤器。并通过实 验结果来评估该增强型网页过滤器的效率和过滤效果。最后给出本文 的总结和展望。 关键词:u r l 过滤,网页分类,贝叶斯分类 r e s e a r c ha n di m p l e m e n t a t i o no ne n h a n c e dw e bc o n t e n t f i l t e r i n gs y s t e m w i t ht h ef u r t h e rd e v e l o p m e n to fi n t e m e t ,i nw h i c hi sf i l l e dw i t ha g r e a ta m o u n t o fl e g a la n di l l e g a li n f o r m a t i o n ,i no r d e rt oo f f e rt h eu s e ro f i n t e r a c th e a l t h ya n ds e c u r ei n f o r m a t i o n ,i ti sn e c e s s a r yt of i l t e ro u tt h e i l l e g a lw e bp a g e s t r a d i t i o n a lw e bf i l t e r i n gt e c h n o l o g i e s c a nb ed i v i d e di n t ou r l f i l t e r i n g ,a n dc o n t e n tf i l t e r i n g ,a l t h o u g ht h ef o r m e rh a sg o o de f f i c i e n c y , b u tw i t ht h ei n c r e a s i n gr e s o u r c e so nt h ei n t e m e t ,i tm u s tc o n t i n u et o a r t i f i c i a l l yi n c r e a s et h eu r l d a t a b a s er e c o r d s ;w i t ht h ea b i l i t yt oo n l i n e c o n t e n ta n a l y s i s ,t h el a t t e rc a ns a v et h ec o s to fm a i n t a i n i n gu r l d a t a b a s e , b u tt h ei t se f f i c i e n c yi sn o te n o u g ht ou s ei nr e a ll i f e ,b e c a u s ei tn e e d s c o m p l e xc o m p u t a t i o n s t h i sp a p e rp r e s e n t sa ne n h a n c e dw e bc o n t e n tf i l t e rt h a tc o m b i n e s u r l f i l t e r i n ga n dc o n t e n tf i l t e r i n g t h ef i l t e rh a su r l f i l t e r i n ge f f i c i e n c y , a sw e l la sc a nf i l t e r i n gu n k n o w nw e br e s o u r c e s f u r t h e r m o r e ,w eu s et h e c h a r a c t e r i s t i c so ft h eh t m la n dt w o s t a g em e t h o dt oi m p r o v et h e e f f i c i e n c yo fo u re n h a n c e dw e b c o n t e n tf i l t e r i nt h ef a c eo ft h o s ew e b s i t e h i 增强型网页过滤系统研究与实现 r e s o u r c e sw h i c hu r lf i l t e rc a n n o td e a l 丽也,w eu s ee n h a n c e db a y e s i a n c l a s s i f i e rt op r o c e s st h e m f o u n di nt h ee x p e r i m e n t a lr e s u l t s ,t h ef i l t e rw e h a v ed e s i g n e dh a sp r o v i d e db e t t e re f f i c i e n c yt h a nt r a d i t i o n a lc o n t e n tf i l t e r a n d p r o v i d eb e t t e rr e s u l t st h a nu r l f i l t e r k e y w o r d s :u r lf i l t e r i n g ,w e bp a g ec l a s s i f i c a t i o n ,n a i v eb a y e s i v 东华大学学位论文原创性声明 本人郑重声明:我恪守学术道德,崇尚严谨学风。所呈交的学位 论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除 文中已明确注明和引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的作品及成果的内容。论文为本人亲自撰写,我对 所写的内容负责,并完全意识到本声明的法律结果由本人承担。 学位论文作者签名:玄狒 日期:删年乡月7 日 东华大学学位论文版权使用授权书 学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允 许论文被查阅或借阅。本人授权东华大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复 制手段保存和汇编本学位论文。 保密口,在年鳃密后适用本版权书。 本学位论文属于 不保密口。 学位论文作者签名: 翮、伟 日期:形年胡碥酲 指导教师签名:缉粤 吕期:弦扩年乒胃动咱 增强型网页过滤系统研究与实现 1 1 研究的背景及意义 第1 章绪论 i n t e m e t 资源包容了人类文明的大量信息宝藏,信息电子纯和啜络优先入类 知识的共享和交流铺平了道路。可是信息处理技术的局限性使得用户常常被无用 的垃圾信息所淹没,这些垃圾信息包含了很多不健康的信息( 有关暴力、犯罪和 色情等内容) 。 随着企业信息化的不断发展,以及互联网环境的复杂化,这些负面影响给全 球的企业经营者带来了非常头疼的问题。员工无限制使用互联网的“网络旷工 给企业带来很大的危害嘲。 信息过滤( i n f o r m a t i o nf i l t e r i n g ) ,作为信息检索( i n f o r m a t i o nr e t r i e v a l ) 领域中 的关键技术,它的快速发展及广泛应用己成隽解决上述闻题的有效方式和技术手 段。 弼页过滤是信息过滤的一种,主要是对用户访河互联瞬进行限制,并且对不 相关的,或是有害的内容进行过滤,这样才能给互联网用户提供一个健康的使用 环境,阕时可以规范用户对互联嬲的访闯。力了解决互联网的飞速发展带来的惩 题,一些网页过滤技术应运而生。例如u r l 过滤( u r lf i l t e r i n g ) 技术、内容 过滤( c o n t e n tf i l t e r i n g ) 技术以及p i c s 等,不过使焉这些技术开发的过滤器, 会因为使用的过滤方式或是效率方面的原因,在实用上有所局限。 u r l 过滤( u r lf i l t e r i n g ) 是西前较为酱遗采用的霹页过滤技术,僭随着互 联网上资源不断的增加以及动态网页技术的成熟,u r l 过滤( u r lf i l t e r i n g ) 技 术必须不断墟更数据库内容,才能达到良好豹过滤效果,为了克服这个局限,出 现了一种以内容分析为主的过滤方式,然而效率却是此类网页过滤技术所面临的 最大挑战,原因是莱些资源在进行内容分析时,需要进行大量的计算,例如图片、 文件等。 增强型网页过滤系统研究与实现 1 2 研究现状及存在的问题 当前流行的网页过滤技术主要有以下几种:( 1 ) 使用黑名单列表【1 5 , 1 6 ,对存 在于黑名单的网站进行过滤。也可以使用白名单列表,只允许访问列表上存在的 网站或网页。( 2 ) 基于关键字的过滤【1 7 1 ,只要访问的网页出现该关键字,就认 为此网页不合法。( 3 ) 使用网站创建者或是第三方提供的网页等级来进行过滤【2 】。 如p i c s ( p l a t f o r mf o ri n t e r n e tc o n t e n ts e l e c t i o n ) 。 在动态变化的互联网环境下,以上三种技术都有自身的一些缺陷。对于方 法( 1 ) 因为互联网上,每天都要产生大量新的网站和网页,无论是黑名单还是 白名单都不能保持最新。同样道理,方法( 3 ) 也不是广泛适用的,因为在互联 网上,网站或网页被标记和分级的数量还是非常少的,并且对网页是否要过滤, 用户往往有不同的标准,因而这样固定的标准往往不能满足用户的要求。方法( 2 ) 的适应性也不是很好,因为往往一些合法的网站,也会包含一些非法的关键字, 这样那些合法网站也会被过滤掉了。 鉴于以上方法存在的缺陷,本文采用基于内容和基于u r l 相结合的二阶段 网页过滤方法对网页进行过滤。本文先设计一个增强型过滤器的模型,然后根据 这个模型设计开发了一个增强型的网页过滤器。 1 3 论文主要工作和成果 本文利用一个网页过滤算法将u r l 过滤( u r lf i l t e r i n g ) 技术与内容过滤 ( c o n t e n tf i l t e r i n g ) 技术相结合,开发了一个增强型的网页过滤器,以解决 目前网页过滤技术所面临的问题。 通过内容过滤( c o n t e n tf i l t e r i n g ) 技术来自动更新u r l 过滤( u r l f i l t e r i n g ) 技术中的u r l 数据库,并且利用u r l 过滤( u r lf i l t e r i n g ) 技术中 的u r l 数据库来保存内容过滤( c o n t e n tf i l t e r i n g ) 的结果,并且这个增强型 网页过滤器可以利用h t 札文件结构的特征和改进的高效贝叶斯分类算法设计一 种二阶段的网页过滤方法,来增加网页过滤的效率,以达到实用的目的。 2 增强型网页过滤系统研究与实现 1 4 论文组织结构 为了达到上述研究目标,本文将按照下面的章节顺序深入进行讨论。 第一章,阐述了本文研究目的和意义,并对当前研究现状和存在的问题进行 讨论,进而阐述了本文的主要工作成果及论文的组织结构。 第二章,首先介绍信息过滤的研究现状,它的原理和分类以及信息过滤涉及 的数学模型,然后,介绍信息过滤技术在网页过滤里的应用,以及相关的网页过 滤技术。最后介绍了网页过滤中的关键技术即网页自动分类技术。 第三章,详细介绍了增强型网页过滤器的模型设计和相关的关键算法。 第四章,根据上面的模型,实现了一个网页过滤系统。 第五章,通过试验,验证设计的增强型网页过滤系统在效率和过滤效果上要 优于传统的网页过滤系统。 第六章,对本文进行总结,并且指出该系统的优缺点,并对未来的研究内容 进行展望。 3 增强型网页过滤系统研究姆实现 2 1 信息过滤简介 第2 章相关技术研究 2 。1 。1 信息过滤技术的原理 信息过滤就是将用户感兴趣的数据从某信息资源中筛选出来,将不感兴趣的 数据屏蔽3 2 】。信息系统监控信息源,以找到满足与用户设置的个性化文件库相 匹配的信息,并将含有该信息的网页过滤掉。一般来说,所谓信息过滤技术就是 通过u r l 过滤、球过滤、图像过滤、智能过滤等过滤手段,对互联嬲用户进行 访问控制和管理的技术。 信息过滤往往和信息检索密切相关,大部分信息过滤的早期研究认为,有效的 信息检索技术同样是有效的信息过滤技术,许多过滤方法是建立在信息检索方法 基础之上的【3 3 】。相比于传统的信息检索模型,信息过滤技术具有较离的可扩展 性,能适应大规模用户群和海置信息可以为用户提供及时、个性化的信息服务; 具有了一定的智能和较高的自动纯程度【硼。 信息过滤的一般原理如图2 1 所示圈。用户由于某种需要产生了信怠需求, 这种需求在较长的一段时间里保持相对稳定,且必须以计算机l l 塞够识别的形式揭。 示出来,它就是用户需求模板( u s e p r o f i l e ) ,也叫过滤模板。动态的网络信息 集是从某种信息源的大量离散随机信息集合中抽取的原始信息,当信息流经过系 统时才运用一定的算法把信息揭示出来。匹配算法、用户需求模板的描述方法和 信息的揭示方法是相互联系的,常用的匹配模型有布尔模型、概率型、向量空间 模型等,主要任务是剔除不相关的信息。 圈2 。薹中用户需求模板的生成、信息的揭示、匹配算法和反馈机制最为关键 【蚓,为了提高实用性,往往会在这些关键部分进行必要的人工于预,如对动态 的信息流先作预处理,人工修改用户需求模板等。 4 增强型网贸过滤系统研究与实现 图2 1 信息系统的一般原理 2 1 2 信息过滤技术的分类 信息过滤系统的分类方法很多,按照不同的分类标准,所分的类别也不同, 主要有以下几种: ,也称为特征词,文档可以用顼靛集合来表示。向量 空间模型不仅可以方便的产生有效的查询结果,而且能提供相关文档的摘要,并 进行查询结果分类,为用户提供准确定位所需要的信患。 向量空间模型也可以用在信息过滤系统中。在以向量空间模型构造的系统中, 同样用项来标识文档。如果文栏中特征词酶集合为t 一 l l ,1 2 ,t n ,词t i 的权重 是w i ,则文档可以表示为d = 扣l ,w 2 ,w n ) 。假设词两两之间是互相独立的,那 7 增强墅弼燹过滤系统磷究与实褒 么我们可以把词看成坐标轴,权重看成坐标值,那么文档就是n 维词空间中的向 量。本文中的两页表示模型采用向量空间模型。 向量空间模型信息过滤系统可以按照下面的步骤进行: 给出该文档的向量空间表示 首先找出文档中的所有词,然后删掉那些高频出现但又没有实际意义词,最 后计算每个词的权值。 计算词的权值最常用的方法是项频度因子( t h et e r mf r e q u e n c y 或简称t f ) 岛反向文档频度因子( t h ei n v e r s ed o c u m e n tf r e q u e n c y 或简称i d f ) 之积。其中 项频度因子与词在文档出现的频率成芷比。反向文档频度因子是用来表示词在文 档中的重要程度。有些词在文档出现的频度很低,可是它们的i d f 却可能很大 ( 如:u r l 过滤) ,丽有的词在文档出现的频度很高,其i d f 却可能很小( 如: 我们) 。在向量空间模型的过滤系统中,用户的趣向( p r o f i l e ) ( 即对用户个性兴 趣的描述) 是以自然语言来表示的,采用表示文档向量的方法来表示用户趣向的 向量。故一个用户趣向p 可表示为:p 卸l , u 2 ,u 3 ,u 0 其中1 1 i 表示权值。 文档和用户趣恕楣似度的测量 衡量一篇文档的向量表示与用户趣向的向量表示的接近度,也就是判断某篇 文档是否满足用户的个性兴趣,逶常用求两个糍量夹焦的余弦傻来计算的。例懿: 给定一篇文档d 的向量表示d ( w l ,w 2 ,w 3 ”w 曲和某用户的趣向描述向量 p o l , u 2 , u 3 疆0 ,6 则它能的夹角余弦为: s i r e ( d , 一= 斋= 踌 如下匿所示: 图2 2 向量d 和向量p 的夹角 文档惠量和雳户趣向自量酶夹焦越大,表骥它们的褶似度( s i r e ) 邀就越大, 塞 增强型网页过滤系统研究与实现 反之则越小。 相关临界值( r e l e v e n c et h r e s h o l d ) 在一个信息检索系统中,某一查询是对文档数据库进行的,返回给用户的相 关文档都被赋予了一个相关值。我们可以让用户设定一个临界值,只返回高于临 界值的文档,即给定一用户趣向p 和一相关临界值m ,则对于任意返回的文档 d ,它的相关度必为:s i m ( d ,p ) 巾。 相关反馈( r e l e w a n c ef e e d b a c k ) 对于相关反馈这个技术在提高信息检索效率方面使用的较多,这个技术主要 是根据所得到的结果对用户的趣向模型及查询进行适当的修改和完善,以使其能 更忠实地反映用户的个性兴趣以及所需。 向量空间模型的优点是:信息和用户模型不是简单的二元相关,它们之间的 匹配不是精确匹配,而是用相似度来衡量他们之间的匹配程度。可以根据计算得 到的相似度按从大到小的顺序对信息排序,然后把前面若干个大于一定阈值的信 息推荐给用户。向量空间模型实现起来也非常简单,可以非常有效的实现。向量 空间模型的缺点是:假设所有的索引项都是独立的,而事实上信息的索引项之间 常常是具有某种内部关联的。向量空间模型也不能解决同义词的问题,例如,如 果用户模板的含有的索引项是“计算机 ,而输入信息包含的索引项是“电脑”, 这时,将被看成两个不同的索引项。 ( 3 ) 概率模型 概率模型基于概率论。对于给定的文档和其中的特征词,概率模型通过两者 的相关概率来表示这篇文档。文档的项记为t i ,其对特定文档d 的相关概率为 p 皿lt i ,d ) ,其中r 为已知的训练文档集。如果文档中特征词的集合为t = t l ,t 2 ,t d ,则文档可以表示为d - - p ( rlt l d ) ,p ( rlt 2 ,d ) ,p ( rlk ,d ) ) 。概率模 型中应用较多的是n 元统计模型。 基于贝叶斯概率原理( b a y e s i a np r o b a b i l i t y ) 的概率模型使用概率论的方法来 解决检索条件和文档间相似度的问题,用在信息过滤系统中,主要是计算文档属 于合法文档和非法文档的概率,从而决定是否将该文档过滤掉。此时信息过滤问 题就转化成了求条件概率问题,文档集合可以表示为 d = ( d l ,d 2 ,d 3 d n ) 。 9 增强婪嚣煲过滤系统职究萼实现 假设d 的子集r 里的文档是非法的,对于一未知文档q ,则q 属于r 的概率 和不属予r 的概率可以用贝叶斯公式来表示: p ( r i o ) 嚣警 p ( r i d ) 嚣警 上式中的后两顼p 圆和p 只与文档q 有关,与文档集合d 无关所以可以 不用计算。但是由于索引项的数量很大,一般会引入一些假设,以简化计算。在 后面的改进的贝叶瓶算法羹会详细介缨。 2 2w e b 过滤技术研究 2 2 1h t t p 协议研究 由于互联网( w o r l dw 洳w e b ) 是基予h t i t 通讯协议的,而本文的目的是 开发一个能有效过滤互联网中资源的系统,所以在继续之前必须对h t y p 通讯协 议要有一定程度的了解,接下来就简要研究下壬盯弹通讯协议【3 郎l 。 ( 1 ) 腓协议内容 基本上,唧协议是用户使用测览器通过两址或超链接向网页服务器发出 n 请求( r e q u e s t ) ,而网页服务服器响应( r e s p o n s e ) 此请求的标准通信协 议。 壬玎”定义了如下重要协议【3 4 ,5 l : h i t p 请求( r e q u e s t ) 由客户端浏览器发出的请求消息,用来获得互联飕上的某个资源,接收者可 能是网页服务器( w e bs e r v e r ) 或是代理服务器( p r o x ys e r v e r ) ,在此消息中通 常含有h t i t 方法( m e t h o d ) 、请求的u r l 、h t f p 标题( h e a d e r ) 及上传内容 ( c o n t e n t ) 等数据。 鞭r f p 响应( r e s p o n s e ) 服务端( 可能是网页服务器或是代理服务器) 响应客户端请求( r e q u e s t ) 的 结果,遥常含有h t i t 状态( s t a t u s ) 、h t f p 标题( h e a d e r ) 或是下载内容( c o n t e n t ) 等数据。 l o 增强型网页过滤系统研究与实现 h t t p 标题( h e m d o r ) 当客户端通过浏览器发送h t r p 请求到服务器或是服务器响应结果给客户端 时,在传输数据的前端部分插入的一些信息,这些信息通常是给服务器或是浏览 器执行时参考用的,而在网页过滤技术中的p i c s 方法,就是浏览器利用服务器 响应结果的标题( h e m d c r ) 信息,来判断网页是否显示的。 h t t p 方法( m e t h o d ) 当客户端通过浏览器向服务器发送h t r f 请求时,除了包含资源的u r l 外还 要加上h t i t 方法,以通知服务器如何处理客户端的请求,较常用的方法有g e t 、 p o s t 、h e a d 等。 u r l ( u l l i f o r mr e a o u r c al o c a t o r ) u r l 通常是被用来定位互联网上资源的方法,也是u r l 过滤( u r lf i l t e r i n g ) 技术中重要的过滤依据,一个合法的u r l 通常由通讯协议、主机地址、端口 ( p o r t ) 、目录名称、文件名称及查询参数组成。 i - i t t p 状态( s t a t u s ) 该数据是由一组数字组成,通常包含在服务器返回给客户端浏览器的结果中, 服务器通常会利用此数字来通知客户端浏览器所请求的结果,例如找不到网页 4 0 4 、未授权访问4 0 1 或是服务器内部错误5 0 0 等。 h t t p 内容( c o n t e n t ) h t t p 内容是通信过程中最重要的部分,通常是客户端上传或是下载服务器 的数据,一般内容过滤( c o n t e n tf i l t e r i n g ) 技术也是针对此部分的数据进行分析, 来判断此内容是否被过滤。i - h t p 内容并不包含数据种类及长度等信息,接收 者必须通过唧标题( h e a d e r ) 中的内容类型( c o n t e n t - t y p e ) 及内容长度 ( c o n t e n t - l e n g t h ) 占位符来获得,才有办法进行相应的处理。 ( 2 ) h 兀p 协议的通信过程 一般h t t p 客户端浏览器与服务器的通讯过程如图2 3 所示。 增强型网页过滤系统研究与实现 客户螭浏览嚣 一- - 1 连接啼 1 2 1 l t r p 请求- - 卜一3 硼1 n p 响应一 一一一一吒关闭连接一一一一 服务暑 图2 3h t t p 客户端和服务器端通讯过程 连接( c o n n e c t i n g ) 首先,客户端浏览器需要与网页服务器建立连结,并且一直保持通讯连结一 直到客户端结束连结或出现错误为止,其间的请求( r e q u e s t ) 与应答( r e s p o n s e ) , 均通过此通讯连结处理。一般来说h t r p 是属于无状态连结( s t a t e l e s s c o n n e c t i o n ) ,每一个u r l 的h t i t 请求均必须与网页服务器建立连接,等处理 结果回应至客户端浏览器后,便立即终止通讯连接,而在h t r i 1 1 版的标准中 所提供的功能k e e p - a l i v e ,能够在应答( r e s p o n s e ) 完成后继续保持连接状态, 以供下一次的传输,直到有一方发出中断的消息而结束,这种作法降低了大量请 求( r e q u e s t ) 及应答( r e s p o n s e ) 的连接代价。 h m 请求( h t i tr e q u e s t ) h t f p 通讯连结建立后,客户端浏览器便将用户的对于网站的资源请求,转 换成哪请求( h t f pr e q u e s t ) 的格式发送到网页服务器处理。 h r l l p 应答( h t t pr e s p o n s e ) 当网页服务器收到客户端发出的哪请求( h t r p r e q u e s t ) 后,它会根据 请求的h t t p 方法( h r i pm e t h o d ) 、资源地址及名称等,产生对应结果h t t p 响应( h t t pr e s p o n s e ) ,最后将此响应回传给客户端浏览器,一般来说成功的应 答如下所示: 1 2 增强型网页过滤系统研究与实现 关闭连结( c l o s ec o n n e c t i o n ) 最后,由于h t l t 通讯协议属于无状态连结( s t a t e l e s sc o n n e c t i o n ) ,因此当 网页服务器将用户端的m ,请求( h t r pr e q u e s t ) 处理完毕后、便会立即将两 者之间的通讯连结终止,这样便完成客户端与服务器之间的h t t p 通信,而在 h t i t1 1 版的标准中,可以将连接( c o n n e c t i o n ) 的h t r p 标题( h e a d e r ) 设定 成k e e p a l i v e 来保持连接。 ( 3 ) 具有代理服务器( p r o x ys e r v e r ) 的通讯过程 具有代理服务器( p r o x ys e r v e r ) 的通讯过程如图2 4 所示。 代理服务器 客户端测览器 服务器 图2 4 具有代理服务器( p r o x ys e r v e f ) 的通讯过程 与一般h t t p 协议的通讯方式相比,我们可以看出在客户端和服务器端之间 多了一个代理服务器,此服务器可以代替用户端浏览器向网页服务器发出请求 ( 步骤2 ) 及代替网页服务器向客户浏览器发出响应( 步骤4 ) ,因此,代理服务 器可以在整个传输过程中,对用户端浏览器所发出的请求( r e q u e s t ) 及网页服 务器所产生的响应( r e s p o n s e ) 加以处理,此架构最常被用来进行网页缓存处理, 提高用户访问服务器的速度。 代理服务器能将网页服务器的响应( r e s p o n s e ) 缓存起来,当下一次某个客 户端浏览器发出相同请求( r e q u e s t ) 的时候,代理服务器便直接利用缓存中的 网页,产生响应( r e s p o n s e ) ,因此能降低网络带宽和网页服务器的负载。一般 爆强鍪疆爽过滤系统磷究号实褒 来说,在一个网页访问量大而产生高延迟的环境下,可以剩用代理服务器来获得 较好的访闯速度。 具有代理服务器的腓协议传输模式,也可以被用来开发网页过滤系统, 例如图2 5 为一个使用u r l 过滤( u r lf i l t e r i n g ) 技术进行网页过滤的数据传输 过程。 u r l 过滤器 躅2 。5 使用u r l 过滤( u r lf i l t e r i n g ) 酌数据传输过程 在u r l 过滤的方式中,u r l 过滤器会先对客户端所发出的h t y p 请求( 硪 r e q u e s t ) 进行处理,将帅请求( h t t p 姻u e s t ) 中的u r l 字符串和u r l 数据库中的u r l 记录进行比较,来决定此请求是否需要重定向( r e d i r e c t ) 。一 般来说如果客户端浏览被禁止的网页,都会以重定向到警告网页的方式来处理, 而重定向的方法是将h t y p 请求( h t i 聃s t ) 中的u r l 字符串取代成警告 页面的u r l 地址。以下为u r l 字符串取代前及取代后的例子( 将原先对 h t t p :w w w g o o g l e e o m i m a g e s h p 0 g i f 的请求重定向 h t l p :1 4 0 1 3 4 2 6 1 8 1 i m a g e s d d e n y g i f ) g e t h t t p :l l w w w g o o s e c o m t w i m a g e s h p o 斟i - r r r v 1 1 一妇 h o s t :w w w g o o g l e c o m k r n u s 昏a 氆眦:m o z i l l 扔0 1 4 增强型网页过滤系统研兜与实现 g e t h t t p :1 4 0 ,1 3 4 2 6 1 8 1 i m a g e 彰d e n y g i f h t t p 1 1 妇 h o s t :w w w g o o g l e c o m 、r k n u s e r - a g e n t :m o z i l t a 5 。ox r 、b k e e p - a l i v e :3 妞瀛 c o n n e x i o n :k e e p - a l i v e h k n 2 2 2 嘲页过滤技术 w w w 和e m a i l 作为两种最常用的网络服务,已成为信息交互的重要工 具。目前网络上的信息一般通过网页形式承载并以图文并茂的方式呈现在人们面 前,因此本文中研究的信息过滤主要是集中在网页过滤,期望通过对页蘧内容的 理解和处理为瘸络内容安全性韵实现提供基本手段,对于2 1 中的信息过滤本文 不作讨论。在本节,将概述一些相关的网页过滤技术。 ( 1 ) u r l 过滤( u r lf i l t e r i n g ) 1 3 6 t u r l 过滤是暇前最普遍的网页过滤方法,它首先将u r l 字符串从客户端的 请求( r e q u e s t ) 中取出,然后与预定义的样式集合或是u r l 数据库进行对比, 根据结果来判断u r l 的合法性,最后决定该请求( r e , q u e s t ) 是否被允许。 u r l 过滤主要有两种实现方法 黑名单列表 先让所有请求( r e q u e s t ) 都通过,然后禁止那些在u r l 数据库中有记录懿 请求( r e q u e s t ) ,这季申实现方法使褥所有未知的u r l 地址的请求( r e q u e s t ) 掬 会被允许。 自名单列表 先将禁止所有请求( r e q u e s t ) ,只允许那些在u r l 数据库中有记录的请求 ( r e q u e s t ) 通过,这种方法使得所有未知u r l 地址的请求( r e q u e s t ) 将会被 禁止。 建立不良网站( 或两址) 的u r l 数据库,利用一种在i n t e m e t 上能自动测览鼹址 增强型嗣页过滤系统研究与实现, 的机制依事先设定的关键词于i n t e r n e t 中搜索可疑网站,再以自动化方式或人工 方式判别是否为不良网站,并登记到数据库中。但是随着互联网资源的快速增长 以及动态网页技术的成熟,追踪u r l 地址合法性的工作变得非常困难,因此无 法建立一个包含所有u r l 地址的数据库,采用u r l 过滤就必须和产品业者合作, 定期更新u r l 数据库的内容,因此u r l 过滤器效果的好坏,完全取决于u r l 数据内容的完整性。 u r l 过滤技术的优点是效率高、正确率高以及实现简单,目前已知的产品有 s m a r t f i l t e r t 7 1 、s u r f - w a t c h s l 、c y b e r p a t r o l t g 、w e b s e n s e t l o 】等。 ( 2 ) 内容过滤( c o n t e n tf i l t e r i n g ) 瞄2 3 1 内容过滤( c o n t e n tf i l t e r i n g ) 是对网页内容做关键词或图片过滤,将包含关键 词或图片的网页拦截,并以警告信息代替。现阶段内容过滤主要是针对文字做关 键词检查以决定内容是否恰当,对于图像、声音、视频等尚无较快速且有效的方 法来判别其内容的合法性。 由咖协议的内容【3 郎】中所示,哪请求( i - i t i p r e q u e s t ) 及唧响 应( h t t pr e s p o n s e ) 里都有内容的部分,因此对于聊内容的处理方式可以 分为两种。一种是过滤帅请求( h t i i r e q u e s t ) 中内容的方法。客户端浏览 器能利用p o s t 或p u t 方法,通过姗请求( h t r pr e q u e s t ) 中内容的部分, 将数据上传至网页服务器,一般来说这种传输方式会被应用在h t m l 表单提交 或是文件上传服务等。针对腓请求( h t i mr e q u e s t ) 中的内容进行过滤,可 以防止用户端把含有病毒或是不良的内容上传到网页服务器。 另一种是过滤舯应答( h t t pr e s p o n s e ) 中内容的方法,过滤器会将h r r p 应答( h i t pr e s p o n s e ) 中的内容进行分析,一般来说,内容过滤器只会针对某 些数据类型进行分析,不同的数据类型对应不同的分析方式,而获得数据类型的 方法由h t t p 协议可知,只要获得唧响应( h t l vr e s p o n s e ) 中h i t p 标题 ( h i t ph e a d e r ) 的内容类型即可,以下为过滤哪响应( h i t pr e s p o n s e ) 中内容的例子。 h t m l 标签过滤 当网页服务器回传到客户端的数据是h t m l 文件的时候,此过滤方式允许 1 6 增强型网页过滤系统研究与实现 h t m l 文件内某些标签被移除,这种方式能够避免客户端系统漏洞暴露在外,例 如移除像j a v aa p p l e t 、j a v a s c r i p t 、a c t i v e x 等嵌入在h t m l 中的组件标签。h t m l 标签过滤的方式只会作用在内容类型( c o n t e n t - t y t m ) 为t e x t h t m l 的内容上。 病毒扫描 针对那些可被下载的代码进行病毒扫描,此种方式只会对内容类型 ( c o n t e n t - t y p e ) 为a p p l i c a t i o n o c t e t s t r e a m 的内容进行处理,因此不会影响图片、 文本等传输速度。 a p p l e t 扫描 针对j a v aa p p l e t 或是a o t i v e x 组件进行扫描,分析它们的执行代码,并且决 定那些组件是安全的,和h t m l 标签过滤不同的是,a p p l e t 扫描并不会将全部 的h t m l 嵌入标签移除,某些安全的组件可以被执行,f 蝎跹s o f t w a r e 的 s u r f m g a t e 【1 1 1 就是这类过滤软件。 0 ) p i c s ( p l a t f o r mf o ri n t e m c tc o n t e n ts d e 蛾i o n ) 网页分级是根据网页的内容或其他属性特征,运用一定的分级体系分门别类 地把网页揭示出来成为分级标记,使用时再进行比较以决定是否过滤【2 】。 上面介绍的u r l 过滤( u r lf i l t e r i n g ) 技术,必须使用管理者或是厂商提供 的u r l 数据库来进行比较。而p i c s 网页过滤方式是根据网页内容分级( c o n t e n t r a t i n g ) 的结果来进行过滤,而评级的工作通常可以由网页制作者自己( 自我分 级s d f - r a t i n g ) 或是公正的第三方机构来完成。 p i c s 是一个和网页分级技术相关的过滤组织【2 】,p i c s 制定了一套利用分级 制度来进行过滤的平台,它最初的目地是为了让家长及老师控制儿童访问互联网 的内容,如今也被用来做网页内容过滤方面的应用。在p i c s 平台之上,可以 创建其他评级服务( r a t i n gs e r v i c e ) 和过滤软件( f i l t e r i n gs o f t w a r e ) 。由于p i c s 是2 2 个会员组织订定的标准,这使得网站评级的工作可以标准化,关于网站的 评级主要有两种方法: 自我评级( s e l f - r a t i n g ) 这种方法能使内容提供商自愿地对他们所提供和发布的内容加以分级和标 签化。 第三方厂商评级( 3 r dp a r t yr a t i n g ) 1 7 增强型隧页过滤系统研究与实现 这种方式可以方便不同的厂商来提供服务,对于他人所发布的内容可能有额 外的分级方法,丽不同的服务可能会有它们自己的分级方法,所以邸使是相同的 内容也有可能被不同的服务分级成不同等级。 p i c s 的评级信息,会在网页赧务器发出应答内容时,把它放在h t i t 标题 ( 唧h e a d e r ) 的占位符中或是被嵌入在h t m l 文件当中,以下为f i c s 放在 h t f p 标题( 盯r ph e a d e r ) 上进行发送的例子: 在这个例子审可以发现,p i c s 利用一种多列的卿标题( 胂h e a d e r ) 格式,标题的内容可以被多行以空白起始的数据来表示。要注意的是并非所有的 网页服务器或是浏览器支持这种格式,因此有些系统萄能会将p i c s 的薹狂疆标 题全部用一行很长的消息来表示。除此之外,p i c s 的标签不仅可以运用在h t t i 协议当中,任何一种透讯协议,只要其各传输标签搭式的功能,就可以发送p i c s 标签,最好的例子就是s m t i ,换句话说p i c s 技术也能应用在电子邮件内容过 滤软件中。 用户访问网页前,浏览器先预览网页内容,若网贯内容出现事先设定的标签, 则立帮跳出该网页,避免用户接触不良嚼站。以p i c s 作为防治技术须配合符合 p i c s 规范的浏览器如m i c r o s o i 患i e ,n e t s c a p e 等等,若浏览器不符合p i c s 规范 则无法发挥效果。另一方面,并没有一套强有力的规定强制网页肉容提供商毖须 将网页内容予以标签化,而网页制作者更不可能将其网页贴上标签,这样使得整个 机制无法发挥真正效益。 2 3 网页自动分类技术 文本皂动分类的目的是把文档按照它们的内容和主题来划分类别。传统的文 增强型网页过滤系统研究与实现 本分类任务是由专家按照对文本内容的理解进行人工分类,或者由作者给出文档 在标准分类体系中所属的类别,例如图书分类和论文的分类。手工分类虽然结构 清晰,但是速度慢,而且依赖于专家个人的理解,分类质量得不到保证。远远不 能满足网络环境下的需要。文本自动分类就是试图用计算机来代替专家进行文本 的自动分类。 2 3 1 文本自动分类简介 文本自动分类是指计算机将一篇文章自动地分派到一个或多个预定义的类 别中去,它属于信息检索取和机器学习m l 的交叉学科t 1 6 1 。在国外大致经历了 三个发展阶段:第一阶段( 1 9 5 8 - 1 9 6 4 ) 主要进行自动分类的可行性研究,第二阶 段( 1 9 6 5 1 9 7 4 ) 进行自动分类的实验研究,第三阶段( 1 9 7 5 至今) 进入实用化阶段。 我国文本自动分类的研究工作始于2 0 世纪8 0 年代初,大体上经历了从可行性探 讨辅助分类系统自动分类系统三个发展阶段。1 9 8 1 年,侯汉清先生首 先对中文文本自动分类进行了探讨,经过二十多年的研究,中文文本自动分类技 术也日趋成熟,现有的文本分类技术绝大多数都用到了经典的向量空间模型 ( v s m ) t 1 9 1 ,其中使用较多并且技术比较成熟的主要有基于统计学的分类技术和基 于人工智能的自动分类技术。 基于统计学的自动分类技术:分类算法建立在统计学的基础上,通过比较 文本特征向量与预定义类别特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论