(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf_第1页
(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf_第2页
(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf_第3页
(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf_第4页
(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

(通信与信息系统专业论文)网页内容分级过滤系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及取得的研究成 果。据我所知,除文中已经注明引用的内容外,本论褒孬包含其他个人已经发表或 撰写过的研究成果。对本文的研究做出重要贡献的个人和集体,均己在文中作了明 确说明并表示谢意。 作者签名乌现墨b 瓤:型;18 学位论文使用授权声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学校有权保留学 位论文并向国家主管部门或其指定机构送交论文的电予版和纸质版。有权将学位论 文用于非赢利目的的少量复制并允许论文进入学校图书馆被查阅。有权将学位论文 的内容编入有关数据库进行检索。有权将学位论文的标题和摘要汇编出版。保密的 学位论文在解密后适用本规定。 学位论文作者签名:马吨鼍 导师签名 日期:2 瑚牛rf g日期 杨卑罕 j 厂 沙v j ( i 选 摘要 互联网的高速发展已经使其成为世界上覆盖面最广、范围最大、内容最为丰富 的资源库。人们在充分享受信息共享所带来的便利的同时,却也饱受着大量“垃圾 信息”的困扰,特别是对于广大青少年学生,一些“有害信息”正在威胁着他们的 身心健康。孩子的健康成长需要一个干净的网络,网页内容安全问题亟待解决。 这一问题已经引起全世界的广泛关注和重视,许多国家已经意识到了这一问题 、。o - 的严重性,开展了相关的讨论和研究,并且从技术和非技术两方面采取了一定的措 施。非技术措施主要包括政策法规、正确的教育引导等,技术措施主要是采用各种 网页内容过滤的方法和技术对不良内容进行“堵”。但是,目前各种技术防范手段 还远远没有达到高效、准确、方便的要求,没有遵循一个全面、客观内容分类分级 标准,也无法迅速方便地实现更新和升级。新技术的出现和新的技术标准的颁布为 这些问题的解决带来了希望,本文试图在对网页内容过滤技术研究的基础上提出一 个新的网页内容过滤技术解决方案。 围绕着实现一个新的网页内容分级过滤系统,本文主要进行了以下几方面的研 究。首先,本文对网络信息过滤技术和各种实现方法进行深入的研究。其次,在总 结这些方法优缺点的基础上,提出了一种新的技术解决方案,即遵循中国教育内容 分级标准( c h e r s ) ,采用w e b 服务方式实现的网页内容分级过滤系统。基于c h e r s 标准的内容架构使得系统对于有害信息的分类更为全面、客观,基于w e b 服务的结 构,使本系统架构具有突出的扩展升级功能,通过改进分类过滤算法、关键词库和 w e b 服务的实现可以提高整个系统的性能,而这一过程在客户端不需要做任何变动。 接着,本文对该方案进行设计和实现,并对其关键技术、相关算法和所采取的具体 策略进行详细分析。最后,本文对所实现的系统进行试验和评价。 【关键词】 信息过滤,内容分级,w e b 服务 a b s t r a c t t h ei n t e m e th a sb e c o m et h eb i g g e s tr e s o u r c eo ft h er i c h e s ti n f o r m a t i o n p e o p l es h a r e t h ei n f o r m a t i o ni tp r o v i d e sa n df e e lc o n v e n i e n t ,b u tt h e “i n f o r m a t i o nr u b b i s h a l s o p u z z l e st h e ma tt h es a m et i m e e s p e c i a l l yt ot h et e e n a g es t u d e n t s ,s o m eb a d i n f o r m a t i o n i sh a r m f u l l ya f f e c t i n gt h e m t h i si s s u ei n c r e a s i n g l ya r o u s e sa t t e n t i o n sa r o u n dt h ew o r l d , a n dm a n yc o u n t r i e sh a v ea l r e a d ye s t a b l i s h e di t so w np o l i c i e sa n dt a k et e c h n i c a ls o l u t i o n t od e a lw i t hi t b u tt h et e c h n o l o g i e st h a ta r ec u r r e n t l ya v a i l a b l ea r ef a rf r o mo u r e x p e c t a t i o n t h e s et e c h n o l o g i e sd o n tc o n f o r mt oau n i f o r mc o n t e n tr a t i n gs t a n d a r da n d a r en o te a s yt ou p d a t ea n du s e ,t h i sp a p e rp r e s e n t san e wc o n t e n tr a t i n ga n df i l t e r i n g s o l u t i o nb a s e d0 nc h i n e s ee d u c a t i o n a lc o n t e n tr a t i n gs t a n d a r d ( c h e r s ) a n dw e b s e r v i c e t h i sp a p e rm a i n l yc o v e r st h r e ep a r t s :f i r s t ,i tr e s e a r c h e sw i t hr e s p e c tt ot h ec u r r e n t l y a v a i l a b l ei n f o r m a t i o nf i l t e r i n gt e c h n o l o g i e si n c l u d i n gt h e i ra d v a n t a g e sa n dd i s a d v a n t a g e s a n dp r e s e n t san e wc o n t e n tr a t i n ga n df i l t e r i n gs o l u t i o na r c h i t e c t u r e s e c o n d ,t h ed e s i g n o fac o n t e n tr a t i n ga n df i l t e r i n gs y s t e mb a s e do nt h ea r c h i t e c t u r ei so f f e r e d a tl a s t , r e a l i z a t i o na n de v a l u a t i o no f t h i ss y s t e ma r ed i s c u s s e d k e y w o r d s :i n f o r m a t i o nf i l t e r i n g ;c o n t e n tr a t i n g ;w e bs e r v i c e i i 第1 章绪论 第1 章绪论 互联网正逐渐发展成为普通大众伸手可及的媒体传播手段和通讯工具,它给人们的生活方式 带来了革命性变化,人们可以在网上进行学习、研究、娱乐、电子商务等一系列活动。互联网区 别于其他媒介最显著的优势就是:它以一种更加有效的方式发送和接收信息,允许快速地查询和 检索,人们可以不受约束地获得信息和发布言论。互联网在迅速发展的同时,也出现了很多问题。 由于互联网信息的开放性和易于获取,互联网信息的内容安全问题也逐渐引起了人们的注意。 互联网提供了大量的信息,但其中有一些并不适合青少年学生,这已是不争的事实。教育能 够帮助学生判断和决策哪些知识有用或有趣,哪些知识是非法的或不适合他们的。但是,要想给 孩子一个“干净”的网络,完全依赖于教育引导是不够的,最好的解决办法是将法律法规的完善、 对孩子的正确指导和技术解决方案结合起来。 1 1 问题的提出 有资料统计【jj ,截至2 0 0 3 年1 2 月3 1 日,我国上网用户总人数为7 9 5 0 万,其中1 8 岁以下 的网民占1 8 8 ,在职业方面,学生占全体网民的比例为2 9 2 。广大青少年学生已经成为推动 中国互联网事业发展的一股重要力量。但是,互联网带给他们的却不一定就是知识和快乐,大量 的“垃圾信息”和“有害信息”正在威胁着他们的身心健康。互联网上色情、暴力等不良信息迅 速繁衍其危害是不言而喻的,广大青少年学生涉世未深、好奇心强,极易受到这些信息的诱惑, 引起种种不良影响,甚至产生严重后果。 “如何给孩子提供一个干净的网络? ”这一问题已经引起全世界的广泛关注和重视,互联网 企业、教育工作者和家长都从各自的角度寻找答案,政府也参与其中。许多国家已经意识到了这 一问题的严重性,开展了相关的讨论和研究,并且从技术和非技术两方面采取了定的措施。 1 2 网络内容问题的解决策略 针对访问因特网所潜在的问题,许多国家已经意识到。而且都宣布已经制定了相应的政策, 采取了一定的措施【2 】【3 】。本文调查了澳大利亚、加拿大、美国、欧盟和我国的一些情况,发现各 国对这一问题的对策有很多共同的地方。 1 2 1 各国的应对策略 1 澳大利亚【4 】 第1 章绪论 在澳大利亚学校中,因特网作为教育中的学习动力被迅速使用。1 9 9 9 年1 月澳大利亚有2 2 0 万的网民,2 0 0 3 年人数变为原来的4 倍。为了解决因特网进入日常生活所带来的问题,帮助公民 远离非法的和攻击性内容,澳大利亚联邦政府1 9 9 9 年提出广播服务( 在线服务) 修正案。议案 目的在于控制网上内容,减轻公众的恐惧心理,诸如开通投诉熟线,提供内容信息,教育公民, 鼓励因特网的使用等。 为了支持学校,所有的政府教育部门都制定了因特网访问管理条例。一些州只提供一个大概 的框架,具体措施由学校自己制定,还有一些州则要求学校遵循网上出版物标准,统一的政策和 技术方法。通常的做法是在部门网站上公布一些做的较好的学校作为榜样。蛀近研究表明,9 8 的联网的公立学校已经制定了使用因特网的政策,其中7 4 的学校使用软件来过滤和阻隔某些内 容,2 8 的学校使用局域网控制访问。 所有政府或非政府的教育权威还强调网站的质量,认为应该由专家按照课程的标准对网站进 行评价。学校将确认的质量有保证的网页储存在缓存中,确保孩子们能很快地访问,同时有利于 减少带宽,降低学校的成本。 2 加拿大嘲 到目前为止,加拿大已经建立了广泛的合作关系来处理因特网的内容,包括各级政府、律师 事务所、非营利组织和大部分的社区。加拿大人认为对于非法内容的控制根本上是立法的问题, 而控制和管理具有攻击性但不非法的内容需要不同的方法,比如给用户授权,教育消费者作出正 确的选择,建立可靠的工业规则等。 加拿大联邦政府的方法是在加拿大人中广泛地宣传指导,提高工业界的自治力,加强网络立 法,实施热线或投诉系统,鼓励国有和私有企业之间的沟通,以及与其他国家的合作。另外,加 拿大还开展了一些研究项目,集中于因特网服务提供商实施和因特网用户使用的技术。这些技术 包括孩子使i 【 = j 的搜索引擎和网站,基于x s p 自o 过滤服务和网络内容标签系统等。 3 美国删 调查显示,美国9 1 4 岁的孩子中有4 3 的认为因特网改善了他们对学校的认识。然而, 因特网没有内容分级也就是说孩子们可以很容易地快速地访问任何东西,比如色情内容以及其 他有争议的问题,如暴力图片等。 2 0 0 0 年1 2 月,美国国会通过“互联网儿童保护法案”,规定由某些联邦基金资助,在所有 的公立学校和图书馆通过网络安全技术堵塞色情资源。但“互联网儿童保护法案”仍然没有被 言论自由团体放过,再度被美国公民自由协会和美国图书馆协会告上法庭。反对者的论点集中在 两点:一是过滤技术不可靠;二是这种方法不能从根本上解决问题。 目前在学校i h 图书馆馒其j 因特网内容过滤还处于争论中。国会决定在学校和图书馆强制实谴 过滤,而某些组织和政客总是反对通过立法在公共场合和公共服务中引进和使用该技术。父母、 学校、图书馆对于是否以及如何过滤因特网内容进退两难f j 。 2 第1 章绪论 4 欧盟嘲 欧盟已经公布了一项法案提高因特网使用的安全性。他承认因特网的正面优势( 尤其是在教 育方面) ,但同时因特网也带来很多有害和非法的内容,尽管很有限,但也不利于友好环境的建 立。一个安全环境的产生需要对因特网的非法利用者进行还击,尤其是要控制侵犯孩子和传播种 族仇恨的网络内容。 欧洲采取了鼓励工业界的自我管理和内容控制、开发过滤工具和分级系统,以及和国际合作 等措施。工业界合作制定的非官方的自我管理条例将有效抑制网上非法内容的传播。欧洲自我协 调团体认为这些条例在欧洲使用是有效和必要的。 总体来说在欧盟成员国中,比利时、爱尔兰、英国和德国的政府采取了更多的具体行动, 比如建立宣传站点和热线、建立专业的研究或管理委员会、颁布相关法规等。也有一些大的公司 参与到了控制互联网中不安全内容的活动中,如德国的贝特尔斯曼集团等多家著名互联网及信息 技术公司合作建立了名为“互联网内容评估联盟”的网页过滤系统。 5 中国 我国政府对于互联网有害信息的整治工作极为重视。首先,通过法律法规进行规范管理。国 务院先后颁布了“互联网上网服务营业场所管理条例”、“互联网信息服务管理办法”、“关于 加强非经营性互联网上网场所信息安全管理”等文件和法律规范,加强对互联网上网服务营业场 所和互联网信息服务商的管理。2 0 0 4 年2 月2 6 日中共中央国务院关于进一步加强和改进未成 年人思想道德建设的若干意见( 简称意见) 正式出台,其中明确提出了营造健康网络的一 些意见与规定。信息产业部、教育部和文化部等单位也下发了相关的一些规章性文件。 其次,对未成年人上网予以正确的引导。我国政府倡导文明健康的网络风气,遵循网络特点 和网上信息传播规律,充分考虑未成年人的兴趣爱好,加强网上正面宣传,为广大未成年人创造 良好的网络文化氛围。倡导建立健全学校、家庭、社会相结合的未成年人思想道德教育体系,使 学校教育、家庭教育和社会教育相互配合,相互促进,引导未成年人正确使用互联网。 第三, 采取技术措施进行防范。在意见中明确指出,“认真落实末成年人不得进入营 业性网吧的规定,落实在网吧终端设备上安装封堵色情等不健康内容的过滤软件,有效打击违法 行为。推广绿色上网软件,为家长监管未成年人在家庭中的上网行为提供有效技术手段。” 1 2 2 总结 通过调查澳大利亚、加拿大、美国、欧盟和我国的一些情况,我们发现各国的措施有相同之 处,主要有咀下几方面: ( 1 ) 加强网络管理立法 ( 2 ) 使用过滤技术 ( 3 ) 教育消费者如何正确利用互联网 3 第1 章绪论 另外,各国大多建立了专门的实旌热线和投诉系统。也有人认为,在教育等领域需要建立标 准的对网站进行评价审核的机制。 总之,解决互联网上不良内容的问题可以从技术和非技术两方面采取措施。技术措施主要是 采用各种网页内容过滤的方法和技术,非技术措施主要包括政策法规、正确的教育引导等。技术 方案主要对不良内容进行“堵”,非技术方案主要是引导,比如通过政策法规来引导网络导向, 通过父母、教师对孩子的教育进行正确的教育引导。我们认为,应将这两者结合起来,既要制定 相应的法律法规和对孩子进行正确的引导、教育,同时也要从技术上采取一定的措施进行控制。 纵观我国目前的现状,法律法规的宏观环境已经逐渐健全对于青少年学生的引导和教育工 作正如火如荼地开展着,但各种技术防范手段还远远没有达到高效、准确、方便的要求。原因是 多方面的,原因之一是因特网本身还没有进行内容分级,因此就无法对内容进行访问控制,任何 只有成年人才能看的内容小学生都能轻易地访问到。原因之二是,虽然很多学校和企业使用过滤 软件或者防火墙阻止不良内容,然而它f f :都需要网络管理人员手工添加关键词,输入被过滤的网 址或者配置一些选项,而且关键词和网址还需要经常更新。尽管有些软件可以自动更新,但更新 的内容是不公开的,可能也是不全面的,甚至是不合理的,因此增加了网络管理人员的难度和工 作量。原因之三是究竟什么样的网站是真正不健康的尚无定论。些人认为对孩子来说有害的内 容,其他人可能不认为有害,各种过滤软件也都是按照各公司自己的理解确定哪些内容需要过滤, 因此急需一个统一的网络内容评价标准。新技术的出现和新的技术标准的颁布为这些问题的解决 带来了希望,本文试图在对网页内容过滤技术研究的基础上提出种新的网页内容过滤技术解决 方案。 1 3 本文的研究内容 孩子的健康成长需要一个干净的网络,内容安全问题亟待解决。没有一个技术解决方案能单 独解决这个问题,也没有一个政策能够考虑所有的因素,因此必须将二者结合起来,从技术和非 技术两方面共同采取措施来应对这一问题。从技术层面考虑,目前已有的各种过滤方法主要不足 在于,没有一个全面、客观分类分级标准和无法迅速方便地实现扩展升级。针对上面的问题,本 文研究并实现了一个网页内容分级过滤系统。 围绕着网页内容分级过滤系统的研究,本文主要进行了以下几方面的工作。首先,本文对网 络信息过滤技术和各种实现方法进行深入的研究。其次,在总结这些方法优缺点的基础上,提出 了一种新的技术解决方案,即遵循中国教育内容分级标准采用w e b 服务方式实现的网页内容 分级过滤系统。接着,本文对该方案进行设计和实现,并对其关键技术、相关算法和所采取的具 体策略进行详细分析。最后,本文对所实现的系统进行试验和评价。 本文按照如下方式安排章节:第一章首先分析了互联网在给人们提供火量信息的同时可能给 孩子成长身心健康带来的问题,调查了世界各国的应对策略并进行了总结,提出本文的研究内容; 在第二章中,本文着重从技术层面对现有的网页内容过滤系统进行比较,分析总结各种方法的优 缺点,提出一种全面系统的网页内容分级过滤解决方案;第三章详细阐述了该方案的体系架构以 4 第1 章绪论 及它的三种实现模式;文中第四章对基于该方案一种实现模式的过滤系统原型进行设计,对其关 键技术、相关算法和所采取的具体策略进行详细分析研究;第五章,实现与评价,给出了本文所 实现的系统,并采用一定的评价方法和评价指标对本文所实现的系统进行试验和总结。 5 第2 章网页内容过滤技术概述 第2 章网页内容过滤技术概述 本章对网络信息过滤技术和各种实现方法进行深入的研究。对现有的网页内容过滤系统进行 比较,分析总结各种方法的优缺点,在此基础上提出一种全面系统的网页内容分级过滤解决方案。 2 1 信息过滤的定义和方法 2 1 1 信息过滤的定义 目前,对信息过滤所下的定义并不完全统一,人们从不同角度给出了信息过滤的不同定义; a )从用户的角度,信息过滤是指从动态的信息流中将满足用户兴趣的信息挑选出来,且用 户的兴趣一般在较长一段时间内不会改变( 静态) ; b )在图书馆领域,信息过滤是指信息的选择性传播; c )从通信角度理解,信息过滤是指信息通路的选定; d )最近资料显示信息过滤也指数据挖掘。 本文中的信息过滤倾向于第二个定义,即根据一定的分类分级别标准选择合法和健康的信 息,排除非法和不健康的信息。 信息过滤和信息检索是两个不同的概念。尽管它们都需要对动态信息流进行筛选,但信息过 滤着重于排除用户不希望得到的信息,关注用户的长线需求( 指在段时间内,比较固定的信息 需求) ,而信息检索是为呈现用户希望得到的信息,且用户需求是不断改变的。但是,它们又有 着极为密切的关系,许多过滤方法也是建立在早期成功的检索方法上的,如匹配等。 2 1 2 信息过滤的方法 信息过滤在技术上需要使用算法来分析元数据并实现推荐或排除。最普通的过滤方法有四 种简单过滤、基于规则的过滤、基于内容的过滤和台作过滤f 。 1 简单过滤 简单过滤依赖于预先定义的访问者的小组或类别,来决定显示什么内容或提供什么服务。例 如,员工可以使用个性化的w e b 站点,根据工作的种类来访问与他们工作相关的信息和应用程 序。此外还可以根据客户的年龄,资产的价值等指标对客户进行简单分类。 2 基于规则的过滤 基于规则的过滤是根据指定的规则来实现过滤。这需要管理员( 很可能在颢闫的帮助下) 制 6 第2 章网页内容过滤技术概述 定出适当的规则。基于规则的方法提供了一个灵活的机制,来为商业应用或市场活动制定规则, 交叉销售是基于规则过滤的一个电子商务示例。例如,规则可以指定为“向一个刚刚购买了产品 y 的客户提供产品x 的信息”,因为买产品y 的客户可能也对产品x 感兴趣。具体来说,购买了 一本书的客户可能对该书作者当前或以前的其它书籍感兴趣,或对相同主题韵书籍感兴趣,这样 的话就可以再推荐相关的内容或书籍。 3 基于内容的过滤 基于内容的过滤是通过分析对象的内容,来形成访问者感兴趣的对象集合。通常,这种分析 需要识别每个对象的一组关键字属性,然后填写属性值。这种技术的典型示例就是基于关键字分 析文档的文档过滤系统。推荐影视剧购买是基于内容过滤的另外一个示例。 下面的倒子使用了7 个属性来分析影视剧内容:动作、戏剧、色情、暴力、悬念、逝默和叛 逆。等级从0 到1 0 表示程度。例如,暴力等级】0 意为极度暴力,等级0 表示没有暴力。 表2 1 基于内容的过滤的一个示侧 影视剧属性 动作戏剧幽默 色情暴力悬念叛逆 ( a ) 沉默的羔羊 7319 1 0 ( b ) 七宗罪 5 5121 095 ( c ) 卡萨布兰卡21 05o18 基于内容的过滤使用一种被称为“欧几里得距离”或最近邻居的概念分析这些分级,从而决 定对于任何一部影视剧,其它的哪部影视剧和它具有晟接近的分级可以推荐给订购了第一部影 视剧的访问者。例如,可以发现沉默的羔羊的内容和七宗罪比和卡萨布兰卡更接近, 在这种情况下七宗罪就可以作为候选推荐给对沉默的羔羊感兴趣的客户。如果对象可以 容易地用计算机分析,而且访问者关于对象适宜性的决定不是主观的,基于内容的过滤是晟合适 的。 4 合作过滤 合作过滤使用显式或隐式评价,收集一组访问者的意见,来形成具有相似意向的同等组,然 后研究同等组,从而预测特定的访问者对于某项的兴趣。基于内容的过滤寻找具有类似属性的对 象,合作过滤寻找具有类似品味的访问者。合作过滤产生的推荐是基于同等组的响应,而不仅限 于简单的属性匹配。但合作过滤需要访问者评价对象,引入不同访问者的不同偏爱。在任何情况 下,都会有一些人具有独特的品味,以至于没有其它人会显现出与他相似的行为,另外,有些人 趋向于作出极端的评价,有些人则趋向于作出中庸的评价,这些都可能会使同等组的形成很困难。 下面是合作过滤的一个示例。假定每个人评价一部影视剧为1 到7 ,其中7 意为非常喜欢,4 为不喜欢也不讨厌,而1 为非常讨厌。影视剧a 到c 代表前面豹表中列出的3 鄱髟视剧。 7 第2 章网页内容过滤技术概述 表2 , 2 合作过滤的一个示例 影视剧访问者 a 沉默的羔羊b 七宗罪c 卡萨布兰卡 a d a m 72 b i l l 7l j e n n i f e r42 j o h n 62 m a r y 277 r 。s e l7 s u s a n 2 6 7 为了简便说明起见。我们再次使用了最近邻居的接近程度测量方法,发现与a d a m 接近的同 等者是b i l l 和j o h n 。在测量两个人的接近程度时,只有两个人都评价过的影视剧才被考虑。例如, 当考虑a d a m 和b i l l 的接近程度时。只考虑对影视剧a 和c 的评价。对于a d a m 来说,我们可以 根据j o h n 的喜好来推荐影视剧。虽然影视剧b 与影视剧a 的内容相似,但却不会被推荐给a d a m 因为他的同等者j o h n 不喜欢它。然而,基于内容的过滤将把影视剧b 推荐给a d a m ,这只是根据 它的内容与影视剧a 相似的事实,而a 是a d a m 所喜欢的。 5 过滤方法的比较 表2 3 过滤方法的优缺点比较 过滤方法优点 缺点适用场合 简单过滤投入较小过滤的依据过于简单 对客户进行简单 分类的场合 基于觏则投入较小,过滤规则的制定比较困难 商业应用或市场 的过滤方法灵活 活动 基于内容可以根据对象文率性描述对于计算机来说,具有冗长对象可以比较容易 的过滤的内容进行比和含混不清的特点,涉及到计算机语言地用计算机分析, 较复杂的过滤学的问题,比较困难。而且访问者关于对 象适宜性的决定不 是主观的。 合作过滤产生的推荐是同等组的形成很困难,需要大量的客户最适合同类、简单 基于同等组的基数才能为每个访问者找到同等组,这的产品,例如书籍、 响应,而不仅仅 也可能意味若漫长的学习曲线。开始时c d 或影碟 限于简单的属参与的访问者少,推荐的质量也会低。 性匹配。随着参与的访问者数量的增加,结果才 会改善。 8 第2 章网页内容过滤技术概述 目前网页内容过滤主要采用网址过滤的简单过滤方式和基于内容过滤中的关键词的组合。网 页内容的过滤方法还有其他,但总的来说,真正实现的基于内容的过滤需要理解网页的语义,这 涉及到自然语言处理、人工智能、模式识别等学科的问题,实现起来非常困难。虽然已经有些机 构开展了这方面研究,但还不成熟。合作过滤在不健康信息的屏蔽方面还尚未使用。 2 2 网页内容过滤的实现途径 目前,网络中信息过滤主要有四种实现途径:途径一是通过一些专门的过滤软件来过滤;途 径二是利用浏览器中的分级审查系统或者将过滤引擎嵌入浏览器来实现;途径三是通过在防火墒 中增加内容过滤的功能;途径四是通过网卡、u s b 数字钥匙或者其他硬件来实现内容过滤功能。 无论采用哪种实现途径,信息过滤操作的位置有三种选择:一是位于信息源,也就是由信息 提供者根据用户的概貌提供合适的信息;二是位于客户端,也就是用户根据自己的需要设置一定 的条件,把不希望获得的信息拒之门外:三是位于信息提供者和用户之间的专门的中间服务器土, 郎代理服务器过滤,代理服务器如同个大型的网络缓存器,外来的信息要通过它才能进入本地 或局域网,而内部信息也要经过它的代理才篚传递出去,因而可以设置相应的限制,对一些网址 或信息进行控制。 2 2 1 专门的过滤软件 1 国内目前所使用的主要过滤软件 国内内容过滤领域比较活跃的有三大公司大拇指、捷朗菱以及赛门铁克。 大拇指公司针对企业、学校、家庭都有相关的内容过滤产品。该公司的“大拇指互联网管理 系统”产品在安全性、功能和性能方面都有不错的表现在市场上有一定的影响力。特别是在广 东地区。该产品已经通过了公安部计算机信息系统安全产品质量监督检验中心的检验。 珠海捷朗菱网络科技是专业从事内容过滤产品研发的专业性公司。目前该公司已经有“过滤 王”品牌的单机版( 家庭版) 、网吧版、企业版、校园版、酒店版、i s p 电信版等内容过滤产品, 基本涵盖了市场的各个领域,例如“过滤王”网吧安全管理系统、“过滤王”互联网访问控制管 理系统、“过滤王”反邪教软件系统等。其中,“过滤王”校园版是通过网页内容识别和分级技术 将各种不同网站进行分类,过滤和禁止有害网络信息,对学校网络计算机进行统一集中管理,从 而达到管理和控制学生上网内容的目的。校园管理人员只要在电脑前就能及时全面地掌握整个校 园的上网情况,极大地提高了校园内信息管理的效率,解决了学校网络管理的难题。 赛门铁克推出的赛门铁克网关安全解决方案,将防火墙、病毒防护、入侵检测、内容过滤以 及v p n 功能融合到了单个解决方案中。该公司认为,这种整合的解决方案是未来发展的一种趋 势。该公司获得专利的、多语言的动态文档审查( d d r ) 技术和分类的u r l 列表协同工作提供 了全面的内容过滤。d d r 不但能提供简单的关键字过滤,还能为尚宋归类的w e b 页面提供是否 9 第2 章网页内容过滤技术概述 过滤的实时判断。d d r 能够有效地识别和阻止晟新发现的可连接的、以前可以连接但是现在内 容发生变化的和曾经被阻止过的但是换了域名的那些网站。可用户化的u r l 过滤列表由i t 管理 员建立在整个系统、组、或者个人基础上,使用3 1 种预定义的网站分类,如性赌博和其它不 允许浏览的网站,从而具备阻挡全球范围任何网站的能力。赛门铁克每天自动升级本软件的过滤 列表。 除了这三家以外,国内经常使用的软件如表2 4 所示 表2 4 常用过滤软件 软件名 公司网站发行方式 网络爸爸 h t t p :w w , t u e a g l e s c o m ,b z t o a 免费软件 美萍反黄专家 h t t p :w w w m p s o f t n e t s h i e l d h t m 试用后付费注册 反黄卫士 h r t p :w w w h r b e c c o m 试用后付费注册 护花使者 h a p :w w w i8 i e c o m 试用后付费注册 于手反黄防御系统 h t t p :f c a o m a o s e n g , d i y l 6 3 c o m 试燃后付费注册 兰陵免费反黄卫士 h r t p :e m a i l t 0 0 1 51 n e t l a n l i n k s o 削 试用后付费注册 锐起反黄之星 h t t p :w w w f i c h t e c hn e t c r d x z z x _ r j s y h t m 试用后付费注册 反黄先锋 h a p :s m h p m y e t a n g c o r n 试用后付费注册 别碰 h u p :w m n o p o m c o r n t w试用后付费注册 梅戏谷反黄专家 h t t p :w w w m s k c o r n t w 试用后付费注册 雅龙反黄先锋 h a p :w w w h k t k c o r n s o f t s o f l _ s e c u r i r y y l f a x f h t m 试用后付费注册 硅丰佳盾 h r t p :w w w g f o r c e i n c c o r n c n 试用后付费注册 正义战士 h t t p :w v * v , h r b c o c o r n 光盘发行 网警1 1 0 h t r p :w w w g e n n e t c o r n c r d光盘发行 火跟金精 h t r p :w w w , f f i y t e k ,c o r n 光盘发行 五仃卫士 没有网站光盘发行 2 国外常用的过滤软件 国外使用内容过滤软件主要是为了保护儿童,免受网络不良内容的侵害。所采用的技术主要 是使用列表,检查内容来源的u r l 。其中有一些过滤软件装在服务器端( 如s m a r t f i l t e r ,b e s s , w e b s e n s e ) ,有一些黻在客户端( 如n e t n a n n y , c y b e r s i t t e r ) ,有的还提供家庭版和教育版( 如 c y b e r p a t r 0 1 ) 。用于内容过滤的比较有名的免费网络程序有“m i s s i n g ”的软件包、s q u i d g u a r d 、 s q u i r m 和j e s r e d 等。其他带有过滤功能的软件还有n e t s c a p ep r o x ys e r v e r 和m i c r o s o t 、p r o x y s e r v e r 等。 o 第2 章网页内容过滤技术概述 2 2 2 分级审查系统和过滤引擎 1 浏览器中的分级审查系统 分级审查系统是对网页的内容进行定义,通过使用内容标签对网页进行分级。内容标签是由 网上每篇文档或网页的h t m l 头文件中附加的一系列标签所组成,这些标签定义和描述了网上信 息的类型。家长可以根据儿童具体情况,依照网站经营者设置的分级标签对w e b 内容进行过滤。 为网站提供分级的组织有i c r a ( i n t e m e tc o n t e n tr a t i n ga s s o c i a t i o n ) ,s a f e s u r f 和e s r b f e n t e r t a i n m e n ts o f t w a r er m i n gb o a r d ) 。这些组织的活动如下:i c r a 是由微软、a o l 时代华纳、 i b m 及v e r i s i g n 等公司组成的一家非赢利性国际组织,它的目标是保护孩子免受网上潜在的不良 内容的侵害;s a f e s u r f 的目标更多是为父母提供灵活的支持和帮助;e s r b 定位在为父母和消费 者提供一个客观的信息,以便他们对于计算机和视频游戏做出充分的决定。 尽管s a f e s u r f 早在1 9 9 5 年2 月就提出分级系统,但今天壤著名的分级系统是i c r a 分级系 统。i c r a 在它的主页中声称,美国大部分被访问的网站都采用了i c r a 标签系统来保证儿童在 网上冲浪。雅虎、m s n 及a o l 这三大网络巨头也正着手在其网站上增加相关的内容分级标签。 另外,这家组织还计划让更多游戏网站、政府网站、企业网站、儿童及成人网站的运营商参与到 这一行动中来。与电影业采用的“p g ”或“r ”等概括性分级标准不同,i c r a 的分级标签是通 过一组详尽的问卷来帮助内容供应商确定网站内容等级,并由1 c r a 形成放置至网站上的分级标 签的。 目前i n t e m e t e x p l o r e r 和n e t s c a p e n a v i g a t o r 中默认的是r s a c i 分级审查系统。r s a c ( r e c r e a t i o n a ls o f t w a r ea d v i s o r yc o u n c i l ) 于1 9 9 9 年并入i c r a 。i c r a 的分级标准以w 3 c f l , 口p c s ( t h e p l m f o r m f o r i n t e r n e tc o n t e n ts e l e c t i o n ) 所规范的分级格式为基础,主要针对暴力、色情、语言及 其他四类项目。随着的时间的推移,该系统也在不断地完善。 2 带有过滤功能的浏览器 有的浏览器本身带有过滤引擎,可以实现一定程度的过滤。 h e x a b i tj u n i o r 就是一个专门提供给儿童使用的网络浏览器。它的“e a s yn a v i g a t i o n ”特别方 便儿童的使用。同时,通过“p a r e n t a lc o n t r o l ”的设置,父母也能控制孩子的浏览。如果耍规定孩 子只能访问某些适当的站点,可以通过f a v o r i t e s ( 喜爱站点) 选项卡进行相应的设置。还可以控制 孩子的浏览时间,通过日志文件家长可以察看他们访问的纪录,当然这些都是支持密码保护的。 类似的国内还有“科利华学生浏览器”,将反黄的功能内嵌在浏览器当中,国外还有n e ts a f e ,p u r e s i 曲t 和s u r f i na n n e t t e - 另外,一些儿童浏览器除了过滤不良信息外,还带有卡通的界面,如k i d s a f ee x p l o r e r ,m o n j a k i d s 等,他们都是儿童上网的好帮手。 第2 章网页内容过滤技术概述 2 2 3 防火墙中基于内容过滤的功能 使用防火墙,根据u r l 地址对数据包进行过滤,是数据过滤的一种常用且实用的方法t 可 以有效实现对一些黄色、反动站点或信息的过滤,同时此方法在一定程度上也可以防范一些黑客 攻击。 1 主流防火墙软件中的内容过滤功能 目前,主流防火墙厂商都在其防火墙产品中增加内容过滤功能。传统的防火墙u r l 过滤技 术基本上是在应用层实现,相应的防火墙也只有作为应用层代理时,才可以进行u r l 过滤。 东软的n e t e y e 防火墙对内容级别的访问控制就是通过透明方式的应用级代理实现的。根据 应用代理处理的应用协议不同,可分为:h t t p 代理、f t p 代理、t e l n e t 代理、s m t p 代理、p o p 3 代理、n n t p 代理等等。它们提供了对h t t p 、f t p 、s m t p 等应用的命令级过滤。在h t t p 过滤 中,可以对h t t p 命令、u r l 目录等进行过滤;在f r p 过滤中,可以对f t p 命令进行过滤:在 s m t p 中,可以对邮件主题、正文内容等进行过滤,还可以限制邮件大小、防火墙允许转发的邮 件域等。 而对于晟常用的企业、政府和网站应用环境,传统的防火墙在链路层或网络层做包过滤和数 据转发时,却不具备u r l 过滤的功能。此外,代理型u r l 过滤技术对每一个到达应用层的数据 包都要进行拆包检查过滤这种技术一方面受限于代理的处理性能而严重影响过滤速度,另一方 面由于u r l 搜索匹配过滤同时也降低了代理的性能。 联想网御2 0 0 0 防火墙采用基于状态检测机制的链路层u r l 智能过滤技术,将u r l 过滤模 块内嵌在网御安全操作系统内核数据链路层协议栈中,不仅能够对防火墙应用层代理功能实现 u r l 过滤,而且能够对防火墙工作在链路层桥下转发、网络层路由、n a t ( 网络地址转换) 伪装 模式提供u r l 过滤功能,并且提供包过滤级的u r l 过滤速度,这是传统防火墙代理型u r l 过 滤技术远远达不到的功能和处理性能。 f o r t i n e t 公司构筑了基于a s i c ( 数模集成电路) 芯片技术的f o r t i g a t e 网络防御网关,使处理 数据包内容、加密、复杂内容和行为扫描功能得到优化,提供一套完整的服务。它包括以下功能: 防火墙、病毒,蠕虫检测和消除、根据u r l 或关键词词组过滤内容、拒绝服务检测和防止、v p n 、 入侵检测及流量控制。f o r t i g a t e 在网络边界实施应用层的内容扫描,实现了实时在网络边缘布署 病毒防护、内容过滤等应用层服务措施。 2 在i s a 中实现基于网页内容的过滤 为了在防火墙中实现更强大、更完善的内容过滤功能,一些第三方软件公司利用某些防火墙 产品提供的开发接口进行专门开发。 以m i c r o s o f ti s as e r v e r2 0 0 0 为例。i s as e r v e r 是可扩展的企业防火墙和w e b 缓存服务器, 它与w i n d o w s2 0 0 0 集成在一起,以提供安全策略。 1 2 第2 章锕页内容过滤技术概述 m i c r o s o f ti s as e r v e r2 0 0 0 的防火墙分为三个层次,最底层为l p 包过滤,这是静态的,它规 定哪种包可以通过防火墙,对于指定的端口,i p 包不是允许通过就是阻止通过:第二层为协议规 则,这可以理解为哪种协议可以通过防火墙;最后为应用层的过滤,可以对电子邮件的内容和网 页的内容进行过滤。 在i s a 中要进行基于网页内容过滤,方法一是使用管理界面中a c c e s s p o l i c y 目录下的 s i t ea n dc o n t e n tr u l e ,但是新建、更改、添加规则都必须按照一定的规范、步骤进行:方法二是 在e x t e n s i o n s 目录中的w e bf i l t e r s 下自己用s d k 开发,或者购买第三方的安装程序。 使用i s as e r v e rs o f t w a r e d e v e l o p m e n t k i t ( 服务器软件开发工具包) ,上海优异科技有限公司 开发了“校校通”网络安全信息过滤平台,并在上海市教委进行了实施应用。这是一个基于动态 数据库的过滤软件,数据库中是适于浏览的w e b 站点,从而限制学生访问i n t e m e t 。它还可以让 老师按照主题为学生制定课程。 2 2 4 通过硬件实现内容过滤功能 赛尔在线公司推出的名为“赛尔绿色上网卡”的产品,不仅可以过滤网上的不良信息,还能 够提供其它有关教育方面的阐上资源及课程服务。“赛尔绿色上网卡与普通上网昔使用方法完 全一样,操作极其简单方便,无需安装任何客户端软件。但是,与其它上网卡不同的是,用户只 要通过该卡拨号上网,网上的不良内容就可以被自动过滤掉。该网卡采用的是服务器端的技术, 对网站、网页内容、文字、图象进行严格的过滤控制。对于用户来说,在上网时不会增加任何步 骤,和普通上网卡使用方法完全一样。 8 e 6 科技公司还推出一类桌面设备s a t e l l i t e 网络: 具,它安装简便能在不影响网络通信情 况下,帮助网络主管构建i n t e m e t 内容过滤系统。设备支持所有i n t e r n e t 连接,包括d s l 、c a n e m o d e m 、i s d n 及帧中继,能快速实现内容过滤。系统操作可透过网络地址转换( n a t ) 设备进 行,如代理服务器或防火墙。8 e 6s a t e l l i i e 能每日更新数据库,以适应不断变换的i n t e m e t 内容传 输。 目前又出现一种软硬件结合的解决方法“全安1 0 0 电脑锁”f 】“,它通过将硬件数字钥匙 插在u s b 接口上,再配合软件就可以完成锁游戏、锁上网、控制上阿、锁黄色信息、锁光驱、 锁开机、锁屏幕、锁文件、锁程序等一系列功能。 2 3 总结 上一节对国内外目前已有的网页内容过滤途径进行了比较全面地介绍,下面通过表2 5 来比 较这些解决方案的优缺点。 表2 5 网页内容过滤途径的优歃点比较 】3 第2 章网页内容过滤技术概述 途径 优点缺点 网络监控

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论