(计算机应用技术专业论文)网络内容分级索引结构研究.pdf_第1页
(计算机应用技术专业论文)网络内容分级索引结构研究.pdf_第2页
(计算机应用技术专业论文)网络内容分级索引结构研究.pdf_第3页
(计算机应用技术专业论文)网络内容分级索引结构研究.pdf_第4页
(计算机应用技术专业论文)网络内容分级索引结构研究.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)网络内容分级索引结构研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

弼络府窖分级素引结椅研究 摘要 随着计算机和通信技术的发展,互联网已经成为人们发布和获取信息的重要 渠道。然而,由于互联网信息发布的无地域性和匿名性等特点,各种信息难以进 行有效的监督和管理。互联网信息的内容安全问题日趋严重,对公众生活和社会 生产造成了严重的影响。先了保障互联网信息的内容安全,研究和开发蹰络内容 过滤工具具有重要的现实意义。 目前,网络内容过滤技术可以归为标签过滤、关键字过滤、u r l 过滤、分类 过滤和内容过滤等几大类。u r l 过滤技术由于其灵活性和高实现效率,在网络内 容过滤系统中得到了广泛的应用。然而。互联网的发展使得u r l 过滤技术不得不 面对存储空间增犬和查询效率降低等问题。为了解决这些问题,本文结合网络媒 体内容过滤系统( i m c f ,i n t e r n e tm u l t i m e d i ac o n t e n tf i l t e r i n g ) 的设计框架, 提出了个基于c p a t t r e e 结构设计的网络内容分级索引模型。 本文主要讨论了内容分级索引结构模型的设计和实现。该模型负责存储和维 护定期发布的u r l 和信息矢量列表,向用户终端提供快速的u r l 信息矢量查询服 务。内容分级索引结构模型采用散列函数对u r l 进行编码,然后通过c f a t - t r e e 模型对u r l 编码实施存储、索引和查询操作。本文的创新之处在于提出了基于 c p a t - t r e e 存储和索引u r l 及其信息矢量的方法,对生成算法和查询算法进行了 有益的改进。本文还提出了种在该u r l 分级索引结构模型上实旆的裁剪算法。 该算法基于键值相似度比较直接对存储数组迸行遍历剩减,以缩减c p a t - t r e e 的存储空间。理论分析和实验结果表明,运用了裁剪算法后,c p a t t r e e 索引的 存储空闻减小到原来的1 0 左右;在u r l 信息矢量的相似度变化范围内,索引结 构的查询效率相对裁剪前提高约3 0 - 6 0 9 。 关键词网络内容过滤:c p a t t r e e ;裁剪:u r l 数据库 中图分类号t p 3 9 1 3 网络内容分级索引结构研究 a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m p u t e ra n dt e l e c o mt e c h n o l o g y i n t e r n e th a s b e c o m eo n eo ft h em a j o rc h a n n e l st oa c c e s si n f o r m a t i o n h o w e v e r ,s n o n y m o u s i n f o r m a t i o ns c a t t e r e di ni n t e r n e tisd i f f i c u l tt ob es u p e r v i s e da n d m a n a g e d t h es e c u r i t yo fn e t w o r kc o n t e n ti si n c r e a s i n g l yc r i t i c a lt ot h e p u b l i c t h u s ,i n v e s t i g a t i n ga n dd e v e l o p i n gf i l t e r i n gt e c h n o l o g i e so f n e t w o r kc o n t e n ta r em e a n i n g f u la n de s s e n t i a lt ot h ei n t e r n e ts e c u r i t y e x i s t i n gf i l t e r i n gt e c h n o l o g i e sa r ec l a s s i f l e da sl a b e l f i l t e r i n g , k e y w o r d s f i l t e r i n g ,u r l _ f i l t e r i n g ,c a t e g o r y f i l t e r i n g a n d c o n t e n t f i l t e r i n g t h eu r l - f i l t e r i n gt e c h n o l o g yi sw i d e l yu s e df o ri t s h i g ha d a p t a b i l i t ya n de f f i c i e n c y h o w e v e r ,t h eu r l f i l t e r i n gt e c h n o l o g y i si n e v i t a b l yf a c i n gt h ei n c r e a s i n gs t o r a g ea n dt h ed e c l i n i n gq u e r y e f f i c i e n c yu n d e rt h ef a s td e v e l o p m e n to fi n t e r n e t t h eo b j e c t i v eo ft h i s s t u d yi st oi m p r o v et h eq u e r ye f f i c i e n c yo ft h eu r l f i l t e r i n gt e c h n o l o g y a sr e d u c i n gi t ss t o r a g eb yd e v e l o p i n gas y s t e mb a s e do nc p a t t r e e s t r u c t u r eu n d e rt h ef r a m e w o r ko fi m c f ( i n t e r n e tm u l t i m e d i ac o n t e n t f i l t e r i n g ) t h i sp a p e rf o c u s e so nt h ed e s i g na n di m p l e m e n t a t i o no fn e t w o r kc o n t e n t c l a s s i f i c a t i o i la n di n d e xm o d e l t h em o d e ls t o r e sa n dm a i n t a i n sap e r i o d i c u p d a t e dm a p p i n gb e t w e e nu r l sa n di n f o r m a t i o nv e c t o r s ,a n dt h e np r o v i d e s e f f i c i e n tq u e r ys e r v i c et oc l i e n t s t h em o d e le n c o d e su r l sw i t hh a s h f u n c t i o n s ,a n db u i l d si n d e xs t r u c t u r ew i t hc p a t t r e e t h ep r o p o s e di d e a s a r et h a t :1 ) b u i l d i n gi n d e xs t r u c t u r e sw it hc p a t t r e et h a tc a nm o s t l y r e d u c et h es t o r a g eo fi n d e xs t r u c t u r e s 2 ) m o d i f y i n gt h ei n s e r t i o na n d q u e r ya l g o r i t h mt oi m p r o v ei t se f f i c i e n c y 3 ) p r u n i n gc p a t t r e ei n d e x s t r u c t u r eb yc l u s t e r i n g1 c a v en o d e st or e d u c es t o r a g eo fc p a t t r e eu n d e r d i f f e r e n tk e ys i m i l a r i t i e s a c c o r d i n gt ot h et h e o r e t i c a la n a l y s i sa n dt h e e x p e r i m e n t a le v a l u a ti o no fo u rd a t a s e t ,t h es t o r a g ec a nb er e d u c e dt o a b o u t1 0 o ft h eo r i g i n a lo n ea n dt h eq u e r y i n ge f f i c i e n c yc a nb ei n c r e a s e d b ya b o u t3 0 一6 0 w i t hp r o p o s e dm e t h o d s k e y w o r d s n e t w o r kc o n t e n tf i i t e r i n g :c p a t t r e e :p r u n i n ga l g o r i t h m u r ld a t a b a s e 一4 阿络内容分级索引结构研究 第1 章绪论 1 1 网络安全现状 i n t e r n e t 起源于美国国防部的a r p a n e t 计划,其目的是部署一个分布式的健 壮的全国信息网络。随着t c p i p 协议的发展,越来越多的计算机和网络都连接 到i n t e r n e t 。i n t e r n e t 己发展成全球最大的互联网。i n t e r n e t 正式宣告了全球 信息时代的到来,w e b 和e m a i l 的应用极大的推动了信息服务在整个互联网的普 及,以服务型经济为重心的信息产业给互联网信息服务注入了新鲜的血液。w e b 服务概念的提出和运用进一步扩大了互联网信息服务的空闯,计算机可以脱离人 来寻找和提供服务。互联网正在发展成信息经济社会的基础设施,其重要性随着 人类生活各方面的信息化和网络化程度的加深而不断的得到提升。 计算机网络技术飞速发展的结果是各种应用服务的蓬勃发展。在包括工农业 生产、交通运输、金融服务、旅游教育、休闲娱乐等社会各个方面,计算机应用 服务都得到广泛的应用。互联网已经成为人们工作和生活中不可或缺的一部分。 第十五次c n n i c 4 9 调查结果显示网民每周上网天数保持在4 天以上,平均每周 使用互联网时阔达1 3 2 小对。人们对互联网的使用越来越频繁,而互联网对人 们日常生活的渗透性也越来越强,它已经成为人们获取信息的重要来源。 计算机网络在提高社会生产力、丰富人们生活的同时,也带来了一定的负面 影响。美国计算机安全协会( c s i ,c o m p u t e rs e c u r i t yi n s t i t u t e ) 协同旧金山联 邦调查局开展的2 0 0 4 年计算机犯罪和安全调查提供了如下统计数据 3 :5 3 的 被调查者明确表示他们的计算机系统在过去的1 2 个月中遭受过非授权的使用; 7 8 的被调查者明确表示其i n t e r n e t 遭受频繁攻击,而其中7 0 的被调查者表示 其遭受盼攻击来自外部系统;8 9 的调查者认为他们至少遭受过1 次或数次来自 恶意网站的攻击;而1 1 的调查者认为他们频繁遭受过恶意网站的攻击。另外的 例子是,2 0 0 2 年,英国最老牌的互联网内容提供商( i s p 。i n t e r n e ts e r v i c e p r o v i d e r ) 之的c l o u d n i n e 公司的通信链路遭受黑客攻击而崩溃。由于恢复系 统所需成本太高,c l o u d n i n e 公司无法负担而把所有客户转让给了他们的竞争对 手z e t n e t 公司。网络安全已经成为困扰人们使用互联网最严重的问题之一。 计算机网络安全 1 是计算机研究的重要内容之一,其涉及范围主要包括: 1 ) 计算机系统安全:包括系统硬件安全、存储系统安全、操作系统安全和软件 安全等方面。 2 ) 通信系统安全:包括通信系统与部件可靠性、无线与有线网络安全和网络互 厨络内容分级索引结构研究 连设备安全等方面。 3 ) 网络系统安全:包括网络协议安全性、网络运行环境安全和网络开发与应用 安全等方面。 4 ) 内容安全:包括阻止网络垃圾与信息垃圾、反动、色情、颓废文化的传播, 确保信息安全与信息战等方面。 计算机网络安全的目标就是:保障网络服务的可用性和提供信息的安全性和 完整性。前者要求网络可以向用户随时提供可靠的网络服务,后者则要求保证信 息资源的完整性和有效性。网络安全保障的实现方法包括主动式和被动式两类。 以入侵检测系统为代表的主动式网络安全保障体系能够在网络攻击发生前和实 施时主动发出警报、监测、跟踪并采取恰当的反应行动;| 2 上防火墙为代表的被动 式防守型安全保障体系。能够防卫绝大多数目前已知的流行网络攻击方式,提供 较好的安全性,传统防火墙技术通过建立一整套规则和策略来监测、限制、转换 跨越防火墙的数据流,实现保护内部网络的目的 4 。虽然防火墙和入侵检测技 术在网络通讯、防范计算机病毒方面有突出表现,但是让人遗憾的是,它们对传 输内容的监控和过滤基本上无能为力。 1 2 内容安全现状 随着网络技术的高速发展,互联网越来越多的深入到人们的工作和生活中, 成为发布和获取信息的重要渠道。然而,由于互联网信息发布和获取存在高匿名 性、高隐私性、高互动性和无地域性等特点,难以对参差不齐的信息内容进行有 效的管理和制约,对公众生活和社会生产带来了严重的负面影响。 在公众的生活方面,当前互联网上充斥着大量以暴力、色情、反政府和反社 会为主要内容的不良信息正极大的干扰着人们的视听,对社会的健康发展造成了 不利的影响。根据美国n 2 h 2 公司2 0 0 3 年的统计,全球大致有8 的网页是色情 网页,每天向搜索引擎提交的请求中有四分之一是有关色情内容的;以反政府、 反社会为内容的网站、网页和电子邮件无孔不入;迷信、渎神和颓废思潮死灰复 燃。公众的视听被混淆,人们的思想被扰乱。 在社会生产方面,不设防的计算机网络常常给企业的企业文化、生产成本和 效率带来严重的负面影响 5 。首先员工经常在工作时间利用互联网进行与工作 无关的行为,占用了工作时间,直接导致生产力下降:其次,员工因私使用互联 网和恶意网站带来的蠕虫病毒与垃圾邮件占用了大量通向互联网的出口带宽,企 业需为此额外支付大量费用;不安全的网页包含的恶意代码、特洛伊木马程序和 间谍软件( s p y w a r e ) 还会对企业商务和科研信息进行盗用和破坏。互联网数据中 网络内容分级索引结构研究 心( i d c ,i n t e r n e td a t ac e n t e r ) 6 的一份报告指出3 0 一4 0 的企业出口网络带 宽消耗在员工的私人目的中;北美管理联合会的报告指出有2 7 的财富5 0 0 强企 业都曾陷入员工不正当使用互联网和电子邮件传播色情信息的丑闻里。 如上所述,网络的负面效应之大,不良信息内容之广,是人们始料未及的。 为了保障互联网信息的内容安全,为社会公众开辟一个“洁净”的网络世界,为 企业合理安全的使用网络资源提供技术傈障,研究和开发网络内容安全工具具有 重要的现实意义。 1 3 主要解决问题和本文贡献 网络内容过滤主要解决的问题之一是过滤不洁的网络媒体内容,包括 1 ) 过滤提供色情内容的网络媒体和网页, 2 ) 过滤包含反政府和无政府主义内容的网络媒体和网页,以及 3 ) 过滤包含暴力滨神、种族主义对少数民族不恰当的评论、魔鬼崇拜、毒品、 好战言论极端主义和赌博等内容的网络媒体和网页等。 国内外为此进行了许多研究工作。在后面的章节中,本文首先对国内外流行 的过滤模式和过滤方法迸行概要介绍,然后介绍我们提出的一个网络内容过滤模 型( i m c f 系统,i n t e r n e tm u l t i m e d i ac o n t e n tf i l t e r ) 。本文将从网络内容过 滤模型的基本结构出发,主要介绍过滤模型中u r l 索引模型的创建、查询和维护 方法,包括一个基于散列函数和c p a t t r e e 建立u r l 分级索引结构的方法,和在 此基础上实现的u r l 分级索引结构的裁剪和查询方法,以及对算法性能的理论分 析和测试结果。本文的最后还对索引结构模型的原型设计和功能实现进行简单介 绍。 1 4 本文体系结构 第一章绪论。本章介绍网络安全和内容安全现状,提出论文研究的主要 问题和整体结构。 第二章网络内容过滤系统。本章对国内外流行的过滤模式进行比较,然 后介绍我们提出的一个内容过滤系统框架( i m c f 系统) ,最后提 出常用的u r l 的分级索引结构所面临的问题。 第三章网络内容分级索引结构模型。本章介绍使用散列算法和 c p a t t r e e 创建u r l 分级索引结构的方法,同时改进了c p a t - t r e e 的生成和查询算法,并提出了一个缩减c p a t - t r e e 存储空间的裁 剪算法。本章的最后还对模型实现算法进行理论评估和实验分 网络内容分级索引结构研究 第四章 第五章 析。 系统设计和实现。本章首先介绍系统的设计层次和模块划分,然 后介绍模型的功能实现,最后对系统采用w e b 服务技术实现的外 部接口进行了较为深入的介绍。 结语。本章总结全文,介绍当前模型在推向实际应用时可能遇到 的问题,并对进一步的改进工作提出设想。 网络内容分级囊引结祷研究 第2 章网络内容过滤系统 2 1 过滤系统原理 网络内容过滤系统的主要目的是在繁多的网络媒体内容中为使用互联网的 用户选取适当的信息或剔除不适当的信息。其内涵主要包含如下几个方面: 1 ) 掰络内容过滤要满足特定用户的特定需求 2 ) 网络内容过滤的依据是内容与用户需求的相关性 3 ) 网络内容过滤的对象是互联网上的媒体 4 ) 网络内容过滤的方法是在内容集合中选取适当的或剔除不适当的信息 用户需求以计算机可识别的方法表示出来,形成用户需求模板( u s e r p r o f i l e ) 。如果用户需求模板标识了与用户需求相关的信息,那么我们称之为正 向的,否贝称为反向的。 网络内容过滤的一般原理如图所示。系统对包含网络内容的数据集进行特征 图2 1 网络内容过滤原理 提取,用户需求形成需求模板后与特征集相比较,通过与算法匹配过滤出符合模 扳需求的数据集。用户需求模板、网络内容特征和匹配算法是紧密联系的,不同 类型的内容对象有不同的特征建模方法和分析方法,也有对应的需求模板表达方 式和匹配算法。例如,对于网页中的文本、图片、视频等内容的内容分析方法包 括文本分析、o c r 、图标识别、人脸识别、色情图片识别、数字指纹、相似度比 网络内容分缓索弓f 结捣研究 较等,常用的匹配模型有布尔模型、向量空间模型、概率模型、知识表示模型和 混合模型等。 为了提高系统的效率和精确度,反馈机制被加入到模型中来。系统根据用户 对过滤结果的评价通过反馈机制作用于用户和用户需求模板,使用户的需求表达 越来越具体清晰。 2 2 过滤系统分类 2 2 1 根据过滤的依据 根据内容过滤的依据,网络内容过滤系统可以分为基于内容的过滤和协作过 滤两种 1 4 : 1 ) 基于内容的过滤( c o n t e n t - b a s e df i l t e r i n g ) ,又称为认知过滤,利用用户 需求模板和信息相似度进行的过滤,为用户提供满足条件的信息,可用于推荐系 统或阻塞系统。我们将在3 i 节中讨论的互联网内容过滤系统i m c f 主要就是这 类系统。 z ) 协作过滤( c o l l a b o r a t i v ef i l t e r i n g ) ,又称社会过滤,利用用户信息需求 之间的相似性或用户对信息的评价进行的过滤。价值观念和认知水平相似的用户 往往具有相似的信息需求,协作过滤比较用户之间的模板的相似程度,可以拓展 返回给用户的信息集,常常用于推荐系统。 2 0 2 根据过滤的作用 根据系统的作用,网络内容过滤系统可以分为推荐系统和阻塞系统两种 5 7 : 1 ) 推荐系统( r e c o 盥地e n d e rs y s t e m ) :根据用户群对信息盼评价把信息推荐给 使用用户。例如u r l 过滤中的白名单法、分类过滤方法属于此类系统。 2 ) 阻塞系统( b l o c k i n gs y s t e m ) :用户通过设置条件或模板剔除不需要的信息 而获得需要的信息。例如标签过滤方法、关键字过滤方法、u p & 过滤中的黑名单 法、分类过滤方法和内容过滤方法都属于此类系统。 2 2 3 根据模板的位置 根据过滤系统或用户簧求模板所在的位置可以分为上游过滤和下游过滤 1 5 : 1 ) 上游过滤( u p s t r e a mf i i t e r i n g ) :互联网服务提供商、拨号入网服务商或其 网络内容分经索引结构研究 它第三方机构在用户入网链路上或服务器端设置过滤系统或用户模板,在接受和 认证用户请求后决定是否开放内容服务。 2 ) 下游过滤( d o w n s t r e a mf i l t e r i n g ) :在入网用户的接入设备终端设置过滤 系统或用户模板,对接收到的网络内容依据模板和策略决定是否过滤。 2 2 4 根据体系结构 过滤系统结构从体系结构上主要分为2 大类 1 3 :被动式和主动式。 1 ) 被动式系统:过滤系统作为防火墙的插件或附加功能被开笈,监听和检查客 户机请求,以决定是否拦截该请求。被拦截的查询请求可以在查询请求或返回结 果经过防火墙时进行阻塞。被动式系统的优点是无需对网络的物理连接做出太多 改变,出现意外时不会影响到网络的正常运转。 2 ) 主动式系统:主动式系统处于客户机和防火墙之间所有的通信都经由系统 过滤处理,对过滤系统的处理能力提出了很高的要求。如果过滤系统处理能力跟 不上或崩溃,那么网络将瘫痪。其优点是系统设计和实现较简单。 2 3 内容过滤技术 2 3 1 衡量标准 在讨论网络内容过滤技术的优劣之前,首先介绍技术评估框架。网络内容过 滤的主要技术衡量标准包括准确率( a c c u r a c y ) 和性能( p e r f o r m a n c e ) 1 0 。 准确率是衡量内容过滤技术最关键的指标。过滤技术的最终目标是精确的向 用户提供符合用户需求的网络媒体内容。准确率是过滤技术提供给用户的信息中 符合用户需求的部分所占的比率。准确率越高,错误率就越低。错误率包括 o v e r - b l o c k i n g 和u n d e r b l o c k i n g 。如果过滤技术使用的标准过与严格,把一些 不应该被阻塞的媒体内容阻塞掉了,称为o v e r b l o c k i n g ;如果过滤技术使用标 准过于宽松,一些应该阻塞掉的媒体内容没有被阻塞掉,称为u n d e 卜b l o c k i n g 。 在每种实际应用过滤技术中,过高的u n d e r b l o c k i n g 将导致该技术的实用性降 低,过高的o v e r - b l o c k i n g 则导致用户的不满和效率的降低。 性能是内容过滤技术推广和普及的重要指标。性能可以定义为内容过滤技术 从接收到用户请求到发出响应结果的平均时间。随着互联网的发展,越来越多的 网络和节点加入,越来越多的应用出现并普及,加上各种各样的病毒的干扰,网 络的使用情况并没有随着带宽增加而好转。可见如果一项内容过滤技术没有拥有 良好的性能,使用户在使用过程中能感觉到明显的延迟,那么将难以被广泛接受。 厨络内容分缀索寻f 结构研究 2 3 2 技术分类 目前已经有许多网络过滤技术被发明和应用,总的来说可以分为以下几大类 1 0 : 2 3 2 1 标签过滤 标签过滤方法是对信息载体使用一套描述其内容分类和分级的标签进行标 记,使用该网页和媒体信息时须经过标签审查。因特网内容选择平台 7 ,8 ,9 ( p i c s ,p l a t f o r mf o r i n t e r n e tc o n t e n ts e l e c t i o n ) 是最为著名的一套 内容分类标签标准。它是由万维网协论坛( w 3 c - w o l dw i d ew e bc o n s o r t i u m ) 在 1 9 9 6 年5 月正式颁布的为”内容评级”系统专门设计的一组规范。p i c s 的主要 工作是对每个网页的内容进行分类,并根据内容特性加上标签,同时由计算机 软件对网页的标签进行监测,以限制对特定内容网页的检索。网页上的标签即可 以是数字字符,也可以是密码,标签被嵌入r f c 一8 2 2 传输格式和h t m l 文本格式, 通过h t t p 协议,可以与文件一起传输。 p i c s 虽然得到了一些国际计算机公司、计算机软硬件制造商、检索服务商、 联机服务商、出版商、内容提供者的支持,但是由于p i c s 是一种自标注策略, 主要依靠内容提供商主动且负责地对网页内容迸行标注,缺少监督机制。很多内 容提供商出于广告和经济利益考虑,经常有刻意隐瞒或歪曲其提供内容的分级信 息,所以p i c s 并未在互联网上推广。例如文献 2 在对5 0 0 0 个色情网站进行标 注时发现只有不到7 的网站主动提供了p i c s 的标注。 2 3 2 2 数据库过滤 与标签过滤方法不同的是,数据库过滤方法由用户或网络服务提供商( i s p , i n t e r n e ts e r v i c ep r o v i d e r ) 对网络媒体内容进行预定义,存储在数据库中,当 接受到用户请求时,系统将请求或请求得到的结果与数据库中预设值比较,决定 阻塞或通过该请求。数据库方法可以由人工手动或系统自动实现,也可以结合两 种方法混合实现。数据库过滤法主要包括关键字过滤、u r l 过滤和分类过滤 5 2 等三种过滤方法。 关键字过滤 “关键宇过滤”是一种直觉的、简单的方法。它通过检查用户请求返回的网 页文本内容中是否出现敏感单词或短语来决定是否拦截访问请求。这种方法建立 一个包含敏感单词和短语的词典,网页的u r l 和文本内容通过与词典比较,当包 含的敏感词汇的数量超过阂值时进行拦截。 跨络内容分级索引结构研究 该方法的优点是可以快速的决定一张网页是否包含敏感的内容,而且所需的 敏感单词库数据量较小,实现技术成熟。缺点是该单词表仅考虑网页的字面内容, 没有考虑网页内容包含的语义信息,不可避免的发生错误拦截的问题,许多正常 的网页经常被阻塞。比如被禁的词语包括“性”,那么讨论关于“性骚扰”和“性 教育”的网页和网站很可能会被错误地过滤掉。另一个缺点是在实现过程中,往 往是把请求的网页读到本地后再进行单词检查,这部分等待的时间和带宽将被不 可避免的被消耗掉。 u r l 过滤 网络媒体资源可以透过u r l ( u n i q u er e s o u r c ei d e n t i f i e r ) 来唯一标记。u r l 过滤技术将能收集到的u r l 根据用户需求模板定义标记信息存储在u r l 数据库 ( u r ld a t a b a s e ) 中,通过将用户请求和库中的u r l 比较来决定是否阻塞该请求。 根据存储u r l 的类别,u r l 过滤策略大致分为两种类型:黑名单表( b l a c k - l i s t ) 和白名单表( w h i t e l i s t ) 。黑名单表记录所有被阻塞的u r l 条目,当请求与库中 条目相匹配时,该请求被阻塞,否则请求被允许:白名单表记录所有被允许的 u r l 条目,当请求与库中条目相匹配时,该请求被允许,否则被拦截。 u r l 过滤方法的优点是一方面在接收到用户请求时就可以_ 封定媒体内容信息 是否符合需求,无需花费多余的时间和网络带宽去获取实际的媒体内容,在很大 程度上节省了用户体验的等待时间和带宽;另一方面根据z i p f 法则( z i p f s l a w ) 1 1 1 2 ,2 0 的互联网资源被8 0 的人经常使用,u r l 过滤技术在固定人群 和范围内可以起到良好的效果。缺点是网络媒体资源的更新频率不一,难以维护 一个实时更新的资源u r l 列表。 分类过滤 分类过滤是一种新的实现技术,用网页分类服务器( w e bc a t e g o r ys e r v e r ) 将网页进行分类,过滤系统再根据用户不同的需求,依照网页所属的不同类别采 取不同的过滤策略。网页分类服务器根据网络流量分析对常用网站进行排序,对 访问量大和经常更新的网站分类内容进行更新。这种方法最大的优点是按不同的 需求对网站和网页进行分类,用户可以按需使用不同的自定义模板来实现不同的 过滤策略。这种方法维护分类和分级信息实时更新的结果,保证了网站分类的准 确性和效率,提供了最大的适应性和灵活性 5 3 。 2 3 2 3 内容分析 内容分析方法是对网页中的文本、图片、视频等内容进行实时分析处理来实 现分类和过滤的方法,包括文本分类、o c r 、图标识别、人脸识别、色情图片识 两络内容分级囊弓f 绪柯研究 别、数字指纹等。 和上述几种方法相比,实时的内容分析技术不用记录预定义的网络资源内容 分类信息,只需对请求到的内容进行分析即可得到结果没有数据库过滤方法中 存在的预设值与网络资源更新的时间差带来的误差。但事实上因为目前实现算法 的复杂度和效率,还未能对用户请求普遍使用实时的内容分析技术,般与其他 技术和方法结舍起来应用。 标签过滤方法和数据库过滤方法又称静态方法,内容分析方法又称为动态方 法。这几种过滤方法分别有各自的优缺点。数据库过滤方法实现简单快捷,但是 _ 由于互联网信息内容广泛,更颏速度快,列表内容难以维护和更新,会产生“信 息滞后”的问题。内容分析方法可以实时对网络媒体进行精确判断,但是实现复 杂,而且时间代价过高,难以适应大众化的要求。在很多网络内容系统中,往往 将这几种方法混合使用。表格2 i 记录了目前国内外最有影响力的内容过滤系统 采用各种内容过滤方法的情况。 如表格2 1 所示,这些知名网络内容过滤系统基本上都是用了两种以上的相 结合的方法。其中,由于u p d 过滤技术的灵活度比较大( 可以独立使用,也可以 配合分类过泣技术和内容分析技术使用:可以在客户端使用,也可以在服务器端 系统位置内容过滤方法 支持 u r l 关键字分类内容 p i c s 过滤过滤过滤分析 p r o v e n t i a 服务器端 否 是 是是是 f ii t e r l o g i x 服务器端 否否否否是 p o r t i g u a r d 服务器端 否是 否 是否 s u r f c o n t r o l服务器端否是否是是 6 0 2 l a ns u i t e服务器端是是 否是 是 w e b w a c h e r 客户端 是 是 是否是 z y ) c e l服务器端 否是是是否 w e b s e n s e服务器端否是是是否 c y b e rp a t r o l 客户端是是是是否 c y b e r s i t t e r客户端是是是是 否 n e tn a n n y客户端否是是否 否 s m a r t f ii t e r服务器端 否 是 否 是否 表格2 】网络内容过滤系统采用的过滤技术比较 网络内容分级索引结构研究 使用) ,而且可以很大程度上减少关键字过滤方法带来的过多或过少拦截的问题, 又有较高的实时响应效率,所以在大部分内容过滤系统中得到使用。 两络内容分级索引结构研究 第3 章内容分级索引结构模型 3 1 内容过滤框架 3 1 1 主要功能和特点 我们提出的网络内容过滤系统( i m c f ,i n t e r n e t m u h i m e d i a c o n t e n tf i l t e r ) 的主要功能是收集互联鼹中众多的内容实体( 主要包括文本、图像、视频、音频 和动画等) ,根据网络内容分级定义标准,为每个媒体对象标记分类分级信息, 并根据用户自定义的需求模版,实时判断而决定通过或阻塞用户对互联网多媒体 内容的请求。和其他网络内容过滤系统相比,i m c f 突出了以下几个特点: 灵活的内容分级标准 i m c f 系统使用灵活的内容分级标准来定义每个网络内容实体包含的分类和 分级信息,配合用户的需求模版判别该网络实体对用户的有效性。用户可以制定 不同分类和分级的黑白名单表,使得过滤策略的制定可以灵活的因人而异。i m c f 的分级标准参照美国娱乐软件顾问委员会( r s a c ,r e c r e a t i o n a ls o f t w a r e a d v i s o r yc o u n c i l ) 发起创建的内容评级系统r s a c i 4 6 制定而成,将所有的媒 体实体分为暴力、裸体、性、语言和政治等5 个类别,每个类别的表示程度分为 0 4 共5 个级别,其中级别0 代表轻微;级别4 代表严重 2 3 。 混合型系统体系结构 传统的许多内容过滤系统采用较为单一系统体系结孛句。例如p r o v e n t i a 、 f i l t e r l o g i x 、f o r t i g u a r d 和s u r f c o n t r o l 这些著名的内容过滤系统都把内容过 滤和索引功能设置在服务器端,而w e b w a c h e r 、c y b e rp a t r o l 、c y b e r s i t t e r 和 n e tn a n n y 则将过滤和索引功能设置在用户终端。i m c f 结合客户端黑自名单表判 别、查询服务器索引判剐实现混合型的查询策略:用户首先能在客户端判剩网络 内容实体的分级情况;在客户端黑白名单不能满足需求时,判别请求可以转交查 询服务器处理;查询服务器无法处理时,由系统预设定的方案来决定个缺省的 判别结果。混合型结构提供了很大的伸缩性,大大提高了查询处理的效率。 高效的编码和索引技术 并发处理众多的查询请求是i m c f 中查询服务器的重要工作。i m c f 采用u r l 来唯一标记互联网媒体,使用一系列技术提高和完善索引的性能。i m c f 使用散 列函数对u r l 进行编码,减小键的长度和存储空间;在索引中采用c p a t - t r e e 结 构和基于聚类的裁剪技术,进一步减小了索引存储空间,大幅提高查询效率,以 满足日益增长的用户量和互联网访问量的需求。 弼络内容套缀索引结将研究 w e b 服务接口 和传统的内容过滤系统不一样,i m c f 提供了基于w e b 服务的接口,使得系统 可以更容易的应用到互联网中。w e b 服务使用标准瑚l 消息封装和传递技术,是 自描述的、开放式的网络服务应用接口。它使得网络应用服务实现和服务接口分 离,基于w e b 服务的应用成为松耦合、面向构件、跨技术的实现。运用w e b 服 务技术,i m c f 可以将查诲鞍内容分析技术“外包”给互联网用户,用户可以订 制自己的查询服务应用,i m c f 也可以通过标准的接口,使用其它基于w e b 服务 开发的内容分析模块。 3 1 2 结构设计和运作流程 i m c f 网络内容过滤系统的模型主要由用户终端( u t ) 、目标站点( t w s ) 、内容 过滤代理( c f a ) 、查询服务器( q s ) 和内容分析与管理服务器( c a m s ) 五部分组成。 用户终端( u t ,u s e rt e r m i n a l ) 指用户使用的计算机或其他可访问互联网的设 备。用户可以通过u t 访问互联网媒体资源,例如测览网页、观看视频点播、收 听网络电台等。 内容过滤代理( c f a ,c o n t e n t f i r e r i n g a g e n t ) 指在用户终端u t 维护u r l 黑白 名单和提供决策服务的模块。c f a 接收用户终端发出的网络媒体访问请求,根据 黑白名单表采取阻塞、通过或向查询服务器提交该u r l 请求。 查询服务器( q s ,q u e r ys e r v e r ) 指独立于用户终端的维护网络实体分类分级信 息的模块。箕主要工作是存储内容分析与管理服务器发布的网络实体分类分级信 息,向内容过滤代理c f a 提供查询这些分类分级信息的服务。 内容分析与管理服务器( c a m s ,c o n t e n ta n a l y s i sa n dm a n a g e m e n ts e r v e r ) 指 独立于查询服务器,对互联网中的资源进行分类与分级评估的模块。c a m s 的主 要工作是从互联网上获取承载媒体信息的实体,经过人工或自动的内容分析,计 算并标记每个网络媒体实体的信息矢量,定期发布到查询服务器中。 目标服务器( t w s ,t a r g e tw v b s f f e0 1 s e r v e r ) 指存储网络实体内容资源的网站 和服务器,用户终端u t 通过i n t e m e t 访问其信息资源。 i m c f 的一般过滤流程如图3 1 所示:首先用户终端u t 发出对某个u r l 进行 访问的请求:内容过滤代理c f a 截获该请求,读取目标u r l ,然后根据用户终端 的黑白名单,允许或禁止该访问请求。如果请求在黑名单内,那么该请求将被拦 截:如果请求在白名单中,该请求将被通过。如果该u p 4 , 不在c f a 的黑白名单中, 那么c f a 将向查询服务器o s 转发该请求中的u r l 以进行查询;q s 在自身的u r l 同络内容分臻索引结构研究 图3 3i m c f 过滤流程示意图 数据库中查询该u r l 的分类分级信息,并将结果返回给c f a ;c f a 据此做出反应, 通过或阻塞该用户请求。内容分析及管理服务器c a m s 会从互联网中获取各种网 络媒体内容,经过计算和分析后定期向q s 发布更新的u r l 分类分级信息。该模 型采用多种内容分级技术。对多种类型的媒体实体内容综合统计和判断;同时使 用混合型的体系结构,极大的提高了相应用户请求的速度。 3 1 3 主要工作 如上所述,在网络媒体内容过滤模型中,用户终端对网络实体内容分级信息 的获取分2 个步骤:首先在内容过滤代理的黑自名单中查找,失败后再向查询服 务器查询。客户端的内容过滤代理往往存储能力和处理能力有限,黑自名单表的 规模不能太大,所以大量的请求不可避免的被提交到查询服务器。随着互联网的 发展,网络内容过滤系统将面对用户量和信息量的增长,查询服务器的查询处理 能力毫无疑阔成为衡量整个网络内容过滤模型性篚( p e r f 髋m a n c e ) 最重要的指标 之一。 查询服务器中对u r l 及其分级存储信息的存储、维护和快速检索已经成为 一个重要的问题。解决这些问题是本文的中心内容。本文提出一个创建u r l 分 级索引模型的方法,使用c k c 3 2 编码对【r l 分段进行编码,用c p a t - t r e e 结构 对u r l 编码提供存储、索引和查询服务。本章的后面部分将介绍查询服务器中 主要实现的u r l 分级信息索引模型,主要讨论模型的存储结构以及生成更新、 查询和裁剪等算法, 厨络内容分级索弓f 结构研究 r f l i i i i l l l pp 下rp 一专厂7 、七刊了,e 一- 一 警 _ 万1 同 i i 铲 圈3 2 网络内容分级索引结构模型业务流程圈 3 2 索引模型 3 2 1 业务流程 i m c f 中的查询服务器( q s ) 具体实现的业务流程如图3 2 的网络内容分级索 引结构模型业务流程图所示。图中显示了包含内容分析与管理服务器、散列编码 器、索引生成器、裁剪器、u r l 数据库和索引模块等几个主要的功能模块。下 文结合内容索引结构创建、存储和利用等流程的步骤介绍各个模块的主要功能。 如图所示,每个步骤对应图3 , 2 中相应序号的示意箭头: i 内容分析与管理服务器( c a m s ) 定期向查询服务器( q s ) 发布u r l 和分级信 息; 2 u r l 经过散列编码器变换成平均长度较短的比特序列,随分类分级信息一起 发布给索引生成器; 3 ,索引生成器对u r l 编码生成二叉检索树索引结构( c p a t - t r e e 形式) ; 4 索引结构以比特数组的形式保存入u r l 数据库; 5 裁剪器通过裁剪算法。可以大幅裁剪索引存储数组的存储容量; 6 索引器读取u r l 数据库中的存储数组,生成索引结构,并通过w e b 服务接 口响应查询请求。 厨络内容分级索前结构研究 3 2 2u r l 编码 互联网上的媒体对象可以用u r l ( u n i f o r mr e s o u r c el o c a t o r ) 4 2 唯一标识, 不同的u r l 拥有不同的长度,一般有数十个字节长短。快速索引和存储这些u r l 是一件具有挑战性的工作。一些系统中采用散列函数或信息摘要算法对u r l 进 行编码和索引的方法 2 6 ,2 7 ,2 8 ,2 9 与直接对u r l 原文进行索引的方案 2 5 】相

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论