已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)一个web文本过滤系统设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一个w e b 文本过滤系统设计与实现 中文摘要 一个w e b 文本过滤系统设计与实现 中文摘要 随着互联网的快速发展,网络上的信息呈爆炸式增长,文本信息过滤技术的研究 取得了很大的进展,w e b 文本信息过滤技术已成为一个研究热点。本文在前期课题 i p c g 控制网关的研究基础上,为了提高该计费网关对公共信息网络服务的综合监管 能力,通过研究l i n u x 下实时内容过滤和文本过滤等相关技术,设计并实现了一个基 于i p c g 控制网关的w 曲文本信息过滤系统。 本文首先给出了系统总体框架以及设计目标,并提出了一种分布式过滤系统的实 现方式。系统由中央预警模块统一管理、在线过滤和离线过滤相结合。分布式数据库 的同步借鉴o s p f 路由协议中数据库同步算法,实现全网过滤信息的通用性。 实时在线过滤模块,包括了数据包预处理和基于i p 地址及关键词过滤两个子过 程。数据包预处理过程主要针对w e b 页面进行数据分析和结构分析,解析出正确的 页面数据信息;基于i p 和基于关键词的过滤过程,采用了哈希树结构来组织i p 黑名 单列表和缓存拼接策略存储过滤内容,关键词过滤结合统计信息综合判定。 离线过滤模块对正例类和不确定类做进一步的离线分析,更新实时在线过滤模块 的i p 黑名单列表和过滤关键字列表。离线过滤采用改进的特征词提取算法和改进的 过滤策略。改进的特征词提取算法,综合考虑了特征词长、网页结构特征和词汇的感 情色彩等;改进的过滤策略过滤初期采用s v m 算法,中后期采用改进的自适应模板 过滤法。模板的更新采用改进的模板系数调整策略,并引入特征衰减因子来提高过滤 的准确率。 实验表明,本文提出的方法既能保证内容过滤分析和数据报流通相互独立,又能 提高在线过滤的速度和过滤的正确率。 关键词:网页过滤,在线过滤,离线过滤,自适应信息过滤,语义倾向 作者:沈风仙 指导老师:朱巧明 a b s t r a c t d e s i g na n di m p l e m e n t a t i o no fw e bt e x tf i l t e r i n gs y s t e m d e s i g na n di m p l e m e n t a t i o no fw e b t e x tf i l t e r i n g s y s t e m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h ea m o u n to fi n f o r m a t i o ni n c r e a s e si na l l e x p l o s i v ew a y t e x ti n f o r m a t i o nf i l t e r i n gt e c h n o l o g yh a sm a d eg r e a tp r o g r e s s a n d i n f o r m a t i o nf i l t e r i n gb a s e do nw e bt e x th a sb e c o m ear e s e a r c hh o t s p o t t h ep r e - t o p i co f t h i sp a p e ri st h er e s e a r c ho fl p c g g a t e w a ya n dt h er e s e a r c ho ft h i sp a p e ri sh o w t oi m p r o v e t h eg a t e w a y ss u p e r v i s i o nc a p a b i l i t yf o rt h ep u b l i cs e r v i c e s b ys t u d y i n gt h er e a l t i m e c o n t e n tf i l t e r i n gu n d e rt h el i n u xa n dt h er e l e v a n tt e c h n o l o g yo ft e x tf i l t e r i n g ,t h i sp a p e r p r o p o s e sa n di m p l e m e n t saw e b t e x tf i l t e r i n gs y s t e mb a s e do ni p c gg a t e w a y f i r s t l y , t h i sp a p e rs h o w st h eo v e r a l lf r a m e w o r ko ft h es y s t e mw h i c hc o m b i n e s r e a l t i m eo n l i n ef i l t e r i n g 嘶也o f f l i n ef i l t e r i n g ,a n dp u t sf o r w a r dad i s t r i b u t e df i l t e r i n g s y s t e mw h i c hr e f e r st h ed a t a b a s es y n c h r o n i z a t i o na l g o r i t h mo fo s p fr o u t i n gp r o t o c 0 1 r e a l t i m eo n l i n ef i l t e r i n gm o d u l ei n c l u d e st w op r o c e s s e s o n ei st h ep r e t r e a t m e n to f p a c k e t s ,a n dt h eo t h e ri st h ei p b a s e da n dt h ek c y w o r d b a s e df i l t e r i n g t h ep r e t r e a t m e n to f p a c k e t sa i m sa tg e t t i n gc o r r e c td a t ai n f o r m a t i o nb yw e b c o n t e n ta n a l y s i sa n dw e bs t r u c t u r a l a n a l y s i so fw e bp a g e s t h ei p b a s e da n dt h ek e y w o r d b a s e df i l t e r i n gu s et h eh a s h t r e e s t r u c t u r et oo r g a n i z ei pb l a c k l i s ta n dt h ec a c h es t r a t e g yt os t o r a g ef i l t e r i n gc o n t e n t t h e k e y w o r d - b a s e df i l t e r i n gw h i c hc o m b i n e d 、撕t hs t a t i s t i c a li n f o r m a t i o na s s i g n st h ec a t e g o r y t o t h e p a g e o f f l i n ef i l t e r i n gm o d e lm a k e sf u r t h e ro f f i i n e a n a l y s i s f o rt h ee x a m p l ea n dt h e u n a s c e r t a i n e dp a g e ,a n dt h e nu p d a t e st h ei pb l a c k l i s tl i s ta n dt h ek e y w o r dl i s tu s e db y o n l i n ef i l t e r i n gm o d u l e t h i sp a p e rp u t sf o r w a r dt h ef e a t u r ee x t r a c t i o na l g o r i t h ma n dt h e f i l t e r i n gs t r a t e g y t h ef e a t u r ee x t r a c t i o na l g o r i t h mc o n s i d e r st h el e n g t ho ff e a t u r e s ,t h e s t r u c t u r a li n f o r m a t i o no fp a g e sa n dt h es e m a n t i co r i e n t a t i o ni n f o r m a t i o no ff e a t u r e s t h e i i d e s i g na n di m p l e m e n t a t i o no f w e bt e x tf i l t e r i n gs y s t e m a b s t r a c t f i l t e r i n gs t r a t e g yu s e ss v ma ti n i t i a lf i l t e r i n gs t a g e sa n du s e st h ei m p r o v e da d a p t i v e t e m p l a t e b a s e da l g o r i t h mi nl a t t e rs t a g e s i no r d e rt ou p d a t ep r o f i l e ,i tu s e st h ei m p r o v e d c o e f f i c i e n ta d j u s t m e n ts t r a t e g y , a n du s e st h ef e a t u r ea t t e n u a t i o nf a c t o r t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e rc a ne n s u r e f i l t e r i n gp r o c e s sa n dd a t at r a n s f e ri n d e p e n d e n t l y , w h i l ei tc a ni m p r o v eb o t ht h es p e e da n d t h ea c c u r a c yo fo n l i n ef i l t e r i n g k e yw o r d s :w e bp a g ef i l t e r i n g ,o n l i n ef i l t e r i n g ,o f f l i n ef i l t e r i n g ,a d a p t i v e i n f o r m a t i o nf i l t e r i n g ,s e m a n t i co r i e n t a t i o n i i i w r i t t e nb ys h e nf e n g x i a n s u p e r v i s e db yz h uq i a o m i n g 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进行研究工 作所取得的成果。除文中已经注明引用的内容外,本论文不含其他个人或集 体已经发表或撰写过的研究成果,也不含为获得苏州大学或其它教育机构的 学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体,均已 在文中以明确方式标明。本人承担本声明的法律责任。 研究生签名:i 砀么亟厶e t 期: 学位论文使用授权声明 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、 中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅 和借阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括 刊登) 授权苏州大学学位办办理。 研究生签名:l 塑恐厶e t 期: 导师签名:期: 一个w e b 文本过滤系统设计与实现 第一章引言 1 1 课题背景与意义 第一章引言 随着互联网的迅猛发展,“信息过载 问题日益突出。一方面,人们在享受它带 来方便快捷的同时,也被其包含的海量信息所淹没,要在浩瀚的信息资源中找出自己 需要的内容,无异于大海捞针。另一方面,互联网上信息良莠不全,一些涉及反动、 色情、暴力等不良内容的信息也在网上传播,这些都时刻威胁和侵扰人们的信息安全。 屏蔽这些非法的不良信息,保护用户的信息安全和合法权益,成为当前信息时代的重 要任务之一。如何能够更有效、更准确地找到自己感兴趣的信息,滤除与自己的需求 无关的网络信息或有害信息己成为基于i n t e m e t 网络信息过滤的当务之急,采用信息 过滤的方法有选择性地传播和利用信息变得越来越重要。 与此同时,随着计算机科学技术的日益进步,人们对信息处理技术提出了更高的 要求。以搜索引擎为主的现有网络查询技术受到了挑战,网络用户的检索需求与现有 的信息查询技术之间的矛盾日益尖锐,其不足主要有如下两方面:( 1 ) 在使用搜索引 擎时,只要使用的关键词相同,所得到的结果就相同,它并不考虑用户的信息偏好和 用户的不同,对专家和初学者一视同仁,同时返回的结果成千上万良莠不齐,使得用 户在寻找自己喜欢的信息时如大海捞针;( 2 ) 网络信息是动态变化的,用户时常关心 这种变化。而在搜索引擎中,用户只能不断地在网络上查询同样的内容,以获得变化 的信息,这花费了用户大量的时间。因此,在现有情况下,传统的信息查询技术已经 难以满足用户的检索需求,对信息过滤技术的研究日益受到重视。 另外,尽量减少无效数据的传输对于节省网络资源、提高网络传输效率具有十分 重要的意义。通过信息过滤,可减少不必要的信息传输,节省费用,提高经济效益。 所有以上这些,都促使人们对信息过滤技术进行深入的研究和推广。信息过滤技 术作为上述问题的有效解决方法:( 1 ) 可以向用户主动提供个人与兴趣相关的信息; ( 2 ) 过滤敏感性信息( 如国家安全、暴力、色情和反动信息等) 。相比传统的过滤技 术,新的自适应过滤技术不需要大量初始训练文本,同时在过滤过程中不断进行学习 来提高过滤精度,因此更适应于w e b 环境的过滤要求。 第一章引言一个w e b 文本过滤系统设计与实现 恶意病毒的破坏,反动、色情、暴力等不良内容在互联网上的传播已经成为日益 突出亟待解决的问题。特别是上网人群中2 4 岁以下的网民占半数之多,不良内容的 传播有害于他们的健康成长。为了有效地避免青少年等易感人群,接触互联网上的各 种不良信息,保护青少年的健康成长,免除全社会和家长对青少年上网的担忧。同时 为了提高校园计费网关对公共信息网络服务的综合监管能力,提出了本课题。课题目 标是研究校园网关上的实时内容过滤和文本过滤等相关技术,设计实现一个基于 i p c g 控制网关的w 曲文本信息过滤系统。 1 2 国内外研究现状 网页文本信息过滤随着计算机应用的发展从设想成为现实,经历了很长的发展时 期,并不断地完善自身的功能。在因特网日益普及的今天,该技术在w e b 信息发掘 方面发挥着越来越大的作用。 网页文本信息过滤由文本过滤发展而来。文本过滤的任务定义一直在不断地演 化,难度越来越大但也越来越接近于真实环境。2 0 0 0 年举行的t r e c 9 ( t e x tr e t r i e v a l c o n f e r e n c e ) 给出了一个文本过滤项目的任务描述:给定一个主题描述( 也就是用户 需求) ,建立一个能够从文本流中自动选择最相关文本的过滤模板,继而随着文本流 的逐渐进入,过滤系统能够自动地接受或拒绝文本,并得到文本相关与否的反馈信息, 再根据反馈信息自适应地修正过滤模板。目前t r e c 的过滤任务要求用户的信息需求 自适应地、实时地从具有时序的文本流中判断每篇文本是否相关,主要是模拟时间要 求很高的文本过滤应用。网页文本过滤的任务与当前文本过滤的任务有着相似之处, 那就是对时间要求都很高。 文本过滤的很多相关技术都能用于网页文本信息过滤,网页文本信息过滤对技术 的要求更高,这主要是因为网页的结构、内容比文本复杂。 由于网络信息数据大多数是以文本形式存在,所以信息过滤主要指的是文本过 滤。在本文中,研究的信息载体也是文本,故信息过滤与文本过滤二者在本文中是等 价的。 2 一个w e b 文本过滤系统设计与实现 第一章引言 1 2 1 网页文本过滤的技术发展现状 随着互联网的发展,网络上传播的信息参差不齐,网页过滤作为信息过滤的一个 分支,它已成为一个十分重要的研究方向。最近几年,国际期刊、会议上有较多研究 这个方面的论文,研究内容包括过滤暴力网页、色情网页等不良网页,采用的过滤方 法推陈出新。比如,文【1 】中设计了一个w e b 内容过滤系统,它分为在线和离线两个 部分,在线过滤采用代理方式。文章重点分析此种结构的好处,没有具体的实现过程, 过滤的功能也没有讲清楚;文【2 】中介绍的w e b 内容过滤器可以过滤两种语言的网页, 这两种语言为英文和中文。过滤之前首先要根据网页内容的编码自动识别网页的语言 种类,然后针对不同的语言采用不同的过滤策略;文【3 】中的w 曲过滤器能处理泰国 语和英文两种网页,比较了s v m 和贝叶斯算法在色情网页过滤上的效果,得出结论: s v m 比贝叶斯算法好,尤其是在解决过度阻塞( o v e r - b l o c k i n g ) 问题上;文【4 】中的 暴力网页过滤着重于研究过滤关键字词典的准备;文 5 】中提出的暴力网页检测和过 滤系统使用数据挖掘领域的相关技术来提高过滤的性能;文【6 】中提出了一种基于机 器学习的过滤算法,该算法结合网页内容分析和网页结构分析;文【7 】中主要从四个 方面研究网页过滤的特征提取,这四个方面为:网页的布局、因特网内容选择平台 ( p i c s ) 等级评定应用、暗示性条文和文档内容;文【8 】中提出了一个基于字频统计 和数据挖掘技术的自适应不良网页过滤模型。以校园网作为研究环境,利用自适应语 料库构建智能化的分类模式,通过模式识别过滤校园网中的不良网页;文 9 】中从信 息过滤系统结构、网络信息捕获、网络协议分析等方面对网络信息过滤系统基本理论 和实现方法进行详细的讨论;文【1 0 】中提出了一个基于内容的不良信息过滤模型,并 结合现有的分类方法,给出了几种适用于不良信息文本实时识别的方法,对各算法用 于不良信息识别的原理进行了描述。 1 2 2 网页文本过滤的主要方法 当前w e b 内容过滤主要有四种方法,过滤系统采用其中的一种或者几种,它们 分别是p i c s ( p l a t f o r mf o ri n t e r n e tc o n t e n ts e l e c t i o n ) 、u r l 阻断、关键词过滤和智能 内容分析。 第一章引言 一个w e b 文本过滤系统设计与实现 p i c s 是一个自愿采用的标号系统,w e b 内容提供商如果选择采用这个系统,必 须自己标记他们的内容并承担责任。显然,由于p i c s 的自发特性,这个系统不是很 可靠,可能是疏忽也可能是故意,经常出现标记错误。 u r l 阻断被用于禁止访问事先编辑好的黑名单列表中的u r l s ( 或者是它们的 i p 地址) 。其主要优点是,不需要得到所请求访问的网页内容就能做出阻断决定。假 如黑名单包括最新的所有的不良网页的网址,这个方法能很快速、很有效地防止用户 访问不良网页。这种方法可以方便地适用于多种语言的网页。通常情况下,需要手动 编辑黑名单列表。然而,随着每天新网页数量的爆炸式增长,时时更新和维护黑名单 列表变得异常困难,而且代价昂贵。 关键词过滤是对用户请求的页面内容进行词法分析。请求访问的网页中的文本内 容被逐字地与事先编辑好的一连串关键词相比较。如果匹配的数量超过预定的阈值, 对这个网页的请求将被阻断。这个方法概念上很简单,但是因为缺少对词汇出现的上 下文的语义理解,会导致过度阻断的问题。例如,“s e x ”这个词可能会出现在一些健 康的网页上,或者可能仅仅表示“g e n d e r ”。 智能内容分析器采用多种机器学习算法,典型的算法包括神经网络、k 近邻法等。 这些方法试图模拟人类的智慧来判断一个页面是否包含垃圾内容。表1 1 给出了上述 几种方法的比较1 2 1 。 表1 1 主要方法的比较 网页 色情( 总共4 9 9 )普通( 总共4 9 9 ) 方法系统正确率 不正确不正确 正确分类正确分类 分类分类 u l u 阻断 c y b e rp a t r o l 4 0 69 34 6 63 08 7 6 6 关键词过滤 c y b e rs n o o p 4 6 43 54 0 49 28 7 2 3 i c r t w e b c h a p e r o n e 4 3 96 04 7 02 69 1 3 7 注:i c r t ( i n t e l l i g e n tc o n t e n tr e c o g n i t i o nt e c h n o l o g y ) :内容智能识别技术。 随着信息过滤需求的增长和研究的深入发展,其他领域的许多相关技术被应用到 信息过滤中来,并取得了较好的效果。如信息检索中的相关反馈、伪相关反馈以及查 询扩展技术,文本检索中的向量空间模型,文本分类和聚类技术,机器学习以及自然 4 一个w e b 文本过滤系统设计与实现 第一章引言 语言底层的处理技术等,极大地拓展了信息过滤的研究广度和深度,推动着信息过滤 理论研究与技术应用不断走向完善与成熟。 1 2 3 当前的网页过滤系统 网页内容过滤系统既有基于c l i e n t 的,也有基于s e r v e r 的。一个基于c l i e n t 的系 统只能在安装了该过滤系统的计算机上发挥作用。基于s e r v e r 的系统对安装了该系统 的本地局域网内的所有机器都发挥作用,它筛选向外的w e b 请求,分析进入的w e b 页面从而决定它们的内容性质,禁止不合适的内容在客户端的w e b 浏览器中显示。 国外的网页过滤系统研究比较早,表1 2 列出了目前最为流行的几种系统,并对 这些系统采用的主要技术和过滤的特性进行了比较。 表1 2 国外流行的网页过滤系统 名称位置 p l c s u r l 过内容过滤域试用网址 滤分析 c y b e rs i d e r c l i e n ty r e sy e sn o 通用 w w w c y b e r s i t t e r c o m w e b c h a p e r o n e c l i e n ty e sy e sy e s 色情无 s u r f w a t c hc l i e n ty e sy e sn 0通用w w w s u r f c o n t r 0 1 t o m w b b s e n s es e r v e rn 0y e sn o通用w w w w e b s e n s e t o m s m a r t f i l t e rc l i e n tn 0 y e sn 0通用 w w w s m a r f f i l t e r c o m 在表1 2 中列出的所有系统中,只有一个系统明确地过滤色情网站。没有系统只 依赖p i c s 作为它的主要过滤理论。所有系统都支持u r l 过滤。只有w e b c h a p e r o n e 运用动态内容分析技术作为它的主要理论,它使用i c r t 技术动态评估每个网页,分 析的时间点在网页到达网页浏览器之前。i c i 分析词的数量比率、页长、页的结构 以及上下文句子。该系统聚合了属性权值的结果,在这些结论的基础上, w e b c h a p e r o n e 识别网页是否包括色情内容。 表1 3 列出了国内目前主流的几款过滤软件。由于国内的政策使得对不良信息的 过滤一向比较重视,国内主流的网页过滤系统均采用了内容分析。但是,由于不良信 息网站的不断发展以及w e b 相关技术的不断发展,这些过滤软件都存在不同程度的 过滤准确率问题【1 1 1 。而且都是客户端的过滤,如果客户不愿意安装此类过滤系统,那 5 第一章引言一个w e b 文本过滤系统设计与实现 么就不能有效阻止用户浏览不良网页。 表1 3 国内的网页过滤系统 名称位置p i c su r l 过滤内容分析过滤域试用网址 美萍反黄c l i e n t未知 _ 色情 w w w m p s o f t n e t 软件 网警1 1 0 c l i e n t 未知 0 通用 、 n v 、 7g e n n e t t o m c n 反黄卫士 c l i e n t 未知 -_ 色情 w w w h r b e c t o m 护花使者 c l i e n t 未知 - 色情 w w w 18 i e t o m 这些系统虽然仍存在许多不足和需要改进完善的地方,但是它们在特定范围内成 为快速、有力的工具,从而在一定程度上为人们迅速获取有价值的信息提供了方便。 1 3 主要研究内容 为了有效地避免青少年等易感人群接触互联网上的各种不良信息,保护青少年的 健康成长,免除全社会和家长对青少年上网的担忧;同时为了提高校园计费网关对公 共信息网络服务的综合监管能力,提出了本课题。课题目标是通过研究l i n u x 下实时 内容过滤和文本过滤等相关技术,设计并实现了一个基于i p c g 控制网关的w e b 文本 信息过滤系统。 如何把实时过滤与机器学习算法融合在一起,处理好实时与高效的关系,并成功 应用到计费网关是本课题需要解决的重要问题。解决计费网关上w e b 文本信息过滤 系统的实时性与准确性之间的矛盾是本课题要解决的关键问题。 文中对系统涉及的各主要模块中常用的技术和处理策略进行详尽的阐述,期间主 要做了以下工作: ( 1 ) 给出了本文过滤系统的总体架构,并设计了一个面向互联网的分层、分级、 分策略的分布式信息过滤原型系统。分布式模型借鉴o s p f 路由协议的洪泛法、数据 库同步算法等,实现过滤信息数据库的同步。 ( 2 ) 对l i n u x 系统的n e t f i l t e r i p t a b l e s 框架做了深入研究,利用其提供的五个钩 子点,实现了特定数据包的捕获:对捕获到的数据包进行识别、分类、预处理,为关 键词过滤模块提供准确的过滤源,同时剔除不需要过滤的数据包,减少过滤的时间; 6 一个w e b 文本过滤系统设计与实现第一章引言 模拟t c p f i p 的“三次握手 ,实现网页的重定向;实现了基于网址的过滤;实现了数 据包基于关键词的内容过滤,过滤同时兼顾实时性和准确性。 ( 3 ) 针对中文网页的特点改进了特征提取算法,综合考虑了词语的网页标签、 长度和词语感情色彩等信息。 ( 4 ) 提出了一种新的过滤策略。该策略过滤初期采用s v m ( s u p p o r tv e c t o r m a c h i n e ) 算法,当收集的正例文本数量达到阈值之后,过滤采用基于模板的方法。 该策略的好处是有效地克服了搜集过滤训练文档集的难题。 ( 5 ) 改进了自适应过滤中的模板学习和阈值调整方法,提出了动态修正模板调 整系数的算法,并引入特征衰减因子。模板自学习之后,从中提取出更适合网关内核 使用的过滤关键词,相应地提高实时过滤模块的过滤精度。 1 4 论文组织结构 本文共分七章:论文的结构和各个章节的主要内容如下: 第一章对本课题从总体上进行了介绍,包括课题的提出、研究现状、意义,并据 此引出本文的选题与研究内容。 第二章介绍了文本过滤的基础知识。主要包括文本过滤评测指标、自适应信息过 滤流程以及过滤模型等。 第三章介绍过滤系统的总体框架,提出了一个分布式系统的设计方案。然后进一 步介绍了客户端、中央预警中心平台等的设计。 第四章讨论了实时过滤模块的实现,阐述了网络数据包的捕获、数据包的预处理, 基于网址的过滤以及基于数据包内容的过滤实现。特别是预处理部分,提出了详细的 算法设计以及实现方案。最后,给出了该模块的实验结果及分析。 第五章讨论了离线过滤模块,详细介绍本文提出的过滤策略。介绍网页特征的选 取,把词汇的语义倾向值作为权重计算的一部分;重点阐述了改进的过滤模板自学习、 自调整算法。针对该算法的过滤结果提取出更合适的过滤关键词,推送给第四章的实 时在线过滤模块使用。 第六章给出了实验结果以及分析,包括模块实验和系统总体实验。 第七章总结了本文的主要工作,并探讨下一步的研究工作。 7 第二章相关技术 一个w e b 文本过滤系统设计与实现 2 1 文本过滤评测指标 第二章相关技术 过滤除了采用信息检索领域中常用的查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 指 标外1 2 】,还采用u t i l i t y 和f 值等来评价。给定一个主题( t o p i c ) 和信息文档,文档 可能相关,也可能不相关,过滤系统可能检测出相关文档,也可能检测不出,于是建 立如下四分表: 表2 1 信息过滤结果分类 相关不相关 检出r | kn lb 未检出 k | cn 佃 这里r + 、1 v 、矿、n 。是指每个主题四种情况的文本数量,a 、b 、c 、d 为每种 情况的代价。 ( 1 ) 查准率和查全率 查粹p r e c i s o n ,= 然= 赤 仁, 查全率( m = 器= 羔 ( 2 2 ) 查准率反映了过滤系统找对满足过滤条件的信息的能力,查准率越大,非相关信 息返回的越少。 查全率反映了过滤系统发现满足过滤条件信息的能力,查全率越高,漏检的信息 越少。 ( 2 ) f 值 f 值基于v a nr i j s h e r g e n 1 3 1 的定义,是查准率和查全率的函数。定义为: 肚簪等r 亿3 , 8 。p 其中p 为查准率,r 为查全率,1 3 为控制查准率和查全率权重关系的参数,1 3 在 8 一个w e b 文本过滤系统设计与实现 第二章相关技术 本文中取值为1 ,无论1 3 取值为何,f 值范围都在【0 ,1 】。 f 值代表查准率和查全率的一种平衡,也是本文过滤系统所采用的评价指标之 一o ( 3 ) u t i l i t ) , 检出相关文本和未检出不相关文本都是过滤正确的情况,而未检出相关文档则意 味着遗漏,检出不相关意味着错检。针对每种情况,赋予相应的权重,线性u t i l i t y 函数定义如下: u t i l i t y = a r + + b 幸n + + c 牛r 一+ d n 一( 2 4 ) 显然,a ,d o ,b ,c 0 。由于检出相关文本是最重要的,所以a d 。u t i l i t y 值 越大,系统的过滤性能越好。 但是,对代价参数的设置不同,评价指标就不一样。在t r e c 1 1 信息过滤评测 中,将a 设置为2 ,将b 设置为一1 ,c 和d 都设置为o ,即为下式: t 1 1 u = 2 唪r + 一+ ( 2 5 ) 上式即是t l l u 评价指标。将全部主题的u t i l i t y 数值进行平均,就得到全局的 u t i l i t y 数值。 2 2 文本过滤模型 文本过滤与文本检索有着极为密切的联系。过滤实质是建立在检索的基础之上, 因为它借鉴了许多检索的表示方法和技术。文本检索经常使用的模型主要有布尔模 型、概率模型和向量空间模型等。其中成熟的向量空间模型得到广泛的应用。本文主 要使用扩展的布尔模型和向量空间模型。 2 2 1 布尔模型 布尔模型( b o o l e a nm o d e l ) 是简单的检索模型,是基于特征项严格匹配的模型。 首先,建立一个二值变量的集合,这些变量对应于文本的特征项。文本用这些特征变 量来表示,如果出现相应的特征项,则特征变量取t r u e ;否则,特征变量取f a l s e 。 查询由特征项和逻辑运算符( a n d 、o r 和n o t ) 组成。文本与查询的匹配规则遵循 9 第二章相关技术一个w e b 文本过滤系统设计与实现 布尔运算的法则。 布尔模型的主要优点是:速度快;易于实现。其缺点是:把布尔模型作为文本的 表示很不精确,不能反映特征项对于文本的重要性,缺乏定量的分析;过于严格,缺 乏灵活性,更谈不上模糊匹配,往往忽略了满足用户需求的文本。随后出现了扩展的 布尔模型,主要是对标引关键词按照词频来赋予权值,通过对检出文档进行排序,以 提高检索的性能。 2 2 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ,v s m ) 是s a l t o n 等人于上世纪6 0 年代末提 出的,并成功地应用于著名的s m a r t ( s y s t e mf o rt h em a n i p u l a t i o na n dr e t r i e v a lo f t e x t ) 系统。在此之后,该模型及其相关的技术,包括项的选择、加权策略,以及采 用相关反馈进行查询优化等技术,在文本分类、自动索引、信息检索等许多领域得到 了广泛的应用,主要原因是它具备概念简单,应用方便,以及利用空间相似性来逼近 语义相似性的特点。目前v s m 已成为最简便高效的文本表示模型之一【1 4 】。由于v s m 的这些特点,在文本过滤领域,v s m 也是被广泛采用的文本表示模型。 ( 1 ) 文档( d o c u m e n t ) 泛指一般的文本或文本中的片断( 段落、句群或句子) ,一般指一篇文章。尽管 文档可以是多媒体对象,但在本文的讨论中我们只处理文本对象,并且对文本与文档 不加以区分。 ( 2 ) 项( t e r m ) 文档的内容特征常常用它所含有的基本语言单位( 字、词、词组或短语等) 来表 示,这些基本的语言单位统称为项,即文档可以用项集表示为d 0 1 ,t 2 ,t n ) ,其中k 是项,1 k n 。 ( 3 ) 项的权重( t e r mw e i g h t ) 对于含有n 个项的文档d ( t l ,t 2 ,t n ) ,项t k 常常被赋予一定的权重w k ,表示它们 在文档d 中的重要程度,即d = d ( t l ,w 1 ) ,( t 2 ,w 2 ) ,( t n ,w n ) ) ,简记为d = d ( w l ,w 2 ,w s ) 。 此时项t l ( 的权重为w k ,l k n 。 ( 4 ) 向量空间模型( v s m ) 1 0 一个w e b 文本过滤系统设计与实现 第二章相关技术 给定一个文档d ( w l ,w 2 ,w n ) ,由于k 在文档中既可以重复出现又应该有先后 次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂时不考虑t k 在文档中 的先后顺序并要求t i 互异( 即没有重复) 。这时可以把( t l ,t 2 ,t n ) 看成一个n 维的坐 标系,而( w l ,w 2 ,w n ) 为相应的坐标值,因而d ( w l ,w 2 ,w n ) 被看成是n 维空间 中的一个向量。我们称d ( w l ,w 2 ,w n ) 为文档d 的向量表示或向量空间模型。 ( 5 ) 文档相似度 文档q = q ( t l , w 1 ) ,( t 2 , w 2 ) ,( t n ,w n ) ) 和文档d = d ( t s , v s ) ,( t 2 , v 2 ) ,( t n 。v n ) ) ,其中 t n 指第n 个特征项,w n 指查询需求中第n 个特征项权重,v n 则指文档中第n 个特征 项的权重。 求取文档与过滤需求之间的相似度是通过计算文档与过滤向量间的距离,而向量 距离一般是通过计算向量间的内积或者夹角余弦来得到的,余弦相似度的计算公式 为: w v , s i m ( q ,d ) = c o s 02 可等育一 ( 2 6 ) 、f 砰木v ? yi = 1 i = l 向量空间模型的优点在于:将文本和查询简化为特征项及其权重集合的向量表 示,从而把检索操作变成向量空间上的向量运算,其权重计算可以通过简单的频数统 计来完成,通过定量的分析,匹配文本和查询。其缺点在于特征项之间线性无关的假 设。在自然语言中,词或短语之间存在着非常紧密地联系,即存在斜交的情况,很难 满足正交的假设条件,因此对计算结果的可靠性造成一定的影响。另外,将复杂的语 义关系归结成简单的向量结构,也会丢失许多有价值的线索。 2 3 自适应信息过滤 早期的信息过滤研究主要针对用户固定的信息需求,将信息流分为与用户兴趣相 关和不相关的两种,主要侧重于研究过滤系统中二值分类器( 相关性判定) 的性能。 这种系统有两个缺点:一是需要大量的训练数据来训练过滤器;二是需要用户大量参 与来提供相关文档的信息。这样的系统很难适应现实的需要,于是随着信息技术和人 工智能等理论和技术的发展,研究者们逐渐转向更接近现实、更具智能型的自适应信 第二章相关技术 一个w e b 文本过滤系统设计与实现 息过滤研究。为适应这一发展要求,第六届国际文本检索会议( t i 迮c 6 ) 中专门提出 了自适应信息过滤的任务评测1 15 ,并在第七届t r e c 中将信息过滤细分三个子任务, 突出自适应过滤的重要性【1 6 】。 自适应信息过滤( a d a p t i v ei n f o r m a t i o nf i l t e r i n g ) 系统注重面对用户需求和信息 流变化时的系统适应和自学习能力,通过用户的反馈信息,来减少用户的参与。在初 始阶段,系统只有主题需求描述文档和少量正例文档,无任何训练数据。系统对文本 流中的每篇文档,进行相关性判断。判断为相关的文档被推送给用户,其他文档则直 接舍弃。同时通过用户的反馈信息,系统自主地学习并调整过滤策略,使用户需求模 板更接近用户真实需求,从而提高系统的过滤性能。 2 3 1 自适应信息过滤特点 自适应信息过滤与传统的基于内容的信息过滤相比,更加适用于当前在线实时信 息过滤,它有以下特点【1 7 】。 ( 1 ) 只有少量的正例文档,没有训练集。与传统的文本分类和信息过滤相比, 在自适应过滤中,为了接近真实的信息需要,只提供需求的描述( 在t r e c 中仅提供 主题t o p i c 及其详细描述) ,数据部分只提供两三个正例及测试集,不提供大量的训练 数据,这和传统的信息过滤不同。传统的基于内容的信息过滤系统基本上是一个二值 分类过程,它需要在大量的训练集上进行过滤器的训练,获取较为准确的需求模板后 才在测试集上进行过滤。 ( 2 ) 自适应信息过滤系统中,强调系统的自适应调整和学习能力。自适应信息 过滤中除了提供主题信息外,一般很少提供训练数据,但是对于每个过滤文档却提供 用户的相关反馈信息。其目的就是使过滤系统从一个性能较低的起点出发,适应需求 的变化,充分学习用户的相关反馈信息,不断调整过滤模板和阂值,提高过滤性能。 ( 3 ) 自适应过滤中人机交互具有重要的作用,系统定期学习用户的相关反馈信 息,掌握用户的兴趣偏好变化,及时调整过滤模板,使其更加真实地反映用户的需求。 ( 4 ) 与信息检索相比,自适应信息过滤面对两种变化的信息环境,自适应地调 整过滤模板和检出阈值,不断地提高其过滤性能。这两种变化的环境是:用户信息需 求( 接收方) 与文档流的变化( 发送方) 。 1 2 一个w e b 文本过滤系统设计与实现第二章相关技术 ( 5 ) 与信息检索相比,自适应信息过滤中信息源是动态的,不需要对输出文档 进行排序,只是对文档按照过滤决策决定推送还是剔除。 2 3 2 自适应信息过滤系统结构 自适应信息过滤最主要的特点是它根据用户反馈信息自主学习和自适应的能力。 在过滤过程中系统通过自主学习用户反馈信息,获取更为准确的用户需求信息,自适 应地调整需求模板和检出阈值。典型的自适应信息过滤系统结构如图2 1 所示。 自适应的中文网页内容过滤模块 描述 阈值 特征提取 模块 网页 洗、转换 模块 室 分词、去 停用词及 词性选择 知识库模 块 测试文档 r 主 特征提取 模块 相似度计 算模块 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 主 相似度 图2 1 自适应网页内容过滤系统体系结构 大致分析一下系统的几个主要部分。首先,系统要通过一定途径来获得用户的兴 趣描述,然后经过处理加工( 初始化) 得到用户模板( p r o f i l e ) 。然后,随着动态文 档流的到来,过滤决策模块判断当前文档是否和用户模板相关,如果相关,则推送给 用户。最后,如果有反馈的情况发生( 即推送出去的文档确实是与用户兴趣相关的或 者不是相关的) ,则系统自学习模块根据反馈,自动调整系统用户模板以提高性能。 第二章相关技术 一个w e b 文本过滤系统设计与实现 2 3 3 自适应信息过滤流程 一个自适应信息过滤系统主要的流程如图2 2 所示: 图2 2 自适应信息过滤的流程 首先,过滤系统根据主题( t o p i c ) 描述和给定的两三个正例,经过预处理,剔除 停用词和虚词,选择最能表达文档内容的适量的特征项( t e r m ) ,运用权重函数赋予 适当的权值。再经过向量空间矢量化处理和归约,形成初始需求模板( u s ep r o f i l e ) 和初
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年淮安市楚州区中小学编制教师招聘考试参考试题及答案详解
- 2025年梧州市蝶山区中小学编制教师招聘考试试题及答案详解
- 2025年广州市番禺区事业编单位人员招聘笔试试题及答案详解
- 2026年洛阳市廛河回族区中小学编制教师招聘考试备考试题及答案详解
- 2025年伊春市金山屯区中小学编制教师招聘笔试试题及答案详解
- 2026年河南省鹤壁市中小学编制教师招聘笔试模拟试题及答案详解
- 2026年青海省海东市事业编单位人员招聘笔试备考试题及答案详解
- 甲烷合成气净化工环保及安全竞赛考核试卷含答案
- 汽车铸造生产线操作工岗中基础模拟考核试卷含答案
- 2026及未来5年中国PVC透明软质胶布行业发展研究报告
- 湖北省十堰市2025-2026学年高一下学期期末考试生物试卷
- 期末综合测试卷二(试卷)2025-2026学年五年级语文下册统编版(含答案)
- 期末模拟考试(一)-2025-2026学年高二下学期人教A版数学(含解析)
- 香港公司收购及合并守则
- 2026南方凯能(广东)电力集团有限公司校园招聘备考题库及一套答案详解
- 2026年中医专科护士复习试题(考点梳理)附答案详解
- 2026年全国保密教育线上培训考试试题及完整附答案
- 中国血脂管理指南课件
- 2026年高考高校招收华侨港澳台生化学试卷试题(含答案详解)
- (2026版)《包头市市政设施管理条例》解读与实施
- 23.4 实际问题与一次函数(第1课时)教学设计
评论
0/150
提交评论