（计算机应用技术专业论文）一个web文本过滤系统设计与实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：69 大小：2.83MB 积分：0 举报 版权申诉

已阅读5页，还剩64页未读，继续免费阅读

（计算机应用技术专业论文）一个web文本过滤系统设计与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

一个w e b 文本过滤系统设计与实现中文摘要一个w e b 文本过滤系统设计与实现中文摘要随着互联网的快速发展，网络上的信息呈爆炸式增长，文本信息过滤技术的研究取得了很大的进展，w e b 文本信息过滤技术已成为一个研究热点。本文在前期课题 i p c g 控制网关的研究基础上，为了提高该计费网关对公共信息网络服务的综合监管能力，通过研究l i n u x 下实时内容过滤和文本过滤等相关技术，设计并实现了一个基于i p c g 控制网关的w 曲文本信息过滤系统。本文首先给出了系统总体框架以及设计目标，并提出了一种分布式过滤系统的实现方式。系统由中央预警模块统一管理、在线过滤和离线过滤相结合。分布式数据库的同步借鉴o s p f 路由协议中数据库同步算法，实现全网过滤信息的通用性。实时在线过滤模块，包括了数据包预处理和基于i p 地址及关键词过滤两个子过程。数据包预处理过程主要针对w e b 页面进行数据分析和结构分析，解析出正确的页面数据信息；基于i p 和基于关键词的过滤过程，采用了哈希树结构来组织i p 黑名单列表和缓存拼接策略存储过滤内容，关键词过滤结合统计信息综合判定。离线过滤模块对正例类和不确定类做进一步的离线分析，更新实时在线过滤模块的i p 黑名单列表和过滤关键字列表。离线过滤采用改进的特征词提取算法和改进的过滤策略。改进的特征词提取算法，综合考虑了特征词长、网页结构特征和词汇的感情色彩等；改进的过滤策略过滤初期采用s v m 算法，中后期采用改进的自适应模板过滤法。模板的更新采用改进的模板系数调整策略，并引入特征衰减因子来提高过滤的准确率。实验表明，本文提出的方法既能保证内容过滤分析和数据报流通相互独立，又能提高在线过滤的速度和过滤的正确率。关键词：网页过滤，在线过滤，离线过滤，自适应信息过滤，语义倾向作者：沈风仙指导老师：朱巧明 a b s t r a c t d e s i g na n di m p l e m e n t a t i o no fw e bt e x tf i l t e r i n gs y s t e m d e s i g na n di m p l e m e n t a t i o no fw e b t e x tf i l t e r i n g s y s t e m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ，t h ea m o u n to fi n f o r m a t i o ni n c r e a s e si na l l e x p l o s i v ew a y t e x ti n f o r m a t i o nf i l t e r i n gt e c h n o l o g yh a sm a d eg r e a tp r o g r e s s a n d i n f o r m a t i o nf i l t e r i n gb a s e do nw e bt e x th a sb e c o m ear e s e a r c hh o t s p o t t h ep r e - t o p i co f t h i sp a p e ri st h er e s e a r c ho fl p c g g a t e w a ya n dt h er e s e a r c ho ft h i sp a p e ri sh o w t oi m p r o v e t h eg a t e w a y ss u p e r v i s i o nc a p a b i l i t yf o rt h ep u b l i cs e r v i c e s b ys t u d y i n gt h er e a l t i m e c o n t e n tf i l t e r i n gu n d e rt h el i n u xa n dt h er e l e v a n tt e c h n o l o g yo ft e x tf i l t e r i n g ，t h i sp a p e r p r o p o s e sa n di m p l e m e n t saw e b t e x tf i l t e r i n gs y s t e mb a s e do ni p c gg a t e w a y f i r s t l y , t h i sp a p e rs h o w st h eo v e r a l lf r a m e w o r ko ft h es y s t e mw h i c hc o m b i n e s r e a l t i m eo n l i n ef i l t e r i n g 嘶也o f f l i n ef i l t e r i n g ，a n dp u t sf o r w a r dad i s t r i b u t e df i l t e r i n g s y s t e mw h i c hr e f e r st h ed a t a b a s es y n c h r o n i z a t i o na l g o r i t h mo fo s p fr o u t i n gp r o t o c 0 1 r e a l t i m eo n l i n ef i l t e r i n gm o d u l ei n c l u d e st w op r o c e s s e s o n ei st h ep r e t r e a t m e n to f p a c k e t s ，a n dt h eo t h e ri st h ei p b a s e da n dt h ek c y w o r d b a s e df i l t e r i n g t h ep r e t r e a t m e n to f p a c k e t sa i m sa tg e t t i n gc o r r e c td a t ai n f o r m a t i o nb yw e b c o n t e n ta n a l y s i sa n dw e bs t r u c t u r a l a n a l y s i so fw e bp a g e s t h ei p b a s e da n dt h ek e y w o r d b a s e df i l t e r i n gu s et h eh a s h t r e e s t r u c t u r et oo r g a n i z ei pb l a c k l i s ta n dt h ec a c h es t r a t e g yt os t o r a g ef i l t e r i n gc o n t e n t t h e k e y w o r d - b a s e df i l t e r i n gw h i c hc o m b i n e d 、撕t hs t a t i s t i c a li n f o r m a t i o na s s i g n st h ec a t e g o r y t o t h e p a g e o f f l i n ef i l t e r i n gm o d e lm a k e sf u r t h e ro f f i i n e a n a l y s i s f o rt h ee x a m p l ea n dt h e u n a s c e r t a i n e dp a g e ，a n dt h e nu p d a t e st h ei pb l a c k l i s tl i s ta n dt h ek e y w o r dl i s tu s e db y o n l i n ef i l t e r i n gm o d u l e t h i sp a p e rp u t sf o r w a r dt h ef e a t u r ee x t r a c t i o na l g o r i t h ma n dt h e f i l t e r i n gs t r a t e g y t h ef e a t u r ee x t r a c t i o na l g o r i t h mc o n s i d e r st h el e n g t ho ff e a t u r e s ，t h e s t r u c t u r a li n f o r m a t i o no fp a g e sa n dt h es e m a n t i co r i e n t a t i o ni n f o r m a t i o no ff e a t u r e s t h e i i d e s i g na n di m p l e m e n t a t i o no f w e bt e x tf i l t e r i n gs y s t e m a b s t r a c t f i l t e r i n gs t r a t e g yu s e ss v ma ti n i t i a lf i l t e r i n gs t a g e sa n du s e st h ei m p r o v e da d a p t i v e t e m p l a t e b a s e da l g o r i t h mi nl a t t e rs t a g e s i no r d e rt ou p d a t ep r o f i l e ，i tu s e st h ei m p r o v e d c o e f f i c i e n ta d j u s t m e n ts t r a t e g y , a n du s e st h ef e a t u r ea t t e n u a t i o nf a c t o r t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h em e t h o dp r o p o s e di nt h i sp a p e rc a ne n s u r e f i l t e r i n gp r o c e s sa n dd a t at r a n s f e ri n d e p e n d e n t l y , w h i l ei tc a ni m p r o v eb o t ht h es p e e da n d t h ea c c u r a c yo fo n l i n ef i l t e r i n g k e yw o r d s ：w e bp a g ef i l t e r i n g ，o n l i n ef i l t e r i n g ，o f f l i n ef i l t e r i n g ，a d a p t i v e i n f o r m a t i o nf i l t e r i n g ，s e m a n t i co r i e n t a t i o n i i i w r i t t e nb ys h e nf e n g x i a n s u p e r v i s e db yz h uq i a o m i n g 苏州大学学位论文独创性声明及使用授权声明学位论文独创性声明本人郑重声明：所提交的学位论文是本人在导师的指导下，独立进行研究工作所取得的成果。除文中已经注明引用的内容外，本论文不含其他个人或集体已经发表或撰写过的研究成果，也不含为获得苏州大学或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡献的个人和集体，均已在文中以明确方式标明。本人承担本声明的法律责任。研究生签名：i 砀么亟厶e t 期：学位论文使用授权声明苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的复印件和电子文档，可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外，允许论文被查阅和借阅，可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。研究生签名：l 塑恐厶e t 期：导师签名：期：一个w e b 文本过滤系统设计与实现第一章引言 1 1 课题背景与意义第一章引言随着互联网的迅猛发展，“信息过载问题日益突出。一方面，人们在享受它带来方便快捷的同时，也被其包含的海量信息所淹没，要在浩瀚的信息资源中找出自己需要的内容，无异于大海捞针。另一方面，互联网上信息良莠不全，一些涉及反动、色情、暴力等不良内容的信息也在网上传播，这些都时刻威胁和侵扰人们的信息安全。屏蔽这些非法的不良信息，保护用户的信息安全和合法权益，成为当前信息时代的重要任务之一。如何能够更有效、更准确地找到自己感兴趣的信息，滤除与自己的需求无关的网络信息或有害信息己成为基于i n t e m e t 网络信息过滤的当务之急，采用信息过滤的方法有选择性地传播和利用信息变得越来越重要。与此同时，随着计算机科学技术的日益进步，人们对信息处理技术提出了更高的要求。以搜索引擎为主的现有网络查询技术受到了挑战，网络用户的检索需求与现有的信息查询技术之间的矛盾日益尖锐，其不足主要有如下两方面：( 1 ) 在使用搜索引擎时，只要使用的关键词相同，所得到的结果就相同，它并不考虑用户的信息偏好和用户的不同，对专家和初学者一视同仁，同时返回的结果成千上万良莠不齐，使得用户在寻找自己喜欢的信息时如大海捞针；( 2 ) 网络信息是动态变化的，用户时常关心这种变化。而在搜索引擎中，用户只能不断地在网络上查询同样的内容，以获得变化的信息，这花费了用户大量的时间。因此，在现有情况下，传统的信息查询技术已经难以满足用户的检索需求，对信息过滤技术的研究日益受到重视。另外，尽量减少无效数据的传输对于节省网络资源、提高网络传输效率具有十分重要的意义。通过信息过滤，可减少不必要的信息传输，节省费用，提高经济效益。所有以上这些，都促使人们对信息过滤技术进行深入的研究和推广。信息过滤技术作为上述问题的有效解决方法：( 1 ) 可以向用户主动提供个人与兴趣相关的信息； ( 2 ) 过滤敏感性信息( 如国家安全、暴力、色情和反动信息等) 。相比传统的过滤技术，新的自适应过滤技术不需要大量初始训练文本，同时在过滤过程中不断进行学习来提高过滤精度，因此更适应于w e b 环境的过滤要求。第一章引言一个w e b 文本过滤系统设计与实现恶意病毒的破坏，反动、色情、暴力等不良内容在互联网上的传播已经成为日益突出亟待解决的问题。特别是上网人群中2 4 岁以下的网民占半数之多，不良内容的传播有害于他们的健康成长。为了有效地避免青少年等易感人群，接触互联网上的各种不良信息，保护青少年的健康成长，免除全社会和家长对青少年上网的担忧。同时为了提高校园计费网关对公共信息网络服务的综合监管能力，提出了本课题。课题目标是研究校园网关上的实时内容过滤和文本过滤等相关技术，设计实现一个基于 i p c g 控制网关的w 曲文本信息过滤系统。 1 2 国内外研究现状网页文本信息过滤随着计算机应用的发展从设想成为现实，经历了很长的发展时期，并不断地完善自身的功能。在因特网日益普及的今天，该技术在w e b 信息发掘方面发挥着越来越大的作用。网页文本信息过滤由文本过滤发展而来。文本过滤的任务定义一直在不断地演化，难度越来越大但也越来越接近于真实环境。2 0 0 0 年举行的t r e c 9 ( t e x tr e t r i e v a l c o n f e r e n c e ) 给出了一个文本过滤项目的任务描述：给定一个主题描述( 也就是用户需求) ，建立一个能够从文本流中自动选择最相关文本的过滤模板，继而随着文本流的逐渐进入，过滤系统能够自动地接受或拒绝文本，并得到文本相关与否的反馈信息，再根据反馈信息自适应地修正过滤模板。目前t r e c 的过滤任务要求用户的信息需求自适应地、实时地从具有时序的文本流中判断每篇文本是否相关，主要是模拟时间要求很高的文本过滤应用。网页文本过滤的任务与当前文本过滤的任务有着相似之处，那就是对时间要求都很高。文本过滤的很多相关技术都能用于网页文本信息过滤，网页文本信息过滤对技术的要求更高，这主要是因为网页的结构、内容比文本复杂。由于网络信息数据大多数是以文本形式存在，所以信息过滤主要指的是文本过滤。在本文中，研究的信息载体也是文本，故信息过滤与文本过滤二者在本文中是等价的。 2 一个w e b 文本过滤系统设计与实现第一章引言 1 2 1 网页文本过滤的技术发展现状随着互联网的发展，网络上传播的信息参差不齐，网页过滤作为信息过滤的一个分支，它已成为一个十分重要的研究方向。最近几年，国际期刊、会议上有较多研究这个方面的论文，研究内容包括过滤暴力网页、色情网页等不良网页，采用的过滤方法推陈出新。比如，文【1 】中设计了一个w e b 内容过滤系统，它分为在线和离线两个部分，在线过滤采用代理方式。文章重点分析此种结构的好处，没有具体的实现过程，过滤的功能也没有讲清楚；文【2 】中介绍的w e b 内容过滤器可以过滤两种语言的网页，这两种语言为英文和中文。过滤之前首先要根据网页内容的编码自动识别网页的语言种类，然后针对不同的语言采用不同的过滤策略；文【3 】中的w 曲过滤器能处理泰国语和英文两种网页，比较了s v m 和贝叶斯算法在色情网页过滤上的效果，得出结论： s v m 比贝叶斯算法好，尤其是在解决过度阻塞( o v e r - b l o c k i n g ) 问题上；文【4 】中的暴力网页过滤着重于研究过滤关键字词典的准备；文 5 】中提出的暴力网页检测和过滤系统使用数据挖掘领域的相关技术来提高过滤的性能；文【6 】中提出了一种基于机器学习的过滤算法，该算法结合网页内容分析和网页结构分析；文【7 】中主要从四个方面研究网页过滤的特征提取，这四个方面为：网页的布局、因特网内容选择平台 ( p i c s ) 等级评定应用、暗示性条文和文档内容；文【8 】中提出了一个基于字频统计和数据挖掘技术的自适应不良网页过滤模型。以校园网作为研究环境，利用自适应语料库构建智能化的分类模式，通过模式识别过滤校园网中的不良网页；文 9 】中从信息过滤系统结构、网络信息捕获、网络协议分析等方面对网络信息过滤系统基本理论和实现方法进行详细的讨论；文【1 0 】中提出了一个基于内容的不良信息过滤模型，并结合现有的分类方法，给出了几种适用于不良信息文本实时识别的方法，对各算法用于不良信息识别的原理进行了描述。 1 2 2 网页文本过滤的主要方法当前w e b 内容过滤主要有四种方法，过滤系统采用其中的一种或者几种，它们分别是p i c s ( p l a t f o r mf o ri n t e r n e tc o n t e n ts e l e c t i o n ) 、u r l 阻断、关键词过滤和智能内容分析。第一章引言一个w e b 文本过滤系统设计与实现 p i c s 是一个自愿采用的标号系统，w e b 内容提供商如果选择采用这个系统，必须自己标记他们的内容并承担责任。显然，由于p i c s 的自发特性，这个系统不是很可靠，可能是疏忽也可能是故意，经常出现标记错误。 u r l 阻断被用于禁止访问事先编辑好的黑名单列表中的u r l s ( 或者是它们的 i p 地址) 。其主要优点是，不需要得到所请求访问的网页内容就能做出阻断决定。假如黑名单包括最新的所有的不良网页的网址，这个方法能很快速、很有效地防止用户访问不良网页。这种方法可以方便地适用于多种语言的网页。通常情况下，需要手动编辑黑名单列表。然而，随着每天新网页数量的爆炸式增长，时时更新和维护黑名单列表变得异常困难，而且代价昂贵。关键词过滤是对用户请求的页面内容进行词法分析。请求访问的网页中的文本内容被逐字地与事先编辑好的一连串关键词相比较。如果匹配的数量超过预定的阈值，对这个网页的请求将被阻断。这个方法概念上很简单，但是因为缺少对词汇出现的上下文的语义理解，会导致过度阻断的问题。例如，“s e x ”这个词可能会出现在一些健康的网页上，或者可能仅仅表示“g e n d e r ”。智能内容分析器采用多种机器学习算法，典型的算法包括神经网络、k 近邻法等。这些方法试图模拟人类的智慧来判断一个页面是否包含垃圾内容。表1 1 给出了上述几种方法的比较1 2 1 。表1 1 主要方法的比较网页色情( 总共4 9 9 )普通( 总共4 9 9 ) 方法系统正确率不正确不正确正确分类正确分类分类分类 u l u 阻断 c y b e rp a t r o l 4 0 69 34 6 63 08 7 6 6 关键词过滤 c y b e rs n o o p 4 6 43 54 0 49 28 7 2 3 i c r t w e b c h a p e r o n e 4 3 96 04 7 02 69 1 3 7 注：i c r t ( i n t e l l i g e n tc o n t e n tr e c o g n i t i o nt e c h n o l o g y ) ：内容智能识别技术。随着信息过滤需求的增长和研究的深入发展，其他领域的许多相关技术被应用到信息过滤中来，并取得了较好的效果。如信息检索中的相关反馈、伪相关反馈以及查询扩展技术，文本检索中的向量空间模型，文本分类和聚类技术，机器学习以及自然 4 一个w e b 文本过滤系统设计与实现第一章引言语言底层的处理技术等，极大地拓展了信息过滤的研究广度和深度，推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1 2 3 当前的网页过滤系统网页内容过滤系统既有基于c l i e n t 的，也有基于s e r v e r 的。一个基于c l i e n t 的系统只能在安装了该过滤系统的计算机上发挥作用。基于s e r v e r 的系统对安装了该系统的本地局域网内的所有机器都发挥作用，它筛选向外的w e b 请求，分析进入的w e b 页面从而决定它们的内容性质，禁止不合适的内容在客户端的w e b 浏览器中显示。国外的网页过滤系统研究比较早，表1 2 列出了目前最为流行的几种系统，并对这些系统采用的主要技术和过滤的特性进行了比较。表1 2 国外流行的网页过滤系统名称位置 p l c s u r l 过内容过滤域试用网址滤分析 c y b e rs i d e r c l i e n ty r e sy e sn o 通用 w w w c y b e r s i t t e r c o m w e b c h a p e r o n e c l i e n ty e sy e sy e s 色情无 s u r f w a t c hc l i e n ty e sy e sn 0通用w w w s u r f c o n t r 0 1 t o m w b b s e n s es e r v e rn 0y e sn o通用w w w w e b s e n s e t o m s m a r t f i l t e rc l i e n tn 0 y e sn 0通用 w w w s m a r f f i l t e r c o m 在表1 2 中列出的所有系统中，只有一个系统明确地过滤色情网站。没有系统只依赖p i c s 作为它的主要过滤理论。所有系统都支持u r l 过滤。只有w e b c h a p e r o n e 运用动态内容分析技术作为它的主要理论，它使用i c r t 技术动态评估每个网页，分析的时间点在网页到达网页浏览器之前。i c i 分析词的数量比率、页长、页的结构以及上下文句子。该系统聚合了属性权值的结果，在这些结论的基础上， w e b c h a p e r o n e 识别网页是否包括色情内容。表1 3 列出了国内目前主流的几款过滤软件。由于国内的政策使得对不良信息的过滤一向比较重视，国内主流的网页过滤系统均采用了内容分析。但是，由于不良信息网站的不断发展以及w e b 相关技术的不断发展，这些过滤软件都存在不同程度的过滤准确率问题【1 1 1 。而且都是客户端的过滤，如果客户不愿意安装此类过滤系统，那 5 第一章引言一个w e b 文本过滤系统设计与实现么就不能有效阻止用户浏览不良网页。表1 3 国内的网页过滤系统名称位置p i c su r l 过滤内容分析过滤域试用网址美萍反黄c l i e n t未知 _ 色情 w w w m p s o f t n e t 软件网警1 1 0 c l i e n t 未知 0 通用、 n v 、 7g e n n e t t o m c n 反黄卫士 c l i e n t 未知 -_ 色情 w w w h r b e c t o m 护花使者 c l i e n t 未知 - 色情 w w w 18 i e t o m 这些系统虽然仍存在许多不足和需要改进完善的地方，但是它们在特定范围内成为快速、有力的工具，从而在一定程度上为人们迅速获取有价值的信息提供了方便。 1 3 主要研究内容为了有效地避免青少年等易感人群接触互联网上的各种不良信息，保护青少年的健康成长，免除全社会和家长对青少年上网的担忧；同时为了提高校园计费网关对公共信息网络服务的综合监管能力，提出了本课题。课题目标是通过研究l i n u x 下实时内容过滤和文本过滤等相关技术，设计并实现了一个基于i p c g 控制网关的w e b 文本信息过滤系统。如何把实时过滤与机器学习算法融合在一起，处理好实时与高效的关系，并成功应用到计费网关是本课题需要解决的重要问题。解决计费网关上w e b 文本信息过滤系统的实时性与准确性之间的矛盾是本课题要解决的关键问题。文中对系统涉及的各主要模块中常用的技术和处理策略进行详尽的阐述，期间主要做了以下工作： ( 1 ) 给出了本文过滤系统的总体架构，并设计了一个面向互联网的分层、分级、分策略的分布式信息过滤原型系统。分布式模型借鉴o s p f 路由协议的洪泛法、数据库同步算法等，实现过滤信息数据库的同步。 ( 2 ) 对l i n u x 系统的n e t f i l t e r i p t a b l e s 框架做了深入研究，利用其提供的五个钩子点，实现了特定数据包的捕获：对捕获到的数据包进行识别、分类、预处理，为关键词过滤模块提供准确的过滤源，同时剔除不需要过滤的数据包，减少过滤的时间； 6 一个w e b 文本过滤系统设计与实现第一章引言模拟t c p f i p 的“三次握手，实现网页的重定向；实现了基于网址的过滤；实现了数据包基于关键词的内容过滤，过滤同时兼顾实时性和准确性。 ( 3 ) 针对中文网页的特点改进了特征提取算法，综合考虑了词语的网页标签、长度和词语感情色彩等信息。 ( 4 ) 提出了一种新的过滤策略。该策略过滤初期采用s v m ( s u p p o r tv e c t o r m a c h i n e ) 算法，当收集的正例文本数量达到阈值之后，过滤采用基于模板的方法。该策略的好处是有效地克服了搜集过滤训练文档集的难题。 ( 5 ) 改进了自适应过滤中的模板学习和阈值调整方法，提出了动态修正模板调整系数的算法，并引入特征衰减因子。模板自学习之后，从中提取出更适合网关内核使用的过滤关键词，相应地提高实时过滤模块的过滤精度。 1 4 论文组织结构本文共分七章：论文的结构和各个章节的主要内容如下：第一章对本课题从总体上进行了介绍，包括课题的提出、研究现状、意义，并据此引出本文的选题与研究内容。第二章介绍了文本过滤的基础知识。主要包括文本过滤评测指标、自适应信息过滤流程以及过滤模型等。第三章介绍过滤系统的总体框架，提出了一个分布式系统的设计方案。然后进一步介绍了客户端、中央预警中心平台等的设计。第四章讨论了实时过滤模块的实现，阐述了网络数据包的捕获、数据包的预处理，基于网址的过滤以及基于数据包内容的过滤实现。特别是预处理部分，提出了详细的算法设计以及实现方案。最后，给出了该模块的实验结果及分析。第五章讨论了离线过滤模块，详细介绍本文提出的过滤策略。介绍网页特征的选取，把词汇的语义倾向值作为权重计算的一部分；重点阐述了改进的过滤模板自学习、自调整算法。针对该算法的过滤结果提取出更合适的过滤关键词，推送给第四章的实时在线过滤模块使用。第六章给出了实验结果以及分析，包括模块实验和系统总体实验。第七章总结了本文的主要工作，并探讨下一步的研究工作。 7 第二章相关技术一个w e b 文本过滤系统设计与实现 2 1 文本过滤评测指标第二章相关技术过滤除了采用信息检索领域中常用的查全率( r e c a l l ) 和查准率( p r e c i s i o n ) 指标外1 2 】，还采用u t i l i t y 和f 值等来评价。给定一个主题( t o p i c ) 和信息文档，文档可能相关，也可能不相关，过滤系统可能检测出相关文档，也可能检测不出，于是建立如下四分表：表2 1 信息过滤结果分类相关不相关检出r | kn lb 未检出 k | cn 佃这里r + 、1 v 、矿、n 。是指每个主题四种情况的文本数量，a 、b 、c 、d 为每种情况的代价。 ( 1 ) 查准率和查全率查粹p r e c i s o n ，= 然= 赤仁，查全率( m = 器= 羔 ( 2 2 ) 查准率反映了过滤系统找对满足过滤条件的信息的能力，查准率越大，非相关信息返回的越少。查全率反映了过滤系统发现满足过滤条件信息的能力，查全率越高，漏检的信息越少。 ( 2 ) f 值 f 值基于v a nr i j s h e r g e n 1 3 1 的定义，是查准率和查全率的函数。定义为：肚簪等r 亿3 ， 8 。p 其中p 为查准率，r 为查全率，1 3 为控制查准率和查全率权重关系的参数，1 3 在 8 一个w e b 文本过滤系统设计与实现第二章相关技术本文中取值为1 ，无论1 3 取值为何，f 值范围都在【0 ，1 】。 f 值代表查准率和查全率的一种平衡，也是本文过滤系统所采用的评价指标之一o ( 3 ) u t i l i t ) ，检出相关文本和未检出不相关文本都是过滤正确的情况，而未检出相关文档则意味着遗漏，检出不相关意味着错检。针对每种情况，赋予相应的权重，线性u t i l i t y 函数定义如下： u t i l i t y = a r + + b 幸n + + c 牛r 一+ d n 一( 2 4 ) 显然，a ，d o ，b ，c 0 。由于检出相关文本是最重要的，所以a d 。u t i l i t y 值越大，系统的过滤性能越好。但是，对代价参数的设置不同，评价指标就不一样。在t r e c 1 1 信息过滤评测中，将a 设置为2 ，将b 设置为一1 ，c 和d 都设置为o ，即为下式： t 1 1 u = 2 唪r + 一+ ( 2 5 ) 上式即是t l l u 评价指标。将全部主题的u t i l i t y 数值进行平均，就得到全局的 u t i l i t y 数值。 2 2 文本过滤模型文本过滤与文本检索有着极为密切的联系。过滤实质是建立在检索的基础之上，因为它借鉴了许多检索的表示方法和技术。文本检索经常使用的模型主要有布尔模型、概率模型和向量空间模型等。其中成熟的向量空间模型得到广泛的应用。本文主要使用扩展的布尔模型和向量空间模型。 2 2 1 布尔模型布尔模型( b o o l e a nm o d e l ) 是简单的检索模型，是基于特征项严格匹配的模型。首先，建立一个二值变量的集合，这些变量对应于文本的特征项。文本用这些特征变量来表示，如果出现相应的特征项，则特征变量取t r u e ；否则，特征变量取f a l s e 。查询由特征项和逻辑运算符( a n d 、o r 和n o t ) 组成。文本与查询的匹配规则遵循 9 第二章相关技术一个w e b 文本过滤系统设计与实现布尔运算的法则。布尔模型的主要优点是：速度快；易于实现。其缺点是：把布尔模型作为文本的表示很不精确，不能反映特征项对于文本的重要性，缺乏定量的分析；过于严格，缺乏灵活性，更谈不上模糊匹配，往往忽略了满足用户需求的文本。随后出现了扩展的布尔模型，主要是对标引关键词按照词频来赋予权值，通过对检出文档进行排序，以提高检索的性能。 2 2 2 向量空间模型向量空间模型( v e c t o rs p a c em o d e l ，v s m ) 是s a l t o n 等人于上世纪6 0 年代末提出的，并成功地应用于著名的s m a r t ( s y s t e mf o rt h em a n i p u l a t i o na n dr e t r i e v a lo f t e x t ) 系统。在此之后，该模型及其相关的技术，包括项的选择、加权策略，以及采用相关反馈进行查询优化等技术，在文本分类、自动索引、信息检索等许多领域得到了广泛的应用，主要原因是它具备概念简单，应用方便，以及利用空间相似性来逼近语义相似性的特点。目前v s m 已成为最简便高效的文本表示模型之一【1 4 】。由于v s m 的这些特点，在文本过滤领域，v s m 也是被广泛采用的文本表示模型。 ( 1 ) 文档( d o c u m e n t ) 泛指一般的文本或文本中的片断( 段落、句群或句子) ，一般指一篇文章。尽管文档可以是多媒体对象，但在本文的讨论中我们只处理文本对象，并且对文本与文档不加以区分。 ( 2 ) 项( t e r m ) 文档的内容特征常常用它所含有的基本语言单位( 字、词、词组或短语等) 来表示，这些基本的语言单位统称为项，即文档可以用项集表示为d 0 1 ，t 2 ，t n ) ，其中k 是项，1 k n 。 ( 3 ) 项的权重( t e r mw e i g h t ) 对于含有n 个项的文档d ( t l ，t 2 ，t n ) ，项t k 常常被赋予一定的权重w k ，表示它们在文档d 中的重要程度，即d = d ( t l ，w 1 ) ，( t 2 ，w 2 ) ，( t n ，w n ) ) ，简记为d = d ( w l ，w 2 ，w s ) 。此时项t l ( 的权重为w k ，l k n 。 ( 4 ) 向量空间模型( v s m ) 1 0 一个w e b 文本过滤系统设计与实现第二章相关技术给定一个文档d ( w l ，w 2 ，w n ) ，由于k 在文档中既可以重复出现又应该有先后次序的关系，分析起来仍有一定的难度。为了简化分析，可以暂时不考虑t k 在文档中的先后顺序并要求t i 互异( 即没有重复) 。这时可以把( t l ，t 2 ，t n ) 看成一个n 维的坐标系，而( w l ，w 2 ，w n ) 为相应的坐标值，因而d ( w l ，w 2 ，w n ) 被看成是n 维空间中的一个向量。我们称d ( w l ，w 2 ，w n ) 为文档d 的向量表示或向量空间模型。 ( 5 ) 文档相似度文档q = q ( t l , w 1 ) ，( t 2 , w 2 ) ，( t n ，w n ) ) 和文档d = d ( t s , v s ) ，( t 2 , v 2 ) ，( t n 。v n ) ) ，其中 t n 指第n 个特征项，w n 指查询需求中第n 个特征项权重，v n 则指文档中第n 个特征项的权重。求取文档与过滤需求之间的相似度是通过计算文档与过滤向量间的距离，而向量距离一般是通过计算向量间的内积或者夹角余弦来得到的，余弦相似度的计算公式为： w v ， s i m ( q ，d ) = c o s 02 可等育一 ( 2 6 ) 、f 砰木v ? yi = 1 i = l 向量空间模型的优点在于：将文本和查询简化为特征项及其权重集合的向量表示，从而把检索操作变成向量空间上的向量运算，其权重计算可以通过简单的频数统计来完成，通过定量的分析，匹配文本和查询。其缺点在于特征项之间线性无关的假设。在自然语言中，词或短语之间存在着非常紧密地联系，即存在斜交的情况，很难满足正交的假设条件，因此对计算结果的可靠性造成一定的影响。另外，将复杂的语义关系归结成简单的向量结构，也会丢失许多有价值的线索。 2 3 自适应信息过滤早期的信息过滤研究主要针对用户固定的信息需求，将信息流分为与用户兴趣相关和不相关的两种，主要侧重于研究过滤系统中二值分类器( 相关性判定) 的性能。这种系统有两个缺点：一是需要大量的训练数据来训练过滤器；二是需要用户大量参与来提供相关文档的信息。这样的系统很难适应现实的需要，于是随着信息技术和人工智能等理论和技术的发展，研究者们逐渐转向更接近现实、更具智能型的自适应信第二章相关技术一个w e b 文本过滤系统设计与实现息过滤研究。为适应这一发展要求，第六届国际文本检索会议( t i 迮c 6 ) 中专门提出了自适应信息过滤的任务评测1 15 ，并在第七届t r e c 中将信息过滤细分三个子任务，突出自适应过滤的重要性【1 6 】。自适应信息过滤( a d a p t i v ei n f o r m a t i o nf i l t e r i n g ) 系统注重面对用户需求和信息流变化时的系统适应和自学习能力，通过用户的反馈信息，来减少用户的参与。在初始阶段，系统只有主题需求描述文档和少量正例文档，无任何训练数据。系统对文本流中的每篇文档，进行相关性判断。判断为相关的文档被推送给用户，其他文档则直接舍弃。同时通过用户的反馈信息，系统自主地学习并调整过滤策略，使用户需求模板更接近用户真实需求，从而提高系统的过滤性能。 2 3 1 自适应信息过滤特点自适应信息过滤与传统的基于内容的信息过滤相比，更加适用于当前在线实时信息过滤，它有以下特点【1 7 】。 ( 1 ) 只有少量的正例文档，没有训练集。与传统的文本分类和信息过滤相比，在自适应过滤中，为了接近真实的信息需要，只提供需求的描述( 在t r e c 中仅提供主题t o p i c 及其详细描述) ，数据部分只提供两三个正例及测试集，不提供大量的训练数据，这和传统的信息过滤不同。传统的基于内容的信息过滤系统基本上是一个二值分类过程，它需要在大量的训练集上进行过滤器的训练，获取较为准确的需求模板后才在测试集上进行过滤。 ( 2 ) 自适应信息过滤系统中，强调系统的自适应调整和学习能力。自适应信息过滤中除了提供主题信息外，一般很少提供训练数据，但是对于每个过滤文档却提供用户的相关反馈信息。其目的就是使过滤系统从一个性能较低的起点出发，适应需求的变化，充分学习用户的相关反馈信息，不断调整过滤模板和阂值，提高过滤性能。 ( 3 ) 自适应过滤中人机交互具有重要的作用，系统定期学习用户的相关反馈信息，掌握用户的兴趣偏好变化，及时调整过滤模板，使其更加真实地反映用户的需求。 ( 4 ) 与信息检索相比，自适应信息过滤面对两种变化的信息环境，自适应地调整过滤模板和检出阈值，不断地提高其过滤性能。这两种变化的环境是：用户信息需求( 接收方) 与文档流的变化( 发送方) 。 1 2 一个w e b 文本过滤系统设计与实现第二章相关技术 ( 5 ) 与信息检索相比，自适应信息过滤中信息源是动态的，不需要对输出文档进行排序，只是对文档按照过滤决策决定推送还是剔除。 2 3 2 自适应信息过滤系统结构自适应信息过滤最主要的特点是它根据用户反馈信息自主学习和自适应的能力。在过滤过程中系统通过自主学习用户反馈信息，获取更为准确的用户需求信息，自适应地调整需求模板和检出阈值。典型的自适应信息过滤系统结构如图2 1 所示。自适应的中文网页内容过滤模块描述阈值特征提取模块网页洗、转换模块室分词、去停用词及词性选择知识库模块测试文档 r 主特征提取模块相似度计算模块 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 主相似度图2 1 自适应网页内容过滤系统体系结构大致分析一下系统的几个主要部分。首先，系统要通过一定途径来获得用户的兴趣描述，然后经过处理加工( 初始化) 得到用户模板( p r o f i l e ) 。然后，随着动态文档流的到来，过滤决策模块判断当前文档是否和用户模板相关，如果相关，则推送给用户。最后，如果有反馈的情况发生( 即推送出去的文档确实是与用户兴趣相关的或者不是相关的) ，则系统自学习模块根据反馈，自动调整系统用户模板以提高性能。第二章相关技术一个w e b 文本过滤系统设计与实现 2 3 3 自适应信息过滤流程一个自适应信息过滤系统主要的流程如图2 2 所示：图2 2 自适应信息过滤的流程首先，过滤系统根据主题( t o p i c ) 描述和给定的两三个正例，经过预处理，剔除停用词和虚词，选择最能表达文档内容的适量的特征项( t e r m ) ，运用权重函数赋予适当的权值。再经过向量空间矢量化处理和归约，形成初始需求模板( u s ep r o f i l e ) 和初

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）一个web文本过滤系统设计与实现.pdf

文档简介

温馨提示

最新文档

评论