




已阅读5页,还剩48页未读, 继续免费阅读
(计算机软件与理论专业论文)基于数据挖掘的信息过滤系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 互联网i n t e r n e t 的高速发展,已经使其成为覆盖范围最广、规模最大的信息 网络。但是,在网络时代,人们在充分享受信息共享所带来的便利的同时,也不 可避免的受到了“垃圾信息”、“有毒信息”的困扰,如何帮助人们在面对庞大的 数据海洋时能够去其糟粕、取其精华,成为网络研究领域的一个重要问题。 本文所设计的信息过滤系统,主要针对的是网络上的主机所接收到的w e b 数据,主要的研究工作如下: 1 对现有的信息过滤技术进行了探讨分析。 本文首先阐述了信息过滤技术的发展历程以及研究现状,介绍了其中主要的 关键技术。分析了目前各种信息过滤模型所存在的不足,如过滤准确率差、处理 速度慢、灵活性差等。 2 对信息过滤系统的样本库提出了优化方案。 对于一个信息过滤系统,组织一个完整、可靠、准确的信息样本库上其主要 任务之一。因此,本文提出,使用数据挖掘中的聚类分析方法,对样本库进行自 动组织、自动分类,减轻系统管理负担,提高运行效率。 3 对信息过滤系统的文本归类过程进行了优化。 信息过滤的最终目的是确定源信息的性质,以决定是否将其拦截。因此,过 滤系统的另一个核心任务就是对比源信息与信息样本。本文提出,将对比过程划 分为两个阶段,即确定主题阶段和确定性质阶段。收到源信息后,首先采用数据 挖掘中的贝叶斯分类方法确定其主题,然后采用k n n 文本分类方法确定其性质。 通过这种策略,分阶段的处理收到的源信息,提高系统准确性和灵活性。 4 建立基于数据挖掘技术的信息过滤系统框架并进行了设计和实现。 以数据挖掘技术和网络信息处理的相关核心技术为基础,提出一种分层次、 分策略的网络信息过滤系统框架,给出了该框架的结构。 当前,对网络数据的过滤主要是针对w e b 、网络寻呼机等网络应用。因此, 本文设计了一种在传输层和应用层分别进行信息过滤的方案,并采用诸如 w i n s o c k s p i 等相关技术进行了实现。 实验表明,该系统能够根据用户的策略,在指定范围或级别下有效的过滤主 机所接收到的网络信息。在正确性、可靠性以及过滤效率等方面,有着良好的表 现。 关键词:信息过滤数据挖掘w i n s o c k s p i 聚类分析 分类号:t p 3 0 9 l i a b s t r a e t a b s t r a c t i n t e r n e th a sd e v e l o p e dr a p i d l yd u r i n gt h ep a s ty e a r sa n di tb e c o m e st h el a r g e s t i n f o r m a t i o nn e ta r o u n dt h ew o r l d b u tw h e np e o p l es h a r et h ec o n v e n i e n c eb r o u g h tb y i n t e r n e t t h eh a r m f u li n f o r m a t i o na n dd a t ac o m e sa l o n g 诵t ht h eo n e sb e n e f i c i a l s o t h eq u e s t i o nt h a th o ww ec a ng e tt h ep r i m ep a r tf r o mt h ea b u n d a n td a t a b a s ec o m e st o a sa n di t sb e c o m i n go n eo ft h ei m p o r t a n td o m a i ni nt h en e t - t e c hr e s e a r c h t h em a i nt a s ko ft h ei n f o - f i l t e r i n gs y s t e mi st op u r i f yt h ed a t ap a c k e tf r o mt h e w e bs i t e si nt h ei n t e m e t a n dm o s to ft h ew e bs i t e so r g a n i z et h e i rd a t ab yt h e s e m i - s t r u c t u r e dh t m lp a g e s ot h i sa r t i c l ef o c u s e so nt h ea p p r o a c h e st oc h e c kt h ew e b d a t af r o mi n t e r a c t i tc o n t a i n st h ep o i n t sb e l o w : 1 t h ei n t r o d u c t i o nt ot h ec u r r e n tt e c h n i q u eo fi n f o r m a t i o nf i l t e r i n g f i r s t ,i te x p o u n dt h ed e v e l o p m e n to fi n f o r m a t i o nf i l t e r i n ga n dt h ep i v o t a l t e c h n i q u e t h ea r t i c l ea l s ol i s t ss o m ed e f e c t so ft h ec u r r e n ti n f o r m a t i o nf i l t e r i n g s y s t e mi n c l u d e st h eb a dv e r a c i t y ,t h el o wr a t e ,t h eb a da g i l i t ya n ds oo n 2 b r i n g i n gt h en e ws c h e m e f o r w a r d o n eo ft h em o s ti m p o r t a n tt a s ko ft h ei n f o r m a t i o nf i l t e r i n gs y s t e mi st oe s t a b l i s ha c o r r e c t ,r e l i a b l ea n de x a c tw a r e h o u s ew h i c hc o n t a i n st h es a m p l e s t h i sa r t i c l e m a k e sas c h e m ew h i c hl e a dt h es y s t e mt or e n e wi t s e l fa n do r g a n i z et h es a m p l e s a u t o m a t i c a l l y s ot h es y s t e m sw o r k i n gv e l o c i t yg r o w s f a s t e r 3 b e c a u s et h ef i n a lp u r p o s eo ft h ei n f o r m a t i o nf i l t e r i n gs y s t e mi st od e c i d e w h e t h e rt h ed a t ap a c k e ti sg o o do rb a ds ot h a tt oh o l di tu po rn o t t h i sa r t i c l eb r i n g s o u tas c h e m et od ot h i s i t sd e t a c h e di n t ot w op a r t si n c l u d e sa s c e r t a i n i n gi t st o p i ca n d q u a l i t y t oc o m p l e t et h ef i r s to n e ,w eu s eb a y e st e c h n i q u e ;t oa c c o m p l i s ht h es e c o n d o n e ,w eu s ek n nm o d e l 4 e s t a b l i n gt h ef r a m e w o r ko ft h ei n f o r m a t i o ns y s t e mb a s e do nd a t am i n i n g b a s e do nd a t am i n i n ga n dt h et e c h n i q u eo fd e a l i n gw i t ht h ed a t ap a c k e tf r o m i n t e r n e t ,t h ea r t i c l ed e s i g n e daf r a m e w o r ko ft h ei n f o r m a t i o ns y s t e mw h i c hc o n t a i n sa h i b e r a r c h ya n d m u l t is t r a t e g y t h i sa r t i c l ec a r r i e so u tad e s i g nt oi m p l e m e n tt h ef r a m e w o r ka b o v et h r o u g hs o m e t e c h n i q u ea c c o r d i n gt ot h et r a n s m i t t i n gl a y e ra n da p p u c a f i o nl a y e r t h ee x p e r i m e n t ss h o wu st h a tt h es y s t e mi sc a p a b l eo ff i l t e r i n gt h ed a t ap a c k e t w h i c hh a sb e e nr e c e i v e db yt h eh o s tm a c h i n e i tc a nc o m p l e t et h et a s kc o r r e c t l ya n d n i a b s 虹a c t r e l i a b l y k e yw o r d s :i n f o r m a t i o nf i l t e r i n g ,d a t am i n i n g ,w i n s o c k s p i ,c l u s t e r i n ga n a l y s i s 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得( 注:如 没有其他需要特别声明的,本栏可空) 或其他教育机构的学位或证书使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明 并表示谢意。 学位论文作者签名:粟室氆 导师签字: 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权堂撞可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在 解密后适用本授权书) 学位论文作者签名: 泉多毛 签字日期:2 口b 睦r 月2 f 日= 憋 山东师范大学硕士学位论文 第一章绪论 本章首先介绍了信息过滤的研究背景;对信息过滤的发展和现状进行了阐述;最后简 要列出了论文的整体结构。 1 1 研究背景 随着i n t e m e t 的发展和应用,越来越多的商务、日常活动通过i n t e m e t 进行,网络跟人 们的生活越来越紧密。然而网络是双面的,人们在享受网络所带来的便利的同时,不可避 免地接触到大量的不良信息,如色情、暴力、反动、邪教、赌博、病毒等,部分成人尤其 是自制力不强的青少年学生沉迷在网上游戏、娱乐、色情世界里而不能自拔。因而如何管 理网络用户尤其是青少年学生对i n t e r n e t 访问,而又不影响用户对网络的正常访问,越来 越引起人们的关注。 为了过滤网络信息,使网络用户尤其是青少年学生远离非友善信息的侵扰,使得网络 环境更加纯净、美好,网络信息过滤技术已经成为当前研究的热点。目前,已有一些比较 不错的网络信息过滤系统,但是这些产品并不十分成熟,存在着由于信息过滤导致网络速 度减慢而成为网络瓶颈、对非友善信息过滤的不彻底以及对友善信息的误判等缺点和不 足。 因此,本系统主要针对目前网络过滤系统中存在的问题,利用数据挖掘、模糊模式识 别、语义规则等技术,实现一种高效、精确的网络过滤系统。 1 2 信息过滤系统的研究现状与发展趋势 1 2 1 信息过滤系统的研究现状 1 9 5 8 年,h h n 提出了“商业智能机器”的设想,在这个概念框架中,图书馆工作人员 根据每个用户的不同需求,建立相应的查询模型,然后通过精确匹配的文本选择方法,为 每个用户产生一个符合其查询需求的新文本清单。同时记录用户所订阅的文本以用来更新 用户的查询模型。它的工作涉及到了信息过滤的每个方面,为文本过滤的发展奠定了有力 的基础。 1 9 6 9 年,人们对s d i ( s e l e c t i v ed i s s e m i n a t i o no fi n f o r m a t i o n ) 选择性信息发布系统引 起了广泛兴趣。当时大多数系统都遵循l u h n 模型,只有很少的系统能够自动更新用户查 询模型,其它大多数依然依靠职业的技术人员或者由用户自己维护。 1 9 8 2 年,d e n n i n g 提出了“信息过滤”的概念。他描述了一个信息过滤的需求例子, 对于实时的电子邮件,利用过滤机制,识别出紧急的邮件和一般例行邮件。之后m a l o n e 事 坐蔓塑圣奎兰堡兰兰堡垒塞 等人发表了较有影响的论文,并且研制了系统“i n f o r m a t i o nl e n s ”,提出了三种信息选择模 式,即认知、经济、社会。所谓的认知模式即基于内容的过滤( c o n t e n t b a s e df i l t e r i n g ) : 经济模式来自于d e n n i n g 的“阈值接收”思想;其中社会模式是他最重要的贡献,在社会 过滤系统中,文本的表示是基于以前读者对文本的标注,通过交换信息,自动识别具有共 同兴趣的团体。 1 9 8 9 年,在这个时期信息过滤获得了大规模的政府赞助。由美国d a r p a 资助的 “m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ”,极大的推动了信息过滤的发展。在将自然语言处理 技术引入文本过滤研究方面进行了积极的探索,1 9 9 0 年,d a r p a 建立了t i p s t e r 计划, 目的在于利用统计技术进行消息预选,然后再应用复杂的自然语言处理技术。 1 9 9 2 年,n i s t ( 美国国家标准和技术研究所) 与d a r p a 联合赞助了每年一次的t r e c ( t e x tr e t r i e v a lc o n f e r e n c e 文本检索会议) ,对于文本检索和文本过滤倾注了极大的热情。 t r e c 在最近的几次会议中,着重于文本过滤的理论和技术研究以及和系统测试评价方面, 对文本过滤的形成和发展提供了强有力的支持。 信息过滤可分为文档内容过滤和合作过滤两个方面。按内容过滤是按照信息内容的特 性作出选择,需要研究文档的表示,涉及到自然语言理解领域,一般采用基于关键词的方 法,将进入信息流和用户模型( u s e rp r o f i l e ) 或非法文档模板进行匹配计算,利用一些基 于规则的智能a g e n t 来观察用户的使用风格、检测信息的内容特征、判定其是否是用户感 兴趣的,并向用户提出建议,这种方法比较适合于文本信息过滤。合作过滤又称为社会过 滤,在合作过滤中,一个文档的表示基于前面用户的评注,通过这些评注或者用户对信息的 访问,识别兴趣类似的团体,可根据其它合作用户对信息的访问判断特定用户对特定信息 是否感兴趣。合作过滤的好处在于不需要考察文章的内容,并且可以兼顾用户的偏好与信 息的质量因素【刈。 1 2 2 信息过滤系统的发展趋势 目前,国内有关信息过滤的研究以核心算法为主,主要集中在特征抽取、学习算法和 过滤算法上。特征抽取的目的在于使用最少的特征表示出文档的含义,而概念学习的目的 在于使用最少的学习文档获取最好的用户模型。用户模型是一个数据结构,通常包括一组主 题,用以描述用户感兴趣的主题,在本文中主要描述非法文档的特点。算法研究主要有两个 趋势:第一个趋势是传统的关键词匹配方法逐渐地被较为复杂地自然语言处理技术所取 代,词语字典、语法知识、语义知识被用到信息过滤中。第二个趋势是用户模型的手动输 入逐渐的被自动的机器学习所取代,这种研究模式来源于对信息过滤中用户行为特征和文 档内容特征的观察:通常用户会在上网过程中表现出哪些信息是自己想取得的,哪些是要 摒弃的,但是自己却不能描述需要信息的特点。而机器学习能够记录用户的行为特征和反 馈信息,通过各种机器学习构建用户兴趣模型、调整用户兴趣模型,很好的反映用户兴趣。 2 山东师范大学硕士学位论文 1 3 本文的主要内容及工作 本文是从过滤网络不良信息的实用角度,运用网络信息的捕获、处理技术以及数据挖 掘的相关知识,进行系统的总体设计以及关键模块的实现,对系统中涉及的各个主要模块 的常用技术以及处理策略进行了阐述。 论文结构安排如下: 第一章,首先介绍了论文研究的背景,当前的研究现状,常用的信息过滤软件及其存 在的问题,最后给出了论文的整体结构安排。 第二章,对主要模块中涉及的关键技术进行了简要说明,使读者对系统的实现流程有 了清晰的认识。 第三章,介绍数据挖掘的相关知识,以及如何将其应用到过滤策略当中。 第四章,介绍了一种基于文本分类和聚类机制的网络信息过滤模型:然后阐述了信息 过滤系统的设计思想和过滤策略:最后对该模型进行了设计实现,并对其中的关键技术环 节进行了介绍。 第五章,总结了全文,并提出了下一步的研究工作。 山东师范大学硕士学位论文 第二章信息过滤技术 本章首先介绍了信息过滤的系统目标;然后阐述了信息过滤技术的研究现状;最后分 别针对实际应用,介绍了信息过滤中的关键技术,并提出了当中存在的问题。 2 1 信息过滤系统概述 信息过滤系统是位于网络中主机上的软件系统,其目的是是保证进入本地系统的数据 的正确、可靠,符合本地用户的个性标准,即正确性、可靠性、灵活性。 正确性:确保输入数据流的正确,与自定义主题的一致; 可靠性:保证判断输入数据流是否合法的过程的稳定; 灵活性:随着用户的过滤策略的调整,系统能进行自适应过滤。 2 1 1 信息过滤中的核心技术 当前信息过滤的研究是以t r e c 会议为核心的,主要是对文本信息进行过滤,其定义如 下:给定一个主题描述( 即用户需求) ,建立一个能从文本流中自动选择最相关文本的过 滤模板( f i l t e r i n gp r o f i l e ) 。随着文本流的逐渐进入,过滤系统自动地接受或拒绝文本, 并得到反馈信息( 由t r e c 的组织评估单位提供) ,根据反馈信息自适应地修正过滤模板。 由三个子任务组成: ( 1 ) 分流( r o u t i n g ) :用户的检索需求固定,提供对应于该检索需求的训练文档集中 的相关文档,从检索需求构造查询语句来查询测试文档集。这是一个较为次要的任务,引 入它的目的是为了和过去的文本检索会议兼容。 ( 2 ) 批过滤( b a t c hf i l t e r i n g ) :用户需求固定,提供对应于该用户需求较大数量的 相关文档作为训练数据,构造过滤系统,对测试文档集中的全部文本逐一作出接受或拒绝 的决策。 ( 3 ) 自适应过滤( a d a p t i v ef i l t e r i n g ) :它要求仅仅从主题描述出发,不提供或只 提供很少的训练文档,对输入文本流中的文本逐- - n 断。对“接受”的文本,能得到用户 的反馈信息,用以自适应地修正过滤模板。而被“拒绝”的文本是不提供反馈信息的。这 是最接近真实环境也是最困难的子任务。 信息过滤中的另一个研究焦点是核心算法的设计,主要是特征抽取算法、学习算法和 过滤算法。 4 山东师范大学硕士学位论文 2 1 2 信息过滤中存在的问题 由于多数非友善信息来源于i n t e m e t ,现有的解决方法大多是针对i n t e r n e t 进行限制, 主要可以分为三类:断开物理连接、地址库m r l ) 过滤和基于关键字的页面内容过滤。 ( 1 ) 断开物理连接 断开物理连接的做法很直接,就是在局域网( 尤其是校园网) 里单独设置一个区域给 用户们用来上网,但是实际上这个区域和互联网是断开的,用户们虽然可以用浏览器浏览 互联网,但是可以浏览的资源有限,而且更新的速度也慢,多半是过期的网页。这是因为 局域网使用了虚拟互联网软件,用户使用浏览器浏览网页的时候实际上是在浏览本地服务 器,并没有直接访问互联网。这样做虽然可以起到一定的作用,但同时也废黜了互联网最 大的特点实时性,而且可浏览的范围太小。因为要经常从互联网下载网页,网络管理 员的工作量增加,大大降低了局域网的实用性。 ( 2 ) 地址库( u r l ) 过滤 地址库( u r l ) 过滤则是在局域网连接互联网接口的网关处设置监视软件,该软件会 检查每个h r r p 请求,把每个请求与记录被禁止访问的网站地址库进行比较,如果该请求 是非法的,则拒绝用户的请求,否则允许用户的请求。其过滤流程如下图所示: 图2 - 1 传统的u r l 过滤流程 由于对于用户所请求的每一个u r l 地址,都需要跟u r l 地址库中的数据进行比较, 这很可能会造成瓶颈问题,所以这种传统的u r l 过滤技术的信息过滤方式会大大降低网 络的速度。 ( 3 ) 基于关键字的页面内容过滤 页面过滤技术也是在局域网连接互联网接口的网关处设置软、硬件设施,大多采用提 取关键字( k e y w o r d ) 的方法来过滤非友善对象。其思想是在文档中搜索敏感关键字串并 计数,如果在一个w e b 页中关键字串出现次数达到一定门限,就认定此文件为非友善文件 5 山东师范大学硕士学位论文 ( 我们称为反例文件) ,并滤掉该文件。 这种页面过滤技术的缺点在于: ( a ) 易被伪装技术突破( 漏判) 。例如,从事非法事件宣传的站点可能会把w 曲文件中 比较敏感的字用同义异形字符串代替,从而可以表达原意但逃避检查。 ( b ) 有可能对批判非友善对象的文件实施过滤( 错判) ,因为对非友善对象持批判态度的 文件中必然会有这些非友善对象的相关字串,而传统的方法会在搜索出这些关键字后滤掉 这些文章。比如:这类过滤形式可以设置对关键词比如说m 陛”等的禁止,当软件发现含 有关键词的访问请求时,会自动切断访问,但对于打包的邮件无能为力;而且,这种过滤 往往矫枉过正,比如说软件发现“正确性”一词中含有“性”,也不分青红皂白一律关闭。 传统的预防方法在文件中搜索到期待关键字后,便会封掉该文件的发站( 口地址) ,这 更使得上述( a ) 、( b ) 类错误增多。并且由于需要在入口处对内容进行检查,容易造成瓶颈。 2 2 网络信息过滤的关键技术 2 2 1 基于s p i 技术的传输层过滤 在微软的w i n d o w s 2 0 0 0 操作系统的w i n s o c k 2 中增加了对更多传输协议的支持。 w i n s o c k 2 不仅提供了一个供应用程序访问网络服务的w i n d o w ss o c k e t 应用程序编程接口 ( a p i ) ,还包含了由传输服务提供者和名字解析服务提供者实现的w i n s o c k 服务提供者接 口( s p i ) 。w i n s o c k2 的传输服务提供者是以动态链接库的形式( d l l ) 存在的,它是通过 w s p s t a r t u p 函数为上层函数提供接口,而其他的传输服务提供者函数则是通过分配表的方 式来访问w s 2 3 2 d l l 。传输服务提供者的动态链接库只有在应用程序需要时才由 w s 2 3 2 d 1 1 来装入内存中,在不需要时则会被自动卸载。 w i n d o w ss o c k e ts p i 在服务提供者中使用了以下的函数前缀命名方式:w s p ( w i n d o w s s o c k e t 服务提供者) ,w p u ( w i n d o w ss o c k e t 提供者向上调用) ,w s c ( w i n d o w ss o c k e t 配 置) 。每一个传输服务提供者都有它自己所支持的传输协议,它是使用w s a p r o t c o l _ i n f o w 结构来实现的。传输服务提供者把所有的相关信息都存放在这个结构中,而应用程序就是 通过这个结构的内容来将自己和相应的传输服务提供者相关联。 w s 2 - 3 2 d ll 数据传输部分的主要功能是在服务提供者和应用程序之问提供流量管理。 每个应用程序通过w s 23 2 d l l 和相应的服务提供者进行严格的数据交换。w s 2 3 2 d l l 根 据应用程序在创建套接字时所提供的参数来选择特定的服务提供者,然后把应用程序的实 现过程转发由所选创建套接字的服务提供者来管理。也就是说,w s 23 2 d 1 1 只是一个中问 过程,而应用程序只是一个接口,数据通信的实现却是由服务提供者来完成的。我们说过, 6 坐奎堑薹盔堂堡三! j = 堂垡堡苎 w s 23 2 d l l 是通过创建套接字的a p i 函数w s a s o c k e t 或s o c k e t 的参数来确定使用哪一个 服务提供者。而w s a s o c k e t s o c k e t 的参数中包括了地址族,套接字类型和协议类型,这 三个因素共同决定了创建套接字的服务提供者。w s 2 - 3 2 d l l 在服务提供者中寻找第一个和 前面三因素相匹配的w s a p r o t o c o l _ i n f o w 结构,然后就调用这个w s a p r o t o c o l i n f o w 结构 相应的w s p s t a r t u p 函数( 所有的数据传输服务提供者以d l l 的形式,它们对外的接口就 只有w s p s t a r t u p ,其他的服务提供者函数都是通过w s p s t a r t u p 来调用的) ,进而调用如 w s p s o c k e t 的函数来创建套接字,w s p c o n n e c t 的函数来建立连接等等。除了流量管理功能 外,w s 2 3 2 d l l 还提供了其他的服务,比如协议枚举,基于线程的阻塞钩子管理和在 w s 23 2 d 1 1 和服务提供者之间进行版本协商。 传输服务提供者实现的功能包括建立连接,传输数据,实现流控制和差错控制等函数。 其实w s 2 - 3 2 d l l 并不知道服务提供者的请求等活动是如何实现的,w s 2 3 2 d l l 在应用程 序和服务提供者之间实现了媒介的功能。传输服务提供者可分为两类:套接字描述符是可 安装的文件系统( i f s ) 句柄的提供者;剩下的是非i f s 的提供者。在我们的程序中选用 了非i f s 提供者。可见,服务提供者实现了底层的与网络相关的协议。w s 2 3 2 d l l 提供了 介质级别的流量管理,应用程序则提供了有关如何实现网络相关的操作,它实现了用户所 希望的功能。 w s 2 3 2 d l l 是使用标准的动态链接库来加载服务提供者接口的d l l 到系统中去的,并 调用w s p s t a r t u p 来初始化。w s p s t a r t u p 是w i n d o w ss o c k e t2 应用程序调用s p i 程序的初 始化函数,也就是入口函数。w s p s t a r t u p 的参数l p w s a p r o t o c o li n f o w 指针提供应用程序 所期望的协议信息,然后通过这个结构指针我们可以获得所保存的系统服务提供者的d l l 名称和路径,加载系统服务提供者后查找到系统s p i 程序的w s p s t a r t u p 函数的指针,通 过这个指针我们就可以将自己服务提供者的w s p s t a r t u p 函数和系统s p i 程序的 w s p s t a r t u p 函数相关联,进而调用系统的各个服务提供者函数。 使用s p i 技术,我们可以根据主机地址来进行网络请求的过滤,直接将非法主机与本 地系统隔离,达到根本过滤的目的。如,在w w w m y s i t e t o m 主机上发现了大量非法信息, 则将其并入黑名单,所有该主机上的u r l 资源均无法访问。 2 2 2 基于应用层的内容过滤 。对于每一个网络资源,都有对应的u r l 地址与之相一致。若主机企图获取网络上的某 个资源,则首先必须根据地址发出请求。若地址中的主机为合法,则须检查该资源的内容, 来确定是否过滤。例如,h t t p 协议是应用层常用协议之一,主要用来处理w e b 访问,我们 可以通过微软w i n d o w s 2 0 0 0 系列操作系统提供的l h t m l d o c u m e n t 接口来监视浏览器的工作 状态,从而达到获取、过滤以及修改非法的w e b 内容的目的。 7 山东师范大学硕士学位论文 2 3 文本信息处理技术 2 3 1 文本表示模型 信息过滤的主要工作是比较当前待过滤信息与非法信息之间的差距,为此,需要能够 有效地表示信息空间,一般采用模型化的方法表示信息空间。目前常用的文本表示模型有 布尔逻辑模型、向量空间模型、概率模型、潜在语义索引模型等。 2 。3 1 1 布尔逻辑模型 布尔逻辑模型( b o o l e a nl o g i c a lm o d e l ) 也称为完全匹配模型,是一种相对简单的信息过 滤模型。在过滤时,它以文档中是否包含关键词来作为取舍的标准。利用布尔逻辑模型进 行信息过滤,就是给定一系列的具有二值逻辑的特征变量。这些变量是从文档中抽取出来 的,用来描述文档的特征。比如:关键字或索引词等,有时也可以是时间、作者的姓名等 个性信息。通过布尔操作符把表示文档信息的特征变量构成布尔表达式,此即为一查询。 当在一个查询中,两个查询关键词之间用布尔操作符a n d ( 与) 相关联,则表示对于这两 个关键词,应该都包含在非友善文档中。如果两个查询关键词之间用布尔操作符o r ( 或) 相关联,则表示对于这两个关键词,其中有一个包含在查询文档中即可。 基于布尔逻辑模型的信息过滤技术特点是实现容易、用户操作方便、易接受,而且查 全率比较好。但布尔模型的结果非真即假,限制性过强。从直观上说,如果一查询有n 个 词,而用户请求的文档中出现了其中的- 1 个词,通常我们可认为该文档比较符合查询的 条件,是非友善文档,应被滤掉,但是基于布尔逻辑模型的信息过滤技术却判定该文档是 友善文档,因而会导致漏判。 、 鉴于传统的布尔逻辑模型存在这些不足,g e r a r ds a l t o n 给出了扩展的布尔模型信息过 滤系统,或称为p 标准( p n o r m a l ) 模型。这个布尔模型信息过滤系统是介于布尔查询和 向量处理模型之间。它的查询构架还是以布尔模型为基础,只是同时增加了关键词相对于 查询或文档的重要程度,也称为权重。在该模型中,文档d ( 被表示为d = ( d l ,d 2 ,d 1 1 ) ) 与查询q ( 被表示为文档向量中特征的与关系和或关系) 之间的相似度,如公式( 1 ) 和公 式( 2 ) 所示,其中参数p 的最佳值通常由经验确定,一般在2 到5 之间。 8 。, n ( o ,) :1 一【坠型型芝生必 n 。i m ( o ,线) :【丛生型 】p p 蜘) ! 】9 ,p 艮+ m ) 公式2 - 1 山东师范大学硕士学位论文 2 。3 1 2 向量空间模型 向量空间模型( v e c t o rs p a c em o d e l ) 是由s a l t o n 提出的关于文本表示的模型,使用由 词语构成的向量表示文档信息与过滤信息,并在c o m e l l 研究出基于向量空间的s m a r t 实 验系统。该模型已被人们普遍认为是一种非常有效的信息过滤模型,它以特征项作为文本 表示的基本单位,特征项可以由字、词或短语组成。所有的特征项构成特征项集。一篇文 献可以表示为一个向量,即可被定义成一系列子项的组合,该向量的维数是特征项集的个 数,并且根据统计结果,该向量的每个分量都被赋予一个权值以表明它对于这篇文献的重 要性。具体定义如下所示: ( 1 ) 假设文档集d = t a j j ,l d l = s ( i d i 表示集合d 中元素的个数) ,特征项集t = 幸j ,剐;肘。 定义特征项,在文档喀中的权重0 为: = 一一倒公船, 其中,如为特征项f 在文档4 中出现的频率,称为项频:吼是文档集d 中出现特征 项的文档的数量,称为文档频率。直观地说,如果特征项在文档吨中的作用较大,必 然有较高的频项和相对较低的文档频率,故其权重也较大。 在此基础上,建立文档的向量空间模型,以t ,t :,o 为坐标轴,把文档d l 表示 为m 维向量( w i - ,一z ,”k ) 。 ( 2 )对于两个m 维向量反:( w f - ,z ,k ) 和d ,:( w ,1 , w 弘,w ) ,它们对应分 量的乘积之和称之为这两个向量的内积。记作: ( 吐d j ) = m 1 m 1 + 2 u 2 + 啊2 k # i j ( 3 ) 向量自身内积开方就得到该向量的模。记作l 口i ( 4 ) 在m 维欧氏空间中两个向量d i - - _ ( m - ,w i z ,) 和d j :( w ,1 , w :,w ) 的夹角余 弦为: 孓 c o s 口:龠;黑公船4 i d ;1 i d ,i 一 9 山东师范大学硕士学位论文 其中 口是向量d l 和d ,之问的夹角,1 i m ,1 j m 那么,文档d r 和d j 之间的相似程度s i m ( 正,d ) 可以表示为: q i ,d ,) s i m ( 吨,d i ) :c o s o :丽 公式2 5 向量d r 和d ,之问的夹角口的余弦值越大表明它们的相近度也就越大,反之则越小。 向量空间模型具有自然语言界面,易于使用。该文本表示模型的缺点是:假设所有检 索词在向量空间中是正交的,即检索词是相互独立的,但现实情况往往并不是这样。 2 3 1 3 概率推理模型 在向量空间模型中,假设文档向量空间的基是相互正交的,没有考虑检索词间的相 互关系。并且控制向量操作的参数,如文档相似系数,并没有在模型中规定,具有一定 任意性。概率模型包括了检索词间的依赖关系以及主要参数,如检索词权重计算,查询 与文档相似性计算,由模型自身决定。r o b e r t s o n 提出了基于检索词和文档相关关系的 概率检索模型,概率方法基于两个主要的参数,文档的相关概率p r ( r e l ) 和不相关概率 p r ( n o n r e l ) ,以及两个费用系数a ,和a :。a ,表示由于检索不相关的文档造成的损失,易表 示错过检索相关文档所造成的损失。因为检索不相关的文档产生的损失为 a 。l l p r ( n o n r e l ) 】,错过相关文档所造成的损失为a 2 * 【1 一p r ( r e l ) 】,因此应该检索的文 档应符合下式: 检索相关函数可定义为: a 2 + p r ( r e l ) s 口1 4p r ( n o n r e l ) 公式2 6 。;! ! 尘尘一生 6 l p r ( r e t ) n : 公式2 7 检索结果为相关函数g 值大于0 的文档记录。g 值无法计算出来,文档的相关特性与其 中包含的检索词相关。使用贝叶斯定理,并假设口1 = 口2 ,可得到 1 0 l 咖丽p r ( x r e l ) + l o g 器 其中n ( r e l ) 和p r ( n o r e d 为相关及不相关的先验概率,用p r ( x i l r e l ) , 及p r ( x i l n o n r e l ) 山东师范大学硕士学位论文 表示。对于信息过滤来讲,由于具有学习过程,p r “f ,e d 和p r h 册”,) 可以通过学习获 得。 2 3 1 4 潜在语义索引模型 潜在语义索引模型( l a t e n ts e m a n t i ci n d e x i n g ,l s i ) 已被广泛地应用到信息过滤领 域中,它是利用字项与文档对象之间的内在关系形成信息的语义结构。这种语义结构反映 了数据间最主要的联系模式,忽略了个体文档对词的不同的使用风格。这是挖掘文档的潜 在的语义内容,而不仅仅是使用关键字的匹配,是对字项文档矩阵使用奇异值分解 ( s i n g u l a r v a l u ed e c o m p o s i t i o n ,s v d ) 方法来实现的,把小的奇异值去掉。其原理如 下:给定一个字项文档矩阵x ,j 有r ( 表示文档集中关键字项的个数) 行c ( 文档集中 文档的数量) 列。对盖进行奇异值分解得: z = r o s o d 0 7 公式2 9 式中瓦是r m 矩阵,称其标准正交列为左奇异向量;s o 是m m 的对角阵,s o 中的正奇 异值是以递减的顺序排列的;d 0 是m c 矩阵,d o 的标准正交列可称为右奇异向量;m 是矩阵5 的秩,下图对x 的s v d 作了描述。 图2 - 2 x 的奇异值分解 对矩阵t o ,s 0 和d 0 的处理是x 矩阵被重构。l s i 技术的关键在于只取矩阵& 的t 个奇异值,其 它值置零。值k 是一个设置参数,一般情况下经常设置在1 0 0 2 0 0 之间。原始矩阵x 可近似表示为 x = t s d 7 ,其中t 是具有标准正交列的r x 尼矩阵,s 是一个t 后的对角阵,d 也是具有标准正 交列的c x k 矩阵。图2 对x ,的s v d 作了描述。 山东师范大学硕士学位论文 图2 - 2x 的奇异值分解 无论是在l s i 还是在关键字向量匹配方法中,文档都是以多维向量来表示的。关键字 向量中的值表示字在文档中出现的频率,l s i 向量中的值是通过s v d 分解得到的缩减了的 值,内容相近文档的向量也是相近的,这就是信息过滤中的本质所在。 2 3 2 文本特征的提取 在将网络信息的文本表示为数据模型后,还需要从这些文本中选择其特征,以便进行 判断比较。这些特征的选择是非常重要的,它直接影响到信息过滤器的设计及性能。 由于文本内容与文本中出现的词关系十分密切,所以文本中出现的词汇及其词频能较 好地反映出文本类别的归属问题。目前,常见的分词方法大致有三种: 1 基于字典的字符串匹配方法 这种方法又称机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大 的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功( 识别出一个 词) 。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长 度优先匹配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配;按照是否与词性标 注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 2 基于统计的分词 这种方法首先切分出与词表匹配的所有可能的词,然后运用统计语言模型和决策算法 决定最优的切分结果。这种方法的优点是可以发现所有的切分歧义,但是解决歧义的方法 很大程度上取决于统计语言模型的精度和决策算法。该方法需要大量的标注语料,并且分 词速度也因搜索空间的增大而有所缓慢。 3 基于句法与自然语言理解的方法 通常情况下,这些方法往往将基于字典的串匹配作为一种初步切分。当发现歧义后, 再运用句法信息、语义信息或是几种方法结合来判别正确的切分。它通常包括三个部分: 分词子系统、句法语义予系统、总控部分。在总控部分的协调下,分词子系统可以获得有 关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。 1 2 山东师范大学硕士学位论文 这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统性、复杂性,难 以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还未成 熟。 2 3 3 k n n 分类算法 文本分类是指按照预先定义的某个主题,将目标文档划分到某个类别的文档集合中, 即文本信息的定性。这样,用户可以根据需要选择需要的文档,或者过滤掉非法的、无用 的文档。利用文本分类技术可阻对大量文档进行快速、有效地自动分类。 文本自动分类的一个关键问题是如何构造分类函数( 分类器) ,并利用此分类函数将待 分类文本划分到相应的类别空间中( 训练方法和分类算法是分类系统的核心) ,目前存在 多种基于向量空间模型的训练算法和分类算法,例如:支持向量机算法,神经网络方法, 最大平均值方法,最近k 邻居方法和贝叶斯方法等,本文将采用k n n 分类算法对文本知识进 行类别学习。 ( 1 ) k n n 的概念 k n n ( k n e a r e s tn e i g h b o r ) ,代表k 个最近邻分类法,通过k 个最与之相近的历史记 录的组合来辨别新的记录,k n n 是一个众所周知的统计方法,在过去的4 0 年里在模式识别 中集中地被研
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《小学教师招聘》能力检测试卷附答案详解【培优】
- 教师招聘之《小学教师招聘》考前冲刺练习题库提供答案解析及完整答案详解【夺冠系列】
- 模块化电池包壳体设计创新创业项目商业计划书
- 汽车游戏中的汽车资讯站创新创业项目商业计划书
- 2025内蒙古呼伦贝尔农垦集团有限公司社会招聘笔试模拟附答案详解(模拟题)
- 2025年教师招聘之《幼儿教师招聘》模拟考试试卷附参考答案详解(a卷)
- 2025年呼伦贝尔莫力达瓦达斡尔族自治旗内蒙古大学校园引才笔试备考(含答案详解)
- 2025年教师招聘之《小学教师招聘》考前冲刺模拟题库及参考答案详解(能力提升)
- 2025内蒙古呼伦贝尔农垦牙克石莫拐免渡河农牧场有限公司招录人才39名笔试及答案详解参考
- 教师招聘之《小学教师招聘》过关检测试卷带答案详解(新)
- 2025年秋人教版(2024)初中数学八年级第一学期教学计划及教学进度表
- 纺织企业安全生产知识培训
- 小区物业合伙管理协议书
- 2025年全国小学生“学宪法、讲宪法”活动知识竞赛题库及答案
- 小学心理健康教育四级预警汇报流程
- 软件行业基础知识培训课件
- 教案2025秋形势与政策纪念抗战胜利坚定民族信念抗战胜利80周年
- 卷烟零售户培训课件
- 2025年学法减分试题及答案
- 《智能建造概论》高职完整全套教学课件
- 2025年中小学教师师德师风考试题库及答案
评论
0/150
提交评论