(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf_第5页
已阅读5页,还剩56页未读 继续免费阅读

(计算机软件与理论专业论文)基于退火遗传算法的自适应网络信息过滤系统研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东师范大学硕士学位论文 摘要 信息过滤是一种系统化方法,他能够自动的将网络上的动态信息流与用户需求进行匹 配,从信息流中抽取出符合用户个性化需求的信息并送给用户。当前信息过滤技术主要研 究网络信息的获取和表示、用户模板的构建和更新、待处理文档同用户模板的相似度计算 等问题。 由于遗传算法应用于机器学习以及组合优化中有其他方法无法比拟的优点,因此本文 从信息过滤准确率和速度两个主要指标为出发点,应用遗传算法构建了信息过滤用户兴趣 模板,并针对模型构建过程中遗传算法早熟的缺点、匹配过程中整体匹配效率较低以及训 练过程中用户兴趣模板和文档库的更新问题提出了一系列的改进措施,最终实现了基于上 述改进方案的网络信息过滤系统。本文主要工作包括: 1 、深入研究了网络信息过滤关键技术及相关过滤模型 探讨了信息过滤的一般模型及其相关算法,分析了现有的信息过滤模型中存在的问 题,重点研究了网络信息过滤中的网络数据的获取和表示、特征权值的计算方法、文本信 息的表示、分类算法以及匹配和反馈技术等。 2 、将遗传算法应用到信息过滤中生成过滤模板 经过对传统文本分类技术的比较和研究,并且对于遗传算法优点及应用进行了充分分 析,提出了基于遗传算法的文本分类及信息过滤模板构建方法,即文中所说的遗传训练。 在遗传训练中,应用符号编码和二进制编码相结合的方法解决了向量文本的处理问 题,通过一系列改进的遗传操作并且引进向量之间的相似度作为适应度函数,经过一定代 数的遗传操作形成了文本分类和信息过滤的模板,而由网络数据包捕获模块捕获的数据包 在进行分词处理之后就与模板进行相似度的比较,从而考察获取的网络信息文本属于哪令 类别,最终实现对网络信息分类的目的,也就实现了对网络信息的有效过滤。 3 、建立了基于改进遗传算法的网络信息过滤模型 在充分分析遗传算法优点的基础上,将其引入到网络信息过滤中用于模板生成;针列 遗传算法存在的局部最优的缺点,引入模拟退火操作对遗传算法从结构上进行调节和改 进;针对遗传存在的参数固定、种群单一的缺点,引入了基于年龄的种群控制思想以及随 代数变化的变交叉率和变异率。 4 、引入了基于概念的逻辑段落划分方法 该方法建立在概念词典之上,通过分析待分类文本中所包含的逻辑概念,将待分类文 本中表达相同意义的段落进行聚类分析,并建立以此逻辑层次划分方法为基础的逻辑段落 概念,然后以该逻辑段落作为分类的依据,考虑不同的段落对于文本主题表示的贡献程度。 同时,针对匹配过程中存在的多义词和同义词现象,引入同义词概念扩充和关联词语扩充。 5 、提出了一种利用反馈文档动态修改类别模板方法 类别模板建立的好坏直接关系到信息过滤系统的优劣,并且分类体系有可能经常变 山东师范大学硕士学位论文 更。而使用重新训练的方法耗时、费力,与反馈的初衷背道而驰,真正意义上的反馈应在 已经产生的训练结果上进行调整,即是在过滤过程中自动实现过滤模板的调整。针对上述 问题,课题研究过程中提出一种利用反馈文档动态修改类别模板的算法。 6 、设计并实现了网络信息过滤系统n i f s 按照分块、分层次以及模块化设计思路,设计并实现了网络信息过滤系统。系统实现 三级过滤机制,采用基于s p i 的网络封包截获技术进行数据包的截获及重组提高了过滤的 速度,利用退火遗传算法对训练样本进行学习生成用户模板,并利用反馈学习调整优化用 户模板,采用段落化匹配方式提高匹配精度。 关键词:信息过滤;退火遗传;自学习;模糊调整;逻辑段落 分类号:t p 3 9 3 0 8 山东师范大学硕士学位论文 a b s t a c t a sa s y s t e m a t i ca p p r o a c h ,i n f o r m a t i o nf i l t e r i n gt e c h n o l o g yc o u l dm a t c ht h eu s e rd e m a n d w i t ht h ed y n a m i ci n f o r m a t i o nf l o wf r o mw h i c hw ee x t r a c tt h ep e r s o n a l i z e di n f o r m a t i o no fu s e r d e m a n da n ds e n di tt ot h eu s e r c u r r e n tr e s e a r c ho ni n f o r m a t i o nf i l t e r i n gi sa b o u th o wt oo b t a i n a n de x p r e s st h ei n f o r m a t i o n ,h o wt ob u i l dt h eu s e rt e m p l a t ef i l e 、i ml e a r n i n ga l g o r i t h m ,h o wt o c a l c u l a t et h ei n f o r m a t i o ns i m i l a r i t ya n ds oo n g e n e t i ca l g o r i t h mi sa p p l i e dt om a c h i n el e a r n i n ga n dc o m b i n a t o r i a lo p t i m i z a t i o nw h o s e a d v a n t a g e sb e y o n do t h e rm e t h o d s t h e r e f o r e ,i nt h i sp a p e r ,o nt h eb a s i so fc o m p a r i n g 晰t l lt h e r e l e v a n tt e x tc l a s s i f i c a t i o na l g o r i t h m s ,a ni n f o r m a t i o nf i l t e r i n gs y s t e mm o d e lb a s e do ng e n e t i c a l g o r i t h mi sp u tf o r w a r dw h i c hi sa r o u n dt h et w om a i nt a r g e to fi n f o r m a t i o nf i l t e r i n g ,t h e a c c u r a c ya n df i l t e r i n gr a t e ;c o n s i d e r i n gt h a tt h et h ep r e m a t u r ed i s a d v a n t a g eo ft h eg e n e t i c a l g o r i t h m ,t h el o w e rm a t c he f f i c i e n c yd u r i n gt h ew h o l em a t c h i n gp r o c e s sa n dt h ep r o b l e mo f u p d a t i n gt h eu s e ri n t e r e s tt e m p l a t ea n dt h ed o c u m e n td a t a b a s ed u r i n gt h et r a i n i n gp r o c e s s ,a s e r i e so fi m p r o v e dm e a s u r e sa r ep u tf o r w a r db a s e do nw h i c ht h en e t w o r ki n f o r m a t i o nf i l t e r i n gi s c a r r i e do u ti nt h i sp a p e rf i n a l l y s p e c i f i cw o r k so ft h i sa r t i c l ea l ea sf o l l o w s : 1 a ni n d e p t hr e s e a r c ho ft h ek e yt e c h n o l o g i e so fn e t w o r ki n f o r m a t i o nf i l t e r i n ga n dt h e r e l a t e df i l t e r i n gm o d e l t h eg e n e r a lm o d e lo fi n f o r m a t i o nf i l t e r sa n dc l a s s i f i c a t i o na l g o r i t h m sa r ed i c u s s e da tf i r s t a n da n a l y s i n gt h ep r o b l e m se x i s t e di nt h ec u r r e n ti n f o r m a t i o nf i l t e r i n gs y s t e m t h e n ,w ef o c u s o nt h en e t w o r kd a t a sa c q u i s i t i o na n dr e p r e s e n t a t i o n ,t h ec a l c u l a t i n gm e t h o do ft h ef e a t u e r w e i g h t sa sw e l la st h em a t c h i n ga n dc l a s s i f i c a t i o na l g o r i t h m sa n dt h ek e ym a t c ha n df e e d b a c k t e c h n i q u e s 2 i n t r o d u c e dt h ei n f o r m a t i o nf i l t e r i n gw i t hg e n e t i ca l g o r i t h mt og e n e r a t et h ef i l t e r i n g t e m p l a t e a f t e rc o m p a r i n ga n dr e a s e a r c h i n gt h et r a d i t i o n a lt e x tc l a s s i f i c a t i o nt e c h n i q u e sa n d a n a l y z i n gt h ec h a r a c t e r i s t i c so fg e n e t i ca l g o r i t h ma n di t sa p p l i c a t i o n ,at e x tc l a s s i f i c a t i o na n d i n f o r m a t i o nf i l t e r i n gm o d e lc o n s t r u c t i o nm e t h o db a s e do ni m p r o v e dg e n e t i ca l g o r i t h mi sp u t f o r w a r di nt h i sc h a p t e r ,n a m e l yt h eg e n e t i ct r a i n i n g d u r i n gt h eg e n e t i ct r a i n i n g ,w ec o m b i n es y m b o lc o d ew i t hb i n a r yc o d et od e a l 埘t i lt h e m a n a g e m e n to fv e c t o rt e x t ,t h a ti s ,c o n s i d e r i n gas e r i e so fi m p r o v e dg e n e t i cm a n i p u l a t i o na n d t h es i m i l a r i t yd e g r e eb e t w e e nv e c t o r sa saf i t n e s sf u n c t i o n ,t h eg e n e t i cm a n i p u l a t i o na f t e ra l g e b r a m u s tf o r m e dat e m p l a t ef o rt e x tc l a s s i f i c a t i o na n di n f o r m a t i o nf i l t e r i n g ,a n dt h ep a c k e tc a p t u r e d b yt h en e t w o r kp a c k e tc a p t u r em o d u l ei ss e g m e n t e di n t os u b w o r d sw h i c hc a nb ec o m p a r e d 、 ,i t l l t e m p l a t eo ns i m i l a r i t yt od e c i d et h ec a t e g o r yo ft h i st e x ta n de v e n t u a l l ya c h i e v et h ep u r p o s eo f t h et e x tf i t e r i n g 3 s e a i n gu pn e t w o r ki n f o r m a t i o nf i l t e r i n gm o d e lb a s e do nt h ei m p r o v e dg e n e t i ca l g o r i t h m b a s e do naf u l la n a l y s i so ft h ea d v a n t a g e so fg e n e t i ca l g o r i t h m ,w ei n t r o d u c e di ti n t ot h e n e t w o r ki n f o r m a t i o nf i l t e r i n gt og e n e r a t et h et e m p l a t e ;f o rt h el o c a lo p t i m a ld i s a d v a n t a g eo ft h e g e n e t i ca l g o r i t h m ,w ei n t r o d u c e dt h es i m u l a t e da n n e a l i n gg e n e t i ca l g o r i t h mt or e g u l a t ea n d 山东师范大学硕士学位论文 i m p r o v et h eg e n e t i ca l g o r i t h mi nt h es t r u c t u r e ;f o rt h es h o r t c o m i n g so ft h eg e n e t i cp a r a m e t e r s f i x e da n ds p e c i e ss i n g l e ,w ei n t r o d u c e ds p e c i e sc o n t r o lo nt h eb a s i so fa g e ,a sw e l la st h ei d e ao f c h a n g i n gc r o s s a l g e b r am u t a t i o nr a t ea n d v a r i a n c er a t e 4 i n t r o d u c e dt h el o g i c a lp a r a g r a p h sd i v i s i o nm e t h o db a s e do nt h ec o n c e p t t h e m e t h o dw a ss e tu pb a s e do nt h ec o n c e p td i c t i o n a r y f r o ma n a l y z i n gt h el o g i cc o n c e p t c o n t a i n e di nt h et e x t ,t h ep a r a g r a p h s 晰mt h es a m em e a i n gw i l lb ec l u s t e r e d ,a n dt h el o g i cl e v e l s w h i c hw e r ee s t a b l i s h e do nt h i sl o g i cc o n c e p tp a r a g r a p hw e r eu s e dt ob eab a s i sf o rc l a s s i f i c a t i o n s oa st oc o n s i d e rt h ec o n t r i b u t i o nd e g r e eo ft h ed i f f e r e n tp a r a g r a p h st ot h et e x ts u b j e c t a tt h e s a m et i m e ,f o rt h ep o l y s e m yo rs y n o n y mp h e n o m e n o ni nt h em a t c h i n gp r o c e s s ,s y n o n y m c o n c e p te x p a n s i o na n dr e l a t e dt e r m se x p a n s i o na r ei n t r o d u c e di nt h i sp a p e r 5 g i v e nam e t h o do fm o d i f y i n gt e m p l a t ed y n a r n i c l yw i t hf e e d b a c kd o c u m e n t s t y p eo ft e m p l a t eh a sa d i r e c tr e l a t i o n s h i p 晰t l lt h em e r i t so fi n f o r m a t i o nf i l t e r i n gs y s t e m s , a n dc l a s s i f i c a t i o ns y s t e mm a yc h a n g ef r e q u e n t l y t oa d d r e s st h ep r o b l e mr a i s e di nt h ec o u r s eo f t h es t u d ys u b j e c t su s i n gam o d i f i e dt y p eo ff e e d b a c kd y n a m i cd o c u m e n tt e m p l a t ea l g o r i t h m s t h em e t h o do fr e t r a i n i n gi st i m e c o n s u m i n g ,l a b o r i o u sa n dr u nc o u n t e rt ot h eo r i g i n a lp u r p o s eo f f e e d b a c k ,n l et r u ef e e d b a c ks h o u l db ea d j u s t e do nt h eg e n e r a t e dt r a i n i n gr e s u l t s ,t h a ti s ,t h ef i l t e r t e m p l a t ei sa d j u s t e da u t o m a t i c a l l yi nt h ef i l t e r i n gp r o c e s s i nv i e wo ft h ep r o b l e mr a i s e da b o v e ,a m e t h o do fm o d i f y i n gt e m p l a t ed y n a m i c l y 、析t t lf e e d b a c kd o c u m e n t si sp u tf o r w a r di nt h i sp a p e r 6 d e s i g n e da n di m p l i e dan e t w o r k i n f o r m a t i o nf i l t e r i n gs y s t e mn a m e dn i f s i na c c o r d a n c e 、访t ht h et h i n k i n go fs u b b l o c k s ,h i e r a r c h i c a l ,a sw e l la sm o d u l a r , a c h i e v e da n e t w o r ki n f o r m a t i o nf i l t e r i n g s y s t e m t h r e e t i e ri m p l e m e n t a t i o no f t h es y s t e mf i l t e r i n g m e c h a n i s ma n ds p i - b a s e dn e t w o r kp a c k e ti n t e r c e p t i o nt e c h n o l o g yt oi n t e r c e p ta n dr e c o m b i n e t h ep a c k e t si m p r o v e dt h ef i l t e r i n gs p e e d a n n e a l i n gg e n e t i ca l g o r i t h mi se m p l o y e dt os t u d yo i l t h et r a i n i n gs a m p l e st og e n e r a t et h eu s e rt e m p l a t e sw h i c ha r ea d j u s t e da n do p t i m i z e db y f e e d b a c kl e a r n i n gt oi m p r o v et h ef i l t e r i n ga c c u r a c y k e y w o r d s :i n f o r m a t i o nf i l t e r i n g ;a n n a l i n gg e n e t i ca l g o r i t h m ;s e l f - l e a r n i n g ;f u z z y a d j u s t m e n t ;l o g i cp a r a g r a p h s c l a s s i f i c a t i o n :t p 3 9 3 0 8 山东师范大学硕士学位论文 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写 过的研究成果,也不包含为获得( 注:如没有其他需要特别声明的,本栏 可空) 或其他教育机构的学位或证书使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 耘方 导师签字: 学位论文版权使用授权书 本学位论文作者完全了解堂撞有关保留、使用学位论文的规定,有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权堂撞可 以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等 复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:二鼋彩 签字日期:2 0 09 年箩月j 罗日 导师签字: 签字日期:2 0 0 山东师范大学硕士学位论文 第一章概述 本章着眼于相关研究领域研究现状以及论文写作的总体,简要介绍了课题研究的意义 及论文写作背景,分析了当前相关研究领域的进展情况,并且对全文的写作结构以及文章 创新点进行了概述。 1 1 课题研究背景和意义 1 1 1 课题研究背景 人类社会已进入信息时代,面对这如海潮般涌来的瞬息万变的信息,人们正以前所未 有的迫切心情,要求能借助于某些工具,自动筛选这些信息。同时,由于网络自身的两面 性,给人们到来便捷的同时也带来了一些垃圾、黄色以及反动信息,这些信息的存在严重 影响着人们正常的工作和学习。特别是对于广大青少年来说,由于自身辨别是非的能力不 足以及对新鲜事物充满好奇,从而有意无意的受到这些信息的影响,有些甚至走向犯罪的 深渊。 信息过滤【1 1 是技术正是基于上述问题的解决而提出的,他能够根据用户信息需求,利 用一定工具从大规模动态信息流中自动筛选出满足用户需求的信息、剔除无用的信息,实 现对网络信息的有效过滤。 1 1 2 课题研究意义 本课题就研究意义来讲可以从经济效益和社会效益两方面进行阐述。 1 、经济效益 虽然国内已经对相关系统进行了研究,但是同时具有网络信息过滤、垃圾邮件过滤、 非法攻击过滤等的综合型软件还没有形成产品。因此,相关方面的研究和开发能够填补国 内空白,同时取代国外的一些信息过滤产品,打破国外产品在网络信息分类和垃圾信息过 滤市场上的垄断地位,具有非常广阔的市场前景。 目前,仅山东省中学( 高中、初中) 4 0 0 0 所左右、小学1 0 0 0 0 多所,中等专业学校和 高校4 0 0 多所,已建立校园网1 0 0 0 0 个以上,其他网络( 如企业、机关、事业单位) 等也 有4 0 0 0 个以上,均需要相关过滤产品。全国估计5 0 万个网络。所以,该课题研究目标具 有非常大的市场前景。 2 、社会效益 就社会效益来讲,主要有体现在以下三个方面: 首先,对于目前最广大的学校网络用户来讲,网络信息分类和过滤软件的使用,可使 学生有一个“净化 的网络使用环境和学习环境,避免或减少有害信息对于大中小学生的 侵蚀,为培养建设有中国特色社会主义人才起到重要作用。 其次,对于企业用户来讲,一个高效的网络信息过滤软件系统能够有效避免垃圾信息 山东师范大学硕士学位论文 以及有害信息的对于正常工作的干扰,提高广大企业网络用户的工作效率,这在很大程度 生也是在为经济和社会发展做贡献。 第三,研究网络信息过滤相关算法,实现理论和实践上的较大创新,能为网络信息过 滤以及文本分类技术的发展产生积极的推动作用,为相关信息过滤产品的研发及其产业化 具有导向作用。 1 2 相关研究进展 1 2 1 信息过滤发展 随着计算机和网络技术的发展,信息过滤技术应运而生并迅速发展。从上个世纪五十 年代产生以来,信息过滤技术和产品从设想成为现实并不断地完善。表1 1 对有关网络信 息过滤( 包括文本信息过滤) 二十世纪的研究做了一个简单概括【2 3 1 : 表1 - 1 信息过滤发展简表 时间 研究机构或个人主要成就 1 9 5 8 年 l u h n 提出了“商业智能机器”的设想 1 9 6 9 年 s i g - s d i s d i 兴起 1 9 8 2 年 d e n n i n g 提出信息过滤( i n f o r m a t i o nf i l t e r i n g ) 的概念 1 9 8 7 年 m a l o n e 等 提出了认知过滤和社会过滤,并研制了i n f o r m a t i o nl e n s 系统。 d a r p a ( d e f e n s e 1 9 8 9 年 a d v a n c e dr e s e a r c h 第一届m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e p r o j e c ta g e n c y ) n i s t ( 美国国家标 1 9 9 2 年 第一届文本检索会议( t e x tr e t r i e v a l ,t r e c ) 准和技术研究所) 进入二十一世纪以来,随着因特网的迅速发展,需求的不断增加,信息过滤以及相关 技术取得了长足的进展,成为信息产业新的增长点,许多过滤系统相继出现,近年来主要 产品列表如表1 2 所示 4 - 1 2 1 : 表1 2 主要信息过滤产品列表 系统名称系统特点 通过统计将描述用户兴趣的用户模型相互关联起来,以揭示拥 r i n g o 护者间的相似性,将系统判断的与一个用户相关的信息,推荐 给其他与此用户相似的用户 将对同样的文档有同样的评价的用户联系到一起,认为有同样 g r o u p l e n s 的信息需求,这样他们之间就可以共享信息搜索的工作 s y s k i i l & w e b e r t通过关键词表达用户信息,利用b a y e s 方法进行过滤 w b b w a c h e r 用户以一定结构设计的目标,帮助用户寻找信息 l e t i z i a 可以监视用户的浏览路径,从而获得用户的信息需要 通过扩展浏览器的b o o k m a r k 功能,跟踪用户的需求,并直接 o p e nb o o k m a r k 利用用户评价文章来表达用户需求进行信息过滤 将内容过滤和协作过滤相结合,通过对用户访问的u r l 、书签 f a b 系统 文件夹进行比较以识别相似的用户 a d u l t通过将文档分为四级,采用等级制度进行过滤 1 2 2 目前信息过滤模型存在问题 当前网络信息模型在一定程度上取得了不错的效果,但是其中仍然存在一些问题,研 2 山东师范大学硕士学位论文 究过程中发现,这些问题主要集中在以下三个方面。 l 、文本表示模型单一 后面2 4 节中将涉及到,现有的信息过滤系统中常用的文本表示模型有四种,而其中应 用最多的为向量空间模型和概率推理模型。前者假设所有关键词在向量空间中是正交的, 即关键词是相互独立的,而后者假设所有关键词在文档中出现的概率相对独立。但实际情 况并非如此,汉语中关键词之间是彼此联系的,如何在模型中获得这种联系并增强这种联 系,对模型的改进会起到一定作用。 2 、分类效果不理想 传统模型中分类算法都是将新文本归于分类体系中的一个类,即与该文本关联最大的 类,而事实上,分类体系中的类别不是完全互斥的,存在这样一些既属于其中一个类别, 又同时属于其他类别的文本,对于这种文本目前分类算法无法确定文本所属的所有类别。 3 、适应性不足 在信息过滤特别是网络信息过滤中,由于待过滤文本是变化的,同时,由于时代的发 展其训练库也是变化的,而大多数的过滤以及分类系统中过滤模板一旦生成则很少发生变 化,这就导致模型适应不同环境的能力差。 1 2 3 当前研究重点 当前信息过滤主要分为内容过滤和合作过滤两个方面,其中内容过滤是按照信息内容 的特性做出选择,属于自然语言理解。这种方法利用关键词将信息流和用户模型进行匹配 计算,通过检测信息的内容特征判定其是否是需要过滤的信息,这种方法比较适合于文本 信息过滤。 目前,国内外基于内容的信息过滤的研究以核心算法为主,主要是集中在特征抽取、 学习算法和过滤算法。研究主要有两个趋势【1 3 】:第一是传统的关键词匹配方法逐渐的被较 复杂地自然语言处理技术所取代,词语字典、语法知识、语义知识被用到信息过滤中。其 次,用户模型的手动输入逐渐地被机器学习所取代,机器学习能够记录用户的行为特征和 反馈信息,通过各种机器学习构建的用户模板能很好的反映用户需需求。 概况说来,目前国内外相关研究主要集中在以下几个方面: 1 、特征选择与压缩算法的研究与改进 目前的特征压缩算法主要有特征选择与特征抽取。在特征选择中,许多特征衡量标准 被引入到文本分类中,如文档频率、信息增益、互信息、c h i 统计等;在特征抽取方面, 主成分分析、线性区分分析、概念索引等众多方法都先后被提出或引入到文本分类领域。 2 、研究多分类器组合,提高分类效果 分类器组合就是指采用多个分类器进行训练,在进行分类时组合每个分类器的决策。 l a r k e y 设计了一个基于r o o c h i o 、贝叶斯与k n n 的组合分类器,他的实验结果表明任何两 两组合的分类精度要高于单个分类器的分类精度,而三个分类器的组合的分类精度要高于 任何两两组合的分类精度,l a r k e y 的实验在一定程度上表明了组合分类器能够对其成员分 3 山东师范大学硕士学位论文 类器进行取长补短。 3 、针对样本集进行文档标定 使用监督学习算法的一个主要困难是它们需要大量标记的训练例子来学习,针对如何 利用少量的有标签样本和大量的无标签样本训练出一个较好的分类器问题,n i g a m 提出了 基于期望最大和朴素贝叶斯分类器相结合的算法,j o a c h i m s 提出了直推式支持向量机 ( t s v m ) 。 4 、针对样本不均衡问题研究如何处理小样本类 样本不均衡问题指的是某些大类占据了绝大部分训练样本,其余小类却只包含少数样 本。大部分经典的机器学习算法都是建立在均衡训练样本之上的,因此它们在大类上精度 很高,但在小类上精度很差。许多学者在这个问题上进行了大量研究,提出了许多解决方 法。 虽然相关领域研究人员已经做了较多的研究,但将模糊理论和遗传算法引入到网络信 息分类和垃圾信息过滤领域的研究很少,而实现真正意义上的自学习和自然语言理解的研 究则更少,由于汉语语言的复杂性,如果不对汉语的语义进行分析,就很难保证网络信息 分类和垃圾信息过滤的效果,同时,在训练过程中模板一旦生成则很少变化,而至于训练 样本库则更新更少,这就严重影响了信息过滤的效果。 1 3 本文写作背景 本文作者所在项目组在刘培玉教授的带领下,近年来针对网络安全问题进行了深入探 讨,特别是在网络信息过滤以及网络安全审计等方面的开发具有长足的进步。近年来,课 题组先后完成了“信息网络规划模型研究与软件开发 ( 2 0 0 3 年山东省科技进步三等奖) 、 “基于a g e n t 技术的网络资源开发研究( 2 0 0 4 年山东省科技进步二等奖) 、 “网络信息过 滤系统及光通信网络研究( 2 0 0 6 年山东省科技进步二等奖) 、省教育厅重点计划课题“基 于语义和学习机制的网络信息过滤模型研究与软件开发”( 2 0 0 5 年鉴定国际先进) 、山东省 信息产业发展专项基金“网络信息过滤系统 ( 2 0 0 5 年鉴定国内领先) 、山东省科技攻关计 划项目“基于遗传算法的网络信息过滤模型及软件开发 ( 2 0 0 7 年鉴定国际先进) 等课题。 目前,项目组着重于探讨遗传算法以及相关优化理论在网络信息过滤中的应用,目前 在研国家自然科学基金“基于模糊遗传算法的网络信息特征分析与过滤算法研究 ( 6 0 8 7 3 2 4 7 ) 、山东省自然科学基金“基于语义神经网络的网络信息特征分析与过滤算法 研究( y 2 0 0 6 g 2 0 ) 、山东省高新技术自主创新工程“基于模糊遗传算法的网络信息过滤系 统研究与开发( 2 0 0 8 z z 2 8 ) 等多项国家以及省部级课题,本文正是在这样一个研究框架下 进行的。 1 4 论文的创新点 论文在以下几个方面进行了研究并力图在一定程度上取得创新: 1 、研究分析了网络数据包的获取和处理方法,应用基于w i n d o w ss p i 的数据包截获 山东师范大学硕士学位论文 方法,并且针对网页数据多主题现象,引入了网页分块机制,实现了网页的分块过滤;对 其中特征选择算法进行了改进,特别针对特征选择中的权值计算方法进行优化,考虑将特 征权值函数应用于特征选择,弥补了传统i d f 函数的不足之处,获得了较好的效果;分析 了现有反馈和自学习方法,提出一种新的增量训练学习机制,取得不错的效果。 2 、经过对传统文本分类技术的比较和研究,并且对于遗传算法特点及应用进行了充 分分析,提出了基于改进遗传算法的文本分类方法。针对遗传算法存在的局部最优的缺点, 引入模拟退火操作、基于年龄的种群控制思想以及随代数变化的变交叉率和变异率等。 3 、通过分析待分类文本中所包含的逻辑概念,将待分类文本中表达相同意义的段落 进行聚类分析,并建立以此逻辑层次划分方法为基础的逻辑段落概念,然后以该逻辑段落 作为分类的依据,实现了网络信息过滤的段落化匹配,提高了过滤准确率。 4 、按照分层、模块化设计的思路设计并实现了网络信息过滤系统。该系统实现三级 过滤机制,并采用基于s p i 的网络封包截获技术进行数据包的截获及重组,提高了过滤的 速度;利用退火遗传算法对训练样本进行学习,生成用户模板,并利用反馈学习来进一步 调整优化用户模板,提高过滤的准确率。 基于上述策略设计开发的网络信息过滤系统已经与2 0 0 7 年1 2 月通过山东省科技厅组 织的专家鉴定,达到国际先进水平。 1 5 论文基本结构 本文的撰写涵盖了网络信息过滤系统研究中的各个阶段,其基本框架如下: l 、第一章是网络信息有关概述,介绍了网络信息过滤的背景及意义,分析了信息过 滤研究现状,交代了本文撰写背景,列出了本文组织结构。 2 、第二章是信息过滤及其关键技术,探讨了信息过滤的一般模型及其分类,分析了 现有信息过滤系统存在的问题,简要介绍了网络信息过滤中的网络数据获取和表示、特征 选择、文本表示、分类算法和反馈等技术。 3 、第三章是本文的核心,详尽的总结遗传算法相关知识,分析了遗传算法生成过滤 模板的过程,阐述了应用模拟退火操作对传统遗传算法进行改进的必要性和优势所在, 研究了基于退火遗传算法的网络信息过滤模型中的相关反馈策略,尝试应用基于概念的 文本逻辑段落实施匹配,并最终给出了个基于退火遗传算法的网络信息过滤模型。 4 、第四章是网络信息过滤系统的实现,该部分在研究当前网络信息过滤系统结构的 基础上,设计实现了一个基于改进的退火遗传算法的网络信息过滤系统。 5 、第五章是全文的总结和展望。 5 山东师范大学硕士学位论文 第二章基于内容的网络信息过滤关键技术 本章从最通用的网络信息过滤模型入手,沿着网络信息过滤中数据流的处理方向分析 了当前基于内容的网络信息过滤中涉及到几种关键技术,其中包括过滤系统体系框架、数 据获取和表示、信息空间与用户兴趣模型、过滤算法以及相关反馈技术等,并在分析这些 知识的基础上,指出其不足之处。 2 1 网络信息过滤一般模型 为了实现对网络信息的有效过滤,每个过滤系统都有各自的实现方法,但它们都有共 同的处理模块,而这些共同的系统模块则就可以抽象为一个系统模型。下图就是一个目前 使用的典型的网络信息过滤模型。 馈 白曩由鬈 图2 1 信息过滤系统基本模型 冈 【r j 信息 图2 1 为网络信息过滤系统基本模型,主要网络信息分析、生成用户模板、实施过滤 和反馈这几个基本模块构成。其中: 1 、网络信息分析:利用网络数据包捕获技术,从网络中获取信息,对其进行处理分 析,生成相关信息的特征表示; 2 、用户模板生成:根据系统提供的训练库,通过特征选择、机器学习等步骤生成用 于过滤的用户模板文件; 3 、过滤:将经过网络信息分析产生的数据和生成的用户模板文件进行相似性比较, 以确定是否将结果提交给用户; 4 、反馈:根据用户的兴趣变化和结果的评价适时更新用户模板文件,并将过滤过程 中产生的具有较好区别性能的文档添加到训练库,从而实现模板文件的适时更新。 在上述描述中,我们可以看出,网络信息过滤要解决获取和表示信息、计算信息相似 度、构建用户模板等问题,因此,本课题研究的目标就是研究网络数据的获取及表示、用 户兴趣模板的生成、匹配策略以及相关反馈技术等。 2 2 网络数据的获取 w i n s o c k 2s p i ( s e r v i c ep r o v i d e ri n t e r f a c e ) t 1 5 1 即服务提供者接i z i ,服务提供者接口建立在 w i n d o w s 开放系统架构w o s a ( w i n d o w so p e ns y s t e ma r c h i t e c t u r e ) 之上,是w i n s o c k 系统 组件提供的面向系统底层的编程接口。w i n s o c k 系统组件向上面用户应用程序提供一个标 准的a p i 接口,向下在w i n s o c k 组件和w i n s o c k 服务提供者( 比如t c p i p 协议栈) 之间提供 7 山东师范大学硕士学位论文 个标准的接口。各种服务提供者是w i n d o w s 支持的d l l ,挂靠在w i n s o c k 2 的w s 2 3 2 d l l 模块下。多数情况下一个应用程序在调用w i n s o c k 2a p i 函数时,w s 23 2 d l l 会调用相应的 w i n s o c k 2s p i 函数,利用特定的服务提供者执行所请求的服务。如图2 2 : 区亟季圃 w s 2 _ 辜3 2 d ui w i n d o w ss o c k e t2 传输s p i + 匾巫翌亟圃 图2 - 2w i n s o c k 2a p i 和s p i 的关系图 文中即采用了该方法进行数据的获取以及处理,具体内容将在第四章实现部分详细分 析和阐述。 2 3 特征选择 捕获的网络信息数据以及训练文档库中的文本信息,需要通过抽取文本特征【1 9 l 给出文 本简洁表示,以便于进行处理。通过文本特征抽取,记录文本的特征,可以更好的组织文 本。文本特征的抽取可以分为分词、特征项抽取以及特征权重的计算等步骤。 2 3 1 分词 分词处理是信息过滤的第一步,分词准确性的高低

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论