




已阅读5页,还剩59页未读, 继续免费阅读
(计算机软件与理论专业论文)博客数据特征提取与基于分类的垃圾博客过滤.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着i n t e r n e t 的迅速发展,博客成了继e m a i l 、b b s 、q q i c q 之后的新一 代网络交流方式,并以极快的速度融入到人们的日常生活中,成为基于互联网的 基础服务。随着博客空间的急速增长,垃圾博客也迅猛蔓延到博客空间的各个角 落;而大量垃圾博客的存在,严重影响了信息检索的准确性,从而使得用户体验 变得越来越差,如何精确地判断垃圾博客成为信息检索领域亟待解决的难题之 一。在信息安全领域,博客内容倾向性分析成为新的研究热点之一,但大量垃圾 博客的存在将严重影响倾向性分析的结果,大大降低其正确性和可信性。因此, 必须对博客进行垃圾过滤,以便进行进一步的分析和检索。 本文在已有的垃圾博客特征提取基础上,提出了采用词性分析手段对博客特 征进行进一步提取的方法。首先考虑到在中文的语法结构中,一个句子由主谓宾 构成,尤其在口语话的语句中,还会有很多省略句,这些句子通常只有主语和谓 语或仅仅只有谓语。而且博客作者大都在博客文章中记录一些关于自己感兴趣的 事情,或者记录自己的心情和近况,会在博客正文中使用丰富的形容词和语气词 来表达自己。而垃圾博客通常只是为了提高用户的点击率,或者希望通过增加链 接和关键词的方式来提升某个网页在搜索引擎中的重要程度,因此在文章中会出 现大量的名词,尤其是跟行业相关的专有名词。所以,对博客文章进行词性分析, 提取出跟词性相关的一些特征会大大增加特征之间的互补性,提高垃圾博客分类 与过滤的效果。 进一步,本文设计了一种针对垃圾博客过滤的动态组合分类算法。该算法首 先构造出一种树状组合分类器结构来支持分类,并进一步利用了一种动态调整策 略来训练组合分类器。与已有的基于单一分类器或简单集成分类器的方法相比, 该方法可以根据样本的分布特点,自适应地调整分类器的组合结构,从而有效缓 解样本特征稀疏和样本高度不均衡对分类性能的影响。基于垃圾博客过滤的测试 实验表明,该算法在用于垃圾博客过滤时,可以获得较好的准确率和召回率。 最后,本文设计并实现了一个基于博客内容的信息检索原型系统,并将垃圾 博客过滤算法用于该系统,取得了较好的效果。 类 关键词:垃圾博客分类,组合分类器,a d a b o o s t 算法,集成学习,文本聚 a b s t r a c t a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,b l o g sb e c o m ean e wa p p l i c a t i o no f n e t w o r kc o m m u n i c a t i o nf o l l o w i n ge m a i l ,b b s ,q q i c q ,a n di tg o e si n t op e o p l e s d a i l yl i v e sq u i c k l yt ob e c o m et h eb a s i cs e r v i c e sb a s e do ni n t e r n e t m e a n w h i l e , s p l o g s ( s p a mb l o g s ) a l s os p r e a dr a p i d l yt oe v e r yc o r n e ro ft h eb l o g o s p h e r e ;a n dt h e e x i s t e n c eo fal a r g en u m b e ro fs p l o g sh a ss e r i o u s l ya f f e c t e dt h ea c c u r a c yo f i n f o r m a t i o nr e t r i e v a l ,w h i c hm a k e st h eu s e r se x p e r i e n c ew o r s ea n dw o r s e s oh o wt o d e t e r m i n et h es p l o g sp r e c i s e l yh a sb e c o m eo n eu r g e n tp r o b l e mi nt h ef i e l do f i n f o r m a t i o nr e t r i e v a l i nt h ei n f o r m a t i o ns e c u r i t yf i e l d ,t h eo p i n i o na n a l y s i so fb l o g c o n t e n th a sd r a w nm o r ea n dm o r ea t t e n t i o n ,b u tt h ee x i s t e n c eo fs p l o g sw i l la f f e c tt h e r e s u l to fo p i n i o na n a l y s i ss e r i o u s l y ,a n dr e d u c et h ea c c u r a c ya n dc r e d i b i l i t yg r e a t l y t h e r e f o r e ,i ti sn e c e s s a r yt of i l t e rt h es p l o g sf o rf u r t h e ra n a l y s i sa n dr e t r i e v a l i nt h i sp a p e r , w ep r o p o s e dam e t h o do fp a r t o f - s p e e c ha n a l y s i sb a s e do nt h e e x i s t i n gf e a t u r ee x t r a c t i o no fs p l o g s f i r s t l y ,i nt h eg r a m m a t i c a ls t r u c t u r eo fc h i n e s e , as e n t e n c ei sc o m p o s e db ys u b j e c t 、p r e d i c a t e 、o b j e c t ,a n de s p e c i a l l yi nt h eo r a l s t a t e m e n t ,t h e r ea r eal o to fe l l i p t i c a ls e n t e n c e sw h i c ha r ec o m p o s e db ys u b j e c ta n d p r e d i c a t e ,o rp r e d i c a t eo n l y s e c o n d l y ,m o s tb l o ga u t h o r sr e c o r di nt h e i rb l o g sw h a t t h e ya r ei n t e r e s t e di n ,o rt h e i ro w nf e e l i n g sa n ds i t u a t i o n s ,s oi nt h eb l o g s ,t h e r ea r e r i c ha d j e c t i v e sa n dm o o dw o r d st oe x p r e s st h e m s e l v e s t h i r d l y ,u s u a l l y ,s p l o g sa r e w r i t t e nt oi n c r e a s et h eu s e r s c l i c k - t h r o u g hr a t e s ,o rh o p et oi m p r o v et h ei m p o r t a n c eo f ap a g ei nt h es e a r c he n g i n eb yi n c r e a s i n gl i n k sa n dk e y w o r d s ,s ot h e r ea r eal o to f t e r m si nt h ea r t i c l e s ,e s p e c i a l l yi n d u s t r y r e l a t e dt e r m i n o l o g y t h e r e f o r e ,a n a l y z i n gt h e p a r t o f - s p e e c h o fb l o g sa n de x t r a c t i n gs o m ep a r t - o f - s p e e c h - r e l a t e df e a t u r e s w i l l i n c r e a s et h ec o m p l e m e n t a r i t i e sb e t w e e nf e a t u r e sg r e a t l ya n di m p r o v et h ee f f e c t i v e n e s s o fc l a s s i 6 e r s w ea l s od e s i g n e dad y n a m i ca s s e m b l yc l a s s i f i c a t i o na l g o r i t h mf o rf i l t e r i n g s p l o g s f i r s t l y ,t h ea l g o r i t h mc o n s t r u c t sat r e e l i k ea s s e m b l yc l a s s i f i e rt os u p p o r tt h e c l a s s i f i c a t i o n t h e ni tp r e s e n t sad y n a m i ca d ju s t i n gs t r a t e g yt ot r a i nt h ea s s e m b l y c l a s s i f i e r c o m p a r i n gw i t ht h et r a d i t i o n a lc l a s s i f i e r ss u c ha ss i n g l e c l a s s i f i e ra n d s i m p l ye n s e m b l ec l a s s i f i e r , t h i sa l g o r i t h ma l s oa d j u s tt h ec o m b i n a t i o n a ls t r u c t u r eo f t h ec l a s s i f i e ri na na d a p t i v ew a y ,s oa st or e d u c et h ei m p a c to ft h es p a r s ef e a t u r e sa n d i i i a b s t r a c t u n b a l a n c e dd a t ao ft h es p l o g s t h ee x p e r i m e n t ss h o wt h a tt h i sa l g o r i t h mc a ng e tb e t t e r p r e c i s i o nr a t ea n dr e c a l lr a t ef o rf i l t e r i n go fs p l o g s f i n a l l y ,w ed e s i g n e da n dr e a l i z e da ni n f o r m a t i o nr e t r i e v a lp r o t o t y p es y s t e m b a s e do nb l o gc o n t e n tw i t ht h ef i l t e r i n go fs p l o g s ,a n di ta c h i e v e sg o o dp e r f o r m a n c e k e yw o r d s :s p l o gc l a s s i f i c a t i o n ,a s s e m b l yc l a s s i f i e r ,a d a b o o s ta l g o r i t h m , e n s e m b l el e a r n i n g ,t e x tc l u s t e r i n g i v 图目录 图目录 图1 12 0 0 2 年2 0 0 7 年活跃博客作者的增长趋势1 图2 1 链接工厂型垃圾博客8 图2 2 广告型垃圾博客9 图2 3 自动采集流程图1 0 图2 4 博客内容数据预处理流程。l l 图2 5 文档正排索引。1 3 图2 6 文档倒排索引1 4 图2 7 正文长度对应垃圾博客的分布1 5 图2 8 标题长度对应垃圾博客的分布。1 6 图2 9 阅读数对应垃圾博客的分布1 7 图2 1 0 评论数对应垃圾博客的分布1 7 图2 1 1 平均语句长度对应垃圾博客的分布18 图2 1 2 词性对应垃圾博客的比例2 0 图3 1 若干个弱分类器组合为强分类器示意图。2 4 图3 2 级联组合分类器2 5 图3 3 并联组合分类器2 5 图3 4 树状组合分类器的结构2 6 图3 5 树状组合分类器的训练及分类过程3 3 图4 1 不同特征集下三种分类器的性能比较3 8 图4 2 训练难度闽值秒对分类器性能的影响3 9 图4 3o v e r l a p 取值对系统性能的影响4 0 图4 4 样本分割策略对分类器性能的影响4 l 图5 1h a d o o p 分布式计算流程4 3 图5 2 博客信息检索系统框架4 4 图5 3 博客信息检索系统流程4 5 图5 4s p l o g 过滤系统流程图4 6 图5 5 并行索引系统流程图4 7 图5 6 分布式检索系统框架4 8 图5 7 分布式检索系统检索流程4 9 5 9 图目录 图5 8 分布式博客信息检索系统首页界面5 0 图5 9 分布式博客信息检索系统检索结果界面5 1 表目录 表目录 表1 12 0 0 7 2 0 0 8 博客用户对比信息2 表4 1 实验数据统计信息3 5 6 1 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成 果。除已特 j f j j a 以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写 过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确 的说明。 作者躲照 签字日期:三! ! ! :三:! 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥 有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交 论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人 提交的电子文档的内容和纸质论文的内容相一致。 保密的学位论文在解密后也遵守此规定。 日,开口保密( 年) 作者签名: 签字日期: 导师签名: 签字日期: 第1 章引言 第1 章引言 1 1 研究背景 随着i n t e m e t 的迅速发展,博客( b l o g ) 成了继e m a i l 、b b s 、q q i c q 之后 新一代的网络交流方式,并以极快的速度融入到人们的日常生活中,成为互联网 的基础服务之一。人们之间的信息交流方式也随之发生重大转变:由博客托管网 站提供交流平台,博客作者( b l o g g e r ) 撰写博文,并通过持续不断的更新的方式与 读者交互沟通信息,读者也可以通过发表评论来表达自己的看法和意见。博客是 博客作者( b l o g g e r ) 与读者以日志风格的形式通过互联网进行交互的中介,是一 种崭新的大众化的新闻发布媒介。人们之间的交流方式已经从被动式的接收信息 转变为互动式的共享信息,也就是说从互联网信息的使用者转变为互联网信息的 发布者和共享者,成为互联网资源的建设者之一。 艰位:万人 2 2 4 3 1 6 9 1 3 ( 抖泌l ( f ;黼 :c r , n i c 。c l l 图1 12 0 0 2 年- 2 0 0 7 年活跃博客作者的增长趋势 博客首次出现于1 9 9 6 年,随着大量免费博客软件的竞相出现,创建个人博 客门槛越来越低,再加上一些重大国际事件( “9 1 l ”事件等) 的催生以及主流 媒体、政治人物和娱乐人士的炒作,近年来在国内外得到迅猛发展,形成一种不 可忽视的新兴网络媒介。博客的概念在2 0 0 2 年被引入中国,并且得到了快速的 发展;2 0 0 5 年,博客得到规模性的增长;2 0 0 6 年,网民注册的博客空间更是超 过3 3 0 0 万个,其中活跃的博客人数占总数的3 6 ,达到1 6 9 1 3 万人( c n n i c , 2 0 0 7 ) , 图1 1 所示是从2 0 0 2 年至2 0 0 7 年博客活跃用户人数规模的变动情况。 l 第1 章引言 表1 12 0 0 7 2 0 0 8 博客用户对比信息 2 0 0 7 年底2 0 0 8 年底变化 网民规模网民规模增长量 使用率使用率增长率 ( 万人)( 万人) ( 万人) 拥有博客5 4 3 1 6 ,2 0 0 更新博客 2 3 5 4 ,9 0 0 3 5 2 1 0 5 0 0 5 ,6 0 0 1 1 4 3 如表1 1 所示,据c n n i c ( 2 0 0 9 ) 统计,在2 0 0 8 年,博客用户规模持续快速 发展,截至2 0 0 8 年1 2 月底,在中国2 9 8 亿网民中,拥有博客的网民比例达到 5 4 3 ,用户规模为1 6 2 亿人。在用户规模增长的同时,中国博客的活跃度有所 提高,半年内更新过博客的比重较2 0 0 7 年底提高了l1 7 。博客在中国互联网 基础服务中的影响力进一步加强。 在博客迅速发展的同时,也连带产生了一个副产品:垃圾博客( s p a mb l o go r s p l o g ) 。根据研究员t i mf i n i n 于2 0 0 6 年5 月在巴尔地摩市马里兰大学所做的研 究,超过一半( 5 6 ) 的英文博客都是垃圾博客;一家跟踪和搜索博客网站的公司 i n t e l l i s e e k 预计,未来新增的博客中,3 0 属于垃圾博客,尤其是g o o g l e 旗下的 b l o g g e r c o m 博客托管网站是垃圾博客数量最多的地方。垃圾博客成为国内外博 客系统面临的重大难题之一,极大地浪费了网络资源。 随着博客空间( b l o g o s p h e r e ) 的急速增长,垃圾博客迅猛地蔓延到博客空间的 各个角落;而大量垃圾博客的存在,严重影响了信息检索的准确性,从而使得用 户体验变得越来越差。因此,如何精确的判断垃圾博客成为信息检索领域的亟待 解决的难题之一。 另外,在信息安全领域,博客内容倾向性分析成为新的研究热点之一,但大 量垃圾博客的存在将严重影响倾向性分析的结果,大大降低其正确性和可信性。 因此,必须对博客进行垃圾过滤,以便进行进一步的分析和检索。 本文就以垃圾博客为背景,重点研究其中的垃圾博客的分类过滤问题,设计 了针对垃圾博客的分类器。 1 2 研究现状 1 2 1 博客的相关概念 博主( b l o g g e r ) :博客作者,有时也简称为“博客”,特指注册了博客空间的人; 主页( h o m e p a g e ) :博客的首页,包含一些网络日志的固定链接、与该博客相 关的一些博客友情链接、以及最近更新的博文片段等等; 博文( p o s t ) :博主在自己的博客网站上发布的个人网络日志: 评论( c o m m e n t ) :博客文章的阅读者对该篇文章内容所发布的一些相关意 见: 2 第1 章引言 固定链接( p e r m a l i n k ) :即指向博客文章的u k l 地址: 友情链接( b l o g r o l l ) :与博主相关的其他博客链接: 聚合内容( r s sf e e d ) :是一种数据交换规范,读者可以通过r s s 订阅一个博 客,确知该博客最近的更新状况;聚合内容是博客区别于其它媒介的重要特征; 引用通告( t r a c k b a c k ) :是一种博客应用工具,实现了网站之间的互相通告; 它可以让博客作者知道有哪些人看到自己的文章后撰写了与之有关的内容。 p i n g 服务器( p i n gs e r v e r ) :也被称为p i n g 服务,每个博客作者在发表新文 章的同时,可以通过p i n g 服务来告知博客搜索引擎,这样就能保证以最快的时 间收录的博客文章 1 2 2 垃圾博客的数据特征 垃圾博客就是为了获得某些关键字在搜索引擎上排名的上升,而在免费注册 的博客中进行大量的复制文章、垃圾链接等欺骗搜索引擎和用户的手段以及发布 广告信息来达到获利的目的。k o l a r ie ta 1 ( 2 0 0 6 ) 等根据垃圾博客生成形式和表现 形式将垃圾博客分为多类:关键字填充、内容拼接、内容剽窃、偷换链接、页面 重定向等,其中最常见的是内容垃圾。垃圾博客的主要数据特征如下所示: 链接工厂( l i n kf a r m ) 特征:博客页面堆砌大量无意义的富含关键字的 复制博客或指向某网站的链接,目的是提升被链接网站的链接广度,最终达到提 升搜索引擎排名的效果。 广告博客特征:在博客中放置大量的广告信息或其它网站联盟广告,利 用当前热门关键字进行内容复制来欺骗搜索引擎,增加被搜索的机率,以欺骗用 户点击广告,牟取广告费。 1 2 3 垃圾博客过滤研究现状 由于垃圾博客的生成非常容易,传播十分迅速,因此垃圾博客问题引起了国 内外相关人士的极大关注,越来越多的研究者开始对垃圾博客过滤进行研究分 析。目前已经存在一些垃圾博客过滤方面的研究,这些研究都基于分析博客典型 特征,并结合博客内容统计特征和链接特征来设计垃圾过滤算法。 目前国内对垃圾博客的研究还不多,刘纬等人( 2 0 0 8 ) 根据垃圾博客和正常博 客在统计特征上的差异和对多种博客分类有效的统计特征进行了分析,提出一种 基于博客页面统计特征的过滤方法。杨宇航等人( 2 0 0 7 ) 针对中文b l o g 领域的垃 圾分析,提出了一种整合多种特征的作弊评论识别方法;该方法不需要任何先验 知识和训练过程,既可以用于识别已经存在的作弊评论,也可用于b l o g 系统中 进行在线识别。 国外方面,k o l a r i 等人( 2 0 0 6 b ) 已于2 0 0 6 年将垃圾博客过滤作为t r e c 比赛 3 第l 章引言 新增的任务,并且提出基于s v m 分类器的垃圾博客过滤方法( k o l a r i ,2 0 0 6 c ) ,根 据博客内容的词频特征进行分类,但是该方法需要大量人工标注的训练语料,由 于训练集有限,分类能力会逐渐下降,泛化能力较差,难以应用于在线的垃圾博 客过滤。l i n 等人( 2 0 0 7 a ,2 0 0 7 b ) 在词频特征的基础上,还考虑了博客的链接、发 布时间等自相似特征,但这些特征需要通过计算一个博客中的所有文章的信息来 获得,大大降低了垃圾博客过滤的时间。s a l v e t t i 等人( 2 0 0 6 ) 币u 用u r l 的语言模 型对垃圾博客进行过滤,方法是将博文的u r l 分割成词后用朴素贝叶斯分类模 型来计算博客u r l 属于垃圾博客的概率;该方法简单直观但是需要大量训练数 据得到先验概率,而且只考虑了博文的u r l 信息,并没有充分利用搏客特有的 特征。n a r i s a w a 等人( 2 0 0 6 ) 军u 用了垃圾博客的内容复制的数据特征,根据内容的 重复频度以及博文和评论中的子串数服从z i p f 分布的特性检测垃圾评论。 k a z u n a r i 等人( 2 0 0 8 ) 提出了一种基于博客引用关系的转换过滤方法;该方法依据 出度和关键词收集种子垃圾博客,建立博客引用关系图,通过种子垃圾博客递归 识别垃圾博客。m i s h n e 等人( 2 0 0 5 ) 通过计算博文和对应评论语言模型间的相似性 识别垃圾链接;这种方法的优势在于不需要训练和w e b 链接知识然而,但是博 客的评论通常很短,不可避免地导致了语言模型的数据稀疏,而且很多垃圾博客 可能从内容上模仿正常评论,因此,实验结果尤其是对较短评论的识别效果并不 理想。 1 2 4 分类算法在垃圾博客中的意义 目前针对垃圾博客过滤的方法主要都基于分类的思想,即利用分类器天然的 鉴别能力,对垃圾博客进行鉴别区分。但是,现有的垃圾博客过滤方法大都采用 s v m ( k o l a r i ,2 0 0 6 c ;s c u l l e y , 2 0 0 7 ;d a t t a ,2 0 0 8 ) 、b a y e s ( d a t t a ,2 0 0 8 ) 、决策树 ( n t o u l a s ,2 0 0 6 ;刘,2 0 0 8 ;) 等单一的分类器对垃圾博客进行过滤。 垃圾博客过滤具有以下难点: 垃圾博客的特征稀疏:由于垃圾博客是人为制造的垃圾信息,很难通过 较少的特征准确的过滤出垃圾博客;而且垃圾博客过滤与垃圾制造者之间还存在 着垃圾过滤与反垃圾过滤的斗争,垃圾制造者们会想尽各种办法制造新型的垃圾 博客信息。因此垃圾博客的特征是高维且稀疏的,而且还会随着时间的增长,维 度越来越高,挖掘出特征之间的关联性的难度也越来越大。 垃圾博客的样本高度不均衡:垃圾博客样本和非垃圾博客的样本存在严 重的不均衡性;由于人工标注样本需要耗费大量的人力,而且垃圾博客隐藏在海 量的博客空间中,因此很难去发现大量的垃圾博客数据来作为训练样本。 实时性要求高:由于垃圾博客过滤主要用于信息检索领域和舆情分析领 域( 倾向性分析) ,因此对垃圾博客过滤需要较高的实时性。 4 第1 章引言 由于垃圾博客特征稀疏的特点,基于单一分类器的方法和基于简单集成的组 合分类方法难以在稀疏的数据空间中为垃圾博客数据集得到一个的准确描述,因 此分类效果不够理想,而且面对垃圾博客的样本高度不均衡的特点,它们都很难 采取有效地措施在较少的垃圾博客样本中训练得到效果很好的分类器。因此需要 专门为之设计出一种新的分类器,使得它能够很好的处理垃圾博客数据高维且稀 疏的特性,提高垃圾博客分类过滤准确率和分类速度。 1 3 本文的主要工作与内容安排 随着垃圾博客的急速增长,不仅在信息安全领域严重影响倾向性分析的结 果,而且还在信息检索领域严重影响了信息检索的准确性,从而使得用户体验变 得越来越差。因此,必须对博客进行垃圾过滤,以便进行进一步的分析和检索。 本文重点研究垃圾博客过滤的特征提取方法,以及动态组合分类器在垃圾博 客分类中的应用,并构建了一个基于垃圾博客过滤的信息检索原型系统。 论文的主要工作和特色有: 在已有的垃圾博客特征提取基础上,提出了采用词性分析手段对博客的 特征进行进一步提取的方法。首先考虑到在中文的语法结构中,一个句子由主谓 宾构成,尤其在口语话的语句中,还会有很多省略句,这些句子通常只有主语和 谓语或仅仅只有谓语;而且博客作者大都在博客文章中记录一些关于自己感兴趣 的事情,或者记录自己的心情和近况,在博客文章中会使用丰富的形容词和语气 词来表达自己;而垃圾博客通常只是为了提高用户的点击率或者希望通过增加链 接和关键词的方式来提升某个网页在搜索引擎中的重要程度,因此在文章中会出 现大量的名词,尤其是跟行业相关的专有名词。所以,通过对博客文章进行词性 分析,提取出跟词性相关的一些特征会大大增加特征之间的互补性,提高分类器 分类的效果。 设计了一种针对垃圾博客过滤的动态组合分类算法。该算法首先构造出 一种树状组合分类器结构来支持分类,并进一步利用了一种动态调整策略来训练 组合分类器。与已有的基于单一分类器或简单集成分类器的方法相比,该方法可 以根据样本的分布特点自适应地调整分类器的组合结构,从而有效缓解样本特征 稀疏和样本高度不均衡对分类性能的影响。基于垃圾博客的测试实验表明,该算 法在用于垃圾博客过滤分类时,可以获得较好的准确率和召回率。 设计并实现了一个基于博客内容的信息检索原型系统,并将垃圾博客过 滤用于此系统,取得了较好的效果。 本文共分为六章,各章节的内容安排如下: 5 第1 章引言 第一章引言 本章首先介绍了博客的背景知识,然后讨论了垃圾博客过滤研究的现状。 第二章垃圾博客数据特征提取 本章首先对垃圾博客的定义和特点进行了介绍,分析了垃圾博客的特点;然 后介绍了垃圾博客过滤中的一些关键技术,包括博客数据采集,内容预处理和特 征表示方法;最后详细叙述了垃圾博客的特征提取方法。 第三章面向垃圾博客过滤的动态组合分类算法研究 本章首先介绍了树状组合分类器的构建过程以及关键技术,然后对各个关键 技术进行了专门的设计,构建出了针对垃圾博客过滤的动态组合分类算法。 第四章垃圾博客过滤实验与分析 本章对第三章设计的面向垃圾博客过滤的动态组合分类算法进行了各种实 验,验证了动态组合分类算法在垃圾博客分类过滤应用中的效果。 第五章基于垃圾博客过滤的分布式博客信息检索系统 本章设计并实现了一个基于博客内容的信息检索原型系统,为了提高检索性 能和检索规模,系统采用了分布式框架:在系统中还将第三章设计的垃圾博客过 滤用于此系统,取得了较好的效果。 第六章总结与展望 本章对全文进行了总结,并讨论了进一步的工作。 6 第2 章垃圾博客数据特征提取 第2 章垃圾博客数据特征提取 对垃圾博客数据进行特征提取是垃圾博客滤的预处理操作之一,它将博客数 据转化为计算机能够识别的形式。本章首先对垃圾博客的定义和特点进行了介 绍,分析了垃圾博客的特点;然后介绍了垃圾博客过滤中的一些关键技术,包括 博客数据采集,内容预处理和特征表示方法;最后详细叙述了垃圾博客的特征提 取方法。 2 1 垃圾博客的定义 到底什么样的博客才是垃圾博客( s p a mb l o go rs p l o g ) ,垃圾博客的定义是什 么? 垃圾博客就是为了获得某些关键字在搜索引擎上排名的上升,而在免费注册 的博客中进行大量的复制文章、垃圾链接等欺骗搜索引擎和用户的手段以及发布 广告信息的形式来达到获利目的博客 w i k is p l o g 。垃圾博客的内容仅包含极少 的有用信息,为了商业目的而由机器程序生成或者从其他网页复制而成的博客 ( t a k e d a ,2 0 0 8 ) 。 垃圾博客产生的通常都含有商业的目的,动机主要包括以下两点: 提升垃圾博客所包含链接在搜索引擎中的排名,从而提高网站的知名度 和用户对网站的点击率。 发布大量广告信息来提高广告信息的点击量或者误导用户信从广告信息 提升广告产品的销量。 随着博客空间( b l o g o s p h e r e ) 的急速增长,垃圾博客也迅猛地蔓延到博客空间 的各个角落;而大量垃圾博客的存在,不仅极大的降低了博客内容的可信度,而 且还严重影响了信息检索的准确性,从而使得用户体验变得越来越差。因此,如 何精确的判断垃圾博客成为信息检索领域的亟待解决的难题之一。 另外,在信息安全领域,博客内容倾向性分析成为新的研究热点之一,但大 量垃圾博客的存在将严重影响倾向性分析的结果,大大降低其正确性和可信性。 因此,必须对博客进行垃圾过滤,以便进行进一步的分析和检索。 2 2 垃圾博客的特点 k o l a r ie ta l l ( 2 0 0 6 a ) 等根据垃圾博客生成形式和表现形式将垃圾博客分为多 类:关键字填充、内容拼接、内容剽窃、偷换链接、页面重定向等,其中最常见 的是内容垃圾。本文主要处理链接i f ( l i n kf a r m ) 和广告博客这两种类型的内容 垃圾博客。 7 第2 章垃圾博客数据特征提取 2 2 1 链接工厂博客 链接工厂一种惯用的欺骗搜索引擎的手法,它的产生源自p a g e r a n k 算法 ( p a g e1 9 9 8 ) 提出之后。p a g e r a n k 是一种查询无关的,用来评价网页权威性的一种 重要方法,它将链接分析技术应用到搜索引擎中,通过分析一个网页链接在整个 互联网中的出度和入度来评价一个网页的权威性。也就是说如果一个网页有许多 网页都指向它,那么它可能获得很高的权威性;如果一个网页被一个本身权威性 很高的页面所指向,那么它同样可能具有很高的p a g e r a n k 值。因此,一般网站 为了提成自己网站的权威性,通常可以采用交换链接的方法,寄希望通过链接互 相传递p a g e r a n k 来提升这个网页的权威性。而链接工厂不同于一般的交换链接, 通常链接工厂是指这样的一个页面:本身没有包含任何有价值的信息,除了人为 地罗列一堆指向其他网站的链接外,没有其他内容或者极少内容。链接工厂是通 过这样的纯粹用于交换链接、添加链接数量的方式来欺骗搜索引擎,达到提升网 站权威性的目的。 j 北京7 - 作服i 西服l 职业装i 文化衫陕克l 工麓l t 恤衫i 促销服讹京j 爱茇厂 u r l = h t t p w j y ”2 0 0 0 c o i 】北京公司注册【,i | r l 】【u z l = h t t p :m 1 a o c a i f e n c c o 曩】北京职业装 【u r l 】【u z l = h t t p :a w 1 a o c a i f e n # c 0 1 】北京文化衫【l 】【u r l = h t t p ,- w 1 a o c a i f e n g c o n 】北京西服 【1 】【u z l = h t t p :m 1 a o c a i f e n g c 】北京t 血衫【u r l 】【u z l = h t t p :_ r f 1 a o c a i f e n g c o n 】北京制服 f l 】 u l = h t t p , w 1 a o c a i f e n 2 c o m 】工作服 u r l 】【u z l = h t t p :m 1 a o c a i f e n g c o m 职业装【u z l u z l = h t t p :, w 1 a o c a i f e n g c o r n 促销服【u z l 】【u z l = h t t p :凡w 1 a o c a i f e n g c o i 制服【l 】 u z l = h t t p :1 w 1 a o c a i f e n c o l 】西服【,l 】【u z l = h t t p :,w - 1 a o c a i f e n g c o , , l j t 京衬衫【u z l u z l = h t t p :n 1 a o c a i f e n c o m 衬衫 u z l 】【世l = h t t p :w 1 a o c a i f e n c 甑】北京夹克【a = i 】 u r l = h t t p : h 1 a o c a i f e n 2 c 0 1 = | 匕京棉服【1 】 u z l = h t t p : w 1 a o c a i f e n g c o 】北京茄克【b 1 】 u z l = h t t p :a w 1 a o c a i f e n c c 0 1 北京服装厂 u z l u z l = h t t p :,w - 1 a o c a i f e n g c o i l 北京服装公司 【 e 1 】 u c l f h t t p :a w h z x 8 8 c n 】工作服 ,口l 】【u z l = h t t p : h z x 8 8 c n 】职业装f u z l 】 u z l = h t t p : n r h z x b 8 北京工作服【u r l 】【u z l = h t t p :m h z x 8 8 c n 西服【l 】 【1 - h t t p :- w h z x 8 8 c n 工作服【 z l 】【l _ h t t p : h = x 8 8 1 职业襞【u z l 】 l = h t t p :a w h z x 8 8 】文化衫【u z l 】【u z l = h t t p :m h z x 8 8 】北京1 恤衫【,u r l 】 u z l - - h t t p :, w h z x 8 8 c n ,】北京职业装【1 1 【u z l = h t t p :- h h z x s 8 c n ,1 北京工作服【1 】 u z l = h t t p :a w h z x 8 8 】北京文化衫【= i 】 u z l = h t t p :,- h z x 8 8 c n 工作服【,口l 】 u z l = h t t p : w h z z 8 8 c n 】职业装【,口l 】【u z l = h t t p :,- w h z x 8 8 c n 文化衫 u z l 】 u z l = h t t p :m h z x 8 8 】北京个阻衫 = 1 1 u z l = h t t p : w h z x 8 8 c n 北京职业装【u r l 】 f 1 - h t 切:, w h z x 8 8 】北京工作股【 9 1 】 l = h t t p : w h z x 8 8 c n 】北京文化衫【u r l 【1 - h t t p :,- w h z x 8 8 】工作股【,l 】【u z l = h t t p : w h z x 8 8 c n 职业装【u r l 】 u z l = h t t p :a w h z x 8 8 】文化衫【u z l 】 u r l = h t t p :,- h z x 8 8 1 托京1 恤衫【u = l 】 皿1 = h t t p :,w h z = 8 8 】北京职业装( ,l 】 u z l = h t t p :m h z x 8 8 c n 北京工作服【1 工作服, 王堡腿订饿,王盔壁设计,堑塞兰熊熙塾些量制服,加工壁蓦圆领衫,过艺亘臣塞壹衫,运动服,堡i 戡 保安服制作a 瞌球衣,题业丕马甲服务员服,团队服,防辐射服,防静电既制衣厂,工装,北京工 图2 1 链接工厂型垃圾博客 链接工厂博客是指在博客页面中堆砌大量的包含无意义关键字的内容信息, 并且将这些关键词指向某些网站的链接,最终达到提升被链接网站的链接广度以 及在搜索引擎中的排名的效果。图2 1 是一个垃圾博客的截图,该垃圾博客中堆 砌了大量的关键词和大量的u l u 链接。当该页面被搜索引擎索引时,会对该网 页所指向的u r l 链接做进步的采集和索引,不仅提高了这些u e l 的网页重要 8 第2 章垃圾博客数据特征提取 度,而且增加了这些网页被索引的概率。 2 2 2 广告博客 广告型垃圾博客是指在博客中放置大量的广告信息或其它网站联盟广告,利 用当前热门关键字进行内容复制来欺骗搜索引擎,增加被搜索的机率,以欺骗用 户点击广告,牟取广告费。 图2 2 是一个广告型垃圾博客的截图,图中标注的位置( 1 ) 是垃圾博客作者 放置的广告信息,用来欺骗读者,达到推广产品的目的;位置( 2 ) 是垃圾博客作者 从别处拷贝的正文以欺骗用户点击查看博文;位置( 3 ) 是垃圾博客作者放置的链 接工厂,用来欺骗搜索引擎,增加被搜索的机率。 精美小诗 汉唐电子( 上海) 有限公司 “ 专业生产控湿设备,防潮箱,干燥柜,防潮柜,氮气柜,烘箱 品牌高强,1 6 年研发历史,除湿科技,领先全球。提供专业控湿设备,优良品质 手机:1 3 9 1 7 2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 科学使用化肥农药课件
- 科学专用工具课件
- 2025年联邦学习模型更新频率考题(含答案与解析)
- 2025年交通AI信号配时动态优化(含答案与解析)
- 应急培训课件下载
- 药企化验专业知识培训课件
- 新质生产力的“三新”核心要素
- 科技赋能:新质生产力的要素助力
- 新质生产力:经济增长的新引擎
- 荨麻疹课件教学课件
- 政府会计制度应用课件
- 五年级上册美术教学计划
- 有色金属贵金属冶金
- 2020外研社高中英语选择性必修四课文翻译
- 西方文论课程教学大纲
- 应用化学专业英语词汇
- 外科医学—颅内和椎管内血管性疾病
- 井控设备(2015)
- 2022交通事故处理委托书范本
- 《建筑施工模板安全技术规范》JGJ162-2008讲稿(课件)
- 课题达成型初探讨ppt课件
评论
0/150
提交评论