




已阅读5页,还剩74页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
, 1 1 1 ;h引一, 学位论文数据集 中图分类号 t p 3 9 1 学科分类号 1 2 0 1 0 论文编号 1 0 0 l0 2 0 0 7 0 5 2 9 密级kl j 学位授予单位代码 1 0 0 1 0 学位授予单位名称北京化工大学 作者姓名守力学号 2 0 0 4 0 0 0 5 2 9 获学位专业名称计算机应用技术获学位专业代码 0 8 1 2 0 3 课题来源 校级项目研究方向搜索引擎 论文题目搜索引擎中网页查重方法的研究 关键词查重,b l o o mf ilt e r ,内容块,r a b i nf i n g e r p ri n t ,净化 论文答辩日期 2 0 0 7 - 6 - 10论文类型 应用研究 学位论文评阅及答辩委员会情况 姓名职称工作单位学科专长 指导教师 l 电 忍密麦 此拟读戳醍 缸;j 鲁小丸 评阅人1 o t s o 修 评阅入2 评阅人3 评阅人4 评阅人5 徽员蝴 答辩委员i 答辩委员2 答辩委员3 答辩委员4 答辩委员5 注:一论文类型:1 基础研究2 应用研究3 开发研究4 其它 二中图分类号在中国图书资料分类法查询 三学科分类号在中华人民共和国国家标准( g b t13 7 4 5 - 9 ) 学科分类与代码中 查询 四论文编号由单位代码和年份及学号的后四位组成 _ 摘要 搜索引擎中网页查重方法的研究 摘要 搜索引擎已经成为人们获取信息最主要的途径。与传统的获取信息 方式相比,搜索引擎返回的信息更快速、更便捷、更全面。搜索引擎已 经成为电子时代不可缺少的一部分。但是由于电子信息的特殊性,网络 上有很多重复的信息,即在不同的网页地址上内容却是相同的,或者大 体一致的。为了提高搜索引擎和用户检索的效率,网页查重的研究是非 常必要的。 网页查重主要包括两部分,一是对原始网页的处理,主要是对网页 噪音净化以及对网页主题信息的提取;二是对网页内容进行查重处理。 目前许多研究机构都在进行网页相似度的研究,也提出了一些相似度检 测的方法,主要有三种类型:u r l 分析、链接分析和内容分析。 本文首先介绍了已有网页净化方法,并详细介绍了课题研究采用的 j t i d y 净化方法。其原理是j t i d y 被p a r s e d o m 方法调用,得到一个x m l 文 档的i n p u t s t r e a m 类,并且形成一个d o m 树,再利用标准的d o ma p i 方法, 使用简单的语句对d o m 进行遍历,提取文档特定标签之间的内容以便建 立索引;然后介绍了网页相似度检测方法,对现有的方法进行了讨论分 析,并提出了使用b l o o mf i l t e r 基于内容的检测相似性的方法。其具体 过程是对净化后的网页文件,使用c d c 进行内容块的分割,使每个网页 成为许多内容块的集合。再对各个网页的内容块进行h a s h ,得到各个网 页的b l o o mf i i t e r ,并将其保存。通过新增网页的b l o o mf i l t e r 与已存 储的b l o o mf i l t e r 进行位与操作进行判定,如果达到给定阈值,则判断 为相似网页:最后介绍了网页查重的分析与实现,给出了算法中用到的 数据表文件,分析了相似程度对于相似文件数量的影响,查询词的流行 度对相似文件数目的影响,以及文档b l o o mf il t e r 产生时间和执行相似 度比较的响应时间。 关键词:查重,b l o o mf il t e r ,内容块,r a b i nf i n g e r p r i n t ,净化 北京化工大学硕士学位论文 摘要 t h es t u d yo fs e a r c he n g i n er e p l i c ad e t e c tm e t h o d s a b s t r a c t s e a r c he n g i n e sh a v eb e c o m et h em a i nm e a n so fa c c e s st oi n f o r m a t i o n f o rc o m p u t e ru s e r s ,c o m p a r e dw i t ht h et r a d i t i o n a lm e a n so fa c c e s st o i n f o r m a t i o n s e a r c he n g i n eg e ti n f o r m a t i o nm o r eq u i c k l y , m o r ec o n v e n i e n t a n dm o r ec o m p r e h e n s i v e s e a r c he n g i n e sh a v eb e c o m ea ni n d i s p e n s a b l ep a r t o ft h ee l e c t r o n i ca g e h o w e v e r , b e c a u s eo ft h es p e c i a ln a t u r eo ft h e e l e c t r o n i ci n f o r m a t i o nn e t w o r k , t h e r ea r eal o to fd u p l i c a t i o no fi n f o r m a t i o n i nt h ew e bs i t e ,t h a tc o n t e n ti st h es a m e ,o rr o u g h l yt h es a m ei nd i f f e r e n t u r l f o re f f i c i e n to fu s e r sa n ds e a r c he n g i n e t h ew e br e p l i c ad e t e c ti sv e r y n e c e s s a r yt os t u d y t h ew e br e p l i c ad e t e c tm a i n l yc o n s i s t so ft w op a r t s :f i r s t d e a lw i t ht h e o r i g i n a lw e b s i t e ,m a i n l yt h ew e bn o i s ep u r i f i c a t i o na n de x t r a c t i o no ft h e t h e m eo ft h ew e bo nt h ew e b s i t e t h eo t h e ri sm o r ee m p h a s i so nt h er e p l i c a d e t e c tf o rc o n t e n to ft h ew e b m a n yr e s e a r c hi n s t i t u t i o n sa r ec a r r y i n go u t r e s e a r c hw e bs i m i l a r i t y , b u ta l s op u tf o r w a r dan u m b e ro fm a t u r es i m i l a r i t y d e t e c t i o nm e t h o d s ,w e bs i m i l a r i t yd e t e c t i o nm e t h o di sm a i n l yd i v i d e di n t o t h r e ea s p e c t s :u r la n a l y s i s 1 i n ka n a l y s i sa n dc o n t e n ta n a l y s i s t h i sp a p e ri sd i v i d e di n t of o u rs e c t i o n s ,t h ef i r s tc h a p t e rd e v o t e dt ot h e s u b j e c tb a c k g r o u n d ,t h em a i nt a s ko ft h es u b j e c t t h es e c o n dc h a p t e r d e s c r i b e st h ee x i s t i n gp a g e sp u r i f i c a t i o nm e t h o d s ,t h eu s eo ft h ew e bj t i d y p u r i f i c a t i o n t h ep r i n c i p l ei sj t i d yw a st r a n s f e r r e db yp a r s e d o mm e t h o d , g e tai n p u t s t r e a mc l a s so fx m lf i l e ,a n dc r e a t e ad o mt r e e t h e nu s e s t a n d a r dd o ma p im e t h o d s ,u s es i m p l es e n t e n c e sf o rd o mt r a v e r s a l e x t r a c tc o n t e n t sb e t w e e ns p e c i f i cl a b e l sw h i c ha r ew a n t e dt o c r e a t et h e i n d e x e df i l e c h a p t e r3p r e s e n t st h ew e bs i m i l a r i t yd e t e c t i o nm e t h o d ,t h e e x i s t i n gm e t h o d sa r ed i s c u s s e d ,p r o p o s eb l o o mf i l t e rt e s t i n gs i m i l a rm e t h o d s w h i c hi sc o n t e n t b a s e d a f t e rn o i s ep u r i f i c a t i o no fw e bw a se x t r a c t e do ft h e t h e m eo ft h ew e b 。u s i n gc d cd i v i s i o ne a c hd o c u m e n ta n dd o c u m e n t i n 卜 北京化工大学硕士学位论文 b e c o m es om a n ye l e m e n t so ft h es e tw h i c hi sp i e c e so fc o n t e n t h a s h i n ga l l c o n t e n tb l o c k so fw e b ,t h e ne a c hw e bo w nab l o o mf i l t e r , b l o o mf i l t e r so f w e b sw i l lp r e s e r v e d w h e nt h en e ww e bw a sc a p t u r e d ,i na c c o r d a n c ew i t h t h ea b o v es t e p si t sb l o o mf i l t e rw i l lb ea c h i e v e d a n dc o m p a r ee v e r yb i tw i t h t h eb l o o mf i l t e ro ft h ew e bh a sb e e ns t o r e di ns t o r a g e i fm o r et h a n7 0 o f t h ev e c t o ri ss a m ew h i c hi s1 ,s ot h a tt h ew e bi sac o p y c h a p t e r4i sa n a l y s i sa n di n v e s t i g a t i o no fw e br e p l i c ad e t e c t ,g i v e st h e d a t as h e e tp a p e ro ft h ea l g o r i t h mu s e dt oa n a l y s i ss i m i l a ro fd o c u m e n t , a n a l y s i ss i m i l a rg r a d ei n f l u e n c et os i m i l a rw e bq u a n t i t y , a n dt h ei n f l u e n c eo f k e y w o r d sp o p u l a r i t yt ot h en u m b e ro fs i m i l a rd o c u m e n t s ,a sw e l la st i m eo f b u i l d i n gab l o o m f i l t e ra n dt h er e s p o n s et i m eo fs i m i l a r i t yd e t e c t i o n k e y :r e p l i c ad e t e c t ,b l o o mf i l t e r ,c d c ,r a b i nf i n g e r p r i n t ,p u r i f i c a t i o n i v 目录 目录 第一章绪论1 1 1 课题背景及意义l 1 2 网页查重所面临的问题2 1 3 本课题的任务0 oo0000 3 第二章网页净化5 2 1 网页净化方法分析6 2 2 可视布局信息法7 2 3 利用d o mt r e e 进行网页净化8 2 3 1x m l 及其结构特征和模式9 2 3 2d o m 1 2 2 3 ,3x p a t h 介绍1 5 2 3 4j t i d y 介绍0 0 10 00 1 6 2 3 5 使用j t i d y 进行网页净化1 7 第三章网页相似性检测方法_ 2 5 3 1u r l 分析一”- 2 6 3 2 链接分析2 6 3 2 1 单个网页相似性分析2 6 3 2 2 网页集合相似度分析方法2 7 3 3内容分析3 l 3 3 1d s c 和d s c - s s 方法3 1 3 3 2i - m a t c h 方法o oo o ”一“”3 2 3 3 3 基于关键词匹配的向量空间模型的检测方法3 3 3 3 4 三种相似性检测方法的分析与比较3 4 3 4 基于b l o o mf il t e r 的相似性检测方法3 5 3 4 1 网页特征项的粒度分析3 5 3 4 2r a b i nf i n g e r p r i n t s 介绍3 7 3 4 3 使用b l o o mf i i t e r 查重3 8 3 4 4 基于内容的内容块3 8 3 4 5h a s h “一”“”“”“3 9 v 北京化工大学硕士学位论文 3 4 6b l o o mf il t e r 0 0 0 0 00 3 9 3 4 7 利用b l o o mf il t e r 测试相似性4 2 第四章网页查重的分析与实现4 5 4 1 分析b oom mooooo oo l0 0 0 0 4 5 4 2 网页查重的实现4 6 4 2 1 设备和对象4 8 4 2 2 b l o o mf i l t e r 的确定4 8 4 2 3 相似度的影响4 8 4 2 4 查询词的影响4 9 4 2 5 响应时间5 1 第五章课题总结5 3 参考文献5 7 致谢6 1 攻读硕士学位期间发表的论文6 3 作者和导师简介6 4 弩 l 目录 d i r e c t o r y c h a p t e ro n e :i n t r o d u c t i o n 1 1 1s u b j e c t b a c k g r o u n d 1 1 2p r o b l e mi nf a c eo f r e p l i c ad e t e c t :! 1 3s u b j e c tt a s k :i c h a p t e rt w o :w e bn o i s ep u r i f i c a t i o n 5 2 11 w j e bn o i s ep u r i f i c a t i o na n a l y s i s 6 2 2v i s u a ll a y o u ti n f o r m a t i o nm e t h o d s 7 2 3d o m 1 i i e e u s e d f o r w e b p u r i f i c a t i o n 8 2 3 1mc h a r a c t e r i s t i c sa n dp a t t e r n so f x m l 9 2 3 2d o m 1 2 2 3 3i n t r o d u c e x p a t h 1 5 2 3 4i n t r o d u c ey r i d y 1 6 2 3 5 用d y u s e df o r w e bp u r i f i c a t i o n 1 7 c h a p t e rt h r e e :w e bs i m i l a r i t yd e t e c t i o nm e t h o d s 2 5 3 1u r la n a l y s i s 2 6 3 2l i n ka n a l y s i s :1 6 3 2 1r e p l i c a d e t e c t o f a w e b :1 6 3 2 2s i m i l a rw e bs e td e t e c tm e t h o do f c o m p a r a b i l i t y 2 7 3 3c o n t e n ta n a l y s i s 3 1 3 3 1d s ca n dd s c - s sm e t h o d 3 1 3 3 2i - m a t c hm e t h o d 3 2 3 3 3d e t e c tm e t h o db a s e dv e c t o rs p a c em o d e lo f k e ym a t c h 3 3 3 3 4 a n a l y z ea n d c o m p a r e o f t h r e e r e p l i c a d e t e c t m e t h o d 3 4 3 4s i m i l a r i t yd e t e c t i o nm e t h o db a s e do nb l o o mf i l t e r :;! i 3 4 1 g r a n u l a r i t ya n a l y z eo f w e bc h a r a c t e r 3 5 3 4 2r e b i nf i n g e r p r i n t si n t r o d u c t i o n 3 7 3 4 3b l o o mf i l t e r o f r e p l i c ad e t e c t :;8 3 4 4c d c :1 8 3 4 5h a s h :1 5 i 卜l 北京化工大学硕士学位论文 3 4 6b l o o mf i l t e r :1 9 i 3 4 7r e p l i c ad e t e c tu s i n gb l o o mf i l t 盯4 2 c h a p t e rf o u r :w e br e p l i c ad e t e c ta n a l y s i sa n di m p l e m e n t a t i o n 4 5 4 1a n a l y z e 4 5 4 2 w e br e p l i c a d e t e c t i m p l e m e n t a t i o n 4 6 4 2 1e x p e r i m e n te n v i r o n m e n t 4 8 4 2 2c o n f u mb l o o mf i l t e r 4 8 4 2 3s i m i l a r i t yg r a d ei n f l u e n c e 4 8 4 2 4t h ei m p a c to f i n q u i r i e sk e y s 4 9 4 2 5r e s p o n s et i m e s 5 1 c h a p t e rf i v e :s u m m a r y ! ;:i r e f e r e n c e ! ;7 t 1 1 a n k s 6 l r e s e a r c ha n d p o s t e dp a p e r s 6 3 i n t r o d u c t i o no f a u t l l o ra n dt m o r “ v 第一章绪论 1 1 课题背景及意义 第一章绪论 在电子信息如此发达的时代,越来越多的人选择使用网络搜索引擎来获得 自己需要的信息。只需要打开电脑,敲入查询词,需要的信息随即而来。网页搜 索已经成为人们获取w e b 信息的主要手段。搜索引擎为用户带来便利的同时,也 给用户带来了烦恼。网上获取的信息有很高程度的内容重复现象,这影响了搜索 引擎的性能。 搜索引擎理论上遍历了整个网络,返回的信息自然是比较全面的,这里面当 然也充斥着重复的内容。研究表明在1 5 0 0 0 0 0 0 0 0 样本页面中大约2 9 2 的数据是 互相共有的【1 1 。相似的数据可以被聚集或者排除。但是重复网页形式的多样,使 得通用搜索引擎返回的结果中,仍然有很多重复内容。 为了方便用户的使用,提高搜索引擎的效率,需要有一种方法能够把返回给 用户的信息进行处理,使得信息准确而又不重复。于是网页查重这一课题被提了 出来,根据搜索引擎不同的工作阶段,可以在不同的时机进行查重根据不同的 查重要求可采用不同的策略。 重复内容网页指的是两个或多个网页内容相同,或非常相似一般来说,搜 索引擎不喜欢重复内容网页,会尽量判断哪一个是原始版本,然后对其他的复制 网页不做处理。有两点值得注意: ( 1 ) 复制网页的判断并没有一个比例。比如说一个网页上有6 0 或8 0 的内 容和其他网页相同,就被列为复制网页。 ( 2 ) 复制网页并不会带来惩罚。搜索引擎会丢掉其他的复制网页,但不会惩 罚搜索引擎认为的原始出处。 不过这就有可能对真正原始出处产生不好的后果比如搜索引擎判断错误, 把原始出处当成复制的,而把复制的当成原始出处。 复制内容网页的出现一般有如下可能性: ( 1 ) 代理商和零售商的网站经常从产品生产商的网站上抄下产品信息。绝大 部分代理商、零售商、批发商都会直接复制网页信息,而不做改动。所以这些电 子商务网站上充斥着大量复制内容网页。 ( 2 ) 网页内容由r s s 生成。r s s 是在线共享内容的一种简易方式( 也叫聚合 内容,r e a l l ys i m p l es y n d i c a t i o n ) 有很多网站,尤其是新闻类网站,都是 北京化工大学硕士学位论文 用其他网站的r s sf e e d 来生成网站内容的,这些内容在原始出处和很多其他网 站上都已经出现了。 ( 3 ) 电子商务网站使用s e s s i o ni d 。搜索引擎蜘蛛在不同时间访问网页的时 候,被给了不同的s e s s i o ni d ,但实际上网页内容是一样的。不过由于s e s s i o n i d 的参数不同,就被当成了不同的网页。 ( 4 ) 网页实质内容太少。每个网页上都不可避免的有通用的部分,比如导航 条,版权声明等等。如果网页的正文部分太少,数量还抵不上这些通用部分,就 有可能被认为是复制内容网页。 ( 5 ) 文章抄袭转载等。有的时候是其他人抄袭了你的网站内容,有的时候是 善意的转载,有的时候是作者自愿地向不同的网站发送文章,这些都有可能造成 复制内容网页。 ( 6 ) 镜象网站。镜象网站曾经很流行,当一个网站太忙太慢的时候,用户可 以通过替代镜象来看内容或下载,这也有造成复制内容网页的风险。 ( 7 ) 产品或服务类型之间区别比较小。比如有的网站把自己的产品或服务按 地区进行分类,但实际上提供给每个地区的产品或服务都是一样的。在这些按地 区分类的网页上,只是把地名改了改,其他内容全都一样。 1 2 网页查重所面临的问题 网页查重技术起源于复制检测技术。所谓复制检测,就是判断一个文件的内 容是否抄袭、剽窃或者复制于另外一个或者多个文件。s i f i 具,文本复制检测 机制c o p s ( c o p yp r o t e c t i o ns y s t e m ) 系统,s c a m ( s t a n f o r dc o p ya n a l y s i sm e t h o d ) 原型系统,k o a l a 系统和s h i n g l i n g 方法都是用于复制检测技术的。这些系统所使 用的原理和网页查重所使用的原理是相同的【御。 现在对于副本的定义并不精确,比如可以将其定义为精确的句法上的一致, 没有任何组织上的不同。现在被承认的定义是:如果某文档包含了和另一文档相 同的语义内容,则其就是重复的。 当搜索网页上的信息时,可能会有人认为只要匹配u r l 的信息就可以识别出精 确的副本,但是现在很多站点有不止一个名字。由于独一无二的文档识别标志在 互联网中是不可能实现的,所以想要得到不冗余的检索结果,对于重复信息的检 测是很必要的。 文献 m o d e l sa n da l g o r i t h m sf o rd u p l i c a t ed o c u m e n td e t e c t i o n1 9 9 9 年 将内容重复归结为以下四个类型: ( 1 ) 如果2 篇文档内容和格式上毫无差别,则这种重复叫做f u l l - l a y o u t 2 第一章绪论 d u p l i c a t e , ( 2 ) 如果2 篇文档内容相同,但是格式不同,则叫做f u l l - c o n t e n td u p l i c a t e s 。 ( 3 ) 如果2 篇文档有部分重要的内容相同,并且格式相同,则称为p a r t i a 卜l a y o u t d u p li c a t e s 。 ( 4 ) 如果2 篇文档有部分重要的内容相同,但是格式不同,则称为 p a r t i a l c o n t e n td u p l i c a t e s 。 相似的数据可以被聚集或者排除。但是重复网页形式的多样,使得通用搜索 引擎返回的结果中,仍然有很多重复内容。相似网页不仅仅指内容完全一样,部 分相同也可以认为网页是相似的。另外网上文档呈现方式多种多样,需要提取各 种格式文档的文本。有时搜索结果可能因为重新更改结构和重定格式数据而呈现 出完全不同。例如,一个站点可能将一个文档格式变成一个多重的网页,第一级 的页面只包含文档的一个片段和指向剩下部分的下面的连接,而另一个网址可能 在同样的网页上有完整的文档。应当找到一种有效的探测技术探测那些“包含” 文档并且能标记为相似。网页相似检测有广阔的应用前景,但是重复网页的多样 化以及搜索引擎工作负荷的增加也给查重技术提出了很大的挑战 孝 o 处理重复的文档必然会影响到搜索引擎的精确度和效率。检索用户查询结果 中的重复文档也会减少提供给用户的可靠信息量,即降低了结果的精确度。而且 检索重复的文档需要额外的计算量,对用户而言,这些计算是不可见的,用户不 可能察觉到结果被处理过,如果时间需要太多,用户会认为系统效率很低。 对于搜索引擎而言,精确度和效率相比还是效率较为重要,站在用户的角度, 结果的好坏,用户有可能根本就察觉不到,但是如果搜索速度太慢,用户会立刻 察觉到。如果目的是检测网页的更新程度或者是剽窃检测和复制检测,那么精确 度更为重要。 所以网页查重所面临的主要问题是:如何使用有效的算法提高查重速度,同 时尽可能地提高结果的精确度。 1 3 本课题的任务 本论文的主要目的是检测和发现更多重复的或者相似的页面,去除网页中与 主题无关的内容,广告,版权信息等;消除镜像站点和转载复制。使搜索引擎返 回给用户的结果,丰富而不冗余。使用户不用处理大规模重复的信息,在节约时 间的同时也提高了信息检索的效率。这里说到的重复页面并不是说内容,格式完 全相同的页面。内容基本相似的都应当属于需要排除的网页范围内。 将网页划分成一个一个的内容块,有的内容块包含着主题内容,有的主题块 3 北京化工大学硕士学位论文 则包含着噪音。一个内容块中的内容是集中的,所以可以对整个内容块保留或者 删除来对网页内容进行净化。x m l 是一种标识语言,定义了一套标签,来表示页 面的布局。 在x m l 文件中,x m l 标识对于最终获得网页的内容是冗余信息,需要被过 滤掉。 需要对某些x m l 字段进行提取,比如t i t l e 、b o d y 。 x m l 标识对判断信息重要性提供强有力提示,比如字体大的信息要比字体 小的信息重要,粗体信息要比普通体信息重要等。 本课题的任务主要有两个:一个是净化页面,另一个就是使用b l o o mf i l t e r 检测和重复或相似的页面。 对于网页净化,采用的方法是对开源项目j t i d y 的二次开发,t i d y 是w 3 c 用来解析网页的- 个软件包,可以方便地x m l 文档转换为符合x m l 标准的文档, 由于x m l 可以方便地使用x s l t 技术对内容进行抽取,所以使用t i d y 配合x s l t 可以方便地将各种网页的内容抽取出来,编辑成需要的格式。然后,通过x p a h t 和x s l t 将需要的内容抽取出来。 网页查重部分,使用b l o o mf i l t e r 技术进行。首先c d c 将文档切分为变长 的内容片断,切分边界由r a b i nf r i n g e r p r i n t 和预先制定的m a k e r 数值匹配来 进行判断。 对于切分的片断进行编码。b l o o mf i l t e r 的编码方式如下:整个文档是由 片断构成的,文档由长为m 的二值数组表示。在将一个元素( 内容片断) 进行编 码插入集合的时候,利用k 个不同的h a s h 函数进行编码,每个h a s h 函数设置m 个向量的某个位置为l 。这种技术以前主要用来进行判断某个元素是否被集合包 含。对于两个已经编码的文档( 两个长度为m 的二值数组) ,通过b i t 逻辑运算 a n d 计算,如果两者很多位置都同时为1 ,那么两个文档被认为是近似的。 4 i d e r 发回 处理包括 无关的内 以备用户 提出查询请求时,及时地提交查询信息。网页的格式有很多种,h t m l 是常见的网 页格式,除此之外还有w o r d ,p p t ,p d f 等等格式。网页上的信息资源形式多种多样, 但是搜索引擎最后的处理,是需要对统一的文本格式文档进行操作,这就需要对 网页上信息格式进行统一标准。w o r d ,p p t ,p d f 格式的文件,与h t m l 格式网页比较 而言,其主题内容更加的集中,基本上打开文件后,就是正文部分,噪音部分非 常少,所以对这些格式的网页,并不讨论网页净化的部分。本文只对h t m l 网页净 化进行分析。h t m l 本身不具备自描述的特性,因此页面在书写时负责显示和承担 主题描述的信息混在一起,并且设计者可随意把各类内容加入到页面中。因此网 页中充满与主题无关的噪音是个常见的现象。噪音根据其划分粒度的不同,可从 整个w e b 和单一页面本身来加以定义。在一个网页内与主题内容无关的区域,这 些噪音包括广告,导航条,修饰图等。在一个页面中常见噪音信息包括这样几类 【3 】 导航类:为了维持网页间的链接关系,方便浏览者对网站进行浏览而设置的 链接。 修饰类:为了美化页面而采用的背景,修饰图片,动画等,如站点标志图片,广 告条。 交互类:为了收集用户提交信息或提供站内搜索服务的表单等,如在线的问 卷调查表。 其它类:网页中声明的版权信息,创建时间,作者等描述性信息。 虽然网页中的噪音很多,且网页设计没有统一规范,但设计者大部分都将噪音 信息放在页面中的次要位置,以突出主题。如版权信息一般在页面底部,广告栏一 般在顶部等,这种设计习惯也为利用布局信息去除噪音带来了便利。噪音内容通 常分布在主题内容的周围,以链接导航文字的形式出现。网页净化就是对网页进 行消噪,是搜索引擎建立索引前一个重要的过程。 5 北京化工大学硕士学位论文 2 1 网页净化方法分析 在网页净化的工作中,可以看到两类情形:一个是基于一个或多个网站中的 页面集进行页面的模板检测,把为了生成页面而在网站中使用的模板作为噪音由 页面中去除。另一个是基于单一页面的处理,根据所处理页面的d o m 结构,可视信 息等应用一些启发性规则对页面内的噪音去除。 可以通过一种简单的方法来进行网页净化。h t m l 文件的每个部分都是由标记 确定的,标记以 开始,以 结束。开始标记和结束标记确定了一个区域, 因为网页的内容也是一段一段的,这样在读取文件时,可以在遇到开始标记时, 将缓存区清空,这样在读到结束标记前,缓存区中只包含这个标记区域内的内容, 当读到结束标记 时,判断前面读到的内容是否是应该保留的正文内容,是 则保留,不是则去除。可以根据文字是否包含旬末标点,来判断文字是否为正文。 如图2 - 1 中语法分析算法流程。 图2 - 1 语法分析器算法说明 f i g2 - 1s y n t a xp a r s ea r i t h m e t i c s t r i n gg e t c o n t e n t ( ) p = o : q = o : w h il eb u f f e rt p ! = 0 6 第二章网页净化 i f b u f f _ e r p = 2 2 可视布局信息法 该方法利用一个页面显示算法去获得布局信息,并进行页面划分。页面设计 布局上的常规做法,通常设计者在设计页面时会先进行布
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 自动控制原理(第2版)(余成波-张莲-胡晓倩)习题全解及MATLAB实验-第1、2章习题解答
- 计量管理制度范文
- 湖南省株洲市攸县第三中学2024-2025学年高三下学期5月期中地理试题(含答案)
- 设备操作规程汇编
- 高一年级5月月考地理 试题
- 幼儿园 疫情防控主题班会教案
- 建筑施工特种作业-建筑起重机械安装拆卸工(塔式起重机)真题库-3
- 建筑施工特种作业-建筑焊工真题库-5
- 厦门物理初中题目及答案
- 日语初级助词题目及答案
- 炸鸡店的产品创新与口味调研
- 2025年共享办公空间增值服务运营模式创新与产业链创新模式报告
- 电气控制柜面试题及答案
- 药房药品追溯管理制度
- 陕西省铜川市2025年八下英语期末监测试题含答案
- 缺血性卒中脑保护中国专家共识(2025)解读
- 2025年福建省厦门市中考物理模拟试卷
- 海洋垃圾资源化利用与环境影响评估-洞察阐释
- IEC60335-1中文版本大全
- 代谢相关脂肪性肝病防治指南2024年版解读
- 物业管理定价策略与实施路径
评论
0/150
提交评论