(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf_第1页
(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf_第2页
(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf_第3页
(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf_第4页
(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf_第5页
已阅读5页,还剩61页未读 继续免费阅读

(计算机应用技术专业论文)基于标签特征向量的网页去噪声研究及其应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于标签特征向量的网页去噪声研究及其应用 摘要 作为i n t e r n e t 主要载体的网页( w e bp a g e ) ,其内容丰富多彩,很多与网页 主题无关的内容,如网页模板、文字链广告、版权信息等网页噪声对信息提取的 准确性造成了很大影响。 目前已经有一些网页文本去噪声模型及方法,并且这些模型和方法对某种类 型的网页能够取得不错的效果,如c s s 模型和基于视觉分块的方法。但这些模型 和方法也存在一些问题:这类方法往往局限于一类网页,过多的阈值设定,缺乏 通用性。 本文提出了基于网页标签特征的文本去噪声方法,具体方法如下: 首先,对网页叶子节点建立特征向量集合。由于网页标签的不规范使用,使 得有些标签节点是文本和其他标签的混合节点,为了防止文本信息丢失,对d o m 树进行正则化。按照特征定义对d o m 树进行标注,遍历d o m 树建立特征向量集合。 其次,对特征集合进行聚类。根据得到的向量集合,采用聚类算法进行聚类, 得到k 个类。 最后,选取具有较强文本特征的类,选取中心向量的模最小的那个类作为目 标类,并且进一步去噪声。 基于网页标签特征的模型具有两个特性。第一,将网页节点转变成空间的点, 从而使得当前流行的数据挖掘技术,如聚类算法,能够成功地应用到网页去噪声 的方法中。这也是本文的一个重要贡献。第二,该方法是一种局部性方法,也即 不需要对许多网页建立模型。 基于网页标签特征的模型能够有效克服其他一些方法的不足:该模型主要使 用了聚类个数这一参数,对参数的依赖较小;该模型不局限于某类网页;通过类 的特征还可对网页进行分类。 实验表明,该方法能够对不同类型的网页去噪声,并且取得很好的效果。 关键字:网页去噪声;文本提取;标签特征向量;聚类;标签树 基于标签特征向量的网页去噪声研究及其应用 a b s t r a c t t h ei n t e r n e tp r o v i d e su sa l lk i n d so fi n f o r m a t i o np u b l i s h e da sw e bp a g e s h o w e v e r , al a r g ea m o u n to fn o i s eu s u a l l yg o e sw i t ht h eu s e f u li n f o r m a t i o n ,s u c h 嬲 n a v i g a t i o np a n e l s ,a d v e r t i s e m e n t s ,c o p y r i g h tn o t i c e s ,e t c t h e r ea r es o m em e t h o d sw h i c hc a l lr e m o v et h ew e bn o i s ea n da c h i e v eag o o d r e s u l t ,s u c ha st h ec s sm o d e la n db l o c k - b a s e dv i s u a la p p r o a c h h o w e v e rt h e s e m e t h o d ss t i l lh a v es o m ep r o b l e m s t h e s em e t h o d sa r eo f t e nl i m i t e dt oac e r t a i nt y p e o fw e bp a g e s s o m ea p p r o a c h e sn e e dt os e tal o to ft h r e s h o l d st ow o r k s o m em o d e l s l a c kg e n e r a l i t i e s i nt h i sp a p e r , w ep r o p o s eat a gf e a t u r ev e c t o rt od e a l 、析t ht h ew e b p a g en o i s e f i r s to fa l l ,e s t a b l i s ht h ev e c t o rs e to ft h el e a fn o d e so ft h ed o mt r e e m i x e d n o d e so c c u rb e c a u s eo fn o n r e g u l a ru s eo ft a g s n o r m a l i z et h ed o mt r e et o a g a i n s tl o s tt h eu s e f u lt e x t u a li n f o r m a t i o n b yt h ed e f i n i t i o no ff e a t u r e s ,t r a v e r s et h e d o mt r e ea n dm a r kt h en o d e sw i t hf e a t u r e sv a l u et ob u i l df e a t u r ev e c t o rs e t s e c o n d l y , u s ec l u s t e r i n ga l g o r i t h mt oc l u s t e rt h ef e a t u r ev e c t o rs e ti n t ok c l a s s e s f i n a l l y , s e l e c tt h ec l a s sw h i c hh a st h es t r o n gt e x tc h a r a c t e r i s t i c sa n dt a k eaf u r t h e r s t e pt od e a lw i t hn o i s eo ft h et a r g e tc l a s s t h i sa p p r o a c hh a st w of e a t u r e s f i r s t ,a sa ni m p o r t a n tc o n t r i b u t i o no ft h ep a p e r , t a k et h ew e bn o d e si n t os p a c ep o i n t s ,s ot h a tt h ec u r r e n tp o p u l a rd a t am i n i n g t e c h n i q u e s ,s u c ha sc l u s t e r i n ga l g o r i t h m ,c a nb es u c c e s s f u l l yu s e d s e c o n d l y , i ti sn o t n e e dal a r g en u m b e ro f p a g e st oe s t a b l i s ht h em o d e l i tc a ne f f e c t i v e l yo v e r c o m et h es h o r t c o m i n g so fs o m eo t h e rm o d e l s f i r s to fa l l , t h i sm e t h o do n l yu s e so n ep a r a m e t e rr a t h e rt h a nm a n yo n e s ,s oi tm a k e sl e s s d e p e n d e n c eo nt h ep a r a m e t e r s s e c o n d l y , t h em o d e li sn o tl i m i t e dt oac e r t a i nt y p e so f w e bp a g e s e x p e r i m e n t a lr e s u l t ss h o wt h a tt h i sm e t h o dc a nb eu s e dt or e d u c en o i s ew i t ha g o o dr e s u l tf o rd i f f e r e n tt y p e so fw e bp a g e s k e y w o r d s :w e bp a g en o i s er e d u c i n g ;t e x te x t r a c t i o n ;f e a t u r ev e c t o r ;c l u s t e r ;d o m t r e e i v 基于标签特征向量的网页去噪声研究及其应用 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果。据我所知,除文中已经注明引用的内容外,本论文 不包含其它个人已经发表或撰写过的研究成果。对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意。 作者签名:睡墨垂三 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版。有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅。有权将学位论文的内容编入有关数据库进 行检索。有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 学位论文作者签名:隐基兰 导师签名: 日期:垄! 旦牟i 圣笪! 臼 i i i 基于标签特征向量的网页去噪声研究及其应用 o r i g i na l i t yn o t i c e i n p r e s e n t i n g t h i st h e s i si n p a r t i a l f u i f i l l m e n to ft h e r e q u i r e m e n t s f o r t h em a s t e r s d e g r e e a te a s tc h i n an o r m a l u n i v e r s i t y , 1w a r r a n tt h a tt h i st h e s i s i s o r i g i n a la n da n yo ft h e t e c h n i q u e sp r e s e n t e di nt h et h e s i sh a v eb e e nf i g u r e do u tb ym e a n y o ft h er e f e r e n c e st ot h ec o p y r i g h t ,t r a d e m a r l 【 p a t e n t ,s t a t u t o r yr i g h t , o rp r o p r i e t yr i g h to fo t h e r sh a v eb e e ne x p l i c i t l ya c k n o w l e d g e da n d i n c l u d e di nt h er e f e r e n c e ss e c t i o na tt h ee n do ft h i st h e s i s s i g n a t u r e :隧d a t e :垫! 嗡; 馏 c o p y r i g h t n o t i c e ih e r e i na g r e et h a tt h el i b r a r yo fe c n us h a l lm a k ei t sc o p i e s f r e e l ya v a i l a b l ef o ri n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n g o ft h et h e s i si sa l l o w a b l eo n l yf o rs c h o l a r l yp u r p o s e s ,i np a r t i c u l a r , s t o r i n gt h ec o n t e n to ft h i st h e s i si n t or e l e v a n td a t a b a s e s ,a sw e l la s c o m p i l i n ga n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s , c o n s i s t e n tw i t h f a i ru s e a sp r e s c r i b e di nt h ec o p y r i g h tl a wo ft h e p e o p l e sr e p u b l i co fc h i n a a u t h o rs i g n a t u r e : d a t e : 黟名丰z l 厂卜d 二 d i r e c t o rs i g n a t u r e : d a t e : 雏和 4i 目 革十标签特向i 的m 去噪声研究其j 训日 第一章网页去噪声概述 本章综述网页去噪声的研究背景和意义;简述网页模型:分析网页噪声的场 景和分类;叙述研究现状。 11 研究背景 互联网及其应用发展 目前,i n t e r n e t 的内容量正爆炸性地增长。 据伞球著名网站托管检测机构n e t c r a f t 统计数据 1 ,全球网站数已达2 3 亿个。 根据c n n i c 的统计,截至2 0 0 8 年底,中国的网站数达到2 8 7 8 万个较2 0 0 7 年增长9 1 4 ,是2 0 0 0 年以来增长最快的年。如图卜1 是我国近年来网站数 量的变化情况 2 。 喾 世 枯 ! 世世世世世 虽虽暑虽量 量善黾量 匡亟巫三玉国 l 蜘 加 m 图卜12 0 0 02 0 0 8 年我国网站数量的变化情况 t n t e r n e t 上的资源包括网页、各种文档和数据库。其中最重要的是网页最 主要原因在于大部分网页对于公众是丌放的。 截至2 0 0 8 年底,中国网页总数超过1 6 0 亿个,较2 0 0 7 年增k9 0 。网页的 增长速度与网站的增速基本一致。图卜2 是近年来我国网页数量的变化情况 2 。 ,_im ii j _ | m 挪曩 m i 计如抛拼m瑚。 * 十杯笠特向i 的m j l 古噪声研究拉e 应用 一墨 饕垫彗崔譬甚营 晶品晶昌蜀 晶晶 匡亟亟三互圈 闰卜22 0 0 2 2 0 0 8 年中国网页规模变化 为将这些浩如炯海的信息提供给人们。i n t e r n e t 提供两大类服务和应用; 第一类是p u l l p u s h 服务。主要是h t t p 和e - m a i l 应用。这类服务主要由各 大网站提供。包括大众化站点、专业站点咀及_ i = 业r j 户。人们主要通过阅站点提 供的网页来获耿信息。 第二类是提供更加专业的应用系统。这类系统对i n t e r n e t 上的信息进行加 工、分类、建立索引和归档,以支持基于关键字的查询。 在这砦应用中,信息检索( i n f o r m a t i o nr e t r i e v e ) 和网络舆情分析越来越 得到研究机构的重视。信息检索成为盘找相关信息的便捷工具;而删络舆情分析 则能够使人们动卷地了解网络事件发展的全部过程。 由于使用便捷,这两类应用的系统越来越得到人们的喜爱。 还有一些基于信息检索的应用。例如:站内搜索和相关新闻列表。 i i2 w e b 信息提取 为了使得基于i n t e r n e t 的信息系统更加准确,一些研究越来越重视w e b 信 息的提取,特别是关注噪声去除。 1 2 研究意义 前面提到的一些应用都离不开网页的抓取、分析和建立文档。柃索的内容的 准确性,已经成为基于信息检索的系统好坏的一个重要度量指标。该指标常常称 作准车。 付瑚 m 瑚 如 。 基于标签特征向量的网页去噪声研究及其心用 一般信息检索对文档进行建模时,都有个预处理的过程。该过程主要是去除 网页中的一些无关信息。例如:大多数的链接、网页模板和版权信息等等。 噪声去除得干净与否决定着内容分析阶段的工作量和文档的重要性排名。因 此,网页去噪声显得尤为重要。 当前的一些去噪声模型和方法对某类网页能够取得不错的效果;但是缺乏通 用性。因此,找到研究出一种简单而又通用的去噪声模型和方法是本文的宗旨。 1 3 网页模型 w 3 c 规范是关于网页语言,也即超文本链接语言的规范。 1 3 1 h t m l 文档 超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ,简称h t m l ) 使用各种预定 义标签( t a g ) 来组织网页内容,标签通过嵌套来表达从属关系。h t m l 是为“网 页创建和其它可在网页浏览器中看到的信息 设计的一种标记语言。h t m l 用来 组织结构化信息例如标题、段落和列表等,也可用来描述文档的外观和语义。 蒂姆伯纳斯一李给出了h t m l 的原始定义,i e t f 使用简化的标准通用标记语言 ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ,简称s g m l ) 的语法进一步发展h t m l 。 后来,h t m l 成为国际标准,由万维网联盟( w 3 c ) 维护 3 。 网络上使用h t t p 协议来发布h t m l 文档,h t m l 文档之间通过链接指向关系关 联在一起。 h t m l 标签来的嵌套关系通常是位置上的包含和邻近关系。 1 3 1 1 h t m l 结构 h t m l 文档的结构包括头部( h e a d ) 和主体( b o d y ) 两大部分。头部包含描 述信息,包括脚本定义、元数据和标题等;主体则包含要展示的内容。 h t m l 要正常展示,一定要是定义良好的: ( 1 ) 、所有的标签必须是预定义的标签,不能使用自定义的标签。 ( 2 ) 、标签必须正确结尾,例如 。 ( 3 ) 、嵌套关系必须正确。h t m l 是个盒子( 容器) 模型。所有的标签都是“盒 子 ,盒子之间只能存在包含与不包含的关系,而不能存在交叉的关系。 图卜3 是一个定义良好的网页例子。 3 基于标签特征向量的网页去噪声研究及其应用 1 3 1 2 c s s 语言 随着h t m l 语言的发展,层叠样式表语言( c a s c a d es t y l es h e e t ,简称c s s ) 被提出了。该语言使用类属性来修饰h t m l 标签,类属性在标签之外定义。这样 就使得不同h t m l 文档的元素、同一个h t m l 文档内部的元素可以共享显示效果, 如:颜色和字体大小等。 c s s 使得h t m l 数据和展示分离,简化了网页设计。c s s 语言的使用使得基于 空间的模型变得复杂起来。原因是有些h t m l 标签的空间信息,如标签的长度和 宽度,不是直接作为标签属性,而是写在c s s 文件中,这就增加了分析的难度。 1 3 2 元数据模型 h t m l 数据是一种半结构化数据( s e m i - s t r u c t u r e dd a t a ) ,也即介于有结构数 据和无结构数据之间的一种状态。h t m l 数据与文本相比是有结构的,表现在标 签的组织上 4 ;但是比起关系型结构数据来说,这种结构化数据是相当脆弱的。 为此,人们一直在努力通过元数据( m e t ad a t a ) 5 方案来完善h t m l 。d u b l i n c o r e 就是h t m l 的元数据规范。 d u b l i nc o r e 元数据方案源于数字图书馆中使用的方案。该方案包含1 5 个核 心元素,主要用于描述数字对象、馆藏管理和元数据交换。1 9 9 4 年提出,目前 4 基于标签特征向量的嘲页去噪声研究及j 应用 由d c m i 维护,已成为i s 0 1 5 8 3 6 2 0 0 3 、i e t fr f c 2 4 1 3 和n i s oz 3 9 8 5 2 0 0 1 等国 际国家标准。 d u b l i nc o r e 是国际组织d u b l i nc o r em e t a d a t ai n i t i a t i v e 拟定的用于标 识电子资源的一种简要目录模式。它一出现就被北美、欧洲、亚洲和澳洲2 0 多 个国家认同,不仅图书馆、博物馆,并且不少政府机构、商业组织正在或准备采 用。 d u b l i nc o r e 的拟定者们参照图书馆卡片目录的模式,制定了十五项广义的 元数据( m e t a d a t a ) 。这些数据是: 名称( t i t l e ) 、创作者( c r e a t o r ) 、主题 及关键词( s u b j e c ta n dk e y w o r d s ) 、描述( d e s c r i p t i o n ) 、出版者( p u b l i s h e r ) 、 发行者( c o n t r i b u t o r ) 、时间( d a t e ) 、类型( t y p e ) 、格式( f o r m a t ) 、标识 ( i d e n t i f i e r ) 、来源( s o u r c e ) 、语言( l a n g u a g e ) 、相关资源( r e l a t i o n ) 、范 围( c o v e r a g e ) 和版权( r i g h t s ) 6 7 。 从上述1 5 项元数据,可以看出:首先,它比较全面地概括了电子资源的主 要特征,涵盖了资源的重要检索点( 1 ,2 ,3 项) 、辅助检索点或关联检索点( 5 , 6 ,1 0 ,1 l ,1 3 项) ,以及其他有价值的说明性信息( 4 ,7 ,8 ,9 ,1 2 ,1 4 ,1 5 ) ; 其次是它简洁、规范。这1 5 项元数据不仅适用于电子文献目录,也适用于各类 电子化的公务文档目录,产品、商品、藏品目录,具有广泛的应用以及很好的实 用性。 d u b l i nc o r e 解决了电子资源的标准问题,但技术实现手段可能有多种。但 使用的最多、效果最好的是x m l 和r d f 这两种技术手段。 但是完全采用d u b l i n 元数据的很少。原因在于:采用元数据并不会给网站 的所有者带来什么,对于制作者来说反而是一种“负担”。元数据从本质上来说 是服务于特定的目的。 部分网站往往使用了其中的一部分元素。如新浪网提供了标题、关键词、 描述以及其它一些非标准的元数据信息,如图卜4 。 5 基于标签特征向量的网页去噪声研究及其应用 r e t ah t t p - e q u i v :- c o n t e n t - t y p e c o n t e n t :t e x t h t m l ;c h a r s e t :g b 2 3 1 2 1n 新闻中心首页新浪网 r e tan a m e :”k e y w o r d s ”c o n te n t :”新闻,时事,时政,国际,国内,社会,法治,聚焦,评论,文化, b e t an a m e :”d e s c r i p t i o n c o n t e n t :”新根网新闻中心是新浪网最重要的频道之一,2 4 小时鼋 0 ( j = 1 ,2 ) 且ii n i 。i ,u i : ,那么就把邑、e : 合并成新的元素节点,同时删除e 和e :。把新的元素节点放入仞始孩子元素节 点集合。继续合并过秤,直到任何两个孩子元素结点都不能合并为止。 s t e p4 :若s t e p3 中不再有新的孩子元素节点建立,终止;否则,对于每 个孩子元素节点转s t e p2 。 羹一鳖蠹 。 瞥 基于标签特征向量的网页去噪声研究及j e 席用 2 1 4 权重策略 包括节点重要性和路径重要性。 2 1 4 1 节点重要性 如果一个元素节点包含许多不同的表现样式,该元素就很重要,应该赋予较 大的权重值。否则,可能是噪音,赋予较小的权重值。使用熵来定义节点重要性。 定义:对于c s t 中的内部元素节点e ,令l = i e s t y l e s ,m = i e t a g s l 。 节点e 的重要性,n o d e l m p ( e ) 就是: f n o d e l m p ( e ) = 1 引 订庐1 ( 1 ) l _ 艺p i l o g m p i i fm 1 p i 是e t a g s 中的一个标签节点使用第i 个表现样式的概率。 例如,在图2 2 的c s t 中,根据等式1 ,得到n o d e l m p ( r o o t ) = - l l o g l = 0 , 因为r o o t 只有一种表现样式;n o d e l m p ( b o d y ) = 一( 0 5 1 0 9 2 0 5 + o 5 1 0 9 2o 5 ) = 1 对于叶子节点来说,由于包含词语特征,因此其重要性定义为它包含的词语 特征的平均重要性。 定义:对于c s t 中的叶子元素节点e ,n 为出现在e 中的特征数量,那么e 的重要性为: ( 1 一珥 ) )珥 ) 岫旧2 上l f _ 1 ( 2 ) a i 是e 的一个特征;h e ( a i ) 是a i 在e 中的信息熵,定义如下: h e ( af ) 0i fm = 1 窆l 。g 。p i j i fm l 3 j = 1 m = l e t a g s l ,助是a i 出现在e t a g s 中第j 个标签节点中出现的概率。 2 1 4 2 路径重要性 n o d e l m p ( e ) 只计算e 的局部重要性,为了计算出包含在c s t 的叶子节点中 的特征重要性,需要计算从根到包含特征的叶子节点的累积重要性p a t h l m p ( e ) , 1 4 基于标签特征向量的网页去噪声研究及其应用 称为路径重要性。p a t h l m p ( e ) 度量了在c s t 中从根到e 的结构重要性。 对于c s t 的任何两个元素节点e l 和e 2 ,若e l 是e 2 的祖先,则有l p a t h i m p ( e 2 ) p a t h i m p ( e o o 。 定义:c s t 中的元素节点e ,路径重要性p a t h i m p ( e ) 定义为: p a t h i m p ( e ) 2 1 一兀己 e ) 【1 - - n o d e i m p ( e i ) ) ea n c e s t o r ( e ) ( 4 ) u e l 。 其中,e i 是e 的祖先节点或e 自身。 这样权重策略既考虑了特征的结构信息,又考虑了内容信息。每个特征的权 重有如下定义。 定义:c s t 的叶子元素节点中的特征a i 在网页对应的d o m 树而( j e t a g s ) 下的权重记为w e ( a i ,t i ) : w eqi ,tj ) = p a t h i m p ( e ) ( 1 一he 白i ) ) f i j ( 5 ) 其中f ;i 是网页的标签e 所包含的特征a i 的频率。 2 1 5 结果评估 当c s t 中的网页块( 也即标签块) 中的特征被赋予权重之后,将权重赋予 网页( d o m 树) 中的同一特征。一张网页的所有特征形成了一个向量,该向量 作为w e b 数据挖掘过程如聚类和分类的输入。 该研究中y = 0 8 5 ,入= 0 8 5 。使用公式f = 2 p * r ( p + r ) 作为指标,其中p 是 查准率( p r e c i s i o n ) ,r 是查全率( r e c a l l ) 。针对五个专业网站( 相机、笔记本、 移动设备、打印机、电视机) 做了聚类和分类两个实验。 结果显示去噪声之后较去噪声之前,f 分数均有很大提高。 2 2 基于内容块的模型 文献 1 3 】提出了基于内容块的信息发现模型。该方法首先把网页分块,然后 对块进行分类:信息块或冗余块。并且构造了一个信息发现模型i n f o d i s c o v e r e r , 如图2 3 。 1 5 基十标签特征向量的网页去噪声研究及其应用 p a r t i t i o nt h et r a i n i n gs e ti n t oc l u s t e r sb a s e do nu r l p a t t e r n s 图2 3i n f o d i s c o v e r e r 系统结构图【1 3 】 可以清楚地看出这种方法的处理过程。 1 、从一组网页中抽取内容块; 2 、对每个内容块提取特征; 3 、计算每个特征的熵; 4 、计算内容块的熵; 5 、对内容块进行分类;如分类异常,形成反馈,对分块粒度进行细化,重 复上述过程。 2 2 1 块的划分 该方法对表式布局,也就是主要使用t a b l e 标签来布局的网页进行分块。 事实上,为了简便,现在为数不少的网站主要使用t a b l e 来布局页面,特别是 一些新闻网站。 对块划分的粒度是由分类结果来决定的。如果分类出现歧义( a m b i g u o u s ) , 那么就要细化粒度。 2 2 2 主要过程 2 2 2 1 从页面中抽取内容块 初始的分块基于t a b l e 标签。如果某个内部节点( t a b l e ) 有一个或多个 文本块作为叶子节点,那么它们就作为该内部节点的内容块;但若某内部节点作 为一个孩子嵌套在上一层的内部节点( t a b l e ) 中,那么应该从上层内部节点 1 6 基于标签特征向量的网页去噪声研究及其应用 的内容块中排除孩子内部节点的内容块。如图2 4 。 图2 4 网页内容块 1 3 】 2 2 2 2 抽取内容块特征 主要对l 中抽取的文本块进行分词的过程。每个特征( f e a t u r e ) 都是一个词 组( t e r m ) 或关键词( k e y w o r d ) 。这样每张网页就可以表示成“文档一特征集 。 2 2 2 3 计算每个特征的熵 根据特征在所有网页中的分布情况来计算特征的熵。对于某一类网页,2 中 抽取特征之后,就形成了特征一文档矩阵( f d ) 。由于特征可能在一篇文档里 出现多次,所以该矩阵应该是带频率或权重的矩阵。 对于f d 矩阵,特征的熵就是计算该特征对应行的概率分布。使用s h a n n o n 公式计算f i 的熵h ( f i ) : h ( f i ) = 一wi j log2wi j ( 6 ) j = 1 其中w 是f i 在文档d j 中的权重。有w i j = n i j n i ,即特征f i 在文档o j 中的计 数与特征在所有文档中总计数之比值。 为使h ( f i ) 取值落入 o ,1 】,使用文档数d 将h ( f i ) 归一化: h ( f i ) - - 一wi j logdwi j ( 7 ) j = 1 其中d 是文档总数,d = | d | o 1 7 基于标签特征向量的网页去噪声研究及其应用 如图2 5 是同一网站中具有相似结构的n 个文档,它们共享了许多相同的特 征,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论