(计算机应用技术专业论文)网页去噪与特征提取算法的研究及实现.pdf_第1页
(计算机应用技术专业论文)网页去噪与特征提取算法的研究及实现.pdf_第2页
(计算机应用技术专业论文)网页去噪与特征提取算法的研究及实现.pdf_第3页
(计算机应用技术专业论文)网页去噪与特征提取算法的研究及实现.pdf_第4页
(计算机应用技术专业论文)网页去噪与特征提取算法的研究及实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西南交通大学硕士研究生学位论文第j 页 摘要 网页分类可在较大程度上解决信息杂乱无章问题。由于网页中含有较多噪 音信息以及网页的特征提取结果影响到网页分类性能,因此,如何降低网页噪 音,并改进网页内容的特征提取过程,对网页分类具有重要意义,已成为网页 分类中的研究热点。 首先,s t u ( s e m a n t i ct e x t u a lu n i t ) d o m 实现的网页提取未能判断不含超 级链接的网页噪音,以及未能处理正文在d i v 标签中的情况,从而造成网页 去噪效果不理想。本文在s t u d o m 实现网页内容提取的基础上进行了扩展, 考虑了网页正文信息放在t a b l e 、d i v 标签中的情况,同时通过计算标题与 结点词共现频率以及文本间的相似度实现网页正文内容的提取。在计算标题与 结点词共现频率时,对于大于给定阂值的结点直接保留,反之,则需要计算当 前的t a b l e 或d i v 标签中已提取的内容与即将提取结点的相似度,相似度值 大于给定阂值,则提取当前结点作为网页正文,否则进行探测。根据探测的结 果决定是否继续提取当前t a b l e 或d i v 标签中的网页内容。其次,针对现有 的特征提取算法中的频率差法在特征提取时把不具备类别鉴别能力的特征项 赋较高r f d ( r e l a t i v ef r e q u e n c yd i f f e r e n c e ) 值的不足,对频率差考虑分段情况, 另一改进是考虑特征项的代表性和鉴别性之和的绝对值情况,对改进的算法通 过分类器进行了验证,取得了较好的分类性能。最后,本文在开源的b o t j a r 包的基础上扩展了爬虫系统的功能,通过计算待爬行u r l 与主题的相关度, 把满足相关度阈值的u r l 加入等待队列,以及计算正在爬行的网页正文内容 与体育类别特征向量的相似度,下载满足相似度阈值的网页,保存到本地磁盘 上。本论文实现的爬虫系统,主要下载以体育为主题的网页,形成一个用于体 育分类的测试语料集,通过对分类器进行训练,确定实现最优下载主题网页的 阈值。 本文所做的网页去噪及特征提取的研究,经过分类器测试,表明了算法的 有效性。 关键词:网页去噪;s t u d o m ;特征提取;频率差法;爬虫;词共现 西南交通大学硕士研究生学位论文 a b s t r a c t 第1 i 页 w e bp a g ec l a s s i f i c a t i o nc a ns o l v eal a r g ee x t e n tt h ed i s o r d e rp r o b l e mo f i n f o r m a t i o n b e c a u s ew e bp a g ec o n t a i n sag r e a td e a lo fn o i s ea n df e a t u r es e l e c t i o n e f f e c t sw e bc l a s s i f ic a t i o n ,h o wt od e c r e a s et h ew e bn o i s ea n di m p r o v ef e a t u r e s e l e c t i o ni sv i t a li m p o r t a n ts i g n i f i c a n c et ow e bp a g ec l a s s i f i c a t i o n w e bp a g e c l a s s i f i c a t i o nh a sb e c o m ea h o t s p o t f i r s t l y ,s t u d o ma l g o r i t h mc a nn o td e t e r m i n et oe x t r a c tt h ec o n t e n ti nt h e w e bp a g ew h i c hi sn oh y p e r l i n k ,a n dt h ec o n t e n ti nt h ed i vt a g ,r e s u l t i n gh t m l e l i m i n a t i o nr e s u l ti sn o ts a t i s f a c t o r y i nt h i sp a p e r ,s t u d o ma l g o r i t h mi s e x t e n d e d ,t a k i n gi n t oa c c o u n tt h eb o d yo fi n f o r m a t i o no nt h ew e bt a b l e ,d i v t a g t h ec o n t e n ti se x t r a c t e db yc a l c u l a t i n gt h ef r e q u e n c yo fw o r dc o o c c u r r e n c e b e t w e e nt h et i t l ea n dn o d ea n dc a l c u l a t i n gt h es i m i l a r i t yo ft h et e x t i ti sn e e dt o c a l c u l a t et h ef r e q u e n c yo fw o r dc o o c c u r r e n c eb e t w e e nt h et i t l ea n dn o d e ,f o r p r e s e r v i n gt h en o d em o r et h a nag i v e nt h r e s h o l d ,o t h e r w i s e ,t h es i m i l a r i t yb e t w e e n t h e c u r r e n t t a b l eo rd i ve x t r a c t e da n dt ob ee x t r a c t e dn o d e n e e dt ob e c f a l c u l a t e d t h es i m i l a r i t yv a l u eg r e a t e rt h a nag i v e nt h r e s h o l d ,t h e ne x t r a c tt h e c u r r e n tn o d ea st h eb o d yo ft h ep a g e i t sn e e dt od e t e c t a c c o r d i n gt ot h er e s u l t so f d e t e c t i o nt od e c i d ew h e t h e rt oc o n t i n u et oe x t r a c tt h ec u r r e n tt a b l eo rd i v t a gi n t h ep a g e s e c o n d l y ,r e l a t i v ef r e q u e n c yd i f f e r e n c e ( r f d ) a l g o r i t h ma s s i g n sa h i g h e rv a l u et ot h et e r mt h a tc a n td i f f e r e n t i a t ew e bp a g ec a t e g o r i e s a n o t h e r i m p r o v e m e n tc o n s i d e r st h ea b s o l u t ev a l u eo ft h es u mo ft h et e r m sr e p r e s e n t a t i o n a n dt h ei d e n t i f i c a t i o n t h ei m p r o v e da l g o r i t h mi sv e r i f i e dt h r o u g ht h ec l a s s i f i e r a c h i e v e db e t t e rc l a s s i f i c a t i o np e r f o r m a n c e f i n a l l y , t h ec r a w l e rb a s e do nt h eo p e n s o u r c eb o t ja rp a c k a g eh a s b e e ne x t e n d e db yc a l c u l a t i n gt h es i m i l a r i t yb e t w e e nt h e u r lt ob ec r a w l i n ga n dt o p i c i ft h eu r lm e e t st h et h r e s h o l do fr e l e v a n c eu r l ,i t w i l lb ea d d e dt ot h ew a i t i n gq u e u e ,a l s ob yc a l c u l a t i n gt h es i m i l a r i t yo ft h e c r a w l i n gw e bc o n t e n ta n ds p o r t sc a t e g o r yf e a t u r ev e c t o r i ft h ep a g em e e t st h e s i m i l a r i t yt h r e s h o l d ,i tc a nb es a v e dt o l o c a ld i s k t h i sp a p e ri m p l e m e n t st h e c r a w l e r i tc a nd o w n l o a dp a g eo ft h es p o r t st h e m e i th a sc r e a t e dac o r p u sf o rt h e s p o r to ft h e s et e s t s s e tb yt h et r a i n i n go ft h ec l a s s i f i e rt od e t e r m i n et h eo p t i m a l t h r e s h o l dt od o w n l o a dt h et h e m ep a g e 西南交通大学硕士研究生学位论文第1 li 页 t h i s p a p e rr e a l i z e s w e bp a g ee l i m i n a t i o na n df e a t u r ee x t r a c t i o n t h e e x p e r i m e n ti n d i c a t e st h ee f f e c t i v e n e s so ft h ea l g o r i t h mt h r o u g hc l a s s i f i c a t i o n t e s t s k e yw o r d s :w e bp a g ee l i m i n a t i o n ;s t u d o m ;f e a t u r es e l e c t i o n ;r e l a t i v e f r e q u e n c yd i f f e r e n c e ;c r a w l e r ;w o r dc o o c c u r r e r l c e 西南交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和 借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。 本学位论文属于 1 保密口,在年解密后适用本授权书; 2 不保密影使用本授权书。 ( 请在以上方框内打“”) 学位论文作者签名:茄衣也指导老师签名:彳耋每p 日期:地上加 缈。矽 西南交通大学硕士学位论文主要工作( 贡献) 声明 本人在学位论文中所做的主要工作或贡献如下: 第一,针对s t u d o m 树实现的网页内容提取的不足,通过分析研究当前 的多种去噪算法,对s t u d o m 树进行扩展,计算网页标题与结点词共现频率 及文本间的相似度,实现网页正文提取。 第二,针对特征提取方法中的r f d 算法,把不具备分类能力的特征项赋 较高r f d 值的不足,对其进行改进。中文网页在降噪以及分词之后,可能导 致特征项空间维度很高,势必影响网页的分类质量。本文改进的r f d 算法, 在提高分类性能的同时,提高降维效果。 第三,利用本文的网页去噪和改进的r f d 算法,在开源的b o t j a r 包的基 础上,扩展了爬虫系统的功能,实现了一个面向主题特征的爬虫系统,并利用 该爬虫系统实现下载体育类别的网页,形成一个用于体育分类的测试语料集。 本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所 得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体 已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本 人承担。 学位论文作者签名:豸秀立 日期;y f 。孓h 西南交通大学硕士研究生学位论文第1 页 第1 章绪论 1 1 课题研究的背景与意义 在这个数字化的时代里,人们可以获得越来越多的数字化信息包括文本、 数字、图形、图像、声音甚至视频等。这些信息大都是半结构化或者是非结构 化的数据,从中迅速、有效地获得所需信息是件非常困难的事情。由于网页中 含有大量的噪音,这势必影响基于网页正文内容系统的性能。 网页自动分类【1 】即通过分析被分类网页的特征,并与各类别中网页所具有 的共同特征进行比较,将被分类网页归为特征最接近的一类并赋予相应类别。 目前,网页自动分类技术的研究是建立在文本自动分类的基础之上,但由于网 页自身的特点,它是使用超文本标记语言编写的半结构化的文本信息。与普通 文本相比,网页中含有如 、 、 等标签,这些标签本身 具有重要信息,如何利用这些结构化信息来提高中文网页分类准确度成为近年 来网页分类领域的研究热点。其次,由于网页中存在导航条、广告、版权信息 等噪音,如果不对这些噪音信息进行去除,将会降低分类的准确度,因此网页 去噪的研究越来越引起人们的关注。 网页去噪后,在网页行分类之前,要进行特征词提取。对于每一类,应该 去掉那些表现力不强的特征项,筛选出针对该类的特征项集合,特征项的选择 也是影响网页分类精度之一,仍引起研究人员的关注。 1 2 国内外研究现状 在中文网页信息提取领域,目前存在多种方法,包括h t m l 结构分析法、 基于自然语言处理方法、机器学习、本体论方面的研究等。 f i n n 2 】等人把h t m l 页面看做标签和字符构成的序列,在字符集中的区域 提取文字信息。这种方法仅仅适合主题文字集中的页面。如果段落中间有表格 或图片等丰富的标签结构,该方法就不能有效的进行处理。 k a s s i n e n1 3 】等人提出d e s i c a r d 模型,把网页分成若干个c a r d ,每次只显 示一个c a r d ,从而减少了页面大小,却未能提取出信息,用户需阅读多个c a r d 之后才能确定网页的主题信息。 b u y u k k o k t e n t 4 j 等人,提出了s t u ( s e m a n t i ct e x t u a lu n i t ) 模型,s t u 对 应网页中的块,将把网页分割成平行的s t u 。s t u 模型能减少定位时间,但它 西南交通大学硕士研究生学位论文第2 页 改变了源网页的结构和内容提要,且没有提取出主题内容,保留了无关的文字 与链接。 g u p t a l 5 】等人的方法是利用不同的过滤技术来移除并修改特定的结点,从 而保留网页的内容。但在删除链接时较少考虑上下文的语义方面信息,很容易 删除正文中的链接列表,使得提取结果不完整。 国内网页去噪研究方面,北京大学张志刚通过以一组启发式方法为基础, 利用信息检索技术及网页有效特征信息,提取网页中的主题以及与主题相关的 内容,从而实现网页去噪效果1 8 。华南理工大学利用模板去噪方法,用j t i d y 建立待去噪网页和模板网页各自的d o m 树,自顶向下,依次比较,如果有相 同结点,该结点为噪音信息。 特征提取方法的研究已经比较成熟,常用的特征提取算法有:文档频率、 信息增益法、z 2 统计量法、互信息法、信息熵、低损降级法、频率差法等。 1 3 本文的研究内容 本文对中文网页分类过程中的网页去噪、特征提取算法以及面向主题特征 的爬虫系统做了研究,具体工作包括如下: 第一,针对s t u d o m 树实现的网页内容提取的不足,通过分析研究当前 的多种去噪算法,对s t u d o m 树进行扩展,计算网页标题与网页文本词共现 频率及文本间的相似度,实现网页正文提取。 第二,针对特征提取算法中的频率差法在进行特征提取时把不具备分类能 力的特征项赋较高r f d 值的不足,对频率差法采用分段处理,另一改进是考 虑特征项的代表性和鉴别性之和的绝对值的情况,对改进的算法通过分类器进 行了验证,在提高分类性能的同时,提高降维效果。 第三,利用本文的网页去噪和改进的特征提取算法,扩展了开源b o t j a r 包,实现一个面向主题特征的爬虫系统,利用该爬虫系统实现下载体育类别的 网页,形成一个用于分类的测试语料集【2 引。 1 4 本文的组织结构 第一章,绪论,介绍了网页去噪及特征提取算法的研究背景、研究意义、 国内外研究现状以及作者的研究内容、本论文的组织安排。 第二章,网页去噪及特征提取技术,介绍目前常用的网页去噪以及特征提 取技术。 第三章,网页去噪方法,本文在s t u d o m 树实现网页正文提取的基础上 西南交通大学硕士研究生学位论文第3 页 进行了扩展,考虑了网页正文信息放在t a b l e 、d i v 标签中的情况。同时通 过计算标题与结点词共现频率及文本间的相似度去掉了网页噪音,实现网页正 文内容的精确提取。 第四章,特征提取算法的改进,通过分析已有r f d 算法的不足,去掉那 些不具备分类能力却得到较高r f d 值的特征项,达到了更好的降维效果。 第五章,本文在开源的b o t j a r 包的基础上扩展了爬虫系统的功能,设计一 个面向主题特征的爬虫系统,实现下载体育为主题的网页,。并对下载的网页通 过分类器进行训练,通过测试确定一个最优的阈值,下载的网页用于形成体育 网页语料库。 总结与展望,首先对本文的所作的研究工作进行总结,然后对将来进一步 的研究工作进行展望。 最后是致谢、参考文献、及攻读硕士学位期间发表的论文。 西南交通大学硕士研究生学位论文第4 页 第2 章网页去噪及特征提取技术 由于网页本身的特殊性,为了使网页的分类效果更好,必须在分类之前将 网页中的一些结构信息、广告链接等对网页主题内容没有直接作用的干扰信息 去掉,这个过程称之为网页去噪。同时,中文网页去噪之后,需要经过分词, 然后进行特征提取。 网页去噪是一个将原始网页中h t m l 标签和其它无关信息过滤,得到纯 文本的过程。 2 1 网页去噪技术 网页去噪的方法可分为三类【6 】:基于网页结构的去噪方法,基于模板的去 噪方法和基于可视化信息的去噪方法。 2 1 1 基于网页结构的去噪 基于网页结构的去噪方法,利用网页中的标签信息,将一个网页表示为一 棵d o m 树或d o m 树的变形,然后根据一些启发式方法,将网页中与主题相 关的内容抽取出来。文献 s , l o l 均采用该算法。文献【s j 首先提出了内容块的概念, 它使用 标签将网页划分区域。文献1 1o j 继续深化这一思想,并提出一 组启发式方法,应用信息检索方法,抽取出网页的主题以及与主题相关的信息。 文献【l6 】以页面布局和内容之间的关系为出发点,根据网页文件中标记之间的关 系,利用标签树表示页面文件,应用自底向上的算法,抽取出具有不同语义的 页面内容,提取出树状层次结构表示它们之间关系的方法。 2 1 2 基于模板的网页去噪 基于模板的方法,从一组网页中抽取出相同的模板,然后使用这些模板从 网页中抽取有用的内容。文献p 】提出了d s e ( d a t a r i c hs e c t i o ne x t r a c t i o n ) 算法, 这种算法通过自顶向下比较两棵相同模板网页树,去掉相同的子树,把余下部 分当作网页主题内容。而文献4 】则利用机器自动学习方式生成网页集合的模 板,根据网页链接关系中的锚点文本作为提取目标对模板进行标记,生成对应 模板的抽取规则,根据模板抽取规则对网页主题信息进行提取。 西南交通大学硕士研究生学位论文第5 页 2 1 3 基于可视化信息的网页去噪 一般来讲,网页的设计者们会把语义相关的信息放在临近的区域,这样也 符合人们阅读的习惯。网页实际上被一些可见的分割符( 比如,横线、竖线、 图像、颜色等) 切割成不同的块。基于可视化信息的网页去噪方法,强调网页 的视觉效果,比如一段内容无论是在中间,还是在两边,对于v i p s l l 7 j ( v i s i o n b a s e dp a g es e g m e n t a t i o n ) 来说是不一样,但对于d o m 结构来说却是一 样的。同d o m 结构一样,它也获得了一个树状结构,它的粒度是根据d o c ( d e g r e eo f c o h e r e n c e ) 来控制。假如网页块1 中的一部分内容为科技信息, 另一部分内容是体育信息,网页块2 中的内容全部是科技信息,那么网页块2 的d o c 值大于块1 的d o c 值。d o c 值的设定越小,则构建的网页结构越粗 糙。v i p s 有效的保证相互关联的内容会在一个块中,而不相关的内容会被有 效的割开。每个v i p s 内容块都是一个树状结点,根结点是整个网页,v i p s 算 法结束由p d o c ( p e r m i t t e dd e g r e eo fc o h e r e n c e ) 控制,p d o c 是预先定义好的 相似度。可见v i p s 有效地使用页面中元素的布局信息,从而能够应用布局信 息对页面进行规划,保留出页面中间区域,而把其他区域看作是噪音。文献【l 副 中提出了v i p s 算法与改进,v i p s 算法是基于页面的可视化信息来进行页面划 分,算法通过可视块抽取,分隔条检测以及构造内容结构3 步迭代进行,以每 一个块的内聚度值与预定义的结束条件比较作为迭代的结束条件。 2 2 特征提取技术 在网页分类系统中,对网页文本进行分词、去掉停用词等处理,得到的词 汇量仍然是巨大的,向量空间的维度和词汇空间的维度是一样的,是一个高维 度空间。鉴于网页文本自身的特点,每个网页中出现的词汇相对于整个语料集 的词汇很少,所以每个网页文档的词汇特征是很稀疏的。由这些词构成的向量 空间会在空间和时间上影响分类系统的性能。 为此,需要对词进行筛选,选择出能够代表网页类别特征的特征项。好的 特征选择算法可以降低向量空间的维度提高分类器的性能。 特征选择,在网页文本分类中起着举足轻重的作用,其主要目的是为了解 决特征空间高维性和网页表示向量稀疏性之间的矛盾。 特征选择的一般步骤: ( 1 ) 利用特征选择算法给预处理后得到的文档的词进行打分。 ( 2 ) 把词汇按照特征选择算法得分由高到低排序。 ( 3 ) 从步骤( 2 ) 中排序的词表中提取前n 个作为类别特征向量,其中n 西南交通大学硕士研究生学位论文第6 页 为预先设定的特征向量的维度。 当文本的数量比较大时,它的词汇量是相当多的,表示文本的向量空间的 维数也会很大。因此需要对维数进行压缩,常用的压缩方法是特征提取。 本文首先采用禁用词表对分词完成的结果进行降维,达到初步筛选,然后 再进行特征提取。 文本表示中词条的选取称为特征提取。特征提取是文本分类共性与规则的 归纳过程,也是系统的训练过程,是分类系统的核心。特征提取的结果的优劣 直接影响文本分类的效果。 常用的特征项提取算法有:文档频率、信息增益法、石2 统计量法、互信息 法、低损降级法、频率差法等。它们的基本思想是对每一个特征,计算某种度 量值,然后设定一个阈值q ,把度量值小于a 的那些特征项过滤掉,剩下的是 有效特征。 西南交通大学硕士研究生学位论文第7 页 第3 章网页去噪方法 在浏览网页时,会发现网页中含有大量的非正文信息。对一个网页来说, 上面有图片、音频、视频、广告、版权信息等。但大多数网页包含两大块内容: 一块内容体现的是与网页主题相关信息,例如一个新闻网页中的新闻内容,我 们称其为“主题”内容,它是该网页的核心部分,也是读者最为感兴趣的信息: 另一块体现的是与主题内容无关豹图片、导航条、广告信息、版权信息等,我 们称其为“噪音”,例如图3 一i 所示。 噪音 - 瞄噪音7 苕再月月p 一 # 日口j m m 十* * 十* 目* b 自月月瞄目i t 杆辩* # * l 啪 * g t * 岫 。 4 8 。 正文 ”1 口年3 月1 5 5 一一:篙:黧z 嚣:三。三= 一 图3 ,1 网页中的主题内容与噪音 “噪音”常常分布在“主题”内容的周围,当然,有时会夹杂在“主题” 内容中间。噪音信息一般与“主题”内容不相关。通常,它们链接到的子网页 大多数情况下也与“主题”内容不相关。网页中的噪音内容不仅会给基于网页 内容的应用系统带来困难如网页信息采集系统、网页内容抽取系统;也会给 基于网页超链接指向的应用系统带来嗣难。因此如何快速准确地识别并清除网 页内的噪音是提高w e b 应用程序处理结果准确性的一项关键技术我们称该 西南交通大学硕士研究生学位论文第8 页 技术为网页去噪。首先,网页去噪以后,没有了噪音信息的干扰,w e b 应用程 序可以用网页的“主题”内容作为主要的处理对象,从而提高处理结果的准确 性。其次,网页去噪可以显著简化网页标签结构的复杂性并减小网页的大小, 从而节省后续处理过程的时空开销。因此,网页去噪在w e b 信息系统预处理 环节中显得尤为重要。 在网页去噪中为了区别网页中的信息是噪音还是“主题”内容,首要的工 作是将整个网页区域划分成多个不同的块。当前存在多种网页分块方法,有基 于d o m 的划分方法,基于位置的划分方法,还有基于可视化的划分方法。将 一个网页划分为多个块之后,接下来的工作便是衡量每个块的重要程度,不重 要的便认为是噪音。当前也存在多种衡量网页块价值的方法,从总体上看可分 为两种,一种是针对同一个网站中的多个网页,另一种是针对单个网页。对于 第一种来说,大都基于考虑对于一个网站来说,噪音块常常有共同的内容和表 现风格。对于第二种来说,网页噪音常常围绕在主题周围。 3 1 网页的结构分析 网页的表示是基于网页内容的。在对网页进行分析时通常需要提取网页的 内容。而这个过程又需要对网页内容进行抽象表示。抽象表示是基于网页制作 规范,构造出能体现网页内容结构和网页内容重要程度等信息的表示模型,其 目的是想充分利用网页的制作规范,挖掘出网页中所隐含的信息,最常用的一 种方法是构造网页标签树。 ( b o d pb g c o e o r = r e d t a b l e ) t r ) h e l l ow o r d i nt h ew o r l d c h i n a l c m ( 取值为 0 0 3 ) ,则对其 西南交通大学硕士研究生学位论文第1 3 页 进行剪枝。 步骤5 :正文提取器 算法思想:用递归方法提取t a b l e 或d i v 标签下的文本结点的内容,通 过计算标题与锚点词共现频率及文本间相似度实现正文内容的提取。 第一步,把标题用中科院分词系统( i c t l c a s 4 j ) 分词,分词后去除禁用词, 然后根据词性标注把词取出来,记为s ,采用正则表达式( n 、s ! # $ + 0 - 9 】 1 , ) ( x l n v 剖n g l m q b i t g l a ) 进行词性过滤。在正则表达式中, “c l d ”表示匹配“c ”或“d ”。“+ ”表示匹配至少一个字符,例如“c d + ” 可以匹配“c d d ”、“c d d d ”等。“ 一c d 】”表示某个范围之外的字符,匹配除 了c 和d 之间的任意字符。“、s ”匹配任何空白字符,包括空格、制表符、分 页符等。本文采用正则表达式能够匹配出分词后词性为 “x l n v i ”gn 引酬v i f qv 阻 a ”的词,其中“x ”表示非语素字,通常用于代表未 知数、符号;“v g ”表示动语素 “t g ”表示时间词性语素;q 表示量词;“h ” 表示前接成分。在网页正文提取中利用正则表达式直接匹配出有用的词,不仅 有效地降低了特征向量维数,而且能提高算法效率。 第二步,利用哈工大的同义词词林( 扩展版1 ,扩展s 中的元素,扩展后 s 元素的大小为( ,s ,s s ,2 ,s ,s ) ,i 为s 中的第i 个词,m 为s 通过查 找同义词词典后得到的扩展词的数目。 从图3 - 6 可以看出,通过同义词的扩展功能,可使计算的标题与结点词共 现频率及文本相似度的结果更准确 s 。l ,e 。c 。i 基;:囊。 :瓣挚舞。窭。;:。暑:皇? 去鑫,) t t 二: l i d| w o r d 瞎i i 1 9 9 8 4法律 2 】1 9 9 8 5法腹 3 j 1 9 9 8 6刑名 4 1 1 9 9 8 7律 5 】1 9 9 8 9法 6 1 9 9 8 9法阿 7 1 9 9 9 0王法 8 1 1 9 9 9 1法规 9 1 9 9 9 2法例 图3 - 6 “法律”词的同义词扩展结果 第三步,递归提取t a b l e 或d i v 标签下的文本结点的内容,对提取的结 点同样采用正则表达式( 【“u s l # $ 0 9 】f 1 , ) ( x l nv iv g “g l m l v l q l v m i t g i a ) 进行过虑。计算标题与提取结点词共现频率s i m ,当s i m s s m ( s i r e 计算后的 西南交通大学硕士研究生学位论文第14 页 结果,对于s m 的选择是一个经验值,s m = 1 ) 则提取当前结点内容,反之,则 要进行n ( n = i ,2 ,3 ,i ) 次探测。探测时,需要计算当前t a b l e 或 d i v 标签下已经提取的内容( 文本一) 与即将提取下一个的结点内容( 文本二) 的相似度。如果相似度值低于给定阈值,则继续增加下一个节点的内容作为文 本二的内容。如果探测到j ( j i ) ,出现与主题相关的内容,则提取结点的文本 作为正文内容。如果探测到i 时仍未找到主题相关的内容,则结束当前t a b l e 或者d i v 标签里内容的提取。 相似度计算的过程如下, 特征项:常用文本中所包含的基本语言单位来表示文本内容特征信息。这 些基本的语言单位被称之为文本的特征项,即文本r 可用特征项集表示为 t = t l ,乞,乙 。 特征项权重:对于文本中含有的n 个特征项通常用一定的权重表示特征项 在文本中的重要程度,即形= ,9 oo ,睨 。 设文本一中所包含的词语为 ,乞,f f ,乙) 。则文本一可用一个n 维向量 形= ,彬,) 表示。其中形的计算方法采用t f i d f ( t e r mf r e q u e n c y i n v e r s ed o c u m e n tf r e q u e n c y ) ,t f 为特征t 在所有结点中出现的频数。i d f 常 厂 r 、 用的计算方法为:i d f ( t ) = l o g i 兰i ,n 为文本一的结点数,n 为文本一结点中含 玎 。 有该词的结点数。那么形= o r ( t ) x i d f ( t ) ,用同样的方法计算文本二的权重,文 本二用z 表示。计算两个向量的夹角余弦,由公式( 3 - 4 ) 实现。 s i m ( 丁,t ) = 3 2 3 实验结果 ( 3 4 ) 为了有效测试本方法的性能,设置两组测试。 第一组测试,测试单个网页的提取结果。 第二组测试,测试给定网页集合的提取准确率。 第一组实验:利用本文的网页去噪方法对网页( 图3 7 ) 进行有效信息的 抽取,结果如图3 8 所示。可以看出,本文的网页正文信息抽取系统不仅能够 准确地抽取网页正文内容,而且还能够有效地去除网页中的图片、广告等噪音。 西南交通大学硕士研究生学位论文第1 5 页 第= 组实验: 实验测试对象是来自北京大学天网实验室为全国搜索引擎与网上信息挖 掘研讨会中文网页分类测评提供的网页训练集y q c c t - 2 0 0 6 0 3 中的部分语 料,以及从多个网站上手动下载的网页,下载结构差别太的网页,有助于验证 算法的性能。 经过实验发现,阈值的选取对提取结果有重要影响。可根据实际应用调整 阈值大小。适当增加局部阑值可以删除更多无关的内容,减少冗余度;适当考 虑正文相似度的闽值可以实现正文精确提取,增加完攘性。但阐值选取不当, 可能导致网页去噪效果不理想。在实验中,局部阈值取值为00 3 ,文本相似度 取值为01 。这是经过实验评估后,获得较好的效果。 = j :箭魏状元笠可直指夺冠沃承驾临休城能解放小稚 型篮 :l 栅j i 目;日f e 确目m ,目e 驻艄a 踺* 1 匣 i | o i z 0 t 植目自 出2 * 2 。 蕊;晶_ i j 商i i 耗二rz 髓i 蛴氍i i o5 i 。 i ! 。话! f $ ( j i 宴o * * 舸耐# 躺* 目 i ”t # ” “蝴e 斑、j q t 醇后张t i 卿虹懑蛳日j 揽* i $ 埔 目# i j ”口e 繇t 而:$ 骶# 幂 t 嫩日栅i 4 目蛳雌n = d 懈e 垴一娃l * = 蚶- i 日e t f 目 目& “ t # t i w s 器 韵 ! # 自e i i = 忙l ! * 擗j $ 目d 糊i 日i * e5 _ j _ 蕾 :啦 揣a t 赋蜘m 啼醴t 藕料矿目e # 嵇i 默自静f ! 艋。i # 日f i t 帕i 目b ; rt # m t 婚孙 污jt 蝴女目二啪砖 蜩目日埘惝日“ = ;一蛐礁黯i ! # j * a f ! e 槲e i * 弘# 耀 一:i i g b f m 盛 秘目e 蛹z 嘶# 翻积o o 杆孵睇目a 砖碰;tt 晌删口i # 晦h l e 。g ,t # 自目都i 解五持:弼 日2 嚣口o r 黔l 一日计 日i e el ;z i ; h1 e 。 。d t o 一。x m 一 一 e ;“j1 2 i : 。叠卤暖壶 :。薹:= 篡: 二t ,rf 蜊趣蝴酬癸啦蜘删t e o 斜如砷 r 脚衄神。, j ,一:j ? 麓0 :簟- :囊峨瞎窟睁一:聊,j :i 。0 囊 图3 7 网页实例 一爨 提取结果如下 西南交通大学硕士研究生学位论文第1 6 页 亘三重亘百c 二i _ 矿鲤二! 蔓亘j 蔓二二二一一:“n d - “咖咄。nn ) 盯眦抽p l ic a t i o n - 岍 x 虢_ := i 盈世薯 。b

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论