




已阅读5页,还剩78页未读, 继续免费阅读
(计算机应用技术专业论文)基于多特征的web页面分块算法的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
at h e s i si nc o m p u t e r a p p l i c a t i o nt e c h n o l o g y r e s e a r c ha n di m p l e m e n t a t i o no fw e b p a g es e g m e n t a t i o n a l g o r i t h mm f p s b a s e do nm u l t i - f e a t u r e b yy uj i a n j i a s u p e r v i s o r :p r o f e s s o rz h a n g b i n n o r t h e a s t e r nu n i v e r s i t y j u n e2 0 0 8 3删8舢034舢8 iiiiim y _ 铷 “ 、 j 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取 得的研究成果除加以标注和致谢的地方外,不包含其他人己经发表或撰 写过的研究成果,也不包括本人为获得其他学位而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说 明并表示谢意。 学位论文作者签名:j 遣芬乙 日期: 功口万么 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位 论文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印 件和磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文 的全部或部分内容编入有关数据库进行检索、交流。 半年一年口一年半口两年口 学位论文作者签名:0 悼导师签名:了吣 签字日期:伪乎签字日期:砂廿。彩 ,l矿土 , 旷砧l霹 _乱i, 东北大学硕士学位论文摘要 基于多特征的w e b 页面分块算法m f p s 的研究与实现 摘要 随着互联网的快速发展,w e b 已成为人们获取信息的重要来源。为了满足人们不断 增长的从互联网上获取信息的需求,w e b 信息抽取技术不可避免地成为当今研究的技术 热点。由于互联网上的w e b 页面往往具有多样性、不规范性、包含信息复杂以及半结 构化等特性,这些特性为w e b 信息抽取技术带来了很大的困难。如何使w e b 信息抽取 技术不受w e b 页面特性影响而具有通用性,并能精确地抽取页面信息成为w e b 信息抽 取技术亟待解决的问题。 在对复杂的w e b 页面进行信息抽取的过程中,w e b 页面分块技术成为目前研究的 一个方向。然而,目前的w e b 页面分块算法多数利用单一特征信息对w e b 页面进行分 块,不能很好地应对复杂多变的w e b 页面类型。针对这种情况,本文提出了基于多特 征的w e b 页面分块算法,该算法先将w e b 页面分成若干个相互独立的语义块,再根据 应用的需要,从中选取具有相应语义特征的语义块进行信息抽取。本文首先分析了w e b 页面中的布局特征、显示特征、语义特征和文档结构特征等多特征信息,建立了基于多 特征的w e b 页面语义块模型。在此基础上,本文提出了基于多特征的w e b 页面分块算 法m f p s ,并阐述了m f p s 分块算法的基本思想和执行过程。然后,本文重点阐述了 m f p s 分块算法的实现,其中分析并解决了相似块识别的问题,阐述了包括单行类型、 多行类型、多块类型、行块交替类型等类型的结点序列的合并方法,给出了包括语义类 型、分割类型、多特征信息的识别方法,给出了m f p s 分块算法的形式化描述,并对 m f p s 分块算法的性能做了分析。最后,本文提出了以m f p s 分块算法为基础的基于块 的重要度的页面类型识别算法p t i b i d ,该方法通过分析m f p s 分块算法得到的语义块 结构及多特征信息,能够有效地识别页面类型并抽取出其中的信息属性,以满足实际 w e b 信息抽取的需要。实验结果表明,与现有的分块算法相比,m f p s 分块算法具有分 块精度较高、分块结构较为合理、适应能力较强等特点,可以为w e b 信息抽取技术提 供有效的支持。 关键词:w e b 信息抽取;w e b 页面分块;多特征分析;相似块识别;页面类型识别 一i i , l:0-文 旷 0 l 尽 ,0 ;j a , a b s t r a c t r e s e a r c ha n di m p l e m e n t a t i o no fw e b p a g es e g m e n t a t i o n a l g o r i t h mm f p s b a s e do nm u l t i f e a t u r e a b s t r a c t w i 也t h er a p i dd e v e l o p m e n to ft h ei n t e m e t ,w e bh a sb e c o m ea ni m p o r t a n ts o u r c eo f i n f o r m a t i o n i no r d e rt om e e tt h eg r o w i n gd e m a n df o rg e t t i n gi n f o r m a t i o nf r o mt h ei n t e m e t , w e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi n e v i t a b l yb e c o m e st h eh o ts p o to ft h er e s e a r c ha t p r e s e n t a sw e bp a g e sh a v et h ec h a r a c t e r i s t i co fd i v e r s i t y , c o m p l e x i t ya n ds e m i s t r u c t u r e , t h e s em a k ew e bi n f o r m a t i o ne x t r a c t i o nd i 伍c u l t i t sa nu r g e n ti s s u ct om a k ew e bp a g e s c h a r a c t e r i s t i cn o ti m p a c to nw e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g ya n de x t r a c ta c c u r a t e i n f o r m a t i o nf r o mw e bp a g e s i nt h ec o u r s eo f e x t r a c t i n g i n f o r m a t i o nf r o mc o m p l i c a t e dw e bp a g e s ,w e bp a g e s e g m e n t a t i o nt e c h n o l o g yb e c o m e so n ed i r e c t i o na tp r e s e n t h o w e v e r ,m o s to fw e bp a g e s e g m e n t a t i o na l g o r i t h m su s e t h es i n g l ef e a t u r ei n f o r m a t i o nf o rw e bp a g es e g m e n t a t i o n ,s ot h a t t h e yc a l l tp r o p e r l yd e a lw i t hc o m p l e xt y p e so f w e bp a g e s i nl i g h to ft h i ss i t u a t i o n ,t h i st h e s i s p r o p o s e s an e ww e bp a g es e g m e n t a t i o na l g o r i t h mm f p sb a s e do nm u l t i f e a t u r e t h i s a l g o r i t h md i v i d e st h ew e bp a g ei n t oi n d e p e n d e n ts e m a n t i cb l o c k sa tf i r s t ,a n dt h e ne x t r a c t s a p p r o p r i a t eb l o c k sf o rt h en e e do ft h ea p p l i c a t i o n a tf i r s t ,t h i s t h e s i sa n a l y z e sm u l t i p l e f e a t u r e so fw e bp a g e si n c l u d i n gl a y o u tf e a t u r e ,v i e wf e a t u r e ,s e m a n t i cf e a t u r ea n dd o c u m e n t s t r u c t u r ef e a t u r e ,a n dp r o p o s e sw e bp a g es e m a n t i cb l o c k s m o d e lb a s e do nm u l t i f e a t u r e b a s e do nt h a t ,t h i sp a p e rp r o p o s e sw e bp a g es e g m e n t a t i o na l g o r i t h mm f p s ,a n de x p o u n d si t s b a s i ct h i n k i n ga n dp r o c e s s t h e n ,t h i st h e s i sf o c u s e so nm f p s sr e a l i z a t i o n ,w h i c ha n a l y s e s a n ds o l v e st h ep r o b l e mo fi d e n t i f y i n gs i m i l a rb l o c k s ,e x p o u n d sn o d e ss e q u e n c em e r g e a p p r o a c hi n c l u d i n gs i n g l el i n et y p e ,m u l t i l i n et y p e ,m u l t i b l o c kt y p ea n dl i n e - b l o c kc r o s s t y p e ,a n de x p o u n d st h ei d e n t i f i c a t i o nm e t h o d si n c l u d i n gs e m a n t i ct y p e ,s e g m e n t a t i o n t y p ea n d m u l t i f e a t u r ei n f o r m a t i o n b a s e do nt h a t ,t h i sp a p e rg i v e sm f p s sf o r m a ld e s c r i p t i o na n d e x p e r i m e n ta n a l y s i s f i n a l l y , b a s e do nm f p s ,t h i sp a p e rp r o p o s e sap a g et y p ei d e n t i f i c a t i o n a l g o r i t h mp t i b i db a s e do nt h eb l o c k si m p o r t a n c ed e g r e e t h i sa l g o r i t h mc a ne f f e c t i v e l y i d e n t i f yt y p e so fp a g e sa n de x t r a c ti n f o r m a t i o na t t r i b u t e s t om e e ta c t u a ln e e d so fw e b i n f o r m a t i o ne x t r a c t i o nt h r o u g ha n a l y z i n gb l o c k ss t r u c t u r ea n dm u l t i f e a t u r ei n f o r m a t i o n p r o d u c e db ym f p s t h ee x p e r i m e n t r e s u l t ss h o wt h a tw i t ht h ee x i s t i n gw e bp a g e s e g m e n t a t i o na l g o r i t h mc o m p a r e d ,m f p sh a sc h a r a c t e r ss u c ha sm o r ea c c u r a t es e g m e n t a t i o n , m o r er e a s o n a b l eb l o c k ss t r u c t u r e ,b e t t e ra d a p t a b i l i t ya n ds oo n t h i sp r o v e sm f p sc a l l p r o v i d ee f f e c t i v es u p p o r tf o rw e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y - i i i - 东北大学硕士学位论文a b s t r a c t k e y w o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ;p a g es e g m e n t a t i o na l g o r i t h m ;m u l t i - f e a t u r ea n a l y s i s ; s i m i l a rb l o c k s i d e n t i f i c a t i o n ;p a g et y p ei d e n t i f i c a t i o n i v f i 毛 产 目录 目录 独创性声明i 摘要i i a b s t r a c t 。m , 第一章绪论1 j 。 1 1 研究背景1 厂 1 2 研究目标2 1 3 本文工作。3 第二章研究基础。5 2 1w e b 信息抽取技术5 2 1 1w e b 信息抽取5 2 1 2w e b 信息抽取技术的分类5 2 2w e b 页面特性。7 2 2 1 信息聚合特性7 2 2 2 信息复杂性。8 2 2 3 半结构化特性8 2 2 4 多样性与非规范性9 2 2 5 布局方式的灵活性9 2 3w e b 页面分块技术1 0 2 3 1h t m l 标签分析法1o 2 - 3 2d o m 树分析法l o 2 3 3 其他方法1 1 2 3 4w e b 页面分块技术的应用1 2 。 。 第三章基于多特征的w e b 页面分块算法。1 3 3 1w e b 页面特征分析1 3 3 1 1 布局特征分析1 3 3 。1 2 显示特征分析15 3 1 3 语义特征分析1 7 3 1 4 文档结构特征分析1 9 3 2 基于多特征的语义块模型2 0 3 3 基于语义块模型的m f p s 分块算法2 3 3 3 1 算法思想2 3 3 3 2m f p s 分块过程2 3 一v 一 , 东北大学硕士学位论文目录 第四章m f p s 分块算法的实现2 7 4 1 相似块的识别方法2 7 4 2 结点序列的合并方法2 9 4 2 1 单行类型的合并2 9 4 2 2 多行类型的合并。3 0 4 2 3 多块类型的合并3 2 4 2 4 行块交替类型的合并3 4 4 3 分割类型的识别方法3 5 4 4 语义类型的识别方法3 6 4 4 1 文本类型的识别3 7 4 4 2 图片类型的识别3 8 4 4 3 文本链接类型的识别3 8 4 4 4 图片链接类型的识别3 9 4 4 5 表单类型的识别4 0 4 4 6 普通类型的识别4 1 4 5 多特征信息的识别方法4 1 4 6m f p s 分块算法的基本实现4 2 4 7 性能分析4 4 第五章基于m f p s 分块算法的页面类型识别与信息属性的抽取4 7 5 1 面向主题的块的重要度分析4 7 5 1 1 面向主题的块的重要度4 7 5 1 2 分隔条检测4 9 5 1 - 3 块的重要度的计算算法5 4 5 2 新闻页面识别与信息属性的抽取5 7 5 2 1 新闻页面识别算法5 8 5 2 2 信息属性的抽取5 9 5 2 3 实验结果5 9 5 3 导航页面识别与信息属性的抽取6 1 5 3 1 导航页面识别算法6 1 5 3 2 信息属性的抽取。6 2 5 3 3 实验结果6 3 第六章结论6 5 参考文献6 7 致j 射7 1 一v i 一 矿,;,;飞 东北大学硕士学位论文第一章绪论 第一章绪论 本章首先介绍了本文的研究背景,然后给出了研究目标,最后阐述了本文的主要工 作及论文的组织形式。 1 1 研究背景 随着i n t e r n e t 的飞速发展,w e b 已经发展成为一个全球的、巨大的、分布和共享的 信息空间,并且仍在不断快速增长中。毫无疑问,w e b 已经成为人们获取信息的主要资 源,但是要想从w e b 上获取一条有用信息的难度却越来越大。这是因为随着w e b 数据 的不断增长和异构数据源集成的应用,导致了大量半结构数据【l ,2 】的产生,具体而言就是 w e b 页面。目前绝大多数的w e b 页面是通过h t m l 语言来展现,而h t m l 语言的一个 显著特点是结构隐含、不规则或不完整,导致由h t m l 语言编写的w e b 页面缺乏对数 据本身的描述,不含清晰的语义信息,模式也不太明确,使得w e b 上的数据处于杂乱 无序的状态,数据集成性非常差,应用程序无法直接解析、获取并利用w e b 上海量的 信息,给w r e b 应用的建立造成了极大的困难。 如何从浩繁的w e b 数据中抽取出有用的信息成为众多研究工作希望解决的问题, 因此出现了w e b 信息抽取技术。它通过“包装”现有的w e b 信息源,将w e b 页面中的 信息以更为结构化、语义清晰的方式发布出来,为面向w e b 的信息系统利用w e b 中的 数据提供了可能【3 1 。i n t e m e t 具有的海量、异构、动态变化等特性使w e b 信息抽取不同 于传统信息抽取,它面临着巨大的困难。首先,面对呈几何级数增长的巨大的w e b 信 息空间,如何自动高效地处理海量w e b 信息是w e b 信息抽取的一个难点;其次,如何 消除w e b 页面间的异构性,从w e b 页面中准确识别所需的信息点成为一个较大的难点; 最后,w e b 网站的动态更新使得保持信息抽取的适应性也成为一个有待解决的问题。 传统的w e b 信息抽取直接以w e b 页面作为信息抽取的对象,这种处理方式面临着 巨大的挑战。在信息量日益增长的同时,w e b 页面提供信息的密集程度也不断的增强, w e b 页面需要能在有限的空间中提供更多的信息,因而变得越来越复杂【4 j 。首先w e b 页 面中往往包含着大量的“噪声”。例如:为了增强用户交互性而加入的脚本,为了便于 用户浏览而加入的导航链接,以及出于商业因素所加入的广告链接等【5 】,本文称之为“硬 噪声”。此外,与传统的文本文档相比,w e b 文档在语义的内聚性上难以得到保证,即 一个w e b 页面中往往包含多个语义无关的部分,由于实际的信息抽取往往是针对某一 类的应用,这时w e b 页面中所包含的与当前应用无关、又不同于“硬噪声的内容就 称为“软噪声”。“软噪声 并非固定不变,是个相对的概念。因为对w e b 信息的需求 东北大学硕士学位论文第一章绪论 不同,导致“软噪声”的具体内容也不同,因此在某些应用看来是噪声的东西,正是其 他应用所需要的。 针对上述问题,目前出现了一种全新的基于w e b 页面分块的w e b 信息抽取技术, 即先将w e b 页面分成若干个相互独立的语义块,再根据不同的应用,从中选取具有相 应语义特征的语义块进行信息抽取。基于w e b 页面分块的w e b 信息抽取机制的思想核 心在于:w e b 信息抽取的对象不再是直接的w e b 页面,而是w e b 页面所包含的特定语 义块。这种方式不仅有效降低了信息抽取问题的复杂度,而且大幅度提高了精确度,显 然这种抽取机制更为合理。要实现基于分块的w e b 信息抽取,前提就是实现一种w e b 页面分块算法。 1 2 研究目标 基于w e b 页面分块的w e b 信息抽取技术作为一种全新的w e b 信息抽取技术,为 w e b 信息抽取技术的发展开辟了新的领域。而作为基于w e b 页面分块的w e b 信息抽取 技术底层支持的w e b 页面分块算法,现在已经成为国内外研究的热点。 为了设计并实现一种准确、自动、智能、高效、简单的w e b 页面分块算法,以及 如何在w e b 信息抽取中得以应用,需要研究如下几方面问题: ( 1 ) 根据w e b 页面特征建立w e b 页面语义块模型 目前绝大多数w e b 页面文档是基于h t m l 的,因此w e b 页面分块算法主要针对 h t m l 文档进行分析。由于h t m l 语言本身包含大量的标签,具有灵活的使用方式, 用它编写出来的h t m l 文档形式复杂多样,这给w e b 页面分块带来巨大的困难。但w e b 页面在显示设计及内容组织方面又具有普遍一致的特征,h t m l 文档本身的结构也反映 出设计者的意图。如何从w e b 页面的各种特征中抽取出为w e b 页面分块有用的信息, 并在此基础上建立w e b 页面语义块模型,是实现w e b 页面分块的基础。当前大多数的 w e b 页面分块算法在建立w e b 页面语义块模型时,没有充分考虑到w e b 页面的多种特 征信息,而只是专注于w r e b 页面的单一特征信息,这使得以此模型为基础的w e b 页面 分块算法不具有通用性。因此,通过分析w e b 页面的多种特征抽取出其中的共性,才 能建立起适用于w e b 页面分块的合理的w e b 页面语义块模型。 ( 2 ) 设计并实现w e b 页面分块算法 根据w e b 页面语义块模型,设计并实现相应的w e b 页面分块算法。算法应该满足 下列要求:能实现w e b 页面的准确分块,具有可用性;能实现w e b 页面的自动分 块,适用于机器自动化处理,具有实用性;能够处理各种不同类型的w e b 页面,解 决w e b 页面的多样性问题,具有自适应性;能够高效地拆分w e b 页面,提高w e b 应 用系统的响应速度,具有时效性;要求分块结果具有层次结构,能够满足不同w e b 一2 一 东北大学硕士学位论文第一章绪论 应用的需求;要求算法简单,便于编程实现,具有简单性。 - 。( 3 ) 在w e b 信息抽取中应用w e b 页面分块算法。:一 。 。一 基于分块的w e b 信息抽取技术有两个基本点:一是将w e b 页面拆分成若干个相互 独立的语义块;二是根据不同的应用,从中选取具有相应语义特征的语义块进行信息抽 取。在特定的应用场景下,并不需要抽取出所有语义块的信息,而是只抽取与页面主题 相关的信息。这就需要在将w e b 页面拆分为一系列的基本语义块之后,对各个语义块 在表达页面主题方面起到的重要程度进行分析,在此基础上获得w e b 页面类型信息, 以抽取出与主题相关的语义块内容。 1 3 本文工作 本文首先分析w e b 页面内容在页面布局、页面显示、元素语义、文档结构等方面表 现出来的特征及它们对w e b 页面分块起到的作用。在此基础上,本文建立基于多特征 的w e b 页面语义块模型,设计并实现基于多特征的w e b 页面分块算法m f p s ( m u l t i f e a t u r eb a s e dp a g es e g m e n t a t i o n a l g o r i t h m ) 。本文然后给出m f p s 分块算法的实 现内容,阐述分块过程中解决相似块的识别、结点序列合并、分割类型识别、语义类型 识别、多特征识别等问题的方法,通过实验分析出m f p s 分块算法的执行效果。最后, 本文通过对m f p s 分块算法做功能上的扩展,使获得的语义块结构具有了表达主题相关 性的重要度。根据应用需要,本文分析出几种典型的w e b 页面类型信息,并从中抽取 出更精确的信息属性,使m f p s 分块算法具有实际的应用价值。 本文共分六章: 第一章主要给出了w e b 页面分块技术研究的背景和主要内容,提出了本文的研究目 标和主要工作。 第二章概述了w e b 信息抽取技术的研究现状、w e b 页面特性及当前流行的w e b 页 面分块技术。其中阐述了w e b 信息抽取技术的分类及关键技术,分析了流行的w e b 页 面分块技术的优点和缺点,给出了当前w e b 页面分块技术的应用情况。 第三章分析了布局特征、显示特征、语义特征和文档结构特征等多特征的特点,建 立了基于多特征的语义块模型。在此基础上,提出了基于多特征的w e b 页面分块算法 m f p s ,给出了该算法设计思想和执行过程。 第四章详细阐述了m f p s 分块算法实现。其中首先分析并解决了相似块识别问题, 然后给出了包括单行类型、多行类型、多块类型、行块交替类型等类型的结点序列的合 并方法,接着阐述了如何识别分割类型、语义类型、多特征信息,最后给出了m f p s 分 块算法的基本实现和性能分析。 第五章提出了基于块的重要度的页面类型识别算法p t i b i d ,使m f p s 分块算法能够 一1 一 东北大学硕士学位论文 第一章绪论 应用于页面类型识别及更精确的w e b 信息抽取的应用中。本章首先阐述了块的重要度 一一的概念及计算块的重要度的算法,然后给出了如何利用p t i b i d 算法识别新闻页面及抽 取信息属性,并给出了实验结果,最后给出了如何利用p t i b i d 算法识别导航页面及抽 取信息属性,并给出了实验结果。 第六章对本文做出结论,并阐明本系统有待改善的部分。 一4 一 东北大学硕士学位论文第二章研究基础 第二章研究基础 本章首先介绍了w e b 信息抽取技术及其分类,然后分析了w e b 页面的特性,最后 阐述了w e b 页面分块技术的研究现状及其应用情况。 2 1w e b 信息抽取技术 为了从w e b 中抽取出对应用有价值的信息,人们越来越关注于w e b 信息抽取技术。 随着w e b 信息抽取技术的发展,w e b 信息抽取的方法也越来越多。 2 1 1w e b 信息抽取 w e b 信息抽取,就是以w e b 为信息源的信息抽取。w e b 信息有如下特点:信息不 由任何组织和个人控制,没有固定的数据模型;信息的组织是任意的,只要能在w 曲 上展现即可;信息的内容和表现方式是动态变化的;信息量巨大并且增长迅速【6 ,7 1 。正是 由于w e b 信息存在上述特点,w e b 信息抽取比传统的信息抽取更为复杂。 w e b 信息抽取承接了传统信息抽取技术研究的成果,其核心是将分散在i n t e m e t 上 的半结构化的h t m l 页面中隐含的信息点抽取出来,并以更为结构化、语义更为清晰 的形式表示,为用户在w e b 中查询数据、为应用程序直接利用w e b 中的数据提供便利。 将信息从w e b 页面中抽取出来的工作通常是由包装器( w r a p p e r ) 完成的,所谓包 装器就是一个能够将数据从w e b 页面中抽取出来并且将它们转化为结构化的数据的软 件程序。包装器是在分析一定数量的样本文档( 这个数量一般较少) 而生成的,一旦生 成后,就可以利用这个包装器对与样本文档具有类似结构的所有文档进行自动的信息抽 取。 w e b 信息抽取研究需要解决的问题是:如何构造尽可能准确、健壮和通用的包装器, 使其免受网站结构差异和页面结构变化的影响,并尽可能地减少人为参与。因此,w e b 数据抽取的核心就是构造用于抽取的包装器。 2 1 2w e b 信息抽取技术的分类 传统的构造包装器的方式是手工编码,既费时费力、容易出错,还需要专家完成, 手工生成的包装器如t s i m m i s 8 】和w 4 f g 。因此,许多半自动化或自动化的方法被提出, 半自动和自动生成的包装器如w i e n 1 0 1 ,s t a l k e r e l l 】等。 对w e b 信息抽取方法的分类角度很多,如根据自动化程度分为手工、半自动和全 一5 一 东北大学硕士学位论文 第二章研究基础 自动。根据方法的原理可分为机器学习、基于自然语言理解和o n t o l o g y 方法等。本节从 方法的原理出发,介绍几种w e b 信息的抽取技术。 2 1 2 1 基于自然语言理解方式的信息抽取 自然语言处理技术通常用于自由文本信息的抽取,需要采用的处理步骤包括:句法 分析、语义识别、专有对象的识别( 如人物,公司) 和抽取规则。具体地说,就是把文 本分割成多个句子,对每一个句子的句子成分( p a r to fs p e e c h ,p o s ) 进行标记,然后 一 将分析好的句子语法结构和事先定制的语言模式( 规则) 进行匹配,获得句子的内容。 其实就是利用子句结构、短语和子句间的关系建立基于语法和语义的抽取规则实现信息 。 抽取。这些规则可以由人工编制,也可从人工识别的语料库中自动学习获得。这类信息 抽取主要适用于源文档中含有大量文本的情况( 特别针对于合乎文法的文本) 。 基于自然语言理解的信息抽取技术是将w e b 文档视为文本进行处理的,其缺点也 较为明显: ( 1 ) 抽取的实现没有利用w e b 文档独特于普通文本的层次特性,抽取规则表达能力 有限,缺乏健壮性;获得有效的抽取规则需要大量的样本学习,达到全自动的程序较难, 而且速度较慢,对于操作网上海量数据来说这是一个大问题。 ( 2 ) 只支持记录型的语义模式结构,不支持复杂对象的抽取。 ( 3 ) 由于w e b 页面中的文本通常不是结构完整的句子,所以适用范围较窄。 2 1 2 2 基于包装器归纳方式的信息抽取 包装器由一系列的抽取规则以及应用这些规则的程序代码组成。通常,一个包装器 只能处理一种特定的信息源。从几个不同信息源中抽取信息,需要使用由一系列的包装 器组成的程序库。简单地说,每一类w e b 页面对应一个包装器。 包装器归纳法可以自动分析出待抽取信息在网面中的结构特征并实现抽取,其主要 思想是用归纳式学习方法生成抽取规则,该方法首先由n i c h o l a sk u s h m e r i c k 于1 9 9 6 年 提出。 与自然语言处理方式比较,包装器较少依赖于全面的句子语法分析和分词等复杂的 自然语言处理技术,更适用于文本结构和表格格式进行分析。; 使用包装器的困难在于: ( 1 ) 包装器的针对性强,可扩展性较差。由于一个包装器只能处理一种特定的信息 源,所以若从几个不同的信息源中抽取信息,就需要一系列的包装器集。这样使得信息 抽取的工作量巨大。 ( 2 ) 可重用性差。包装器对页面结构的依赖性强,当出现一类新的w e b 页面或旧的 页面结构发生了变化后,原来的包装器就会失效,无法从数据源中获得数据或得到错误 的数据。这使得一个新的问题出现,即包装器的维护问题。 一6 一 东北大学硕士学位论文第二章研究基础 ( 3 ) 缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后台数据库的模 式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解。 2 1 2 3 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 1 2 j 的信息抽取主要利用了数据本身的描述信息来实现抽取,对w e b 页面结构的依赖较少。采用该方法,事先要由领域知识专家采用人工的方式书写某一应 用领域的o n t o l o g y ( 包括对象的模式信息、常值、关键字的描述信息,其中的常值和关 键字提供了语义项的描述信息) 。并且根据o n t o l o g y 中的常值和关键字的描述信息产生 抽取规则,对每个无结构的文本块进行抽取获得各语义项的值。另外系统根据边界分隔 符和启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。还将抽取 出的结果放入根据o n t o l o g y 的描述信息生成的数据库中。 基于o n t o l o g y 方式的最大的优点是对w e b 页面结构的依赖较少,只要事先创建的 应用领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种w e b 页面实现信息抽 取。 基于o m o l o g y 方式的最大的优点是对网页结构的依赖较少,只要事先创建的应用领 域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽取。主要缺点 是: ( 1 ) 需要由领域专家创建某一应用领域的详细清晰的o n t o l o g y ,工作量大。1 : ( 2 ) 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的同时,增 加了对网页中所含的数据结构的要求,如要求内容中包含时间、,日期、i d 号码等有一 定格式的内容。 ( 3 ) 从大量异构的文档中提取公共模式工作量繁重,并且不支持对超链接的处理。 2 2w e b 页面特性 w e b 页面自身具有的多种特性中,有的特征有利于w e b 信息抽取,有的特性不利于 w e b 信息抽取。分析w e b 页面的这些特性,可以发现w e b 信息抽取中面临的难点,使 研究人员专注于如何解决它们。 2 2 1 信息聚合特性 人们在设计w e b 页面时,常常将w e b 页面分成多个区域,并把不同主题、不同作用 的文字安排在不同的区域里,这有些类似于报纸、书刊、杂志中的排版。连贯的文字通常 放在一起组成段落,并采用一致的版式表达,而不相关联的内容则用不同的版式加以区分。 因此,可以根据版式的不同将w e b 页面分成若干个块。同一个块内的文字,要么在内容 一7 一 东北大学硕士学位论文第二章研究基础 上是连贯的,要么具有相同或者并列的作用,总是有比较紧密的关系。而不同块之间的文 字关系则比较松散,在语义上也不连贯。由于每一个块都包含一定的语义,这样的块称为 语义块,语义块的结构能够近似表示w e b 页面的语义结构。在本文中,在不产生歧义的 情况下,语义块被简称为块。 按照功能的不同,语义块总体上可以分为三种:导航块、正文块和辅助块。导航块是 主要完成导航功能的h t m l 文本块,所包含的主要内容为超链接;正文块是主要体现w e b 页面主体内容的h t m l 文本块,所包含的主要内容为正文文本;辅助块是诸如网站版权 信息说明等对本w e b 页面起到辅助作用的h t m l 文本块。通过对实际w e b 页面进行分析, 本文发现多数w e b 页面同时具有上述三种块,但部分w e b 页面只包含其中的任意一种或 两种块。 2 2 2 信息复杂性 与传统的文本文档相比,w e b 页面在语义的内聚性上难以得到保证,即一个w e b 页 面中往往包含多个语义无关的部分。在w e b 页面中,除了反映w e b 页面主题内容的部分 外,还有很多如“导航条 、“版权信息”、甚至“广告”等与w e b 页面主题无关的内容, 本文称之为“硬噪声”。与“硬噪声 相对应的是,w e b 页面中还存在着大量的“软噪声”。 由于实际的w e b 信息应用系统往往是针对某一类信息的应用,这时w e b 页面中所包含的 与当前应用无关的,不同于“硬噪声”的语义内容就称为“软噪声 。“软噪声 并非固定 不变,是个相对的概念,因为对w r e b 信息的需求不同,造成“软噪声 的定义也不同, 因此在某些应用看来是噪声的东西,正是其他应用所需要的。 正是由于这些软硬噪声的普遍存在,给传统的w e b 抽取技术带来极大的困难,影响 了w | e b 页面的分类、检索等w e b 应用系统的效果。 2 2 3 半结构化特性 目前,绝大多数w e b 页面是用h t m l 表示的。由于h t m l 是一种描述文档结构的语 言,而不能描述实际的表现形式,因此使用h t m l 语言描述的文档,需要通过浏览器解 严 释执行,才能显示出效果。从h t m l 文档被处理的方式来看,h t m l 文档即w e b 页面本 身有一定的层次结构。h t m l 文档在被浏览器解析执行时,采用的是“自项向下的顺序。 虽然h t m l 表示的w e b 页面具备一定的层次结构,但其侧重于外观和版面的安排, 是面向显示的,而不是结构化和模型化数据,因此只能把它们称为半结构化数据【1 3 1 。它用 规范的h t m l 标签定义页面的众多数据元素( 妻1 标题 ) ,或定义页面文本如 何显示,而这些标记的理解工作由浏览器完成,进一步的信息理解工作由用户自己完成。 一8 一 东北大学硕士学位论文 多g - - _ 章研究基础 用户可以通过显示的标题、副标题等显示信息了解文本的大致内容。因此可以利用这些 h t m l 标签,定位文本的中心元素,如文章的标题、正文、日期等。这些h t m l 标签的 存
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 教师招聘之《幼儿教师招聘》能力提升试题打印含答案详解【完整版】
- 教师招聘之《幼儿教师招聘》每日一练附答案详解(轻巧夺冠)
- 2025年教师招聘之《小学教师招聘》通关题库附答案详解【巩固】
- 渔业养殖疾病防控服务创新创业项目商业计划书
- 绿色汽车设计理念推广创新创业项目商业计划书
- 押题宝典教师招聘之《小学教师招聘》题库附参考答案详解(黄金题型)
- 动物保健品数字化营销平台创新创业项目商业计划书
- 教师招聘之《小学教师招聘》能力提升题库附参考答案详解【培优b卷】
- 2025年教师招聘之《小学教师招聘》综合提升测试卷及完整答案详解(典优)
- 2025内蒙古维拉斯托矿业有限公司招聘6名考试备考及答案详解(典优)
- 房屋学位租赁合同协议书
- 环保行业风险管理办法
- 2025年高速公路标杆企业组织效能报告
- 政府装监控合同范本
- 代运营品牌合作合同范本
- 拆除工程环境保护方案及措施
- 2025年度麻精药品抗菌药物抗肿瘤药物培训考核试题(含答案)
- 新交际英语(2024)二年级上册全册核心素养教案
- 同济大学《通信原理》2024-2025学年第一学期期末试卷
- DL-T 5190.1-2022 电力建设施工技术规范 第1部分:土建结构工程(附条文说明)
- 史上最全FMEA教材详解
评论
0/150
提交评论