(计算机应用技术专业论文)基于dom的智能网页信息抽取技术研究.pdf_第1页
(计算机应用技术专业论文)基于dom的智能网页信息抽取技术研究.pdf_第2页
(计算机应用技术专业论文)基于dom的智能网页信息抽取技术研究.pdf_第3页
(计算机应用技术专业论文)基于dom的智能网页信息抽取技术研究.pdf_第4页
(计算机应用技术专业论文)基于dom的智能网页信息抽取技术研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于d o m 的智能网页信息抽取技术研究 摘要 随着i n t e m e t 的快速发展,w e b 已经发展成为一种巨大的、分布式的和共享 的信息资源。目前w e b 数据大都以h t m l 页面的形式出现。由于h t m l 描述的 数据是一种半结构化的数据,这使得由h t m l 描述的w 曲页面只适合人类的浏 览,应用程序无法直接解析并利用w e b 上的丰富信息。w e b 中一类重要的信息网 页是数据提供网站的动态w e b 页面,如各种门户新闻网站、电子商务网站等等。 这类网页中自由文本数据少,网页结构化程度高,往往数量巨大且内容丰富,因 而信息抽取工作非常有价值。如何利用程序从海量的w e b 中快速抽取信息从而提 高人们获取信息的效率变得越来越重要。为了增强w e b 数据的可用性,提供更多 的增值服务,出现了w e b 信息抽取技术。它通过包装( w r a p p e r ) 现有的w e b 信 息源,将网页上的信息以结构化的方式抽取出来,为应用程序利用w e b 中的数据 提供了可能,因此有着广阔的前景,是当今数据库领域的研究热点之一。 本文设计了一个基于d o m 模型的智能网页信息自动抽取系统,做到能够对 网页文本进行分析处理、特征提取与选择、文本分类以及页面区域的分割与重构 等,从而将抽取的有用信息以结构化数据存储在数据库中,并且可以随时应用于 针对特定信息查询的应用程序中。 首先,本文简述了信息抽取技术的研究与发展,对几种典型的w e b 信息抽取 技术进行了综合比较,然后详细介绍了d o m 模型的理论和编程实践以及文本分 类技术。 接下来,本文详细阐述了网页主体信息抽取的体系结构、设计方法和处理流 程。首先讨论了基于d o m 分析器的文本预处理的解决方案,然后使用信息增益 作为特征评估函数,以它的值作为评估函数值,用以对网页文本进行特征项加权, 进行文本特征提取。在文本自动分类的章节中,介绍了使用k n n s v m 算法进行 自动分类,并介绍了利用映射表进行页面区域分割,再根据内容相关性进行页面 重构。 最后,文章给出了基于d o m 的智能网页信息抽取系统的原型,取得了较好 的实验结果。从一系列动态网站提供的w e b 网页的抽取实验,以及与其他一些通 过多个页面的信息抽取的算法的结果对比可以看出,本文提出的w e b 信息抽取技 术实现了较高的抽取精度。 关键词:d o g ;信息抽取;文本分类;特征提取 i i r e s e ar c ho nd o mb a s e din t eiiig e n tw e b in f o r m a tio ne x t r a c t io rt e c h n oio g y a b s t r a c t a l o n g 嘶t ht h er a p i dd e v e l o p m e n to ft h ei n t e r n e t , w e bh a sb e c o m eh u g e , d i s t r i b u t e da n ds h a r e di n f o r m a t i o nr e s o u r c e s c u r r e n t l ym o s tw e bd a t ac o m e so u ti n t h ef o r mo fh t m lp a g e s b e c a u s et h ed a t ad e s c r i b e di nh t m li sak i n do f s e m i - s t r u c t u r e dd a t a , m a k i n gt h ew e bp a g eo n l ys u i t a b l ef o rh u m a nb r o w s i n g ,w h i l e a p p l i c a t i o n sc a n n o td i r e c t l yr e s o l v et h ew e ba n dm a k eu s eo fr i c hi n f o r m a t i o n i nt h e w e bw o r l d , a ni m p o r t a n tl 【i n do fd a t ai n f o r m a t i o ni sp r o v i d e dt h r o u g hd y n a m i cw e b p a g e s ,s u c ha sv a r i o u sp o r t a ln e w s ,e - c o m m e r e ew e b s i t e s ,e t c t h i sk i n do fw e bp a g e h a sl e s sf r e et e x td a t aa n dah i g l ld e g r e eo fs t r u c t u r e ,o f t e nw i t hr i c hc o n t e n t , a n d c o n s e q u e n t l ye x t r a c t i o ni sv e r yv a l u a b l ew o r k h o wt ou s ep r o g r a mt oe x t r a c tu s e f u l i n f o r m a t i o nf r o mt h em a s sw e br a p i d l ys oa st oi m p r o v et h ee f f i c i e n c yo fi n f o r m a t i o n e x t r a c t i o nf o rp e o p l eh a sb e c o m em o i la n dm o i li m p o r t a n t i no r d e rt oe n h a n c et h e u s a b i l i t yo fw e bd a t a , p r o v i d em o i lv a l u e - a d d e ds e r v i c e s ,w e bi n f o r m a t i o ne x t r a c t i o n t e c h n o l o g y i sp r o p o s e d t h r o u g ht h e w r a p p e ro ft h ee x i s t i n g w e bs o u r c e so f i n f o r m a t i o n , i ti sa b l et oe x t r a c ts t r u c t u r e di n f o r m a t i o nf r o mt h ew e bp a g e s ,w h i c h m a k e si tp o s s i b l ef o rt h ea p p l i c a t i o nt om a k eu s eo ft h ew e b t h e r e f o r et h i st e c h n o l o g y p r o v i d e sa b r o a dp r o s p e c t , w h i c hi so l l eo ft h eh o ti l s e a r c hf i e l d si nd a t am i n i n g t h i sp a p e rp r o p o s e sad o mm o d e lb a s e di n t e l l i g e n ti n f o r m a t i o ne x t r a c t i o n s y s t e m ,i tc a nm a k ea u t o m a t i ca n a l y s i so fw e bp a g et e x t ,f e a t u r ee x t r a c t i o na n d s e l e c t i o n , t e x tc l a s s i f i c a t i o na n dr e g i o n a ls e g m e n t a t i o na n dr e c o n s t r u c t i o no fp a g e sa n d s oo n , i no r d e rt oe x t r a c tu s e f u li n f o r m a t i o nt ob es t r u c t u r e ds t o r e di nad a t a b a s e ,a n d c a nb eu s e di na n ys p e c i f i ci n f o r m a t i o nq u e r ya p p l i c a t i o n s f i r s t l yt h i sp a p e ri n t r o d u c e st h ei l s e a r c ha n dd e v e l o p m e n to ft h ei n f o r m a t i o n e x t r a c t i o nt e c h n o l o g y , m a k e sac o m p a r i s o no fs e v e r a lk i n d so f t y p i c a lw e bi n f o r m a t i o n e x t r a c t i o ns y s t e m ,t h e ni n t r o d u c e st h ed o mm o d e lt h e o r yw i t i lp r o g r a m m i n gp r a c t i c e s l l i a n dt e x tc l a s s i f i c a t i o n n e x tc h a p t e re l a b o r a t e s t h es t r u c t u r e ,d e s i g nm e t h o da n d p r o c e s so ft h em a i np a g ei n f o r m a t i o ne x t r a c t i o ns y s t e m a t 觚tt h es o l u t i o n so fd o m p a r s e rb a s e dt e x tp r e p r o e e s s i n gi sd i s c u s s e d f o rf e a t u r ed i s t i l l a t i o n , t h e r ei sam e t h o d c a l l e dt h ev a l u eo fi ga saf e a t u r ew e i g h t i n gf u n c t i o n , u s e df o rw e i g h t i n gt h eh t m l t e x t sf e a t u r e sa n df e a t u r ed i s t i l l a t i o n i nt h ea u t o m a t i ct e x t sc a t e g o r i z a t i o nc h a p t e r , t h e k n n s v ma l g o r i t h mi su s e df o rt e x t s c a t e g o r i z a t i o n t h em e t h o do fp a g e s e g m e n t a t i o n 丽t 1 1m a p p i n gt a b l ei sa n a l y z e d ,f o l l o w e db yp a g er e b u i l d i n ga c c o r d i n g a tt h ee n do ft h ep a p e r , ap r o t o t y p eo fd o mb a s e di n t e l l i g e n tw e b i n f o r m a t i o ne x t r a c t i o ns y s t e mi sg i v e n , w h i c hp r o v e dg o o dr e s u l t s f r o mas e r i e so f e x t r a c t i o ne x p e r i m e n t sf r o md y n a m i cw e bp a g e s ,a n dt h er e s u l t sc o m p a r i s o n 丽t l l s o m eo t h e rk i n d so fi n f o r m a t i o ne x t r a c t i o na l g o r i t h m ,t h ew e bi n f o r m a t i o ne x t r a c t i o n m e t h o dp r o p o s e di nt h i sp a p e ra c h i e v e sah i g hp r e c i s i o ne x t r a c t i o n k e y w o r d s :d o m :i n f o r m a t i o ne x t r a c t i o n :t e x t sc a t e g o r i z a t i o n : f e a t u r ee x t r a c tio n 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 l 洼;垫逡直墓丝壶墨挂型虚明的:奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 糊姗繇锄暂 签字日期:加7 年占月7 日 导师签字: 砻磁 , 撕期呷年多月) 日 基于d o m 的智能网页信息抽取技术研究 1 绪论 1 1 课题研究背景 随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式出 现在人们面前。目前全球互联网的网页总数己经达到千亿数量级,域名总数过亿, 而且有效网也超过了5 千万个。 人们对信息的需求日益增长,目前依赖于人工操作的信息获取方式效率低 下。用户所需的信息往往须从多个不同的信息源获得,由于各个网站资源的异构 性,用户不得不以人工的方式一一定位这些信息源,逐个查询,再将查询结果以 一定的方式合并、组织,过程繁琐且效率不高。 面对如此庞大的信息量,虽然目前已经诞生很多比较成熟的商业搜索引擎, 但是这些搜索引擎提供的仍然是以文档为主的信息源,不是信息本身,更不是知 识。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具帮助人们从 海量信息中迅速找到真正需要的信息。比如,从经济新闻中抽取出公司发布新产 品的情况:公司名、产品名、发布时间、产品性能等;从航空公司网站中抽取出 具体航班的详细情况:机票价格、航班号、起飞时间、到达时间、天气情况、飞 行路线等。由此可见,w e b 已经成为一个庞大而复杂的信息仓库。如何利用程序 从海量的w e b 中快速抽取信息从而提高人们获取信息的效率变得越来越重要。 w e b 中一类重要的信息网页是数据提供网站的动态w e b 页面,如电子商务网站 的商品信息网页。这类网页往往数量巨大且内容丰富,因而抽取工作非常有价值。 可扩展超文本标记语言( e x t e n s i b l eh y p e r t e x tm a r k u pl a n g u a g e ) 的出现解 决了h t m l 不规范的问题。x h t m l 要求网页代码满足x m l 的限制,使网页有 了规范的结构。w e b 信息抽取技术正是在这种背景下兴起的。信息抽取 ( i n f o r m a t i o ne x t r a c t i o n ) 从文档中自动抽取信息,并将其装入数据库中。w e b 信息抽取处理的对象是w e b 网页,它的目标是从海量的半结构化信息中抽取出 结构化的数据信息,从繁杂的内容当中抽取出主题内敛的有效信息,从而实现元 数据搜索和信息代理等服务。 i n t e m e t 具有的海量、异构、动态变化等特性使w e b 信息抽取不同于传统信 基于d o m 的智能网页信息抽取技术研究 息抽取,带来了新的挑战。首先,面对呈级数速度增长的巨大的w e b 信息空间, 如何自动高效地处理海量w e b 信息是w e b 信息抽取的一个难点。其次,w e b 页 面的异构性使如何在各式各样的w e b 页面里准确识别所需信息点成为一个较大 的难点。最后,w r e b 网站的动态更新使得保持信息抽取的适应性也成为一个有待 解决的问题。 为了更好地解决w e b 信息抽取面临的诸多问题和不足,因此有必要对w 曲 信息抽取和兴趣页面重建问题作进一步研究。 1 2 国内外发展状况 随着需求的增加,人们提出了多种不同的技术来实现w e b 页面的数据抽取, 涉及到多个研究领域,譬如自然语言处理过程、语言和语法处理、机器学习、信 息检索、数据库以及本体论等。这些技术之间有着非常明显的差异,处理能力和 适用对象也各不相同。下面把在包装器开发中采用的主要技术手段作为分类的依 据,对使用特定技术开发的典型系统及实现方法进行分析【6 】。 面向包装器开发过程而设计的语言 包装器语言是一种特定的抽取和包装应用逻辑语法描述规则的集合。由于面 向半结构化数据的抽取和包装过程涉及到特定的应用领域,因此针对包装器开发 过程而设计的语言是对传统编程语言功能的一种扩展,对于包装器的开发过程非 常有效,并被广泛采用。例如m i n e r v a l 7 1 、t s i m m i s 【8 】、w e b o q l 9 、和i n t e m e t s o f l b o t s 1 0 】等。 基于h t m l 结构特征的工具 这类工具充分利用h t m l 文件所固有的结构特征来实现数据抽取任务。在 数据抽取过程之前,先将文档转换为一个反映出h t m l 文件中标记所处层次的 解析树;然后通过自动或者半自动的方式生成抽取规则,并将规则应用于解析树 上。基于这种方式的代表性系统包括w 4 f 1 1 1 、x w r a p 1 2 1 、 r o a d r u n n e r 1 3 1 和 l i x t o 1 4 l 等。 基于自然语言处理的包装工具 这类工具借助了自然语言处理技术( n l p ) 来归纳数据抽取规则,对符合自 然语言规则的文档的数据进行抽取。这些工具通常使用包括过滤、词性标注在内 2 基于d o m 的智能网页信息抽取技术研究 的自然语言处理技术来建立短语和短语之间的关系,进而获得抽取规则。所产生 的抽取规则通常基于语法约束和语义约束。因此,基于自然语言处理技术而实现 的抽取工具更加适用于由符合语法规则的文本构成的h t m l 文档,如用列表形 式表示的求职信息页面等。使用n l p 且面向h t m l 文档的代表性工具包括 r a p r e r 15 1 、s r v 1 6 1 和w h i s k 07 1 等。 基于本体的工具 前面介绍的这些技术均基于内容数据在文档中的表示特征来生成抽取规则 或抽取模式,而基于本体的工具则直接依赖于内容数据本身完成。针对一个特定 的领域应用,一个本体可以被定义并用于对出现在文档中的常量进行定位,同时 完成本体对象的封装。基于本体的方法首先需要本体的领域专家进行手工建模, 在本体模型建立之后,数据的抽取就可以实现自动化,并且具有很好的适应性。 最具有代表性的工具是由b r i g h a m y o u n g 大学的数据抽取研究小组开发的原型系 统【1 8 1 。 1 3 目标及任务 w e b 页的快速增长使得用户在面临纷繁的信息时无所适从,花费大量的时间 和精力去挑选所需的信息。为解决这个问题,许多研究人员正在寻找更加有效的 方法以帮助用户在海量w e b 网页中精确地找到所需要的信息。这也是本文的研 究目标。 本文重点研究使用d o m 模型和k n n s v m 分类技术对网页信息进行基于主 题的内容抽取和重建的方法,并选择对某一行业的信息归类和信息的提取 ( e x t r a c t i o n ) 作为应用实例。基本思想是判别某一w e b 文档是否是有关某一特 定主题的,如果是,根据用户需求,从非结构化和半结构化的i n t e r n e t 文档中, 提取需要的信息,并形成结构化的数据形式提供给用户。这样用户就不必浏览所 有的w e b 文档,就可以自动的得到所感兴趣的信息,并且可以分析和重构,以 不断的适应当前的发展和各种应用需求。例如,可以将抽取结果嵌入到其它企业 级应用中去,或者通过对若干企业网页的抽取、分析,形成一份有关某种行业行 情信息的分析文档等等。 基于d o m 的智能网页信息抽取技术研究 1 4 本文研究内容 本文首先对w e b 信息抽取的发展历史和研究现状进行了回顾,然后详细研 究了现有w e b 信息抽取技术的一些常用方法,并对这些方法进行分类的基础上, 对这些方法进行对比分析,指出各种方法的优缺点,并结合这些优缺点研究探讨 了w 曲信息抽取技术研究发展的方向。 在分析了多种方法的基础上,本文就信息抽取所涉及的关键技术进行了讨 论。之后阐述了基于d o m 模型的智能网页主体的信息抽取方法。通过使网页用 分析器,将结构信息隐含的h t m l 网页中的数据转换为特征结构化的数据,在 抽取的过程中不需要页面的先验知识,通过文本分类和特征选择实现高度自动化 的抽取方法。最后基于这些算法实现一个高精度的w e b 信息自动抽取系统原型, 并通过大量的测试网页集对这些算法进行实验和评估,取得了较好的结果。其中 涉及的几个关键技术如下: ( 1 ) 网页预处理 网页由于具有“半结构化的特点,所包含的信息除网页正文外,还有网页 所含的超文本标记、和其它无用信息。根据网页的d o m 模型特点,使用h t m l p a r s e r 进行扫描分析,并根据h t m l 标记对网页不同部分的文本进行加权处理。 ( 2 ) 特征项选择、抽取及特征项权值计算 进行预处理后h t m l 文本转化为特征集中词的向量序列,接着调用特征处 理函数压缩特征集,最后把特征词以向量的形式保存下来,作为文本的中间表示 形式。本文选择信息增益( i n f o r m a t i o ng a i n ,i g ) 作为特征评估函数,以它的值 作为评估函数值。 ( 3 ) 文本分类器 分类器是h t m l 文本自动分类的核心。本文主要使用改进后的k n n s v m 分类器对网页文本集进行分析。本算法由s v m ( 支持向量机分类法) 算法与k n n ( k 近邻分类法) 算法相结合,能够有效地处理文本分类问题。 ( 4 ) 页面区域分割 基于结构与启发式规则对网页进行区域分割与识别,获得h t m l 文档的映 射表,对后续应用起着重要作用。 4 基于d o m 的智能网页信息抽取技术研究 1 5 论文结构 本文后续章节的安排如下: 第二章介绍了w e b 信息抽取研究的历史和发展情况,分析比较了几种典 型的网页信息抽取技术和最新的研究方法,并指出了信息抽取的问题与改进。 第三章介绍了信息抽取所涉及的关键技术与算法分析,包括d o m 模型理 论和编程接口以及k n n 、s v m 的文本分类技术。 第四章详细阐述了网页主体信息抽取方法的设计和实现过程,包括网页文 本预处理、特征提取与选择、文本分类、页面区域分割与重建等内容。 第五章给出了网页信息抽取的系统原型,并对部分抽取结果进行了分析与 对比。 第六章对本文的网页抽取技术进行了总结,并对下一步的工作进行了展望。 5 基于d o m 的智能网页信息抽取技术研究 2w e b 信息抽取研究综述 w e b 信息抽取是信息抽取在w e b 领域的扩展,信息抽取的研究历史并不长, w e b 信息抽取研究的时间则更短,然而随着w e b 的日益繁荣与w e b 信息的爆炸 性增长,w e b 信息抽取研究发展很快,涌现了很多理论与算法。本章将对w e b 信息抽取研究做一个简单的综述。 2 1 信息抽取的概念和发展状况 信息抽取最早是作为自然语言处理的一个分支领域,研究从自然语言文档中 定位特定的信息,主要利用文本中的语法和语义信息抽取出结构化数据。采用的 方法大都是基于自然语言处理技术。人工智能的研究者们建立了各种各样的系 统,以便从完整的文本中得到具体的内容。这些系统通常只能用于一个范围很小 的领域,很难应用于其它新的领域【5 1 。 有关“信息抽取( i n f o r m a t i o ne x t r a c t i o n ,也称为m ) 的研究起源于2 0 世 纪9 0 年代初,主要是由t i p s t e r 的消息理解会议( m u c ) 发起的。信息抽取 技术的前身是文本理解 4 1 ,在信息抽取技术出现之前,己经有大量的关于自然语 言处理的研究和系统。但这些系统通常只能处理一个很狭窄领域的文本,而且很 难移植到新的领域。 t i p s t e r t e x t p r o g r a m 是一项由美国国防部发起的研究计划,它开始于1 9 9 1 年,其目的是提高文本处理的技术发展水平。t i p s t e r 研究共分为3 个阶段, 在第l 阶段,t i p s t e r 通过消息理解会议,在信息提取算法方面取得了很大进 展,在自动识别命名实体( 如人名、组织名等信息) 方面取得了巨大进步。在第 2 个阶段,t i p s t e r 主要研究软件体系结构,使得不同的t i p s t e r 成员之间可 以共享软件。第3 个阶段,t i p s t e r 增加了几个新的领域,如自动文本摘要等。 由于缺乏资金,这项研究计划于1 9 9 8 年正式结束1 3 1 。 信息抽取是指“从非结构化并且机器可读的文本中自动提取结构化或者半结 构化信息的一种信息获取方法 。它是计算机科学的一个分支语言工程的一 个子学科。它旨在利用计算机科学中如编译原理,人工智能等方法和技术来解决 某一特定领域的非结构化文本的信息自动提取问题。它是从一段文本中抽取指定 6 基于d o m 的智能网页信息抽取技术研究 的一类信息并将其形成结构化的数据填入一个数据库中供用户查询使用的过程。 信息抽取系统的主要功能是从文本中抽取出特定的事实信息( f a c t u a l i n f o r m a t i o n ) 。通常,被抽取出来的信息以结构化的形式描述,可以直接存入数 据库中,供用户查询以及进一步分析利用。信息抽取原来的目标是从自然语言文 档中找到特定的信息,是自然语言处理领域特别有用的一个子领域。所开发的信 息抽取系统既能处理含有表格信息的结构化文本,又能处理自由式文本( 如新闻 报道) 。信息抽取系统中的关键组成部分是一系列的抽取规则或模式,其作用是 确定需要抽取的信息主题。网上文本信息的大量增加导致这方面的研究得到高度 重视。 随着w e b 的出现和繁荣,m 研究人员逐渐将兴趣转移到w e b 信息提取的研 究上,涌现了许多算法和系统。其中最知名的研究项目是卡内基梅隆大学的 “自动学习和发现中心( c e n t e rf o r a u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 一的“w e b 挖掘( m i n i n gt h ew o r l dw i d ew e b ) 项目。该项目的目标是通过自动的从w e b 中提取事实,来创建大型的、结构化的有用事实的数据库。他们的技术途径是研 究机器学习算法,通过训练,能够自动提出信息。 w e b 信息抽取指通过计算机自动地从大量的w e b 数据中抽取感兴趣的信息, 信息抽取的主要目标是将文档集合转变为更易于分析和处理的形式。它常用自然 语言处理作为分析的手段。信息抽取的任务是从文档中抽取相关的事实,它处理 的结果可能是结构化的数据库或者是最初文档的压缩摘要。因此,一种很自然的 观点是信息抽取是w e b 挖掘的预处理阶段,即w e b 挖掘是建立在有结构的信息 抽取结果的基础上。当然,从某种意义上讲,采用机器学习和数据挖掘技术从 w e b 文档中自动抽取模式和规则也属于信息抽取。信息抽取主要有两种形式:一 种是经典的无结构化的信息抽取,主要使用了句法、语义分析等技术;另一种是 从半结构化信息中进行的结构化抽取,主要采用机器学习或数据挖掘技术,同时 利用了h t m l 标记、简单的语法及其定界符。 由于网上的信息载体主要是文本,所以,信息抽取技术对于那些把因特网当 成是知识来源的人来说是至关重要的。信息抽取系统可以看作是把信息从不同文 档中转换成数据库记录的系统。因此,成功的信息抽取系统将把互联网变成巨大 的数据库。 7 基于d o m 的智能网页信息抽取技术研究 2 2 网页信息抽取的方法 w e b 网页信息抽取程序( i n f o r m a t i o ne x t r a c t o r ,i e ) 也被称为包装器 ( w r a p p e r ) ,用于从特定的信息源中抽取相关内容,并以特定形式加以表示。在 信息集成系统当中,包装器是指把来自于不同数据源的异构数据包装成统一界面 供用户调用的组件。在包装器的帮助下,查询模块的逻辑在应用到不同数据源( 比 如说不同的数据库) 时就不需要做大的修改。如果数据源是一个w e b 服务器, 包装器就需要通过h t r p 或者其它协议访问相应的服务器,从得到的可能是 h t m l 网页中抽取相关的数据,然后再把这些数据与来自于其它数据源的数据集 成在一起供用户查询。在这整个过程当中,信息抽取是最关键的步骤( 如图2 1 所示) ,因此很多时候也把包装器就称为是信息抽取 6 1 。根据w r a p p e r 生成方式 的不同,w ,e bm 的研究方法可以分成两类:基于知识工程的方法和自动训练的 图2 - 1 包装器与信息抽取 8 基于d o m 的智能网页信息抽取技术研究 2 2 1 基于知识工程的方法 手工生成的w r a p p e r 通常需要编写专门的代码,要花很多时间理解文档的结 构并将其转换成程序代码,比较繁琐而且容易出错。由于对每个模板都要有相应 的w r a p p e r ,维护成本很高。对于网络信息源来说,这些缺点尤为明显。因为网 页数量庞大,内容和结构繁杂,而且新的信息源不断增加,而旧的信息又不断改 变。基于知识工程的方法通过运用应用领域的知识手工地建立系统的语法表示规 则,从而能半自动地生成w r a p p e r ,这种系统完全依赖于领域专家的技巧。 w 4 f ( w y s i w y gw e bw r a p p e rf a c t o r y ) 是一个自动w r a p p e r 生成工具1 1 9 1 ,它 给出了基于文档对象模型( d o m ) 定义的描述抽取规则的语言( h e l ) 以及从 w e b 网页上抽取数据的陈述语言( n s l ) ,提供将抽取出的数据映射到目标结构 ( 如x m l ) 的机制。用户定制w r a p p e r 时,使用h e l 语言给出基本的抽取规则, n s l 给出需要抽取的数据。w 4 f 自动生成一套w r a p p e r 程序,用于相关数据的 抽取。 j u s s im y l l y m a k i 在此基础上利用标准的x m l 规范x h t m l 和x s l t 来定义 数据抽取规则和目标数据 2 1 ,自动生成w r a p p e r 程序将h t m l 文档转换成x m l 格式文档。籼是一个半自动的w r a p p e r 生成器【1 2 1 ,它按以下两个步骤生成 w r a p p e r 代码:( 1 ) 利用人机交互界面将单个w r a p p e r 工具所识别的特定知识源 数据编码成陈述性的信息抽取规则:( 2 ) 结合获得的信息抽取规则以及x w r a p 构成库创建可执行的w r a p p e r 程序。这些w r a p p e r 的构造方法由专家根据经验来 手工定义规则,然后由计算机自动产生w r a p p e r 程序代码。 2 2 2 自动训练的方法 自动训练的方法将系统应用于新领域时并不需要领域专家,取代专家完备的 领域知识的是网页训练集,这些网页可能需要手工注释。通过运行训练程序来训 练网页集合,自动地产生一组抽取规则。这个方法比基于知识工程的方法快捷, 但准确度依赖于合适的训练数据。这些抽取规则形成抽取数据的w r a p p e r 。因此 训练的过程也可以看作w r a p p e r 生成的过程。在抽取时,提取模型与网页进行匹 配并抽取相应信息片段。 9 基于d o m 的智能网页信息抽取技术研究 图2 - 2 基于自动训练的w e b 信息抽取过程 基于自动训练方法的w e b 数据抽取过程见图2 2 。预处理步骤主要完成网页 的规范化等。学习算法抽取模型,并保存在w r a p p e r 中。识别时,w r a p p e r 比较 测试网页是否满足提取模型,如果满足,则获得目标信息。 自动训练的w e b 信息抽取技术主要有3 类研究方法: 基于模式分析的方法 这类方法主要通过分析w e b 文档中的h t m l 标记以及文本出现的模式,自 动或通过学习生成抽取规则。 s e r g e yb r i n 首次提出了d i p r e 算法1 2 0 l ,它通过发现数据实体问的模式和关 系,并通过递归运算从少量的样本出发发现大量的有联系的数据。 基于归纳学习的方法 归纳学习方法是从一组样本中归纳出未知的目标概念,然后将其泛化用于解 释新发现的知识。一个理想的泛化是可以用于解释新样本并作出准确的判别。归 纳学习在分类、知识获取、大型数据库中的知识发现以及从部分规范中创建程序 等方面是非常有用的。 归纳学习通过归纳推导过程实现,是一个从部分到整体、从特例到普遍化, 或从个体到通用的推理过程。一个导师为学习者提供样本,学习者对样本进行概 括归纳出一般的规则。有导师的归纳学习方法可以分为零阶谓词学习和一阶谓词 学习。两者基本的不同在于训练数据的形式以及学习理论的表示。 w h i s k 系统是典型的基于归纳学习方法的系统。它能处理的文本对象很全 面,从结构化程度很强的文本到网页等半结构化文本,还能处理新闻等纯文本。 系统采用指导学习算法,而且需要输入一系列手工标准的训练实例。标注和学习 1 0 基于d o m 的智能网页信息抽取技术研究 过程是交织在一起的。每次循环,系统将提交一批实例让用户标注,系统则从标 注的实例中归纳出规则【2 。 基于统计学习的方法 近年来各种数学统计方法被用于领域,如将h i d d e nm a r k o vm o d e l ( h m m ,隐马尔可夫) 用于信息抽取,s u p p o r tv e c t o rm a c h i n e ( s v m ,支持向 量机) 用于文档分类【2 2 j 等。 h m m 是马尔可夫链( m a r k o vc h a i n ) 的推广瞄】,它将观察到的事件与状态 通过一组概率分布相联系,是一个双重随机过程。m a r k o v 链描述状态之间的转 移,随机过程描述了状态和观察值之间的统计对应关系。h m m 对于处理内在的 不确定性是一个有效的方法,它可以看作一个基于统计的有限状态自动机。状态 根据一个固定和特殊状态分布给出标记。状态之间的转换根据一个固定的分布给 出。 h m m 在自然语言处理领域己有多年成功的应用。它具有基于统计的优点, 对新数据的处理健壮性很好,同时通过已有的h m m 训练算法,可以有效地建立 和评估这样的系统。将h m应用于信息抽取上,状态和将要抽取的数据相关联。 例如,对于电子商务网站商品集,i - i m m 模型应包括对应于商品名称、商品价格、 商品分类等多个状态。 2 2 3 基于d o m 的w e b 抽取技术 基于文档对象模型( d o m ) 的w e b 抽取技术也是属于自动训练的研究方法, 它是目前w e b 信息抽取技术中研究的最多的,也是发展的最好的技术方法。虽 然性能最好的抽取系统通常都是手工建文的,即基于知识工程的方法。但是由于 创建的过程非常费时、费力,而且需要有合适的领域专家的帮助,适应性很差。 基于h m m 的方法由于使用统计原理,适应性很强。然而基于h m m 方法的 研究主要集中在传统的纯文本抽取上,根据纯文本语法及语义训练产生隐马尔可 夫模型。而w e b 页面的不完整的语句以及特有的结构,难以较好地应用该方法。 在应用中往往是抽取含有大量纯文本数据的新闻网页等,通过采用直接去掉所有 h t m l 标签的方法来获得纯文本。对于复杂的页面,如含有大量的广告,h m m 抽取方法的效果不好。 基于d o m 的智能弼页信息抽取技术研究 栅舢蝌删,* d a 圈目 口目 l 脯】& # i m 日 目* i ( 1 i $ 无理$ 猢i & l m * 6 * r 【i 】女繇镕埔鸵。惭月$ , j 。咖龇$ 姊 柚g 戢蒂天日j s 】蛐硬t m * h 自自t | l e ,5t h t 8 n ia m a 铷q g h 棒 - :f0 p ,# b i mt ) - * i * 拂a ,十 * 黜a 自h = 鼾巴l h i 槲t h * 豫鼬m 耻* “t 雠j 嘲m 龇a 秘【卧鼬】 r t 2 磷日* nl 呵岍d 1 m 批啦| i 艘一c d 十* l 目* * $ $ ll :【“ 蚶 如li n e ) , 图2 - 3 动态w e b 网页 w e b 拥有如此庞大的数据量的原因之一是大量数据提供网站的网页是由数 据库生成的动态网页如图2 3 所示这个数据量正在日益增长。也正是因为这 个原因,w e b 抽取的研究方向转向从包括大量重复模式的动态文档中识别数据, 其后台生成通常是采用数据填充模板( t e m p l a t e ) 的方法,即对于数据库中同一 个表的数据记录( r e c o r d ) ,用相同的模板生成一个文档或者文档中的一个数据 块。 o 口篁害一一m ”一 一 一 2 0 0 9 年。地球一小时”活动倡议 懒目 自。;啪引“目 - :】 * n 目目 t w m * h 雌存。发展i m ,h * 自 断发展,地# * m 女 * $ 越臆目太姜# 4 埴白句雠女! # 女m 日勺受 4 4 起镕p 女 m n l e 秘* 节目自* 护生十女挥自e f f 月 随脊圣卉肆m 瀑 蟪目m 日女# n 珍爱蚪r 护地球自环蟪是 十m 球h 戚* 自目r 护 亲河# 自导小m * 界自然基金台 4 n # “地镕 一小时”于亍勐# 募号日 n & 2 。0 9 年3 月2 8 日2 0 :3 0 - - 2 13 0 m 黾町* 目蛹,月1 十小时短* 挽口q i z 多镕自$ 女展r * 舟摊 * 护g 境日勺镕b 自辣 图2 - 4 结构简单的网页 1 2 一一 谥 基于d o m 的智能网页信息抽取技术研究 对于这些文档,它们的d o m 结构的相似度较高。基于d o m 的方法就是利 用动态网页的这个特性,根据文档结构来生成网页包装器,从而实现信息的抽取。 近年来在这方面涌现了大量的研究成果: c r e s e e n z i 等人提出了利用自由联合( u n i o n - f r e e ) 的正则表达式来标识网页 模式【3 1 1 ,并根据这个算法实现了一个自动生成w r a p p e r 的系统r o a d r u n n e r l 3 2 1 。 对于包含可选属性的复杂模式,这个算法会陷入死循环,因此它的算法复杂度是 指数级的。而对于模板过于简单的网页集合,它的抽取结果很不好,如图2 3 所 示的网页模板,对提供2 0 个左右的网页集合,它只能抽取出网页的标题部分, 因此效果并不好。 通过一些启发式算法,a l a s u 和g a r e i a m o l i n a 提出了一个多项式时间复杂度 的解决方案 3 0 1 。它采用了词频统计和d o m 路径相结合的方法,能够处理可选和 不确定个数子节点的情况。但是词频统计的方法对于正文内容很多的网页处理效 果不好。 因为这两个系统都是不需要人工标记的训练数据的,所以一个关键的问题是 如何自动的标记抽取的数据。a r l l o t a 等人提出了一个解决办法【2 9 j ,但由于其针 对特定的领域,因此不是很通用。 l i ub i n g 等人在2 0 0 3 年提出了一个高效抽取网页数据记录集的算法 2 4 1 。这 个算法分两个步骤:首先找出网页中的数据块,有可能是多个,把数据块中的每 个数据记录提取出来;然后对这些数据记录进行抽取。这个算法是针对单个页面 的,不比较多个页面的相似性,因此处理的方向是一个网页中含有很多相同数据 记录的情况,比如商品列

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论