(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf_第1页
(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf_第2页
(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf_第3页
(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf_第4页
(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机科学与技术专业论文)基于xml的html表格信息抽取方法.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着计算机的普及和互联网的迅猛发展,w e b 上形成了人鼙的电子化文档,其中蕴涵着 诸多可朋的信息。冈此,在信息抽取技术( i n f o r m a t i o ne x t r a c t i o n :i e ) 发展基础上的w e b 信息抽取成为近年米的研究热点。另一方面,w e b 文档中的h t m l 表格作为一种信息表现 形式愈发重要,有研究表明5 2 的w e b 文档都包含有 标签【l “嗍9 1 。这样以米如何快 速、高效、准确的从这些表格中抽取川户所关注的信息就显得十分必要,需要进一步的研究。 通过对国内外技术进行分析研究,本文将h t m l 表格信息抽取分为三个阶段,分别是 表格定位、表格结构分析和表格内容信息抽取。表格定位是指从包含人餐噪音数据、结构复 杂的w e b 页面中定位并识别山目标表格所在区域,采川基丁- 启发式规则的方法,在对人颦 页面进行观察的基础上,总结规律,制定规划;同时为了虑刚规则将d o m 树改造为以 标签为最小处理颗粒的t - d o m 树,设计算法对噪音表格进行剪技,最终输山目标表格。表 格结构识别是在此基础上对h t m l 表格作进一步研究,本文以单元格之间的著异为基础, 计算生成表格整体行、列差异值,通过比较二者人小确定表格展开方式。表格内容信息抽取 是指对表格内川户感兴趣的目标数据实施具体抽取,本文采川基丁封装器的方法,对丁不同 信息源,选取样例表格,经过抽取规则生成算法学习生成具体抽取规则,进而构造封装器, 不同封装器组成规则库,再通过信息抽取实施模块对其他表格进行操作。为了实现封装器白 动生成,本文还引入了领域知识,由计算机白动生成抽取规则,实现初步的白动化。 论文整体以x m l 技术为基础,结合文档对象模啦( d o m ) 和x p a t h 等相关技术,设计 并实现h t m l 表格信息抽取中的各个算法。为了检测算法性能,还进行了人最实验,结果 表明本文提山的基3 - x m l 的h t m l 表格信息抽取方法达到了一定水平,但同时也存在一些 不足,经过分析给山了进一步研究的建议。 关键词:h t m l 表格,信息抽取,封装器,启发式规则,领域知识,x m l 东南人学硕l :学位论文 a b s t r a c t w i t ht h ep o p u l a r i z a t i o no ft h ec o m p u t e r sa n dt h er a p i dd e v e l o p m e n to ft h ei n t e m e t , m o r ea n d m o r ee l e c t r o n i cd o c u m e n t se x i s to nt h en e tw h i c hc o n c l u d em u c hu s e f u i i n f o r m a t i o n s o r e c e n t l y o nt h eb a s eo ft h ei n f o l i t n a t i o ne x t r a c t i o nt e c h n o l o g yt h ew e bi n f o r m a t i o ne x t r a c t i o nb e c a m et h e r e s e a r c hf o c u s o nt h eo t h e rh a n d t h et a b l ei sa ni m p o r t a n te x p r e s s i o nf o r ma n da c c o r d i n gt ot h e r e p o r t , t h e r e r ea b o u t5 2 o fh t m ld o c u m e n t si n c l u d el a b e l so f “ ”t h e r e f o r e h o wt o e x t r a c tt h ei n t e r e s t e dd a t af r o mt h et a r g e tt a b l e sr a p i d l ye f f i c i e n t l ya n de x a c t l yi sn e c e s s a r ya n d d e s e r v e dt om a k ead e e p l yr e s e a r c h a t i e rm a d eac o m p r e h e n s i v ea n a l y s i sa b o u tt h ep r e s e n tr e s e a r c ha n dt e c h n o l o g i e s ,t h et h e s i s d i v i d e dt h ew h o l ep r o c e s so ft h ei n f o r m a t i o ne x t r a c t i o nf o r i l lt h eh t m lt a b l e si n t ot h r e e s u b s t a g e s t h e ya r e 丁a b l er e c o g n i t i o n t a b l es t r u c t u r er e c o g n i t i o na n dt a b l ee x t r a c t i o n t a b l e r e c o g n i t i o nm e a n st ol o c a t et h et a b l ef o r mt h ew e bd o c u m e n t sw h i c hc o n t a i nm a s so fn o i s yd a t a a n dn o n - g e n u i n et a b l e s w ea p p l yt h em e t h o d o l o g yo fh e u r i s t i cr u l e s f i r s t l y , t os u m m a r yt h e d i s c i p l i n e sa n dm a k er u l e sa f t e ro b s e r v e dl o t so fw e bp a g e s ,a n dt h e nt r a n s f o r m e dt h ed o m t r e e i n t ot - d o mw h i c ho p e r a t e db yt h ek e r n e lo ft a b l el a b e l a tl a s t ,w ed e s i g nt h ea l g o r i t h mt op r u n e t h en o d ei n c l u d i n gn o i s yt a b l e sa n do u t p u tt h et r u et a b l e s t a b l es t r u c t u r er e c o g n i t i o ni st h e f a r t h e rr e s e a r c hb a s e do nt h e 砀6 l er e c o g n i t i o n t h et h e s i sd e f i n et h ec r i t e r i at oe v a l u a t et h e d i 仃e r e n c eb e t w e e nt w oc e l l s i no r d e rt oa c c o u n tt h er o w - d i f i e f e n c ea n dc o l u m n d i f f e r e n c e c o m p a r i n gt w ov a l u e sh e l p st oj u d g ew h e t h e ri t i sah o r i z o n t a l t a b l eo rav e r t i c a l - t a b l e a l lo f t h e s ea r ep r e c o n d i t i o n sf o rt h en e x ts t a g e t h em 出l ee x t r a c t i o nm e a n st oe x t r a c tt h ed e s t i n a t i o n f i e l df r o mt h e t a b l e sp r a c t i c a l l y f o rt h e d i f f e r e n ti n f o r m a t i o ns o u r c e s w es e l e c tt h ee x a m p l e t a b l e sw i t ho b v i o u s l yc h a r a c t e r s d e s i g n i n gt h ea l g o r i t h mt os t u d yt h ee x t r a c t i o nr u l e sf r o mt h o s e s a m p l e sa n db u i l dt h ec o r r e s p o n d i n gw r a p p e r , d i f f e r e n tw r a p p e r st o g e t h e rm a k eu pt h er u l eb a n k o p e r a t e do no t h e rt a b l e st h r o u g ht h ei ei m p l e m e n t a t i o na l g o r i t h m 。i no r d e rt om a k et h ew r a p p e r s a u t o m a t i c a l l y , w ea l s oi n t r o d u c et h ed o m a i n k n o w l e d g e ,d e s c r i b e db yx m l d o c u m e n t s t h ex m li st h ek e yt e c h n o l o g yt ot h et h e s i st o g e t h e rw i t hd o m ,x p a t ha n do t h e rr e l a t i o n k n g w l e d g e ;w ed e s i g n a n dc a r r yo u ta l la l g o r i t h m sd u r i n gd i f f e r e n ts t a g e s f o rt e s t i n gt h e p e r f o r m a n c e ,w et a k eg r e a te x p e r i m e n t sa n ds h o wg o o dr e s u l t f u r t h e r m o r e ,w ea l s og i v es o m e s u g g e s t i o n sf o rn e x tw o r ka n dh o w t oi m p r o v et h ew h o l em e t h o d k e yw o r d s :h t m lt a b l e ,i n f o r m a t i o ne x t r a c t i o n ,w r a p p e r , h e u r i s t i cr u l e s , d o m a i nk n o w l e d g e , x m l i l 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得 的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构 的学位或证书而使用过的材料。与我一网工作的同志对本研究所做的任何贡献均 已在论文中作了明确豹 兑明并表示了谢意。 獭生签名:强! 边日期:牵 东南大学学位论文使用授权声明 东南大学、中圆科学技术信息研究所、国家图书馆有权保留本人所送交学位 论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人 电子文档的内容和纸质论文的内容褶一致。除在保密期内的傈密论文外,允许论 文被查阅和措阅,可以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包 括刊登) 授权东南大学研究生院办理。 研究生签名:弛! 翅 导师签名: 期:矽弘调骅 第一章0 l苦 1 1 研究背景 第一章引言 随着计算机应川的将及与互联网技术的飞速发展,w e b 已发展成为一种全球分布雨i 共 享的巨人信息空间。最新的研究指出,目前w e b 上全球的数据总鼙已经达到4 8 7 0 亿 g b 1 d c 2 0 0 9 1 。但是另一方面,w e b 上的人部分数据仍以超文本标记语言( h y p e r t e x tm a r k u p l a n g u a g e ,h t m l ) 的形式出现,没有严格的语法限制和i 消晰的语义。所以应川程序无法直 接有效地利川w e b 中的数据,造成了资源的严重浪费。为了能够直接定能到川户需要的信 息、增强w e b 中蕴含数据的可川性,近年来针对w e b 数据源的信息抽取技术成为研究热点。 w e b 信息抽取技术以传统的信息抽取技术为基础。信息抽取( i n f o r m a t i o ne x t r a c t i o n , 简称i e ) 是近二十年发展起来的新研究领域,它起源丁文本理解。信息抽取原先的目标是 从白然语言文档中找剑特定的信息,是白然语言处理领域中一个重要的子领域。在研究人员 开发的各种信息抽取系统中既能处理含有表格信息的结构化文本,义能处理臼由式文本。目 前,对丁信息抽取的普遍定义为:从各种不同形式的白然语言文档中定位、识别和提取山所 需要的目标信息,并将其转化为形式统一、结构化良好、语义清晰的数据格式【e i h “m 9 1 。 从白然语言文档中获取结构化信息的研究最甲开始丁2 0 世纪6 0 年代中期,它以 l i n g u i s t i cs t r i n g 项目平f r u m p 项目这两个k 期的白然语言处理研究项日为代表,通常认为 它是信息抽取领域里的初始研究弘瞅”9 9 9 】。 对丁信息抽取技术的人规模研究是从2 0 世纪8 0 年代) 亓删开始的,这主要得益丁消息理 解系列会议( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e :m u c ) 的召开。止是m u c 系列会议使信息 抽取发展成为臼然语言处理领域的一个重要分支,并一直推动这一领域的研究向前发展 e i k v i l l 9 9 9 】。 往目前的w e b 上,有人量州户关注的有川信息,例如新闻、天气预报、财经信息和电 子商务中的各种商鼎信息等。但是这些信息通常分散在不同网站的不同网页上,信息内窬是 相互独立的,而且这些网页的结构也是各不相同的,所以要把这些信息收集起米有较人的凼 难;人f f j 希望能够借助计算机对w e b 上的人鼙信息进行处理,w e b 信息抽取技术丁是就在 这样的背景卜快速发展起来。 w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ,简称为w 幻l e ) 是指将w e b 作为信息源, 从、卜结构化或无结构化的w e b 文档中抽取川户所感兴趣的数据,并将这些数据转换成结构 化并且语义更加清晰的格式。它承接了传统信息抽取技术的研究成果,为川户在w e b 中! 赶 询数据、应川稃序直接利州数据提供便利。 w e b 信息抽取一般通过被称作“封装器( w r a p p e r ) ”的程序米实现,封装器在经过分析 一定数量的样本文档之斤而生成,一口生成后,就可以利川这个封装器对与样本文档具有类 似结构的所有文档进行臼动的信息抽取。w e b 信息抽取的核心是构造适合丁信息抽取的封 装器。 然而,另一方面,目前互联网上有人量信息采用h t m l 表格表示,有证据表明,至少 5 2 的h t m l 文档中使脚了t a b l e 标签( 即文档中存在表格) l i m l 9 9 9 。冈此可见,表格确实 是信息表现的一种重要形式,从中抽取有川信息是w e b 信息抽取领域里的一项重要任务。 当前的h t m l 表格信息抽取技术尚处丁探索阶段,如前所述,由3 - h t m l 只描述数据如何 显示,不描述数据的内容,再加上互联网上表格的复杂多样性,使得这些表格的计算机理解 东南人学颀i :学位论文 成为研究中的难点。冈此,我们准备挑战这一难题,在现有w e b 信息抽取研究背景_ 卜,对 带有h t m l 表格的w e b 页面加以研究,设计能够有效地找山h t m l 表格中的有川信息的算 法并加以实现。 1 2 研究现状 h t m l 表格( t a b l e ) 作为一种重要的信息表现形式己j 泛地应川丁w e b 文档中,对 丁表格丽言,表格中的句法和语义概念是相苴混合的,表格逻辑单元格以它的相对位置信息 米获得语义,但此类句法结构比白然语言更为复杂。冈而,如何让机器准确地理解表格并抽 取信息,一直是个具有挑战性的难题。 早期传统的表格信息抽取研究主要着眼- j - a s c i i 文件或由光学字符识别得到的表格, 主要同绕表格识别、单元格分类等展开研究。常用的方法分为两类:知识:i :科技术 ( k n o w l e d g ee n g i n e e r i n g ) 利机器学习技术( m a c h i n el e a r n i n g ) 。在这些表格信息抽取的研 究中,一些特殊的符号如制表符、空格符、虚线符等经常作为单元格或者行列的定界标j 占, 研究者就利川这些符号作为启发式线索来识别表格的结构,提取“属性值”对。 w e b 表格信息抽取任务提出丁九十年代末,其i :作对象是w e b 页上的h t m l 表格。目 前,国内外对w e b 表格信息抽取的研究还处丁探索阶段,概括来说主要有二种方法:基丁 封装器学习的方法,基丁表格结构分析的方法和基丁本体的方法。 基丁封装器门纳学习的表格信息抽取以传统的w e b 信息抽取技术为基础。作为w e b 信 息抽取的一项重要研究内容,目前人部分的h t m l 表格信息抽取均以基丁封装器门纳方式 的w e b 信息抽取技术作为基础并取得不错的效果,如l e r m a n 等人和c o h e n 等人的研究 l c r m a n 2 0 0 4 c 0 “2 0 0 2 1 。该方法易丁实现但对h t m l 页面结构的依赖性较高故而通川性不强。 基丁表格结构分析的方法,是通过设计各种算法使计算机能够理解与表格显示结构对应 的内部逻辑结构,进而把h t m l 表格中的内容整体抽取存储剑数据库中,以g a a e r b a u e r 等 人 g a n e 曲u e r 2 0 0 7 的研究为代表。该方法实现了计算机对表格逻辑的理解,但是操作复杂,并且 不同的表格要设计不同的存储结构,埘户需要进一步检索数据库来获取所大注的内容。 基本体的方法通过引入本体实现对表格内容或结构的理解,例如b y u 研究小组i c 2 0 0 3 j 所做的l :作,该方法增强了系统的白动化程度,但是由丁其通常是只面向某些具体的领域, 故适刚范同受剑一定限制。 目前,国内外关丁h t m l 表格信息抽取研究仍处丁起步阶段,尚术能够在通川领域进 行人规模的应川,同时表格定位范同狭窄,在内容抽取方面特别是对丁特殊结构的表格的处 理方法还存在着很多不足,冈此有必要对表格信息抽取这一课题进行进一步的深入探讨。 1 3 研究目标与研究内容 本文在现有w e b 信息抽取技术的基础上,针对h t m l 表格信息抽取的研究现状,提出 以i - j l 个研究目标与研究内容: 1 实现h t m l 表格信息抽取整个过程,并初步达到1 3 动化。 如何理解且联网上的表格并抽取集成其所含目标数据是本文首要研究目标。互联网上 有人鼙信息采刚h t m l 表格表示,限于h t m l 语言描述数据的局限性,以及互联网上表格 的复杂多样性,通过计算机米理解十分凼难。冈此我们需要研究如何将h t m l 表格信息抽 取问题进行分解,分阶段设计有关算法,最终达剑信息抽取的目的。 2 从w e b 页面中定位识别所要研究的h t m l 表格。 抽取h t m l 表格中数据,第一步需要从包含人鼙噪音信息的w e b 页面中识别川户关注 2 第一章0 i苦 的表格区域,以便为接。卜来h t m l 表格内容抽取的研究做好准备。 3 识别h t m l 表格的结构类型。 尽管表格具有良好的显示结构,使用户能够直观理解其所含数据以及数据之间的关系, 但程序却很难识别h t m l 表格的内在逻辑,更不能直接对其操作,冈此我们需要设计算法 解决这一难题,这也是对表格内容实施信息抽取的必要前提。 4 设计表格内容“属性值”对的信息抽取方法。 抽取表格中h j 户感兴趣的数据是我们的最终目的,冈此在前儿个研究目标实现之后,还 需要进一步设计有关算法实现对表格内容的信息抽取。 5 通过人数据量的实验检测算法性能。 设计出h t m l 表格信息抽取的有关算法之斤,还需要通过实验米检测其性能。论文将 以单页记录形式的包含h t m l 表格的w e b 页面为研究对象,并选定客币产品信息领域作为 实验数据米源,具体考察信息抽取的有关评价指标,井对实验结果进行分析。 1 4 论文结构 本论文共分为入章。 第一章引言。主要介纠本文研究:l :作的研究背景、研究现状并据此提山本文的研究目 标与研究内容: 第二章w e b 信息抽取与相关背景知识。主要讨论w e b 信息抽取现状利国内外h t m l 表格信息抽取的相关技术。除此之外,还介2 f 了本文需要到的其他知识。 第三章基丁启发式规则的h t m l 表格定位方法。提出从w e b 页面中定位h t m l 表格 的方法,设计井实现有关算法,并通过实验检测算法性能,分析实验结果。 第四章h t m l 表格结构识别方法。主要讨论了h t m l 表格结构识别的有关内容,设计 并实现算法对h t m l 表格规范化,以单元格著异为基础计算表格行列著异实现表格展开方 式识别。最斤通过实验对算法进行分析评估。 第五章基丁领域知识的h t m l 表格信息白动抽取。主要介纠本文对表格内容进行信息 抽取的方法,通过构建领域知识实现封装器生成的白动化,同时讨论了抽取规则的制定与描 述。设计并实现抽取规则生成算法,信息抽取实施算法。通过实验检测算法性能,分析结果。 第人章总结与展望。对本文f :作进行总结,提出对卜一步i :作的展望。 3 东南人学顾l j 学位论文 第二章w e b 信息抽取与相关背景知识 根据第一章的介绍我们知道,h t m l 表格信息抽取是w e b 信息抽取领域中的一项重要 研究内容,而本文的l :作也是同绕如何实现表格信息抽取方法而展开的。按照本文设计的技 术路线,本文将通过x m l 、d o m 和x p a t h 等技术米实现表格信息的抽取方法。本章将重 点讨论这儿方面的内容,薨以此作为论文的研究依据和出发点。 2 1w e b 信息抽取 2 1 1w e b 信息抽取技术分类 w e b 信息抽取在第一章中我们已有所介绍,它是从w e b 页面中识别山州户感兴趣的数 据,并将其转化为结构化、语义清晰的数据的过程【h 。础2 0 0 2 1 。执行信息抽取任务的软1 :,i :程序, 称之为封装器( w r a p p e r ) 。 w e b 信息抽取的封装器产生过程( 学习过料) 可以h j 卜示的公式2 1 描述: s 旦一r ( 公式2 1 ) 其中,s 为包含- - e f t 待抽取对象的w e b 数据源( s o u r c e ) ,r 为从s 中获取山的以结构 化和语义清晰形式存储的对象库( r e p o s i t o r y ) 。映射w ( w r a p p e r ) 完成从w e b 信息源到结 构化信息的转换功能。w e b 信息抽取的封装器产生过科是在给定数据源s 的情况卜产生一 个映射w ,使w 能够从s 中获取隐含的对象,并表示为结构化和语义清晰的数据r 。 通常,w e b 信息抽取对象即w e b 网页是由h t m l 代码表示的。它具有以f 儿方面的特 征l y ”2 0 0 5 1 。 符号特征:h t m l 文档中的符号包括标记符号和文本符号,标记符号的特征有文档标 签名以及属性;文本符号是指由标签标注,具体显示给则户的内容,它的特征包括:文本类 型( 如:数字、英文单词等) 和文本值即文本的具体内容, 关系特征:是指符号之间存在的关系,如,电子i t t l l f q :地址前常有字符“电子i i t l h q :”或 “e m a i l ”;复杂的关系特征还可以考虑符号之间的距离。这些都是信息抽取的重要线索。 文本片段特征:一般米说要抽取的信息可能是由多个符号组成的文本片段,此时就需要 考虑文本片段特征,如文本片段的k 度,或文本片段中是否包含特定字符。 文档结构特征:h t m l 包含的人鼍标签多是层层嵌套的,欲抽取的文本处丁这些标签 之内。所以可以考虑标签之间的结构犬系,如文本所在标签,父标签,兄弟标签等米进行信 息抽取。 研究者们根据研究对象的不周特征设计出了各种w e b 信息抽取方法。对这些方法的分 类角度有很多,如根据白动化程度可分为人i :方式、半臼动方式和全臼动方式;根据所采川 的原理义可分为基丁白然语言处理方式、基丁封装器门纳方式、基to n t o l o g y 方式和基 r 丁h t m l 结构信息方式等i b 。”。融0 0 2 1 。这里采刖厉者的分类方法依次进行介纠。 4 第二章w e b 信息抽墩j 相关背景知识 1 ) 基于自然语言处理方式的信息抽取 这类信息抽取方法主要适刈丁源文档中包含人鲑文本的情况( 特别针对丁合乎文法的文 本) ,它在一定程度上借鉴了自然语言处理技术:利川子句结构、短语和子句之间的荚系, 建立基丁语法和语义的抽取规! j ! i j 。基丁白然语言处理的方法的抽取规则由丁其基丁语法限 制、语义类、上- 卜文平句子成分等信息,表达能力强。但是,它需要刖户提前标注妤的人鼍 训练样本,只适用r 丁结构化程度低的臼由文本。目前采埘这种原理的典型系统有 r a p i e r s r v 和w hi s k 。 r a p i e r i c a “明9 9 8 1 采心白底向上、由具体剑一般的! 纳逻辑算法。系统首先产生最具 体的规划,然后迭代产生一般的规则,这样迭代一直剑结束。r a p i e r 的抽取规则是建立在 待抽取信息项的语法限制、语义信息和上下文限定符基础上。抽取规则由二种不同的模组成: 首先是前填充子( p r e f i l l e r ) 模式,它是待抽取文本之前的文本的模式,描述了待抽取文本 的前限定符;其次是斤填充子( p o s t - f i l l e r ) 模式,它是紧接待抽取文本之后的文本的模式, 描述了待抽取文本的后限定符;最后是填充子( f i l l e r ) ,即待抽取文本的模式,描述了待抽 取文本的语法限制、语义信息。 s r v i f r e “8 9 1 9 9 8 】采刚白顶向下的序列覆盖算法米产生具体的抽取规则。系统把信息抽取 问题看成是一种分类问题,将页面中手i :标记的训练实例作为止例,将其它1 卜标记的文本作 为反例,井预先定义一些特征集,通过序列覆盖算法,产生覆盖所有止例而不覆盖反例的抽 取规则集。定义的特征主要包括两种类别:简单特征( s i m p l ef e a t u r e ) ,用来描述目标文本 的k 度、是否是数字或标点符号等;关系特征( m i n i o nf e a t u r c ) ,川米描述该目标文本的前 后限定符的特征。s r v 的抽取规则具有较强的表达能力,且无需事先进行句法分析。 w h i s k i s o d e n ”圳9 9 9 j 采了白顶向f 、由一般到具体的序列覆盖学习算法米生成目标数 据的抽取规则。从能够覆盖全部实例的一般规则开始,然斤不断地往规则中添加项( t e r m ) 米具体化规则。系统需要一些手j i :标记过的训练实例米产生抽取规则,并对生成的规则进行 有效性测试。w h i s k 的抽取规则建立在止则表达式模式基础之上,该表达式标识了目标文 本山现的上卜文和文本之间的分隔符。w h i s k 能够虑川丁各种类型的文档,包括结构化文 档和白由文档。 基丁臼然语言处理的方法的抽取规则基于语法限制、语义类、上卜文平ij 句子成分等信息, 表达能力强。但是,它需要川户提前标注好的人量训练样本,只适川丁结构化程度低的白由 文本。 2 ) 基于封装器归纳方式的信息抽取 基于封装器5 r 1 纳方式的信息抽取方法是,根据事先由川户标记的样本实例庇j j 机器学习 方式的! j = 1 纳算法,生成基丁定界符的抽取规则,之j 亓再根据这些规则抽取目标信息。规则中 的定界符即语义项的左右边界。与基于臼然语言理解方式的信息抽取技术相比,最人的不同 在丁后者没有使州语言的语法约束等自然语言处理方法。基丁封装器门纳的方法多适心丁半 结构化和结构化网页,较少依赖丁全面的句子语法分析和分词等复杂的白然语言处理技术, 适刚范同“。但是,它需要人姑标注女,的训练样本。而且,抽取规则基于信息项的前后限定 符,表达能力较弱。 采川这种原理的典型的系统有s t a l k e r ,w i e n 等。 s t a l k e r m u s i c a l 卿j 采川了层次化地抽取方式,将从复杂文档中抽取数据的任务分解成 从高层次剑低层次的一系列抽取任务。它刚内嵌目录( e m b e d d e dc a t a l o g ,e c ) 米描述、卜结构 化文档的结构。内嵌目录* 树状结构,n l 。子1 了点表示待抽取的属性,中间的1 卜叶子:1 了点表示 元组的列表。对丁e c 树中的每个。j 了点,s t a l k e r 通过序列覆盖算法生成一条抽取规则。 首先生成线性标忠白动机( 1 i n e a rl a n d m a r ka u t o m a t a ) ,覆盖尽可能多的训练止例( 并排除反 5 东南人学硕i j 学位论文 例) ,然后系统试图生成新的臼动机以覆盖剩余的止例,一直到所有的止例都被覆盖为i :。 该系统在一定科度上综合考虑了网页结构和文本内容,所以可以抽取复杂的数据对象; 然而由丁抽取规! i l | j 的生成需要依赖丁h t m l 页面结构和网页的内容,要想获得精确的抽取 规则,必须进行人鼙的样本训练。 w i e n ! k u s h ”蝴k 1 9 9 7 j 采川了臼底向上的、由具体剑一般的序列覆盖算法来! 1 纳生成多梢 的抽取规则。w l e n 的抽取规则主要基丁待抽取信息的前后限定符。w i e n 首先提出了封装 器! j 1 纳的概念,并定义了人种不同的封装器类别,以解决不同的问题。不过,对丁“属性缺 火”和“属性乱序”等问题,w l e n 缺乏有效的处理手段。 基丁包装器门纳的方法多适川丁、l ,结构化和结构化网页,较少依赖丁全面的句子语法分 析和分词等复杂的白然语言处理技术,适川范嗣j 。但是,它需要人量标注好的训练样本。 而且,抽取规则基丁信息项的前后限定符,表达能力较弱。 3 ) 基于o n t o l o g y 方式的信息抽取 按照t o m g u b r e r 的定义,本体( o n t o l o g y ) 是为了帮助科序和人共享知识的概念化 规范,基丁- 本体的信息抽取主要利川对数据本身的描述信息米实现,b y u 是采川该方法的 典删系统。 b y u e m b l e y l 9 9 9 1 在该小组开发的系统中,事先需要由领域专家采州人:l :方式? l5 写某一领 域的o n t o l o g y 。系统根据边界分割符和启发信息将源文档分割为多个描述某一事物不同 实例的无结构文本块,然后根据o n t o l o g y 中的描述信息产生抽取规则,对每个无结构的 文本块进行抽取获得各语义项的值,最斤将抽取山的结果放入根据o n t o l o g y 的描述信息 生成的数据库中。 基丁本体方法的最人优点是对网页结构依赖少,适应性强。缺点是针对不同领域需要由 专家创建详细清晰的适川丁该领域的本体,:r 作量人,成本较高。 4 ) 基于h t m l 结构的信息抽取 该类信息抽取技术的特点是,根据w e b 页面的结构定位信息。在信息抽取之前,通过 解析器将w e b 文档解析成语法树,通过白动或者、卜臼动的方式产生抽取规则,将信息抽取 转化为对语法树的操作抽取目标数据。该类方法一般通过模式挖掘、串匹配、串排列、树排 列等技术米白动学习基丁d o m 树和h t m l 标签的抽取规则,白动化程度高,显著减少了 川户j i :作。但对网页结构依赖较人,缺少通川性,同时时间复为穹度随着文档人小牛指数级增 长。其典型系统有l i x t o ,x w r a rr o a d r u n n e r 等。 l i x t o i b a u m l ;a r t n c r 2 0 0 1 l f l e s c a 2 0 0 1 1 川户以可视化、交互式的方式对样本页面中的信息进行标 记,系统通过记录川户标记的信息,生成抽取规则,实现对相似结构网页的信息抽驭。该系 统的的优点是,使刚用户定义的语义项作为文档中的元素类型名在一定程度上简化了信息抽 取的步骤,增强了信息抽取技术的实川性。该系统的不足之处在丁它的抽取规则使川基丁 d a t a l o g 的e l o g 语言米描述,实现平优化较凼难,另外抽取规则中对抽取信息的描述不够丰 富,而且对网页中的超链接不做处理,不支持图像信息和文献信息的处理。 x w r a p n 2 0 0 l 】 l i u 2 0 0 0 1 通过交互的方式,由川户在样本页中指定抽取区域的起始位置, 系统确定整个抽取区域。并确定区域的类刑,然后通过可视化的方式,由用户在样本页中指 定语义项( 如表头) 以及与之对应的实例,系统自动产生抽取规则实现信息抽取,最斤系统 利用启发信息获得数据间的层次结构关系,生成x m l 文档。该系统采川h j 户在网页中指定 语义项的方式附加语义信息,即将网页的部分内容作为语义项,对应不同的| 叉:域类型( 如: t a b l e ,l i s t 等) 采川不同抽取规则,以提高系统的灵活性和效率。x w r a p 系统操作简便, 6 第- 二章w c b 信息抽取o j 相关背景知识 参照可视化界面川户只要点击儿次鼠标就可以获得针对某个站点的封装器;但该方法属丁j 卜 白动化的封装器生成方式,需要心户的参与而不能完全依赖计算机臼动完成。 r o a d r u n n e ri c 嗍2 0 0 l j 该系统通过对2 个和多个样本页面结构的比较,获得一个利 川止则表达式表示的该类页面的通州结构模式,实现对相似页面的信息抽取。该系统实现了 全白动的信息抽取。结构模式确定的数据都可以抽取山米( 可能包含用户不感兴趣的信息) 。 抽取山的数据仍然没有语义信息,如果要利川的话,可以采州斤模式的方式为其附加语义。 该系统的不足之处在于,系统需要人量的样本训练才能生成。 该类方法一般通过模式挖掘、串匹配、串排列、树排列等技术米白动学习基于d o m 树 利h t m l 标签的抽取规则,白动化程度高,显著减少了川户:i :作。但对网页结构依赖较人, 缺少通州性,同时时间复杂度随着文档人小* 指数级增艮。 从以上对各种信息抽取方法的讨论中可以看到,由丁适川范同不同要针对研究对象的 特点,采川与之适应的方法。同时各类信息抽取应川的技术,如抽取规则的表示、抽取规则 的学习算法等,都有着白身的优点及特点,同时也有一定的不足。表2 1 从使川范同,抽取 规则表示、学习算法,优缺点和典型系统等儿个方面比较了以上w e b 信息抽取方法。 表2 1w e b 信息抽取方法比较 w e b 信息 适用抽取规 抽取规 抽取方法 范围则表示 则学习优点缺点典型系统 类别算法 攮十自然包含人逻辑规归纳逻抽耿舰则恭十语法1 软得有效的抽取r a p j e r 语音处理 量自由 则 辑编程限制、语义类、i :规则需要人量的样 s r v 方式j 弋文本下文和f i j 了成分等奉学习; w h i s k i ) 【】4 贝 信息,表j 厶能力强。 2 程序较难,速度较 慢。 堆于封裟半结构正则表归纳逻i 适用范广;1 需要人量标注好 s t a l k e r 器归纳方化l 】c ) 4 页;达式辑编程2 运用机器学习算的训练样奉; w i e n i =结构化 法学习抽取j ;! i ! 则, 2 抽取规则堆十信 网贞提高白动化程度。息项的前后限定符 表达能力较弱。 牡十包含人正则表领域专1 依赖奉体驱动,对1 创建奉体t 作量 b y u o n t o l o g y 量自由达式家创建i 】【) 9 畎结构依赖少;人,成奉较南: 方式式文本表体2 只要事先创建的2 只适用含人量白 嗍吹o n t o l o g y 足够由式文本网贝。 完善,町以覆盖该 领域的符种嘲灭。 桀十h t m l结构化正则表模j 弋挖自动化程度商, l i l1 对纠畎结构依赖 l i x l o 结构方式州页 达式:掘串匹 并减少用户t 作。较人,缺少通用性; x w r a p d o m 树配串排2 时间复杂度随着r o a d 列树排义档人小呈指数级 r u n n e r 列增长。 从表2 。1 可以看出,不同类别的信息抽取方法有着不同的适川范同、技术特点平优缺点。 基丁白然语言处理的信息抽取,通过引入机器学习算法米学习基丁语法、语义和前后界定符 的抽取规则,提高了白动化程度。基丁包装器门纳的信息抽取,也通过机器学习算法米学习 抽取规则,提高了自动化程度,但是其抽取规则仅仅是依靠信息项的前后界定符,冈而表达 能力有限。基丁本体的信息抽取通过本体米驱动整个信息抽取过栏,可适应性强,但需要预 7 东南人学硕l :学位论义 先制定好本体。基1 - h t m l 结构的信息抽取,通过采川模式挖掘、串匹配用p 列、树排列等 技术米学习得剑基3 - d o m 树和h t m l 标记的抽取规则,臼动化程度最高,但对网页结构 依赖性较人,缺少通川性。 本文将综合考虑基丁封装器! j 纳和基丁h t m l 结构的信息抽取方法,实现对表格内容 的抽取;同时借鉴基丁本体的信息抽取方法,通过构建领域知识初步实现信息抽取的白动化。 详细内容我们将在第五章进行介纠。 2 1 。2 封装器及其生成技术 封装器 e i k v i l l 9 9 9 】是一个程序,它的主要功能是从、卜结构化或结构化的网页中抽取山特定 的信息,并刚结构化形式储存。封装器由抽取规则库以及麻刚这些规则的执行程序组成,一 个封装器一般只针对某些相似网页,如果需要对多个不同的信息源进行信息抽取,就需要分 别创建封装器,并由科序加入到规则库中。然后由统一的抽取规则执行稃序来解析完成具体 的信息抽取任务,并将抽取得到的数据以统一的格式存储在关系数据库中,实现信息的集成。 为了抽却米白不同信息源的h t m l 表格数据,本文将采心基丁封装器门纳方式的信息抽取 方法。 - i i i i i i 匕= = = i i i l 图2 1 :封装器原理示意图 固 构造封装器即封装器生成( w a r p p e rg e n e r a t i o n ,简称w g ) 问题,通常是指针对一个特 定的信息源构造一个能完成对此信息源进行信息抽取的封装器。 封装器生成技术【a s l l 圳9 9 7 l i k “曲m 。“。1 9 9 7 】i g r ”9 9 8 j 【m 吣蚓9 9 9 1 按照白动化科度的不同可分为:手 j i :构造封装器、卜白动化生成封装器以及臼动化生成封装器。 1 ) 手工构造封装器方法 手i :构造封装器方法通常需要程序员花费人带的时间理解文档的结构,根据抽取任务的 需求编写专川的代码。这种手l :的方法存在很人的缺陷:1 ) 当一个新的信息源加入系统或 者已有的信息源网页结构发生变化时,程序员必须重新手jl :构造一个新的封装器。在信息源 数量巨人或者信息源的网页结构变化频繁的情况下,采川手i :方式米构造封装器的方法维护 成本十分高昂,维护起来十分i i j 难。2 ) 采用手1 :方式构造封装器的信息抽取系统对丁刖户 米说也是不实川的。这是由丁普通川户没有手1 :构造封装器的能力,只有构造系统的科序员 才有这个能力。冈此,手f :构造封装器方法具有很人的局限性,可扩展性差,维护成本高。 2 ) 半自动化生成封装器方法 止如w i n d o w s 采川图形化界面使* 通川户也能十分方便的使川计算机,? 卜白动化封装 器生成方法也通过采川幽形化界面,使得封装器的生成过科变得简单。一种方法是使刚向导 让川户告诉系统哪些信息是需要抽取的,哪些是不需要的,然后计算机烈序会根据川户的标 示臼动生成封装器。这意味着在封装器生成过程中不需要专业知识,非专业人员也能完成; 8 。一。一 第二章w e b 信息抽取o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论