




已阅读5页,还剩121页未读, 继续免费阅读
(计算机应用技术专业论文)基于web信息抽取的专业知识获取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 互联网的飞速发展使其成为全球信息传播与共享的重要资源,w e b 上的数 据一直呈几何级数增长,要想从w e b 上获取一条有用信息的难度却越来越大, “信息过载”已经成为一个亟待解决的问题。一种理想的情况是:人们可以像查询 数据库一样查询w e b 上的数据。然而,如何从浩繁的w e b 数据中抽取出有用的 信息成为众多研究工作希望解决的问题。 i n t e r n e t 具有的海量、异构、动态变化等特性使w e b 信息抽取不同于传统信 息抽取,同时带来了新的挑战。抽取技术随着需求的增加而不断丰富,近年来 国内外涌现了多种信息抽取方法。本文针对智能教学系统中需要构建的学科知 识数据库,研究根据用户需求从w e b 中自动获取各学科专门知识的方法。 本文提出的基于w e b 信息抽取的专业知识获取方法主要是受s r v 把信息抽 取问题看成是一种分类问题的启发,结合目前已有的基于h t m l 结构的w e b 信 息抽取技术,构造了基于w e b 信息抽取和分类技术的w e b 专业知识获取系统的框 架,并针对该系统框架下的若干关键技术进行了专门研究,具体内容如下: 1 研究w e b 网页的批量获取及预处理方法。基于w e b 的专业知识获取需要 收集大量同一主题的网页,目前各搜索引擎所提供的服务还不能满足需求,本 文提出了一种简单高效的从w e b 自动批量获取网页,并利用正则表达式匹配出具 有主题内容的网页的方法。 2 研究网页预处理的方法。根据m m l 文档结构中的标签含义,构造h t m l 容器标签树,针对网页中各噪音块和主题内容块的特点,删除标签树中的噪音 结点,确定主题内容块。 3 研究网页的主题信息抽取方法。该研究针对当前的信息抽取方法需要有 较多的人工干预,需要较多的先验知识,不同的系统使用的描述语言不同等特 点,采用了基于x m l 映射的信息抽取方法,提出了利用d o m 构建j t r e e ,根据 t r e e n o d e 结点自动获取信息抽取的路径,学习信息抽取规则,从而达到信息抽取 自动化的目的。 4 研究中文文本特征表示方法和文本分类算法。针对向量空间模型的文本 特征表示方法中特征词数量的多少,以及数据搜索空间的大小与分类算法的效 率有着密切关系的特点,提出了基于词性的特征词提取方法,有效降低了特征 向量的维数;提出了基于特征词减少的改进的k n n 算法和基于数据分割的改进 的k n n 算法,提高了分类算法的效率和性能。 5 研究训练库的自动获取方法。要提高分类算法的性能,必须建立高质量 的训练库,以往的研究都是基于一个已经建立好的训练库,本文提出通过w e b 挖掘自动生成一个高质量的训练库,以进一步提高专业知识获取的自动化程度。 6 研究信息的组织和存储方法。对提取的专业知识组织成用户的应用系统 智能教学系统可以直接访问的形式,并对数据按照应用系统的要求进行了 初步整理。 本文对基于w e b 信息抽取的专业知识获取过程中各环节的关键技术进行了 研究,建立了知识获取框架,初步实现了整个获取过程的自动化。 关键词:网页获取,网页清洗,信息抽取,专业知识获取,特征提取, 文本分类,信息存储 a b s t r a c t r a p i dd e v e l o p m e n tm a k e si n t e r a c tb e c o m ea ni m p o r t a n tr e s o u r c ei ng l o b a l i n f o r m a t i o nt r a n s f o r m a t i o na n ds h a r i n g t h ed a t ai nt h ew e ba r eg r o w i n ga ta s t e a d y r a t eo fg e o m e t r i cs e r i e s ,s oi ti sm o r ea n dm o r ed i f f i c u l tt oa c q u i r eap i e c eo fu s e f u l i n f o r m a t i o nf r o mt h ew e b ,a n d “i n f o r m a t i o no v e r l o a d h a sb e c o m ea nu r g e n tp r o b l e m n e e d e dt ob es o l v e d t h ei d e a lc a s ei sd e s c r i b e da s :p e o p l ec a n i n q u i r ei n t ot h ed a t ai n t h ew e bi nt h es a m ew a ya sw e i n q u i r ei n t ot h ed a t ab a s e h o w e v e r , h o wt oe x t r a c tt h e u s e f u li n f o r m a t i o nf r o mv a s ta n dn u m e r o u sd a t ao nt h ew e bi ss t i l la p r o b l e mw h i c h t h er e s e a r c h e r sh o p et os o l v e s u c hc h a r a c t e r i s t i c sa sl a r g eq u a n t i t y , i s o m e r ya n dd y n a m i cv a r i a t i o na n ds oo n m a k ew e bi n f o r m a t i o ne x t r a c t i o nd i f f e r e n tf r o mt r a d i t i o n a li n f o r m a t i o ne x t r a c t i o n a n db r i n gn e wc h a l l e n g e s i nr e c e n t y e a r st h ee x t r a c t i o nt e c h n i q u e sh a v eb e e n e n r i c h e da st h ed e m a n di n c r e a s e s ,a n dt h e r ee x i s tm a n yi n f o r m a t i o ne x t r a c t i o n m e t h o d sd o m e s t i c a l l ya n da b r o a d i nt h i sd i s s e r t a t i o n ,w ei n v e s t i g a t et h em e t h o do f a u t o m a t i ck n o w l e d g ea c q u i s i t i o ni na l ls u b j e c t sf r o mt h ew e b a c c o r d i n gt ot h en e e d o ft h ec u s t o m e r s ,i na c c o r d a n c ew i t ht h e s u b j e c tk n o w l e d g ed a t a b a s et ob e e s t a b l i s h e di nt h es m a r ti n s t r u c t i o n a ls y s t e m s p e c i a l i z e dk n o w l e d g ea c q u i s i t i o nm e t h o db a s e do nw e bi n f o r m a t i o ne x t r a c t i o n , w h i c hi sp r o p o s e di n t h i sd i s s e r t a t i o n ,i sm a i n l ye n l i g h t e n e db yt h ei d e at h a ts r v r e g a r d st h ei n f o r m a t i o ne x t r a c t i o na sac l a s s i f i c a t i o np r o b l e m a l o n gw i t hw e b i n f o r m a t i o ne x t r a c t i o nm e t h o db a s e do nh t m ls t r u c t u r e ,w eh a v ec o n s t r u c t e dt h e f r a m eo fw e bs p e c i a l i z e dk n o w l e d g ea c q u i s i t i o ns y s t e mb a s e do nw e bi n f o r m a t i o n e x t r a c t i o na n dc l a s s i f i c a t i o nm e t h o d ,a n dc o n d u c t e ds p e c i a ls t u d i e so ns o m ek e y t e c h n i q u e si n t h i ss y s t e m t h ed e t a i l e dc o n t e n t so ft h i sd i s s e r t a t i o n a x el i s t e da s f o l l o w s : 1 w e b p a g el a r g e q u a n t i t ya c q u i s i t i o na n dp r e t r e a t m e n ta r ea n a l y z e d s p e c i a l i z e dk n o w l e d g ea c q u i s i t i o nb a s e do nw e br e q u i r e sc o l l e c t i n gal a r g eq u a n t i t y o fw e bp a g e sw i t ht h es a m e t o p i c n o w a d a y s t h es e r v i c e p r o v i d e db y a l l s e a r c h e n g i n e sc a n tm e e tt h en e e d i nt h i sw o r k ,w ep r e s e n tas i m p l ea n de f f i c i e n t i i i m e t h o dw h i c hi se m p l o y e dt oa u t o m a t i c a l l ya c q u i r ew e b p a g e si nl a r g eq u a n t i t ya n d m a t c ht h ep a g e so ft h es a m et o p i c sb yu s i n gc a n o n i c a le x p r e s s i o n s 2 p a g ep r e t r e a t m e n tm e t h o di ss t u d i e d a c c o r d i n gt ot h el a b e lm e a n i n gi nt h e h t m lf i l e s t r u c t u r e ,h t m lv e s s e ll a b e lt r e ei sc o n s t r u c t e d i nv i e wo ft h e c h a r a c t e r i s t i c so fn o i s e b l o c ka n ds u b j e c tc o n t e n tb l o c ki nt h e p a g e s ,t h en o i s en o d ei n t h el a b e lt r e ei sd e l e t e da n ds u b j e c tc o n t e n tb l o c ki sc o n f i r m e d 3 s u b j e c ti n f o r m a t i o ne x t r a c t i o nm e t h o do ft h ep a g e si sd i s c u s s e d i nv i e wo ft h e f a c tt h a tt h ep r e s e n ti n f o r m a t i o ne x t r a c t i o nm e t h o d sn e e dm u c ha r t i f i c i a li n t e r v e n t i o n a n dm u c hp r i o rk n o w l e d g e ,a n dt h a td i f f e r e n ts y s t e m su s ed i f f e r e n t d e s c r i p t i v e l a n g u a g e s ,w ee m p l o yo n ek i n do fi n f o r m a t i o ne x t r a c t i o nm e t h o db a s e do nx m l m a p p i n g , e s t a b l i s hj t r e eb yu s i n gd o m ,a u t o m a t i c a l l ya c q u i r et h e p a t ho f i n f o r m a t i o ne x t r a c t i o na c c o r d i n gt ot h et r e en o d e ,a n ds t u d yi n f o r m a t i o ne x t r a c t i o n r u l e s ,i no r d e rt h a tt h ea u t o m a t i o ni ni n f o r m a t i o ne x t r a c t i o ni sa c h i e v e d 4 c h i n e s et e x tc h a r a c t e r i s t i ce x p r e s s i o nm e t h o da n dt e x tc l a s s i f i c a t i o na l g o r i t h m a r ea l s oa n a l y z e d t h eq u a n t i t yo fc h a r a c t e r i s t i cw o r di nt h et e x tc h a r a c t e r i s t i c e x p r e s s i o nm e t h o do fv e c t o rs p a c em o d e la n dt h ed i m e n s i o no fd a t as e a r c h i n gs p a c e h a v ea l li n t i m a t er e l a t i o n s h i pw i t ht h ee f f i c i e n c yo fc l a s s i f i c a t i o na l g o r i t h m b a s e do n t h ef a c tm e n t i o n e da b o v e ,w eh a v ed e v e l o p e dac h a r a c t e r i s t i cw o r de x t r a c t i o nm e t h o d b a s e do nw o r dg e n d e r w h i c hc a nr e d u c et h ed i m e n s i o n so fc h a r a c t e r i s t i cv e c t o r a n d w eh a v ea l s op r o p o s e dt w om o d i f i e dk n n a l g o r i t h m s ,w h i c ha r eb a s e do nl e s s e n i n g o fc h a r a c t e r i s t i cw o r d sa n dd a t ad i v i s i o nr e s p e c t i v e l y , s ot h a tt h ee f f i c i e n c ya n d p e r f o r m a n c eo fc l a s s i f i c a t i o na l g o r i t h ma r ei m p r o v e d 5 t r a i n i n gb a s e sa u t o m a t i ce x t r a c t i o nm e t h o di ss t u d i e d i no r d e rt oi m p r o v et h e p e r f o r m a n c eo ft h ec l a s s i f i c a t i o na l g o r i t h m ,ah i g h c l a s st r a i n i n gb a s eh a st ob e e s t a b l i s h e d a l lt h ep a s tr e s e a r c h e sa r eb a s e do nt h et r a i n i n gb a s ew h i c hh a da l r e a d y b e e ne s t a b l i s h e d h o w e v e r i np r e s e n t s t u d yo n eh i g h - c l a s st r a i n i n g b a s ei s a u t o m a t i c a l l yg e n e r a t e db yw e be x c a v a t i o n ,i no r d e rt o f u r t h e ri m p r o v et h e a u t o m a t i o nd e g r e eo fs p e c i a l i z e di n f o r m a t i o na c q u i s i t i o n 6 t h ei n f o r m a t i o no r g a n i z a t i o na n ds t o r a g em e t h o d sa r ea n a l y z e d t h ee x t r a c t e d s p e c i a l i z e dk n o w l e d g ei so r g a n i z e d i n t oaf o r mt h a tt h ec u s t o m e r u t i l i t y s y s t e m - - s m a r ti n s t r u c t i o n a ls y s t e m c a l la c c e s sd i r e c t l y , a n dt h ed a t aa r ea r r a n g e d i v i n i t i a l l va c c o r d i n gt ot h en e e do f t h eu t i l i t ys y s t e m l i :t h i sd i s s e n a t i o n ,r c s e a r c h e s h a v eb e e nd o n eo nk e yt c c h n i q u e si ne v e r y l i n ko f s p e c i a l i z e d l 【n o w l e d g ea c q u i s i t i o n b a s e do nw e bi n f o r m a t i o l l e x t r a c t i o n , h e 二。w l e d g ca c q u i s i t i o nl j r a m eh a sb e e ne s t a b l i s h e d ,a j l d e l e m e n t a r ya u t o m a t i o n 洫t 1 1 e p r o c e s s o fa c q u i s i t i o ni sa c h i e v e d k e yw o r d s :p a g ea c q u i s i t i o n ,p a g e c l e a n i n g , i n f o r m a t i o ne x t r a c t i o n , s p e c i a l t y k n o w l e d g er e t r i e v a l ,c h a r a c t e r i s t i c e x t r a c t i o n , i n f o r m a t i o ns t o r a g e v t e x tc l a s s i f i c a t i o n , 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究性工作及取得的 研究成果。尽我所知,除了文字特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教 育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所作的任 何贡献均已在论文中作了明确的说明并表示了谢意。 研究生签名:= 习竽薹二日期:一! 生赳 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其它复制手段保存论文。 ( 保密的论文在解密后遵守此规定) 研究生躲华翩虢互拦吼一 武汉理工大学博士学位论文 1 1 研究背景 第1 章引言 随着计算机技术、通讯技术的飞速发展和个人计算机的普及,i n t e r n c t 作为 一个全球网络,越来越融入到人们的生活、工作、学习、商务活动中。人们所 需要的任何信息,都可以从w e b 上查找并下载,w e b 已经发展成为一个全球的、 巨大的、分布和共享的信息空间。但是目前w e b 上的信息量呈爆炸性增长,用 户为了获取自己需要的一点点信息,可能需要花费很长时间来搜索、浏览网页: 此外w e b 上的数据大部分都是以h t m l 形式出现的,主要目的是为了显示,让 人们通过浏览器浏览,缺乏对数据本身的描述,不含清晰的语义信息,模式也 不太明确,这使得应用程序无法直接解析并利用w e b 上海量的信息,造成资源 极大的浪费。为此迫切地需要一些自动化的工具帮助人们在海量信息源中迅速 找到真正需要的信息,信息抽取研究正是在这种背景下产生的。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 是近十几年来发展起来的新领域, 起源于文本理解,是自然语言处理领域里特别有用的一个子领域。很多研究尝 试将信息抽取技术应用于各领域的信息抽取,如电子商务领域1 1 5 】、新闻领域 1 6 - 1 0 】、医学领域【1 1 , 1 2 】、金融领域【1 3 】、军事领域【1 4 , 1 5 1 、竞争情报领域【1 6 ,1 7 1 、音乐领 域1 1 引、中英文计算语言掣1 9 出】等,但利用信息抽取技术获取各学科专业知识尚 不见相关研究。 本论文研究的基于w e b 信息抽取的专业知识获取,是根据用户的需求,利用 信息抽取技术获取特定学科专业的知识,再以结构化形式存储方便其它应用系 统能直接访问和使用。例如根据智能教学系统的需要,用户可以利用w e b 信息 抽取技术从网上获取教学资源,建立教学信息知识库。成功的教学知识获取系 统将根据不同学科知识点,自动从网上获取丰富有用的教学资源提供给智能教 学系统,从而大大降低了建立教学信息知识库的工作量。同时,随着网络信息 量的增加,出现更多更新的教学信息资源时,教学知识获取系统还可以动态地 获取新的教学资源并添加到教学信息知识库中。 基于w e b 信息抽取的专业知识获取系统开始于用户输入查询目标字符串,然 武汉理工大学博士学位论文 后由搜索模块搜索u r l 地址并获取相关的页面,对获取的页面进行预处理并分类, 再对分类后的文档进行信息抽取,最后将抽取到的有用信息以结构化形式存储 以供应用程序使用。整个系统涉及到网页的自动获取、网页的处理及分类、w e b 信息抽取及信息存储等关键技术,本文试图将多种关键技术进行有效组合并予 以改进,达到专业知识获取系统的整个过程自动完成的目的。 1 2 国内外研究现状与分析 w r c b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ,简称为w e b l e ) 是将w e b 作为信 息源的一类信息抽取。w e b 信息抽取是研究如何将分散在i n t e m e t 上的半结构化 的h t m l 页面中的隐含的信息点提取出来,并以更为结构化、语义更为清晰的 形式表示,为用户在w e b 中查询数据、应用程序直接利用w e b 中的数据提供便 利【2 5 1 。 信息抽取技术的核心是能够从w e b 页所包含的无结构或半结构的信息中识 别用户感兴趣的数据,并将其转化为更为结构化、语义更为清晰的格式1 2 6 】。信 息抽取就是从各种不同的文本里定位、识别和提取出需要的信息点,表示成一 种统一的、结构化的形式。信息抽取的目标是把文本里包含的信息进行结构化 处理。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。 1 2 1w e b 信息抽取技术的发展历史 有关“信息提取( 正) 的研究起源于2 0 世纪9 0 年代初,主要是由t i p s t e r 的消息理解会议( m u c 2 7 2 8 】) 发起的。的前身是文本理解【2 9 1 ,在出现之前, 已经有大量的关于自然语言处理的研究和系统,但这些系统通常只能处理一个 很狭窄领域的文本,而且很难移植到新的领域【3 0 j 。 t i p s t e rt e x tp r o g r a m 是一个美国国防部领导的行动,它开始于1 9 9 1 年,其 目的是提高文本处理的技术发展水平。t i p s t e r 研究共分为三个阶段,在第一阶 段,t i p s t e r 通过消息理解会议,在信息提取算法方面取得了很大进展,在自动 识别命名实体【3 1 3 2 l ( 如人名、组织名等信息) 方面取得了巨大进步。在第二个阶 段,t i p s t e r 主要研究软件体系结构,使得不同的t i p s t e r 成员之间可以共享软 件。第三个阶段,t i p s t e r 增加了几个新的领域,如自动文本摘要等。由于缺乏 资金,这项研究计划于1 9 9 8 年正式结束。 2 武汉理工大学博士学位论文 随着w e b 的出现和繁荣,i e 研究人员逐渐将兴趣转移至l j w e b 信息提取的研究 上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基梅隆大学“自动 学习和发现中心( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘 ( m i n i n gt h ew o r l dw i d ew e b ) 项目。该项目的目标是通过自动从w e b 中提取 事实,来创建大型的、结构化的有用事实的数据库。他们的技术途径是研究机 器学习算法,通过训练,能够自动提出信息。用户首先定义要被提取的类( 比 如公司、产品、雇员) 和关系( 比如“被雇佣”) ,并通过w e b 提供训练样本, 系统然后使用这些训练数据学习通用的信息提取步骤,然后按照这个步骤从其 他w e b 页面中提取信息。他们已经开发了许多学习算法,包括:( 1 ) f i r s t o r d e r 规则学习算法;( 2 ) 文法推断算法( g r a m m a ri n f e r e n c e ) 。他们已经证明,这 些方法能够提取关于大学教员、学生、课程和研究项目的信息,达到大约7 0 的 精确度和3 0 的查全率。 1 2 2w e b 信息抽取技术 w e b 信息抽取技术有多种分类方式【3 3 】: 根据自动化程度可以将w e b 信息抽取分为人工方式的信息抽取、半自动化 方式的信息抽取和全自动化方式的信息抽取三大类。这种分类方式主要根据 w e b 信息抽取的核心w r a p p e r ( 包装器) 生成方式的不同来分类的。采用人工 方式信息抽取的系统主要有:w 4 f 、i n f o r m i a 、a n d e s 等,采用自动半自动化 方式信息抽取的系统主要有:x w r a p 、w i e n 、s o f l m e a l y 、s t a l k e r 等。 根据各种工具所采用的原理不同可以将w e b 信息抽取分为基于包装器语言的 信息抽取、基于h t m l 结构的信息抽取,基于自然语言处理方式的信息抽取、 包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取以及基于建模的信 息抽取等六种方式。 1 基于页面抽取语言( l a n g u a g e sf o r w r a p p e rd e v e l o p m e n t ) 的信息抽取 该方法设计一种特别的语言来帮助用户构建w r a p p e r s ,这些语言被用来替代 像p e r l 和j a v a 这样的一般性语言,因此抽取是用手工的方法编写程序来实现的。 抽取过程是基于过程化的程序,但是,抽取结果依赖于文档的结构。一些著名 的工具都是采用这种方法,女1 m i n e r v a 川,t s i m m i s 3 5 1 ,w e b o q l 3 6 1 。采用这 种方法的其他工具还有f l o r i d l 3 7 】和j e d i 3 引。 2 基于h t m l 结构( h t m l - a w a r e ) 的信息抽取 3 武汉理下大学博士学位论文 基于h t m l 结构的信息抽取技术的特点是根据w e b 页面的结构定位信 息,在信息抽取之前通过解析器将w e b 文档解析成语法树,通过自动或半自动 的方式产生抽取规则,将信息抽取转化为对语法树的操作实现信息抽取。目前 采用这种原理的典型系统有w 4 f 1 3 9 1 、x w r a p i 矧、r o a d r u 衄e r 【4 1 】和l i x t o l 4 2 1 。 3 基于自然语言处理( n i j p b a s e d ) 的信息抽取 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎文 法的文本) ,在一定程度上借鉴了自然语言处理技术,利用字句结构、短语和字 句间的关系建立基于语法和语义的抽取规则实现信息抽取。目前采用这种原理 的典型系统有r a p i e r 矧、s r v 4 4 1 和w h i s k l 4 5 1 。这种基于自然语言理解方式 的信息抽取技术,是将w e b 文档视为文本进行处理的( 主要适用于含有大量文 本的w e b 页面) ,抽取的实现没有利用w e b 文档独特于普通文本的层次特性。 获得有效的抽取规则需要大量的样本学习。 4 包装器归纳方式( w r a p p e ri n d u c t i o n ) 的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实际上是对感兴趣 语义项上下文的描述,即根据语义项的左右边界来定位语义项。目前采用这种 原理的典型系统有s t a l k e r i 蚓、s o f t m e a l y l 4 7 1 和w i e n 4 8 1 。这种包装器归 纳方式的信息抽取和基于自然语言理解方式的信息抽取技术的不同点在于仅仅 使用语义项的上下文来定位信息,并没有使用语言的语法约束。 5 基于模式( m o d e l i n g b a s e d ) 的信息抽取 这类方法给出一个兴趣对象的目标结构,然后搜索网页中隐含与这种结构一 致的那部分数据。这个结构根据一些原始模型( 如元组,列表等) 提供。采用 这种方法m - r _ 具有n o d o s e l 4 9 】和d e b y e l 5 0 , 5 1 】。 6 基于o n t o l o g y 方式的信息抽取 基于o n t o l o g y 方式的信息抽取主要是利用对数据本身的描述信息实现数据 抽取,对网页结构的依赖较少。目前采用这种原理的典型系统有b y u l 5 2 j ( b r i g h a my o n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具) 、q u i x o t e l 5 3 , - s 4 j 。 国内迄今为止的研究基本上是处于包装器的半自动生成阶段,尚未见到自动 识别网页并产生包装器抽取数据的方法的有关研究资料。比如: 中国人民大学数据与知识研究所提出的基于预定义模式的包装剁 j 。该方法 由用户定义模式并给出模式与h t m l 网页的映射关系,接着系统推导出规则同 4 武汉理工大学博士学位论文 时生成包装器。 中科院软件所提出的基于d o m 的信息提取【5 6 l 。该算法以文档对象模型 ( d o m ) 为基础,把所要提取的信息在d o m 层次结构中的路径作为信息抽取 的“坐标 ,并以这个基本原理为基础设计了种归纳学习算法来半自动化地生 成提取规则,然后根据提取规则生成j a v a 类,将该类作为w e b 数据源包装器 组成的重要构件。 河北大学提出的基于样本实例的w e b 信息抽取【5 7 1 。用户首先选定样本页面 和预先定义模式( 基于0 r ) 模型,然后对样本页面和其中的样本记录进行标记 学习形成规则( 包含抽取规则和关联规则) ,并将规则放入知识库中,最后利用 知识库对其它同类页面自动抽取信息,存放在对象关系数据库中。 中国科技大学提出的基于多层模式的多记录网页信息抽取方法1 5 剐。该方法的 基本思想是h t m l 网页信息抽取只是利用多层模式来加以描述,以便能够利用 各层模式之间相互联系的特点帮助动态获取各层中与h t m l , 页面内容具体描 述( 格式) 密切相关的信息识别模式知识;并最终再利用所获得的多层( 信息 识别) 模式,完成相应各个h t m l 网页的具体信息抽取工作。 上述算法都存在一定的局限性。 首先,需要有较多的人工干预。由于需要较多的先验知识,并且不同的系 统使用的描述语言不同,从而,要求进行干预的人员不仅需要对网页的结构分 析和生成等方面较为熟悉,并且还要对系统使用的描述语言较为了解,因此对 人员的要求比较严格。 其次,根据一定的先验知识产生包装器的方法造成了系统的适应性较差, 也就是说,根据特定情况产生的包装器只能适用于特定情况,当网页结构发生 变化时,需要重新进行人工干预和标识,因此很难较好地适应变化。 1 2 3 典型的信息抽取工具 1 基于页面抽取语言的信息抽取 m i n e r v 卜a r 锄e u s 系统的一个重要组成部分,它结合了基于语法的声明方 式和典型的过程化语言。m i n e r v a 使用的语法以e b n f 定义:对每个文档,定义生 成式的集合;每个生成式根据终结符和其它非终结符定义一个语法的非终结符 的结构。 t s i m m i o 可以通过用户写的规范文件来配置。规范文件由一系列定义抽 5 武汉理工大学博士学位论文 取步骤的命令组成,通过规范文件解析h t m l 页面,发现感兴趣的数据并进行抽 取。 w e b o q i 一其最初的目的是在w e b 上能够执行象s q l 那样的查询。 w e b o q l 是一种陈述性的查询语言,能够定位在h t m l 页面上所选择的数据快。 为了达到这种目的,包装器将页面解析抽象的语法树h y p e r t r e e 来表示页面。通过 这种语言,可以写查询在语法树上定位感兴趣的数据并以已合适的格式输出这 些数据。 2 基于h t m l 结构的信息抽取 w 4 f ( w o r l dw i d ew e bw r a p p e rf a c t o r y ) 是建w r a p p e r s 的工具集,包含 一组自定义的语言用来描述网页获取规则,信息抽取规则以及到j a v a 程序对象 的转换规则。抽取规则还包含正则表达式来帮助从纯文本中抽取信息。这个工 具还包含一个图形用户界面来帮助用户生成抽取规则1 5 9 。 x w r a p 一是一个半自动化的w r a p p e r 生成器,如图1 2 所示。首先获取u r l 对应的网页的树结构,随后利用了h t m l 中一些特定标记( 比如脏a d 和t a b l e ) 以及它们被用作数据表现时的含义作为启发式。通过启发式,它会帮助自动寻 找关键信息,并生成i 主i j a v a 代码写的w r a p p e r 。x w r a p 有一个组件库提供抽取规 则生成的基本模块,这个工具引导用户通过一系列的步骤,选择每一步中正确 的组件。最后,x w r a p 输出特定源上的一个抽取规则。在对象抽取这步中,为 h t m l 页面预定义了六个启发式,用户可以使用其中的启发式定位感兴趣的数据 对象。用户也可以为了使抽取结果更符合自己的要求限制或放宽每个对象的组 件数目或指定数据类型。 r o a d r u 皿e 卜_ 其方法是进一步发掘h t m l 文档内在的特征来自动产生抽取 规则。通过比较样本页面得到一个结果模式,从这个模式可以推测出一个能够 识别出样本页面中的实例。为了准确的捕获在样本页面所有可能的结构变量, 必须提供多于两个的样本页面。所有的抽取过程都基于这样一个算法,比较样 本页面的标签结构产生规则的表达式来处理结构之间不匹配的情况。过程完全 自动化是r o a d r u n n e r 独一无二的特性,它可以说是第一个完全自动的抽取工具, 具有里程碑的意义。但它对模式的推导时间复杂性是指数量级,因此在大量样 本页面的情况下代价过高。 3 基于自然语言处理的信息抽取 6 武汉理工大学博士学位论文 r a p i e r ( r o b u s ta u t o m a t e dp r o d u c t i o no fi n f o r m a t i o ne x t r a c t i o nr u l e s 健壮的 信息抽取规则自动生成系统) 以半结构化文本为处理对象,学习抽取规则。 r a p i e r 的抽取规则是建立在分隔符和内容描述的基础上的,即使用了能利用句 法和语义信息的模式所表达的规则。信息抽取规则用模板名和格栏( s l o t ) 名索 引,由三部分组成:前填充子( p r e f i l l e r ) :一个应匹配目标文本之前的文本的 模式( p a t t e r n ) ;填充子:一个应匹配目标文本的模式;后填充子:一个应匹配 紧接目标文本之后的文本的模式。一个模式是一串模式信息点( p a t t e r ni t e m s ) , 要求一个一个词匹配,或者是模式列表( p a t t e r nl i s t s ) ,可匹配n 个词。文本必 须满足模式规定的条件才算匹配成功。 s r v ( s e q u e n c er u l e sw i t hv a l i d a t i o n ,带确认功能的次序规则卜是一种自 上而下、关系型的信息抽取算法。其输入是一系列的网页,上面标记了待抽取 区域的实例( i n s t a n c e ) ,以及一系列基于字串( t o k e n ) 的特征。输出是一系列的抽 取规则。s r v 把信息抽取问题看成是一种分类问题。文本中所有可能的短语( 取 最长者) 都是实例。它应用的特征有简单t o k e n 特征、关系特征,字词的长度、 类型、拼写、词性等属于简单特征。关系特征反映字词的相邻度。它有5 种文 字形式,分别描述文本片段的长度、文本片段中某一个t o k e n 的特征、文本片段 所有t o k e n 的特征,文本片段某一个t o k e n 的位置、文本片段某两个t o k e n 的相 对位置。 w h l s k 一从文本文档中抽取数据的另外一种工具。w h i s k 系统能处理的 文本对象很全面,从结构化程度很强的文本到网页等半结构化文本,还能处理 新闻等纯文本。处理结构化或半结构化文本时,w h i s k 无须事先经过句法分析, 但处理自由文本时,最好能先对文本作句法和语义标注。系统采用指导学习算 法,而且需要输入一系列手工标注的训练实例。标注和学习过程是交织在一起 的。每次循环,系统将提交一批实例让用户标注,系统则从标注的实例中归纳 出规则。w h i s k 属于机器学习算法家族中的覆盖学习法,与自上而下的学习分 类归纳法相关。首先,找到一个最宽泛( g e n e r a l ) 的能覆盖规则种子的规则,然 后一次加一个条件,直到错误率为零,或者满足一个事先设定的标准为止。 4 包装器归纳方式( w r a p p e ri n d u c t i o n
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 药师资格考试题型及答案
- 民商银行招聘考试题库及答案
- 初一地理考试内容及答案
- 湖北春季高考试题及答案
- 难点详解人教版八年级上册物理声现象《声音的产生与传播》同步测试试卷(含答案详解版)
- 机械四级考试题库及答案
- 期中考试七上数学试卷及答案
- 全世界十级语文考试题目及答案
- 银行相关业务知识判断题及答案解析
- 2025年病案信息技术(医学高级)考试近5年真题集锦(频考类试题)带答案
- 2025年人性本恶辩论赛辩论稿
- 风机叶片吊装安全培训课件
- 中国联通商洛市2025秋招笔试性格测评专练及答案
- 2025年第一期反洗钱专题培训测试题及答案
- 2026中国十九冶集团有限公司校园招聘笔试备考试题及答案解析
- 2025年保安员考试经典例题附完整答案详解(典优)
- 网络安全宣传周网络安全知识竞答考试题及答案
- 新能源电厂培训课件
- 司法局社区矫正工作汇报
- 生物安全培训上岗证课件
- 学校优秀教职工代表推荐表
评论
0/150
提交评论