(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf_第1页
(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf_第2页
(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf_第3页
(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf_第4页
(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(模式识别与智能系统专业论文)网页信息的自动抽取方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 网页信息抽取是指使用程序从网页文档中提取所需要信息的过程。当前互联 网上的大部分信息是用半结构化的h t m l 语言表示,存储在网页中的,无法被 机器理解,难以有效的利用。本文研究自动的从半结构化的网页中将信息抽取出 来,成为结构化的、机器能够理解的信息。为了实现这个目标,主要需要解决三 个问题:目标记录所在区域的确定、记录的抽取和记录属性的抽取。 本文首先介绍了网页信息抽取的背景和发展。根据所使用方法的不同,对多 项相关的研究做了概要性的叙述,介绍了这些研究的思想及其优、缺点。 对于目标记录所在区域的确定,本文使用基于启发式的方法来解决,介绍了 三种针对这一问题的启发式,分别从节点扇出、子树大小增量和子树标记数三个 方面对网页进行考察,并且将它们结合起来使用以取得更好的效果。 对于记录的抽取,针对现有方法对噪声敏感的问题,本文提出了基于记录予 树的最大相似度发现记录模式的思想,称为最大相似子树方法,将相似度超过一 定闽值的予树识别为同类记录。这种方法在同类记录的表现模式有一定差异的情 况下依然能够正确识别记录。 对于记录属性的抽取,本文将隐马尔可夫模型用于网页信息抽取问题,介绍 了隐马尔可夫模型的基本结构以及如何将其应用到信息抽取领域。针对本文的特 定问题,确定了隐马尔可夫模型的结构,并使用训练样本学习了模型的参数,得 到了一个可用的模型。 型 关键词:网页信息抽取h t m l 标记树启发式最大相似子树隐马尔可夫模 a b s r a c t a b s t r a c t w e b p a g e sl n f o r n a a t i o ne x t r a c t i o ni st h ep r o c e s so f e x t r a c t i n gi n f o r m a t i o nn e e d e d f r o mw e bp a g ed o e m n e n t su s i n gp r o g r a m s ,t h eg r e a tm a j o r i t yo fi n f o r m a t i o ni nt h e i sp r e s e n t e db ys e m i s t r u c t u r e dh t m la n ds t o r e di nw e b p a g e s ,i tc a l l a l o tb e u n d e r s t a n db ym a c h i n e sa n du s e de f f e c t i v e l y t h i sp a p e rr e s e a r c h e sh o wt oe x t r a c t i n f o r m a t i o nf _ r o ms e m i s t r u c t u r e dw e b p a g e sa n dm a k e“ s t r u c t u r e da n d c o m p r e h e n s i b l et oc o m p u t e r sa u t o m a t i c a l l y t oa c h i e v et h i sg o a l ,t h e r ea r cm a i n l y t h r e ep r o b l e m st os o l x j e 。t h e ya r ei n t e r e s t e da r e al o c a t i o n ,r e c o r de x t r a c t i o na n d a t t r i b u t ee x t r a c t i o n i nt h i sp a p e r , t h eb a c k g r o u n da n dd e v e l o p m e n to fw e b p a g e si n f o r m a t i o n e x t r a c t i o ni si n t r o d u c e da sw e l la sas u r v e yo fs o m cr e l a t e dw o r k s ,b a s e do nt h e m e t h o d st h e ya s e d 。t h e s ew o r k sa 张d i s c u s s e da b o u tt h e i rt h o u g h t s ,s t r o n gp o i n t s ,a n d s h o r t c o m i n g s f o ri n t e r e s t e da r e al o c a t i o n ,t h r e eh e u r i s t i c sa r eu s e dt oe x a m i n et h ep a g ef r o m a s p e e t so ff a n o u t , s i z ei n c r e a s ea n dt a gc o u n t t h e s eh e u r i s t i c sa r eu s e dc o m b i n e dt o i m p m v et h ee f f i c i e n c y f o rr e c o r de x t r a c t i o n ,t r a d i t i o n a la l g o r i t h m sa l es e n s i t i v et on o i s e ,t h i sp a p e r 静l 琏sf o r w a r do n em e t h o do f r e c o r dm o d e ld i s c o v e r i n gb a s e do nm a x i m a ls i m i l a rs u b t r e et oi d e m i 母r e c o r d sa u t o m a t i c a l l ya n dc o r r e c t l yi nt h ec a s e 罐t h e r ea l es o l l l e d i f f e r e n c e si ne x p r e s s i o nm o d e l so f r e c o r d st h a tb e l o n gt ot h e , 戳n u ct y p e f o ra t t r i b u t ee x t r a c t i o n 。h i d d e nm a r k o vm o d e | i su s e d 善撼sp a p e ri n t r o d u c e st h e b a s i ca r c h i t e c t u r eo fh m ma n dh o wt ou s e di ti ni n f o r m a t i o ne x t r a c t i o nf i e l d ,a i m i n g a tt h ep a r l i e u 】a rp r o b l e mo ft h i sp a p e r , t h es t r u c t u r eo ft h eh m mi sc h o s e na n dt h e p a r a m e t e r so f t h eh m m a r el e a r n e dt og e ta p r a c t i c a b l em o d e l , k e y w o r d s :w e b p a g e si n f o r m a t i o ne x t r a c t i o n h t m lt a gt r e e ,h e u r i s t i c , m a x i m a ls i m i l a rs u bt r e e i i d d e nm a r k o vm o d e l 1 1 籀章序论 1 1 引言 1 1 1 背豢 第一章序论 随着信息化的进程不断深入到人们的日常生活中,互联网已经成为最流行的 售怠筵撬媒奔,霞坟蔫名瓣攘素弓l 擎g o o g l e 匏w e b 搜索数据疼孛在2 0 0 4 年藏已 经包含了6 0 亿个网页,人们在互联网上无论是发布还是阅读信息都已经非常方 便。但是,随着互联网规模的不断增长,使用者想要获取自己需要的信息却变得 爨难起来,翅嚣快速蠢效戆搜索所嚣信息,成为一个越来越纛要豹闽题。 援索葶l 擎的出现部分缓解了信怒援索的闻题,它鬏据使霜髫给定静关键诵进 行全文检索来获取相关的网页,但怒搜索引擎的澈果还不能让人满意,最主要的 问题在于以下蘸个方丽: ) 狻索结栗熬壤礁攀不毫,存在大量无关穰爨,嚣导致冀蓬嚣要数袋惑淹 没其中,难以被发现和有效利用。 2 ) 搜索模式简单,只能通过关键词来提出搜索请求,而弦很多情况下使用 者很难用装于个关键词艴组合来精确熬表述自己的查询嚣求,熬要获取精确的结 果也就缀灏难了。 与此形成对比的愚,人们可以通过s q l 这样功能强大的蠢询语言,精确的 制定自己的查询需求,方便的从数据库中获取自泌所需要的傣息。如果互联搠作 为一令痿憨滚够豫数攮痒箨撵被纛游,那么默夏联溺获取霖黉戆痿怠将交缮篓 常便利。然而,蟊前互联网上的文本信息的载体大多是h t m i ,( h y p e r t e x tm a r k u p l a n g u a g e ,超文本标酲语言) 【h t m l 】,这种半结构化的语言被设计用来鼹示信 息,丽不怒存铸信息,没有严格豹谬法限制,也没骞渍嚷的语义。苒如上必了获 徭漂亮的溢示效果丽被添鸯珏在箕中的瓣本,h t m l 。潮页代码冗氏、混蘸,掰疆撬 器无法像处理结构化的数据库那样来处理h t m l 文件。 。 。2x 酗l 的塞褒 鉴于结构化语言所能带来的巨大便利,w 3 c ( w b r l dw i d ew e bc o n s o r t i u m , 互联网联含组织) 予t 9 9 8 年2 月发布了x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可 扩展标记沿言) 标准,闻h t m l 一样,x m l 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ,标准通用标记语言) 的一个子集,它将s g m l 的灵活性和强大功能 网页信息的自动抽取方法研究 与已经被广泛采用的h t m l 结合起来。 与h t m l 不同,x m l 不关心数据如何显示,而仅仅关心数据的描述。x m l 文档是完全结构化的,这个特点使得它非常适合数据描述、数据交换和数据互操 作。 但是,w e b 上大部分的文本信息还是以h t m l 作为载体的,一方面大量已 有的用h t m l 发布的信息不可能在短时间内都转换成x m l 格式,另一方面,互 联网七发布信息的主体也类型不一,既有大型网站也有个人网页,很难要求所有 的主体都使用x m l 发布信息。所以x m l 虽然为信息搜索问题的解决提供了一 个很好的方向,在短期内却无法达到理想的效果。 1 。1 3 网页信息抽取 为了能够将互联网上当前已有的和以后将会出现的半结构化信息用数据库 查询的方法加以利用,一种自然的想法是把网页上的信息从半结构化的h t m l 中抽取出来存入结构化的数据库里 f l m 9 8 ,h q 0 4 ,l g m + 0 4 1 。信息抽取是一种浅 层次的文档处理,它从文档中抽取数据并表示为结构化的数据结构,而网页信息 抽取的处理对象是w e b 网页。网页与传统文档的主要不同在于网页中存在大量 的标记,这些标记将网页所要显示的文本内容分隔开来。标记的存在为文档引入 了结构信息,而且由于h t m l 的特性,引入的是不完整的结构信息。另外网页 具有易变性,网页的内容频繁变化,结构也可能变化。这些都使得网页信息的抽 取成为十分具有挑战性的工作。 1 2 网页信息抽取要解决的主要问题 关于网页信息抽取研究有很多,它们的思路各有不同。不过总的来说,网页 信息抽驭需要处理以下几个问题: 1 ) 网页预处理。现实中的网页为了增强显示效果,添加有大量与信息无关 的脚本代码,这些都应该在信息抽取之前予以清除。另外,网页中的h t m l 代 码包含着大量不严格符合规则的错误,如头标记相对应的尾标记缺失等,由于现 在的浏览器具有很大的容错性,这些错误的大部分都并不影响网页的正常显示, 但是这些错误对于网页信息抽取往往是有害的,会使算法得出错误的结果。所以 要使用一些工具来纠正这些错误,将h t m l 代码规范化。这些都是网页预处理 的内容。 2 ) 确定目标信息所在区域。网页中除了脚本代码外,还会存在一些与抽取 信息无关的内容,比如广告、网页框架等。为了有效的抽取需要的信息,消除无 第一章序论 关信息对与信息抽取的影响,有必要确定需要的信息所在的区域,也就是h t m l 代码块。 3 ) 记录的抽取。网页中一般都包含多条记录,要对记录进行进一步的细化 处理,要将多条的记录切分成一个个的单条记录,这个过程被称为记录的抽取, 也称作原始记录( 1 a wr e c o r d s ) 的抽取。 4 ) 记录属性的抽取。一个记录一般由若干个属性组成,为了能够将记录变 成结构化的信息,我们需要从记录中把不同的属性值分别抽取出来,并且给它们 标注上j 下确的属性名,这样,抽取出的属性值才能成为有意义的信息,加以利用。 根据几个主要问题,网页信息抽取的流程如图1 所示。 在这几个问题中,1 ) 实际上是一个工程实现的问题,目前有很多的软件工 具可以用来完成这个任务,本文主要关注的后面3 个问题。 1 2 本文的工作 图1 网页信息抽取的流程图 本文的甘的是研究网页信息的自动抽取问题,选择了研究人员的发表文献信 息页面( 即常见的p u b l i c a t i o n s 页面) 作为处理对象。一方面,在网络学术资源 中,研究人员的个人主页是一个重要的信息来源,其中往往会包含研究人员的信 息、研究方向、发表文献等,通常还会提供文献的全文下载。对于很多研究人员, 经常需要浏览同行的个人主页以获取相关的学术资料,所以选取这类网页具有现 醚夏傣患熬自蘸抽致力竣磅究 实的意义;另方面,p u b l i c a t i o n s 页面通常幽主页作者人工生成,其中使用的 模式种类多,差异大,抽取其中信息的难度也虢大,具有研究价值。基于以上两 方嚣静甄因,奉文逸撵骚究天受蕊发表文麸页嚣 乍为楚理对象,针对该炎羹霹夏 来研究冽页信息处邂所要解决黝3 个主要问题。在各个问题的解决方法中,还尽 可能的减少需要人工参与的环节,以达到较高的自动化程魔。 本文后蟊的各部分缀织如下: 篱二章对半磐稳纯w e b 弼鬣信息擒取技术进 亍了综述。疑w e b 潮燹信悫擒 取的历史,主要方法,及其优缺点等几个方撇进行了介绍。 第三章针对目标信息所在区域的确定问题,介绍了三种简单而有效的启发式 方法,还套绍了蛰俺将它翻缝合灏来镬弱,激联雩霉跑单独矮翅一穗窟发式更好豹 效果。使用这些窟发式不需要人工的参与。 笫四章针对记录的抽取问题,提出了一种新的基于最火相似子树的方法,用 这秘方法进行记录的自动抽取,在不需要人工参与鲍情况下,可以获褥较好的准 确率释较高豹诞壮瞧。 第五章针对记录属性的抽取问题,介绍了将隐马尔可夫模型应用到遮一领域 的基础和方法,针对特定类型网页提出了一种有效的模型结构,达到了一定程度 上豹羹麓往,著曼敬褥了较好戆攘取效果。 第六章对所傲的工作进行了总结,并讨论了未来可能的研究方向。 第二章网页信息抽取技术相关研究 第二章网页信息抽取技术相关研究 信息抽取是从自然语言文本中抽取出特定信息的过程 z h a 0 3 1 ,传统的信息 抽取问题已经被深入而广泛的研究过 c m 0 4 1 ,并形成了一套系统的理论体系, 使用基于语法或语义的抽取模式,但是对于自然语言的处理还没有达到理想的程 度。 网页是一种特殊的文本,具有两个重要的特点:( 1 ) 网页中含有大量的标记 和超链接;( 2 ) 网页中很少出现结构完整的句子。这两个特点使得网页的信息抽 取不完全相同于传统的自然语言处理问题。研究人员对网页的信息抽取问题做了 不少的研究工作,本章将对这一问题的相关研究进行介绍。 2 1 网页抽取技术的发展历史 关于“信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) ”的研究起源于2 0 世纪9 0 年 代,主要是由t i p s t e r 的消息理解会议( m u c ) 发起的。t i p s t e rt e x tp r o g r a m 是一个美国国防部领导的行动,它开始于1 9 9 1 年,其目的是提高文本处理的技 术发展水平。t i p s t e r 研究共分为3 个阶段,在第1 阶段,t i p s t e r 通过消息 理解会议,在信息提取算法方面取得了很大进展,在自动识别命名实体( 如人名、 组织名等信息) 方面取得了巨大进步。在第2 个阶段,t i p s t e r 主要研究软件 体系结构,使得不同的t i p s t e r 成员之间可以共享软件。第3 个阶段,t i p s t e r 增加了几个新的领域,如自动文本摘要等。由于缺乏资金,这项研究计划于1 9 9 8 年正式结束。 随着w e b 的出现和繁荣,i e 研究人员逐渐将兴趣转移到w e b 信息提取的研 究上,涌现了许多算法和系统。其中最知名的研究项目是卡耐基一梅隆大学自动 学习和发现中心( c e n t e rf o ra u t o m a t e dl e a r n i n ga n dd i s c o v e r y ) 的“w e b 挖掘 ( m i n i n g t h e w o r l d w i d e w e b ) ”项目。该项目的目标是通过自动的从w e b 中提 取信息,来创建大型的、结构化的数据库。他们的技术途径是研究机器学习算法, 通过训练,自动抽取出信息。用户首先定义需要被抽取的类( 比如公司、产品、 雇员) 和关系( 比如“被雇佣”) ,并通过互联网提供训练样本,然后系统使用这 些训练数据学习通用的信息抽取步骤,接下来按照这个步骤从其他w e b 页面中 抽取信息。他们已经开发了许多学习算法,包括:( 1 ) f i r s t o r d e r 规则学习算法: ( 2 ) 文法推断算法( g r m n m a r i n f e r e n c e ) 。他们已经证明,这些方法能够抽取关 于大学教员、学生、课程和研究项目的信息,达到大约7 0 的精确度和3 0 的 查全率。 网页信皂的自动抽取方法研究 2 2 相关研究 用于网页信息抽取的程序称为包装器( w r a p p e r ) ,对于w r a p p e r 的分类可以 从不同的角度进行,这里主要从w r a p p e r 所使用的方法来进行分类。 2 2 1 基于自然语言理解的方法 自然语言的理解在传统的信息抽取问题中已经得到了广泛的研究,采用过 滤、词性和词汇语义标识来建立短语和语句元素间的关联,通过给定的例子学习 抽取规则。这些规则通过语法和语义上的约束来定位元素。目前较有影响的主要 有r a p i e r c m 9 8 和w h i s k s o d 9 9 。r a p i e r 只能抽取单条记录,而w h i s k 可 以抽取多条记录。 基于自然语言理解的方法需要给定人工标记的样本来进行学习,当需要抽取 的网页发生了结构上的变动后,需要重新学习。这类方法将网页视作线性的文本 流,通过字符串模式定位到所需信息,忽略了网页的结构和语法,没有能充分利 用网页这种特殊文本的独有特点。 2 2 2 基于机器学习的方法 机器学习在很多领域有着成功的应用,人们也将这类方法引入了网页信息抽 取问题的解决中。基于机器学习的网页数据抽取通过给定的由人工标示的样本来 自动学习抽取规则,然后根据学习出的抽取规则处理新出现的网页文件。和基于 自然语言理解的方法不同,基于机器学习的方法根据分隔符来定位需要抽取的信 息,它们不是依赖语言上的约束,而是描述数据的隐含的格式特性。由于可以将 网页中的h t m l 标记符号作为一种特征进行学习,基于机器学习的方法可以比 基于自然语言理解的方法更多的得益于网页文件具有结构这一特性,但多数应用 仅仅将所有的h t m l 标记符号作为一类特征来学习,使得对于这一特性的利用 不够完全。 d a y n ef r e i t a g f r e 9 8 较早的研究了基于机器学习进行网页信息抽取的问题。 他第一个在工作中对四种机器学习方法应用于网页信息抽取领域进行了研究和 对比,并且将这些方法综合使用,致力于构建一个能在多个领域内具有较强通用 性,能够获取更好的结果的系统。d a y n e f r e i t a g 提出,在待抽取网页中,有四种 信息可供加以利用:词汇频率的统计、字体版式、复合文本( 如h t m l 标记) 、 排版样式。所使用的四种机器学习方法为: 1 1r o t el e a r n e r ,死记硬背式的学习方法。这属于最原始的机器学习方法, 第二章网贸信息抽取技术相燕研究 算法将训练样例中的词汇记入词典,在进行抽取时,从词典中焱找是否有和网页 中匏词汇稳弱於运汇,麴采寄,蘸谣汇褥至l 疆取。尽管这耱舅法菲露蓠攀,毽是 通用性不错,在相当多的领域都可以应用。当然,由于本身学习方式的局限,这 种方法无法处理学习样例中没有出现过的新词汇,而且,死记硬背的方法对网页 内容不敏感,瑟网页的凌套经常可以为售惠攒取掇供蘩助。 2 ) n a i v eb a y e s ,肇绝贝叶斯方法。很显然仪仅能够识剐蘩经觅过的数据是 不够的,程很多情况一f 都需要对新数据的类型做出预测,b a y e s 方法按照下面的 方法进行联测:p r ( hid ) :p r ( d i ih ) = _ p r 一( h ) 。数撼di 霪予类黧h 赘先验穰率 f r l z j ) p r ( h l d ) 与先验概率p r ( 片) 和学习样本中数据d 占类型h 的比例p d 1 日) 的乘 积成正比。在进彳亍分类的时候,算法要从若于个跹中选出一个最可能的,这对 分母p r ( d ) 对于所有的类型,都怒一样的,所以就不予考虑了。根据b a y e s 分 类法则,能够使乘积p r ( d1 月,) p r ( 皿) 达到最大的类型日。会被选作最适合的类型。 这群瓣筒擎b a y e s 舞法有一令皱焦:它对露凳德号筠繇谈蹩翁较重太大了, 比如“”这样的符号缀常出现,所以只要它在候选片断里出现,b a y e s 就会给它 以很高的评价值,这样往往造成不诋确的预测。为了解决这个问题,对b a y e s 方法救了殴逡,黎终b a y e s l d f 。b a y e s l d f 对鬻受餐号采取遵慎悔疑鹣豢粼,在 计算每个祷号的评价德时,它采用的分母是训练集合中这个符号出现的总次数, 而不是训练域实例的次数。d a y n ef r e i t a g 对r o t e 方法和b a y e s 方法在学术报告 通知的抽取问题上进行了实验,结粜表明b a y e s l d f 方法有比r o t e 方法和n a i v e b a y e s 方法更高懿簿确率。 3 ) b a y e s g i ,用文法推断加强的贝叶斯方法。虽然在表现上强于r o t e 方法 和n a i v eb a y e s 方法,b a y e s l d f 方法还并不能够满足需要。b a y e s l d f 方法没有 任餐关予域结麴熬概念,它必须袄纛调茳塞现频率愆统计送嚣王作,嚣不熊剃蠲 文本的抽象特征,这使得常见词汇和非常见词汇缀成的词缀由于整体出现频率非 常低,无法被抽取器证确抽取。 所以尝试使用文法推蛳的方法来辅助b a y e s 方法抽取这种有固定结构的词缀。状 态合荠鞫戏了穰当多文法推蓊算滚鹣基碲,麸一令最细节伲秘语法( 稔俸援蘧接 收器,只按受训练样倒中的序列) 开始,可以逐步的合并状态对,由此产生出一 个更通用的文法来。 a l e r g i a 是一秘较好瓣文法雄羧方法,它逶避巍令方覆蒎较疆令凌态s ,移s 。: 1 ) 两种状态接收相同的概率;2 ) 两种状态有着相同的转变行为,对于词表中的任 何一个符号,两个状态相应的转移概率相等,而盥两个状态能够由相等的状态达 7 刚负信息的自动抽取方法研究 到。如果这两个条件都满足,就认为状态s ,和s 。相等,将它们合并。为了能有 效的抽取结构化的序列,用推断变换器将形如“d r k o l t a n o w s k i ”的序列转换成 形如“t o k e n d r ,t o k e n ,c a p i t a l i z e d t r u e ”这样的形式,这样就用一种更抽象的形 式取代了低出现率的序列。图2 是由a l e r g i a 得出的一个自动机的片断,这个自 动机用来识别学术报告会通知中的举行地点信息。 在学术报告通知抽取领域对几种方法进行了实验,结果表明在要求有较高的 覆盖率时,b a y e s g i 的准确率比b a y e s l d f 的要高。不过b a y e s g i 也还有其缺点, 为了训练推断变换器,它将所有的域符号都当作一个大集合的元素,它忽略了一 起符号同时出现和符号出现的顺序所可能包含的信息,另外,由于受决策列表形 式上的限制,只能选取每个符号的一个特征来代表改符号,这些问题使得 b a y e s g i 浪费了一些可用的信息。 ;o u a a 矗i g i t ? 0 1 1 ; u 单翌姓孵0 0 7 ;i * a l 埔船而日”o 2 4 ; 图2 一个自动机的片断,由a l e r g i a 使用决策列表学习生成,用于识别学术报告会通 知中的地点信息。 4 1s r v ,关系学习算法。关系学习是指搜索由样例之间的关系组成的空间。 尽管b a y e s 方法和文法推断方法的结合已经显示出较强的抽取能力,但是还存在 需要改进的地方。文法推断必须用一个域中所有的符号来表示模式,但是有可能 某些符号的特定方面才是重要的,这是所有的符号都要被考虑的要求就会妨碍概 括。另外,尽管b a y e s g i 通过b a y e s l d f 拥有了对域内容的概念,文法推断部分 却没有,因此,所有直接围绕在一+ 个域的实例周围的结构模式都被丢失了。这样, 第二章网页信息抽取技术相关研究 就需要一糖更灵活的学习方法,要麓通过特征在德患抽取中的有用性来傻爝它 们。 d a y n ef r e i t a g 考虑了关系学习方法,前几种学习方法靠特谯来说明示例,把 示例都映射到一些有代表性的离散饿。s r v 与此不同,示例煅用“谓词”来说 明豹,甄可以有一元谓词,邈可以育二元、三元谓溺。在翦凡萋孛方法中示铡帮是 单独的实体,丽在s r v 中示例闻粕有了关系。s r v 自顶向下的构建规则,歼始 是空规则,这时候所有的正例都没谢被规则覆盖。然后算法贪心的添加文字,以 求在去除反例的同时覆滚尽可能多的雁例。当如下两个条件满足对,规则构建停 止:瘊存豹筑鄹仅汉嚣辩正饲;不秀霄使增益豳数返圈正傻虢文字存在。 在实黢中,s r v 搬多数抽取领域表现比前几种方法更好,在为数不多的几 个领域它魁第二好的。精确率不低予其它方法,丽腻在精确率与其它方法接谶时, 覆盖率更麓。不过,s r v 蔹然表蕊爨了一些不足,它不麓甥残豹处理好巍数领 域,那些s r v 表现菲常好的领域多数也能被简犟的学习算法缝理的不错。在大 多数情况f ,尽管s r 的错误率b k 菠它的学习辣法要低,但鼹它还是留下了不 少的错误。 w i e n k u s 0 0 是臻糠嚣学习兹方法进行网瑟数稚捷褒豹王蔡。w i e n 蔻一个 构造信息揽取系统的工具,提出了6 种类型的w r a p p e r ,它依纛紧挨着信息前面 和后面的标记符号进行定位,主要处理具有“h l r t ”结构的网页。在这类网页 中,有一个头帮戆定爨褥,对提取静簿令条曩存一个左定要符秘考定:孬芬。w i e n 为每个提取域寻我统一的定界符,葵途径是通过梦鼍纳学习。颤纳学习算法的输入 是标注好的样本,学习算法搜索所有可能的定界符,直到找到的定界符与样本一 致。另外,它用一个基于计算学习理论的模型预测需要输入多少样本来保谣学习 结栗的可瘸往。w i e n 逐磊舅究了襻零懿叁葫标注,遽过输天特定领域懿癌发式麓 则自动标波样本。此外,w i e n 的适用范围不仅仪限于网页信息抽取,它对于具 有一定格式的自然语言文本也可以_ 敝用。如图3 所示:图中( a ) 是一个提供查 遮国家电话区号功能静嘲页:( b ) 楚一个查运结聚疆夏的铡予;( e ) 是弼页( b ) 对应静h t m l 代码:( d ) 是网页( b ) 中所包含的瘫容,也裁怒我们所需鬻桶取 的信息;( e ) 是w i e n 使用的l r 类型的w r a p p e r ,用它从h t m l 代码中搦墩出 需要的信息。 奎 网页信息的自动抽取方法研究 图3w i e n 抽取网页的示例:( a ) 提供查询国家电话区号功能的网页;( b ) 一个查询 结果网页的例子:( c ) 网页( b ) 对应的h t m l 代码:( d ) 网页( b ) 中包含的内窑; ( e ) w l e n 使用的l r 类型的w r a p p e r ,用它从( c ) 中抽取出( d ) 。 但是w i e n 的准确率并不能算很高,它在把6 种类型的w r a p p e r 一起使用时 所能达到的准确率也只有7 0 。当有些记录的属性缺失,或有些记录的格式出现 不统一的情况,w 1 e n 无法进行正确的处理。与此相对应,s t a l k e r m m k 9 9 贝j | 提 出了e c l l 树概念,从而能够处理不相邻、顺序打乱或属性不全的记录。 k u m ii t a i 等 i t a 0 3 在他们的工作中使用了s v m 和h m m 这两种机器学习 方法来进行网页数据的抽取,并且尝试了将这两种方法组合起来使用,以达到更 高的准确率和覆盖率。他们的实验数据表面两种方法的组合确实获得了比单独使 第二章网页信息抽取技术相关研究 用任何一一种方法更好的效果。不过s v m 方法只能进行数据的抽取,无法对数掘 进行标识,这是一个缺点。 2 2 。3 基于o n t o l o g y 的方法 o n t o l o g y 是从哲学领域借鉴过来的术语,在计算机领域o m o l o g y 是指某领 域内概念的显式说明 x z c 0 1 】,o n t o l o g y 的构造实际上是构造一个关于知识的系 统,其关键在于知识的表示,既把现实世界中的某个领域抽象为一组概念和概念 之间的关系,使计算机对该领域的处理大为方便 q l l + 0 4 1 。 基于o n t o l o g y 的方法的主要思想是构造一个关于某领域的完全知识库,其 中定义了该领域的各种元素的抽取模式以及它们之间的联系。在抽取信息时根据 知识库中的信息对网页进行处理。在抽取之前,需要将包含单条记录的纪录块分 隔开来,然后依次对每个记录块进行信息抽取。抽取模式没有使用依赖于特定文 档的分隔符或者词性这样的自然语言理解技术,而是主要使用通用的词法模式, 这种方法不依赖于任何结构和表现形式,它使用o n t o l o g y 来定位关键信息并使 用这些元素构造对象。基于o n t o l o g y 的抽取方法往往可以达到比较高的准确率 和在特定领域的通用性,不过,这需要事先构造一个完整的o n t o l o g y 库,而构 造这样一个库需要由专家投入相当多的时间。而且,在很多情况下很难确切给出 对应的o n t o l o g y 。这些问题影响了基于o n t o l o g y 的方法在网页信息抽取领域的 大范围应用。 2 2 。4 基于网页结构分析的方法 w e b 网页是具有结构的特殊文本,所以基于网页结构分析的方法得到了广泛 的研究。 w 4 f s a 9 9 是手工基于网页结构分析进行信息抽取的工具,它定义了一组语 言,用来描述网页获取规则、信息抽取规则以及到j a v a 程序对象的转换规则。 抽取规则还包含正则表达式来帮助从纯文本中抽取信息,这使得它的应用范围不 仅限于网页信息抽取。这个工具还包含一个图形用户界面束帮助用户生成抽取规 则,提高了易用性。图4 是一个待抽取网页和由w 4 f 产生的对应的抽取规则: 网页信息的自动抽取方法研究 d a s h e ro f t h ee j n p i r e - u “a 坶s h i p sm 2 4h o u r s r a y m o n d ef e i s kj 机坶w m t s ,p a p e r b a c k p u b l i s h e d1 9 褥 0 wp r i c e :$ 5 2 0 y o us a v e :$ l3 00 盼 曼曼区童魏| 耍置照亟2 鹾赶盘扛址 e x i r cr i o nr u l z s: b o o k s = h c m l b o d y c 曲1 e 【2 。c r 0 】t d 1 】u l 【o 】1 i 【2 】d l t o 】d c 【。】 f b 【0 】a 【o 】p c d a t a o 乞x c t i t l e 群 b 【0 】a 【0 】g e c 丘c t ri h r e f ) ,u r l 牟- d d 【o 】p c d a t a 【0 1 x c ,m a e c h p u b l i s h e d 1 9 【0 9 11 2 ) i y e a r 岸- d d 【0 】p c d a t a 【0 】t x 七,m a t c h t ,) 、,3 p l i t , 8 u e h o e s g 一 d a 0 】p c d a t a 1 】t x l ;,m a t c h l 、s 】+ ) p r i c e ) ; 图4 一个待抽取网页以及由w 4 f 产生的对应的抽取规则 x w r a p l p h o o i j 是一个半自动化的w r a p p e r 生成器。它首先将需要抽取 的网页根据其结构转换成树状形式,然后利用h t m l 中的一些特定标记( 如 h e a d 和t a b l e ) 以及它们被用来进行数据表现时所具有的含义作为启发式, 自动的寻找所需要的关键信息,并生成由j a v a 代码写的w r a p p e r 。用户只要简单 的点击几次就可以获得一个站点的w r a p p e r 。x w r a p 的系统结构图如图5 : 图5 x w r a p 的系统结构图 不过,实际生成的w r a p p e r 效果并不理想,因为在实际情况中,很多网页 并不符合那些特定的启发式。而且,对于相当多的信息抽取任务,通过几次简单 的点击和启发式的搜索并不能准确捕捉用户的需求,因而,尽管人为参与很少, 结果却并不精确。另外,由于w r a p p e r 是j a v a 代码描述的,这使得w r a p p e r 修 第二章网页信息抽取技术相关研究 改和维护起来比较困难。 c h i a h u ic h a n g 等在 c h l 0 3 1 中设计了一个更加自动化的网页信息抽取系 统,称为i e p a d 。为了进行数据模式的发现,他们引入了p a t 树的概念,首先 将网页转换成p a t 树,通过分析p a t 来发现频繁出现的连续标记,依靠这些连 续标记来定位和抽取所需要的数据。这种方法适用于不包含复杂嵌套结构的数据 模式。另外,由于并不是所有重复出现的内容都是所需要的信息,i e p a d 使用了 一些启发式来过滤非相关信息。p a t 树的问题在于它只能发现严格匹配的模式, 这种理想情况在真实网页中经常是见不到的。另外,虽然i e p a d 使用了启发式 对发现的模式进行过滤,其中并非用户所需要的模式还是太多了。 第一个真正达到完全自动化的基于网页结构分析方法的信息抽取系统是 r o a d r u n n e r c m 0 1 1 ,v a l t e rc r e s e e n z i 等在2 0 0 1 年就已经试验了他们的这个系统。 r o a d r u n n e r 所要处理的是属于同一类型的两个或多个不同页面( 比如某电子商 务网站发布产品信息的多个网页) ,这样的网页一般都是由后台数据库产生的页 面,包含相同类型的数据,由同一个模板生成,较有规律性。r o a d r u n n e r 比较 两个同类的网页,根据其中的相同之处和不同之处归纳出网页的模板,模板使用 正则表达式来描述。根据归纳出的模板,就可以对同类的新网页进行数据抽取。 一个网页文件及其使用的模板的例子见图6 。 在2 0 0 4 年发表的文章 c m 0 4 中,作者对r o a d r u n n e r 系统做了进一步的阐 述。主要是引入了更加系统的文法推断理论背景,提出了一种在现实网页中常见 的语言模式_ p r e f i xm a r k u pl a n g u a g e s ( 前缀标记语言) ,并证明了这种语言 可以通过有限的正例推理出来,也就是所谓的“i d e n t i f i a b l ei nt h el i m i t ”。 r o a d r u n n e r 对网页抽取问题做了一些假设,如标记都是模板的一部分,不存在 或模式的数据,在很多不是由后台数据库根据模板产生的网页中,这些假设是不 成立的。加上r o a d r u n n e r 使用了很复杂的启发式来归纳模板,这使得它对例外 的情况很敏感,对不够规则的网页容易归纳失败。作者也提到,r o a d r u n n e r 对 于不按固定顺序出现的属性会出现错误。 网页信息的自动抽取方法研究 d r r - l l ) ( 1 】忙,) c b p a u lj o n e = ( h t m l , , , i m g j o h ns m ,t h h ) l c o 呻u e _ 8 y 8 t e 聃 b ) f i r s te d 。1 9 9 9 f i r b te d + 1 9 9 5 f p l l j 喀, h t x la n ds c r i 口t b ,l ,l l ,p l n i m g i d a t a b a s op r i m e r 锄 f i r s te d 2 0 0 2 ( i 粘 f i r e t 甜。1 9 9 8 i 描, c ,釉一 c b ) ( b r , 暑c o d d 翻,。2 0 0 0 t i h g x b l i ) t 端p j m v 岱c r i 外i t p )( p ) 轴蝴肛f i 坤t 鼬。2 0 0 t # p c 嗲o a t 4 t , “瑚) 一一一一一 a n da n d 7 入 一岁雩雩髟罗夺、 4 丁) 聊凸4 t a ib i 骺,l 胛 7 j k ,l ,西p l u s ,p ,l i a n d 一! 毋t 。 + 。学。j l 。、 h i ,) 僦o m 。i 茈, 。,如 图6r o a d r u n n e r 中的规则文法示例 除了以上根据使用的方法分类,网页信息抽耿方法还可以根据自动化的程度 来分成手工、半自动和全自动三类。手工方法一般提供一套自有的指令集,由人 通过指令集来定制抽取规则,系统根据定制的规则进行网页信息抽取 z h 0 0 4 】。 半自动方法一般需要提供由人工标记好的训练样本集,系统对训练样本集自动学 习后产生抽取规则,然后根据产生的抽取规则抽取网页信息。全自动的方法一般 第一章礴耍售患秘鞭技末相关磁究 需露提供一个根小的训练样本集,之后就无需人工参与,自动的产生规则,抽取 嘲页信息。 手工方法内予是人工定锾豹整取蔑爨,菠以赞对懿强,准确率j 誊毫。餐楚 这样的规则缺乏通用性,当需要抽取另滋网页时,规则就需要重写,而且互联 网上网页的变动性很强,一髓网页的结构发生了变动,舰则也需要麓新编写,这 嚣要经零性的投入人力参与,可维护挂j 鬻不好。所以这类方法比较逶兵| 于挂取 佼务规模不大,持续的对闽较短,或抽取领域较为固定,网页结构缀少发生变动 的情况。可以穰费不很多的人工劳动,得到很高的准确率。 半自动方法不再依赖人工直接指定抽取规则,减轻了网页抽取道程中人的劳 动爨。瑟且产爱瓣矮粼莰撬铰粒谢练样零覆定,霹致巍毒跑手工方法更驽豹遥攒 性。但是一般来说都需要提供规模较大的已标记样本,这个过程需爱人的参与, 而且与手工方法类似,当需抽取的网页结构发生改变质,需要根据改变后网页提 供毅蟾已标记榉本,重薪讲练,霹维护搜墩并不缀好。骚然半自动俄方法产生黪 躐刚可馥澈手王方法产生静蕊爨l j 更通用,但是萁准确牵一般不如人工产生静规 则。这类方法阿应用在规模较大,涉及网页较多的抽取问题中。 全自动的方法是为了解决通用性与可维护性的问蹶,将人从网硬信息抽取的 j

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论