




已阅读5页,还剩59页未读, 继续免费阅读
(计算机应用技术专业论文)web信息自动抽取技术的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
武汉理工大学硕士学位论文 摘要 随着l a t e m e t 技术的不断发展及其应用的深入,w e b 已经发展成为一个巨 大的、分布式的和共享的信息资源,可用信息正在呈指数级增长。目前w 曲数 据犬都以h t m l 的形式出现。由于h t m l 缺乏对数据本身的描述,不包含清 晰的语义信息,这使得由h t m l 描述的w e b 页面只适合浏览。为了增强w e b 数据的可用性,出现了w e b 信息抽取技术,它通过包装现有的w e b 信息源,将 网页上的信息以更为结构化的方式抽取出来,为应用程序利用w e b 中的数据提 供了可能。因此它有着明显的优势和广阔的前景,是当今研究的热点。 将信息从网页中抽取出来通常是由包装器( w r a p p e r ) 完成的。编写包装器 的过程经历了手工、半自动化以及正在研究的全自动三个阶段。已有的手工以 及半自动化包装器的建立方法存在着几个主要的困难:首先,大量的手工操作 对使用者提出了很高的要求;其次,包装器维护繁锁,不具有通用性。本文在 研究现有的w e b 信息抽取技术的基础上,提出了一种基于树结构的自动提取网 页数据的方法。本文的主要贡献有以下几点: 1 提出并实现了一种获取相似网页的方法。该方法通过对页面结构的分析, 能够非常有效的判断出页面的类型,根据不同的页面类型采取不同的策略,从 而能够非常准确的获取到相似的网页。 2 改进并实现了一种基于树结构的网页数据自动抽取的算法。该算法通过 对不同网页的比较,利用不匹配项来确定包装器。同时,根据产生的包装器来 生成数据的模式,并对包装器的变量进行了语义标识,最后实现了将数据从网 页中自动抽取。本文提出的这种算法相比现有的w e b 信息自动抽取算法,有了 较大的改进。 3 设计并实现了一个w e b 信息自动抽取的原型系统。通过该系统用户能够 把h t m l 页面中感兴趣的信息点抽取出来,用户能够快速的获取到需要的信息。 该系统具有一定的通用性和灵活性。 本文提出的w e b 信息抽取方法能够较好的解决w e b 信息自动抽取的问题, 系统实现了很高的抽取精度。 关键词:w e b 信息自动抽取,d o m 树,包装器,包装器自动生成 武汉理工大学硕士学位论文 a b s t r a c t w i t ht i r er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , w e bh a sb e c o m eav a s t , d i s t r i b v 【e da n ds h a r e di n f o r m a t i o nr e s o u r c e n o w , m o s tw e bp a g e sa r ei nt h ef o r mo f h 刀v l l d u et ot h es e m i s t r u c t u r e dn a t u r eo fh t m lp a g e s ,i ti se a s yf o rp e o p l et o e x p l o r ew e bp a g e s ,w h i l ei ti sd i f f i c u l tf o ra p p l i c a t i o n st op r o c e s sa n d u s et h ed a t a t os t r e n g t h e nt h ea v a i l a b i l i t yo fw e bd a t a , w e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g y c o m e so u t w h i c hw r a p st h ew e br e s o u r c e s ,e x t r a c t ss e m i s t r u c t u r e dd a t a , a n d p r o v i d e ss u p p o r t st oa p p l i c a t i o n su s i n gw e bd a t a t h e r e f o r e ,t h er e s e a r c ho fw e b i n f o r m a t i o ne x t r a c t i o nh a sa t t r a c t e dm u c ha t t e n t i o nf r o mr e s e a r c h e r si nr e c e n ty e a r s w r a p p e rt e c h n o l o g yw i l lc o m p l e t e si n f o r m a t i o ne x t r a c t i o nf r o mw e bp a g e s ,i t i n c l u d e st h r e ep h a s e s :m a n u a lp h a s e ,s e m i a u t o m a t i cp h a s ea n da u t o m a t i cp h a s e i n m a n u a la n ds e m i a u t o m a t i cp h a s e ,t h e r ea r es e v e r a le x i s t i n gd i f f i c u l t i e s :f i r s t l y , t h e s ew r a p p e r sr e q u e s tu s e r sm u s tm a s t e rr e l a t e dp r o f e s s i o n a lk n o w l e d g e s e c o n d l y , i t sn o te a s yt om a i n t a i nt h e s ew r a p p e r s b a s e do nt h es t u d yo fe x i s t i n gi n f o r m a t i o n e x t r a c t i o nt e c h n o l o g y , w ep r o p o s eat r e e - - s t r u c t u r e - b a s e d w e bd a t ae x t r a c t i o n a l g o r i t h m t h em a i nc o n t r i b u t i o n so f t h i sd i s s e a a t i o na l e 】i s t e da sf o l l o w s : 1 as i m i l a rw e bp a g e sa c q u i r i n ga l g o r i t h mi sp r o p o s e da n dd e v e l o p e d w et r y t oa n a l y z ew e bp a g e s s t r u c t u r e ,a n dg e tt ok n o wt h et y p eo fw e bp a g e s t h e nw e w i l lt a k ed i f f e r e n tm e a s u r e s t h em e t h o dh a sh i g ha c c u r a c y 2 at r e e s t r u c t u r e b a s e dw e bd a t ae x t r a c t i o na l g o r i t h mi sp r o p o s e d d i f f e r e n t p a g e sc o m p a r i n g ,w ew i l lg e tt h ef i n a lw r a p p e rt r e e ,a n dw ew i l la l s oc o n f i r md a t a p a t t e r n a l t e rt h ew r a p p e rt r e e i sa d d e ds e m a n t i ci n f o r m a t i o n ,w e bd a t aw i l lb e e x t r a c t e dc o r r e c t l y c o m p a r i n gt ot h ee x i s t i n gw e bd a t ae x t r a c t i o na l g o r i t h m ,m y a l g o r i t h mh a sp r o m o t e da l o t 3 ag e n e r a lw e bi n f o r m a t i o ne x t r a c t i o ns y s t e mi sd e s i g n e da n dd e v e l o p e d w i t ht h i s s y s t e m ,u s e r sc a l lg e ti n t e r e s t e di n f o r m a t i o nf o r mh t m lp a g e s ,a n dt h e s y s t e mh a st h eg e n e r a l i t ya n df l e x i b i l i t y t h et h i n k i n gi 1 1w e bi n f o r m a t i o ne x t r a c t i o np r e s e n t e di n t h i sd i s s e r t a t i o nc a n l i 武汉理工大学硕士学位论文 b e t t e rs o l v et h ep r o b l e mo fw e bi n f o r m a t i o ne x t r a c t i o n ,a n dt h ep r e c i s i o nc a nr e a c ha h i g h e rp r o p o r t i o n k e y w o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ,d o mt r e e ,w r a p p e r i i i 独创性声明 本人声爿,所呈交的论文是本人在导师指导下进行的研究工作及取得研究成 果。尸我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 贩表或撰写的研究成果,也不包含为获得武汉理工大学或者其他教育机构的学 位或证书所使用过的材料。与我一同工作的同志对本研究所做的贡献均已在论文 中做了明确的说明并表示了谢意。 签名:毯! 堑日期:圣! ! 仝:! 7 学位论文使用授权书 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借 阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检 索,可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武 汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文,并向社会 公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 研究生( 签名) :张净 导师( 签名) : 、 哆 1 彳 r 期州i f 武汉理工大学硕士学位论文 第1 章绪论 1 1 课题研究的背景和意义 随着1 1 1 t e m e t 的飞速发展,w e b 已经成为发计展成为一个全球的、巨大的、 分布的和共享的信息空间,在信息量极大的w e b 资源中,蕴藏着大量潜在的、 有价值的知识,如何有效的利用和维护这些共享知识就变得非常重要。 目前w e b 上的数据大部分都是以h t m l 形式出现的,但是,由于h t m l 网页主要是供浏览的,缺乏对数据本身的描述,不含清晰的语义信息,模式也 不太明确。结果使得w e b 上的数据处于一种无序状态,数据集成性比较差,应 用程序无法直接解析、获取并利用w e b 上海量的信息,给w e b 应用的建立造成 了较大的困难。为了从w e b 中快速、有效的发现知识,出现了w e b 信息抽取技 术。 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 技术最早是由g w i e d e r h o l d 在 ( ( m e d i a t o r si nt h ea r c h i t e c t u r eo ff u t u r ei n f o r m a t i o ns y s t e m s ) ) 1 1 】提出的,w e b 信 息抽取的核心就是从w e b 页面所包含的无结构或半结构的信息中识别用户感兴 趣的信息,并将其转化为更为结构化、语义更为清晰的格式。信息抽取是通过 被称为“包装器”的程序来实现的,所谓的包装器就是一个能够将数据从h t m l 网页中抽取出来并且将它们还原为结构化的数据( 例如x m l 数据) 的软件程 序。w e b 信息抽取技术不但可以直接定位到用户所需的信息,而且采用一定的 方式增加了语义和模式信息,为w e b 查询提供了更为精确的方法,使w e b 信息 的再利用成为可能,因此是当今多个领域的研究热点。 w e b 信息抽取的一个直接应用就是帮助人们在纷繁复杂的w e b 信息海洋中 快速准确的查找所需信息,加快人们获取信息的速度,从而提高生产效率。另 外,半结构化数据抽取所得到的结构化信息可以直接被其它的应用程序所利用, 进一步完成信息搜索、数据挖掘等后续w e b 信息处理,具有广阔的应用价值和 前景。 通过对w e b 页面中所包含的信息进行抽取,可以有针对性的形成某一个领 域的全面的、便于检索的、能够及时更新的数据信息,为基于w e b 的高级应用 武汉理工大学硕士学位论文 奠定良好的基础。 然而i n t e m e t 具有的海量、异构、动态变化等特性使w e b 信息抽取不同于 传统信息抽取,同时带来了新的挑战。首先,面对呈级数速度增长的巨大的w e b 信息空间,如何自动高效的处理海量w e b 信息是w e b 信息抽取的一个难点。其 次,w 曲页面的异构性使如何在各式各样的w e b 页面里准确识别所需信息点成 为一个较大的难点。最后,w e b 网站的动态更新使得保持信息抽取的适应性也 成为一个有待解决的问题。 为了解决w e b 信息抽取中遇到的问题和困难,我们有必要对w e b 信息抽取 进行更进一步的研究与讨论。 1 2 课题研究的现状 1 2 1 信息抽取的发展简史 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消 息理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 仁3 】的召开。正是 m u c 系列会议使i e 发展成为自然语言处理领域一个重要分支,并一直推动这 一领域的研究向前发展。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研 究计划委员会( d a r p a ,t h ed e f e n s ea d v a n c e dr e s e a r c hp r o j e c t sa g e n c y ) 资助。 m u c 的显著特点并不是会议本身,而在于对i e 系统的评测【4 】。各届m u c 吸引 了许多来自不同学术机构和业界实验室的研究者参加i e 系统竞赛,每个参加单 位根据预定的知识领域,开发一个i e 系统,然后用该系统处理相同的文档库, 最后用一个官方的评分系统对结果进行打分。 研讨会的目的是探求i e 系统的量化评价体系。在此之前,评价这些系统的 方法没有章法可循,测试也通常在训练集上进行。m u c 首次进行了大规模的自 然语言处理系统的评测,如何评价i e 系统由此变成重要的问题,评分标准也随 之制定出来。各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、 合资企业、微电子技术和公司管理层的人事更迭。 m u c 会议对i e 这一研究方向的确立和发展起到了巨大的推动作用,m u c 定义的i e 任务的各种规范以及确立的评价体系已经成为i e 研究事实上的标准。 2 武汉理工大学硕士学位论文 i e 研究成果丰硕,英语和日语姓名识别的成功率达到了人类专家的水平。 不过自1 9 9 3 年以来,每届最高组别的有些任务,其成绩一直没有提高( e h 于m u c 的任务一届比一届复杂) 。还有一个显著的进步是,越来越多的机构可以完成最 高组别的任务,这要归公于技术的普及和整合。目前,建造能达到高水平的系 统需要大量的时间和专业人员,另外,目前大部分的研究都是围绕书面文本, 而且只有英语和其他几种主要的语言。 除广泛的应用需求外,正在推动匝研究进一步发展的动力主要来自美国国 家标准技术研究所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n t e x t r a c t i o n ) 评测会议,迄今己经举办过六次评测( 2 0 0 0 年5 月、2 0 0 2 年2 月、2 0 0 2 年9 月、2 0 0 3 年l o 月、2 0 0 4 年8 月、2 0 0 5 年1 1 月) 。这项评测研究的主要内 容是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实 体、关系、事件的识别与描述。与m u c 相比,目前的a c e 评测不针对某个具 体的领域或场景,采用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准 答案中没有而系统输出中有) 为基础的一套评价体系,还对系统跨文档处理 ( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进行评测。这一新的评测会议将把i e 技术研 究引向新的高度。 近几年,i e 技术的研究和应用更为活跃。在研究方面,主要侧重于以下几 个方面:利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章 分析技术、多语言文本处理能力、w e b 信息抽取( w r a p p e r ) 及对时间信息的处 理等等。在应用方面,i e 应用的领域更加广泛,除自成系统以外,还往往与其 他文档处理技术结合建立功能强大的信息服务系统。 1 2 2 国外研究现状 国外早期就开始了信息抽取的研究,并取得了一些成果,那时比较好的信 息抽取系统有f r u m p 系统、a t r a n s 系统等。9 0 年代,由于w e b 的流行,研 究人员开始把目光转向w e b 页面的抽取工作,这个时期提出了很多崭新的技术, 也开发了很多工具。 南加州大学信息科学研究所研制的一个信息集成系统,其特点是发展和应 用了多种人工智能技术,访问各类信息源,构造了一个智能的动态接口。其认 为h t m l 有严谨的结构,如层次树型结构,它采用元组列表的形式来表达半结 构化的信息。元组列表带有明确的分隔符以区分不同的元素。为了描述文档的 武汉理工大学硕士学位论文 结构,其设计了一种叫做嵌入式目录的表达形式,用于表达半结构化文档牛的 信息。其中,树叶代表将被提取的信息,每一个内节点代表一个同构列表( 如一 个名字的列表) 或一个异构元组( 如一个包含姓名、地址和序列号码的三元组) , 对待提取项目的识别被认为是一个对树的搜索过程,搜索状态的改变依据是各 个节点处的路标,路标的不同值导致搜索转向不同的分支,生成的规则以一种 路径表达式的形式给出。 美国斯坦福大学的j h a m m e r 等人开发了一个信息提取工具,从w e b 上提 取半结构化的信息。它主要是基于网页的结构,准确率高,但是对不同的结构 需要不同的抽取规则文件,而且定义规则文件非常繁琐,不具有通用性【5 】。 1 2 3 国内研究现状 国内迄今为止的研究基本上是处于包装器的半自动生成阶段,尚未见到自 动识别网页并产生包装器抽取数据的方法的有关研究资料。另外,中文信息抽 取方面的研究起步较晚,在设计实现完整的中文信息抽取系统方面还处在探索 阶段。 i n t e l 中国研究中心的z h a n gy i m i n 和z h o uj o ef 等人在a c l 2 0 0 0 上演 示了他们开发的一个抽取中文命名实体以及实体间关系的信息抽取系统【6 1 ,该 系统利用基于记忆的学( m e m o r y b a s e dl e a r n i n g ,m b l ) 算法获取规则用以抽取 命名实体及它们之间的关系。国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) 和新加 坡肯特岗数字实验室参加了m u c 7 中文命名实体识别任务的评测【7 】。北京大学 计算语言所对中文信息提取作了比较早且比较系统的探讨,并承担了两个有关 中文信息提取项目的工作:自然科学基金项目“中文信息提取技术研究和 i b m 一北大创新研究院项目“中文信息提取系统的设计与开发,主要研究中文 信息提取中的一些基础性和关键性的问题,它为实用的信息提取术研究提供理 论指导。 国内较为典型的系统和算法有: ( 1 ) 中国人民大学数据与知识研究所提出的基于预定义模式的包装器【8 】,由用 户定义模式并给出模式与h t m l 网页的映射关系,接着系统推导出规则同时生 成包装器。 ( 2 ) 中科院软件所提出的基于d o m 的信息提取【9 】,该算法以文档对象模型 ( d o m ) 为基础,把所要提取的信息在d o m 层次结构中的路径作为信息抽取的 4 武汉理工大学硕士学位论文 “坐标,并以这个基本原理为基础设计了一种归纳学习算法来半自动化地生成 提取规则,然后根据提取规则生成j a v a 类,将该类作为w e b 数据源包装器组 成的重要构件。 ( 3 ) 河北大学提出的基于样本实例的w e b 信息抽取【1 0 1 ,用户首先选定样本 页面和预先定义模式( 基于o r ) 模型,然后对样本页面和其中的样本记录进 行标记学习形成规则( 包含抽取规则和关联规则) ,并将规则放入知识库中,最 后利用知识库对其它同类页面自动抽取信息,存放在对象关系数据库中。 ( 4 ) 中国科技大学提出的基于多层模式的多记录网页信息抽取方法【l ,基本 思想是h t m l 网页信息抽取只是利用多层模式来加以描述,以便能够利用各层 模式之间相互联系的特点,帮助动态获取各层中与h t m l 页面内容具体描述( 格 式) 密切相关的信息识别模式知识;并最终再利用所获得的多层( 信息识别) 模式 之时,完成相应各个h t m l 网页的具体信息抽取工作。 这些算法有一定的局限性。首先,需要有较多的人工干预。由于需要较多 的先验知识,并且不同的系统使用的描述语言不同,从而,要求进行干预的人 员不仅需要对网页的结构分析和生成等方面较为熟悉,并且还要对系统使用的 描述语言较为了解,因此对人员的要求比较严格;其次,根据一定的先验知识产 生包装器的方法造成了系统的适应性较差,也就是说,根据特定情况产生的包 装器只能适用于特定情况,当网页结构发生变化时,需要重新进行人工干预和 标识,因此很难较好地适应变化。 1 3 本文研究的关键问题 本文研究的主要内容是如何将信息获取的过程尽可能自动化,避免人工干 预。本文拟解决的关键问题如下: 1 研究相似页面的获取及预处理方法。本文所采用的算法需要大量的相似页 面,即同一模板生成的网页;同时,也需要将不规则的h t m l 页面转化为 规则的页面,因此,研究一种简便的、能自动获取网页的方法是本文首先 要解决的问题。 2 研究网页信息的自动抽取方法。本文提出了一种网页信息自动抽取的算法 基于树型结构的匹配算法,以此来解决w e b 页面的自动抽取问题,该 算法借鉴了r o a d r u n n e r 系统的m a t c h 算法的一些思想,但是相比m a t c h 算 武汉理工大学硕士学位论文 法有了较大的改进。基于树结构的匹配算法相比r o a d r u n n e r 系统的m a t c h 算法而言,主要解决了相似页面如何自动获取,噪声如何处理和如何匹配 这三个问题,在很大程度上对m a t c h 算法进行了优化。具体来说,第一, 若没有阐述相似页面如何获取这一过程,将会影响到系统的自动化特性; 第二,若无噪声处理,系统的健壮性将得不到保证;第三,r o a d r u n n e r 在 抽取过程中需要提供两个相似页面,若只提供一个页面,迭代规则的算法 将失效。因此,我们将重点研究网页信息自动抽取的优化算法。 3 研究原型系统的设计。使该原型系统能够根据用户的输入信息将有用的信 息点抽取出来,因此研究原型系统的设计实现也是本文要解决的关键问题。 1 4 本文组织结构 本文共分为六个部分: 第一章“绪论”以w e b 上数据量的激增、获取有用信息难度增大为背景, 提出了进行w e b 信息抽取研究的必要性,并对w e b 信息抽取的概念、抽取研究 的现状做了简要的介绍。 第二章“w e b 信息抽取技术综述”对现有的w e b 信息抽取技术做了介绍, 分析了与本文相关的一些技术和概念,并简述了w e b 抽取系统的评价指标。 第三章“网页预处理技术的研究分析了网页预处理中几类关键文档的特 点,并利用相关工具进行预处理。 第四章“基于树结构的w e b 信息自动抽取方法”研究并实现了包装器生成 算法、语义标识算法和抽取算法等。 第五章简要介绍基于这些算法的w e b 信息自动抽取原型系统的设计与实 现。 第六章对本文进行了总结,并提出了下一步的研究方向。 6 武汉理工大学硕士学位论文 第2 章w e b 信息抽取技术综述 2 1w e b 信息抽取技术的相关概念 信息抽取( i n f o r m a t i o ne x t r a c t i o n ,简称i e ) 是把文本里包含的信息进行结 构化处理,变成表格一样的组织形式。信息抽取是近十几年来发展起来的新领 域,起源于文本理解i l2 1 ,是自然语言处理领域里一个特别有用的子领域。输入 信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样 的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要 任务。 随着i n t e m e t 的飞速发展,w e b 信息抽取成为了研究热点。w e b 信息抽取 ( w e bi n f o r m a t i o ne x t r a c t i o n ,简称为w 曲i e ) 是将w e b 作为信息源的一类信息 抽取,就是从半结构化的w 曲文档中抽取数据,属于w 曲内容挖掘的范畴。 信息抽取技术对于从大量的文档中抽取需要的特定事实来说是非常有用 的。互联网上就存在着这么一个文档库。在网上,同一主题的信息通常分散存 放在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结 构化形式储存,那将是有益的。 将信息从网页中抽取出来通常是由包装器( w r a p p e r ) 完成的,所谓包装器 就是一个能够将数据从h t m l 网页中抽取出来并且将它们还原为结构化的数据 ( 例如x m l 数据) 的软件程序【l4 1 。w r a p p e r 方法能够代替人或者其它的软件而 自主地工作,能够将一种格式的数据或检索结果转换为另一格式的数据。形式 化地,一个包装器实际上是一类页面到该页面所含元组集合的函数。 定义1 :给定一个包含一系列对象的页面s ,找到一个映射关系w ,它可 以将s 中的对象映射到一个数据集r ,并且这个映射w 还必须可以从任何与s 类似的页面s 中识别并抽取数据。( 其中的“类似 页面指与s 来自同一网站或 w e b 服务的页面,具有相对一致的页面结构) 。 定义1 中的映射w 就是通常所说的包装器( w r a p p e r ) 。包装器是经过分析 一定数量的样本文档( 这个数量一般较少) 而生成的,一旦生成后,就可以利 用这个包装器对与样本文档具有类似结构的所有文档进行自动的信息抽取。 武汉理工大学硕士学位论文 w e b 数据抽取的核心是构造用于抽取的w r a p p e r 。 编写包装器的方法经历了手工编写、半自动化生成和现在正在研究的全自 动化生成三个阶段。 在手工编写阶段,由专门的具有一定知识的专业人员首先对网页进行分析, 然后写出包装器,在这个阶段中,对于专业人员的要求非常高,并且是一个非 常困难的工作;随着人工智能技术的使用,采取了机器学习【1 3 ,1 4 ,1 5 ,16 1 、数据挖 掘1 7 , 1 8 1 并- f l 概念建模【1 9 1 等方式,在一定程度上使得包装器的产生工作能够自动的 进行,但是,这些技术都需要用户大量的参与,自动化程度并不高。 在最近的两年中,提出了两个能够基本全部自动化的方法1 2 0 , 2 1 1 ,这两个方 法只要输入相应的网页就能够自动进行分析和生成包装器,并且将数据从网页 中抽取出来,在整个过程中需要用户干预的地方只是最后的语义分析部分。采 取这样的全自动方式,大大减轻了用户的工作量,使得网页信息的抽取工作有 了较大的进步。 2 2w e b 信息抽取技术分类及技术分析 w e b 信息抽取技术有多种分类方式,例如根据自动化程度就可以分为人工 方式的信息抽取、半自动方式的信息抽取和全自动方式的信息抽取3 大类。根 据各种工具所采用的原理将现有的工具分为以下5 类:基于自然语言处理方式 的信息抽取、包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取、基 于h t m l 结构的信息抽取和基于w e b 查询的信息抽取,下面对后一种分类方 式依次分析。 2 2 1 基于自然语言处理方式的信息抽取( n l p ) 这类信息抽取主要适用于源文档中包含大量文本的情况( 特别针对于合乎 文法的文本) ,在一定程度上借鉴了自然语言处理技术,利用子句结构、短语和 子句间的关系建立基于语法和语义的抽取规则实现信息抽取。n l p 方式难点在 于:信息抽取速度太慢,信息抽取与文本理解之间存在较大的差别一二一信息抽取 只关心相关的内容,而文本理解则要能体会作者的细微用意和目的。目前采用这 种原理的典型的系统有r a p i e r t 2 2 1 ,s r v l 2 3 l ,w h i s k l l6 1 。 w h i s k :该系统既适用于结构化、半结构化的文本也适用于自由文本。结 武汉理工大学硕士学位论文 构化和半结构化的文本,一般不符合文法,所以系统主要是根据语义项的上下 文实现感兴趣信息的定位。此时基本上没有利用到自然语言处理技术,对这种 情况这里不作详细的分析。对自由文本,系统首先根据分割符将源文档分割成 多个实例( 每个实例是一个语义相关的文本块,如,在一个房地产广告的页面中, 每一则广告称为一个实例) 。在交互式的环境下,系统每一次呈现给用户一组实 例,用户在可视化的环境下根据系统提供的实例标记出感兴趣的信息并定义模 式,系统使用语法分析器和语义类( 如人名、机构名) 分析器,分析出用户标记 信息的语法成分和对应的语义类,生成基于语法标记和语义类标记的抽取规则, 实现信息抽取。 这种基于自然语言理解方式的信息抽取技术是将w e b 文档视为文本进行处 理的( 主要适用于含有大量文本的w e b 页面) ,抽取的实现没有利用w e b 文档独 特于普通文本的层次特性,获得有效的抽取规则需要大量的样本学习。 2 2 2 包装器归纳方式的信息抽取 包装器归纳方式的信息抽取根据事先由用户标记的样本实例应用机器学习 方式的归纳算法,生成基于定界符的抽取规则。其中定界符实质上是对感兴趣 语义项上下文的描述,即根据语义项的左右边界来定位语义项。该类信息抽取 方式和基于自然语言理解方式的信息抽取技术最大的不同在于仅仅使用语义项 的上下文来定位信息并没有使用语言的语法约束。采用这种原理的典型的系统 有s t a l k e r | 2 4 , 1 5 , 2 5 , 2 6 ,s o f t m e a l y l l 3 】,w i e n t l 4 】o s t a l k e r :该系统根据用户事先标记的样本页面和用户以嵌入式分类树 ( e m b e d d e dc a t a l o gt r e e ) 形式提供的页面的结构信息,应用逐步覆盖算法 ( s e q u e n t i a lc o v e r i n ga l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则, 实现层次的信息抽取。 w l e n :该系统中事先由用户标记样本页面,系统根据页面逻辑结构的不同, 使用不同的启发式归纳算法生成不同的包装器。例如,如果某页面具有h l r t 结构( 页面有h e a d ,b o d y , t a i l 三部分,其中b o d y 由多个可使用左右标记分割 的记录的列表组成) ,则产生一个h l r t 包装器。 2 2 3 基于o n t o l o g y 方式的信息抽取 9 武汉理工大学硕士学位论文 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构的 依赖较少。由b r i g h a my o n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具 1 2 7 2 8 , 2 9 , 3 0 】中采用了这种方式,另外q u i x o t e 3 1 , 3 2 】也采用了这种方式。 q u i x o t e 该系统利用特殊主题的爬虫搜集到一组和某一主题相关的文 档,然后使用常见的文本分割符( 如“, ,“; 等) 对文本节点进行分割将大的 文本块分割成小的语义块,再将小的语义块送入事先由用户用领域知识训练过 的贝叶斯分类器( b a y e sc l a s s i f i e r ) 得到每个语义块对应的语义,如若有文本块, 张三,男,武汉理工大学,硕士,经分割后依次送入分类器后可得到姓名,性 别,学校,学历4 个语义项,最后用得到的语义项作为元素类型名,采用一定 的重构规则,把h t m l 格式文档转换成x m l 格式文档,对得到的这组x m l 文档 进行模式提取,得到公共的模式。 此方法能够对一组主题相关、结构相异的文档进行抽取,在一定程度上克 服了现有信息抽取技术对网页结构依赖太强的缺点,但是使用常见的分割符对 文本分割不够精确,对贝叶斯分类器要进行大量的样本训练,从大量异构的文 档中提取公共模式工作量繁重,并且不支持对超链接的处理。 2 2 4 基于h t m l 结构的信息抽取 该类信息抽取技术的特点是,根据w 曲页面的结构定位信息,在信息抽取 之前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生抽取 规则,将信息抽取转化为对语法树的操作实现信息抽取。采用该类技术的典型 系统有r o a d r u n n e r t l9 1 、 w 4 f t 3 3 ,3 4 1 、l i x t o t 3 5 , 2 1 , 3 6 , 3 7 1 ,x w r a p 3 8 , 3 9 1 , s g w r a m l 4 0 ,41 1 。 r o a d r u n n e r 该系统通过对2 个或多个样本页面结构的比较,获得一个利 用正则表达式表示的该类页面的通用结构模式,然后根据结构模式实现对相似 页面的信息抽取,系统根据结构模式中h t m l 标记间的关系,以嵌套的形式组 织抽取出的数据。 该系统实现了全自动的信息抽取,结构模式确定的数据都抽取了出来( 可 能包含用户不感兴趣的信息) 。抽取出的数据仍然没有语义信息,需要人工为其 附加语义。 l o 武汉理工大学硕士学位论文 2 2 5 基于w e b 查询的信息抽取 使用w e b 的相关技术解决w e b 的问题称为w e b 技术风范。上述的信息抽 取工具,采用了不同的原理,抽取规则的形式和感兴趣信息的定位方式也各不 相同,因此均不具有通用性。具有w e b 技术风范的信息抽取,将w e b 信息抽取 转化为使用标准的w e b 查询语言对w e b 文档的查询,具有通用性。采用该类技 术的典型的系统有:w b 啪q l 【4 2 4 3 1 以及自主开发的原型系统p q a g e n t 4 4 4 5 1 。 w e b o q l w e b o q l 是类似于s q l 语句的w e b 查询语言,它具有定位感 兴趣信息和结构重构的功能,系统利用w e b o q l 语言提出了一种通用的h t m l 包装器框架,系统首先将输入的w e b 文档解析成一棵抽象的h t m l 语法树 h y p e r t r e e ,然后用户在信息抽取之前根据页面的结构和标记写出合适的查询语 句实现信息抽取。 该系统试图将w e b 信息抽取转化为w e b 查询,但并没有看到其实现。 w e b o q l 仅作为一种w 曲查询语言出现,并为x q u e r y 规范形成作出贡献。 2 3w e b 信息抽取的评价指标 信息抽取技术的评测起先采用经典的信息检索( i r ) 评价指标,即召回率 ( r e c a l l ) 和查准率( p r e c i s i o n ) ,但稍稍改变了其定义。经修订后的评价指标 可以反映信息抽取( i e ) 可能产生的过度概括现象( o v e r - g e n e r a t i o n ) ,即数据 在输入中不存在,但却可能被系统错误的产生出来( p r o d u c e d ) 。 就i e 而言,召回率可粗略的被看成是测量被正确抽取的信息的比例 ( f r a c t i o n ) ,而查准率用来测量抽出的信息中有多少是正确的。计算公式如下 【4 6 】: 查准率= 抽出的正确信息点数所有抽出的信息点数 p re c i s i o n = # c o r r e c t a n s w e r s # t o t a l p r o d u c e d 召回率= 抽出的j 下确信息点数所有正确的信息点数 r e c a 刀:堂! ! ! 型竺竺兰! 竺 # t o t a l p o s s i b l ec o r r e c t s 由以上公式可以看出,两者取值在0 和l 之间,通常存在反比的关系, 武汉理工大学硕士学位论文 即p 增大会导致r 减小,反之亦然。当我们在评价一个信息抽取系统时,应 同时考虑p 和r ,但同时要比较两个数值,毕竟不能做到一目了然,所以许 多人提出合并两个值的办法,其中包括f 指标( f m e a s u r e ) 评价方法。f 指标 是为了评估综合性能而设立的一个指标,其计算公式如下【删: p ( 2 + 1 ) p r j 一。o 。o o 。一 8 | p + r 其中b 是一个预设的值,决定了对p 测重还是对r 测重,通过调节b 的值 来反映查准率和召回率的相对重要性。在信息抽取系统中通常设定为l ,表示 着将p 和r 的重要性等同考虑。 2 4w e b 信息抽取存在的问题 通过对现有的w e b 信息抽取技术的分析,可以发现w e b 信息抽取面临着挑 战,这些挑战同时也是有待进一步研究和解决的问题。 机器学习往往通过大量的样本学习来提高系统的自动化程度,这意味着系 统需要经过较长时间的大量的样本学习才能获得较好的查准率。抽取规则的通 用性较差,缺乏健壮性是现有信息抽取技术所面临的难点。现有的技术均采用 特定的语言表达抽取规则,缺乏通用性,且不易与其他基于w e b 的应用系统集 成。如何处理效率与健壮性之间的矛盾是一个重要问题。 性能较好的信息抽取技术需要用户的大量参与,自动化程度不高:而自动 化程度高的信息抽取技术其准确率和适应性较低,实用性较差。这两者之间的 矛盾也需要解决。 包装器的生成与维护问题随着信息抽取的不断应用而突显出来。由于 w r a p p e r 与h t m l 文档格式的紧密联系,而h t m l 文档包含了许多控制显示格 式的标签,使所需数据信息分散在整个文档中,而这些数据信息的分布对不同 领域、不同应用可能大不相同。因此过去的主要研究工作是针对具体领域,在 分析领域知识的基础上,用人工或半自动化的方式制定一些信息抽取规则,然 后依据规则从w e b 页面中抽取所需信息。这就带来两个最明显的问题,第一, 它不是一个通用的抽取系统,而是针对某一领域,还需要制订有效的抽取规则; 第二,一旦被抽取的源w e b 页面结构发生变化,抽取工作可能失效。如何增强 w r a p p e r 的适应能力,增强系统的可扩展性是一个需解决的重要问题。 武汉理工大学硕士学位论文 2 5 本章小结 本章主要针对w e b 信息抽取研究做了综述,了解了其评价标准,并介绍了 各种信息抽取研究方法及当前的最新算法,最后总结了这些研究成果、指出了 当前研究存在的问题与不足。 武汉理工人学硕士学位论文 第3 章网页预处理技术的研究 这一章主要研究网页的预处理过程,处理的对象是数据密集型页面( 见定 义1 ) ,处理后的结果是经过净化的h t m l 文档的树型模型。 区二二二二二二二 圈;q m1 固 i m # e e i g * i l g 中小学教辅6 9 折封顶 外语,工具书专场7 9 折 e m # 自i ! j ! # ) 堰# f j ) 8 月月i 2 t # ) 匮蕾盈盈_# 赫i 堕夏i 三 回互j 三羽2 i 牲国画 靴i 日 0 r l mc * ) 尊l e 枉s ;$ 牛惯书i 摄 l 晦r # :“ i ( 】* i ”g * l # 一i 目一 ! ,玑挺i # # =
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 46058-2025船舶及海洋工程用不锈钢钢板和钢带
- Brand KPIs for clean beauty Merit Beauty in the United States-外文版培训课件(2025.9)
- 2025年浙江杭州市萧山区第三人民医院招聘编外人员1人考前自测高频考点模拟试题及1套完整答案详解
- 涂装基础知识培训课件
- 2025昆明市盘龙区汇承中学招聘教师(12人)模拟试卷及答案详解1套
- 2025广西百色靖西市人民医院招聘导诊分诊员1人考前自测高频考点模拟试题及参考答案详解1套
- 涂料油漆专业知识培训总结课件
- 2025年河南实达国际人力资源合作有限公司公开招聘辅助工作人员30名考前自测高频考点模拟试题完整答案详解
- 安全培训背景音乐课件
- 安全培训职工操作不规范课件
- 2025年贵州磷化(集团)有限责任公司招聘笔试参考题库含答案解析
- 迈克尔杰克逊课件
- 三农直播培训
- 专利转化合同范本
- 2025年退休返聘人员劳务合同模板
- 2024年煤炭工业矿井设计规范
- 2025年杭州市水务集团有限公司招聘笔试参考题库含答案解析
- 二级中医医院评审专家手册
- 我的家乡松原
- 安徽省医疗机构静脉输液管理督导检查表(试行)
- 北师版八年级数学上册 第一章 勾股定理 (压轴专练)(九大题型)
评论
0/150
提交评论