




已阅读5页,还剩54页未读, 继续免费阅读
(计算机软件与理论专业论文)基于网页分块的web信息抽取的研究与应用.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于网页分块的w e b 信息抽取的研究与应用 摘要 w e b 内容越来越丰富、复杂,在面对精确的、个性化的用户需求,与移 动设备小屏幕不能显示有太多内容的网页,传统地把整个页面作为一个基 本的信息获取与处理单位方式效率显得低下。改进抽取效率的一个有效途 径是对网页进行分块。本文对w e b 上两大主要的信息源:目录型网页和主 题型网页进行研究。 对目录型网页,针对已有的方法中要求用户提供多个样本页面用于模 式查找,信息抽取的搜索空间大,抽取准确率高的抽取模型复杂,模型较 为简单的,抽取准确率不高。提出通过单一页面的学习指导信息的抽取, 减少学习的时间,与通过定位于多记录信息存在的网页主体块,从网页主 体块出发,充分利用x p a t h 相对路径定位形成抽取规则,直接定位到包含 所要提取信息的节点并提取各记录信息,减小信息抽取的搜索空间,有效降 低复杂度。从而建立一个使用脚本配置文件,基于x q u e r y 查询的w e b 信息 抽取模型,抽取模型的复杂性和抽取的准确率达到了较好的平衡。然后将 其应用到实际电子商务多记录型网站,从中抽取用户指定的信息。实验结 果表明,对格式良好、规范网站的信息抽取达到了很好的效果。 对主题型网页,针对提取到的正文内容精确度不够,大多的方法只到 识别含正文的内容块为止,抽取到内容块中还存在不少不属于正文内容的 噪音内容,如动态链接块信息等,离真正纯粹的正文内容还有一定的差距。 本文在研究各种网页分块方法,利用分析标签树的分块方法获取主题正文 内容块的基础上,提出对存在链接块的正文内容块通过识别链接块的起始 位置和结束位置,然后删除链接块噪音信息的方法,与提出通过定位正文 结束标记符的方法,达到精确抽取到的正文内容的目的。论文最后给出了 实验的抽取结果,并对这一结果进行详细的分析与指出进一步的研究方向。 关键词:w e b 信息抽取x p a t hx q u e r y 网页分块链接块 t h est u d ya n da p p l i c a t l 0 n0 fw e bi n f o r m a t i o n e x t r a c t l 0 nba sd 寸gt h ew e bp a g es e g m e n t a t i o n a b s t r a c t w e bc o n t e n ti sm o r ea n dm o r er i c ha n dc o m p l e x ,i nf a c eo ft h ea c c u r a t e , p e r s o n a l i z eu s e rn e e d s ,a n dt h em o b i l ed e v i c ew i t has m a l ls c r e e nw h i c hc a n n o t s h o wt h ew e bw h i c hh a st o om u c hc o n t e n t t h ee f f i c i e n c yo ft h et r a d i t i o n a l m e t h o d su s i n gt h ew h o l ep a g ea sab a s i cu n i to fi n f o r m a t i o na c q u i s i t i o na n d p r o c e s s i n ga p p e a r sl o w e r a ne f f e c t i v ew a yt oi m p r o v et h ee x t r a c t i o ne f f i c i e n c y i sp a g es e g m e n t a t i o n t h i sa r t i c l em a k e sr e s e a r c ho nt h et w om a i ni n f o r m a t i o n s o u r c e so ft h ew e b :r e c o r dt y p ew e ba n dt o p i ct y p ew e b a st ot h er e c o r dt y p ew e b f o rt h ee x i s t i n gm e t h o d sw h i c hr e q u i r eu s e r p r o v i d i n gm u l t i p l es a m p l ep a g e s t os e a r c ht h ep a t t e r n ,t h es e a r c h s p a c eo f i n f o r m a t i o ne x t r a c t i o ni sl a r g e t h em o d e lw h i c hh a sh i g he x t r a c t i o na c c u r a c yi s c o m p l e x ,t h em o d e lw h i c hi ss i m p l eb u th a sl o we x t r a c t i o na c c u r a c y t h i sa r t i c l e p r o p o s e sg u i d i n gt h ei n f o r m a t i o n e x t r a c t i o nt h r o u g hl e a r n i n gf r o mas i n g l ep a g e , t or e d u c et h el e a r n i n gt i m e ,a n dd i r e c t l yt op o s i t i o nt h en o d ei nw h i c ht h ee x t r a c t i n f o r m a t i o nb ec o n t a i n e da n de x t r a c tt h er e c o r di n f o r m a t i o nt h r o u g hp o s i t i o n i n g t h ew e bm a i nb l o c ki nw h i c ht h em u t i p l er e c o r d sb ec o n t a i n e d ,f r o mt h ew e b m a i nb l o c k ,f o r m i n gt h ee x t r a c t i o nr u l e sb yt a k i n gf u l la d v a n t a g eo ft h er e l a t i v e x p a t hp a t h ,s o a st or e d u c et h es e a r c hs p a c e ,a n dr e d u c et h ec o m p l e x i t y e f f e c t i v l y a c c o r d i n g l yt h i s a r t i c l ee s t a b l i s h e saw e bi n f o r m a t i o ne x t r a c t i o n i i i m o d e lw h i c hu s eac o n f i g u r a t i o nf i l eu s i n gs c r i p ta n db a s i n go nx q u e r yq u e r y , t h ec o m p l e x i t ya n da c c u r a c yo ft h ee x t r a c t i o nm o d e la c h i e v eab e t t e rb a l a n c e t h e na p p l yi tt ot h ea c t u a le - c o m m e r c ew e b s i t e sw h i c hc o n t a i nm a n yr e c o r d t y p ei n f o r m a t i o n ,t oe x t r a c tt h eu s e r - s p e c i f i e di n f o r m a t i o n t h ee x p e f i m e n t a l r e s u l t ss h o wt h a ti tc a ng e tav e r yg o o dr e s u l tf r o mt h ew e bs i t e sw h i c hh a v e g o o da n ds t a n d a r d i z ef o r m a t a st ot h et o p i ct y p ew e b f o rt h ea c c u r a c yo ft h ec o n t e n t sw h i c hh a v eb e e n e x t r a c t e di ss o m e w h a tl o w m o s tm e t h o d so n l yi n d e n t i f yt h eb l o c kc o n t a i n i n g t h ec o n t e n t s t h ec o n t e n tb l o c kw h i c hh a sb e e ne x t r a c t e ds t i l lh a sm u c hn o i s e i n f o r m a t i o nw h i c hi s n o tb e l o n gt ot h et o p i cc o n t e n t ,s u c ha st h ed y n a m i cl i n k b l o c ki n f o r m a t i o n ,i ts t i l lh a sac e r t a i ng a pb e t w e e nt h et r u l yp u r ec o n t e n ta n d t h ee x t r a c t e dc o n t e n t t h i sa r t i c l eb a s i n go ns t u d y i n gv a r i o u sp a g es e g m e n t a t i o n m e t h o d sa n dg e t t i n gt h et o p i cc o n t e n tb l o c ku s i n gt h es e g m e n t i o nm e t h o do f a n a l y s i s i n gt a gt r e e ,p r o p o s e s a n a p p r o a c ho ft h r o u g hi d e n t i f y i n gt h es t a r t p o s i t i o na n dt h ee n dp o s i t i o no ft h el i n kb l o c k ,t h e nd e l e t i n gt h el i n kb l o c kf o r t h ew e bw h i c hh a sl i n kb l o c ki n f o r m a t i o n ,a n da na p p r o a c ho fp o s i t i o n i n gt h e e n dt a go ft h ec o n t e n t ,t or e a c ht h ep u r p o s eo fa c c u r a t e l ye x t r a c t i n gt h ec o n t e n t a tt h ee n do ft h i sa r t i c l eg i v e st h ee x t r a c t i o nr e s u l t so ft h ee x p e r i m e n t ,a n da d e t a i l e da n a l y s i sa b o u tt h er e s u l t sa n dt h e np o i n to u tt h ed i r e c t i o no ff u t h e r r e s e a r c h k e y w o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ;x p a t h ;x q u e r y ;w e bp a g es e g m e n t a t i o n ; l i n kb l o c k i v 广西大学学位论文原创性声明和学位论文使用授权说明 学位论文原创性声明 本人声明:所呈交的学位论文是在导师指导下完成的,研究工作所取得的成果和相 关知识产权属广西大学所有。除已注明部分外,论文中不包含其他人已经发表过的研究 成果,也不包含本人为获得其它学位而使用过的内容。对本文的研究工作提供过重要帮 助的个人和集体,均已在论文中明确说明并致谢。 :赢喃 卅年9 易月猡日 学位论文使用授权说明 本人完全了解广西大学关于收集、保存、使用学位论文的规定,即: 本人保证不以其它单位为第一署名单位发表或使用本论文的研究内容; 按照学校要求提交学位论文的印刷本和电子版本; 学校有权保存学位论文的印刷本和电子版,并提供目录检索与阅览服务; 学校可以采用影印、缩印、数字化或其它复制手段保存论文; 在不以赢利为目的的前提下,学校可以公布论文的部分或全部内容。 请选择发布时间: 4 即时发布口解密后发布 ( 保密论文需注明,并在解密后遵守此规定) 论文作者签名:南锻备导师签名:铌予加7 年。6 月冲r 厂。西大掌硕士学位论文 基于网页分块的w e b 信息抽取的研究与应用 1 1研究背景和意义 第一章绪论 随着互联网渗透到世界的每个角落,网上信息资源的迅猛增长,w w w 已经发展成 为包含多种资源、站点遍布全球的巨大的动态信息服务网络,为用户提供了一个极具价 值的信息源,网络也r 渐成为人们获取信息的重要渠道。但也是随着i n t e r n e t 爆炸性信 息的增长,用户的需求越来越精确与个性化,两者之间的矛盾越来越凸显。其次,h t m l 没有严格的语法限制,也没有清晰的语义,且为美观需求而涌现的动态网页技术如 i a v a s c r i p t 脚本技术,与出于商业目标而增加的信息,其中包含大量与网页自身主题关系 不大,用户并不关心的链接,图片,交互信息等,使得w e b 网页承载了大量的信息, h t m l 网页代码冗长、混乱,几乎淹没了有用信息。用户不能迅速定位所需信息,需要 花费时间来寻找所需要的信息,为获取自己需要的一点点信息,可能需要花费几十分钟、 几个小时、甚至更长时间来搜索、浏览网页,从中寻找信息,一不小心就会淹没在信息 的海洋中。虽然出现了各种各样的搜索引擎,但是这种基于关键字的搜索,得到的仅仅 是一个以分页形式显示的庞大的结果集,结果中只是给出了相关网页内容的概要,具体 的信息还是需要用户进入到具体网页中查找,这样容易浪费大量的人力,特别是用户宝 贵的时间。即使获得了相关内容的网页,将这些网页中有用的信息提取出来加以保存, 也不是一件简单的事情。 对于使用便携式移动设备的用户,尤其是使用p d a 和手机的用户上网来说,这一 问题最为突出,大量信息的传送与显示使得网速减慢,需要用户花费很长时间来操作滚 动条,跳过大量无关的图片和文字。因此人们迫切需要一种比信息检索更为精确的信息 抽取工具。从浩瀚繁杂的网络中抽取出符合用户需求的信息,不仅可以使用户从繁杂的 网络信息中脱离出来,满足用户个性化需求。而且在面对移动设备小屏幕不能显示内容 太多的网页,w e b 信息抽取就可以充分发挥它的优势所在。例如,w e b 信息抽取技术可 以从网上众多的评论信息中抽取产品的评论信息,然后融合形成综合信息为用户提供参 考信息。从网上不同的网站中抽取新闻的正文内容进行归档。总而言之,w e b 信息抽取 的目的【大致为: ( 1 ) 抽取指定的信息,以用户满意的方式输出,对传统信息检索结果的进一步加 工和精化。 ( 2 ) 实现从半结构化和结构化网页到结构化信息的自动化处理,可以和数据库应 用系统集成,便于数据管理和信息查询。 ( 3 ) w e b 信息抽取是对w e b 信息进行数据挖掘、文本挖掘、自动问答、自动文 摘等应用系统的重要基础。 广西大掌硕士掌位论文 基于网页分块的w e b 信息抽取的研究与应用 目前较多的w e b 信息获取技术大多把整个页面作为一个基本的信息获取与处理单 位,如果页面内容比较多,还可能含大量的与自身主题信息关系不大的广告、图片信息、 脚本、代码、及大量的链接信息。比如大多的新闻网页右侧与下方都包含了大量的图片 和链接信息,显然这种方式效率较低。而观察h t m l 网页,我们发现网页信息分布在 整个页面的不同位置,形成不同的网页块,能起不同的作用。即一个内容丰富的网页可 被划分为几个不同的块【2 3 l ,网页主题内容块通常是位于网页中显眼的位置。如对新浪网 的新闻网页,我们更为关注的是新闻的正文内容。以往包装器的抽取规则主要针对仅含 有一个内容块的w e b 页面,包装器无法处理对含有多种内容块的页面。因此,如果想 更准确,快速地获取w e b 信息,我们若能先对给定的w e b 页面进行语义分块,把无关 的信息过滤,这样我们要检索的信息量就大大减少,降低抽取的复杂度,提高获取信息 的效率和精确度。但目前基于分块的网页主题信息抽取方法抽取到的正文内容在不同程 度上存在着非正文内容的噪音信息,如动态生成的链接块内容。因此研究如何去除这些 非正文内容的噪音信息,精确抽取到的正文结果,使用户从浩瀚繁杂的网络信息中脱离 出来,更好地满足用户的个性化需求,为用户提供更为精确的结果,是很有价值的事情。 另外,虽然x m l 已经推出了有几年了,但用h t m l 书写的文档在w e b 中占了大多数。 因此,从w e b 网页中,特别是从h t m l 网页中抽取信息己经成为当前信息领域的研究 热点之一。 1 2 论文研究内容与结构安排 1 2 1研究内容 w e b 网页通常分为三种类型:主题型网页、图片型网页、目录型网页。主题型网页 通常通过成段的文字描述一个或多个主题,虽然也会出现图片和超链接,但这些图片和 超链接并不是网页的主体,网页中超链接密集。如一张具体的新闻网页就是典型的主题 型网页。图片型网页中内容是通过图片体现的,而文字仅仅是对图片的一个说明,因而 文字不多。目录型网页通常不会详细介绍、描述一件事物,只提供主要的信息和相关网 页的超链接,如电子商务网站的商品信息网页。本论文研究主要面向主题型网页和目录 型网页,目录型网页主要针对含多条结构相似记录信息的网页,即由后台数据库自动生 成的网页。主题型网页偏向于研究含一个主题信息的网页。 对于目录型网页,本文在研究w e b 信息抽取技术的基础上,针对已有的方法中要 求用户提供多个样本页面用于模式查找,信息抽取的搜索空间大,已有的抽取模型抽取 准确率高,但模型复杂,而模型较为简单的,抽取准确率不高的问题,通过单一页面的 学习指导信息的抽取,减少学习的时间,通过定位于多记录信息存在的网页主体块,从 网页主体块出发,提取各记录信息条,充分利用x p a t h 相对路径定位形成抽取规则,直 接定位到包含所要提取信息的节点,大大减小基于模式的信息抽取的搜索空间,有效降 2 广西大掌硕士学位论文基于网页分块的w e b 信息抽取的研究与应用 低复杂度。从而建立一个抽取模型的复杂性和抽取的准确率能够达到较好的平衡的信息 抽取模型,即通过应用x m l 技术建立一个基于脚本配置文件一将学习到的x p a t h 抽取 规则,u r l 主页的入口,输出文档的格式都写在该脚本配置文件中,采用x q u e r y 查询 遍历所需信息的w e b 信息抽取模型,对该模型进行实现并应用到实际电子商务网站中 进行信息抽取。在此基础上,对在建立的d o m 树中如何健壮抽取规则进行学习研究与 优化。 对于主题型网页,针对提取到的j 下文内容精确度不够,大多的方法只能识别到含正 文的内容块,如图4 2 中大的矩形框。但对抽取到内容块中还存在不少并不属于正文内 容的噪音内容,如正文内容中的链接块信息( 如图4 - 4 ) ,j 下文后的相关链接,网友评论 等,离真正的纯粹的正文内容还有一定的差距,这些存在于抽取到的内容块中非正文内 容,如果不加以去除,将影响抽取的效果。本文研究探讨各种网页分块方法,在这基础 上,提出利用分析标签树的分块方法,识别出包含主题正文内容在内的内容块,在获取 到的主题正文内容块后,对存在链接块的网页通过去除链接块信息,并去除其它存在的 噪音信息,最后通过定位到正文结束的标记符号来获取精确的正文信息。 1 2 2 结构安排 本文分五章: 第一章从现实角度阐述了进行w e b 信息抽取的重要性,及传统的w e b 信息抽取以 整个网页作为处理单元的不合理性,由此进行网页分块,以块为原子单元进行信息抽取 必要性的背景分析。并介绍了整个论文研究的主要内容。 第二章详细介绍w e b 信息抽取的各项相关技术,从w e b 信息抽取的概念与功能, 发展历程,所采用的技术,技术对比,未来发展方向,评价指标这几个方面进行详细介 绍。 第三章详细介绍基于x q u e r y 查询的w e b 信息抽取方法。 第四章详细介绍基于网页分块技术的w e b 信息抽取方法。 最后第五章是工作总结与进一步研究的方向。 3 厂西大掌硕士掌位论文基于网页分块的w e b 信息抽取的研究与应用 第二章w e b 信息抽取技术 2 1 w e b 信息抽取的概念与功能 w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ,简称为w e b l e ) 是将w e b 作为信息源 的一类信息抽取,就是从半结构化的w e b 文档中抽取数据,属于w e b 内容挖掘的范畴 i i 。简单地来说是对给定的一个包含一系列对象的页面s ,找到一个映射关系w ,它可 以将s 中的对象映射到一个数据集r ,并且这个映射w 还必须可以从任何与s 类似的 页面s t 中识别并抽取数据。( 其中的“类似”页面指与s 来自同一网站或w e b 服务的 页面,具有相对一致的页面结构) 。其中的映射w 就是通常所说的包装器( w r a p p e r ) 。 包装器是经过分析一定数量的样本文档( 这个数量一般较少) 而生成的,一旦生成后, 就可以利用这个包装器对与样本文档具有类似结构的所有文档进行自动的信息抽取。 w e b 数据抽取的核心是构造用于抽取的w r a p p e r ,其过程可简单地用图2 1 来表示。 图2 - 1 :w e b 信息抽取简单过程 f i g2 - 1 :t h es i m p l ep r o c e s so fw e bi n f o r m a t i o ne x t r a c t i o n 进一步来说,w e b 信息抽取是从网页文本中抽取指定的一类信息( 事件、事实) 并 将其形成结构化的数据填入一个数据库中供用户查询使用的过程。w e b 信息抽取技术的 核心是能够从w e b 页所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将 其转化为更为结构化、语意更为清晰的格式。输入信息抽取系统的是原始文本,输出的 是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成 在一起,这就是w e b 信息抽取的主要功能。正系统中的关键组成部分是一系列的抽取 规则或模式,其作用是确定需要抽取的信息。 w e b 信息抽取的内容【lo j 一般可以分为这样几个方面:命名实体的抽取、与模板有关 的内容信息抽取、各个实体之间关系的抽取和预置事件的信息抽取。( 1 ) 命名实体的 抽取:它包括组织机构、人名、地名的抽取,时间、日期、钱币和百分数的抽取、专有 名词的抽取、隐含指代名词和集合名词的抽取。命名实体的自动抽取能力已近似于人工 4 广西大掌硕士掌位论文基于网页分块的w e b 信息抽取的研究与应用 抽取:查准率达到了7 0 以上,查全率是6 0 。 ( 2 ) 模板内容信息的抽取:用户预先 设置模板,自动抽取用户关心的详细内容,反映时间、地点、人物和发生的事件。( 3 ) 实体关系信息的抽取:比如某些疾病的因果关系。( 4 ) 预置事件信息的抽取:比如公 司宣布破产、合并的消息、原因等等。 命名实体的抽取与实体关系信息的抽取将较多涉及的关于自然语言处理的问题。在 关于本文研究的信息源是主题网页和目录网页,且目的是为从主题网页中抽取主题正 文,从目录网页中抽取用户指定信息,因而本文研究主要是面向关于内容信息这一方面 的抽取。 2 2w e b 信息抽取的发展历程 信息抽取( w 曲i n f o r m a t i o ne x t r a c t i o n :w 正) 的前身是文本理解掺j ,最早开始于 2 0 世纪6 0 年代中期,主要是从自然语言文本中获取结构化信息的研究,这被看作是信 息抽取技术的初始研究。其间有两个代表性的研究项目:美国纽约大学的l i n g u i s t i c 项 目 3 1 ,该项目的主要研究内容是建立一个大规模的英语计算语法,应用是从医疗领域的 x 光报告和医院出院记录中抽取信息格式即现在所说的模板( t e m p l a t e s ) 。另一个相关 的长期项目 4 1 是由耶鲁大学r o g e r sc h a n k 及其同事在2 0 世纪7 0 年代开展的有关故事理 解的研究。由他的学生c e r a l dd ej o n g 设计实现的f r u m p 系统是根据故事脚本理论建 立的一个正系统,该系统从新闻报道中抽取信息,内容涉及地震、工人罢工等很多领 域或场景。该系统采用了期望驱动( t o p - - d o w n ,脚本) 与数据驱动( b o t t o m - - u p ,输 入文本) 相结合的处理方法,这种方法被后来的许多正系统采用。从2 0 世纪8 0 年代 末开始,信息抽取研究蓬勃开展主要来源于两大会议:m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ) 消息理解会议和a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 自动内容抽取。m u c 会议的主要内容是对正系统的评测,探求对正系统的量化评价体系。研究的主要内容 是自动抽取新闻语料中出现的实体、关系、事件等内容,即对新闻语料中实体、关系、 事件的识别与描述。与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采 用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中 有) 为基础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进 行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。 近几年,技术的研究和应用更为活跃。在研究方面,主要侧重于以下几个方面1 6 】: 利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言 文本处理能力、w e b 信息抽取及对时间信息的处理等等。在应用方面,正应用的领域更 加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大的信息服务系 统。 随着w e b 的不断增多与繁荣,正研究人员逐渐将兴趣转移到w e b 信息抽取的研究 上。出现了许多的w e b 信息抽取方法与工具。我们将在2 3 节中详细介绍。 5 广西大掌硕士掌位论文基于网页分块的w e b 信息抽取的研究与应用 在中文信息抽取方面【7 1 起步较晚,研究工作主要集中在对中文命名实体的识别方面, 在设计实现完整的中文信息抽取系统方面还处在探索阶段。国立台湾大学和新加坡肯特 岗数字实验室参加了m u c 7 中文命名实体识别任务的评测。这只是对中文信启、提取作 了比较初步的工作,并不能真正进行中文信息提取,i n t e l 中国研究中心的z h a n gy i m i n 和z h o uj o ef 等人在a c l 2 0 0 0 上演示了他们开发的一个抽取中文命名实体以及这些实 体间相互关系的信息抽取系统,北京大学计算语言所对中文信息提取也作了比较早的和 比较系统的探讨,承担了两个有关中文信息提取项目的工作,即自然科学基金项目“中 文信息提取技术研究”和m 北大创新研究院项目“中文信息提取系统的设计与开 发”。其目标是研究中文信息提取中的一些基础性和关键性的问题,为丌发实用的信息 提取技术提供理论指导,并具体探讨信息提取系统设计的各个环节。 2 3w e b 信息抽取技术分类 2 3 1 根据w e b 信息源划分 w e b 信息源可以分为3 类,即自由文本、结构化文本、半结构化文本,但通常以半 结构化文本为主。针对这三种文本,信息抽取也分为三种类型:( 1 ) 从自由格式的文 本中抽取出所需要的信息内容,自由文本的抽取技术可分为三类:基于n l p ( 自然语言 处理) 的方式、基于规则的方式和基于统计学习的方式。基于n l p 的方式是早期的信 息抽取方法,一般效率较低,现己较少使用。而基于规则的方式是一种知识工程的方法。 在早期,一般以手工的方式设置抽取规则。随着应用范围的扩大,手工获取规则成为知 识工程的瓶颈。近年大量语料库的涌现,为规则的自动学习和获取提供了可能,这使得 机器学习的方法在规则的( 半) 自动获取中得到广泛应用,基于规则的方式成为当前信 息抽取的主流。基于统计学习的方式主要有如基于h m m ( 隐马尔可夫模型) 的方法等, 由于h m m 的参数可通过训练获得,这种方式的可移植性较好;( 2 ) 从结构化的文本 中抽取出所需要的信息内容,这种信息抽取任务较为简单,结构化文本是指数据库中文 本信息或遵循预先定义的而且严格的格式的文本,这样的信息可使用格式描述进行抽 取。( 3 ) 从半结构化的文本中,抽取出所需要的信息内容,对于半结构化文本传统的 采用自然语言处理技术的信息抽取系统己经不适用了,其抽取模式经常是基于标记和分 界符。如h t m l 标记等,句法和语义信息只是在一定范围内被使用; 2 3 2 根据自动化程度分类 按自动化程度可以分为人工方式的w e b 信息抽取、有监督的信息抽取、半监督的 信息抽取和无监督的信息抽取4 大类。 ( 1 ) 人工方式的信息抽取 顾名思义即用户采用手工方式,使用如p e r l 或其它特定的用于抽取的编程语言,针 6 广西大掌硕士掌位论文基于网页分块的w e b 信息抽取的研究与应用 对抽取信息来源的网站编写抽取规则,形成包装器( w r a p p e r ) 。该方式对用户要求高, 手工方式编写规则代价高,效率低。采用这种方式的典型代表系统有m i n e r v a ,w e b o q l , w 4 f 等等。 ( 2 ) 有监督的w e b 信息抽取 这类方式的抽取减轻了用户的负担,用户使用系统提供的g u i 界面,提供训练用例 并进行标注,系统根据标注好的训练用例来形成抽取规则,兼顾了用户的参与与自动化 程度的需要。这类方式的典型系统代表有s r v ,w h i s k ,s t a l k e r 和n o d o s e 等等。 ( 3 ) 半监督的w e b 信息抽取 这类方式的信息抽取与有监督的信息抽取不同之处在于抽取规则的形成不再需要 用户提供训练用例,和对训练用例的标注。但在抽取规则的后期,需要用户特别说明待 抽取的目标。这类方式的典型系统代表有i e p a d ,o l e r a 和t h r e s h e r 等等。 ( 4 ) 无监督的w e b 信息抽取 这类方式的信息抽取是全自动方式的抽取,用户不需要参与其中,也就不需要提供 标记的训练用例和抽取的目标。系统自动对待抽取的w e b 页面根据上下文的语法进行 推理得到抽取的规则。这种方式的抽取缺少用户的参与,有可能抽取的结果与用户需要 有所偏差。这类方式的典型系统代表有r o a d r u n n e r ,e x a l g 和d e l a 等等。 2 3 ,3 根据各种信息抽取工具所采用的原理分类 根据各种抽取工具采用的原理可分为6 大类【9 】【1 7 】:基于自然语言处理( n l p ) 方式 的信息抽取、基于包装器( w r a p p e r ) 归纳方式的信息抽取、基于本体o n t o l o g y 方式的 信息抽取、基于模型( m o d e l i n g _ b a s e d ) 方式、基于h t m l 结构的信息抽取和基于w e b 查询的信息抽取。 ( 1 ) 基于自然语言处理方式 基于自然语言处理方式的信息抽取,主要针对的是w e b 文档中包含大量文档的情 况,对于含合乎文法的文本,可充分利用自然语言处理的技术优势,经过4 个处理步骤: 句法分析语义标注识别专有对象( 人物,公司) 生成抽取规则。即把文本分割 成句子,对一个句子的句子成分进行标记,将分析好的句子语法结构和事先定制的规则 匹配,获得句子的内容。其实质就是利用子句结构、短语和子句问关系建立基于语法和 语义的抽取规则实现信息抽取。规则可以通过人工方式进行编制,也可从人工标注的语 料库中经过机器自动学习获得。典型的系统有:r a p i e r ,s r v ,w h i s h 。以w h i s k 为例,w h i s k 首先由用户手工附加语义并确定模式,系统使用语法分析器和语义类( 如 人名、机构名) 分析器,分析出用户标记信息的语法成分和对应的语义类,生成基于语 法标记和语义类标记的抽取规则,从而实现信息抽取。该方式的缺点是:没有利用w e b 文档独特于普通文本的层次特性,获得有效的抽取规则需要大量样本的学习,速度较慢。 不支持复杂对象的抽取。 7 厂。西大掌硕士学位论文基于网页分块的w e b 信息抽取的研究与应用 ( 2 ) 基于包装器归纳方式 包装器是由一系列的抽取规则以及应用这些规则的程序代码组成。抽取规则的产生 是根据事先用户标记的样本实例,应用机器学习方式的归纳算法,生成基于定界符的抽 取规则。其较少依赖全面的句子语法分析和分词等复杂的自然语言处理技术,更注重文 本结构和表格方式的分析。包装器归纳的主要步骤如下: 用户在训练页面上标注要抽取的内容: 系统应用机器学习从标注好的训练页面中学习出抽取规则; 利用得到的抽取规则从类似的页面中抽取出所需要的信息。 典型的系统有:w i e n ,s o f t m e a l y ,s t a l k e r 。其中w i e n ,s o f t m e a l y 依靠紧挨着数 据前的分隔符定位数据,不能抽取复杂格式的数据,而s t a l k e r 引入e c t 树表示复杂格 式的数据,下面详细介绍代表性系统s t a l k e r 。 r e s t a u r a n tn a m e :go o dn o od i e s 2 0 5w i l l o w , g e n ,p h o n e1 - 7 7 3 - 3 6 6 1 9 8 7 2 5o a k ,f o r e s t ,p h o n e ( 8 00 ) 2 3 4 7 9 0 3 3 2 4h a l s t e ds t ,c h i c a g o ,p h o n e1 - 8 0 0 9 96 - 5 0 2 3 7 0 0l a k es t ,o a kp a r k ,p h o n e :( 7 0 8 ) 7 9 8 - 0 0 0 8 图2 2 一个网页片段m 3 f i g 2 - 2 af r a g m e n to fr e c o r d t y p ew e bp a g e 了印【ea d d c s s 蜘多、:s 崦:s 咖:瑜铲s 咄: 图2 4 图2 - 2 对应的e c 树! 侧 f i g 2 - 4e ct r e eo ff i g u r e2 - 2 1 r e s t a u r a n t n a m e : g o o dn o o d l e s 2 2 0 5w i l l o w , g 1 e n ,p h o n e1 一 7 7 3 3 6 6 1 9 8 7 3 2 5o a k , y o r e s t ,p h o n e ( 8 0 0 ) 2 3 4 - 7 9 0 3 4 3 2 4h a l s t e ds t , c h i c a g o ,p h o n e1 一 8 0 0 一9 9 6 5 0 2 3 5 p7 0 0l a k es t , o a kp a r k ,p h o n e :( 7 0 8 ) 7 9 8 - 0 0 0 8 图2 - 5 图2 - 2 对应的h t m l 代码4 9 3 f i g 2 - 5 t h eh t m lc o d eo ff i g u r e2 - 2 8 n o 一i ? 广西大掌硕士学位论文基于网页分块的w e b 信息抽取的研究与应用 图2 2 为一个网页片段,图2 3 为对应的类型树,图2 4 为对应的e c 树,图2 5 是 对应的h t m l 代码。s t a l k e r 系统根据用户事先标记的样本页面和以e c 树形式提供 的页面结构信息,运用逐步覆盖算法归纳生成基于定界符的抽取规则,从而达到层次结 构的信息抽取。e c 树描述了页面的逻辑结构和模式信息、语义信息,分3 种类型的节 点:根节点( 表示整个文档) 、内部非叶子节点( 称为l i s t 节点,表示多个同类对象的 列表) 、叶节点( 表示对象的语义项) ,如图2 - 4 所示。系统为每个叶节点生成普通的抽 取规则,即用来定位语义项,为l i s t 节点生成普通抽取规则和迭代规则,其中普通抽 取规则用来定位多个对象组成的信息块,然后再应用迭代规则实现单个对象的定位。其 过程为:系统遍历e c 树,若根节点的孩子为l i s t 节点则在源文档中应用普通规则抽 取出多个对象组成的信息块,然后再在获得的信息块中应用迭代规则实现单个对象的定 位,若该l i s t 节点的孩子为叶节点,则系统在上一步获得的单个对象构成的信息块中 执行叶节点对应的抽取规则获得单个语义项。该系统中语义的附加和模式的定义是在用 户定义嵌入式分类树阶段完成的,属于先模式的方式。信息定位的实质是使用左右边界 实现感兴趣信息的识别。对图2 2 ,每个抽取项对应e c 树中的一个节点,包装器将使 用规则从该节点的父节点中将该项内容抽取出来。对每项要抽取的内容,需要两条规则: ( 1 ) 一条开始规则,用于检测抽取项的丌始位置,即标识出抽取项对应节点的开始位 置;( 2 ) 一条结束规则,用于检测抽取项的结束位置,即标识出抽取项对应节点的结束 位置。如要抽取图2 2 中r e s t a u r a n t 的名称“g o o dn o o d l e s ”,构造的开始抽取规则为: r 1 :s k i p t o ( ) ;结束规则r 2 :s k i p t o ( ) 。系统根据r 1 从页面对应的h t m l 代码 的第一个标记开始,跳过所有标记,直到遇到标记 。同样地,根据r 2 从页面对应 的h t m l 代码的第一个标记开始,跳过所有标记,直到遇到标记 。而对于其它内容, 则可使用如下规则:首先是定位父节点即l i s t 元组,也就是图2 5 中的第2 到第5 行 代码,规则为r 3 :s k i p t o ( ) ,r 4 :s k i p t o ( ) 。紧接着是获取单个语义项, 采取的规则是:r 5 :s k i p t o ( ) ,r 6 :s k i p t o ( ) 。系统在列表的父节点对应的代码 中,从第一个标记开始搜索,直到遇到标记 ,即找到了第一个数据记录的起始位置, 然后接着搜索,直到再次遇到标记 ,即找到了第二个数据记录的起始位置,以此类 推,直到代码结束;同样的,系统在列表的父节点对应的代码中,从最后一个标记 开始搜索,直到遇到标记 ,意味着找到了最后一个数据记录的结束位置,然后接着 搜索,直到再次遇到标记 ,意味着找到了倒数第二个数据记录的结束位置,以此类 推,直到代码开始。 包装器归纳方式的缺点是:针对性强,可扩张性差;一个w r a p p e r 只能处理一种特 定的信息源;可重用性差;新的w e b 页面出现或结构变化,w r a p p e r 会失效;缺乏对页 面的主动理解。该方式依赖原有的页面结构,并且需要提供标注好的样本或由领域专家 构造提取规则。 9 广西大学硕士学位论文 基于网页分块的w e b 信息抽取的研究与应用 ( 3 ) 基于本体( o n t o l o g y ) 方式 本体原来是哲学的概念,是对自然存在及其本质的研究,反映的是事物本质的,科 学的内涵。而在人工智能领域,其代表的定义是:本体是种共享的概念化模型的明确 的形式化规范说明【5 1 1 。基于本体的方式主要使用领域知识对数据本身进行描述,包括关 系、词频、上下文关键词,通过描述信息来实现抽取。该方法对页面结构依赖较少,即 使页面的格式特征发生了变化,也不影响抽取的结果。典型的系统有:b y u ,q u i x o t e 。 方法的缺点是:需要领域专家创建某一应用领域的详细清晰的本体;增加对网页中所含 数据结构的要求;从大量异构的文档中提取公共模式工作量繁重,并且不支持超链接的 处理。 ( 4 ) 基于模型( m o d e l i n g _ b a s e d ) 方式 该方法是让用户通过图形界面,建立文档中感兴趣的对象的结构模型,然后系统搜 索网页中隐含与给出的结构模型一致的那部分数据。典型的系统有:n o d o s e ,d e b y e 。 ( 5 ) 基于h t m l 结构的方式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 招商盛典发言稿
- 化学巅峰对决课件
- 二零二五年酒店客房预订协议价格合同
- 二零二五年度夜间守护工作协议
- 二零二五年度智能制造定向增发股份认购协议书
- 2025版生物质发电厂钢筋工施工承包协议
- 二零二五年出口货物航空运输保险条款及投保单
- 二零二五年度保洁设备采购与清洁环保服务合同
- 2025版汽车新能源技术研究与应用加盟合同范本
- 高三试卷:浙江省台州市2025届高三第一次教学质量评估(全科)台州一模数学试卷及答案
- GB/T 196-2025普通螺纹基本尺寸
- 供电一线员工服务规范培训
- 皮肤医美行业分析
- 安全培训课件(八大作业)
- 2025年信息技术实习生培训协议
- ESD防静电知识培训
- SJG 71-2020 桥梁工程设计标准
- 烟草内训师培训
- 绿化养护手册
- 阿里云培训课件
- 《隧道抗震韧性评价标准》标准文本附编制说明
评论
0/150
提交评论