(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf_第1页
(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf_第2页
(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf_第3页
(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf_第4页
(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(管理科学与工程专业论文)面向Deep+Web的数据抽取与语义标注技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

i ;_一 苏州大学学位论文使用授权声明 |j!iii iij l l ll l l l j lj i ii iilip y 17 3 2 0 8 2 本人完全了解苏州大学关于收集、保存和使用学位论文的规定, 即:学位论文著作权归属苏州大学。本学位论文电子文档的内容和纸 质论文的内容相一致。苏州大学有权向国家图书馆、中国社科院文献 信息情报中心、中国科学技术信息研究所( 含万方数据电子出版社) 、 中国学术期刊( 光盘版) 电子杂志社送交本学位论文的复印件和电子 文档,允许论文被查阅和借阅,可以采用影印、缩印或其他复制手段 保存和汇编学位论文,可以将学位论文的全部或部分内容编入有关数 据库进行检索。 涉密论文口 本学位论文属 在年一月解密后适用本规定。 非涉密论文 论文作者签名 导师签名 期:冬l c 期:劲f d 6 8 面向d e e pw e b 的数据抽取与语义标注技术研究 中文摘要 面向d e e pw e b 的数据抽取与语义标注技术研究 中文摘要 随着i n t e m e t 技术的快速发展,w e b 数据库得到了广泛应用。这些w e b 数据库能 根据用户提交的查询请求,将存放在数据库的对象信息以h t m l 页面的形式动态呈 现出来。对于传统搜索引擎来说,这部分页面信息是不能被索引的,我们称之为d e e p w e b 。最近几年的研究成果表明,d e e pw e b 蕴含着大量有价值的信息。因此,d e e pw e b 已成为一个研究热点,受到研究人员越来越多的关注。 本文对面向d e e pw e b 的数据抽取与语义标注技术进行了研究,主要研究工作包 括: 1 ) 详细介绍了w r e b 信息抽取的相关技术及评价标准,引入了d e e pw e b 查询结 果页的w e b 对象信息抽取问题,并提出了一个自动化的w e b 对象抽取系统架构。 2 ) 在对d e e pw e b 查询结果页布局特征分析的基础之上,将页面的视觉特征与 d o m 模型相结合,提出了基于页面布局的数据区域发现算法p l d f 。 3 ) 基于对查询结果页面生成模型的分析,提出一种通过查找数据区域节点下连 续相似节点组来实现自动化数据记录抽取的方法。 4 ) 将数据项的语义标注过程看成是一个受其上下文影响的随机过程,在领域对 象模式的支持下,提出了一种基于最大熵模型的语义标注方法。 最后,对文中提出的方法和技术进行了相关的实验,通过对实验结果的分析进一 步验证本文提出的算法的有效性。 关键词:d e e pw 曲,w 曲对象,信息抽取,语义标注 作者:陈洪平 指导教师:崔志明( 教授) r e s e a r c h0 1 1t e c h n o l o g yo fd e e pw e bo r i e n t e dd a t ae x t r a c t i o na n ds e m a n t i ca n n o t a t i o n o nt e c h n o l o g yo f d e e p腑b0 r i e n t e dd a t a x t r a c t i o na a ds e m a n t i ca n n o t a t i o n a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e r n e tt e c h n o l o g y , w e bd a t a b a s e sh a v eb e c a m e p r e v a l e n to nt h ew e b b a s e do n l a s e r sr e q u e s t ,w e bd a t a b a s e sd i s p l a yt h eo b j e c t i n f o r m a t i o ns t o r e di nt h ed a t a b a s e si nt h ef o r mo fh t m lp a g e sd y n a m i c a l l y t h ew h o l e i n f o r m a t i o ne m b e d d e di nt h e s ep a g e si sc a l l e da sd e e pw e b ,w h i c hc a nn o tb ea c q u i r e db y t r a d i t i o n a ls e a r c he n g i n e s r e c e n t l y ,t h er e s e a r c hr e s u l t ss h o wt h a td e e pw e bc o n t a i n sa g r e a ta m o u n to fv a l u a b l ei n f o r m a t i o n t h e r e f o r ed e e pw e bs e r v e da sar e s e a r c hh o t s p o t h a sb e e np a i dm o r ea n dm o r ea t t e n t i o nb yr e s e a r c h e r s t h i sp a p e rs t u d i e st h et e c h n o l o g yo fd e e pw e bo r i e n t e dd a t ae x t r a c t i o na n d s e m a n t i ca n n o t a t i o n t h ep a p e r sm a i nr e s e a r c hw o r k si n c l u d e : 11t h i sp a p e rg i v e sap r e s e n t a t i o na b o u tt h er e l e v a n tt e c h n o l o g ya n de v a l u a t i o n c r i t e r i ao fw e bi n f o r m a t i o ne x t r a c t i o ni nd e t a i l t h e n ,a f t e ri n t r o d u c i n gt h ep r o b l e mo f e x t r a c t i n gw e bo b j e c t sf r o ms e a r c hr e s u l t sp a g e so fd e e pw e b ,t h i sp a p e rp r o p o s e sa s y s t e ma r c h i t e c t u r et os o l v et h i sp r o b l e m 2 ) b a s e do nt h ea n a l y s i so ft h ep a g el a y o u to fs e a r c hr e s u l tp a g e s ,t h i sp a p e r c o m b i n e st h ev i s i o nf e a t u r e so fw e bp a g ea n dd o mm o d e lt op r o p o s et h ep a g el a y o u t b a s e dd a t ar e g i o nf i n d e ra l g o r i t h m 3 ) b a s e do na n a l y s i so ft h ec r e a t i o nm o d e lo fs e a r c hr e s u l tp a g e ,t h i sp a p e rp r o p o s e s am e t h o dt oe x t r a c td a t ar e c o r d sa u t o m a t i c a l l y b ys e a r c h i n gt h ec o n t i n u o u ss i m i l a r n o d e g r o u p su n d e rt h ed a t ar e g i o nn o d e 4 ) b yt a k i n gt h es e m a n t i ca n n o t a t i o no fd a t ai t e m sa sas t o c h a s t i cp r o c e s s ,w h i c hi s i n f l u e n c e db yt h ec o n t e x t ,t h i sp a p e rp r o p o s e sas e m a n t i ca n n o t a t i o nm e t h o d 诵t i l m a x i m u m e n t r o p ym o d e l ,w h i c hi su n d e rt h eg u i d a n c eo fd o m a i n - o b j e c ts c h e m a a tl a s t ,t h i st h e s i sa l s op e r f o r m se x p e r i m e n t so nt h em e t h o d sm e t i o n e d e x p e r i m e n t s s h o wt h e s em e t h o d sa r ee f f e c t i v e k e yw o r d s :d e e pw e b ,w e bo b j e c t ,i n f o r m a t i o ne x t r a c t i o n ,s e m a n t i ca n n o t a t i o n w r i t t e nb y :c h e nh o n g p i n g s u p e r v i s e db y :c u iz h i - m i n g i i 目录 第1 章绪论。1 1 1 研究背景1 1 2 研究目的。3 1 3 特点与贡献5 1 4 论文结构安排。5 第2 章w e b 信息抽取概述7 2 1w e b 信息抽取的发展历程7 2 2w e b 信息抽取方法分类8 2 3典型的w e b 抽取系统介绍1 2 2 4w e b 信息抽取的评价标准1 5 2 5 本章小结1 5 第3 章查询结果页的w e b 对象抽取1 6 3 1 问题的提出1 6 3 2 基本思路l8 3 3 系统流程架构1 9 3 4 相关技术介绍一2 0 3 4 1h t m l 2 0 一:;4 2x h t m l 21 3 4 3d o m 模型2 2 3 4 4h t m l 标签树匹配技术2 4 3 5 本章小结2 7 第4 章数据区域定位和数据记录抽取2 8 4 1w e b 文档的预处理2 8 4 1 1w e b 文档的预处理流程2 8 4 1 2 清洗h t m l 文档2 8 4 1 3x h t m l 页面的解析3l 4 2 数据区域定位3 1 4 2 1 查询结果页面的布局特征分析一3 1 4 2 2 基于页面布局的数据区域定位算法。3 2 4 3 数据记录的抽取3 4 4 3 1 数据区域中的噪声信息过滤3 4 4 3 2 查询结果页面的生成模型3 5 4 3 3 基于聚类的连续相似节点组的挖掘3 6 4 3 4 数据记录的抽取4 0 4 4 数据记录抽取实验4 2 4 4 1 实验描述4 2 4 4 2 实验评价4 2 4 4 3 实验结果4 2 4 5 本章小结4 4 第5 章数据项的对齐与语义标注4 5 5 1基本概念4 5 5 1 1 问题的引出4 5 5 1 2 语义标注的任务及评价准则。4 6 5 2 研究现状4 7 5 3 研究思路。4 8 5 4 领域实体属性的确定。4 9 5 4 1 查询接口与查询结果页面的观察现象4 9 5 4 2 领域实体属性的确定5 0 5 5 基于最大熵模型的语义标注5 1 5 5 1 最大熵原理5 1 5 5 2 最大熵模型中的特征选择。5 3 5 5 3 模型的训练学习5 5 5 6 语义标注实验。5 5 5 6 1 实验数据集5 5 5 6 2 实验结果与分析5 6 5 7 本章小结5 7 第6 章总结与展望5 8 6 1 工作总结5 8 6 2 论文的创新点5 8 6 3 工作展望5 9 参考文献6 0 攻读学位期间公开发表的论文和参加科研情况6 6 致谢6 7 图1 1 图1 2 图2 1 图2 2 图2 3 图3 1 图3 2 图3 3 图3 4 图3 5 图3 - 6 图3 7 图4 1 图4 2 图4 3 图4 4 图4 5 图4 6 图4 7 图4 8 图4 9 图4 1 0 图4 1 1 图5 1 图5 2 图5 3 图5 4 图5 5 图表目录 d e e pw 曲信息获取过程2 d e e pw e b 集成系统3 应用包装器的抽取模型9 w r a p p e r 与w e b 页面的关系1 0 h t m l 的编码转换及p a t 树构建1 3 查询结果页的页面示意图l7 完整的w e b 对象抽取过程。1 8 查询结果页中的w r e b 对象抽取系统流程图。2 0 一个h t m l 文件的源代码。2 0 d o m 中的接口及其关系2 3 h t m l 文档的d o m 树2 4 标签树的匹配2 5 页面预处理工作流程2 8 查询结果页面快照2 9 页面源码片段3 0 经转换后的x m l 片段3 0 页面内容布局结构3l 页面的d o m 树结构3 2 查询结果页的生成模型3 5 数据区域形成的标签树。j 3 6 挖掘连续相似节点组示例3 8 f l o w e r s o n l i n e 网站的数据记录布局图4 1 c o o k i n g 网站的数据记录布局图4 l w e b 对象示意图4 6 查询接口与w e b 对象数据单元之间的匹配关系4 7 w 曲对象隐藏的领域对象模式4 9 查询接口与查询结果页中的模式信息5 0 表示数据记录的标签树5 3 5 1 ; 的影响5 7 1 z i 2 l :! 4 3 51 5 4 5 4 5 6 5 6 面向d e e pw e b 的数据抽取与语义标注技术研究 第l 章绪论 第1 章绪论 随着w e b 深化趋势的不断加剧,如何充分利用d e e pw e b 中的信息,成为研究热 点。在此过程中,d e e pw e b 数据集成中的相关技术受到越来越多的关注与研究,其 中尤其以w e b 对象的自动化抽取与语义标注技术为关键。 1 1研究背景 在i n t e m e t 飞速发展的今天,互联网已经成为经济、社会、文化、教育以及娱乐 等各个方面的重要组成部分,并正在成为我们工作和生活中不可或缺的一员。随着互 联网的迅速发展,w 曲发展成一个涵盖绝大部分领域的巨大资源库。根据文献【lj 最新 的调查,目前w e b 上的网页数目预计已超过5 0 亿个,并且以每天新增七百万个页面 的速度增长。目前,人们认为w 曲上的信息主要有以下一些特点: 1 ) 信息量大:根据文献【2 】最新调查,目前整个w - e b 具有超过了2 0 0 ,0 0 0 t b 的信 息量,而且仍在快速的增长。根据n e t c r a f t 公司2 0 0 9 年3 月份的调查数据,全球互 联网网站数量约为2 2 7 亿。 2 ) 信息丰富:从内容上看w e b 上的信息包含了从商业信息、科技资料、教育信 息到新闻报道、娱乐信息等多种主题和领域的数据。 3 ) 半结构化:w e b 中的信息主要通过网页的形式对外发布,是由文本和超链接 构成的一种界于自由文本和结构化文本之间的数据,通常缺少语法,像电报报文,也 没有严格的格式。 4 ) 分布与异构性:w e b 数据分布在世界不同地区的w 曲网站上,同时现有的 w e b 网页大部分还是用超文本标记语言( h y p e r t e x tm a r k u pl a n g u a g e ) 描述的。h t m l 没有严格的语法限制,也没有清晰的语义,往往具有不同的表现形式。 5 ) 动态性:w e b 网站的数量是不断变化的,网站的内容也是动态更新的。 与此同时,w e bj 下在迅速“深化 ,w e b 开始和数据库技术结合起来,数据的展 现方式也从静态的h t m l 页面变成了可以与之进行交互的动态页面。我们将这些没 有静态u r l ,数据隐藏在w e b 数据库中,传统网络爬虫无法抓取的w e b 资源称为 d e e pw 曲( 又称为i n v i s i b l ew i e b ,h i d d e nw e b ) t 3 1 。与d e e pw 曲相对的是s u r f a c ew 曲, 库中的,普通网络爬虫无法抓取,人们必须通过提交查询才能动态的获取,如图1 1 所示。因此,为了提高网络中隐藏的结构化数据的可用性,在d e e pw r e b 上进行大规 模数据集成显得越来越迫切。目前对d e e pw e b 进行数据集成主要有两种方法:查询 接口集成与查询结果数据集成。 图1 - 1d e e pw e b 信息获取过程 所谓查询接e 1 集成是指将各个d e e p w e b 网站的查询接1 2 集成起来,提供给用户 一个全局的查询接口。这样用户就可以通过这样一个集成的查询接口,将关键字发送 到各个网站的搜索框上,然后把从各个成员数据库中得到的搜索结果组合起来,返回 给用户。采用这种方法的典型系统有m e t a q u e r i e r t 4 1 、w i s e i n t e g r a t o r 5 1 。在这种架构 方式下,涉及到的具体技术主要包括:接口属性的抽取、模式匹配和查询派发等。 查询结果数据集成是指将同领域的w e b 对象信息从查询结果页面中抽取出来, 2 面向d e e pw 曲的数据抽取与语义标注技术研究 第l 章绪论 并对抽取结果进行必要的处理,然后对其进行集成,使其以一种统一的模式、一致的 状态、合理的方法进行储存,最终为用户提供集成化的搜索服务。与基于查询接口集 成的d e e pw 曲信息集成方法相比,查询结果数据集成需要把w | e b 数据库中的对象数 据尽可能多的下载并集成到本地数据库中,并对这些数据进行管理。在文献 6 - 7 中, 对此类架构方式进行了研究。国内外已有一些学者对其中涉及的具体技术进行了初步 研究,包括d e e pw | e b 数据源发现【8 - 9 1 、w 曲数据库内容获取【1 0 。1 1 1 、w 曲对象抽取技术 1 2 - 1 6 、语义标注技术【1 7 - 1 引、数据集成技术1 蛇o l 、排序技术【2 1 2 2 1 等。 1 2 研究目的 。提交查询请求 l 使用者查询界面 i 厂 e j ,竺嘲 、 o 包装器1包装器2 包颦! 嚣3包装器4 tttt 网页搜集1 网页搜集2网页搜集3 网页搜集4 弋t ttt7 图1 - 2d e e pw e b 集成系统 基于查询结果数据集成的d e e pw 曲集成系统框架如图1 2 所示,从图中可以看 出,d e e pw r e b 集成系统的实质就是通过挖掘互联网中同一主题的d e e pw - e b 资源中隐 藏的w e b 对象数据构建庞大的对象数据仓库,来为用户提供更专业的检索服务。因 此,对于d e e pw 曲集成系统而言,如何从网页中得到用户感兴趣的数据,使得存取 w e b 上的数据跟存储结构化数据一样简便,成为一个关键研究点。 d e e pw 曲查询结果页是d e e pw 曲资源展示其对象信息的基本途径。因此,对 需要大量的训练例子,因此标引工作相当费时费力。对于没有经验的使用者需要花时 间加以训练,同时复杂的标示过程可能让使用者望而却步。另外,包装器的归纳还需 要处理包装器的维护问题。对于大规模条件下的w e b 信息抽取,此种方法仍然缺乏 足够的自动化程度以及应对大规模条件下进行信息抽取的能力。 为了提高w e b 信息抽取的自动化程度,近几年提出了一种全自动化抽取w e b 对 象信息的思路【1 3 ,2 6 1 。这些全自动化信息抽取方法给实现无人工干预的w e b 信息抽取 提供了解决方案。然而,通过对现有的全自动化信息抽取技术的分析,可以发现全自 动化信息抽取仍然面临着挑战,这些挑战也是有待于进一步研究和解决的问题。 1 ) 目前的全自动化w | e b 信息抽取技术单纯依靠数据记录的重复性布局的页面 特征,通过查找h t m l 代码串或d o m 树中的重复模式来实现w e b 对象信息的定位 和查找。这种方法不仅计算的复杂度高,而且容易受噪声信息的影响。 2 ) 全自动化的信息抽取因为缺乏用户的参与,使得抽取的w e b 对象数据缺乏语 义信息,导致应用程序无法准确理解其含义,抽取的对象信息仍然需要经过人工标注 或基于启发式规则的标注,才能真j 下存放到数据库中。目前,这些标注方法的自动化 程度和准确度还比较低。 本文希望提出一种自动化的w e b 信息抽取技术与数据项语义标注技术,来对 d e e pw r e b 查询结果页面的w e b 对象进行抽取与语义标注。基于对现有的抽取与语义 标注方法不足的分析,本文设定如下的研究目标: 1 ) 能够对d e e pw e b 查询结果页中的数据记录进行正确识别与判定,实现全自 动化的信息抽取,同时尽可能避免噪声数据的干扰。 4 面向d e e pw e b 的数据抽取与语义标滓技术研究 2 ) 提高自动化信息抽取方法应对复杂d e e pw e b 查询结果页的能力。 3 ) 对w e b 对象的数据项进行自动化语义标注,提高标注的准确率。 1 3 特点与贡献 d e e pw e b 的出现为学者和业界开辟了一片新的研究领域,人们的需 w _ e b 数据集成的研究成为热点,目的是让人们能够更快更好地获取d e e pw e b 的高质 量信息,并通过d e e pw e b 集成服务平台提供对象级别的检索服务,以此弥补传统搜 索引擎的不足。 w e b 对象抽取及语义标注技术是d e e pw e b 集成系统中的关键技术,高效的自动 化w e b 对象抽取与语义标注方法将直接影响d e e pw e b 集成系统的性能。基于这种认 识,本文对d e e pw e b 查询结果页面的w e b 对象抽取和数据项的语义标注问题进行了 深入的研究,并给出了科学合理、高效的解决方案。本文的特点与主要贡献如下: 1 ) 对传统的基于d o m 树的w e b 对象抽取方法进行了改进,融合了网页的视觉 特征,以弥补d o m 模型在处理此类问题上的不足,不仅增强了处理动态网页的能力, 而且提高了处理噪声信息的过滤能力,因而实现了较高的准确率。 2 ) 在实现数据区域定位的条件下,通过挖掘数据区域节点下存在的连续相似节 点组,继而实现对数据记录的抽取。该方法不仅能够处理单节点构成的数据记录,也 能处理多节点构成的数据记录,增强了复杂条件下抽取w e b 对象的能力。 3 ) 将数据项的语义标注与数据项对齐作为一个整体,减少了问题处理的环节。 同时,在对数据项的语义标注过程中,引入了领域对象模式,将其作为特定领域w e b 对象都遵循的一个全局模式,解决了传统标注方法遭遇的标注词不统一以及标注能力 不足问题。 4 ) 本文实现的对w e b 对象数据记录级别的信息抽取技术完全是自动化的,不 需要人工干预;而对数据项的语义标注,也只需要人工准备特征模板和训练集,降低 了人工干预的程度。 1 4 论文结构安排 本文总共分为6 章,除本章外其它各章的内容概括如下: 5 方法进行深入的研究,通过将网页的视觉信息与d o m 树结合,为d e e pw e b 查询结 果页的数据记录抽取问题提供了高效的解决方法。 第5 章对数据项的对齐与语义标注技术进行了研究。将数据项的对齐与语义标注 看成一个统一整体,进而侧重于数据项的语义标注技术研究。通过将数据项的语义标 注看作是受其上下文影响的随机过程,提出了基于最大熵模型的数据项语义标注方 法。 第6 章是总结和展望。总结了全文的研究工作和创新之处,指出了存在的诸多不 足,并对下一步工作进行展望。 6 面向d e c pw e b 的数据抽取与语 第2 章w e b 信息抽取概述 信息抽取的研究历史并不长,最早开始于2 0 世纪6 0 年代中期,其蓬勃发展主要 得益于消息理解系列会议( m u c ) 的召开。w e b 信息抽取是信息抽取在w e b 领域的扩 展,w e b 信息抽取研究的时间更短,然而随着w e b 的日益繁荣与w e b 信息的爆炸性 增长,w e b 信息抽取研究发展很快,涌现了很多理论与算法。本章将对w e b 信息抽 取研究做一下简单的综述。 2 1 w | e b 信息抽取的发展历程 传统的信息抽取( i n f o r m a t i o ne x t r a c t i o n ,i e ) 是从自然语言文本中抽取出特定信息 的过程。具体是把文本中包含的信息进行结构化处理,转变成表格或其它良好结构的 文本形式。信息抽取系统输入的是原始文本,输出的则是固定格式、无二意性的数据, 这些数据从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。信息抽取 不仅能帮助人们方便地找到所需信息,而且信息的内容经过合理的分析和组织后,人 们可以有效地获取感兴趣的信息,并可在此基础上进一步进行数据挖掘、文本生成等 后续信息处理。传统的信息抽取主要是以自然语言处理( n a t u r a ll a n g u a g ep r o c e s s , n l p ) 技术为基础,通常包括命名实体的识别、句法分析、篇章分析与推理。对于传 统的信息抽取系统的设计主要有两大方法:一是知识工程方法( k n o w l e d g ee n g i n e e r i n g a p p r o a c h ) ,二是自动训练方法( a u t o m a t i ct r a i n i n ga p p r o a c h ) 。知识工程方法主要靠手 工编制规则使系统能处理特定知识领域的信息抽取问题。自动训练方法主要靠机器学 习,系统主要通过学习已经标记好的语料库获得抽取规则,经过训练后,利用这些抽 取规则从新文本中抽取信息。 从自然语言文本中获取结构化信息的研究始于2 0 世纪6 0 年代中期,这被看作是 信息抽取技术的初始研究。信息抽取技术最早是由g w i e d e r h o l d 在 m e d i a t o r si nt h e a r c h i t e c t u r eo f f u t u r ei n f o r m a t i o ns y s t e m s ) ) 一文中提出的。从2 0 世纪8 0 年代末开始, 信息抽取研究得到蓬勃发展,这主要得益于消息理解系列会议( m u c ,m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 的召丌。m u c 会议从1 9 8 7 年开始到1 9 9 8 年一共举行了七 届,它由美国国防高级研究计划委员会资助。m u c 会议建立了专门的术语,信息抽 7 式。为了解决这个问题,就出现了w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n ) ,即从 半结构化的网页中抽取出数据,存储到结构化的数据库中。 w e b 信息抽取技术的研究和实践经历了手动、半自动再到全自动的过程。早期从 网站抽取信息的方法基本上是基于手工操作的。程序员认真研究网站的结构后手工编 写代码,开发一个包装器程序,把网页的相关内容抽取出来并把他们存放在数据库中。 由于w e b 信息数据量大、更新快且表现形式复杂,采用手工方式编写抽取代码费时 费力,效率低,不能满足进行大规模w e b 信息抽取的要求。随着人工智能技术的使 用,采取了机器学习、数据挖掘和概念建模等方式,在一定程度上使得w e b 信息的 抽取能够自动的进行,但是,这些技术都需要用户大量的参与,且自动化程度并不高。 最近几年,一些全自动化的信息抽取方法逐渐成为w e b 信息抽取研究中的热点,这 些方法主要通过挖掘网页中出现的重复模式,以实现对数据记录的全自动化信息抽 取。在整个过程中需要用户干预的地方只是最后的语义分析部分。采取这样的全自动 化方式,大大减轻了用户的工作量,使得网页信息的抽取工作有了较大的进步。 2 2w e b 信息抽取方法分类 对w e b 信息抽取方法进行分类的角度很多,如根据自动化程度分为手工、半自 动和全自动。根据方法采用的原理可以分为以下5 类:基于自然语言处理方式的信息 抽取、基于包装器归纳方式的信息抽取、基于o n t o l o g y 方式的信息抽取、基于h t m l 结构方式的信息抽取和基于w e b 查询的信息抽取。 1 基于自然语言处理方式的信息抽取 自然语言处理技术通常用于自由文本的信息抽取。需要经过的处理步骤包括:句 8 面向d e e pw e b 的数据抽取与语义标沣技术研究 第2 章w e b 信息抽取概述 法分析、语义标注、专有对象的识别和抽取规则。具体地说就是把文本分割成多个句 子,对一个句子的句子成份进行标记,然后将分析好的句子语法结构和事先定制的语 言模式( 规则) 匹配,获得句子的内容。其实就是利用子句结构、短语和子句间的关系 建立基于语法和语义的抽取规则实现信息抽取。规则可以由人工编制,也可从人工标 注的语料库中自动学习获得。这类信息抽取主要适用于源文档中含有大量文本的情况 ( 如新闻类网页) 。目前采用这种原理的典型系统有r a p i e r i 2 7 1 、s r v 2 引、w h i s h 2 9 1 。 由于基于自然语言的信息抽取技术是将w e b 文档视为文本进行处理的( 主要适 用于含有大量文本且句子完整、适合语法分析的w e b 页面) ,其缺点也较为明显:抽 取的实现没有利用w e b 文档独特于普通文本的层次特性,抽取规则表达能力有限, 缺乏健壮性;获得有效的抽取规则需要大量的样本学习,很难达到全自动的程度,而 且速度较慢,对于操作网上海量数据来说这是一个大问题。同时只支持记录型的语义 模式结构,不支持复杂对象的抽取。由于w e b 页面中的文本通常不是结构完整的句 子,所以适用范围较窄。 2 基于包装器归纳方式的信息抽取 图2 1 应用包装器的抽取模型 包装器是一个被赋予信息抽取任务的计算机程序,是信息集成系统中的一个组 件。它的任务就是采用一系列规则,负责将用户所关心的信息,从w e b 页面中抽取 出来。包装器一般包括三个部分:规则库、规则执行模块和信息转换模块。应用包装 器的抽取过程如图2 1 所示。通常,一个包装器只能处理一种特定的信息源。从几个 9 箜! 童堕垒笪星垫墼塑整查塑里! 望鉴! 塑墼塑垫墼墨堕墨堡鎏垫查受壅 不同信息源中抽取信息,需要一系列的包装器程序库。形式化地,每一类w e b 页面 对应一个包装器,其对应关系如图2 2 所示。 包装器集合 各类w e b 页 w e bi e 系统 :、1 i w r a p p e rl j w r a p p e r2 j w r a p p e r n j 画画画 图2 - 2w r a p p e r 与w e b 页面的关系 包装器归纳法是一种自动构造包装器的技术。其主要思想是利用归纳式学习方法 生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统根据事先由用户 标记的样本实例应用机器学习方式的归纳算法,生成基于定界符的抽取规则。其中定 界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来定位语义 项。 与自然语言处理方式比较,包装器归纳法较少依赖于全面的句子语法分析和分词 等复杂的自然语言处理技术,更注重于文本结构和表现格式的分析。这种方式更适合 于w e b 页面的信息抽取,使用包装器能充分发掘w e b 页面的结构和格式特征,能避 免使用复杂的语言学知识,加快信息抽取的速度。使用这一方法的工具主要有三种: w i e n l 2 3 1 、s o f t m e a l y l 2 4 】和s t a l k e r 2 5 1 。其中w i e n 和s o f t m e a l y 必须依靠紧挨着数 据前的分隔符来定位数据,而且不能抽取复杂格式的数据。 使用包装器的困难在于: 1 ) 包装器的针对性强,可扩展性较差。由于一个包装器只能处理一种特定的信 息源,所以若从几个不同的信息源中抽取信息,就需要一系列的包装器集,这样使得 信息抽取的工作量巨大。 2 ) 可重用性差。包装器对页面结构的依赖性强,当出现一类新的页面或旧的页 面结构发生了变化后,原来的包装器就会失效,无法从数据源中获得数据或得到错误 l o 面向d e e pw e b 的数据抽取与语义标注技术研究 第2 章w e b 信息抽取概述 的数据。 3 ) 缺乏对页面的主动理解。目前的包装器主要依赖于原网页或其后台数据库的 模式,基本上是一种数据模式的还原,缺乏对数据语义的主动理解,不利于后续的机 器自动化处理。 3 基于o n t o l o g y 方式的信息抽取 o n t o l o g y 在哲学中泛指对客观世界的本体描述,在人工智能领域一般指智能系统 中涉及的概念术语及其性质等静态知识的描述。基于o n t o l o g y 的信息抽取主要利用 了对数据本身的描述信息实现抽取,对网页结构的依赖较少,因此对网页结构的变化 具有天生的抵抗性。采用该方法,事先要由领域知识专家采用人工的方式书写某一应 用领域的o n t o l o g y ( 包括对象的模式信息、常值、关键字的描述信息,其中常值和关 键字提供了语义项的描述信息) ,并且根据o n t o l o g y 中常值和关键字的描述信息产生 抽取规则,对每个无结构的文本块进行抽取获得各语义项的值。另外系统根据边界分 隔符和启发信息将源文档分割为多个描述某一事物不同实例的无结构的文本块。还将 抽取出的结果放入根据o n t o l o g y 的描述信息生成的数据库中。采用这种方式的w e b 信息抽取系统有:b r i g h a my o n gu n i v e r s i t y 信息抽取小组开发的信息抽取工具3 0 1 ,和 q u i x o t 系统【3 1 】等。 基于o m o l o g y 方式的最大优点是对网页结构的依赖较少,只要事先创建的应用 领域的o n t o l o g y 足够强大,系统可以对某一应用领域中各种网页实现信息抽取。主 要缺点是: 1 ) 相应系统的实现需要大量相关的专业知识,因此需要由领域专家创建某一应 用领域的详细清晰的o n t o l o g y ,工作量大。 0 2 ) 由于是根据数据本身实现信息抽取,因此在减少了对网页结构依赖的同肘, 增加了对网页中所含的数据结构的要求,如要求内容中包含时间、日期、电话号码等 有一定格式的内容。 3 ) 从大量异构的文档中提取公共模式工作量繁重,并且不支持对超链接的处理。 4 基于h t m l 结构方式的信息抽取 此类信息抽取技术的特点是根据w e b 页面的结构定位信息。在一个基于h t m l 结构的信息抽取系统中,h t m l 文档被送入h t m l 剖析器中,这个剖析器建立了一 笙兰童些垒笪皇垫坠塑垄堂塑旦! 望鉴! 盟墼塑垫墼皇量墨堡垄垫查堕塑 个反映h t m l 结构的d o m 树,再通过某种方法把所要抽取的数据定位在d o m 树的 某个层次位置上,最后通过自动或半自动的方式生成一个相应的j 下则表达形式的抽取 规则,通过使用规则将数据从文档中提取出来。使用这类方法进行信息抽取的准确率 和召回率都很高,其输入也只需要相应的若干示例网页,因此适用于各个不同的知识 领域。缺点是天生对结构化的过分依赖,当目标网页的结构发生改变的时候,这种方 法变得不可行。因此,它适用于数据仅能通过其在网页上的位置来确定,且不发生页 面结构变化的情境中。 采用基于h t m l 结构的信息抽取的w e b 信息抽取系统包括:l i x t o 系统【3 列, x w r a p | 3 3 1 ,r o a d r u n n e r e l 3 l ,w 4 f 1 3 4 】和i e p a d 3 5 1 。 5 基于w e b 查询方式的信息抽取 采用x m l 作为信息的表示模型,将w e b 页面中的关键信息自动地抽取出来,并 表达成结构化的、扩展性很强的x m l 文档。基于w e b 查询的w e b 信息抽取系统比 较少见,是

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论