(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf_第1页
(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf_第2页
(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf_第3页
(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf_第4页
(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

(计算机应用技术专业论文)基于xml的信息抽取和集成模型的研究与设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ab s l r a c t abs tract wi t h the r 即iddeve1 o p m e n t of1 n t e m e t re c e n t years, m 触 b h ash a d a t r e m e n d o us rangeand s haped a p latfo rmtos h ar e i n fo n n a t io n . howdowe get i n fo n 刀 a t io n 咖c kly 明d e ffici e ni lyinw 七 b?nisa p r o bl em todi s 奴 甘 b l n t e m e t 峥allthe t i m e . u n d e r 而s b 即 k g r o und , techniq u e of认 /e bl n fo n 力 at 1 o nc x t r a c t i on occ urs an disi nhe ri t e d from ln fo n n a t i on e x 仃 a c t io ntechni q u et h a t c 因 旧 ei n t oe ffec t m 明yyears a g o 从 飞 以 , smore , iti nhe ri ts即 ddevel 叩sso me keyteehniq u e sof l n fo n 力 at i o n e x t ra c t i on fi el d . at t h es aj 旧 et i m e , itbec 别 m e丘 比 仅 以 i c ri t e ri on toe x p r e s sln l e rn e t 1 “ fo n ” a t l o ns peedilya fi e r x m lc 田 ” e fo rth. the r e fo re , e x t r a c t i on t e c 加 吐 q ueof研 /e b 访 伪 n ” a t i on p 1 aysadoublero le for itcom b inesthe t r aditi o n a l t e c hn1 q u eof i n fo n 力 at io n e x t r a c t i o n 诫thx ml te c h n i q u e w h e n ext r a c t 1 n fo rma t 1 on at l h ebeg in n i n gof the arti c le ,t h ea u t l1 o rre se a rc h e sth etechni q u eof i n fo rma t i one x t r 即 t i0 n and thc te c hni q u e ofx mland fi n d i ng a g e n e ra 1 ru l e oft r e e s l ruc t urewh l ch fi tsxmlst ruc tt 叮 e、 v e n . t h i srul ec a nextr act t h ed a t ao f m /e bi n t o x ml doc tune ntins ome p a t t e mifuse rscan n 0 t ut il 滋 i n fo rma t i o n attheirpl e a 名 u 盯 e a n 盯v 范 bin fo n n ation ise x t r 朗 ted, it衍n be goed for n o t h i n g . so d a t a i ni e gr at i o n te c 俪q ueai sois anl m p 0 rt a n t s u b . p r oces s . o n e ofthe c ateg o ryal 吐 h o r wiu r e se ar c h is h o wthe d 副 以 e x t r a c t edism a p ped a c c u r at e l y tot a r g etdata b as e . atthe ” n e t im e , the 如山 。 r p r e s e ni s aw 七 bq u e rymodel b as ed on x m linthe s u m m 山 飞e x tr a c t l on tec俪q u e of节 /e bl “ ro n n at i on c 0 m b ines w i t h t e c ho1 q u e ofx m lstoreand即 叱55, 认 七 i ch r e a l i ze t h er e u eo f v /e bd a tainn 妞 区 i m切 . t b ei nno v a t 1 o noft h eartic leist h att h ea u 比 o r p r e se nts an arch e t y pe sys t e m desi gnofli 1 fo rmation e x t ra c t 1 on and 曲 日 姐i l ablep r oj ect. 苦n l l s ki n d ofsys t e mcan me etd , , 。 do f l n forma t l on e x t r a c t l o ninv 颐o us fiel ds for thee x t 晓 岭 t me t h od w i t h x ml is目o p t edre so urce fullyinthe sy s t e m . atl a st , the a u t h o r m ake s a r e m 出 火onall c x t r 朗 tion ta r g etsofthe sy s t e mbys o m e exaj ” p l esand g a i n s the e x pec ta nire s u 】 t . k e y w o r d , : w 七 b l n fo n n a t i o nx ml ; d a t a i n t e gr a t i on; ma p p ing; 学位论文独创性声明 学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的 研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其 他 人 已 经 发 表 或 撰 写 过 的 研 究 成 果 , 也 不 包 含 为 获 得 卫妇翅丛扎或 其 他 教 育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己 在论文中作了明确的说明并表示谢意。 学 位 论 文 作 者 签 “ 手 “ 嗦升 签 字 日 期 : “年 如扮 日 学位论文版权使用授权书 本学位论文作 者完 全了 解 南昌大学 有关保留、 使 用学位论文的 规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅 和借阅。 本人授权击昌大学可以 将学 位论 文的 全部或部分内 容 编入 有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学 位 论 文 ” 者 签 名 手 写 ): 吞 签 字 日 期 理 刁年 朗仟日 导师签名 ( 手写) : 签字日期:叫年 ” 知 学位论文作者毕业后去向: 工作单位: 通讯地址: 电话: 邮编: 第 1 章引 言 第1 章引 言 l l背景介绍 今天,互联网己 经成为最为流行的信息发布媒体。研 触 b上有海量的数据信 息,怎样对这些数据进行复杂的应用成了现今数据库技术的研究热点。数据挖 掘就是从大量的数据中发现隐含的规律性的内容,解决数据的应用质量问题。 充分利用有用的数据,废弃虚伪无用的数据,是数据挖掘技术的最重要的应用。 相对于w七 b的数据而言,传统的数据库中的数据结构性很强,即其中的数据为 完全结构化的数据,而从 七 b上的数据最大特点就是半结构化。所谓半结构化是 相对于完全结构化的传统数据库的数据而言。显然,面向节 触 b的数据挖掘比面 向单个数据仓库的数据挖掘要复杂得多。 面向w 七 b的数据挖掘必须以半结构化数据模型抽取技术为前提, 信息抽取 主要是分析v 触 b 页面结构和信息的表达形式, 产生针对该m 触 b 页面格式的抽取 规则,再利用这些规则抽取数据。针对 节 触 b 上的数据半结构化的特点,首要解 决半结构化数据源模型和半结构化数据模型的查询与集成问题,要解决m 触 b上 的异构数据的集成与查询问题,就必须要有一个模型来清晰地描述m 怂 b 上的数 据121 。因此, 节 触 b 信息抽取模型研究应包括两个方面:一是针对v 阳 b 上的数据 半结构化的 特点, 寻找一个半结构化的数据模型, 这是解决问题的关键所在; 二是研究一种半结构化模型抽取技术,它能自 动地从现有数据中抽取半结构化 模型的数据。 以x ml为基础的新一代www环境是直接面对晒 范 b 数据的,不仅可以很 好地兼容原有的节 触 b 应用, 而且可以 更好地实现v 阳 b 中的信息共享与交换131 。 x ml可看作一种半结构化的数据模型,可以很容易地将x m l的文档描述与关 系数据库中的属性一一对应起来,实施精确地查询与模型抽取。 本课题旨 在通过研究, 针对web 上的数据半结构化的 特点, 提出 一个基于 x ml的半结构化的数据表达模型以及找到一种半结构化模型抽取技术,解决 v 几 b 上的异构数据集成与查询问题。 第 1 章引 言 1 .2 课题来源 本课题来源于导师的 基于jzee 架构的个性化出 版物信息服务系统 项目 , 属于应用与理论结合研究型课题。 1 3国内外研究现状 l l l国内信息抽取研究 国内迄今为止的研究基本上是处于包装器的半自 动生成阶段,尚未见到自 动识别网页并产生包装器抽取数据的方法的有关研究资料。国内较为典型的系 统和算法有: ( 1) 中国人民 大学数据与知识研究所提出的基于预定 义模式的包装器ll , 由用户定义模式并给出模式与h t ml网页的映射关系,接着系统推导出规则同 时生成包装器. (2) 中 科院软 件所提出 的 基于d o m的 信息提 取 2 , 该算法以 文 档对象 模 型 ( d o m)为基础,把所要提取的信息在 d o m层次结构中的路径作为信息抽 取的 “ 坐标” ,并以这个基本原理为基础设计了一种归纳学习算法来半自 动化地 生成提取规则, 然后根据提取规则生成j a v a类, 将该类作为we b数据源包装 器组成的重要构件。 (3)河北大学提出的基于样本实例的 we b信息抽取13 ,用户首先选定样 本页面和预先定义模式 ( 基于0 一 r ) 模型, 然后对样本页面和其中的样本记录进 行标记学习形成规则 ( 包含抽取规则和关联规则) ,并将规则放入知识库中,最 后利用知识库对其它同类页面自动抽取信息,存放在对象关系数据库中。 (4) 中国 科技大学提出的 基于多 层模式的多记 录网 页 信息抽取方法141 , 基 本思想是h t ml网页信息抽取只是利用多层模式来加以 描述,以 便能够利用各 层模式之间相互联系的特点,帮助动态获取各层中与h t m l页面内 容具体描述 ( 格式)密切相关的信息识别模式知识:并最终再利用所获得的多层 ( 信息识 别)模式之时,完成相应各个h t m l网页的具体信息抽取工作。 这些算法有一定的局限 性。首先,需要有较多的人工干预。由 于需要较多 的先验知识,并且不同的系统使用的描述语言不同,从而,要求进行干预的人 第1 章 引 言 员不仅需要对网页的结构分析和生成等方面较为熟悉,并且还要对系统使用的 描述语言较为了解,因此对人员的要求比较严格;其次,根据一定的先验知识 产生包装器的方法造成了系统的适应性较差,也就是说,根据特定情况产生的 包装器只能适用于特定情况,当网页结构发生变化时,需要重新进行人工千预 和标识,因此很难较好地适应变化。 l 1 2国外信息抽取研究 s h o p b otls 月 s h o p b ot是比 价代理系统, 专门 从网 上卖家的网 站上抽取 信息, 因 此, 比 其 他系统的局限性要大。其算法主要针对以表单形式提供查询的页面,而且返回 的搜索结果是以 表格形式显示的产品信息页面。 从结果页面中抽取信息的 技巧 结合了启发式搜索、模式匹配和归纳式学习。 s hopbot的运行分两个阶段:离线学习阶段和在线比 价阶段。 在学习阶段, 系统分析每个购物网站,获得其符号化描述,然后在比价阶段,利用获得的符 号化描述,从网站上抽取信息,找到用户指定的产品的最低价格。在学习阶段, 系统利用简单的启发式方法找到正确的检索表单,学习如何向该表单发送查询 请求。学习程序还必须判定查询结果页面的格式。一般包括头部、主体和尾部 等三部分。头尾两部分在所有的结果页面中都是一致的,而主体则包含了想要 的产品信息。结果页面的格式是通过三个步骤判定的: 第 1步:获取 “ 找不到产品”的失败页面 。用不存在的词 ( 如 ” 刃 d c c 双-no曰 p r odu c t ” ) 作为关键字查询数据库, 然后分析返回的页面。 第 2步:找到头尾部分。用可能存在的产品名称去查询数据库,通过分析 返回的页面找到头尾部分。 第3 步:判定包含产品信息的主体格式。首先用h t m l标记和字串对可能 的产品信息摘要进行定义和表示。网页主体被切分成 “ 逻辑行” ,代表“ 垂直空 格分隔” ( v e rt l c ai 一 叩 a c e 一 de l i m i t e d) 的文本。学习 程序用逻辑行比 较不同 的 摘要形 式,找到最佳匹配。 这样可以找到产品的描述格式,但是不能归纳出信息栏的 名称。最关键的价格信息是用手工编码的方法获取的。 、 v i e n 17 ,8 1 第1 章引 言 “ 分装器归 纳生 成环境” ( w i e n 析叩 钾 r l n d u c t ion e n v ir 0 lune nt ) 是辅 助分 装器生成的工具,为网页的自 动分析而设计,受到 s h o p b ot的影响。 不过, ki汕m o rick是第一个提出分装器归纳生成这一术语的。其方法不只局限于某一 领域, 适用于所有包含表格信息的结构化文本,也不只是用于h t m l文本。这 种方法可以处理被他们称之为具有 h l rt 结构的网页:头分隔符、左右分隔符 ( 在每个待抽取的事实的左右)和尾分隔符。系统寻找标记信息点开始和结尾 的统一的分隔符,以及那些把表格信息与其他周围信息分开的分隔符。符合这 一规则的页面几乎都是搜索数据库所得的结果页面。 k u s 肠 m e ri ck 力图尽量自 动化,避免用人工标记样例,因此开发了一系列自 动标记样例的 方法。 标记算法需要 输 入特定领域(d 。 mam-s pe c i fic) 的启发学习 规则,目 标是找到待抽取属性的值。系统虽然需要输入学习规则,但却不管这 些规则是如何获得的,可以手工编制。即使是这样,比起标记整个网站来,其 工作量要小。 系统采用归纳学习法,从查询结果样例中生成分装器。归纳算法是:把标 记好的网页作为输入, 然后搜索由“ h l rt 分装器模型” 定义的分装器空间( s p a c e 。 f wra p p ers) , 反复尝试所有可能的分隔符, 直到找到与标记网页相一致的h l r t 分装器。系统还采用基于机器学习理论的模型来预测需要学习多少个例子,以 保证所生成的分装器的出错几率控制在一特定的范围内。由 于 wi e n只考虑与 待抽取数据紧相邻的分隔符,因此不能包装那些数据不全或信息项次序不固定 的网页。系统采用的是多栏 ( 劫u lti 一 s lot)规则,这就意味着能把相关的信息联 在一起,而单栏规则只能抽取孤立数据 ( 例如,若一篇文档包含多个姓名和地 址,使用单栏规则不能辨认出哪个地址是属于某人的) 。 5 o n m ea ly lg, 101 k ush m e ri c k 之后,有好几个别的系统研发出来,力图改进wie n的分装器 归纳算法。 son m 司y 是一个通过 学习 分 装器学习 从半结 构化网页中 抽 取信息的 系统。 其分装器被称为“ 非确定有限自 动机” ( non- d e t e 瓦 ni n i s t i c fi ni t e a u t o m a ta ) 。 这种表达模式和学习算法据说可以处理缺失值、一栏多值和变量改变 ( 伴助u tat1 0 ns)的 情况。 系统从训练样例中归纳上下文规则。训练样例提供一个有顺序的事实列表 以 及事 实间的分隔符。 归纳生 成分装器时, 把一系列带标记元组( l a be ledtu p l e s) 第 1 章引 言 作为输入。这些元组提供了分隔符的位置和事实次序变化的信息。这些信息被 归纳为上下文规则作为结果输出。 归纳生成的分装器是一个“ 非确定有限自 动机” 。 其状态代表待抽取的事实, 状态的转换代表定义分隔符的上下文规则。状态的转换由上下文规则的匹配结 果来确定。分装器通过识别事实周围的分隔符来抽取事实。 son m e 吻 的规则 允 许使用通配符, 而且能处理 信息 缺失 和次 序变化。 然而, 为了能处理不同次序的事实,系统需妥学习其各种可能的次序。总的说来, 5 o n m e a l y 的抽取模式比wi e n规定的要更有表达能力。 s t a l k e ri , 2 , , 习 s t a l k e r采用指导学习的算法归纳抽取规则。训练例子由用户提供。用户 需选择若干样例页面并把有用的数据 ( 即所谓 “ e c树”的叶子)标记出来。页 面被标记好后, 系统 可生成一 符号 序列 ( the se q u e n c e ofto ke ns) , 用来 表示页面 的内容,还生成代表信息点开始的符号索引。符号系列 ( 字、h t ml标记)和 通配符被作为定位标志,用于找到页面上的数据。分装器归纳算法产生抽取规 则并 表示为 简单的 标 志语法 (l 即 山 旧 肚 k . 孚 明 u 力 ar s ) . 此法可处理 文本, 但不能处 理链接信息。 网 页 文 档 用 所 谓 的“ 内 嵌目 录” ( e m be d d edc 副 以 10 9 ) 表 示 isj 。 那 是 一 个 树 形结构, 其内 部节点 或是同 构的( homoge neou s)信息点 列表, 或是异构 信息点 元组( 铆卜 5 ) 。 根节点 是 整篇文 档, 任一节点的内 容代表其父节点内 容的 一个接 续 ( s ubs e q u e n c e ) . 末节点即 是用 户需要 抽取的 数据。 s t a l ker 采 用 线 性覆 盖 算法( 湘 q u e ntialc o v e n n g al g orit h 吐 ) 。 首先 生 成线 性标志自 动机 ( l and n 长 ir ka u t o m 川 匕 ) 。这些自 动机能产生尽可能多的训练正例 ( posit ivetrain i n g e x amp l es ) 。 该自 动机实际 上是一个“ 非确定 有限自 动机” . 其 状态的变化只有在字符串输入为了目 前状态与下一状态间的转换而被接受时才 发生。然后系统试图生成新的自 动机以覆盖剩余的例子,一直到所有的训练例 子都被覆盖为止。 这时, s t a l k 卫 r返回一个被称之为s l g( 简单标记语法) 的 解决方法。其每个分支都对应一个学习获得的标记自 动机。 s t a l k e r可以 包装有任意层结构的信息源。 每个节点的抽取与其子节点独 立,因此,文档中信息点的次序是没有关系的。对于信息点缺失或次序多变的 文档一样能处理。这就比只能处理固定次序的 wi e n等系统更灵活。与同样能 第1 章 引 言 处理信息点缺失 或次 序多变文档的son m ealy 不同, s t a l ker无 需把各 种可能 的次序变化都学习到。 s t a l k e r采用的规则与wi e n的不同, 是单栏的。 不过 由于s t a l k e r利用e c树把从多栏模板中取出的单个信息点集在一起, 因此没 有什么缺陷。 r a p i e rll4. , 习 r a p ier( rob u s t a u t o m at e d p ro d u c ti o n o f l n fo rma l i one x t r a c t i onr ul es,健 壮的信息抽取规则自 动生成系统)以半结构化文本为处理对象,学习抽取规则, 为整个ie过程服务。系统需要输入指明待抽取信息的“ 文档一 充实模板” ( fil l ed 抚 m p l ate) 组对作为训练内 容, 从中获得模式匹配规则, 抽取 “ 填充子” ( fil l er ) 填充模板中的空槽。 学习算法结合了多个归纳逻辑编程系统所采用的技巧,能学习无界限模式。 这些模式包含了对词的限制条件和填充子周围的词性。学习算法由一个从具体 到一般 ( 即自下而上)的搜索,从训练中与目标槽匹配的最具体的规则开始。 随机从规则库中抽取一对对规则,然后横向搜索 ( 比翻 search),以图找到这两 条 规则的 最佳概括, 采用最少概 括的 概括方 法 (ale astg e n e ral g e n e m l i za l i on) , 增加限制条件,不断重复后直到不再有进展为止. r a p ier的抽取规则是建立在分隔符和内容描述的 基础上的, 即使用了能利 用句法和语义信息的模式所表达的规则。系统使用了一个词性标注程序获取句 法信息,使用了 一个语义类别词典获取语义信息。标注程序以 句子为输入单位, 把词标注为名词、动词、形容词等,速度和健壮性都比完全句法分析器快和优, 但给出的信息有限。 信息抽取规则用模板名和格栏 ( sl ot)名索引,由三部分组成:前填充子 ( pre一 ll er ):一个应匹 配目 标文本之前的 文 本的 模 式( p a tt e rn) ; 填充子: 一 个 应匹配目 标文本的模式:后填充子:一个应匹配紧接目 标文本之后的文本的模 式。 一个模式是一串 模式 信息点( p a tt e mite lns) , 要求一 个一个词匹 配, 或者是 模式列表 ( p a tt e rnu sts) , 可匹 配n个词。 文本必须 满 足 模式规定的 条 件才算匹 配成功。可能的条件包括文本必须是 (i)一组词,其中一个必须与文档文本匹 配;( n )一组句法标记,其中一个标记必须与文档文本的标记匹配:或者 (ii1) 一组语义类别,文档文本必须属于其中一类.这种以目 标词组为中心设定抽取 第1 章引 言 区域的方法意味着系统只能进行单格抽取。但是,若把文本分成超过三个区域, 系统或许能进行多格抽取。 s r v l l 6, 1 7 , 1 幻 r u l e s 侧t h 珑1 1 dat i on,带确认功能的次序规则) 是一种自 上而 下、关系型的信息抽取算法。其输入是一系列的网页,上面标记了待抽取区域 的 实伍. 加 口 c e ) , 以 及一 系列基于字串 (tok e n ) 的 特征。 输出 是一系列的 抽取规则。 s r v把信息抽取问题看成是一种分类问题。文本中所有可能的短语 ( 取最 长者)都是实例。文档中的候选实例被提交到分类器。系统会给每个短语赋一 个测量值,用于反映该短语作为目 标格填充子的信度。最初版本的s r v采用的 分类器是一个关系型规则的学习器, 使用的归纳方法类似于f oil的自 上而下的 办法. 在文献123 】 中, 他们采用了另外两个分类器, 机械背诵学习器 ( m 忱l e arner) 和简单贝 叶斯分类器 n a i veb ayes d as si fi er),并与原来的 分 类器作了比 较。 s r v利用的特征分两种:简单特征和关系特征。 字词的长度、类型、 拼写、 词性等属于简单特征。关系特征反映字词的相邻度。正是这一特征使s r v具有 关系型的特点。 s r v的学习素材包括训练集文档中与最短实例区( fieldl ns i 助c c ) 一样长( 以 词的个数计算)的字串,但不能长过最长的实例。抽取过程即是检验长度适合 的字串是否与规则匹配的过程。 s r v与f o il一样, 从学习所有正反例子开始。 所谓反例是没有被标记为实 例区的字串。归纳过程也是用正排除法,即当一条规则覆盖的例子全部是正例, 或该规则已无法继续具体化时,所有与之匹配的正例将被从训练集中删除。然 后重复以 上过程。 s r v 的规则具有较强的表达能力,且无需先进行句法分析。s r v 与 s t a l k e r 和r a p i e r 有类似之处, 能把与其他相关信息点独立的特定信息点抽 取出 来。 关系型学习 器也与 r a p ie r的一样用于抽取单格信息点。这与 wi e n 等抽取多格信息的系统不一样。 wh iskllgl wh i s k系统能处理的文本对象很全面,从结构化程度很强的文本到网页等 半结构化文本, 还能处理新闻等纯文本。 处理结构化或半结构化文本时, wh i s k 第1 章 引 言 无须事先经过句法分析,但处理自由文本时,最好能先对文本作句法和语义标 注。 系统采用指导学习算法,而且需要输入一系列手工标注的训练实例。标注 和学习过程是交织在一起的。每次循环,系统将提交一批实例让用户标注,系 统则从标注的实例中归纳出规则.开始时,输入的文本是未标注的,训练集也 是一个空集。系统会从文本中挑选一批实例 ( 即小于整个文档的文字单位) ,让 用户把需抽取的部分加上标记。怎样的字串会被选为实例呢?这取决于文档的 类型。对于结构化和半结构化文档来说,系统根据h t m l标记或其他字符串表 达式把文本切成多个实例。 对自由文本,实例的切分将由一个句子分析器完成. 在这种情况下,一个实例可能是一个句子或者句子的一部分。训练实例上的标 记将指导抽取规则的生成,并且检验规则的效果。如果规则被成功应用到一个 实例上,那么该实例则被认为被规则 “ 覆盖”了。如果抽取出来的词组与实例 上的标记相吻合,则认为该词组的抽取是正确的。 wl l l s k属于机器学习算法家族中的覆盖学习法,与自 上而下的学习分类归 纳法相关。 首先, 找到 一个最宽 泛 ( g ener al ) 的能 覆盖 规则 种子的 规则, 然后 一 次加一个条件,直到错误率为零,或者满足一个事先设定的标准为止。用来衡 量 新 条 件 增 加 的 标 准 是 规 则 的 l api ian期 望 错 误 值 。 计 算 公 式 如 下 : 琪。 n 刀十1 是训练集中抽取出来的字串数, e 是这些字串中应用规则所产生的错误数。 学习 过程一直进行,直到能覆盖所有该被覆盖的抽取字串都被覆盖为止。最后把那 些过 适 ( 。 v e 币 tt ing) 规则 删除 掉。 w h i s k与s rv、 r a p 正 r 等一样 可以 处理结 构化 和非结构化文 本, 但没 有 “ 单格”抽取法的缺陷。象 wi e n一样,wh i s k通过多格 “ 格框架”( c 哪 f r 田 旧 e ) ,把有关的信息联系在一起。wh i s k与 s r v和r a p ier也不同,操作 的对 象不是整个文档, 而是象句子或 类似长 度的 文本。w h i s k象s o n m ealy 一 样可以处理信息点顺序变化的情况,但需要输入各种例子,以便学习所有可能 的排序。由于其特征集的表达能力不强,因此不能表达否定特征 ( neg at e d fe al 泊 re s),比s rv 的 性能要差一些。 1 .4论文主要工作 本文的主要工作有: 第 1 章引 言 对信息抽取技术与原理, x ml技术进行了详细的阐述与分析, 针对从 七 b 上 的数据半结构化的特点,提出了一套信息抽取,转换,集成的方法,将m 触 b 上 的数据转换成为x m l 格式, 并集成到目 标数据库中去, 最大限度的实现了从 飞 b 信息的再利用,解决了m 触 b 上的异构数据集成与查询问题。 1 .5论文主要结构 第一章讲述课题背景、 来源, 国内外研究现状及本课题研究的意义和本文要 解决的问 题。第二章介绍了本文研究中会接触到了一些相关技术,包括己 成为 数据转换国际标准的x ml 技术己经x m l的产生和发展, 相关标准和结构体系。 从信息抽取的发展历史,信息抽取的标准,信息抽取的两大设计方法,分装器 的生成以 及归纳学习的原理,这些方面阐述了 信息抽取的相关技术。第三章和 第四章是本文的核心,给出了基于x m l的信息集成方案,包括基于x ml的信 息集成总体框图, 算法以及基于x ml的信息集成的层次结构等等。 第五章讲述 了如何使x m l 与关系型数据库进行集成。 第六章给出了该模型的实现方案。 第 七章对全文进行了总结。 第2 章相关理论和技术综述 第2 章相关理论与技术综述 2. i x ml技术 2. 1 . i x ml的产生与发展 x m l ( e x t e n s i bl e m ar k u p l ang u a g e) 是由 万维网协会( w3 c)设计, 特别为 , 触 b 应用 服务的s g m l( s ta n d ar d g en e ralm a r k u p l an g ua g e ) 的 一 个重要 分支。 总的 来 说, x m l是一种中 介标示语言 ( m e ta . m ar k u p l ang u a g e ) , 可 提供描 述结构 化资 料的格式, 详细来说x m l 是一种类似于h t m l , 被设计用来描述数据的 语言1期。 x ml提供了一种独立的运行程序的方法来共享数据,它是用来自 动描述信息的 一种新的标准语言, 它能使计算机通信把b t e m e t 的功能由信息传递扩大到人类 其他多种多样的活动中去。 x ml由 若干规则组成,这些规则可用于创建标记语 言,并能用一种被称作分析程序的简明程序处理所有新创建的标记语言,正如 h t m l为第一个计算机用户阅 读i n t e rn e t 文档提供一种显示方式一样, x m l也 创建了一种任何人都能读出和写入的世界语。 x ml解决了h t ml不能解决的两 个w 七 b 问 题, 即玩 妞 m e t 发展速度快而接入速度慢的问 题, 以 及可利用的 信息多, 但难以找到自己需要的那部分信息的问题。 x ml能增加结构和语义信息,可使 计算机和服务器即时处理多种形式的信息。 因此, 运用x ml的扩展功能不仅能 从研 触 b 服务器下载大量的信息,还能大大减少网络业务量。 x m l 中 的 标志 ( tag)是没 有预先定义的, 使 用者必须要自 定义需 要的 标志, x m l是能够进行自解释( se lfdesc ribi n g ) 的语言1211。x m l使用 d td归oc ume n t ty 拌d e 石 n i t i o n文档类型定义) 来显示这些数据 , x s 从 e x t e n s i bl e s ty l e s he etl明g ua g c ) 是一种来描述这些文档如何显示的 机制, 它 是 x m l的样式表描述语言。 x s l的历史比 h t m l用的 c s s( 层叠式样式表 c as c adi ngs ty l e s heets) 还要悠久, x s l包括两部分: 一个用来转换x m l文档的 方法; 一个用来格式化x m l文档的方法。 x l l( . x t e n s i bl e l i n k l an guage) 是 x m l 连接语言,它提供x m l 中的连接,与h t ml 中的 类似, 但功能更强大。 使用 x l l ,可以多方向连接,且连接可以 存在于对象层级,而不仅仅是页面层 级。由于x m l能够标记更多的信息, 所以 它就能使用户很轻松地找到他们需要 的信息。利用x ml ,场 触 b 设计人员不仅能创建文字和图形,而且还能构建文档 第2 章相关理论和技术综述 类型定义的多层次、相互依存的系统、数据树、元数据、超链接结构和样式表。 2. l z x ml相关标准 x ml不仅仅是一种语言, 广义的x ml是一系列标准的集合。 图2 . 1 说明了 x ml及其相关标准, 在图中, 中间一层是x ml基础标准, 最下层是x ml的应 用标准。 ! 盆 . l ,cha : ,一 1 o ab :一 hl 加 , : 二 二 * 。 。*nt 一 、 ry! 1一一二一 三二 一 .竺全 - 巨三 一口 n a . e , p 鱿. 朋 吞 . . 盆 p 故h p x x sl皿 主 ” 七盆 q u e ry cs s 1 二 . , . 弧! 三互 1 ” 。 eb , 三 口 1 , , , 1。 * : t a ” , 巨 三 . c c/ pp 。 亚1习 朴 刀价 士 p a k e 爪 , c c/pp s 礼 9 1了 1 . 协 贾 丽劝护孔 尸 . 鱿h 口 工pif v o i c e 习 班 图2 . 1翔l 相关标准 x ml基础标准是为x ml的进一步实用化制定的标准, 它规定了采用x ml 制定标准时的 一些公 用 特征、 方法或规则122。 x m l s chema 描 述了 更加严 格定义 x m l 文档的方法, 以 便可以 更自 动地处理x m l 文档。 x m l n ame s p a ce用于保 证x m l d t d中名字的一致性,以便不同的d t d中的名字在需要时可以合并到 第2 章相关理论和技术综述 一个文档中。 d o m定义了一组与平台和语言无关的接口,以便程序和脚本能够 动态访问 和修改x m l 文档内 容、结构及样式. x q u e 口的目 的是为从m 触 b 文档 中提取数据, 提供一种灵活的查询机制。 x p a t h 描述如何识别、 选择、 匹配x ml 文件中的各个构成元件, 包括元素、 属性、 文字内容等。 x p 0 i n te r 和x l i nk标准, 规定了有关定位、 链接方面的内容。 c s s 被用来作为x m l 文档显示的样式标准 等等。 2. l 3 x ml主要技术特点 x m l是一种元标记语言,强调以数据为核心,这两大特点在x m l的众多 技术特点中最为突出,同时也奠定了x ml在信息管理中的优势。 x m l 是一种元标记语言与h t m l不同, x m l 不是一种具体的 标记语言, 它没有固定的标记符号,是一种元标记语言,是一种用来定义标记的标记语言, 它 允许用户自 己 定义一套 适于 应用的d td123 】 。 x ml的核心是数据。在一个普通的文档里,往往混合有文档数据、文档结 构、 文档样式三个要素。而对于x ml 文档来说,数据是其核心。将样式与内容 分离, 是x ml的巨大优点。 一方面可以 使应用程序轻松的从文档中寻找并提取 有用的数据信息,而不会迷失在混乱的各类标签中;另一方面,由于内容与样 式的独立,也可以为同一内 容套用各种样式,使得显示方式更加丰富、快捷。 正是 x ml的特点决定了其卓越的性能表现。 x ml作为一种标记语言, 有 许 多 特 点 24l: ( 1) 简单。 x ml 经过精心设计,整个规范简单明了,它由 若干规则组成, 这些规则可用于创建标记语言,并能用一种常常称作分析程序的简明程序处理 所有新创建的标记语言。 x ml能创建一种任何人都能读出和写入的世界语,这 种创建世界语的功能叫做统一性功能。 如x m l 创建的标记总是成对出现,以及 依靠称作统一代码的新的编码标准。 ( 2 )开放。 x m l是s g m l在市场上有许多成熟的软件可用来帮助编写、 管理等, 开放式标准x ml的基础是经过验证的标准技术, 并针对网络做最佳化。 众多业界顶尖公司,与w3 c的工作群组并肩合作, 协助确保交互作业性,支持 各式系统和浏览器上的开发人员、作者和使用者,以 及改 进 x m l标准。 x m l 解释器可以 使用编程的方法来载入一个 x m l的文档,当 这个文档被载入以 后, 用户就可以通过x ml文件对象模型来获取和操纵整个文档的信息, 加快了网络 第 2章相关理论和技术综述 运行速度。 ( 3 )高效且可扩充。支持复用文档片断,使用者可以发明和使用自己的标 签,也可与他人共享,可延伸性大,在x ml中,可以定义无限量的一组标注。 x m l提供了一个标示结构化资料的架构。一个 x m l组件可以宣告与其相关的 资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的 许多机构逐渐采用x m l标准, 将会有更多的相关功能出现:一旦锁定资料,便 可以使用任何方式透过电缆线传递,并在浏览器中呈现,或者转交到其他应用 程序做进一步的处理。 x m l 提供了一个独立的运用程序的方法来共享数据,使 用d t d , 不同的组中的 人就能够使用共同的d t d来交换数据。 你的应用程序可 以 使用这个标准的 d t d来验证你接受到的数据是否有效,你也可以使用一个 d t d来验证你自己的数据。 (4)国际化。标准国际化,且支持世界上大多数文字。这源于依靠它的统 一代码的新的编码标准,这种编码标准支持世界上所有以主要语言编写的混合 文本。 在h t h 1 l中, 就大多数字处理而言,一个文档一般是用一种特殊语言写 成的,不管是英语, 还是日 语或阿拉伯语,如果用户的软件不能阅读特殊语言 的字符, 那么他就不能使用该文档。 但是能阅读x ml语言的软件就能顺利处理 这些不同语言字符的 任意组合。因此,x m l不仅能在不同的计算机系统之间交 换信息,而且能跨国界和超越不同文化疆界交换信息。 2. 2信息抽取综述 信息抽取原来的目 标是从自 然语言文档中找到特定的信息,是自 然语言处 理领域特别有用的一个子领域. 所开发的信息抽取系统既能处理含有表格信息 的结构化文本,又能处理自由式文本 ( 如新闻报道) 。 ie系统中的关键组成部分 是一系列的 抽取规则 或模式, 其作用是确定需要抽取的 信息125 1 。网 上文本信息 的大量增加导致这方面的研究得到高度重视。本章首先介绍信息抽取领域的发 展。第2. 2 . 1 . 节比较了信息抽取和信息检索的区别:第2. 2. 2. 节介绍ie的历史。 接下来一节解释ie系统常用的两派技术方法。信息抽取技术所处理的文本类型 将在第2. 2. 4 节中 说明。 第2. 2. 5. 节描述信息抽取技术可利用的网页特征。 2. 2.l le 和 i r ir 的目的是根用户的查询请求从文档库中找出相关的文档。用户必须从找 第2 章相关理论和技术综述 到的文档中翻阅自己所要的信息。 就其目 的而言, ir和ie的不同可表达如下: ir从文档库中检索相关的文档, 而ie是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以 为文本处理提供强大的 工具固。 ir和ie不单在目 的上不同, 而且使用的技术路线也不同. 部分原因是因为 其目 的差异,另外还因为它们的发展历史不同。多数ie的研究是从以规则为基 础的计算语言学和自 然语言处理技术发源的。 而ir则更多地受到信息理论、概 率理论和统计学的影响1261。 2. 2. 2 ie 的历史 自动信息检索己是一个成熟的学科,其历史与文档数据库的历史一样长。 但自 动信息抽取技术则是近十年来发展起来的。有两个因素对其发展有重要的 影响:一是在线和离线文本数量的几何级增加,另一是 “ 消息理解研讨会” ( mu c ) 近十几年来对该领域的关注和推动。 ie 的前身是文本理解。人工智能研究者一直致力于建造能把握整篇文档的 精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他 新领域移植的 性能 却很差 12n。 j 又 十年代以来,美国政府一直支持 m u c对信息抽取技术进行评测。各届 mu c吸引了许多来自 不同学术机构和业界实验室的研究者参加信息抽取系统竞 赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系 统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。研讨会的 目的是探求ie系统的量化评价体系。在此之前,评价这些系统的方法没有章法 可循,测试也通常在训练集上进行。 mu c首次进行了大规模的自 然语言处理系 统的评测。如何评价信息抽取系统由此变成重要的问题,评分标准也随之制定 出来。各届研讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企 业、 微电子技术和公司管理层的人事更迭。过去五、六年,ie 研究成果丰硕。 英语 和日 语姓名 识别的 成功率达到了 人类专家的 水平12 刀 . 通过m u c 用现有的 技 术水平, 我们己 有能力建造全自 动的 ie系统. 在有些任务方面的性能达到人类 专家的 水平【2 刀 . 不过自1 9 93年以 来, 每届 最高组别的 有些 任务, 其成绩 一直没 有提高 ( 但要记住mu c的任务一届比一届复杂) 。一个显著的进步是,越来越 多的机构可以完成最高组别的任务。这要归公于技术的普及和整合。目前,建 第 2 章相关理论和技术综述 造能达到如此高水平的系统需要大量的时间和专业人员。另外,目前大部分的 研究都是围绕书面文本,而且只有英语和其他几种主要的语言。 1 2. 3 i e系统的两大设计方法 ie 系统设计主 要 有两大方 法: 一是知识工程方法 ( k . o w 】 e d 朗 e n gi n e e n n g a p p r o ach) , 二 是自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论