(模式识别与智能系统专业论文)半结构化文档的关系化模型与方法研究.pdf_第1页
(模式识别与智能系统专业论文)半结构化文档的关系化模型与方法研究.pdf_第2页
(模式识别与智能系统专业论文)半结构化文档的关系化模型与方法研究.pdf_第3页
(模式识别与智能系统专业论文)半结构化文档的关系化模型与方法研究.pdf_第4页
(模式识别与智能系统专业论文)半结构化文档的关系化模型与方法研究.pdf_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 中文摘要 数据检索已经成为信息处理领域非常重要的课题之一,基于x m l 标准的格 式化文档日益得到业界的普遍重视,其简明、易于理解、跨平台的特点使其在 很多领域都有广泛的应用。对x m l 提供支持的查询语言x q u e r y 、导航语言x p a t h 都已经成为的国际标准,同时以o d f 和o o x m l 为主的国际文档标准也开始大 行其道。 x m l 具有自描述性、可扩展性,既含有内容同时也含有结构信息,随着互 联网的普及和数据量的爆炸性增长,如何解决x m l 文档的检索问题变得越来越 重要。 本篇论文以与微软亚洲研究院合作的化学公式识别与检索项目为出发点,以 实际项目数据检索需求为立足点,提出了如何将x m l 结构模式( d t d ) 转换为 关系模型,并给出了x m l 数据和元组数据相互转换的方法,以求在半结构化数 据模型和关系数据模型之间达到一个平衡,利用双方的优势提供实时数据存储 和检索解决方案。 关键字 信息检索、关系模型转换、半结构化数据模型、可扩展标记语言 a b s 仃a c t a b s t r a c t d a t ar e t r i e v a lh a sb e c o m eav e r yi m p o r t a n ts u b j e c ti no fi n f o r m a t i o np r o c e s s i n g f i e l d ,x m lf o r m a t t i n gd o c u m e n t sh a sw o nt h ei n d u s t r y si n c r e a s i n g l yw i d e s p r e a d a t t e n t i o n , i t ss i m p l e ,e a s y - u n d e r s t a n d i n ga n dc r o s s - p l a t f o r mm a k ei th a v eaw i d e r a n g eo fa p p l i c a t i o n si nm a n yf i e l d s p r o v i d i n gs u p p o r tf o rt h ex m lq u e r yl a n g u a g e x q u e r y , n a v i g a t i o nl a n g u a g ex p a t hh a v eb e c o m et h ei n t e r n a t i o n a ls t a n d a r d ,o d f a n do o x m li n t e r n a t i o n a ld o c u m e n t a t i o ns t a n d a r d sh a v eb e g u nt op o p u l a r i t y x m li ss e l f - d e s c r i p t i v e ,s c a l a b i l i t y , a n di tb o t hc o n t a i n sc o n t e n ta n ds t r u c t u r e d i n f o r m a t i o n w i t ht h ep o p u l a r i t yo ft h ei n t e m e ta n dt h ee x p l o s i v eg r o w t ho fd a t a , h o w t os o l v et h ep r o b l e mo fx m ld o c u m e n tr e t r i e v a lb e c o m ei n c r e a s i n g l yi m p o r t a n t t h i sp a p e rb a s e dm i c r o s o f tr e s e a r c ha s i aw i t ht h ec h e m i c a lf o r m u l a i d e n t i f i c a t i o na n dr e t r i e v a lp r o j e c ta st h es t a r t i n gp o i n t , a n dt h ea c t u a ld e m a n df o r p r o j e c td a t ar e t r i e v a la st h es t a n d p o i n t t h i sp a p e rp r o p o s e sh o wc o n v e r t sx m l s t r u c t u r em o d e l ( d t d ) f o rt h er e l m i o n a lm o d e l ,a n dg i v e st h er e c i p r o c a lc o n v e r s i o n m e t h o d s b e t w e e nx m ld a t aa n dt u p l ed a t a t h i sp a p e r sw a n t sa c h i e v eab a l a n c ew i t h s e m i s t r u c t u r e dd a t am o d e la n dr e l a t i o n a ld a t am o d e l ,u s i n gt h ea d v a n t a g e so fb o t h s i d e st op r o v i d er e a l - t i m ed a t as t o r a g e & r e t r i e v a ls o l u t i o n s k e y w o r d i n f o r m a t i o nr e t r i e v a l ,r e l a t i o n a lm o d e lc o n v e r s i o n , s e m i - s t r u c t u r e dd a t a m o d e l ,x m l 内容目录 图目录 图1 1 构造良好的x m l 文档( 部分) 示例。6 图1 2d t d 规则示例。7 图1 3 数据结构化程度与查询能力示意图1 0 图2 1c m l 标准d t d 示意图1 3 图2 2d t d 语义图例解读1 4 图2 3c m l 简化之后的d t d 示意图。1 6 图2 4c m l 的d t d 关系图1 8 图2 5c m l 的关系数据模式示意图。2 0 图2 6x m l 还原路径示意图:。2 6 图2 7x m l 部分树示意图2 7 图3 1x m l 关系化系统系统架构图2 9 图3 2d t d 模式关系化流程图。3 l 图3 3x m l 数据关系化流程图3 1 图3 4 元组数据半结构化流程图3 2 图4 2c m ln 路径平均s q l 连接数示意图3 7 v 内容目录 表目录 表2 1d t d 中的语义运算1 4 表2 2x m l 数据线性化的部分结果2 2 表3 1 模块功能简介表3 0 表3 2d t d 模式关系化功能的数据结构与算法设计3 3 表3 3x m l 数据关系化功能的数据结构与算法设计3 3 表3 4 元组数据半结化功能的数据结构与算法设计3 3 表4 1 长度n 的查询路径的s q l 平均连接数3 7 v i 南开大学学位论文版权使用授权书 本人完全了解南开大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:了丧耻 猢年歹月w 日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 解密时间:年 月 日 各密级的最长保密年限及书写格式规定如下: 南开大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:终i i l 乃芬年r 月2 子日 第一章绪论 1 1 1 人机交互与信息检索 第一章绪论 第一节研究背景 人机交互的研究自从计算机产生以来一直就是业界研究的重点领域之一,从 打孔纸带到键盘鼠标、从电子管闪亮状态到液晶显示屏,虽然人机交互技术已 经经历了飞速的发展,但在目前这个现代信息技术大爆炸并且已经渗透到其他 各个领域的时代,传统的人机交互技术已经成为i t 产业下一个飞跃发展的掣肘 因素。普通人不能像专业人员一样熟练使用键盘鼠标操作计算机,这就要求研 究出新的人机交互方式以满足最普通人群的需要,目前手写、语音、触摸甚至 虹膜、脑电波等人机交互技术都已经成为了研究的热门方向,甚至有的技术已 经成熟并开始在实际产品中得到应用,手写识别就是新的人机交互领域中相对 比较成熟的并且已经开始付诸产品实践的技术。 m i c r o s o f tt a b l e tp c 是实际应用手写识别技术的产品平台之一,该平台设计 符合人机交互领域的崭新要求,但是由手写识别引擎的新颖性,到目前为止还 没有很好的第三方应用出现在这个平台上。由微软亚洲研究院主持的,与亚洲 各知名高校合作的m o b i l ec o m p u t i n gi ne d u c a t i o nt h e m e 计划在这样的背景下诞 生了。本人有机会在实验室中参与这个计划,并具体在c h e m i s t r ys t u d y a s s i s t a n t 项目中负责化学方程式数据结构的设计、识别结果存储与检索方面的研究与实 践工作。 化学方程式手写识别的结果数据属于半结构化数据的一种具体表现形式,同 数学公式【2 5 】【2 6 】【2 7 】一样,是研究教学、文档编辑等领域内经常用到的非平面文本 的半结构化数据,对于它的正确识别、表达和检索是非常重要问题,目前这方 面的应用还落后于数学公式,并且几乎不存在良好的可以在文档编辑、教育教 学领域内应用的成熟软件产品或工具,尤其在以手写为主要输入方式的t a b l e t p c 上更是凤毛麟角。半结构化数据介于模式完全固定的结构化数据和完全没有 模式的无序数据之间,他们的数据结构实不确定不规则的,形式是多样化的。 半结构化数据主要来源于3 个方面:1 ) 互联网上无严格格式限制的平面数据; 第1 页 第一章绪论 2 ) 大量异构数据源中且格式不一的海量现实数据;3 ) 各种数据处理系统中格 式不确定的中间数据,例如电子邮件、文献检索、档案管理等。从以上半结构 化数据来源中得到的数据在格式和类型上千差万别,目前尚无统一模型,但随 着对数据有效性要求的日益提高,索引半结构化数据的研究在各种信息处理系 统中变得日益重要。 在解读x m l 的数据检索方法前应该首先了解一下现行的数据存储和检索系 统的特点。 1 1 2 关系数据库 数据存储与检索是一个非常古老的问题,自从人类创造并传播知识以来就已 经成为了一个亘古不变的难题。在现代信息知识爆炸的时代,如何存储海量数 据并提供快速且精确的检索功能成为所有人关注的焦点。 关系型数据库经过几十年的发展,已经逐渐成为了目前主流的信息存储检索 的媒介,当前相当大的海量数据都是存储在各种各样商业或开源的关系数据库 系统中,但是同时人们也发现在越来越复杂的应用中,关系数据库开始暴露出 一些无法忽视的缺点,以关系型数据库为平台的存储和检索方式在某些层面上 已经开始捉襟见肘,例如异构数据库的整合问题、数据内容和格式的可读性问 题、数据格式化传输的问题等都开始困扰信息产业的从业人员。在了解半结构 化文档的存储检索之前,有必要先了解一下关系数据库的优劣势所在。 a 关系数据库系统的优势 1 ) 灵活性和建库的简单性:从软件开发的前景来看,用户与关系数据库编 程之间的接口是灵活与友好的。目前在大多数r d b m s 产品中使用标准查询语 言s q l ,允许用户几乎毫无差别地从一个产品切换到另一个产品进行存取信息。 同时,与关系数据库接口的应用软件具有相似的程序访问机制,提供大量标准 的数据存取方法。 2 ) 结构简单:从数据建模的前景看,关系数据库具有如实体关系、元组等 相当简单的结构,可为用户或程序提供多个复杂的视图。数据库设计和规范化 过程也较简单易行和易于理解。由于关系数据库的强有力的、多方面的功能, 已经可以有效地支持许多数据存储检索应用。 b 关系数据库系统的劣势 第2 页 第一章绪论 1 ) 数据类型表达能力差:从下一代应用软件的发展角度来看,关系数据库 的根本缺陷在于缺乏直接构造与这些应用相关的信息类型的表达能力,缺乏这 种能力将产生如下有害的影响,例如:大多数r d b m s 产品所采用的简单类型 在重构复杂数据的过程中将会出现性能问题;数据库设计过程中的额外复杂性 问题;r d b m s 产品和编程语言在数据类型方面的不协调问题:不支持自定义数 据类型的问题等。 对于工程应用来说,这种不能支持复杂数据类型的典型结果就是需要进行额 外的分解数据结构的工作,这些被分解的结构不能直接表示应用数据,且由基 本成分重构应用数据时也非常浪费性能。 2 ) 复杂查询功能差:关系数据库系统的某些优点也同时是它的不足之处。 虽然s q l 语言为数据查询提供了很好的定义方法,但是当运用于复杂信息的查 询时却可能是非常繁琐的。此外,在工程应用时规范化的过程通常会产生大量 的简单表。在这种环境下产生的查询必须处理大量的表、复杂的主外键表的关 联运算、递归查询等相当消耗性能的运算。 由于关系数据库不能提供足够的构造能力,在进行较复杂的数据库设计过程 中,不可能将许多工程问题直接分解成一些简单的部分。由于缺乏直接指针存 取方法,所以查询有关的信息需要花费比较长的时间。 3 ) 环境应变能力差:在要求系统频繁改变的环境下,关系数据库系统的成 本高且变更困难。在工程应用中支持“模式转变”的功能是非常重要的,而 r d b m s 从基本结构上很难支持这种功能。另外,关系数据库和编程语言所提供 的数据类型的不一致,也使得从一个环境转换到另一个环境时需要大量复杂但 无实际应用价值的代码。 4 ) 特殊数据模型支持较差:关系型数据库对具有包含关系的层状数据描述 有天生的困难,在比较简单的层次关系下经过表拆解还可以勉强应付,但是对 待层次关系非常复杂的数据时就显得力不从心,要描述某一数据所包含的全部 子数据必须采用多次迭代的来完成,在时间空间复杂度上消耗很大。 由此可以看到现行的关系数据库存储和检索方式存在比较鲜明的特点,总结 起来就是在数据存储和检索性能方面有比较大的优势,相应的技术经过几十年 的发现也非常成熟;同时在数据的语义表达上有比较明显的劣势,而这方面恰 恰是以x m l 为具体表现形式的半结构化数据的优势所在。 第3 页 第一章绪论 1 1 3x m l 的提出 x m l 是有w o r l dw i d ew e bc o n s o r t i u m ( w 3 c ) 的x m l 工作组定义的,对 于x m l 的定义是这样的【2 】:“x m l 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u p l a n g u a g e ,标准通用标记语言) 的子集,其目标是允许普通的s g m l 在w e b 上 以前h t m l ( h y p e r t e x tm a r k u pl a n g u a g e ,超文本标记语言) 的方式被服务、接 收和处理。x m l 被设计成易于实现,且可在s g m l 和h t m l 之间互相操作。 x m l 是一套定义语言标记的规则,这些标记将文档分成许多单元并对这些 单元加以标记,它与h t m l 的不同在于没有固定的标记,x m l 是一种元标记语 言,用户可以自定义需要的标记。这些自定义的标记必须根据某些规则来创建, 当然这种规则本身也是自定义的,是用来检验x m l 文档是否符合标准的,这中 规则自定义性也是x m l 元标记语言的另一种体现,这种规则就是指d t d 3 】和 s c h e i i l a 【4 】【5 】【6 1 。x m l 标记描述的是文档内容的结构和含义,而不是类似于h t m l 标记所描述的页面元素格式化方式。 相对于h t m l 而言,x m l 有许多优点: 1 ) x m l 是自描述和可扩展的。虽然x m l 和h t m l 都是来源于s g m l 的, 但x m l 保留了s g m l 的可扩展功能,而h t m l 是固定不可以扩展的。x m l 允 许根据现实情况、数据描述甚至数据关系来定制标记,x m l 实现了用自己定义 的标记集来说明文档内容的功能,这为x m l 的普遍应用提供了最基本的保障。 2 1x m l 支持文档内容验证。x m l 文档的结构和内容可以由指定的规则集 来验证,d t d 3 1 和s c h e i l l a 4 】【5 】 6 】就是最重要的两种,它们起到了确保x m l 文档 内容及格式正确性的作用。当然是否需要这种规则集,也是可以自由选择,如 果不使用的话x m l 本身依然可以正常使用。 3 ) x m l 允许针对不同领域定义不同的标记语言。这使得x m l 成为不同应 用领域之间交换数据的理想格式。有了这种可以通用的数据交换标准,在特定 领域内的数据交换就有了可参考的依据,事实上,包括m a t h m l 7 1 、c m l l 8 】【9 】【1 0 1 1 1 1 】 等在内的特定领域标记语言已经如雨后春笋一般破土而出了。 4 ) x m l 是文本格式易于阅读和编写的。这使得它成为在不同的应用间交换 数据的理想格式,x m l 不是第一种也不是唯一的公共文档格式,但是它所具备 的易于阅读和编写的性质使其成为源文档的最佳格式。 5 ) x m l 是基于w 3 c 定制的开放标准的,这使得基于x m l 的应用有相当 第4 页 第一章绪论 广泛的应用性。 1 1 4x m l 的特征 x m l 文档一般由x m l 声明、处理指令、x m l 元素和注释四个部分组成, 其中的x m l 声明和x m l 元素是必须的,而处理指令和注释是可选内容。x m i _ 声明用于声明该文档是一个x m l 文档;处理指令是包含在x m l 文档中的一些 命令性语句,目的是告诉x m l 处理器处理一些信息或执行一定的动作;x m l 元素是x m l 文件内的基本组成内容,每个元素包含一个起始标记、一个结束标 记、标记属性和标记之间的数据内容,元素还可以再嵌套元素,实现循环甚至 递归嵌套,其中最外层的元素称为根元素,一个x m l 文档只能有一个根元素; 注释是x m l 文档中一些起注释作用的字符数据,x m l 处理器对它们不进行任 何处理。 一个构造良好( w b l l f o r m e d ) 的x m l 文档通常指不存在语法错误的x m l 文档。构造良好的x m l 文档必须满足以下要求: 1 ) 文档开始必须是x m l 声明; 2 1 含有数据的元素必须同时具有起始标记和结束标记; 3 ) 不含数据并且仅使用一个标记的元素必须以 结束; 4 ) 文档只能包含有一个根元素; 5 ) x m l 元素不能重叠只能嵌套; 6 ) 属性值必须加引号; 7 ) 字符 和只能用于起始标记和实体引用; 8 ) 出现的实体引用只有& a m p 、& l t 、& a p o s 、和& q u o t : 图1 1 所示的就是一个完整良好的x m l 文档,摘自c h e m i s t r ys t u d y a s s i s t a n t 软件i l j 的化学方程式数据集。 第5 页 第一章绪论 ? x m :v e r 0 1 0 n 。、o e n c o d i n g = “州书。? ) l d o c n p ec a s o o c u m e n ls y s t e m 。c :c m l d t dd 吲。, r _ j e d o c u m e n td o c v e r s i o r l = 。1 1 d o c t y p e z ”k n o w l e d g e b a s e - , r e a c t a n t l i s tc o u n t = ”2 “, r e a c t o n tc o e f f i c i e n t = 。1 。g 吼争。s o l i d 。 i m o l e c u l ej d = “z n 。 ; r e a c t a n t e i f i d e m = 1 s t i r = 。s 0 1 o n - , j m o l e c u l ei d = 。h 2 s 0 4 。 ; p r o d u c n j s tc o u n t = 。2 。 l : m o l e c u l ei d - 。z n s 0 4 i l s u b s t a n c e l j s t 图1 i 构造良好的x m l 文档( 部分) 示例 x m l 文档本质上是保存信息的格式化载体,为了得到有效的x m l 文档,还 必须明确x m l 文档信息必须遵守的规则,即需要一种用来描述x i l 文档中数 据结构的模型,这种数据模型不仅建立了x m l 文档中可以使用的x i v l l 词汇表, 还定义了x m l 文档中元素的顺序和元素嵌套关系。这种规则描述的解决方案之 一就是d t d ,d t d 列出了可用文档中的元素、属性、实体和符号表示法,以及 这些内容之间可能的相互关系。d t d 最重要的用途就是让x m l 处理器能够确 认x m l 文档的有效性。图1 1 中x m l 文档的d t d 如图1 2 所示。 由于x m l 的这些特点,在c h e m i s t r ys t u d ya s s i s t a n t 项目中也采用x m l 方 式对数据进行描述,x m l 负责识别结果的中间描述、化学知识集的存储和检索 的数据支持。从数据处理的侧面来讲,x m l 是整个系统的数据处理核心,尤其 是提供快速的检索方式和方法是整个系统中数据逻辑处理层的核心内容。 数据存储归根到底的目的是进行快速有效的检索,否则数据量越大意味着 “信息垃圾”越多,因此也就从此引出了一个关于如何快速有效地检索x m l 文 件的问题,当然不同x m l 文件的数据模式也在一定程度上影响了检索的效率。 下面将首先总结前人的研究工作,必须要感谢前人的研究成果,否则不可能有 这篇论文的出现。 第6 页 第一章绪论 饭m i , j e r s i o n = ”10 “e n o _ 3 d i n g = ”i t f - 8 。, 正d ”1 。 r e a c t i o n b 刚a n c en m t o k e n 掌r e q u l f l e 0 t e a c t i o n f o r m u l ec d a t a 捌= 【e q u l r e d r e a c t i o n t y p e lc d a t a 掌r e o u i r e d r e e c t i o n t y p e 2n m t o k e n i r e q u i r e d ( ! e l e m e 卜r rr e e c l a n t l i s t “怕a c t 帅f + ) ) l a 丌u s tr e e c t a n t l i s t u n tn m t o k e ni 甲l e o u i r e :d 图1 2 d t d 规则示例 第二节相关研究工作 1 2 1x m l 索引方法研究 对x m l 信息检索的研究开始与六七年前,随即成为数据库和信息检索方面 的研究热点。欧洲d e l o sn e t w o r ko fe x c e l l e n c ef o rd i g i t a ll i b r a r i e s 与i e e e c o m p u t e rs o c i e t y 于2 0 0 2 年共同启动i n i t i a t i v eo fe v a l u a t i o nf o rx m lr e t r i e v a l 创 新活动,旨在评估各种x m l 检索方法,同时为研究者提供一个展示自己成果的 空间。 x m l 文档的检索方法按照被检索的单位对象不同,可以大致上分为两大类: 以数据为中心( d a t a c e n t r i c ) 和以文本为中心( d o c u m e n t c e n t r i c ) 【1 2 1 ,前者返回 的结果是符合用户查询条件的结果集,后者返回的结果是从文档中抽取的有效 数据,后者可以充分利用x m l 规则标记的语义节点,提高检索的准确度。有必 要先了解一下这两者的区别。 1 ) 以文本为中心的x m l 文档 以文本为中心的x m l 数据,以松散的非结构化文本( 自然语言) 信息为主, 不存在严格的模式规定,无法进行统一化管理。对于这种x m l 文本文档通常倾 向于采用类似与信息检索的方式进行管理。 信息检索( i n f o r m a t i o nr e t r i e v a l ) 与数据库检索( d a t a b a s er e t r i e v a l ) 主要 第7 页 第一章绪论 区别在于信息检索的数据无法预知或提供固定的信息组织结构,而数据库检索 的数据在建立时就已经明确知道组织方式,这点区别对于数据组织、检索模式 建立、信息匹配和检索结果等方面都体现出了明显区别。 以文档为中心的x m l 检索系统和理论有【1 3 】【1 4 】【1 5 】【1 6 】【2 4 1 。 2 ) 以数据为中心的x m l 文档 以数据为中心的x m l 数据,其特点是结构非常规整、数据粒度比较精细, 以高度结构化数据信息为主,文档的标记用于描述数据的含义。这种格式的x m l 文档多用于特定行业专用系统间的数据交换,x m l 文档规则需要符合国际标准 或事实上的行业标准。 用于存储以数据为中心的x m l 文档的数据库称为纯x m l 数据库 ( n a t i v e l ) ,它通常情况下需要具备以下三个特点:第一,为x m l 文档定 义了逻辑模型,x m l 数据的存储好而查询都是基于这个模型的;第二,将x m l 文档作为存储的基本单位,这点和关系数据库将元组作为存储的基本单位一样; 第三,不指定使用特定的物理模型或某种特定的专有存储格式。图1 1 就是一个 以数据为中心的x m l 文档。 这种n a t i v e 类型的x m l 数据库系统主要包括:t i m b e r 1 7 1 ,l o r e 【1 8 】,n a t i x 1 9 1 , t a m i n o 2 0 】等。除去n a t i v ex m l 数据库之外,还有研究半结构化数据与关系模型 联系的系统,例如s t o r e d e 2 i 】就是使用关系和半结构化技术结合的方法处理 x m l 文档,即如何在关系数据库中既存储x m l 文件对象又存储对应的关系索 引,本篇论文中的方法从中得到了很好的思路,但两篇论文的研究重点不同。 s t o r e d 系统着重于如何利用关系索引检索x m l 文档,而本文着重在如何将模 型和数据全部存储在关系数据库中直接进行检索,在需要时又可以提取出来完 成跨平台跨系统的数据交换。 当然现在很多成熟的商业数据库也提供了对n a t i v ex m l 数据的支持,例如 s q ls e r v e r2 0 0 5 ,i b md b 29 ,o r a c l e10 9 等,但是它们的低版本依然无法支持 n a t i v ex m l 。 目前w e b 上已经存在的以文档为单位的x m l 搜索引擎有g o x m l 2 2 】,以文 档中标记元素为检索单位的x m l 搜索引擎有x r s 2 2 1 、l o r e 等。 x m ln a t i v e 数据模型与关系数据模型相比有着很多优点,尤其在处理动态 数据结构的时候,同时x m l 本身不需要文档架构信息( d t d 或者s c h e m a ) 就 可以正确表示数据,而关系数据模型的s c h e m a 是每一个关系( 表) 都不可或缺 第8 页 第一章绪论 的。 但同时也应该看到以x m ln a t i v e 数据模型为支持的数据库无法解决高效全 文检索的问题,虽然利用倒排索引的方法可以将数据进行压缩编码,最终取得 一个折中的方法,但这样的空间和时间浪费也是不言而喻的。另外一个方面, 关系数据库所提供的并发控制、数据恢复、事务处理、数据分布式存储等功能 现在都可以简单高效地实现,但是x m l n a t i v e 数据库还无法做到如此成熟,因 此研究如何将关系和半结构化两种数据模式及数据之间进行高效的转化是非常 有必要的工作,尤其是在诸如需要系统实时响应或并发处理等特殊需求的情况。 第三节本文内容组织 1 3 1 研究目标 目前,信息检索已经成为一个独立的研究领域,除了文本之外已经开始涉及 到图像、视频等多媒体领域,这对于互联网上的海量数据检索是至关重要的。 但同时也必须看到由于人类的认知水平和硬件技术等方面的原因,无结构的信 息检索效率比结构化的数据检索速度要慢很多,即使最先进的技术也无法完成 实时检索,通常都是对数据进行预先处理然后才能提供给用户使用,诸如世界 著名的搜索引擎g o o g l e 、m s ns e a r c h 、b a i d us e a r c h 都采用这种方式。 这篇论文将主要应对在化学方程式识别完成后,如何对结果集的模式进行转 化、存储和检索等方面进行些研究,对于识别领域的问题研究可以参见其他论 文【l 】中的内容。由于应用领域固定并且数据来源稳定,同时考虑到数据模式在交 换过程中的通用性以及数据展示方面的要求,最终选择符合国际标准c m l 的半 结构化数据模型作为中间结果的表达方式。 但同时发现,x m l 作为半结构化数据其查询能力和结构化程度都处于中游 阶段,可以向两个方向进行转化。如果关注更广泛的适用性但并不在于实时检 索等问题,可以把x m l 检索带入无结构的信息检索研究方向;如果关注检索效 率及实时性且数据源稳定单一能给出同意的模型的话,则可以把x m l 检索带入 结构化检索领域。处于通用的海量数据实时检索和全文检索的需要,后者成为 本文的研究重点。 通过前面的内容我们发现以x m l 为代表的半结构化数据模型,和以商业数 第9 页 第一章绪论 据库系统为代表的关系数据库模型各有各的优势,半结构化模型的优势在于数 据语义的表达上,而关系数据模型的优势在数据存储容量和检索性能上,显然 结合这两者的优势必将能发挥出更大的优势。因此关系数据模式与半结构化数 据模式之间的相互转化有利于在需要的方面能使用彼此的优势,即关系数据模 式在检索方面的多样性和性能优势,以及半结构化数据模式在语义表达方面的 丰富性优势。 查询能力 高 中 低 无结构半结构绐构化结构化程度 图1 3 数据结构化程度与查询能力示意图 因此本文的研究目标是提供将半结构化数据模式转换为关系数据模式的通 用方法模型,同时给出x m l 数据和关系数据元组之间相互转化的通用方法模型。 1 3 2 研究内容 研究内容设计如下三个方面: 1 ) 通过d t d 关系图方法,将半结构化数据模型转化为关系数据模型; 2 ) 通过排序匹配方法,将x m l 数据转化为关系数据元组; 3 ) 通过父节点匹配方法,将关系数据元组转化为x m l 数据; 论文中将对以上三个方面的方法模型进行逐一阐述,并提供相应转化的具体 实现模块的设计、评测策略和评测结果。 第l o 页 第一章绪论 1 3 3 本文结构 本文将分为五章阐述x m l 文件内容检索这个问题及相应的解决方案,并在 具体实现结果基础之上总结相关工作,提出目前尚未解决的问题和需要进一步 改善的地方。 第一章作为综述阐述数据存储和检索的过去和现在,通过总结前人的研究成 果探讨现行关系数据模型与以x m l 为代表的半结构化模型的数据检索方面的差 异。 第二章将分析如何将半结构化数据模型转换为关系数据模型,同时给出 x m l 数据与关系数据元组之间的转换方法。 第三章将以核心方法模型为原型,给出实现转换的系统设计思路和模块分配 策略。 第四章将在具体实现的基础之上,提供系统评测数据信息以考证模型的可行 性。 第五章将总结所有现行工作,并提出现有理论的不足和对未来的展望。 第1 1 页 第二章x m l 的关系数据转化模型 2 1 1d t d 简化 第二章x m l 的关系转化模型 第一节d t d 模式关系化 表达x m l 数据模式的方法主要有d t d 和s c h e m a 两种,本文选择用d t d 来表示x m l 数据模式。d t d 是用来定义x m l 语义规范的文档,当然没有d t d 的x m l 文档只要符合1 1 4 小节中的x m l 规则仍然是结构良好的,即d t d 或 s c h e m a 并不是强制性的,这也是x m l 灵活性的体现。 将x m l 模式关系化的第一步就是要进行d t d 的简化,因为d t d 在通常情 况下都非常比较复杂,以c m l 中表达反应方程式的d t d 来看,其完整的d t d 如图2 1 所示。 这其中包含了文档根目录( c a s d o c u m e n t ) 、反应列表( r e a c t i o n l i s t ) 、反应 ( r e a c t i o n ) 、反应物( r e a c t a n t ) 、生成物( p r o d u c t ) 、分子式( m o l e c u l e ) 、反应 条件( c o n d i t i o n l i s t ) 、媒介条件( s u b s t a n c e l i s t ) 等,在d t d 中可能包含的运算 多种多样,根据d t d 国际标准 3 】描述,在d t d 中可能包含的语义种类如图2 2 所示。 第1 2 页 第二章x j v t l 的关系数据转化模型 l e l e m e n ts u b s t a n c e d s tf ( s u b s t a n c e 0 ) d e l e m e n ts u b s t o n c e ( # p c d a t a ) 1 4 丌l j s ts u b s t e r l c e d i c t r e fc d a t a ,r e o u l r e o r o l ec d a t a 掌r e o u i r e d i e l e m e n tr e o d i o n u s t ( ( r e a c t i o n + ) ) ) f e l e m e n tr e a c t i o n ( ( 憎a d e n 吐j s lp r o d u c t l i s l c o n d i 岵o n l j 或s u b 曲骱c e | l i s t ? , 恤t t l i s tr e a c t i o n i dn m 丁o k e n 螅e o u | r e d i n o r g a n i cc d a r a 扦d ( e d 。1 。 r e a c h o n ba | a n c en m t o k e nt r e o u l r e d r e e u c t j o n f o r m u l e c o a t a r e o u l f e d r e a c t i o n t v p e lc d a t a ,r e o uj r e o r e a c t i o n t y p e zn m k e nt f i e q u i r e d i e l e m e n tr e a c t m t l i s t ( ( r e e c t e m t + ) ) | a t t l i s tt e a d a n u j s l c o u mn 4 f o k e n r e o u i r e d d e l e m e n tr e a d i 帆“m 0 i e 叫l e 渺 沁t t l i s tr e a c t a n t c o e f f i c i e n tc d 4 r a t r e o u r e d s t a t e ( s o l u t i o ns o l i dl i q u i dg a s ) 揖e o u i r e d i e l e m e n tp r o d u c l l i s t 妇r o d u c t + ) ) l t 1 1l s tp r o d u c t t i s t c o u n tn m 丁o k e n ,r e o u l 只印 d e l e m e n tp r o d u c t ( ( m o l e c u l e ) ) i a t t l j s tp r o d u c t c o e f f = o e n tn m t o j ( e n 抖正0 u i r e d ;t 如( s o l u b o nls o l i d8 0 iil i q u i dig a sis o l i d ) f p , e o u i p , f _ d ! e lf m e n t m o l e c u l e ( ( 咖a m 搿巾o n d a r r a yi o n y r ? ) ? ) 咖 “t t l i s tm o l e c u l e i dn m t 0 l t e n 刺m p u e d 伦fc d a r a 捌m p u e d f e l e m e n ti o n , r e yo o n + ) ) ! e l e m e n ti o ne m f t t y ) 1 4 t 1 1i s ti o n c o u n tn m t 0 正nt r e o u 旧d f o m a d c h a r g ec o a t & r e o u i r e d i dn m t o k e nt r e o u l r e d i o n t y p ec d a r a ,r e o u i r e d 旧- e m e n tc o n d i t i o n u s t ( ( c o n d i t i o n 叻 ! e l e m e 十r tc o n d i t i o n ( # p c d a t a ) , 1 4 r 1 1l s tc o n d n , o n e l e c t n f y ( 10 ) 带r e o u j r e d h e 丘f f l0 ) r o u i r e d i j l u m l n a t e ( 10 ) 幸r e o u i r e d i i q h t u p ( 10 ) # r e q u i r e d t e m p e r a t u r e ( h l g h5 0 0d ) # r e o u i r e d i e l e m e n tc a s d o c u m e n t ( ( 馆耐o n l j 嘞 ! a 1 _ t 1l s tc 邑s d o c u m e n t d o c t y p ec d a t a # f i x e d “k n o w l e d g e b a s e 。 d o c v e r s i o nc d a t a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论