(计算机应用技术专业论文)半结构化数据管理的动态建模技术研究与应用.pdf_第1页
(计算机应用技术专业论文)半结构化数据管理的动态建模技术研究与应用.pdf_第2页
(计算机应用技术专业论文)半结构化数据管理的动态建模技术研究与应用.pdf_第3页
(计算机应用技术专业论文)半结构化数据管理的动态建模技术研究与应用.pdf_第4页
(计算机应用技术专业论文)半结构化数据管理的动态建模技术研究与应用.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一 l j j 目录 目录 中文摘要1 英文摘要i i i 1 弓l 言1 1 1 问题的提出l 1 2 研究的目的与意义1 1 3 国内外研究动态2 1 3 1 数据概念模型的发展状况2 1 3 2 数据存储方法的发展状况3 1 3 3 数据管理方法的发展状况3 1 4 主要研究内容4 2 概念模型6 2 1 半结构化数据的描述6 2 2 对象交换模型7 2 3 建模过程8 3 数据的存储与查询1 0 3 1 存储模型1 0 3 1 1 模式的特点1 1 3 1 2 模式的相关概念l l 3 1 3 模式抽取。1 3 3 1 4 存储模型的生成1 3 3 2 数据存储与查询1 7 3 2 1 数据存储1 8 3 2 2 数据查询2 1 4 增量更新维护2 3 4 1 维护思想2 3 4 2 树结构的生成2 3 4 3 视图的增量维护2 5 4 3 1 插入操作的维护。2 5 4 3 2 删除操作的维护。2 6 4 3 3 值修改操作的维护。2 7 4 4 优点与不足2 8 5 应用实例3 0 5 1 开发目标3 0 5 2 设计原则3 1 5 3 框架设计31 p,i-p 东北农业大学工学硕上学位论文 5 4 功能模块设计3 2 5 5 流程定制的实现3 4 5 6 审批处理的实现3 6 6 结论3 9 致谢4 0 参考文献。4 l 攻读硕士学位期间发表的学术论文4 5 c o n t e n t s c o n t e n t s c h i n e s ea b s t r a c t i e n g l i s ha b s t r a c t i l l 1i n t r o d u c t i o n 1 1 1p r o p o s e dp r o b l e m l 1 2p u r p o s ea n ds i g n i f i c a n c e l 1 3r e s e a r c hs t a t u sa th o m ea n da b r o a d 2 1 3 1d e v e l o p m e n t so f d e s r i p t i o nm o d e l 2 1 3 2d e v e l o p m e n t so fs t o r a g em e t h o d 3 1 3 3d e v e l o p m e n t so f m a n a g e m e n tm e t h o d 3 1 4m a i nc o n t e n t s 。4 2c o n c e p t u a lm o d e l 6 2 1d e s c r i p t i o no f s e m i s t r u c t u r e dd a t a 6 2 2o b j e c te x c h a n g em o d e l 7 2 3m o d e lp r o c e s s 8 3d a t as t o r a g ea n dq u e r y 1 0 3 1s t o r a g em o d e l 1 0 3 1 1m o d ec h a m c t e r i s t i c 1 l 3 1 2m o d e c o n c e p t 1 l 3 1 3m o d ea b s t r a c t i o n 1 3 3 1 4s t o r a g em o d e lg e n e r a t i o n 1 3 3 2d a t as t o r a g ea n dq u e r y 1 7 3 2 1d a t as t o r a g e 1 8 3 2 2d a t aq u e d r 。2 1 4i n c r e m e n t a iu p d a t em a i n t e n a n c e 2 3 4 1m a i n t e n a n c ei d e a 2 3 4 :! t r t :eg e n e r a t i o n 2 3 4 3v i e wi n c r e m e n t a lm a i n t e n a n c e 2 5 4 3 1i n s e r tm a i n t e n a n c e 2 5 4 3 2d e l e t em a i n t e n a n c e 2 6 4 3 3m o d i f ym a i n t e n a n c e 2 7 4 4a d v a n t a g e sa n dd i s a d v a n t a g e s 2 8 5e x a m p l e so f a p p l i c a t i o n 3 0 5 1d e v e l o p m e mo b j e c t i v e s 3 0 5 2d e s i g np r i n c i p l e 3 1 5 3f r a m e w o r kd e s i g n 3l 5 4f u n c t i o nm o d u l ed e s i g n 3 2 东北农业大学工学硕上学位论文 5 5f l o wc u s t o m i z a t i o ni m p l e m e n t 3 4 5 6a p p r o v i n gt r e a t m e n ti m p l e m e n t 3 6 6c o n c l u s i o n 3 9 a c k n o w l e d g e m e n t s 4 0 r e f e r e n c e s 4 1 p u b l i s h e dp a p e rd u r i n gt h em a s t e rd e g r e e z 1 5 研究生学位论文独创声明和使用授权书 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 逵;地邀查墓丝壶蔓挂型虚塑笪! 奎拦亘窒2 或其他教育机构的学位或证 书使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示谢意。 躲强球 嘞矗小年否月矿日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,学校有权保 留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以 采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解 密后适用本授权书) 学位论文作者躲谚佛 签名:啊涉 日期:a o d 年多月9 日 日期:友o o 年石月铲日 摘要 摘要 由于半结构化数据缺乏类型信息、结构隐含或不规则,因此半结构化数据的存储与管理 是一个十分重要的研究课题。为此,本文提出一种半结构化数据管理的动态建模技术,可针 对半结构化数据存储结构不规则的特点,解决其难存储与管理的问题,并最后以村镇土地审 批处理系统为实例说明此动态建模技术的有效性和可实用性。 首先,本研究利用对象交换模型( o e m ) 建立半结构化数据的概念模型,解决半结构化 数据描述不规则的问题。然后,深度优先遍历o e m 模型,找出所有最大简单路径表达式, 并利用分层结构思想和累加计数原则生成一个具有半结构化数据模式的动态树。由于此树形 结构不仅能体现半结构化数据的模式信息,方便抽取数据结构,还可针对半结构化数据类型 信息缺乏、描述结构不严格等特点,随时灵活地进行更新,从而克服数据存储的不确定性。 因此,本文决定将此树形结构作为半结构化数据的存储模型( 逻辑模型) 。最后,本研究进 一步提出一套映射规则,将生成的存储模型映射到关系数据库中,以实现半结构化数据在计 算机内部的物理存储。这样,日后对数据的查询就可转化为对关系表的查询,同时,也可应 用传统的关系查询优化思想和查询技术来选择具体的查询执行计划。另外,本研究还初步探 讨了半结构化数据的增量更新算法。该算法再次引入一种树状结构,以保存视图在数据库求 值过程中的信息。这样,当数据产生增量信息、数据库进行更新操作时,即可利用该树结构 记录的信息对视图进行维护,从而有效降低计算量和数据的通信量。 该动态建模技术打破传统管理半结构化数据的思想,从建立半结构化数据的概念模型到 生成存储模型,再到实现半结构化数据的物理存储,每个阶段都可有效克服半结构化数据结 构灵活多变的特点,对半结构化数据的管理工作有着现实的意义。 关键词半结构化数据;动态建模;对象交换模型;分层结构;累加计数原则;模式抽取 a b s t r a c t r e s e a r c ha n d a p p l i c a t i o no nd y n a m i c m o d e l i n gt e c h n o l o g yo f t h ese m i - - s t r u c t u r e d d a t am a n a g e m e n t a b s t r a c t a sar e s u l to ft h es e m i - s t r u c t u r e dd a t al a c kt y p ei n f o r m a t i o n , s ot h es t o r a g ea n dm a n a g e m e n to f t h ed a t aw o u l db ea ni m p o r t a n tr e a s e r c hi s s u e i no r d e rt os o l v et h ed i f f i c u l ti s s u eo ft h ed a t as t o r a g e a n dm a n a g e m e n t , ad y n a m i cm o d e l i n gt e c h n o l o g yo ft h es e m i - s t r u c t u r e dd a t ac o n s i d r i n gt h ef e a t u r e o ft h es t r u c t u r ei r r e g u l a rw a sp r o p o s e di nt h i sp a p e r a d d i t i o n a l l y ,t h et r e a t m e n ts y s t e mf o rl a n d a p p r o v i n gi nv i l l a g e - t o w nw a st a k e na sa ne x a m p l et oi l l u s t r a t et h ee f f e c t i v e n e s so ft h i sm o d e l i n g t e c h n i q u e f i r s t , t h i sp a p e rp r o p o s e dac o n c e p t u a lm o d e lo ft h es e m i s t r u c t u r e dd a t ab a s e do no b j e c t e x c h a n g em o d e l ( o e m ) w h i c hc o u l ds o l v et h ed e s c r i p t i v ep r o b l e mo ft h ed a t aw i t ht h ei r r e g u l a r s t r u c t u r ee f f e c t i v e l y t h e n ,f o u n da l lt h eb i g g e s ts i m p l ep a t he x p r e s s i o nb yc a r r y i n go u tt h eo e m d e p t h f i r s tt r a v e r s a la n dt h e n , a d d e dt h e mt ot h ed y n a m i ct r e ei nt u r nb ya d o p t i n gt h ei d e a so f h i e r a r c h i c a ls l r u c t u r ea n dt h ep r i n c i p l eo f c u m u i a t i v ec o u n t t h ed y n a m i ct r e ec o u l dn o to n l yb ea b l e t or e f l e c tt h em o d e li n f o r m a t i o n , t oa b s t r a c tt h ed a t as t r u c t u r e se a s i l y , b u ta l s ot ou p d a t e m o m e n t a r i l ya n df l e x i b l yc o n s i d e r i n gt h ef e a t u r eo ft h es e m i - s t r u c t u r e dd a t at h a tt h el a c ki nd a t a t y p ei n f o r m a t i o na n dt h er e l a xa sw e l l 嬲t h ec h a n g i n gi nd e s c r i p t i v es t r u c t u r e ,s oa st oo v e r c o m et h e s t o r a g eu n c e r t a i n t yo ft h ed a t a t h e r e f o r e ,t h i sp a p e rp r o p o s e dt h et r e e 勰t h es t o r a g em o d e lo ft h e s e m i s t r u c t u r e dd a t a ( 1 0 9 i c a lm o d e l ) f i n a l l y , t h es e m i - s t r u c t u r e dd a t as t o r a g ea n dq u e r yi nt h e r e l a t i o n a ld a t a b a s e sw o u l db ea c h i e v e da f t e rm a p p i n gt h ed y n a m i ct r e es t o r a g em o d e lt ot h e r e l a t i o n s h i pt a b l et h r o u g ha s e to fm a p p i n gr u l e sp m p o s e di nt h i ss t u d y i nt h i sw a y ,t h eq u e r yo nt h e d a t aw o u l db et r a n s f o r m e di n t ot h eq u e r yo nt h er e l a t i o n a lt a b l ei nt h ef u t u r e a tt h es a m et i m e ,t h e o p t i m i z a t i o ni d e a sa n dt h et e c h n o l o g yo ft h et r a d i t i o n a lr e l a t i o n a lq u e r yw o u l db ea p p l i e dt ot h e c h o i c eo fas p e c i f i cq u e r ye x e c u t i o np l a n i na d d i t i o n ,t h i ss t u d ya l s od i s c u s s e dt h ei n c r e m e n t a l u p d a t ea l g o r i t h m so ft h es e m i s t r u c t u r e dd a t at e n t a t i v e l y a n o t h e rt r e es t r u c t u r ew a si n t r o d u c e di n t h ea l g o r i t h m ,w h i c hc o u l dr e c o r dt h ei n f o r m a t i o nf o rt h ee v a l u a t i o no ft h ev i e wo nt h ed a t a b a s e w i t ht h eh e l po ft h i sr e c o r d e di n f o r m a t i o nc o u l dr e d u c et h ea m o u n to fc a l c u l a t i o na n dt h ed a t a c o m m u n i c a t i o n sv o l u m ee f f e c t i v e l yw h e nt h ed a t ag e n e r a t e dt h ei n c r e m e n t a li n f o r m a t i o na n dt h e d a t a b a s ew a su p d a t e d t h ed y n a m i cm o d e l i n gt e c h n o l o g yb r o k et h et r a d i t i o n a li d e ao ft h em a n a g e m e n to ft h e s e m i - s t r u c t u r e dd a t a , f r o mt h ec o n c e p t u a lm o d e lo ft h es e m i s t r u c t u r e dd a t at ot h es t o r a g em o d e l a n dt h e na c h i e v e ds t o r a g eo fs e m i s t r u c t u r e dd a t a , i tc o u l do v e r c o m et h ef l e x i b l ec h a r a c t e r i s t i c so f i i i 东北农业火学工学硕士学位论文 s t r u c t u r eo fs e m i s 仃u c n l r e de f f e c t i v e l ya te a c hs t a g e ,s oi th a sap r a c t i c a ls i g n i f i c a n c eo nt h e m a n a g e m e n to fs e m i s t r u c t u r e dd a t a k e yw o r d ss e m i - s t r u c t u r e dd a t a ;d y n a m i cm o d e l i n g ;o b j e c te x c h a n g em o d e l ;h i e r a r c h i c a ls 仃u c t u r e ; p r i n c i p l eo f c u m u l a t i v ec o u n t ;m o d ea b s t r a c t i o n i v c a n d i d a t e :z h a n gy u j i a s p e c i a l i t y :c o m p u t e ra p p l i c a t i o nt e c h l l o l o g ) r s u p e r v i s o r :s uz h o n g b i n 引言 1 引言 1 1 问题的提出 妥善解决好村镇土地问题直接关系到构建和谐农村以及稳定农村的改革发展。然而,近 两年来,随着农村经济条件的提高,农村经济发展和土地保护的矛盾却日益尖锐。多数农民 进行非法改建或扩建,有的在基本农田上取土挖建鱼塘,有的私自在宅基地上建房,造成了 宅基地产权不明、居民点多而无序、用地结构不合理等诸多问题,严重影响了村容整洁。积 极正确指导农户进行土地经营权流转,是加快提高农业产业化水平,实现农业现代化的客观 要求。但是由于上述存在的问题可能会导致在实际的土地流转过程中,产生一些不容忽视的 问题。“生产发展、生活富裕、乡风文明、村容整洁、管理民主”的要求是建设社会主义新 农村的目标。而要完成整洁村容这一目标,使村庄布局合理,构建适于人类生存与发展的人 居环境,最终使农村面貌呈现“新变化”就须搞好乡村建设规划,合理管理村镇土地。 为解决以上这些问题,就要求有一套完整的村镇土地审批管理系统能对目前不健全的土 地审批制度行使制约。但是由于流程数据结构多变性和灵活性的特点,使得开发出的大多数 村镇土地审批管理系统都存在着不灵活或实用性、可重用性较差等问题。 针对流程数据结构上存在多变性和灵活性的特点,发现其具有半结构性,即土地审批处 理过程中涉及的流程数据是一种半结构化数据。半结构化数据是指那些结构隐含或无规则、 不严谨的自我描述型数据,介于严格结构化数据( 如关系数据库和对象数据库中的数据) 和完 全无结构的数据( 如声音、图像文件) 之间( 胡茂,2 0 0 3 ;蒙德龙,2 0 0 6 ;聂培尧,2 0 0 3 ;王 静,2 0 0 1 ) 。就如上述的审批流程数据,事先根本无法确定其具体的结构,即在日后存储数 据时,可能会遇到某个数据由不确定数目的字段描述,甚至在某个字段中还会有不同类型值 的问题。综上,对于半结构化数据的有效存储与管理将成为解决问题的关键所在。 1 2 研究的目的与意义 半结构化数据结构不规则的特点,要求有一种方法可对其进行灵活、合理的存储与管理。 但是,利用现有的传统的关系或面向对象模型都很难做到这一点。为此,本研究的主要研究 目的就是针对半结构化数据结构隐含或无规则的特点,研发出一种半结构化数据管理的动态 建模技术,从而有效解决半结构化数据存储以及管理的问题。 而目前半结构化数据变得十分普遍。其主要来源一是通过数据库中异构数据进行集成时 产生的数据。因为异构信息源集成情形下,信息源上的互操作要存取的信息源范围很广,可 能会包括各类数据库、知识库、电子图书馆和文件系统等;二是网络上出现的各种电子文档, 常见的有h t m l 、x m l 和s g m l 文档:三是随着i n t e m e t 的飞速发展,许多大的w e b 站点 的信息和数据呈现半结构化的特点;四是在电子邮件、电子商务、文献检索和病历处理中, 也存在着大量结构和内容均不固定的数据( 邓春晖,2 0 0 2 ;潘沽珠,2 0 0 3 ;许学标,1 9 9 8 ) 。 那么,如何克服半结构化数据结构上的多变性和不确定性,有效地将其存储与管理数将是一 东北农业大学工学硕上学位论文 个热点研究课题。 由此可见,本研究提出的这种半结构化数据管理的动态建模技术不仅可以应用到村镇土 地审批处理系统中,从而开发出一款可灵活动态定制的系统,进而推进社会主义新农村的建 设,更重要的是对半结构化数据的管理工作有着现实的意义。 1 3 国内外研究动态 半结构化数据是一种缺乏严格、完整结构的数据。这类数据并非毫无结构,只是它们的 结构可能是隐含的、不规则的,甚至可能是需要不断修改的。要对具有这种性质的数据进行 存储和管理,首要问题就是对数据建立概念模型以解决其不规则的描述问题,在此基础上, 才能对其进行有效地存储和管理( 潘沽珠,2 0 0 3 ) 。下面,就从半结构化数据的概念模型、 存储方法以及管理方法三个方面扼要介绍一下国内外的研究现状和进展。 1 3 1 数据概念模型的发展状况 目前,国内外对半结构化数据主要有五种描述形式:基于图的描述形式、基于树的描述 形式、基于逻辑的描述形式、基于关系的描述形式以及基于对象的描述形式。而研究人员普 遍采用灵活的图或树形结构( 在半结构数据的相关讨论中,通常不加区分地统称为树) 来设计 半结构化数据的概念模型( 肖威,2 0 0 9 ) 。 基于图的描述形式一般对半结构化数据采用标记有向i 茎l ( 1 a b e l e dd i r e c t e dg r a p h ) 来表示。 此种描述形式,大部分都是将所有实体看做对象,每个对象又都用一个四元组 来表示。这四元组称为对象的描述子,不同的图描述形式,描述子的顺序 可能会稍有不同,但基本上都需要对这四方面进行描述。其中最有代表性的是o e m ( o b j e c t e x c h a n g em o d e l ) 模型,它在描述半结构化数据方面有着很多优势。 基于树的描述形式比基于图的描述形式简单。虽然它同样具有模式和数据采用同一数据 模型的优点,但不能直接利用树状数据模型表达图状数据。常见的基于树的描述形式有:标 记有序树( 1 a b e l e do r d e r e dt r e e ) 以及标记无序树( 1 a b e l e du n o r d e r e dt r e e ) 。 在已经提出的半结构化数据模式的描述形式中,基于逻辑的描述形式是比较重要的一类, 如描述逻辑( d e s c r i p t i o nl o g i c ) 、一阶逻辑( f i r s to r d e rl o g i c ) 以及d a t a l o g 等。它们非常类似,但 在表达能力等方面有所差别,其中比较典型的是基于d a t a l o g 的模式描述形式。d a t a l o g 是一 种数据库语言,也是一种基于逻辑的数据模型。采用d a t a l o g 规则来描述半结构化数据模式, 主要思想是通过指定应用的入边和出边来定义对象的类型。因此,可以说这种描述方法是: 对象+ 逻辑规则的描述方法。 除了上述这几类模型以外,还有其它的数据模型可用以描述半结构化数据。例如x m l 文档是一种常见的半结构化数据源,而文档对象模型d o m ( d o c u m e n to b j e c tm o d e l ) 就是其 数据模型之一,d o m 是一种结合树表示方法和对象表示方法的数据模型。 2 引言 1 3 2 数据存储方法的发展状况 目前,半结构化数据的存储方法主要有:文本文件存储方法、对象数据库方式存储方法以 及关系数据库存储方法( 吴永春,2 0 0 6 ) 。 1 文本文件存储方法 作为主要半结构化数据源之一的x m l 文档,本身就是以文本文件的形式存在的,利用文 本文件来存储x m l 数据是最简单和最直接的存储方法。这种存储方法很容易实现,无需使 用底层的数据库或对象存储管理。它与数据被理解的方式一致,自然地反映了对象之间的嵌 套和所属关系,然而,这种方法在日后查询处理方面存在明显的弱点。首先,该方法在每次 查询数据时都需重复地解析文档;其次,整个文档在查询处理过程中都要驻留内存,尽管可 以在内存中为文档建立索引,通过索引来定位查询所需的内容,但维护这种索引的代价仍十 分昂贵( 李新燕,2 0 0 7 ) 。 由此可见,文本文件方法虽然有着易管理、易存储等特点,但是存在查询、更新以及维 护困难,灵活性不高的问题。 2 对象数据库存储方法 该方法以对象数据库作为底层存储。在面向对象数据模型中,所有现实世界中的实体和 概念都将模拟为对象,因此利用面向对象数据库存储半结构化数据时,数据将被描述成一个 对象存入数据库。借鉴杨骏( 2 0 0 7 ) 的文献,他提出对象类、关系类以及属性类,并将半结 构化数据按照一定的规则映射成为对象数据库中的一系列对象。其中,半结构化数据的元素 和屙i 生被映射成对象类或属性类,元素和属性的关系被映射为关系类。 对象数据库存储方法支持复杂数据类型,可以较为直观地建立半结构化数据的对象模式, 从而利用对象查询语言( o q l ) 实现对数据的结构化查询,具有较高的存储与查询效率。但是, 它却存在半结构化数据分解比较困难的问题。 3 关系数据库存储方法 该方法将半结构化数据转化为结构化数据,并存储在二维表中,从而利用关系数据库实 现对半结构化数据的存储管理。由于从半结构化数据映射到关系数据表比较容易实现,目前 大多数存储策略都是基于关系数据库的,少数是面向对象数据库的。加之,应用关系数据库 技术的优点能够让系统充分利用关系数据库管理系统本身的许多性能。比如,数据的可靠性、 并发控制、数据恢复以及强大的安全机制等。 然而,半结构化数据的模式与数据混淆在一起并且不断变化,这与结构化数据有着很大 的不同。这种半结构化数据和r d b 数据模式的互异性,使得该存储方法,会受到d b m s 的 数据模型的影响,不能简单地将半结构化数据存储与关系数据表中。因而,为实现在半结构 化数据和关系数据库之间交换数据,就必须提供一个映射层,将半结构化数据模式很好的映 射成关系数据库模式。 1 3 3 数据管理方法的发展状况 在数据概念模型的基础上,国内外研究人员又提出了若干种基于半结构化数据的查询语 l 一 东北农业大学工学硕士学位论文 言,如u n q l 和l o r e l 。这些查询语言都主要以正规路径表达式为基础,以强制和路径表 达为基本特征,能够递归地搜索任意深度的数据路径( 万谦,2 0 0 2 ) 。因此,半结构化数据 的查询本质上是对有向图的搜索。它具有以下特点:由于数据和模式信息统一存放( 自描述 性) ,因此很难进行与关系数据库查询处理类似的处理和优化方法;由于数据结构不规则或 不完整,需有支持内容的通配和类型自动转换;有向图中可能存在回路,因此在处理通配路 径时,应避免查询进入无限循环。 目前,国内外管理半结构化数据的方法主要可以分为两类。第一类方法根据预先定义的 数据模式( 或x m l 文件的d t d ) 将半结构化数据( 或x m l 数据) 转化为关系或面向对象数据, 再利用传统的数据库技术对数据进行处理。采用此种方法,数据处理的效率在很大程度上取 决于数据模式的指定。如果预定义的模式过于严格,就会限制半结构化数据可能的变化;而 如果数据模式对数据的限制过于宽松,又对提高数据处理效率的作用不大。到目前为止,对 半结构化数据模式的定义及其与数据处理效率的关系还没有具体的规范和结果。 另外,一些研究人员提出了从实际的数据出发描述和利用数据结构的方法,典型的如 d a t ag u i d e s 。但数据指南随着数据的动态变化进行更新比较困难,而且数据指南的规模在理 论上有可能会达到原始数据节点数目的指数级( 冯建华,2 0 0 2 ) 。 1 4 主要研究内容 本课题提出一种半结构化数据管理的动态建模技术,以解决半结构化数据描述不规则, 存储难以及管理难等问题。本文所做的具体研究内容主要包括: 1 建立概念模型 本研究在借鉴了国内外的相关主流技术基础上,提出在概念上用对象交换模型( o e m ) 作为半结构化数据的概念模型,以利用o e m 模型的诸多优势,解决半结构化数据动态定义 和描述不规则的问题。 2 存储数据 首先,存储模型的生成。基于半结构化数据的结构可由其模式信息描述的思想,并利用 分层结构思想和累加计数原则,将生成的概念模型转化成具有半结构化数据模式信息的动态 树结构的存储模型,以便在逻辑上实现对数据的存储。 然后,物理存储的实现。由于利用关系数据库存储半结构化数据可重用数据库的查询优 化器和事务处理机制,以保证半结构化数据的一致性和完整性。因此,本研究提出一套映射 规则,将生成的动态树存储模型映射到关系表中,从而实现半结构化数据在关系数据库中的 存储。 3 增量更新与维护 为了方便日后半结构化数据的更新,使数据库和查询视图状态保持一致,本研究再次引 入一个树形结构,来记录数据产生的增量信息,以便日后根据这些信息决定是否需要对视图 进行相应修改。这部分只是初步的试探性研究,为日后系统的维护工作打下基础。 4 应用实例 将本研究提出的半结构化数据管理的动态建模技术应用到“村镇土地审批处理系统”的 4 5 东北农业大学工学硕士学位论文 2 概念模型 通过上一章介绍可知,半结构化数据是缺乏严格、完整结构的数据。这类数据并非毫无 结构,只是它们的结构可能是隐含的、不完整的,甚至可能是需要不断修改的。要对这样的 数据进行查询等处理,首要问题就要解决半结构化数据在概念上的描述问题。由于没有强制 性模式限制,使半结构化数据具有很大的灵活性,给数据概念模型的建立和处理带来了很大 困难。 在众多的半结构化数据概念模型中,对象交换模型( o e m ) 是一种最具代表性的概念模 型。它在处理半结构化数据方面,比关系或者面向对象模型具有一定的优势。为此,本研究 提出将其作为半结构化数据的概念模型,以有效解决数据结构异构的描述问题。在详细介绍 半结构化数据概念模型的建模过程之前,先来介绍一下半结构化数据的描述方式。 2 1 半结构化数据的描述 由于半结构化数据结构的不规则性,对它的描述也变得相当的简单灵活,可以只用几个 “标签值”对的组合进行描述。下面的3 个“标签值”对描述了一个名叫“j o h ns m i t h ”, 年纪为3 0 ,电话号码为1 2 3 4 5 6 7 8 9 0 的人: n a m e :j o h ns m i t i l ,a g e :3 0 ,t e l e p h o n e :1 2 3 4 5 6 7 8 9 0 但是对于上面的同一个人,还可以有以下的描述方式: n a r n e : f i r s t :j o h n , l a s t :s m i t h ) ,a g e :3 0 ,t e l e p h o n e :1 2 3 4 5 6 7 8 9 0 n a m e :j o h ns m i t h , a g e :3 0 ,t e l e p h o n e :1 2 3 4 5 6 7 8 9 0 ,t e l e p h o n e :0 1 2 3 4 5 6 7 8 9 ) 通过后两种描述方式,可以发现“值”本身有着各自的结构以及“标签”也并不一定是 唯一的,例如上面r l a m e 的值就有两种不同结构形式,而t e l e p h o n e 也可以根据实际情况自行 进行添加和删减。 当然,针对上面的描述对象还可以有很多种不同的描述方式。这里虽然只列举了三种, 不过也足以表明半结构化数据描述的不确定性和灵活多变性。因此,这种“标签值”的文 本描述方式在描述半结构化数据时显得过于繁琐,特别当数据发生变化时,改动量会随之交 得更大,即这种文本描述方式不能很好的适应数据的灵活多变性。 然而,上述这种描述方式可以很容易转化成一个由节点和标签边组成的图。其中,节点 表示对象,带有标签的边连接着每个对象和它对应的值,该值可以是一个具体的值,也可以 是另一个对象。图2 1 就为第二种描述方式的图形表达。 o e m 模型作为最具代表性的图形描述模型,就是在此种图形描述形式的基础上做了进一 步的改进。下面详细介绍一下o e m 模型的相关内容以及如何利用o e m 模型进行概念上的建 模。 6 概念模型 5 6 7 8 9 0 j o h ns m i t h 图2 一l 半结构化数据的简单图形描述样例 f i g 2 - 1s i m p l eg r a p h i cd e s c r i p t i v es a m p l eo f s e m i - s t r u c t u r e dd a t a 2 2 对象交换模型 o e m 模型最早由斯坦福大学( s t a n d f o r du n i

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论