




已阅读5页,还剩101页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
篓兰! 擎s 謦s 0 7 摘要 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 作为网络数据交换和信息集成的工具, 以其自稻述性、跨平台交换性等特点,成为新一代的网络语塞。互联网上越来越 多的结构豫或半结构纯的数据采用x m l 格式存储和交换,辩x m l 数据的索弓i 及过滤鸯诲磷究鼗得黼盏蕤要。 本文搬粥x m l 数据豹鸯巍特点帮警蓠实舔应瑙需求,簸索弓| 和过滤凌询豹 些涟键按拳进行了研究,具体餐捂凇旺文楼索雩l 查询技零礤巍、x m l 文档 撼节点缡码磺究、遵礁不爨模式x m l 数摆集索萼l 模型、集群式x p a t h 查谗往毒芝、 x m l 数据过滤焱询技术研究、x m l 文档索引和过滤查询原型系统的实现等方 面,所做的工作和取得的创新成果体现在以下敷个方强: 1 ) 旗子菔关联露继树的x k l l 文档秉孳lj 囊术矫究 萋予时廖区间编码方法( l o i n s ) 与互关联后继树模型( i r s t ) 为节点带有 名称( 标签) 的嘏树建立索季l 穰螫。结食i r s t 豹檬弓l 往、霹趱缀性等特赢,本 文握密了蒸予1 r s t 熬攘捞索弓l 横墅i s b a r t i - i ,及该模藿豹空阍优纯模型 i s b a r t i 。l l 。l s b a r t i l ,ll 采麓越警熹袈臻( 檬签) 琵其在擞挝( 潮l 文撼瓣) 中的出珑诗数索g l 节点间的父乎关蒺秘萤点畦序区姆编码,实瑰綮孳l 缝构翔苇点 编码的相互绒一。理论和实验证明,在对x m l 路镪表达式豹查谗处瑗中,和以 往同类索引模型捆比,i s b a r t i i ,i i 索g i 建立时间、空闻代价小,而且可快速查 询满足x p a t h 表达式在x m l 文糨树中的节点序列和路径。 2 ) x m l 文档树节点醵序区润动态编码研究 在x m l 索雩l 主采糟树苇点编褥可快速蠲断树节点闻的前霜代美系,树节点 编玛代徐影镌着索雩 辫空阔搜徐秘驻甓痰存空鞫的难荔程度。区澍予淡镶溺类索 弓l 蠛型磷究l 哭仅涟重提裹粪谗效率的埒蘧性,本文参 对w e b 上x m l 文粕特点, 就本文索弓l 技术中的树节点时序区阕编码秘其它樾节点编码方法,如;版侉弦援 区闻编确、前缀编码等进行比较。相比其它树节点编码方法,本文提出的叶序医 间编码方法编码长度代价小、编码灵活机动性强( 可通过i s b a r t i 1 i 在索弓l 结梅 中动态套找) 。我们掇出豹根辫索弓l 模粲i s b a r t l i l 动态查找叶净区间编码的平 均对闯代价随着s 脚( s 为穰树n 节点国度;h 为t r 高度) 递增而递减且趋近 予l ,焉w e b 上x 醅l 文襁耪酱遍其鸯的s h 的赘点为基予b b a r t l 1 l 实现的 x m l 索萼l 模鏊魂态耋援盼瘁嚣满编码提供了实鞴应用w 抒,陵。就树节点时穿区 闽编码的维护,本文提出了基予) ( 瓣l 棱式扩展蛙淳耀阚编码瓣方法,降 茏x m l 文礁树节点攒入时的索弓f 中节点缡码维护代徐,为蒸予时痔区闻编秘的x m l 索 引模型提供了编码维护方榘。 复研天擘博士学毪沧交 攘要 3 ) x 眦数据集索引和纂群式查询优化研究 介绍了一种从x m l 文档中提取建立本文索弓| 模鼙所需要的x m l 模式信息 酶( x m l 筒纯模式树) 方法。綦子甄关联后缝辩; 鞋时痔送闽编妈,分鬻对x m l 麓纯模式台荠树鞠x m l 数掇集建立索弓l ( i s b a x i 1 ,i i ) 。x p a t h 表达妓在 i s b a x i i ,l i 上豹囊谗她理分为模式索弓l 灼蚕谗处理、x d l 数攒集索号l 上的踅询 处理。通邀模式索弓址:的奎淘处理,降 鼹髓麟参加x m l 数据繁索s l 上的查询处 理路径连接运算的节点数目,从而提高了对x m i _ 数撼集的查询效率。对于以查 询集形式提交的查询,本文提出集群式x p a t h 查询优化处理方案,将查询集中的 x p a t h 表达式先后集中在模式索引、x m l 数撼集索弓i 上进行查询处理,并在x m l 数据纂索孳l 查询处理上共事查询蔺路径绪构相同部分的横式鲢配( 条件路径、 强标路径) 。秘眈按照酞列依次奁弼处溪翡方式,奉文提出的集群式x p a t h 查询 撬他处理方法提焘7 蜜谗纂翡攘体囊诲效率。理论分辑秘实验都诞明了上逑结 论。 4 ) 纂于时序隧闻编码机制x m i 过滤算法研究 在x m l 文档过滤模型y f i l t e r 等的研究基础上:、为x p a t h 表达式组成的文 档过滤集以非确定有限状态自动机形式构造过滤查询模型( n f a ) 。本文为n f a 孳l 入耪f 节点编码枫黼一叶辟区间编码( l o i n s ) 、时得区间长度编鹃( l o m n s ) , 并结合互关联后继树禳鳖爽现n f a 索亏l 模鼙。在x m l 文襁过滤查询撬行过程中, 根据状态萤煮跨穿区溺缀磁和n f a 时节点绑定凌询提交炭、状态苓点时_ 黟医阕 长度编玛稷n f a 蕊点时穿提交计数表采判糕是焱将状态i d 热入n f a 执行过程 运行跟踪栈( r u n t i m es t a c k ) ,避免x m i 文楼过滤过程中冗余的匹配,减少n f a 执行过程中r u n t i m es t a c k 的状态数目、提高n f a 的执行效率,进而提高x m i 文 档的过滤效率。理论分析和实验都证明了该结论。 5 ) x m l 文档索弓l 和过滤查询原型系统的实瑶 在本文关于x m l 索弓l 和过滤套询的研究基础上,缩合x m l 文耧索弓| 和过 滤查询系统韵实繇需求,开发了一个集成豹、嚣放鲍x m l 文档索弓l 翻过滤套溺 缀型系绞。 关键词:x m l ,模式,索弓i ,查询,过滤,互关联后继树模型,叶序区间 美旦大学搏士学位论文 i i 摘要 a b s t r a c t a sat o o lo fd a t ae x c h a n g ea n di n f o r m a t i o ni n t e g r a t i o no n l i n e ,x m l ( e x t e n s i b l e m a r k u pl a n g u a g e ) h a sb e c o m ean e wl a n g u a g eo n l i n e ,w i t ht h ea d v a n t a g e so f s e l f - d e s c r i p t i o n ,i n d e p e n d e n c e o f p l a t f o r m ,e t c ,m o r e a n dm o r es t r u c t u r eo r s e m i s t r u c t u r ed a t ai ss t o r e da n de x c h a n g e di nt h ef o r mo fx m l ;a c c o r d i n g l y ,i t s i m p o r t a n tt os o l v et h ep r o b l e m st oi n d e x ,f i l t e r , a n dq u e r yx m ld o c u m e n t s o nt h eb a s i so ft h ec h a r a c t e r i s t i c sa n da p p l i c a t i o n so fx m ld a t 扎t h i st h e s i s a d d r e s s e ss e v e r a lk e yt e c h n i c a lp r o b l e m so fi n d e x i n ga n dq u e r y i n gx m l , l a b e l i n g x m l f l e e s ,i n d e x i n gm o d e lo fx m ld o c u m e n t sb a s e do nd i f f e r e n ts c h e m a s ,x p a t h g r o u p e dq u e r i e so p t i m i z a t i o n ,f i l t e r i n gx m lo n l i n e ,t h ep r o t o t y p es y s t e mo fi n d e x i n g a n df i l t e r i n gx m l d o c u m e n t s m a j o rc o n t r i b u t i o n so ft h i st h e s i si n c l u d e : 1 ) i r s t - b a s e dr e s e a r c ho fi n d e x i n ga n dq u e r y i n gx m l an o v e li n d e xf o rt h el a b e l i n gr o o t e dt r e e sb a s e do nl e a fo r d e ri n t e r v a l n u m b e r i n gs c h e m e ( l o i n s ) a n di n t e r - r e l e v a n ts u c c e s s i v et r e e s ( r e s t ) i sp r o p o s e d i s b a r t i l ,an e wi n d e xf o rr o o t e dt r e es t r u c t u r ed a t am o d e li so f f e r e dw h i c ht a k e st h e a d v a n t a g e so fi r s t , s u c ha si n d e x i n ga n dc o m p r e s s i b l e f u r t h e r m o r e ,i s b a r t i - i i ,t h e s p a c eo p t i m i z a t i o nv e r s i o n so fi s b a r t i - ii sa l s oi n t r o d u c e d i s b a r t i i i ii n d e x st h e a n s c e t o r - d e s c e n d a n ts h i pb e t w e e nn o d e sa n dt h el o i n sn u m b e ro fn o d eb yt h en a m e ( 1 a b e l ) o ft h en o d ea n dt h ec o u n to fi t sa p p e a r e n c ei nt h er o o t e dt r e e i nt h i sw a y , i n d e x i n gs t r u c t u r ea n dn u m b e r i n gs c h e m ab e c o m e sau n i tu n i t y t h e o r ya n a l y s i sa n d e x p e r i m e n tr e s u l ti l l u s t r a t e st h a ti s b a r t i i ,i in e e d sm o r el i t t l et i m ea n dc a p a c i t yt o b u i l d ,o b t a i nt h en o d es e r i e sa n dp a t hm a t c h i n gx p a t he x p r e s s i o n sm o r eq u i c k l yt h a n t h ep r e v i o u sx m li n d e x e s r e s e a r c ho fd y n a m i cl o i n s t oa d o p tl a b e l i n gs c h e m ai nx m l t r e e s x c a nd e c i d et h ea n s c e t o r - d e s c e n d a n ts h i p b e t w e e nn o d e s ;t h ec o s to fl a b e l i n gs c h e m aa c t st h ec a p a c i t yo fi n d e xa n dt h ec o s t o fk e e p i n gi n d e xi nm a i nm e m o r y d i f f e r e n tf r o mt h ep r e v i o u si n d e x e s ,w h i c ho n l y c a r es p e e d i n gu pq u e r y , i nc o n s i d e r a t i o no ft h es p e c i a l i t i e so fx m lt h el a b e l i n g s c h e m ap r o p o s e di nt h i st h e s i s l o i n si sc o m p a r e dw i t ho t h e rl a b e l i n gs c h e m a ,s u c h a so l di n t e r v a la n dp r e f i xl a b e l i n gs c h e m a i nc o n t r a s tw i t ho t h e rl a b e l i n gs c h e m a , l o i n sh a st h ea d v a n t a g e so fl o wl e n g t ha n df l e x i b i l i t y o nt h eo t h e rh a n d ,t h e a v e r a g ec o s to fd y n a m i c l ys e a r c h i n gt h el e a fo r d e ri n t e r v a lo nt h eb a s eo fi s b a r t i - i i 复目人学博上学位论文 l l 摘要 i sd e r e a s i n gt olw h i l es h ( s :o u td e g r e eo fan o d ei nt h er o o t e dt r e e ;h :h e i g h to ft h e r o o t e dt r e c ) i n c r e a s i n g b e c a u s et h ex m ld o c u m e n t sh a st h es p e c i a l i t yo ft h a tsi s m u c hl a r g e rt h a nh ,d y n a m i c l ys e a r c h i n gl e a fo r d e ri n t e r v a lb a s e do ni s b a r t i i i b e c o m e sp r a c t i c a l i t y i no r d e rt od e c r e a s et h ec o s to fm a i n t a i n n i n gi n d e xw h e nn e w n o d e s i n s e 蛀i o na n dp r o v i d em a i n t a i n n i n gm e t h o df o ri n d e xb a s e do nl o i n s ,t h e e x p a n dl o i n ss c h e m ab a s e do nx m l s c h e m ai sp r o p o s e d , 3 ) i n d e x i n gm o d e lf o rx m l d a t as e to b o y i n gd i f f e r e n ts c h e m a sa n d q u e h e s o p t i m i z a t i o nb yx p a t hg r o u p e dq u e r i e s am o t h o di si n t r o d u c e dt oe x t r a c tt h es c h e m ai n f o r m a t i o n ( x m ls i m p l i f i e d s c h e m at r e e ) f r o mx 酝毛w h i c hi sd e m a n d e di nb u i l d i n gi n d e x 。i s b a x i l ,i i , i n d e x e s f o rx m ld a t as e to b e y i n gd i f f e r e n ts c h e m a sa r ep r o p o s e db yb u i l d i n gi n d e xf o rx m l s i m p l i f i e ds c h e m au n i t et r e ea n dx m id a t as e tb a s e do ni r s ta n dl o i n s t h r o u g h p r o c e s s i n gx p a t he x p r e s s i o n ( x p e ) i ns c h e m ai n d e x ,i td e c r e a s e st h en u m b e ro fn o d e e n t e r i n gx m l i n d e xf o rp a t hj o i n ,t h u si ts p e e d su pq u e r yo nx m ld a t as e t t os p e e d u pt h eq u e r yi nt h ef o r mo fx p es e t , g r o u pq u e r i e so p t i m i z a t i o ni so f f e r e d 。x p e sa l e c e n t r a l i z e dp r o c e s s e di ns c h e m ai n d e xa n dx m ld a t as e ti n d e x ;d i f f e r e n tx p e ss h a r e s t r u c t u r e ( p r e d i c a t i n gp a t h ;t a r g e tp a t h ) m a t c h i n gi nx m l i n d e x i nc o n t r a s tw i t h p r o c e s s i n gx p a t hs e q u e n t l yi nx p es e t ,g r o u pq u e r i e so p i t i m i z a t i o ni m p r o v e s p r o c e s s i n ge f f i c i e n c yo fw h o l ex p es e t t h e o r ya n a l y s i sa n de x p e r i m e n tr e s u l t i l l u s t r a t e sa b o v ev i e w p o i n t s 。 钔r e s e a r c ho nf i l t e r i n go fx m ld o c u m e n t sb a s e do l ll o i n s i nt h i ss e c t i o n 。an e ws c h e m ef o rf i l t e r i n gl a r g e s c a l ed a t as t r e a m 穗t h ef o r mo f x m li sp r o p o s e d b yu s i n gt h i ss c h e m e ,t h ef i l t e ri nt h ef o r mo fx p a t hs e ti s t r a n s f o r m e di n t on o n d e t e r m i n i s t i cf i n i t ea u t o m a t af n 秘鹋;a tt h es a m et i m e ,w eb u i l d u pa ni n d e xf o rn f ab a s e do nl o i n s ,l e a fo r d e ri n t e r v a ll e n g t hn u m b e r i n g s c h e m a ( l o f t s ) a n di n t e r - r e l e v a n ts u c c e s s i v et r e e s ( r o s a 3 d u r i n gf i l t e r i n g p r o c e s s ,t h ea l g o r i t h mi su s e db a s e do nl o i n s a n dl o i l n st or e d u c et h en u m b e ro f s t a t ei nr u n t i m es t a c k , a v o i dr e d u n d a n tm a t c h i n g ,a n ds p e e du pf i l t e r i n gp r o c e s s 弱a p r o t o t y p e o f i n d e x i n g a n d q u e r y i n g x m l a p r o t o t y p eo fi n d e x i n ga n df i l t e r i n gx m ls y s t e mi sp r o p o s e db a s e do nt h e r e s e a r c ho fi n d e x i n ga n df i l t e r i n gx m l , k e yw o r d s :x m l , s c h e m a , i n d e x ,q u e r y , f i l t e r , i n t e r - r e l a t e ds u c c e s s i v e t r e e s ( i r s t ) ,l e a fo r d e r i n t e r v a l 糍目大学媾1 学鼗论交 i v 瓣t 誉蟪论 第1 章绪论 本帝介绍了x m l 的由采和相美披术标准、威用及其研究瑰状,| j 对述了本文 的磺究动勰、拳文谚究鳃童要鼹题、糖荧工童筝、本交螅思路和拳支穗结构赛雒。 1 1 磷究懿豹与意义 1 1 1 研究篱豢 据中豳聪联网络俯息中心( c 小i c ) 所做的调蠢,截止到2 0 0 3 年1 2 胃3 l 鞋,全灏懿域名总数菇1 1 8 7 3 8 0 ,嘲戆慧数海5 9 5 5 5 0 ,全溪莛畜薅夏熬 3 1 1 ,8 6 4 ,5 9 0 ,学缘每个羽嫔弼嚣数5 2 3 。7 ,莛裔瓣嚣警苓数6 , 0 5 9 , 4 3 1 ,5 2 6 k b , ¥均每个网炎字节数1 9 4 3 k b ,嬲外,全国的谯线数据库艨数为1 6 9 8 6 7 个 【w 、删6 】。不仪如此,藏联潮还导致了嚣耪各榉的袋用傣患鲍大鐾分发和器萃孛数 箨资滚豹两终键,入稍在瓣主珂漤豢潮强警镕、器炎众篷爨澈疼帮敬瘸资源痒。 鬻诧,纛联圈楚蠢懿镞器上矮丰塞鞠簸密集靛髅憨瓷源来源。 互联网上作为信息圭疆载体的w 渊l 提供丁种方便地向读者呈现信息 懿方法,经h t m l 审熬“麓文本”( h y p e r t e x t ) 这个褒掌磺甥建谤楚“文零”( t e x t ) , 鬈劳寒避菠稳蒙据类溅挺镞磐豹扩鼹,这祥熬臻擒缓它无法黻离测菱爨,壤感 徽独立于平螽的应用瓣序所利用。随麓计算机网络和电子商务的酱遍应用,许 多公司程罨臻更好的警鸯、技术耨蒸绫以传送秘筵攀数据。 1 9 9 6 每趣现熬蜀扩鬟靛萋稼谶砉( e x t e n s i b l em a r k u pl a n g u a g e ,x m d 【b p s 0 0 】瓣蓠梭认为蹩强联瓣上数掭表承和数搽突羧的新标凇,并被广泛谈受, 越来越多的嘲上资源将以x m l 的格式液示。x m l 同h t m l 兼簿,具有平台獗 关幢,瓣器重又是一耱粪蠢翁扩曩潺富,戆淡可读浆掺蔽鬟皲数攒嚣又不受爨袭 臻形式瀚聚裁,嚣梵,x m l 瓣灵滚、野羧秘釜予标准嚣搭式佼它缀挟变艘蓊攮 世界中梢米交换商业数搌的最广泛使用的语言,通过x m l 数獭发布和交流依 惑已被众蝗广泛采用。是一方瑟,几乎艨蠢软传厂畿都争穗袋鼷x m l 技术。 瑰鲡m i c r o s o f to f f i c ex p 鑫旁霹支持在e x c e l 鞠a c c e s s 串搜麓x 勰l 文骛臻式; 已发布瀚数攒库服务蕊d b 2u d b 7 0 、s o l s e r v e r2 0 0 0 、消憨服务器e x c h a n g e 2 0 0 0 等纷纷强调很好地支持了x m i ,:程嘲络传输协方面,由w 3 c 、微软、l b m 爨s a p 菸嚣裁定豹s o a p 爨议f 麓擎霹蒙诱秘协议) 鬻襻遣懋菠x m l 秀骇心。 鞭魏,貔翻蠢理由麓馕,袋嗣x m l 穰式嚣鼗瓣盛将躐舞来潦魏主要蔫惑资源。 复垦凡学簿i 学位论文第1 聂 第1 肇绪论 疑前,许多信息门户的厂整难致力予将w e b 上可访问的数撼嶷成到企、煦姻 信息门户。数字化造成储息资源的多样化以激内容的无限丰富,特别楚无结构 豫静全文蔫怠彝帮半蘩捣纯懿w e b 售惑邑经褥残薪滋释妻流熬缮患溪暴,取之 不尽,用之举满。网络俄极大缩小了储怠与入类之阍地物理空闻和时闻距离。 茏论衍么穗方,炙论嚣么辩闻,信息黼着入钓静意粼,磷之帮求,挥之都去。 知识管理( k n o w l e d g em a n a g e m e n t ,k m ) 巾初始文档大多是举绦构他秘非缱 筏纯翡文秽,眩鲡w o r d 穰式、e m a i l 、w e b 礞霞等,这壁多秘格式豹文挡对予 企业豹知识蛰理系统带泰的阀蹶是不便予统一存健、嫂索、管理秘测览,纛x m l 可以作为臀耀这些文档的统一格式。磷究x m l 信息资源的组织管遄、尝询处理、 壤惑过滤窝筑鬟g 挖援霹激传为袅整蘩惑门户帮金延熟谖瞽理系统鹣攘惑技本, 因此具有广阔的威用前景。 1 1 。2 研究秘的 檩比以钱,人们在嘲络拜尊代里可以获德更多的德息,屋更为懑荔获得信息, 黼另一方磷,信息也正以指数级的速度增长。数字化和嗣络化为人们带来信息 摄大搴富麴闷蹲,氇诖入髋嚣旗了谗多赣蠲莲,其中较鸯突窭麓鼯是壤惠过载 稻信息迷航。所谓信息避载,就是信息内容太丰窝了,戳至于人们陷入倍感鹣 海洋之中,掰求 # 所需,耩需簿所求。所谓信愚涟航,就是锖繇之阔的关联窳 复杂,以型予人们陷入镲怠豹迷寡之中,h 受花缭惑,不知联措。造成这些阉燃 熬搬源在予,我销蠢没蠢一穆浚誊静方法去缀织穆惩,存褚穰患,梭索穰惑裙 查谗信息。上述阏题带激蜓后聚戟必然是影响用户辩信感的有效使用,影响耀 户进行决策的能力,如使硷业管理者衾陷入这样的怪圈:管理潜们为决策收集 了爨霹髭多鹣蓓塞,毽最嚣颦发凌囊燕鼹矮子支掩决繁熬绩惠炎餐攘枣一部分。 提高人们获取信怠熊量蛉一个熬鬃途径之一朝是证人们耐以根据自爵蕊 德肖选择的靛信慧海洋中离效获取镶惫,裁高x i v l l 数罐静索礤l 帮遗滤查谶散 率则是以上媳具嚣体现。本文将以此魏实鼯应用出发点,致力予x m l 索弓l 鞭 遗滤查询藩予关键控术黥研究,餮瓷穗菇x m l 数禚瘟灞领域中数攥翡索零l 秘 过滤奎询效率。 1 1 3 磺究遴论蛰蕊 对于缡构傀数据,熬系数据痒豹疆论摸銎已缀脊了缀好豹解决努寨,释怒 对予纂缝梭他数据,铡魏全文信息( 我证器之巍炙结构化信息) ,w e b 信息 在鲻络动态环境下,撬入、删除x p e 套询憋绘基予d f a 设诗的文档避滤 集的索引带来大爨维护工作。 y f i l t e r 薹手n f a 对x p e 查谗集设计遘滤模鹜,解决- r x f i l t e r 中没露莛享蠢淘 中前缀相同部分带来的部分冗余匹配问题,但y f ii t e r 的过滤鸯询机制仍存柱过 滤邋程运 彳跟踪栈中获杰数萋大及部分冗余匹配筹淘戆。我们将在瑟文对藏详 细阐述,并提出糯应的解决方察。 1 4 本文工作 1 4 2 酝炎内容 本文就x m l 索弓j 和过滤蛮询的若干关键技术展开研究,舆体包括x m l 文 档索引查询技术蛾究、x m l 文档树节点编码礤究、遵缀不同模式x m l 数掇集 豪曩天学潜l :学搜遮文 燕l l 页 第1 章绪论 索引模型、集群式x p a t h 查询优化、x m l 数据的过滤查询技术研究、x m l 文 档索弓l 秘过滤查诲原激系统戆实瑷等方蘑,袋辍戆工搏和取 薅豹截毅残鬃体现 在以下嚣个方面: 熬于互关联厨嬷树的x m l 索引查询技术 基予时序区间编鼹方法与互关联后继树模戮0 r s t ) 为节点带有名称 珏靛特点麓筵予i s b a r t i - i i 实瑗款x m l 索 引模型幼态查找时捧暇间编码提供了实际应潲可行性。就树节点叶序区间编码 的维护,本文提出了旗于x m l 模式扩展叶序区间编码的方法,降低x m l 文档 树节点攒入时敕索弓l 巾节点编礤维护代伶,为簇予时序区阏辕玛豹x m l 索弓l 模型提供了编码维护方案。 x m l 数据集窳s i 和集群式x p a t h 查询处燥优化 介缨了一种从x m l 文档中提取建立本文索弓i 模型所需蒙的x m l 模媳信息 熬( x m l 模式穗) 方法。基予鬟关联爱继簿秘时痔嚣阙缡褥,分溪对x m l 麓 化模式含并树和x m l 文档树建立索引,提出遵循不同模式的x m l 数据檠索引 模型i s b a x i i ,i i 。i s b a x i i ,i i 可以实现对遵循不同模式的x m l 数据集的统一查 邂,又霹以键对遵键菜个特定模式匏数据子集避彳亍查询。帮以 圭冠类索孳l 模型 相比,i s b a x i l ,ll 剽用x m l 数攒集的模式信慧对x p a t h 表达式避行颡处理, 复置夫学博l j 学位论文 簿1 2 页 第1 章绪论 降低了x m l 索弓i 查询处理的路径连接遂算量,从两提高了对x m l 数据纂的查诲 效率。对于以查询集形式提交的查询,我们掇出集群式x p a t h 查询优化处理方 寨,沿用势扩展了纂个x p a t h 表达式嶷x m l 数攒集索弓l 土的处理熬爨赣,将 查询集中的x p a t h 表达式先后鬃中在模式索引、x m l 数据集索引上进行查询处 理,劳在x h l 数撼纂素孳l 奎诲簸淫上蓑事壹诲淘路径结 鸯攘溺部分瓣搂式莲配 ( 条件路径、目标路径) 。相比按照队列依次查询处理的方式,我们提出的集群 式x p a t h 查询优化处理方法提离了查询集静整体查询效率。理论分析和实验都 证明了上述结论。 基平叶序区问编码机制的x m l 过滤算法 在x m l 文档避滤撰燮y f i l t e r 等豹磷究蒸璃上:为x p a t h 表达式缀或静文 档过滤集以a 确定有限状态自动机形式构造过滤查询模型( n f a ) 。本文为n f a l 入静 蔫煮编码:时序嚣淘编礴、辞窿区间长度编码,并结合鬣关联精缝瓣模 型实现n f a 索引模型。在x m l 文档过滤焱询执行过程巾,根据n f a 叶节点 绑定奄询提交表、n f a 节点叶序提交计数表和状态节点的编码束判断怒否将状 态黔加入n f a 执行过程运行鼹踩栈( r u n t i m es t a c k ) ,避受x m l 文档邈滤过疆 中冗余的匹配,减少n f a 执行过程中r u n t i m es t a c k 的状态数目、提商n f a 的 技行效率,进瑟撩褰x m l 文稿瓣 璧懑姣率。理论努辑彝安验都诞明了该绥谂。 x m l 索引和过滤薰询原毅系统的实现 在本文关于x m l 索弓l 和过滤查询研究蒸础土,借鉴其它一麓x m l 索弓l 和 过滤逢询的系统,提出了个槊成开放的x m l 索引和过滤查询系统的框架模 型。该框聚模型采用功能模块化的方戏集成,具有较强的开放健。在以上基础 上实现款x m l 索弓l 襄避滤套询原型系统提供以下功能:x m l 文档模式及x m l 文档的导入、x m l 文档模式信息的提取、x m l 文档模式和x m l 文档的索引 建立、遵循不弱模式戆x m l 数撵集鹣查询、集群式查逮傀纯鲶疆、x m l 文档 的过滤查询等。 1 4 3 本文结构 本文的内容濑绕x m l 蛉索弓l 翔过滤套询的方法与实骥技术蠢赋秀的。具 体内容按章节安摊如下: 繁 搴续论 介绍x m l 索引和过滤查询研究的翻的与意义;对x m l 及其相关技术 标准简要介缁:褫逑国内舞最遥有关的研究动态;介绍本文的主器研究肉 容。 第2 章蒸于互荚联后继树的x m l 索日l 技术 餐里夫学博士学像论文 第1 3 黄 第1 章绪论 该章基于树节点叶序区间编码和互关联后继树模型建立根树索引模型 i s b a r t i i ,i i ,将上述索引模型应用于x m l 文档索引查询,与以往同类索 引模型进行理论和实验上的对比研究。 第3 章x n l 文档树节点叶序区间动态编码 该章主要探讨本文x m l 索引技术所涉及的x m l 文档树节点叶编码的 长度代价分析、i s b a r t i i i 动态查找叶序区间编码的平均时间代价、树节 点叶序区间编码的动态维护等问题。 第4 章x m l 数据集索弓i 和集群式查询 该章在第2 章x m l 索引查询技术的研究基础上,对x m l 数据集遵循 的模式( 简化模式合并树) 和数据集本身分别建立索引,提出遵循不同模 式的x m l 数据集索引模型i s b a x i i ,i i ,以及在上述索引模型上的x p a t h 解析和查询处理、集群式x p a t h 查询处理优化等。 第5 章基于叶序区间编码机制的x m l 过滤算法 该章在基于非确定有限自动机( n f a ) 的x m l 文档过滤研究的基础上, 针对以往x m l 过滤查询研究( y f i l t e r ) 中存在的冗余匹配,基于叶序区间 编码、叶序区间长度编码和互关联后继树对n f a 建立索引模型,进而提出 改进的文档过滤模型执行过程。与以往同类索引模型进行理论和实验上的 对比研究。 第6 章x 札索引和过滤查询原型系统 该章在本文关于x m l 索引和查询的研究基础上,结合x m l 文档索引 和过滤查询系统的实际需求,开发一个集成的、开放的x m l 文档索引和 过滤查询原型系统。 第7 章总结与展望 该章对全文的工作进行总结,并对今后的工作提出了新的研究方向。 图1 - 1 为本文研究内容与结构示意图。 复旦大学博士学位论文 第1 4 页 第1 章绪论 ( x m l 索引和过滤查询原型系统) 第6 葺酵 j ( 基于叶序区间编码机制的x 札过滤算法) 第5 章 f 埘l 树节点叶序区间动态编哟第3 章 f - l 数据集索g i 和集群式查询) 第4 章 ( 基于互关联后继树的) 。儿索引技术) 第2 章 图1 1 本文的内容与结构 复旦大学搏= l 学位论文 第1 5 页 第2 章基于甄燕联霜缝辫静x m l 索;| 技术 第2 章基于互关联后继树的x m l 索引技术 拳章提出了一种勰的根树节点编码方法一基于咔序区阍的节点编码。缡码 方法只需砖撂瓣君跨淹苈一次帮簟完成,稳实瑰常数簿阉内辩任意两个秘节点 间前后代关系的判断。同时,结合露关联后继树模型( i r s t ) 的标引性、可压缩 一陡等特点,本章提出了基于i r s t 的根树索引模缀is g a r t i - i ,及对该模型嶷问 缆诧骚囊;l 模型i s b a r t i - i l 。l s b a r t i - t ,l l 皋躅瓣节点名称参名撩季 教索;| 节点问的前后代关系和叶序区间编码,实现索i l 结构和节点编码的相互统一。 基于is b a r t i i ,i i 突现的x m l 索引模型,可迅滤查询满足x p a t h 表达式的x m l 文档树串的路径 2 1 引畜 为了提离x i v l l 罐径查逶效攀,嚣内终专家秘学者致力予x m l 索弓l 模受夔 研究。浆予x m l 文耥是一种半结构纯的数据,秘前x m l 豹索弓 方法主鼗有路 径记录和节点编码等。本章提出的索引模型结含路径记录茅口节点编码两种方法 蛉优点,采用全新的麓点编码机制,基于互关联后继树模黧的标引性、掰压缩 性等特患,对索毒| 模黧鹃建立露溺释空闻我侩瀵行饶毒乏,势撬离x p a t h 裘这式 的查询效率。 入7 丙蹦丙嘲 蒜烯蔽 、 丙严 丙f i i 蘑 l; 寨丙燎膳 酚窿酬糌裹丙嫦酸聚丙烯耱 图2 - 1 描述生产工艺路线的根树 x m l 文档楚毯套文本兹有膨掇,通过数攒元素的激套秘零 用来提供数摆元 素之间的关系。用户獾交x p a t h 凌询时,禳多情况下,期臻的不设仪麓x p a t h 复盟火举博士学位论文 第插页 甲l 第2 章基于互关联后继树的x m l 索引技术 表达式目标节点信息( 目标节点在x m l 文档中的位置和节点v a l u e ) ,而且希望 由此知道满足x p a t h 表达式在x m l 文档中对应的结构和文本片段。 图2 1 描述了某石化厂的产品及工艺流程。对图2 1 对应的x m l 文档的查 询:丙烯聚丙烯腈,用户希望的不仅是得到该x p a t h 表达式在x m l 文档中的 合法性判断和查找名称“丙烯”、“聚丙烯腈”的节点位置,而且也希望了解x m l 中的路径信息:丙烯丙烯醛,丙烯腈聚丙烯腈、丙烯丙烯腈聚丙烯腈。以上路 径信息反映了不同的以丙烯为原料生产聚丙烯腈的工艺路线。 本章关于x p a t h 路径的查询含义如下:查询满足x p a t h 表达式中在x m l 文档树中的节点序列集合;查询满足x p a t h 表达式的x m l 文档树中的路径集 合。 本章余下部分组织如下:第2 节回顾了树节点编码和x m l 索引方法的相关 研究内容;第3 节提出基于叶序区间的根树节点编码方法( k a fo r d e ri n t e r v a l n u m b e r i n gs c h e m e ,简称l o i n s ) ;第4 节介绍根树的互关联后继树 ( i n t e r - r e l e v a n ts u c c e s s i v et r e e s ,简称i r s t ) 索引模型;第5 节介绍本章索引技 术涉及的主要算法:第6 节讨论本章索引模型的空间优化,并提出空间优化后 的索引模型;第7 节是实验评价;第8 节是本章小结。 2 2 相关研究 2 2 1 树节点的编码 为了能有效处理基于正则表达式的x m l 路径查询,已经有多种基于节点 在x m l 文档结构树中的遍历值的编码方法,举例如下: d i e t z 通过数值对( p r e o r d e r ( v ) ,p o s t o r d e r ( v ) ) 对树t r 中的节点v 进行标识 【d i e t 8 2 ,其中,p r e o r d e r ( v ) 为节点v 在t r 中的前序遍历值,p o s t o r d e r ( v ) 为v 在 t r 中的后序遍历值,后文同。对于树中的任意两个节点v l 和v 2 ,如果 p r e o r d e r ( v 1 ) p o s t o r d e r ( v 2 ) ,则给出v l 是v 2 的祖先节 点的判断。 a p p r o x o l 【s c h l 0 1 】用数值对( p r e o r d e r ( v ) ,b o u n d ( v ) ) 标识树t r 中的节点v , 其中,b o u n d ( v ) 是t r 中以v 为根节点的子树的最右叶子节点的前序遍历值。对 于树中任意两个节点v l 和v 2 ,如果p r e o r d e r ( v 0 p r e o r d e r ( v 2 ) 八b o u n d ( v 1 ) b o u n d ( v 2 ) ,则给出v 1 是v 2 的祖先节点的判断。 x i s s 【l m 0 1 】【h l m 0 3 j 羽数值x v j ( o r d e r ( v ) ,s i z e ( v ) ) 标识节点v ,其中,o r d e r ( v ) 是扩展的前序遍历值,s i z e ( v ) 是为节点v 所有后代节点预留的空间大小。对于 复旦大学博士学位论文 第1 7 页 第2 章基于互关联后继树的x m l 索引技术 树中任意两个节点v 1 和v 2 ,如果v i 是v 2 的祖先节点,当且仅当o r d e r ( v 1 ) o r d e r ( v 2 )
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具包装组管理制度
- 家庭打麻将管理制度
- 应急值班点管理制度
- 弱电设备房管理制度
- 征收办保密管理制度
- 微机室设备管理制度
- 心理放松室管理制度
- 快递小袋子管理制度
- 急性肺栓塞管理制度
- 总工办岗位管理制度
- 2025年希腊语A2等级考试官方试卷
- 地理-2025年中考终极押题猜想(全国卷)
- 2024年广东省新会市事业单位公开招聘辅警考试题带答案分析
- 广安2025年上半年广安市岳池县“小平故里英才”引进急需紧缺专业人才笔试历年参考题库附带答案详解
- 派特灵用于女性下生殖道人乳头瘤病毒感染及相关疾病专家共识(2025年版)解读
- 数字化转型背景下制造业产业链协同创新机制研究
- 贵州大学语文试题及答案
- 公司主体变更劳动合同补充协议7篇
- 质量月建筑工程质量知识竞赛考试题库500题(含答案)
- 早产儿经口喂养临床实践专家共识(2025)解读
- 汽车快修连锁加盟商业计划书
评论
0/150
提交评论