（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf

上传人：扣*** IP属地：宁夏上传时间：2020-01-09 格式：PDF 页数：60 大小：1.58MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf_第2页

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf_第3页

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf_第4页

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf_第5页

已阅读5页，还剩55页未读，继续免费阅读

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

内容摘要内容摘要 x l i l 是互联网中表示结构化信息的一种标准文本格式它没有复杂的语法和包罗万象的数据定义但却利用半结构化的数据表达良好的实现了互联网中的数据交换 x m l 利用可扩展性灵活性和自描述性的特点得到了越来越多的实际应用特别是在p 2 p 环境中需要用网络共享达到更好的资源分配效果由于 x m l 可以良好的对数据进行承载和表达因此在p 2 p 环境中采用x n 技术将有效的提高系统的资源搜索能力本文在天津市科技计划项目压缩环境中基于 n 札的数据集成系统关键技术研究的研究背景下通过x m l 索引结构连接算法 x m l 安全等基础研究讨论如何在p 2 p 环境中建立x m l 索引及安全算法本文提出了一种基于p 2 p 环境的 n 也资源共享模型目的是为了解决捌l 文件共享及提高索引效率等诸多问题并在该种模型的前提下提出了一种以二进制为依托的x m l 索引及共享算法一摘要x m l 索引 d x i 该模型以j x t a 作为p 2 p 环境平台在j a v a 程序平台上实现点对点资源通信关键词 x 乩x m l 索引p 2 pd x i 数据隐藏第l 页 a b s t r a c t x m li sas t a n d a r dt e x tf o r mt oe x p r e s ss t r u c t u r e di n f o r m a t i o ni n i n t e r n e t w i t h o u tc o m p l i c a t e dg r a m m a ra n dd a t ad e f i n e x m lu s e sak i n d o f s e m i s t r u c t u r ed a t a e x p r e s s i o n t o i n t e r c h a n g e d a t a t h e c h a r a c t e r i s t i c so fx m li n c l u d e e x p a n s i b i l i t y f l e x i b i l i t ya n d s e l f d e s c r i p t i o n i nt h i sc o n d i t i o n x m lg e t sm o r ea n dm o r ep r a c t i c a l a p p l i c a t i o n e s p e c i a l l yn e t w o r kn e e d sb e t t e rr e s o u r c ea l l o c a t i o ni np 2 p e n v i r o n m e n ta n dx 1 4 lc a nh a n d l ew i t hm o r ed a t a t h e r e f o r e x m lt e c h n o l o g y c a ni m p r o v et h ea b i l i t yt os e a r c hr e s o u r c ei np 2 pe n v i r o n m e n t u n d e rt h eb a c k g r o u n do fs t u d y i n go f t h er e s e a r c ho fk e yt e c h n o l o g y o fd a t ai n t e g r a t e ds y s t e mb a s e do nx m lt e c h n o l o g yi nc o m p r e s s e d e n v i r o n m e n t s u p p o r t e db yt i a n j i ns c i e n c ea n dt e c h n o l o g yp l a ni t e m s 町 t h e s i sa i m sa th o wt oe s t a b l i s ha na l g o r i t h m sb a s e do n 弛也i n d e xa n d s e c u r i t yt h r o u g ht h eb a s i cs t u d yo fx m li n d e x s t r u c t u r ej o i na l g o r i t h m s a n dx m ls e c u r i t y t h i sp a p e rp r o p o s e dak i n do fx m lr e s o u r c es h a r i n g m o d e lb a s e do f fp 2 pe n v i r o n m e n tt os o l v ex m lf i l es h a r i n ga n di m p r o v ei n d e x e f f i c i e n c y i tc r e a t e da nx m li n d e xb a s e do nb i n a r ya l o g o r i t h 甄w h i c hi s c a l l e d d i g e s t x m li n d e x d x i t h i sm o d e l r e g a r d sj x t aa sp 2 p e n v i r o n m e n t a lp l a t f o r m w h i l er e a l i z i n gp o i n t t o p o i n tr e s o u r c e sa n d c o m m u n i c a t i o no nj a v ap l a t f o r m k e yw o r d s x m l 眦i n d e xp 2 pd x ii n f o r m a t i o nh i d i n g 第页独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果尽我所知除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表或撰写过的研究成果也不包含为获得云洼题菹太堂或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明井表示了谢意签名学位论文版权使用授权书本人完全了解天津师范大学有关保留使用学位论文的规定即学校有权将学位论文的全部或部分内容编入有关数据库进行检素并采用影印缩印或扫描等复制手段保存汇编以供查阅和借阅同意学校向国家有关部门或机构送交论文的复印件和磁盘保密的论文在解密后应遵守此规定签名导师签名日期第1 章绪论 1 绪论 1 1 选题背景 m i l l 是一种越来越受到广泛使用的网络置标语言越来越多的得到了实际应用 x i l 作为一种可扩展的标记语言具有可扩展可读性强半结构化保值等特点由于也采取了用户自定义标签的形式用以定义半结构化数据这就给予了用户更多的自由来实现更多的个性化选择因而在实际的网络应用中 x 礼也越来越多的承载着重要信息为了有效的保护和索引这些数据 b i l 索引札安全等技术应运面生本文在天津市科技计划项目压缩环境中基于b i l 的数据集成系统关键技术研究的研究背景下通过x 礼索引结构连接算法 x 虬安全等基础研究讨论如何在p 2 p 环境中建立x 札索引及安全算法 1 2 研究意义利用叫纯文本文件可以用来存储数据而大量的数据可以存储到x 札文件中或者数据库中应用程序可以读写和存储x m l 数据一般的程序可以显示数据通过y 3 1 l 技术纯文本文件还可以用来共享数据既然凸也数据是以纯文本格式存储的那么礓儿提供了一种与软件和硬件无关的共享数据方法这样就可以创建一个能够被不同的应用程序读取的数据文件基于x m l 的优点在p 2 p 环境中用户信息网络地址数据索引等都可以利用 n 儿进行数据储存及数据交换我们设想的模型在p 2 p 环境中仅利用 f i l l 可以进行完全的数据存储利用x m l 建立的索引来提高查询效率包括图形及影音等类型文件都可以通过x m l 建立相应的目录对相应信息进行保存用户的隐私信息可以通过个性化的选择来进行保护论 1 3 本文研究的重点本文在阐述基于p 2 p 环境的 n 也系统模型研究时重点从以下几个方面来讨第1 页第1 章绪论 1 对于x 1 4 l 索引和查询算法的研究在综述了x m l 索引的概念分类等内容基础上详细的分析了多种x m l 索引的建立方法在结构连接算法中阐述了在索引方法上实现查询的多种具体算法 2 对于x m l 安全的研究和探索首先阐述了x m l 安全的重要意义分类等在已有分类中说明了几种可行的安全实现方法并在模型中尝试实现信息隐藏 3 在比较了各种索引方法和结构连接算法后本文将采用j x t a 作为p 2 p 环境开发平台实现基于x m l 技术的系统模型在模型中实现了一种具体的索引方法d x i 和信息隐藏方法通过节点之间的通信实现了 n 也的信息交互 1 4 本文的组织结构本文组织结构如下第一章是绪论介绍本文的选题背景研究意义研究重点并说明文章的组织机构第二章x m l 索引主要介绍瑚l 索引的概念及优缺点之后讨论了建立x m l 索引的几种重要方法通过对数字编码索引的对比研究分析出现有编码索引共通点第三章将介绍结构连接算法通过在数字编码基础上实现的强札查询算法说明如何实现基于x m l 的查询技术利用堆栈等多种数据结构算法阐述结构连接算法如何与编码方案相结合第四章主要x 帆安全的相关内容并介绍了x m l 安全的分类重要意义和主要实现方法等第五章详细介绍了o x i 算法以及相关定义详细说明了该种算法的优势和存在的问题并对存在的问题提出了改进思路第六章将在以上几章的基础上构建一个在p 2 p 环境中的x m l 系统模型并在该模型中实现x m l 索引和强几安全的结合本章中首先提出了瑚l 系统模型的基本结构并在该结构中实现了基本的通信模块第七章是论文的总结总结了论文的不足之处和需要改进的地方第2 页第2 章x b i l 索引 2 1 眦技术 2x m l 索引埘l e x t e n s i b l em a r k u pl a n g u a g e 可扩展的标记语言是互联网中表示结构化信息的一种标准文本格式它没有复杂的语法和包罗万象的数据定义但却利用半结构化的数据表达良好的实现了互联网中的数据交换著名的商用数据库s q ls e r v e r o r a c l e 都实现了与飙l 数据格式的兼容 n o r m a nw a l s h 曾经说过从网络使用之初我们一直在所有文件中都使用近乎相同的格式 h t m l 格式等使用具有周定语法的固定标记集具有一定的好处即简单性但是 h t 札非常有限网页设计者希望能够对页面的表现能力具有更多的控制这就需要求助于 n l l 几作为一种标记性的语言使得在网络环境中的格式表达更为明确它采取了用户自定义的标记形式并允许在标签中携带更多的信息 n 也是一套定义语义标记的规则这些标记将文档分成许多部件并对这些部件加以标识它不像h t 札或格式化程序这些语言定义了一套固定的标记用来描述一定数目的元素 x 札是一种元标记语言用户可以定义自己需要的标记这些标记必须根据某些通用的原理来仓i 建 m l 标记描述的是文档内容的结构和含义而不是描述页面元素的格式化可以利用样式单为文档增加格式化信息 x m l 作为一种可扩展的标记语言具有良好的可扩展性可读性强保值性等特点 x 札采用了一种用户自定义标签的构建方式可以很好地定义半结构化数据随着也技术的不断成熟关系数据库数据与 n 也数据的相互转化强也在关系数据库中的存储和提取 x m l 索引眦查询及凸也原生数据库都成了极为热门的研究领域 x m l 语言区别于其他语言的巨大优势还在于其对数据的表达利用也纯文本文件可以用来存储数据大量的数据可以存储到叫文件中或者数据库中应用程序可以读写和存储数据一般的程序可以显示数据通过x i l l 技术纯文本文件可以用来共享数据既然 a 儿数据是以纯文本格式存储的那么聊l 提供了一种与软件和硬件无关的共享数据方法这样创建一个能够被不同的应用程序第3 页第2 章x m l 索读取的数据文件就交得十分简单了当今的计算机世界中不同企业不同部门中存在着许多不同的系统操作系统有n t u n i x 数据库系统有s o ls e r v e r o r a c l e 等要想在这些不同的平台不同的数据库软件之间传输信息不得不使用一些特殊的软件非常之不便而不同的显示界面从工作站个人微机到手机使这些信息的个性化显示也变得很困难然而利用x m l 各种不同的系统之问可以采用x m l 作为交流媒介儿不但简单易读而且可以标注各种文字图像甚至二进制文件只要有x m l 处理工具就可以轻松地读取并利用这些数据使得x m l 成为一种非常理想的网际语言 2 2x m l 索引概述索引是提高查询速度的最重要的工具由于i o 代价对于数据库操作的重要性必然要通过d b m s 在磁盘的上组织数据记录文件来减少i o 代价索引就是在磁盘上组织数据记录的一种数据结构用于优化某类数据检索的操作 x m l 文件中的元素关系基于一种嵌套结构 x 眦文件被描绘成一种节点被标记的树形模型查询则是以一种统一的表达方式通过文件结构和节点取值来进行对文件的搜索在大多数的x m l 查询语言中 x m l 文档结构都以线性路径或枝叶模式来表示其中x m l 元素的取值成为选择谓词的一部分 x m l 文件是一种半结构化的数据表达索引的作用就是将x m l 文档标签甚至内容映射成易于处理的表达方式为了清晰的方式阐明x m l 树形结构中数据彼此之间的关系人们通常采用数字编码来实现利用数字编码方式可以方便的确定出一棵树中祖先与后裔之间的关系通过查询来解决对x m l 数据的搜索索引的构建方式主要有两种即结构索引和数字编码数字编码模式则利用 a 也的节点位置进行相应的编码目前大多数的数字编码模式都基于树遍历模式节点之间的结构关系通过索引编码进行的确认这类方法首先需要分别处理在枝叶中每个根到叶子的路径然后再将各个结果进行合并结构索引通过处理路径和枝叶查询 t w i gp a t t e r n 来减少搜索空间第4 页第2 章x m l 索 z 2 1x 札索引优点酬l 索引作为一项新兴的研究领域需要更多的参考及借鉴其他的数据索引方式并在这个过程中发挥x 虬半结构化的优势对x 虬文档建立索引的优点在于 1 维护顺序由于对于函也文档中所包含的大规模数据记录如果被频繁的修改保存顺序的代价将会有很大的提高不利于查询即得到数据集合另外当查询的记录集很大但只包含少量的符合条件的记录那么效率也会非常低采用索引方式不但可以有效地保存数据集合还可以在索引的同时对某类数据进行提取从而达到隐私保护的目的 2 支持多限制查询当查询具有多个限制条件时通过多个索引的限制可以有效的帮助查询快速得到结果集合避免了重复扫描整个文件来得到记录集支持一次使用两种不同方法对数据行进行捧序同在关系数据库中相同由于涉及多表连接查询就会使得索引的优势更加明显的发挥未加索引时我们必须通过多表连接的所有可能数据组合来确定是否满足条件当多表的数据项数日可观时就造成了大量的运行时间引入索引后只需顺序查找第一个表中数据项针对该锁定数据项使用其他表上的索引与其进行关联定位这样除了第一个外的其他表我们不必遍历其所有的数据项大大减少了运行时间以三个1 0 0 0 记录的查询为例通过加入索引理论上采用这种方式运行上面的查询会快一百万倍 3 保存x 札文档结构由于函儿具有半结构化数据的特点在凸儿中可以包含整个文档的结构因此在建立 q 儿索引的同时可以利用索引保存结构信息例如 t w i g 结构索引等将索引和数据相结合有效的提高了强也文档的查询效率使得在针对文档进行的查询中可以采取更多的方法和语法 2 2 2x m l 索引缺点虽然x 札所建立的索引会为查询带来诸多便利但是不可否认礓儿索引同其他数据索引方法一样也会产生相应的闯题因此高效索引的建立必须要考虑第5 页第2 章x m l 索到如何解决这些存在的问题 1 插入及删除索引加快了检索的速度但是减慢了插入和删除的速度同时还减慢了更新被索引的数据列中的值的速度也就是说索引减慢了大多数涉及写操作的速度发生这种现象的原因在于插入一项数据的时候不但需要写入标签项还需要改变所有标签或数据的索引文档所包含的索引项越多需要做出的修改就越多平均性能的降低程度也就越大 2 磁盘空间建立索引是在文件的基础上重新组织数据结构的方法索引会花费磁盘空间多个索引相应地花费更多的磁盘空同这可能导致更快地到达数据表的大小限制 2 3 向量编码 v e c t o re n c o d i n g n g i r t h 1 率先提出了向量编码树r 中的每个节点被译码为一个斗位向量一是树r 中的节点数量在某个位置j 上的一个 1 位唯一的表示第f 个节点并且在一个自顶向下或自低向上的编码方案中每一个节点继承表示它祖先或后裔的所有位上的 l 例如树r 的一个节点越的位向量编码记为 6 l 乩如果树r 的第f 个节点是节点或它的祖先则6 f l 否则 0 对于继承祖先的位向量编码利用二元为运算a n d 能够快速检测一个节点是否是另一个节点的祖先是v 的祖先当且仅当c h c 一 c u 对于继承后裔的位向量编码利用二元位运算o r i 能够快速检测一个节点是否是另一个节点的后裔却是的后裔当且仅c u ic v c 因此位向量编码能够有效支持包含关系的计算利用位运算的特点该种方法将提高比较运算的执行效率从而缩短检索时间但向量编码在节点增长的同时也会造成编码的长度迅速增长加重数据存储的负担兄弟节点之间的为其后裔分配的编码不能造成范围重叠因此对节点的更新可能需要较大变动图2 1 为向量编第6 页第2 章x m l 索5 码的示例图2 1 向量编码 2 4 于前缀的编码 p r e f i xe n c o d i n g 前缀编码也称为d e w e y 编码田前缀编码直接将一个节点的双亲节点的编码作为该节点编码的前缀这看来似乎和我们所介绍的位向量编码有些相似之处例如树r 的一个节点的前缀编码记为o j 则节点的孩子节点1 的前缀编码 v 2 d 咖这里弹是节点y 在节点的所有孩子结点中的序号对于前缀编码要判断一个节点是否是另一个节点的后裔只需要判断字符串c 是否是字符串力的前缀前缀编码的一个重要性质是它们的字典有序以节点为根的予树中的任意一个节点它的前缀编码协j 大于小于它的左兄弟子树右兄弟子树中所有节点的前缀编码因此前缀编码不仅能够有效的支持包含关系的计算而且能够有效的支持文档位置的计算图 2 为前缀编码的示例第7 页第2 章x m l 索图2 2 前缀编码 2 5 区域编码 r e g i o ne n c o d i n g 由于也文件本身就具有一种树形结构节点之间较为容易形成对应关系因此基于数字编码的方案大多借助对树的遍历来得到节点之间的联系而这种联系由于遍历方法的差异也不尽相同一般说来遍历分为前序遍历中序遍历和后序遍历还有一些根据它们改进的遍历方法 2 5 1 基于遍历的编码 1 9 8 2 年 d i e t z 最先提出了一种以数对确定也文件结点的方法咖其中朋代表对凸也文件树形结构的前序遍历的序号 p 珊f 代表对x m l 文件树形结构的后序遍历的序号这种方法依靠前序遍历和后序遍历的编码关系来确定节点之间的联系查询中就可以利用确定的范围来进行节点的搜索图2 3 为一个d i e t z 的简单示例第8 页第2 章x m l 索g 图2 3d i e t z 编码一个x m l 文档树的先序遍历顺序等价于它的文档顺序即如果对文本形式的 x 札文档进行顺序读取则每一个元素被访闯的顺序就是它们的先序遍历序号反之 x m l 文档的文本表示能够以先序遍历它的文档树的形式进行重构虽然这种方法使用了一种简易方式对礓也文件进行标注索引但却不能很好的解决x 扎文件更新的问题当需要插入一个新的结点时将引起索引文件的大规模变动很多方法中提出的x m l 数据的区间编码方案都是d i e t z 编码的推广例如 t g r u s t 1 在d i e t z 编码的基础上给瑚l 文档树t 中的每一个节点再赋予一个值p a r 表示该节点的双亲节点的先序遍历序号p r e 以反映节点之间的双亲孩子关系 2 5 2l i m o o n 编码 l i 等人提出了m m o o n 方法嘲利用数对来分别表示扩展的 x m l 文件的前序遍历序号以及后裔结点的数目范围基于x m l 文件树形结构的特点以及众多可行方法的实践论证建立在前序遍历上的索引可以极大的提高对于x m l 文件的搜索效率 m m o o n 编码与d i e t z 编码相比能够更好的支持文档的修改对于该编码方案 o r d e r 作为唯一的标识但这种方法对节点编码进行扩充的同时也对节点资源造成了一定的浪费在不清楚节点数目和更新数量的前提下这种固定的更新范围实际上很难满足实际的需要图2 4 为一个 l i m o o n 编码的简单示倒第9 页第2 章x m l 索图2 4m m o o n 编码在对索引方法的整理中我们不难发现大多数的编码索引方案都可以被分为基于范围的和基于前缀的基于前缀的标签方案即向量编码前缀编码等通过索引的适当顺序决定祖先节点和后裔节点之间的关系而范围编码即索引建立在数对的基础之上利用范围关系决定祖先节点和后裔节点之间的关系多数的 n 也数据索引结构也元素的取值决定于真实值鉴于在x m l 文档中元素问的结构关系如果源数据被更新那么我们就不得不重新审查这些真实值重构需要索引文件的大规模更新当 c 虬数据内容被频繁的更新时这将引起严重的问题 d a o 等人提出了一种基于相关域坐标的索引结构对l i h i o o n 进行扩展来有效的解决了索引更新的问题旧捌l 文件中的内容取值基于它的父母元素域建立叫做相关域坐标使用相关域坐标来标识x 眦文档可确定元素对于其父母元素的域何时开始和结束同时采用了一种建立树结构索引的算法使得相关值可以被存储在一起索引结构在更新时只需要针对小部分索引文件的更新 x 札在于允许用户使用一种用户自定义字典的数据结构来描述对数据的翻译过程通过这种翻译语言可以得到源数据来用于互联网上的数据交换凸儿文件的数据系统应该支持基于内容和结构的查询 w a n 编码实际上是一种扩充了m m o o n 编码方案 x m l 文档树中的每一个节点被赋予一个二元组 o r d e r m a x o r d e r 其中o r d e r 为节点的扩展先序遍历序号 r 锄x o r d e r 为节点的后裔中最大的扩展先序遍历序号即为该节点为根节点的子树中最右下角节点的扩展先序遍历序号另外树中的每一个节点再被赋予第1 0 页第2 章x m l 索引两个值p a r e n t o r d e r 和p a r e n t m n x 分别表示该节点的双亲节点的o r d e r 和 m a x o r d e r p a r e n t m a x 用来加速结构连接的计算 2 5 3 可扩展范围的编码基于范围的标签方案可以在常数时间内决定两个节点之间的祖先关系缺点在于当进行插入操作的时候将不可比避免需要进行标签的重新定义因此 k i n g 等人提出可扩展范围的编码m 考虑将基于范围编码的扩展方案与基于前缀的编码方案相结合得在进行插入操作对避免引起标签的重新定义采用范围分配方法还可以有效的改进标签索引方法性能对于范围编码节点v 的s i z e 是以其为根节点的后裔个数的上界对于前缀索引一个节点的级别就是标签的长度可扩展方法将这两种方法进行了适度的结合创建了一种新的标签索引方法在这种方法中每个节点v 都被赋予一个整数对且这个整数对有一个整数序列作为前缀形如a p o s 我们将n 称为节点v 的级别 o 代表同级别的前序遍历序号 s 代表与v 同级别的后裔的数目图2 5 为可扩展范围编码的简单示例图2 5 扩展范围编码扩展的先序遍历标签方案在进行插入操作时也会产生无范围可插入的情形因此我们分析如下情形 1 当有范围可使用时可依照一般方法进行节点的插入 2 当无范围可使用时插入的节点将被标记为p i 口 o l 前缀p i p 用来记录祖先信息 o 用来创建一个新子树的伪根并且这种新子树第1 i 页第2 章x m l 索引也是建立在扩展的先序遍历的基础之上的这种将范围索引和前缀索引相结合的方法有效的实现了对树形文档结构的扩展而这种扩展是以扩大节点标签为代价的换句话说节点的前缀长度是不能确定的因为它要包含其祖先节点的前缀信息如果在最坏的情况下新的子树不断被创建形成一个以新予树为主的树形结构必然会影响查询的执行效率因此 d t d 和对文档的分析可以帮助优化范围的分配 2 5 4z h a n g 编码 z h a n g 等人提出了z h a n g 编码嗍它的编码规则为 x m l 文档树中的每一个节点给赋予一个二元组对树t 的所有节点进行先序遍历每一个节点在遍历时分别被访问两次并产生两个序号一次是在遍历该节点所有的后裔节点之前访问该节点并产生该节点的序号b e g i n 另一次是在遍历该节点所有的后裔节点之后访问该节点并产生该节点的序号e n d 因此树t 的任意两个节点是祖先后裔关系当且仅当b e g i n u b e g i n v e n d v e n d u 即祖先节点的区域编码包含了后裔节点的区域编码图2 6 为z h a n g 编码的简单示例图2 6z h a n g 编码 2 6 二叉树编码 p b i t r e e p b i t r e e 编码啪针对嵌套的连接处理适用于类似函几文件的树形结构数据这种嵌套的连接将两个x 眦节点元素集作为输入返回在两个集合中可以建立嵌套关系的元素对为了实现嵌套连接的应用算法就需要保证元素集被储存且被第1 2 页第2 章x m l 索g 索引 p b i 树由此应运而生它提出了一种新颖的完全嵌套的查询处理框架基于p b i 树的编码机制可以允许我们高效的确定祖先和后裔之间的关系在所涉及的算法中提出了优化集合结合方式的方案其中包含的分解算法可以不通过捧序和索引高效的处理嵌套连接嵌套关系等同于树形数据模型中的祖先后裔关系嵌套查询也是x 札查询处理引擎的核心组成部分现有的嵌套连接算法都基于如下假设之一所有的元素都有索引所有的元素集都被捧序兼有前两者但在x m l 数据库中并不是所有的与元素都被排序或索引受这一特性的启发 p b i 树编码则可以支持祖先后裔关系的校验 p b i 树编码是一种基于遍历编码的结构它利用的二叉树中序遍历编码的特性在该模型中将树的中序遍历编码二进制化可以通过这种二进制化的数码得到相应的树高祖先节点的数字关系等显然利用这种方法构建的p b i 树可以仅仅根据编码就快速确定祖先后裔关系但另一方面这种方法使得在构建之初就必须建立一棵完全的二叉树与实际的x 札文档进行对应其中使用不到的节点被称为虚节点当然这种虚节点是完全虚拟的不需要建立它们更不要说建立相应的存储空间之后再通过实际x m l 树与p b i 树的对照关系将实际的树形进行p b i 树转化由于p b i 编码采取了二进制的形式对于一棵完全二叉树某个节点和其祖先一则啊的编码为f n 2 m b 2 1 j 2 其中h 为川的高度玎为珂的编码 p h i 编码采取了二进制编码因此对于任意一个节点玎它在p b i 树中所处的高度正好是p b i 编码中最右一个非 0 位即 l 位的位置对祖先编码的确定就只涉及到移位和整数运算不需要浮点运算由于p b i 树的编码方式使得编码本身就携带了丰富的结构信息与区域码每个节点需要两个编码相比该方法对于每个节点只需要一个编码 p b i 树编码的可以转化成区域编码也是它的特点之一只要得到节点的高度和相关信息我们不难想象在二叉树特点的帮助下就很容易得到该节点的区域码图2 7 图2 8 图2 9 为p b i t r e e 编码的简单示例第1 3 页第2 章x m l 索图2 7 个舭文档 l m 2 h l i a l 蝴 t s v e 3 i 幅o h t l l e v q h e 蝌巾 o 图2 8 一棵儿文档树图2 9p b i t r e e 编码对一棵数据树的二进制数形化可以通过下面的途径二进制化当前节点和其孩子节点递归的二进制化其孩子节点作为根的子树由于p b i 树是基于一种二叉树的树形结构方式因此对于多孩子的情形就需要向下扩展节点级别二进制化树的算法对这种p b i 编码与相应自上而下的p b i 编码进行转化时间复杂度为d o 2 7 本章小结根据对上述数字编码方案的总结这些方案主要根据如下特点来进行设计 1 支持祖先后裔双亲孩子文档位置等关系的结构查询 2 被编码数据的结构例如树图等第1 4 页潞淼第2 章x m l 索 3 编码算法的复杂度 4 编码后的查询执行时间 5 插入操作导致的重新编码代价由于基于x m l 的编码方案需要有效的支持树形结构因此对于祖先后裔双亲孩子的结构支持是最基本的要求例如d i e t z 方法和位向量编码等对x m l 文档节点进行数字编码的目的在于只有通过结构的连接才能满足结构化或半结构化数据的查询需要在多数的编码中都需要利用多个标识来唯一确定一个节点仞如z h a n g 编码但也有一些编码制需要利用一个编码就能得到结构关系并确定唯一节点伪如p b i t r e e 编码各神编码的长度和结构关系检测比较如下表卜l 所示表i i 各种编码方案比较编码方案编码长度祖先后裔关系检测前缀编码0 n 前缀操作 d i e t z 编码o 1 0 9 n 两个非等值操作 l i m o o n 编码o 1 0 9 n 两个非等值操作附加整数运算 z h a n g 编码o 1 0 9 n 两个非等值操作 w a n 编码o 1 0 9 n 两个非等值操作 p b i t r e e 编码0 n 等值操作附加位运算和整数运算第1 5 页第3 章结构连接算法 3 结构连接算法 l 文档经过某一编码方案进行数字化后每个节点就对应了一个或一组编码利用这种编码才可以进行x m l 的查询 x m l 文档的结构查询通常被转化为两个节点列表之间的包含关系或文档位置关系的结构连接操作同时关键字操作也被转化为两个节点列表之问的包含关系的结构连结操作因此有效地支持结构连接对x 蛆查询的有效实现是解决问题的关键目前所提出的结构连接算法大都是基于归并的思想充分利用x 地数据的结构特点来减少扫描的代价有些算法在归并的基础上根据也数据的结构特点利用索引来进一步减少连接的扫描代价上面所提出编码方案的目的在于将实际树形结构索引化并根据编码方案提出查询算法从而实现数据查询需要所谓的查询算法是一类在编码方案基础上实现结构连接的执行算法下面的部分将具体讨论如何在已建立的编码方案上通过结构连接算法实现查询 3 1x m l 查询强儿查询的核心是路径表达式查询路径查询是在半结构化数据中广泛应用的查询方法例如x p a t h x q u e r y 等这种查询以路径的方式得到查询结果在越来越广泛的应用中 x p a t h 等查询语言与s o l 语言的相互转换也是处于成长中的技术一个复杂的x p a t h 路径表达式查询能够被分解成几个分裂路径表达式也就是查询的结构分解根据节点之问的相互关系结构查询主要分为三类其中包括包含关系 c o n t a i n j o i n 文档位置关系 o r d e r j o i n 和拥有关系 h o l d j o i n 包含关系祖先后裔关系或双亲孩子关系返回的是满足包含关系的节点对的序列或者是相应后裔的节点序列 x p a t h 的查询形式为由两个元素或一个元素与一个属性构成的满足包含关系表达式如c h a p t e r t i t l e b o o k c h i l d 牛 b o o k s t i n g b o o k a t t r i b u t e 文档位置关系返回的是满足文档位置关系的序列或者是相应后裔的序列 x p a t h 的查询形式为由两个元素构成的满足文档位置关系的表达式如第1 6 页第3 章结构连接算法 b o o k p r e c e d i n g c h a p t e r c h a p t e r p r e c e d i n g p r e c e d i n g s i b l i n g 拥有关系返回的是满足拥有关系的祖先或双亲节点的序列 x p a t h 的查询形式为 1 由两个元素或一个元素与一个属性构成的满足拥有关系的表达式如 b o o k d e s c e n d a n t s e c t i o n s e c t i o n c h i l d b o o k c h a p t e r b o o k 昏 e a r 2 由一个元素或一个属性与一个搜索关键字构成的表达式如 c o n t a i n s t i t l 岛 s e a r c h 3 2 结构连接算法引述大多数提出的处理结构连接的算法主要包括两类即包含关系的结构连接问题和文档位置关系的结构连接问题解决包含关系的算法包括肿i i g j n 算法 t r e e m e r g e 算法 x r s t a c k 算法和h o l d j o i n 算法等解决文档位置关系的算法包括x p a t ha c c e l e r a t o r 索引技术和p r e f o 卜s i b j o i n 算法等下面要介绍的大多数算法都基于c z h a n g 和j n a u g h t o n 嘲等提出的z h a n g 编码基于区域的x m l 标签模式被很多结构连接算法作为x m l 文件的表示在 x m l 文件中通过一个三元组 d o c i d b e g i n e n d l e v e l 或将b e g i n e n d 拆开称为四元组来表示节点出现的位置其中d o c l d 代表文件的唯一标识 b e g i n 和e n d 通过从d o c i d 的首个元素开始然后针对元素开始和结束的数字编码来产生 l e v e l 是针对d o c i d 文档的元素深度 a l i s t d l i s t 分别表示祖先或双亲元素列表后裔或孩子元素列表每个别表都按 d o c l d b e g i n 有序存储或索引聚集存储这样如果节点 d i b i e 1 l 1 是节点 d 2 b 2 e 2 l 2 的祖先当且仅当d 1 d 2 b i b 2 且e 2 e 1 如果节点 m b l e 1 l i 是节点 d 2 b 2 e 2 蚴的双亲当且仅当d i d 2 8 1 8 2 e 2 e 1 且l i l 2 1 对于区间编码方案有如下两条结论将被后面的众多算法所引用 1 假设列表l i s t 按 d o c i d b e g i n 有序任意给定一个节点 l i s t 则节点r 在列表l i s t 中的所有后裔节点将是在列表l i s t 中紧接着节点r 的一串连续节点 2 假设列表l i s t 按 d o c i d b e g i n 有序任意给定一个节点r 则节点r 第1 7 页第3 章结构连接算法在列表中的第一个可能后裔节点是满足b e g i n y r b e g i n 的第一个节点同时还必须满足b e g i n r e n d 否则说明节点r 在列表l i s t 中不存在后裔节点即在列表l i s t 中满足b e g i n y r b e g i n 且b e g i n 取最小值的节点并且节点r 在列表l i s t 中的所有后裔节点将是紧挨着第一个后裔节点的一串连续节点直到条件 d o c i d r d o c l da n db e g i n r e n d 不成立为止利用这种特点区间编码可以在编码的基础上利用索引有序完成针对节点的全部索引当然也可以在l i s t 列表上关于 d o c l d b e g i n 建立诸如矿树聚集索引等这样对于一个给定的节点r 就可以利用 d o c i d b e g i n 作为索引关键字 3 3 关系数据库的连接算法对于x 礼索引技术的研究由于应用的差剐也有所不同这写应用领域包括原生数据库 n a t i v ed a t a b a s e 关系数据库和面向对象数据库等关系数据库由于其发展的完备性人们对其与x 札技术的结合进行了大量的工作目前 o r a c l e 9 等数据库系统已经完全支持x m l 格式的数据但由于x m l 是一种半结构化的数据在使用中显然会与传统数据有所区别因而在该部分将讨论一些应用于关系数据库的x 札结构连接算法在关系数据库系统中比较高效的连接算法有排序归并连接 s o r t m e r g e j o i n s m j 算法索引嵌套循环连接 i n d e x n e s t e d l o o pj o i n i n l j 算法和h a s h 连接算法由于包含连接的特点是多谓词连接且连接条件中既有等值连接又有非等值连接而h a s h 连接算法只能进行等值连接因此它不适用于包含连接的运算 3 3 is i j 算法目前商用关系数据库系统的s t o 算法一般都是先进行连接条件中的等值连接操作然后再对连接结果进行连接条件中的非等值操作即将包含连接分两个步骤来实现例如对于连接条件第一步是按条件a d o c l d d d o c l d 进行等值连接操作结果是将关系表a l i s t 或d l i s t 中没有对应的d o c i d 列的取值分别划分为m 个对应元组子集4 鸽和d i d 2 d 其中元组子集4 和d l 中的元组有相同的d o c l d 取值且关系表a l i s t 和i l i s t 中没有对应d o c i d 取值的第1 8 页第3 章结构连接算法元组已经被去掉第二步就是对第一步等值连接的结果按4 蚴 d b e g i n d h e g i n a b e g i n 结束码谓词即连接谓词是d o c l l a d o c i d a n db e g i n a e n d i n l j 算法是一种按内表有序捧列的算法对输入的结果来讲即是按照d d o c i d 和d b e g i n 有序第1 9 页第3 章结构连接算法 3 4 直接归并结构连接算法 3 4 1m p m g j n c z h a n g 和j n a u g h t o n 嘲等提出的z h a n g 编码在区域编码领域得到了很大的应用本章节中的大部分算法也是基于z h a n g 编码的假设因此下面我们将探讨 z h a n g 等人是如何根据其编码最初实现结构连接算法的枝叶模式大多需要将查询进行拆分各自在x m l 文件中对应一系列的结果集再根据查询需要将各个结果集进行合并为了解决结构关系的匹配子问题 z h a n g 等人提出了这种传统合并连接算法的变种多假设合并连接算法 m p m c j n 这种算法基于 d o c l d l e f t p o s r i g h t p o s l e v e l n u e 用以代表了x 札元素和字符串的取值肝m g j n 算法的基本思想是设参加连接的两个关系表a l i s t 和d l i s t 则对外表a l i s t 中的第一个元组4 首先在内表d l i s t 中顺序搜索到可能与元组口i 进行连接的第一个元组称为扫描起始点然后在内表d l i s t 中从扫描起始点开始顺序扫描对满足昭矗 q 朋d 条件的所有元组d 再判断是否满足连接条件若满足则产生连接结果元组4 l 叫继续对外表a l l s t 或内表o l i s t 中的元组连接完毕除第一次搜索外该算法的每次搜索并不需要从内表o l i s t 的第一个元组开始只需要从上一次的扫描点开始搜索注意并不是从上一次扫描的结束点开始本次搜索这是因为一个元素节点可以是多个祖先元素节点的后裔也就是说好 j n 算法是一种支持嵌套标记的算法例如个b o o k 文档中嵌套了多层 s e c t i o n 元素节点每一个s e c t i o n 元素节点中又直接嵌套了一个t i t l e 元素节点则一个t i t l e 元素节点可能是多个s

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）p2p环境中xml索引及其安全模型研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档