




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)基于电子商务环境下的web数据库存取技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 摘要 随着“地球村计划”的步伐不断加快,全球的信息化建设正在如火如荼的进行着。 而w w w 的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的资源。 数据库技术正在越来越趋向于i n t e r n e t 上的应用或与i n t e m e t 相结合,w e b 数据库技术 正广泛地应用于各个电子商务领域,因此,基于i n t e m e t 环境下的w e b 数据库存取技 = = = = ;! ! 一 术也就成为了电子商务应用技术中的重中之重。w e b 数据库技术,特别是其基于网络 的存取技术的研究,是电子商务的重要前沿。之,肜一 论文采用j 2 e e 构架和分布式数据库技术对网上股票模拟交易系统进行了实 验和研究。主要结论如下:采用j 2 e e 技术来架构整个应用系统来满足模拟交易 系统的无需太多费用而又需要高可用性、高可靠性以及可扩展性的应用的需求,而且使 系统易维护性大大增强。同时,在组件设计中,经业务逻辑和对数据库的操作代 码进行分别打包、统一发布,使数据库数据的安全性提高了不少。采用分布式 数据库技术来实现w e b 数据存储,使模拟交易数据的稳定可靠性、可扩展性、 透明性以及安全性大大提高。这样也满足了在线交易的快速,甚至是实时性的要 求。采用x m l 来创建独立于系统的数据格式并进行数据传输,从而简化了数 据交换。另外,对半结构化的数据根据文档类型定义d t d 生成一个关系模式,将与该 d t d 一致的文档转化为相应的关系元组存八关系数据库中,这样提高了查询效率。使 用标签库来定制标签插入动态内容,增强了系统的安全性和核心模块代码的隐蔽 性。 , 论文的另一部分工作是采用x m l 技术对w e b 数据库的查询语言、数据的存 j 储、数据的查询处理和优化做了简要的探讨。一。 关键词:w e b 数据鹭分布式数据库j 数据模型jj 2 e e je j b t x m l i 英文摘要 a b s t r a c t t h eg l o b a li n f o r m a t i o n i z a t i o nh a sb e e nw e l lu n d e rw a ya st h e “g l o b a lv i l l a g e p r o g r a m ”i sg r a d u a l l yp r o g r e s s i n g a n dt h e f a s t d e v e l o p m e n to fw w w m a k e st h e t r a n s f e ra n ds h a r i n go fg l o b a li n f o r m a t i o na ni n c r e a s i n g l yi m p o r t a n tr e s o u r c ew i t ht h e m o s tl i k e l yp o t e n t i a l i t y t h ed a t a b a s et e c h n o l o g yi st e n d i n gm o r ea n dm o r et ob e i n g a p p l i e do nt h ei n t e r n e to rc o m b i n e dw i t hi t ,w h i l ew e b d a t a b a s et e c h n o l o g yi sb e i n g w i d e l ya p p l i e di n a l lt h ef i e l d so fe c o m m e r c e t h u s ,t h ea c c e s st e c h n o l o g yo ft h e i n t e r n e t - e n v i r o n m e n t - b a s e dw e bd a t a b a s ei s b e c o m i n g t h e k e yt e c h n o l o g y i n e c o m m e r c e t h ew e bd a t a b a s et e c h n o l o g y ,e s p e c i a l l y ,t h es t u d yo ft h en e t b a s e d a c c e s st e c h n o l o g y ,i sb e c o m i n ga n i m p o r t a n tf r o n t i e ro f e - c o m m e r c e t h i sp a p e ri st o s t u d ya n dt e s ta no n l i n es i m u l a t e ds t o c kt r a d i n gs y s t e mb y u s i n gj 2 e ea r c h i t e c t u r ea n dd d b ( d i s t r i b u t e dd a t ab a s e ) t h em a i n c o n c l u s i o n sa r e a sf o l l o w s :u s i n gj 2 e et e c h n o l o g yt oc o n s t r u c tt h ew h o l ea p p l i c a t i o ns y s t e mt o m e e tn e e d so ft h es i m u l a t e d t r a d i n gs y s t e m f o rl e s s c o s t ,h i g h e ra p p l i c a b i l i t y , r e l i a b i l i t y a n da u g m e n t a b i l i t y ,a n df o re a s ys e r v i c e a b i l i t yo ft h es y s t e m u s i n g d d bt o i m p l e m e n t a c c e s st ot h ew e bd a t a b a s e ,a n d s i g n i f i c a n t l yi m p r o v e t h e s t a b i l i t y ,r e l i a b i l i t y ,a u g m e n t a b i l i t y ,s e c u r i t y ,a n dt r a n s p a r e n c yo f t h es i m u l a t e ds t o c k t r a d i n gs y s t e m u s i n gx m l t oc r e a t ed a t af o r m a ti n d e p e n d e n to ft h es y s t e ma n d t r a n s f e rd a t a ,t h u s g r e a t l ys i m p l i l y i n gt h e d a t a t r a n s f e r u s i n gt h et a g b a s et o c u s t o m i z et a g sa n di n s e r td y n a m i cc o n t e n t s ,t h u se n h a n c i n gt h es e c u r i t yo ft h es y s t e m a n dt h es t e a l t h i n e s so fi t sc o d e s o n ep a r to ft h i s p a p e ri s a l s od e v o t e dt oab r i e fe x p l o r a t i o no ft h e q u e r y l a n g u a g eo f t h ew e b d a t a b a s e ,d a t as t o r a g e ,q u e r y ,p r o c e s s i n ga n do p t i m i z a t i o n k e y w o r d s :w e bd a t a b a s e ,d i s t r i b u t e dd a t a b a s e ,d a t am o d u l e ,j 2 e e ,e j b ,x m l i i 独创性声明 本人声明所里交的学位论文是本人在导师指导下进行的研究工作及取得的研 究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他 人己经发表或撰写过的研究成果,也不包含为获得强垄短或其他教 育机构的学位或证书而使用过的材料。与我同工作的同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:向 寸之 签字日期:二一年j 月如日 学位论文版权使用授权书 本学位论文作者完全了解盘五z 望必有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权尘生五至丝盘兰 可以将学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:向 幸定 导师签名: 李庀岛 签字日期:沙;年j 月如日 签字日期:山一年卜月p 日 学位论文作者毕业后去向: 工作单位:呷韵p 匀驰冲呵叮喑,睁墨习 通讯地址:呷衲陵廊f 牛f 司 电话:6 ,。s 妒7 f 邮编:, 口。 第一章绪论 1 1 引言 第一章绪论 w w w 的迅速发展,使其成为全球信息传递与共享的日益重要和最具潜力的资源, 如何管理w w w 上的大量信息,以满足用户不断增长的高质量的信息需求? w w w 作 为一种新的环境资源,为新技术的产生开辟了新的领域,同时也为数据库技术的研究提 出了新方向。 r 数据库是从6 0 年代初发展起来的计算机技术。经过二、三十年的发展,数据库技 术已经趋于成熟。从应用领域、采用的数据模型及相关技术的三维空间可以看到数据库 形成的门类:数据库与相关技术结合形成的分布式数据库、并行数据库、人工智能、知 识数据库、演绎数据库等;数据库技术在具体应用需求的基础上形成了工程数据库的研 究领域、地理分析系统数据库、数据分析决策等一系列分支;同时,数据大量积累形成 了一个新的应用需求,它带来了数据仓库、联机分析处理等技术【l j 。 当数据库技术和数据库应用的加强的同时,对数据库系统的要求就越来越高了。比 如数据库系统应支持数据管理、对象管理和知识管理;除提供传统的数据管理服务外, 数据库系统要支持更加丰富的对象结构和规则,应该集数据管理、对象管理和知识管理 为一体,这就是要求数据库系统必须支持面向对象数据模型【3 ,4 ;数据库系统须保持非 过程化数据存取方式和数据独立性;等等。 数据库系统必需对其它系统开放。数据库系统的开放性表现在:支持数据库语言标 准:在网络上支持标准网络协议;系统具有良好的可移植性、可连接性、可扩展性和可 互操作性等。 数据库管理系统d b m s 具有高可靠性、高性能、高可伸缩性和高安全性。数据库是 企业信息系统的核心和基础,其可靠性和性能是企业领导人非常关心的问题。因为,一 旦宕机会给企业造成巨大的经济损失,甚至会引起法律的纠纷。最典型的例子就是证券 交易系统,如果在一个行情来临的时候,由于交易量的猛增,造成数据库系统的处理能 力不足,导致数据库系统崩溃,将会给证券公司和股民造成巨大的损失。在我国计算机 第一章绪论 应用的早期,由于计算机系统还不是企业运营必要的成分,人们对数据库的重要性认识 不足,而且为了经费上的节约常常采用一些低层次的数据管理软件。但是,随着信息化 进程的深化,计算机系统越来越成为企业运营的不可缺少的部分,这时,数据库系统的 稳定和高效是必要的条件。在互联网环境下还要考虑支持几千或上万个用户同时存取和 7 x 2 4 小时不问断运行的要求,提供联机数据备份、容错、容灾以及信息安全措施等。 随着数据库技术的向前发展和i n t e r n e t 的出现,w e b 数据库成为了一个新的研究领 域。新的环境使数据库面临着四个方面的变化 6 , 2 6 2 8 : 数据容量的变化:数据量的急剧增长使数据库技术面临一个海量数据的管理问题。 数据内容的变化:数据的内容呈现一个多方位的方式,要处理的东西也越来越复杂 甚至包括了过程、程序等行为模型这样的一系列内容【l 0 j 。 系统本身的变化:系统体系结构上的变化对数据库系统本身的系统结构和处理能力 也提出了挑战,其中包括主存储器及外存储器的容量和价格的变化、通信速度的变 化等。 数据应用的变化:数据应用呈现出多样化的空间,数字图书馆、电子出版物及电子 商务、远程教育等,移动计算给数据库技术提出了新的问题。 在i n t e r n e t 发展到今天,数据库技术首先要解决的是,在数据库与i n t e r n e t 之上所架 构的信息系统之间有没有可结合的共同点。原有的数据库技术面对的空间是若干数据库 在一定的网络空间上连接起来的一个世界,在这个世界上它可以实施相应的技术,使用 户有效地管理各自的数据库,并集成起来去完成一定的任务。在w e b 世界中,这一情 况发生了本质的改变。w e b 上存储的是一些元结构,而且无法有能力去组织管理的数 据。每个站点上的数据都是在无序的状态下自生自灭。如何在这上面有效地实施数据库 管理技术,两者之间本质上存在着一定的差异。 这里在认识上的一个根本差异在于w e b 是不是一个巨大的数据库? 一种观点认为 整个w e b 对数据库没有提供本质的改变,其本质的问题是w e b 上信息系统设计及管 理的改变。1 9 9 8 年的一份报告形成了这样的论点 1 1 1 :w e b 在改变一切,w e b 是一个巨 大的数据库。但数据库技术没有在w e b 技术的发展中扮演重要的角色;w e b 世界迅速 发展,但大量的数据并没有依赖在数据库技术架构上。 从广义数据库理解的角度来说,w e b 是一个数据库,它是指一组相关的有用的信 第一章绪论 息的集合,从狭义的角度来说,w e b 不是一个数据库,因为它不是按一定数据模型组 织的数据的集合。 定义w e b 数据管理建立在广义数据库理解的基础上,它是指在w e b 环境下,对复 杂信息的有效组织与集成,方便而准确的信息查询与发布。 1 2 w e b 数据库简介 数据库技术正在越来越趋向于i n t e m e t 上的应用或与i n t e r n e t 相结合。传统的数据库 厂商之问的竞争也不得不从原来面对面直接的技术竞争,转变成为用户提供更优质应用 服务的竞争。已经大步走上网络的数据库更讲究服务。 i n t e m e t 正在改变着世界,同时也在全面而深刻地改变着企业的信息化建设。作为 企业信息系统核心的数据库系统,也正充分适应和利用着i n t e m e t 所带来的机遇和挑战。 现在用户可以通过i n t e m e t 直接访问远程的数据库服务器,也可通过w e b 服务器或中 间服务器访问数据库。 电子商务是以w e b 数据库等技术为支撑的,而w e b 数据库技术是电子商务的核 心技术。w e b 数据库,就是能将数据库技术与w e b 技术很好地融合在一起,使数据库 系统成为w e b 的重要有机组成部分的数据库。它能够实现数据库与网络技术的无缝有 机结合 6 】。 目前,关系数据库的应用范围最广,占据了数据库主流地位。关系数据库最初设计 为基于主机,终端方式的大型机上的应用,其应用范围较为有限,随着客户机服务器方 式的流行和应用向客户机方的分解,关系数据库又经历了客户机明艮务器时代,并获得了 极大的发展。关系数据库从设计之初并没有也不可能考虑到以h t t p 为基础、h t m l 为 文件格式的互联网的需求,只是在互联网出现后才作出相应的调整。同时,关系数据库 的基于中间件的解决方案又给i n t e m e t 应用带来了新的网络瓶颈,应用服务器端由于与 数据库频繁交互,因其本身的效率和数据库检索的效率造成i n t e m e t 应用在应用服务器 端的阻塞。 虽然关系型数据库具有完备的理论基础、简洁的数据模型、透明的查询语言和方便 的操作方法等优点,但是由于它本身并没有针对网络的特点和要求进行设计,因此并不 3 第一章绪论 适用于网络环境。新的数据库技术从开始就考虑到w e b 的信息和结构特点,使数据库 真正能与w e b 融合为一体,充分利用二者的特点,建立合理的w e b 数据库。 w e b 数据库的发展在发展过程中,经历了非结构化数据库和异构数据库系统等历 程。 1 非结构化数据库。 随着网络技术的发展,特别是i n t e r n e t 和i n t r a n e t 技术的飞快发展,使得非结构化数 据的数量日趋增大。这时,主要用于管理结构化数据的关系数据库的局限性暴露得越来 越明显。因而,数据库技术相应地进入了“后关系数据库时代”,发展进入基于网络应 用的非结构化数据库时代。所谓非结构化数据库,是指数据库的变长纪录由若干不可重 复和可重复的字段组成,而每个字段又可由若干不可重复和可重复的子字段组成。简单 地说,非结构化数据库就是字段可变的数据库。 随着网络技术和网络应用技术的飞快发展,完全基于i n t e r n e t 应用的非结构化数据 库将成为继层次数据库、网状数据库和关系数据库之后的又一重点、热点技术。 2 异构数据库系统 由于历史等原因,i n t e r n e t 上的数据库系统不少是分布、异构的。i n t e r n e t 上大量信 息必须通过数据库系统才能有效管理。那么,i n t e r n e t 环境下分布式海量信息情况下如 何建立合理高效的海量数据库,成为亟待解决的问题。针对目前关系型数据库占据了绝 大多数市场的情况,要实现网络环境下的海量信息共享,就必须联合各个异构数据库, 使得数据库之间能够通过主动式的超文本链接,实现相互连接,使得交叉引用的数据可 以被检索到。 企业在i n t e m e l 环境下实现电子商务,它的实际应用环境非常复杂。他们可能分布 在不同的地理位置,使用不同的数据组织形式和操作系统平台,加上应用不同所造成的 数据不一致性问题。如何将这些高度分布的数据集中起来充分利用成为亟待解决的问 题。建立在异构数据库系统基础上的数据仓库技术便产生了。 目前,异构数据库系统的集成以及建立此基础之上的数据仓库、数据挖掘已经成为 网络数据库技术研究的重点之一。国内外数据库厂商也将异构数据库系统作为竞争的焦 点,研究如何将原来传统的、可能分布于各地的多个关系数据库集成起来,进行改进和 发展,形成虚拟异构数据库系统和数据仓库,更好地为企业信息化、电子商务服务n 一4 第一章绪论 最近几年,我国的数据库市场飞速发展,并将具有更为巨大的增长潜力。首先,在 近几年里,电子商务成为各个公司企业发展的重心,甚至有人预言,电子商务极有可能 建立起新型的虚拟商业,乃至虚拟工业。而电子商务是阱数据库技术和网络技术为支撑 的,其中数据库技术是其核心。其次,有更多的用户把数据库的重要性放在十分重要的 地位,其主要原因是用户将把应用软件和应用需求放在首位,而应用软件开发直接依赖 于数据库开发工具。还有一个原因是硬件随着芯片技术的发展越来越缺乏特性,硬件指 标将变成次要的考虑因素。对行业性应用来讲,而今可能是首选数据库厂家再考虑硬件 厂家了。正是用户需求的这种变化给数据库厂商提供了新的发展机会。所以,在不久的 将来w e b 数据库将成为数据库领域研究的热点技术。 1 3 本文研究领域与实际的应用价值 课题研究的问题为异构分布式数据库的存取和传输技术及其应用。针对某专业领 域的应用,采用异种数据库系统和结构模型,主要解决异构分布式数据库的存取和传输 技术及其应用,关键在于采用j 2 e e 分布式多层架构以及采用基于组件的全新的开发技 术,解决了很多现实的问题。例如:在网络环境下,分布式数据库管理系统中数据分布 方案以及分布式数据库的处理方法:异构数据库的数据转换在大型信息系统中的实现问 题;电子商务安全性技术问题;异构分布式数据库的w e b 访问技术问题;等等。j 2 e e 的“一次开发,多次运行”、纯面向对象的特性、垃圾回收机制和内置的安全更好的迎 合了企业应用系统构造方法库管理系统的开发。由于采用了组件编程技术,在数据独立 性的角度实现了对象接口定义和实现的分离,并且对象方法具有高度的扩展性,从而大 大提高了应用系统的复用性和可扩展性。本文研究的问题应用于安全性和实时性要求都 很高的电子商务应用领域,对这种专用系统采用一种新的系统架构和新的实现技术,从 而大大降低了软件的维护成本,极大的提高了软件的复用可扩展性。因此,本课题在基 于互联网大环境下w e b 数据库的存取技术方面做出了有意义的研究和实践。 第二章w e b 数据库技术及其数据管理 第二章w e b 数据库技术及其数据管理 2 ,w e b 数据库技术 网络技术发展到今天,已渗透到社会生活的每一个角落,获得了巨大的成功。然而, 电子商务、电子图书、远程教育等全新领域异军突起,随之而来的是w e b 文件的复杂化、 多样化、智能化,而且要求同样的数据能根据不同用户的不同需求而以不同的效果、形 式表达出来。但是在w e b 世界中,数据的表现形式是十分不规则的、多样的,很难利用 传统的数据库技术来存储、管理所有的w e b 数据。而且将来的w e b 应该能够管理动态的 内容,而不是静态的h t m l 网页,对于这种个性化的w e b 应用需要复杂的数据库服务。 为此如何利用成熟的、已经发展得相当完善的数据库技术来对w e b 数据进行存储管理和 有效的检索,已经成为当今网络和数据库领域共同关心的问题,甚至认为这是本世纪的 重要的课题。 扩展标记语言x m l ( e x t e n d e dm a r k u pl a n g u a g e ) 技术的出现为解决上面的问题提供 了可能性,x 札是互联网联合组织( w 3 c ) 创建的一组规范,以便于软件开发人员和内容 创作者在网页上组织信息。其目的不仅在于满足不断增长约网络应用需求,同时还希望 借此能够确保在通过问络进行交互合作时,具有良好的可靠性与互操作性。现在x m l 正 在成为i n t e r n e t 上数据描述和交换的标准,并且在将来x m l 将代替h t m l 而成为w e b 上 驻留数据的主要格式。 当前w e b 数据库上的工作涉及的方面很多,本课题主要是应用在j 2 e e 的架构下所 作的基于组件的开发技术对查询语言、x m l 数据的存储、x m l 数据的查询处理和优化做 简要的综述。1 。有关3 2 e e 的架构将在下一章做以详细的叙述。 半结构化查询语言和数据模型已经获得了广泛的研究。”3 。x m l 数据也是半结构化 数据,相应的关于半结构化数据的结果可咀应用于j ( j l i l 数据。为了对x m l 数据进行有效 的查询,相继提出了一些有影响的查询语言,如,l o r e l l 。“3 、x m l q l ”j 、煳l g l 。3 “、 x s l ”- “3 和x q l 州等,在文。”中对这几种语言做了一个详细的比较。 6 第二章w e b 数据库技术及其数据管理 2 1 1 查询x m l 数据 x m l 现在正在成为i n t e r n e t 上进行数据交换的标准,因此w e b 上的x m l 数据将越来 越多。现在的w e b 工具,如浏览器、搜索引擎等,都是采用面向h t m l 格式数据的操作, 而对于x m l 数据需要一些数据库的操作,如数据提取、数据集成、数据转换、数据存储 等。因此,x m l 数据的查询语言应该能够表达基于内容的查询,允许应用从一个或多个 x m l 数据源中准确提取所需要的信息。x m l 数据与传统的关系数据或面向对象数据的根 本区别在于:传统的数据都遵循一定的数据模式,而x m l 数据是自描述的,没有固定形 式。由于x 札数据的半结构化特点,s q l 和o q l 都已经不再适用,因此需要建立新的查 询语言。下面就简要地介绍一下l o r e l 和硼l q l 这两种主要查询语言。前者可以对x m l 数据的结构进行存取,后者除了这一点之外还可以对查询的结果进行构造。今后x m l 查询语言应具有更多的特征“。 比如,l o r e l 是l o r e 系统的查询语言,它是通过对o q l 扩展得到的,l o r e l 具有以 下几个特点:( 1 ) 它具有一个强制类型转换功能。对于查询,无论所查询内容是字符串 形式还是整数形式或是其它形式,都会将相应内容返回。( 2 ) 对于丢失的信息采用忽略 的处理方式。由于实际的x m l 数据中经常出现数据丢失现象,l o r e l 具有一定的容错能 力,比较灵活。( 3 ) 属性变量可以是单值,也可以是多值的。( 4 ) 允许对不确定结构的数 据进行查询。 2 1 2x m l 数据的存储 当前x m l 数据的存储方式主要有三种:存储于文件中、存储于数据库系统中、建立 专门的存储系统。下面就对这三种方式简单地描述一下,并总结了它们各自的优缺点。 一、文件存储( x 札文档) 这种方法就是将一个x m l 数据文档直接作为一个文件存储。这是当前普逼采用的方 法,如源代码列表2 一i 所示的x m l 文档,它将作为操作系统的一个文件来存放。 如源代码列表2 1 : s t o c ki n f o r m a t i o n s t o e k t i t i e ) s t o c k c o d e 7 第二章w e b 数据库技术及其数据管理 s t o c k n a m e c o m p a n y n a m e f i o a m e b r i e f o f c o m p a n y ( c o m p a n y ,s t o g k 这种方法的优缺点如下:优点是实现很简单;数据所占用的空间小;x m l 数据以自 然合理的方式聚集在一起。缺点是由于修改操作涉及到对文件的修改,所以当前很少能 够支持修改操作:要求采用特殊的查询处理器来完成在煳l 数据文档中的查询;每次存 取或浏览时都需要进行分析,且分析后的文件比原x m l 文档大得多,在处理的过程中需 要驻留内存;建立索引很困难。 二、存储于数据库系统中 j x m l 数据存储在数据库系统中是最容易彼人们想到的方法,目前最为常用的是采用 关系数据库系统和面向对象数据库系统。在本课题的研究过程中,就是把数据存储于关 系数据库中。下面就从采用关系数据库系统、采用面向对象数据库系统和建立专门的数 据库系统三种方法分别加以说明。 首先,采用关系数据库系统。这种方法将x m l 数据存储于当前商品化的关系数据 库系统中,利用已经成熟的技术来处理x m l 数据。但是需要将x m l 数据转换成关系数据。 在文。“中分析了采用传统的关系数据库引擎处理x m l 文档方法的忧缺点,指出在x m l 数 据上大部分半结构化的查询语义都能采用关系的方法处理,但是只在一些情况下是有效 的。对x m l 文档的处理过程大致如下:首先,根据文档类型定义d t d ( d o c u m e n tt y p e d e f i n e ) 生成一个关系模式;其次,将与该d t d 一致的文档转化为相应的关系元组,并 装入关系数据库管理系统r d b m s ( r e l a t ed a t a b a s em a n a g e m e n ts y s t e m ) ;然后将在x g l 文档上的半结构化查询转换为在关系数据上的s q l 查询;最后将查询结果转化为x m l 数 据。 如源代码列表2 - 2 : ( ! e l e m e n ti n f o ( c o d e 、c o m p a n y ) ) 8 第二章w e b 数据库技术及其数据管理 ( ! e l e e n tn u m b e r ( # p c d a t a i t :e l e m e n to i n g y i n ( # p c d e t a ) 源代码列表2 2 是源代码列表2i 中x m l 文档对应的d t d ,通过这个d t d ,可以将 其转换成一个关系模式,例如一个可能的关系模式如源代码列表2 3 所示。 如源代码列表23 : s t o c k ( s t o e k i d :i n t e g e r s t o c k t i t l e :s t r i n g i n f o l d :i n t e g e r ,】 i n f o ( n u m b e r :s t r i n g ,p i n g y i n :s t r i n g i n f o l d :i n t e g e r ) c o m p a n y ( n e :s t r i n g ,b r i e f c o n t e x l :e x t ,) 这种方法的优缺点如下:优点是充分利用了现有的传统关系数据库的资源和技术; 当前的大数据库厂商已经或正在提供这种功能,如o r a c i e ,s 扎s e r v e r ,i b md b 2 等: 实现上工作量相对比较小。缺点是存储前后的转换工作很繁杂;为了清除半结构化数据 与二维数据之间的差别,其转换工作使原有的半结构数据部分信息丢失:转换后,在很 多情况下很简单的x m l 查询需要很多的s q l 语句查询,即使还是很少的s o l 语句查询但 每个语句中含有大量的连接操作。 其次,采用曲向对象数据库系统。与关系数据库系统的情况相似,也需要进行x m l 数据到对象模式的转换。这里也可以通过d t d 来导出对象模式,如对于上面的例子,一 个可能的对象模式o d m g 如下( 参见源代码列表2 4 ) 。 如源代码到表2 4 : c l a s s s t o c kp u b l i ct y p et u p i e ( s t o c k t i t l e :s t r i n g i n f o :l is t ( i n f o ) 。j c l a s si n f op u b l i et y p et u p l e ( n u m b e r :s t r i n g ,p i n g y i n :s t r i n g c o m p a n y :c o w a n y ) c l a s sc o b l p a n yp u b l i ct y p et u p l e ( n a m e :s t r i n g ,b r i e f e o n t e x t :t e x t ) 虽然面向对象数据库的复合类型和继承特性有助于解决x m l 数据的不规则性。但是 为半结构化数据设计一个面向对象的模式是很困难的,性能也是一个关键的问题。x m l 文档中的元素常常是很小的。将每一个元素都用一个对象来存储会使得系统存储空间的 开销很大。 三、建立专门的存储系统 在为半结构化数据和x m l 数据建立的专门存储系统中,斯坦福大学研制的l o r e 系 统是较为著名的一个,在这里先简单地介绍一下l o r e 系统”“。 l o r e 系统是一个专门为存储半结构化数据和x m l 数据而设计的数据库系统,可以通 过多种应用或者直接通过l o r e 的应用程序接口来存取l o r e 系统。系统大致分为两层: 查询编译层和数据引擎层。 9 第二章w e b 数据库技术及其数据管理 查询编译层由分析器、预处理器、查询计划生成器和查询优化器组成,分析器接受 一个查询的文本描述,并将它转换成一个语法分析树,最后将这个分析树提交给预处理 器。预处理器将l o r e 的查询转换成一个类面向对象o o l 的查询。查询计划生成器将这 个查询生成一个查询计划,并将这个计划提交给查询优化器。优化器需要对执行计划进 行一些变换和确定一些索引的使用,最后将优化后的执行计划提交给数据引掣层处理。 数据引擎层由o e m 对象管理器、查询操作执行部分、外部数据管理器和其它的工具组成。 查询操作执行部分主要完成上一层提交的查询执行计划。对象管理器用来完成o e m 与底 层文件结构的映射。它支持基本的元语。如取一个对象,比较两个对象等。 l o r e 的存储管理策略很简单,首先将) ( f - i l 数据分解为一些基本的要素( e l e m e n t ) 、 属眭和文本字符串,采用直接深度优先聚集方法进行物理存储。l o r e 将对象组织在物理 磁盘页上,每个页上有根多的槽( s l o t ) ,每个槽中有一个单独的对象。l o r e 支持跨越 多个页的大对象,对多媒体类型是有用的。采用深度优先的方法将对象聚集在页上。这 主要是由于系统采用深度优先的数据库扫描策赂。当一个对象有多个父对象时。它与任 一个父对象聚集在一起。 以上对w e b 数据库查询语言、查询处理咀及存储等方面进行了简单的分析和总结。 目前w e b 上的工作除了上面提到的几个方面外,还有很多如w e b 数据的缓存“。“,x m l 数据的索引技术“2 ”:,x m l 的视图技术4 ”1 等,这里就不再详细介绍。 2 2w e b 数据管理研究 目前x m l 将成为新一代因特网数据组织和交换的事实标准,并且大量的x k i l 数据将 很快出现在w e b 上。实质上,x m l 为w e b 的数据管理提供了新的数据模型,可以预见, 很多成熟的数据库技术将进入w e b 信息处理领域,把w e b 变为一个巨大的数据库a x m l 是朝这个方向迈出的第一步。这种变化给数据库研究界带来了巨大的机会,使得将数据 库技术和研究扩展到? f e b 数据的管理成为可能。目前对x m l 数据的存储和查询方面的研 究正方兴未艾。x m l 数据模型与半结构数据模型有着很多的相似性,可以说,x m l 是w w w 上的半结构数据。它既为半结构数据的研究提供了广阔的应用前景,同时也推动了半结 构数据研究的发展。 一1 0 第二章w e b 数据库技术及其数据管理 一_ _ - _ 、- h - - _ _ _ _ _ w e b 的目前状况离w e b 上有效信息服务与信息管理的实现还有差距,这正为数据库 技术向w e b 领域发展提供了空间。新环境中的数据库技术研究内容包括半结构数据模型 及其理论、w e b 查询处理、因特网上的信息集成与发布、半结构数据的存储、数据安全、 分布计算等,它与w e 8 上已有的成熟技术( 如信息检索技术) 相结合可以用来解决w e b 上 数据管理、动态维护等关键问题。 2 2 1 w e b 查询介绍 目前w e b 上的查询主要基于搜索引擎的关键词索引技术,这种技术的搜索范围可以 很大( 甚至是整个w e b ) ,但是也存在些不足:无法进行对页面内结构和页面间连接的 查询;查询的结果重复页面多、查询结果格式的重构能力弱;无法利用用户已知的知识 缩小查询范围;无法利用已有的字符串处理或文档处理的库函数;无法反映w e b 的动态 变化等等。因此,很多研究侧重在提供功能更强大的w e b 查询和重构语言,如w e b s q l ”“, w e b o q l “,w e b l o c - “,s t r u q l “”,u l i x e s 与p e n e l o p e 。5 ,w 3 q l “”等。此外,与w e b 查 询有关的理论( 如w e b 查询的可计算性、路径追历的优化算法4 “、w e b 站点的完整性约束 机制等) 也都是很受关注的课题;w e b 查询的用户界面的研究也很有意义,在这方面,l o r e 系统的d a t a g u i d e 为半结构化数据查询提供了一个交互式用户界面,帮助用户利用抽取 出来的模式构造查询。5 “。 w e b 数据库的查询语言,典型代表是w e b s q l ,s t r u q l 。表2 一l 给出了目前主要w e b 查询语言的特点对比分析“。 表2l 吒b 查询语言比较 语言名称数据模型语言风格路径表选式结果的重拊 w e b s q l 。1 ”关系s o l支持无 w e b侧重查询 * 3 0 l ”1边标记多图s q l支持无 数据w e b l o c - ”1关系 o a t a l o g不支持有 查询w e b l 。 超树( h y p e r t r e e ) 0 。l支持有 语言 侧重重构s t r u q “边标记图d a t a l o g支持有 u l i x e s & p e n e l o p e 5 2 1关系和页面模式 a d md d 腿s o l 支持有 半结构化l o r e 边标记图0 。l支持有 数据语言u n 札“7“树”结构递归支持有 x f f l 语言删l o l 。1标记图类似s o l l支持有 这种查询其实都很复杂,而且很麻烦,但是x b ! l 又有很多优点,结合结构化查询 第二章w e b 数据库技术及其数据管理 这样将动态的w e b 内容通过程序读八到数据库,通过x m l 来部署和管理w e b 信息,这样 既方便又安全。 2 2 2 半结构数据模式研究 一、半结构模式的抽取 w e b 可以放看成是一个巨大的、异构的、分前i 的、由超文本链接所连接的文挡的集 合,对这样的数据进行查询与传统的数据库查询有着明显的不同。首先,已有的数据模 型不能很好地适应网上数据的特点,需要引入新的数据模型:其次,由于i n t e r n e t 上 的许多数据经常缺乏明确的模式,存在不规则的数据形式,这就给查询和处理提出了新 的挑战,由此人们提出了半结构化数据的概念。半结构化数据是界于严格结构化的数据 ( 如关系数据库中的数据) 和完全无结构的数据( 如声音,图象文件) 之间的数据形式,它 具有如下一些特点: ( 1 ) 隐含的模式信息 半结构化数据具有一定的结构,但其结构与数据混在一起,没有显式的模式定义, 如h t m l 文件。 ( 2 ) 不规则的结构 一个数据集合可能由异构的元素组成,例如学生集合中某些学生有电子邮件地址, 另一些学生则没有。同样的信息可能由不同类型的数据表示,例如某些姓名是字符串, 而另一些则是由f i r s tn a i i 】e 和l a s tn a m e 组成的复杂结构。 ( 3 ) 没有严格的类型约束 由于没有一个预先定义的模式,以及数据在结构上的不规则性,所以缺乏对数据的 严格约束。 目前国内外关于半结构数据的研究主要集中在新的数据模型、查询模式、存储技术 以及优化技术等方面“”j 。在众多的研究课题中,对半结构化数据结构的研究是个 非常重要的方向。半结构化数据存在一定的结构,但这些结构或者没有被清晰地描述 或者是经常动态变化的,或者过于复杂而不能放传统的模式定义来表现。半结构化数据 的模式与传统的关系或面向对象数据的模式不同,主要有如下一些特点:对半结构化 数据来说,是先有数据,后有模式;半结构化数据的模式是用于描述数据的结构信息, 1 2 第二章 w e b 数据库技术及其数据管理 而不是对数据结构进行强制性的约束;半结构数据的模式是非精确的,它可能只描述 数据的一部分结构,也可能根据数据处理的不同阶段的视角而不同;半结构化数据的 模式可能规模很大,甚至超过源数据的规模,而且会由于数据的不断更新而处于动态的 变化过程中。 没有强制性的模式的限制,使半结构化数据具有很大的灵活性,能够满足网络这种 复杂分布环境的需要,但是也给数据的处理带来了很大的困难,使得数据处理的效率低 下,很难具有实用性。半结构化数据模式在实际的数据处理中有着很广泛的用途,主要 有:( 1 ) 用户界面。“。由于半结构化数据没有明确的模式,给用户查询带来了很大的困 难。模式信息有助于用户了解数据的结构,从而提出更精确和有效的查询。( 2 ) 查询优 化处理”。模式信息有助于查询处理器对查询计划进行优化,大大缩减查询的搜索空问。 ( 3 ) 改进数据存储。了解模式信息,可以更好地设计数据的物理存储结构,以及索引, 从而提高查询执行的效率。( 4 ) 异构数据源的集成。了解不同数据源的模式信息。有助 于选择适当的集成模式和定义转换规则。 二、模式的描述形式 对于半结构化数据的模式,日前已经提出了多种描述形式,比较有代表性的有基于 逻辑的形式“”和基于图的形式1 。无论是哪种描述形式,其讨论的基础都是采用带标记 的有向图作为半结构化数据模型,最典型的就是o e m 模型”。 三、模式的抽取 前面已经提到,半结构化数据是先有数据,后有模式。所以模式研究的一个重要方 面就是如何从数据中得到模式,即模式的抽取。模式抽取所研究的问题是:给定一个数 据实例,在没有任何事先知识的情况下,自动地计算数据的相应模式;如果存在多个可 能的模式,选择能最好地描述给定数据的模式。目前提出的模式抽取方法主要有 d a t a o u i d e “1 ,基于d a t a l o g 规则的抽取“3 ,以及一些聚类( c l u s t e r i n g ) 和分类 ( c l a s s i f i e a t i o n ) 方法,如文献“1 中提出的概念聚类方法。 2 2 3基于x m l 的数据管理研究 , x m l 作为一种新的网上数据交换的标难,正在引起人们极大的关注。x m l 是标难的 通用标记语占s g m l i s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 结石成分微观分析-洞察及研究
- 桥梁基础施工方案技术要点解析
- 2025年学历类自考大学语文-中国古代文学作品选(一)参考题库含答案解析(5卷)
- 2025年学历类自考国际经济法概论-学前教育史参考题库含答案解析(5卷)
- 吉林省东辽县安石镇第二中学校九年级信息技术上册 第1课 初识PowerPoint 2003说课稿 新人教版
- 2025年学历类自考国际私法-国际企业管理参考题库含答案解析(5卷)
- 2025年学历类自考国际法-网络经济与企业管理参考题库含答案解析(5卷)
- 2025年学历类自考商法(二)-学前特殊儿童教育参考题库含答案解析(5卷)
- 2025年北京市昌平区英语高三第一学期期末学业水平测试试题
- 第四章第二节农业说课稿2025-2026学年人教版地理八年级上册
- 2023无人机技术概论
- 读书分享交流会《全球通史》课件
- 《照明线路安装与检修》一体化课件-第一章 职业感知与安全用电
- 交叉配血理论课件
- 全国青少年图形化编程等级一级试卷及答案
- 三维地震勘探施工设计
- 诚信展业与法律法规月演示
- 工程管理咨询服务合同
- 外派劳务人员基本情况表(劳工表)
- 进度计划纠偏措施
- 高雨-博士开题报告(最终版)
评论
0/150
提交评论