付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、分类号:TP392密级:公开代码: 1 0 1 2 7 :题目:基于海量数据的数据库模型优化研究号:200802055学作者: 计算机应用技术_专 业名 称:2011 年 06 月 17 日基于海量数据的数据库模型优化研究题目:作者: : 内科技大学指 导教师:教授协助指导教师:提交日期:2011 年 06 月 17 日学位授予:内科 技 大 学基于海量数据的数据库模型优化研究Research of Optimization of the Database MMassive DataBased on:指导教师:内科技大学信息包头 014010,中国Candidaiang YingSupervi
2、sor:Xing Dong-xuSchool of Information EngineeringInner Mongolia University of Science and TechnologyBaotou 014010,P.R.CHINA独创 性说明本人郑重:所呈交的是我个人在导师指导下进行的研究工作及取得研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,内中不包含其他人已经或撰写的研究成果,也不包含为获得科技大学或其他教育机构的学位或所使用过的材料。与我一同工作的表示了谢意。对本做的任何贡献均已在中做了明确的说明并签名: 日期:_关于使用的说明本人完全了解内科技大学有关保留、使
3、用的规定,即:学校以保留送交的复印件,允许被查阅和借阅;学校可的全部或部分内容,可以采用影印、缩印或其他保存。(的在后应遵循此规定)签名:导师签名: 日期:摘要网络高速发展的今天,数据传输和量越来越大,海量数据库系统应运而生,如何将有限的物理空间高效的利用起来,成为目前研究数据库的学者们探讨的首要问题。因此,海量数据的管理,海量数据库的优化就成了值得研究的突出课题。而目前的海量数据库模式大部分是在原有的小量数据库模式上面进行改造,这样就产生了很多弊端和不适应,一些新兴的数据库模式,特别是大型企业的数据库模式也只是将数据简单的压缩,使得所的数据不全,不适合如全球地理信息系统、气象系统、系统以及一
4、些有这连续性、微量变化、时间敏感性的一些数据库系统。这样的数据库系统用现有的数据库性。模式会产生如下问题:数据冗余度大、精确度差、计算繁琐、查询有局限针对以上问题,提出了新型的数据库模式,建立基态库将原有的数据库冗余度大大减小。建立增量库使的数据连续、详细并且计算简单。建立历史库使得只能一个月实时数据的系统,目前了 2 年之内的信息。文章通过对近几年关于海量数据库的研究,结合了一些海量数据库的存储模式,并对其进行分析与研究,将原有的数据库模式与现代海量数据库的模式进行对比以及分析利弊,提出先进的数据库布局模式动态-增量数据库模式。在此模式的基础上,提出适合动态-增量库模式的算法和备份策略。文章
5、在 Windows Xp 系统下运用 JBuilder 开发工具 Sqlserver2003 数据库以全球台网到的全球信号为基础数据对数据库模型进行反复实验和改良。建立了以动态-增量模型为基础的数据库体系,并在动态-增量数据库模型的基础上研究适合其特点的储模式的优化设计。结构和优化算法。实现了海量数据库存关键字:海量数据;优化;数据模型IAbstractWith the radevelopment of network, daransmisand storage capacity areing larger and larger. A sea of database storage syste
6、ms have emerged as thetimes require and how to utilize the limited physical memory storage space effectivelyhase a critical problem facing many database researchers. Therefore, themanagement of seas of data and optimization of masses of databases has been anoutstanding task. However, most of the pre
7、sent database storage patterns are reformed based on the existing small database schema, which cause many drawbacks andinadaptability. For exle, some emerging database schemas in large entrise justsimply compact data and store them. This will resulthepletion of data storage.At the same time, this wi
8、ll not meet the requirement of database systemch as GlobalGeography Information System, Meteorological System, Seismic System and somesystems with continuity, slight change and time sensitivity. There are many problems inthe existing database storage ms. These systemst use the existing databasestora
9、ge ms can cause some problems including:Large data redundancy, Lowaccuracy, Complicated calculation and Limiion of query.To solve the problems above, a new type of database storage mode was proedin this study. The original se library database was built to grey reduce theredundancy of original databa
10、se and the establishment of incremental library was conducted to make the stored data continuous, detailed and easy to calculate. The historical database was founded to extend storage time of data from one month to twoyears.his work, multitudes of research p combination of storage patterns of hugeca
11、refully. With the comparison and thers on database were investigated with thedatabaset were studied andyzedadvantages and disadvantages of storagepatterns of the existing databases and modern magnanimous databases considered, an advanced database layout mode, namely dynamic-incremental database stor
12、age mode (DIDSM) was presented and the algorithm and backup strategy were sought for DIDSM based on this storage mode. JBuilder development tool Sqlserver2003 was run in the environment Windows XP Operating System to pro s collected seismic signals in global seismic networks with repeated experiment
13、s and improvements. A databasestorage system based on dynamic-incremental mode was established. Also, thecharacteristics ofernal storage structure and optimization algorithms were studiedaccordingly on the basis of DIDSM, achieving the optimization design of magnanimousdatabase storage mode.Keywords
14、:massive data; optimization; data mII目录摘要IAbstractII1 绪论.- 1 -1.1 选题的目的和意义.- 1 -相关概念介绍2数据库系统模式的概念2Oracle 数据库模式结构2国内外研究现状41.3.1 地理信息海量数据库模式41.3.2 商业海量数据库模式71.3.3 其他关于地理信息的数据库模型102 海量数据库模式相关技术14海量数据14海量数据库系统14连接池技术15连接池原理152.2.2 连接池的. 15DBHDP 算法16算法研究背景162.3.2 问题描述.- 19 -2.3.3 DBHDP 算法202.4 算法性能分析和相关的
15、定义223 动态-增量数据库模式26内容简介26状态基态库273.1.2 增量库.- 27 -3.1.3 历史库27数据库的建立27基态库的建立27增量库的建立29历史库的建立30数据冗余31查询效率的提高32实验测试及结果分析364.1 实验环境36- 1 -4.2与分析364.3 通用的海量数据库性能测试系统39结论41参 考 文 献42在学研究成果46致谢47- 2 -1 绪论1.1 选题的目的和意义比如说个阶段:部门,从计算机的应用以及和海量数据的处理方面可以分为以下几20 世纪末的原始处理阶段:主要为人工运算,在分析预报处理阶段大部分还是以手工操作为主,地磁方面用 k 量板人力和物力
16、浪费相当大。只是手工整理好的资料进行人工手打输入,整理成册。阶段说明:极大地浪费人力物力,资料有人工误差。到了九十年代中期基本摆脱原始处理阶段:九十年代中期,随着计算机的慢慢普及,世界计算机的发展与各界的研究,地震预报分析数据的处理从原始的处理阶段衍生到了局域网阶段。大大提高了数据的准确性、合理性以及批量利用率。使得在系统内的数据自成一体。使得对数据的处理有了连续性。让阶段说明:在研究对批量数据有据可循,有法可依。系统达到了自成一体的数据阶段。仪器代表:mf360 大型计算机。九十年代中期,随着广域网的诞生,阶段。系统数据处理也上升到了广域网处理九十年代中期为计算机的快速发展时期,日新月异,随
17、着飞速的发展,也给系统的海量资料处理带来了。广域网的产生,让资料世界化、公开化。在任何一个系统的计算机中,可以观察世界范围内的原始资料。使得预报的研究有了突飞猛进的发展。彻底摆脱了人工服务阶段。阶段说明:虽然数据资料与世界接轨,但是在数据造成很大的误差。由于信息发展日新月异此阶段没有具体的代表仪器。方面还很,人工21 世纪初开始海量数据的处理开始成为各位专业化,进入了海量综合数据管理阶段。研究的重点。随着海量数据处理海量综合数据管理系统阶段目前还停留在初步实施阶段,发展还不够成熟,主要任务是利用计算机网络、web 技术、海量信息处理技术、数据挖掘等现代大型数据库处理技术来实现部门数据库的海量综
18、合数据管理系统的构建。综上所述,我国的信息管理系统在“十一五”期间,还处于运用数据- 1 -库管理系统的业务流程模式,并且这一模式还只是初步形成。这样不成海量数据题:模式在省级局实行时,数据的和处理,一般情况下会存在以下问1、数据库随着数据量的增多以及变化的需求出现了瓶颈(只能的数据);2、数据库查询效率慢;一个月之内3、查询历史数据非常慢有时候根本查不到(一个月以外的根本查不到);4、数据库所的信息冗余大;为了解决以上问题,提出了适合具有时间敏感性、空间敏感性、数据量大、连续性等特点的数据库模式的“动态-增量”数据库模式。1.2 相关概念介绍1.2.1 数据库系统模式的概念在数据模型中有“型
19、”(T)和“值”的概念。型是指对某一类数据的结构和属性的说明,值是型的一个具体赋值2。1.2.2 Oracle 数据库模式结构实验数据库为 Oracle 数据库,因此对 Oracle 数据库的模式结构进行详细、系统的介绍。一个完整的 Oracle 数据库系统,主要包括数据库和实例两大部分,而要想熟练的应用 Oracle 数据库,首先要能描述 Oracle 大概的体系结构并且能够熟练的连接到 Oracle 数据库3。图 1.1 为 Oracle 数据库的体系结构。图 1.1 描述了 Oracle的体系结构,包括 Oracle 服务器(Oracle数据库server)它由 Oracle 实例与数据
20、库组成。应用 Oracle 数据库,首先安装数据库,它具有打开数据库、数据库的完整性等功能。所谓的实例,它是用来访问一个 Oracle 数据库,并且总是打开一个或者仅仅打开一个数据库(一个实例只能打开一个数据库),如果想打开两个数据库必须用两个实例,它由内存、继承结构组成。内存是由共享池、数据缓冲池、java 池、大池组成,而继承包括PMON,SMON, DBWR,LGWR, CKPT 等。数据库由数据文件、控制文件、以及 redolog 文件组成。数据文件所的为用户数据信息,控制文件负责有关数据库的控制命令信息,redo log 实现当数据库事件发生错误时可以还原到原来的状态,它的功能是把对
21、数据库的任何改变动态的记下来。SGA(System Global Area)内存结构由- 2 -共享池、数据缓冲区、redo log 组件、java 工具、大池工具组成。其中大池工具不是很常用。java工具与Overview of Primary ComponentsServer pros图 1.1 Oracle 数据库的体系结构连接和会话:当程序连接到数据库时,就要向 Oracle 发送相应的请求,例如:用户进程(usros)、Server 进程、实例、数据库。这个过程在数据库中表现为一个会话被创建,同时有一个 Servros 它与用户进程一一对应,代表 user 的进数据库打交道。其过程如
22、图 1.2 Oracle 数据库连接过程所示:ServrosConnection establishedSescreatedUsrosDatabase user图 1.2 Oracle 数据库连接过程- 3 -Oracle serverPassword filesArchived Log filesDatafilesControl filesRedo log filesDatabaseParameter filesInstanceShare PoolSGALibrary CacheDatabase Buffer CacheRedo Log BufferData Dictionary Cache
23、Java PoolLagoolPMON SMON DBWR LGWR CKPT Others1.3 国内外研究现状1.3.1 地理信息海量数据库模式1、与时空有关的数据模型定义GIS4:该模型将一个物体从时间,空间和物体属性入手进行描述。描述范围广泛,具有针对性,其中对时间进行描述的意义就是该事物发生的具体时刻,如得到内巴彦浩特台的一个,时刻为年月日点分 51 秒,ml=2.2 在数据方面时间的描述为:1984-2-29 22:15:51 对空间的描述则为巴彦浩特台,对属性的描述为 ml=2.2。时空 GIS 是建立在人工智能、GIS、时态数据库等基础上的综合型应用性技术。2、时空数据模型的发
24、展历程J F Fries 和 Giederhold 将时态对象的处理在当时的医疗系统中并进行了的广泛应用5。1977 年 Thrift 提出了 GIS 的概念,并成为 GIS 的创立人。Morrison 和 Basoglu 于 1978 年将 GIS 突破了理论层面,设计了最早的 GIS(historical GIS)6。工作重点:时态数据库查询语言和时态历史数据库等方面的研究。理论方面,J Ben Zvi(1982)、S Ginsburg(1983) 和 J Cliford(1982)三位学者分别在非第一范式时态数据库、对象历史模型和关系型历史数据库方面所进行的具有很强的代表性的开创性时空数
25、据模型研究7。1992 年 Langran 撰写了关于 TGIS 一本专著,著作的名字叫做地理信息系统中的时间8。1994 年 Bill Hibbard 和 Dave Santek 提出和建立 5D 数据模型;1995年 Hazelton 提出了 4DGIS 的理论9;1996 年至 1998 年 Gadia 和提出了时态元素(temporal element)和时态赋值(temporal assignment)的概念,即在第一范式的基础上加入了时间参照,使之成为时态属性,建立了时态模型;1997 年 Langran以实时变化的空间数据的角度为基础,提出了支持文件系统的四种参照模型10,分别是
26、基态修正、时空立方体、快照序列和时空复合等四种时态数据模型。在过去的十一五阶段,对于数据的处理还有很多之处,就目录而言,许多省、市还有很多的差异,首先是内容格式不,对于年代久远的数据程度有很多异议,数据的程度从 1990 年开始步入正轨化,这也证明了,计算机的发展与之前的工作有重要的意义。让很大程度上增加了自信心,的成绩是有目共睹的。但是还有很多,从时空海量数据方面来看,国内的研究重要局限在时间与空间的迭代差异上,而国外的研究则相对多样一些,主要有地理原胞、多智能研究方面取得了很大的成就。值得学习和应用。- 4 -从地理建模方面看,全面系统的对位置、属性、空间、关系、分析、质量控制方面的不确定
27、性进行了详细的处理与研究,对动态实时数据有很大的效果。所谓动态模型对应动态事物,对不定的数据,根据其变换规律建立了与之相适应的模型。对于我国学者而言,在过去的五年里研究成果也是非常让尊敬的。他们提出了地学信息图谱的概念。所谓地学信息图谱就是根据目前说有的地质勘探,把相关的地形地貌绘制成图谱的形式。通过图形的形式将时间、空间、属性三个特点相结合从而更直观的一个地点的地形地貌和近亿年之内发生的地质变化。给对地质方面的研究创造了良好的基础。将一些容易或容易产生变换的特殊地点进行重点追踪与观察。使得的源。(1)国内产生了 mapsis预报工作更有目的性。节省了大量的人力物力资Mapsis的引进与应用从
28、速报、预报、地质资料查询等各个方面入手,使目前资料汇总方面的工作基本上转入了正规化。当处理一个关于的数据资料时,不必用若干年前的老尺子、老方法只需要轻轻的滑动鼠标,键入数据就可以得到想要的知识与图像。远离了过去一张张图纸的呆板处理方式。(2)地理空间和时间信息化标准从出台的地理空间和时间信息化标准15一书里可以清楚的认识到地理信息已经成为了一个标准化的应用理念,地理信息由为重要,地球当中,作为万物之首人类,必须了解所生存的空间。这样才能避免一些不必要的。例如,一些大自然的,生物的变迁、物种的迁移等。虽然地理信息数据已经标准化,但是其标准只是他的数据的内容模式上面有一个具体的标准,也就是在实际当
29、中,新增数据与历史数据的格式标准化了,使得国内与国外的数据能够在相互接近的模式方面还有很大的出入。上达到互惠互利的效果。但就网络高速发展的今天,数据传输和量越来越大,海量数据库系统应运而生,如何将有限的物理空间高效的利用起来,成为目前研究数据库的学者们探讨的首要问题。因此,海量数据的管理,海量数据库的优化就成了值得研究的突出课题。而目前的海量数据库模式大部分是在原有的小量数据库模式上面进行改造,这样就产生了很多弊端和不适应,一些新兴的数据库模式,特别是大型企业的数据库模式也只是将数据简单的压缩,使得所的数据不全,不适合如全球地理信息系统、气象系统、系统以及一些有这连续性、微量变化、时间敏感性的
30、一些数据库系统。这样的数据库系统用现有的数据库如下问题:数据冗余度大、精确度差、计算繁琐、查询有局限性。模式会产生- 5 -针对以上问题,提出了新型的数据库模式,建立基态库将原有的数据库冗余度大大减小。建立增量库使的数据连续、详细并且计算简单。建立历史库使得只能一个月实时数据的系统,目前了 2 年之内的信息。的研究,结合了一些海量数据库的文章通过对近几年关于海量数据库模式,并对其进行分析与研究,将原有的数据库模式与现代海量数据库的模式进行对比以及分析利弊,提出先进的数据库布局模式动态-增量数据库模式。在此模式的基础上,提出适合动态-增量库模式的算法和备份策略。文章在 Windows Xp 系统
31、下运用 JBuilder 开发工具 Sqlserver2003 数据库以全球台网到的全球信号为基础数据对数据库模型进行反复实验和改良。建立了以动态-增量模型为基础的数据库体系,并在动态-增量数据库模型的基础上研究适合其特点的计。结构和优化算法。实现了海量数据库模式的优化设3、特点时空 GIS 是一种计算机系统(简称 TGIS)16,它继承了传统地理信息系统的空间特性又加入了时间特性。(1)时间与空间并存即能准确的事物的空间状态,又能反映其变化规律与过传统的GIS 相比较,TGIS 操作的对象是时间信息,更具有时间特点,并且对时态数据做了专门的处理,使时间与空间和谐并存。而传统的 GIS 只是了
32、对象一个时刻的信息,没有进行相关与时态的专门处理,因此它只能反映当前时态,历史和未来则无能为力17。(2)时间上连续性,空间上对应性显而易见,客观事物的发展规律都是紧密相连的,想要正确事物的发展状态,必须有连续的时间与准确的空间,TGIS 在系统中增加对时间维度的分析、表达能力,历史分析与趋势分析的功能,也是时空 GIS 的独特之处。(3)时间与空间紧密相连TGIS 最重要的特点之一是它能表达事物和对象的发展变化过程以及规律。时间、空间以及属性表述为地理实例和地理表象本身所拥有的基本属性,它是表现地理实例的现状和变化的组成成分。对空间地理实例的以上三个特征的研究出发点的差异,将相其分为:侧重空
33、间和属性 的比较老旧的 GIS;侧重属性和时间的关于时态的数据库;侧重空间和时间的图形动画以及以全部设计到的现代全能型 GIS 的领域18。- 6 -1.3.2 商业海量数据库模式商业海量数据库模式19,文章以 2011 年 4 月 16 日电信业海量数据库中的数据库系统为例子。想要在较短的时间内在几千亿条话单数据中找到用户想要的数据是商业海量数据库模式所追求的。但是用普通的分区、列存、集群、并行查询、索引、压缩等各种技术来进行优化处理已经满足不了商业信息的突飞猛进的发展趋势,那么有一个最优的海量数据库模式就能更好的将这些现有的技术系统高效的结合起来,达到最优的效果。这才是数据库数据如何压缩:
34、优化的趋势。压缩的主要目的不是减少空间占用,而是提高查询性能,CPU 平均处理带宽3.6GB/秒(7000 万行/秒/核),I/O 平均处理带宽 300MB/秒,通过压缩I/O 带宽,实现 CPU 与 I/O 处理均衡,提高查询性能。具体流程图见图 1.3。用户查询通用压缩规则压缩通用压缩用户查询图 1.3 压缩流程图使用通用压缩算产生以下问题:LZMA:CPU 处理带宽太低;压缩比 18.9:1,速度 171MB/秒/核(折算后)CPU 处理带宽 I/O 处理带宽 5.7GB/秒;LZOP:压缩率太低;991MB/秒,压缩比 7.2:1,处理带宽 2.2GB/秒;速度 891Mb/秒/核(折
35、算后)CPU 处理带宽 2.4GB/秒,I/O- 7 -图 1.41.6规则;企业对压缩的要求20压缩率不低于 15:1,CPU 处理带宽不低于 5GB/秒;关于索引21:对于查询率较高的数据选择适当的索引,选择传统索引,空间占用大,忽略不计,成本高,对装载速度影响大。对索引的要求:占用空间对压缩率贡献可开销对装载速度无明显影响,选择率接近于数据的实际选择率,远快于表扫描。为了解决以上问题,在和图 1.6。以及编码方面遵循了三条规则,见图1.4、图1.5图 1.4规则 1图 1.5规则 2- 8 -112011TTGW 000312TTGW 000113TTGW 000114TTGW 0001
36、15TTGW 000116TTGW 000117TTGW 000118TTGW 000119TTGW 000120TTGW 0010图 1.6规则 31、传统索引的:成本高,对数据装载速度影响极大。2、先建模式下:索引需要同步,随机影响性能,过无法引入压缩。3、后建模式下:需要大规模的排序,创建成本高。4、空间占用大:以 B 树为例,二元组,按照键值顺序排列,按列压缩,ROWID 随机性强,难以被压缩,整体空间成本6 字节,分片索引。5、技术要点:将表按照一定行数据划分成多个数据包,为每个压缩包建立各列的摘要信息(如最大值、最小值),所有数据包上的属于特定列的全部摘要信息,该列的分片索引22利
37、用摘要信息,来判定对应的数据包中是否包含满足特定的查询条件的行,如确定不存在这样的行,则整个数据包无需被解压。这样每个数据包就可以无须后续成本的自动生成。主要优点:(1)索引在每个数据包生成之后即自动生成,无后续成本;(2)摘要信息空间占用小,通常被索引数据的 1/10;(3)采用合适的摘要信息,可以实现接近于传统索引的过滤效果;- 9 -6、KSTORE 主要技术特性:数据压缩,高压缩比、高性能,对应用完全透明。支持行列混合,水平分区,支持多种方式的分区策略,支持二级分区,支持并行查询和智能化分区过滤,高可靠性,支持多粒度备份恢复,提供并行备份恢复支持,支持与 Veritas、HACMP、H
38、eartBeat 等第的集成。行业特色:分级、插值更新、数据自动。其它特性:支持数据库集群(使用神通 CLUSTERWARE),物化视图、位图索引、数据管理。综上所述类似这样的管理模式与方法,对于企业以查询为主的用户操作是比较实用的,将其运用到以时间、空间为主要要求的数据如、气象、地理信息系统方面就会产生很多问题。存在:1、数据库随着数据的增多以及变化的需求出现了瓶颈;2、数据库查询效率慢;3、查询历史数据非常慢有时候根本查不到;4、所得到的空间数据与时间数据无法联系;5、看不到事务发展的渐进过程。解决问题的方法:在时空数据模型发展的基础上,提出了一种基于状态变化增量的面象的时空数据模型,将时
39、空数据分为状态基态库、增量属性库、历史属性库三部分,利用属性标识符表示数据对象在各部分库中的存在与否,进而对操作语言进行基于动态数据模型的扩展。这样的模型对于海量数据可以达到提高查询效率减少冗余的效果,并针对“状态-增量”数据库系统进行系统算法的匹配性改良。1.3.3 其他关于地理信息的数据库模型国内、外关于地理信息的数据库模型当前还处于发展阶段,所形成的数据库系统还相当不成熟,下面介绍以下比较典型的关于地理信息的数据库模型。1、侧重于时空的立方体数据库模型被称为地理信息数据库模型之父的 Hagertrand 首先提出了时空立方体数据库模型。虽然后人又对它有了进一步的改造,但是 Hagertr
40、and 的独到见解与其敏锐的思- 10 -考与观察能力都是可敬可佩的。时空立方体数据库模型23用二维的坐标轴描述平面的空间,同时在二维坐标轴上加上一维时间轴形成一个类似于立方体的模型,当物体在时间和空间上有变化时就会得到相应的状态立方体截面。2、侧重于时间属性的快照序列数据库模型它是当时实现简单应用范围最广的具有空间与时间双特点的数据库模式,它将空间上的元素看成一个特殊的平面,把空间上的元素,按照时间的发展想拍快照一样形成一系列连续的数据组,用以描述它的空间元素在时间方向上的发展范到,虽然,快照序列模型24能简单的不附带复杂算法的围。固然,就可以事务在时间轴上发展的连续过程,但是由于重复空间上
41、的元素,就可以知道它的冗余量是现在受的。尤其是在信息系统上面,由于空间上同一个点的突变所产生的()在敏感仪器上回产生上亿条,这样,连续拍空间上的同一个点,它的冗余也将会是上亿条网络高速发展的今天,数据传输和。量越来越大,海量数据库系统应运而生,如何将有限的物理空间高效的利用起来,成为目前研究数据库的学者们探讨的首要问题。因此,海量数据的管理,海量数据库的优化就成了值得研究的突出课题。而目前的海量数据库模式大部分是在原有的小量数据库模式上面进行改造,这样就产生了很多弊端和不适应,一些新兴的数据库模式,特别是大型企业的数据库模式也只是将数据简单的压缩,使得所的数据不全,不适合如全球地理信息系统、气
42、象系统、系统以及一些有这连续性、微量变化、时间敏感性的一些数据库系统。这样的数据库系统用现有的数据库如下问题:数据冗余度大、精确度差、计算繁琐、查询有局限性。模式会产生针对以上问题,提出了新型的数据库模式,建立基态库将原有的数据库冗余度大大减小。建立增量库使的数据连续、详细并且计算简单。建立历史库使得只能一个月实时数据的系统,目前了 2 年之内的信息。的研究,结合了一些海量数据库的文章通过对近几年关于海量数据库模式,并对其进行分析与研究,将原有的数据库模式与现代海量数据库的模式进行对比以及分析利弊,提出先进的数据库布局模式动态-增量数据库模式。在此模式的基础上,提出适合动态-增量库模式的算法和
43、备份策略。文章在 Windows Xp 系统下运用 JBuilder 开发工具 Sqlserver2003 数据库以全球台网到的全球信号为基础数据对数据库模型进行反复实验和改良。建立了以动态-增量模型为基础的数据库体系,并在动态-增量数据库模型的基础上研- 11 -究适合其特点的计。结构和优化算法。实现了海量数据库模式的优化设3、基态修正模型底图叠加模型25,主要如下:当一个事物的时候,先查找跟此事物类似的物理量,如新增加一条实时地理信息,先找到与之相邻一个时刻的地理信息,将其拍照,找到临界点后将需要新增加的实时地理信息在路径上严格叠加到其后方,这样一层一层的叠加,达到地理信息与时间信息相对应
44、的效果。优点:能处理时间与空间的关系并且计算程序简单。缺点:冗余大,其获取数据的过必须要进行一系列的叠加等操作,比较适合于栅格模型,但是对于单纯具有大小和方向的(矢量)模型效率就相对较低。而基态修正模型则是在底层叠加模型的基础上,同理也是先找到要增加信息的临界信息,也就是基态信息,将与基态信息由差异的内容下来,就成为修正信息并且建立好基态与修正的修正关系。这样就形成了基态修正模型。优点:空间轴上的重复的平面问题被克服掉了,减少了数据冗余,节约了计算机有限的硬件空间;缺点:计算程序相对底层叠加模型有所复杂。4、时空元素模型时空元素模型把空间元素加上时空。之后 这种方法应用于空间之上,在把这个空间
45、上得元素分配到每个集合之中。这样减少了大量的冗余以及算法的复杂度,但是离散的元素所表示的离散的空间,不能表示事物沿时间轴进行变化的过程,仅仅能了时空中的一个个不相邻的圆球体。对四种模型的优缺点进行对比,形成表 1.1 所示:- 12 -表 1.1 所阐述的为时空立方体模型、快照序列模型、基态修正模型、时空对象模型,总结了以上模型的优点与缺点。表 1.1 四种模型的优缺点- 13 -4 种模型优势劣势概括优点和缺点时空立方体模型能够明显表达时间关系数据增加的时候,立方体模型的运算方法也会跟着相应的增 加,这是非常可怕 的,不适宜村粗海量数据对于这几种数据模型,可以清楚的知道,对于简单的数据在时间
46、语义要求比较高的数据库中可以使用时空立方体模型,而对于数据量大变化小的可以用快照序列模型或者基态修正模型,但是对于变化大且海量的民政系统数据使用这些模型是不适合的。快照序列模型清楚的 了时间与空间的关系并且计算方法简单浪费了 空间,数据一层一层的叠加即使数据 空间理想大其 海量数据时所需要的算法逻辑也是庞大的。基态修正模型减少空间负担,基态模型数量很大基态修正类如果一个变化小的数据类型是可以胜任的,如果 每秒钟都有微量变化的数据时,数据库会使机器不工作。时空对象模型达到时间和空间的数据同时进行出路,形象而真比较适合栅格模型,其虽然明确的表示出其矢量的大小方向以及发展历程,但是计算复杂多样,运算
47、细枝末节,只适合特别的几个数据如如理模型数据等。2 海量数据库模式相关技术2.1 海量数据2.1.1 海量数据库系统海量数据库系统,先介绍一下数据库系统,数据库系统就是通过数据库管理把相应的数据库串联的、有条理的联系到一起的体系。是为了适应人们处理数据的需要而建立起来的系统性机构。1、优点海量数据具有构造好,数据的共享性好,数据的独立性好,数据粒度小,数据管理系统,为用户提供了友好的接口。 数据库系统的和基础是数据模型,现有的数据库系统均是基于某种数据模型的。 数据库系统的是数据库管理系统。2、数据模式(1)层次模型:层次模型就是各个模型之间有那种等级顺序,具有一定的结构化,例如每家的那种家谱
48、,上面的第一层就是祖辈,以下可以是父亲、母亲、叔叔和婶婶。特点是其特点是有且只有一个根结点,除根结点以外,所有结点有且只有一个父亲结点。相当于有一个父亲节点,有很多个孩子节点。这样就具有层次分明的感觉,给人以一目了然的方式。(2)网状模型:用有向图结构表示实体类型及实体间联系的数据结构模型称为网状模型;用网络结构表示实体类型及其实体之间联系的模型。顾名思义,一个事物和另外的几个都有联系 这样一张网状图。网状模型的数据结构主要有以下两个特征: 一个是允许一个以上的节点无双亲,另一个是一个节点可以有多于一个的双亲。(3)关系模型:关系模型其基础是关系型数据库,即的是关系而非事物。事物与事物之间的关
49、系是实时变换的而关系模型则是稳定不变的。所以要在变量的基础上建立稳定的模型,找到其相对稳定的点着手。关系模型具有结构简单、关系运算模式设计理论等特点。关系模型其实表示的是一个表格的状态,在这个表格中可以进行各种的操作。3、用户对数据库系统的过程- 14 -用户对数据库系统的过程是数据库管理系统的,也是建立数据库管理系统的根本。一个实用的数据库管理系统的建立是与用户对数据库系统的过程相对应的。如何使用户对数据库系统的过程检点、准确化是建立数据库系统所要考虑的首要问题之一。2.2 连接池技术2.2.1 连接池原理是:连接复用,建立一个数据库连接池以及一套连接使用、分配、管理策略,来达到连接的高效以
50、及安全复用。并且避免了数据库连接频繁建立、关闭的开销节省了资源。连接池27主要由三部分组成:连接池的建立、连接池中连接的使用管理、连接池的关闭。其原理如图 2.1 所示:连接池回连接一个图 2.1 连接池工作原理2.2.2 连接池的之所以在“动态增量”数据库模型的实践当中要用到连接池技术,原因在于“动态-增量”数据库模型当中有动态数据库、增量数据库、历史数据库三个基态- 15 -Servlet,beans,sql 等操作库,要达到三个数据库有条理的、并发的、多数据库同时服务,就要用到连接池技术。使用的如表 2.1 连接池技术所示:表 2.1 连接池技术技术名称目的具体实现一个多线程的环境事务并
51、发连接管理服务有多线程环境下,必须要保证连接更大的通用性管理自身数据的一致synchronized性和连接数据的一致性connectionPools,通过同接DataSource多数据库服务池不同的数将连接池看做定义类,建立连接bind(String据库一个类name,ConnectionParamparam)2.3 DBHDP 算法2.3.1 算法研究背景目前海量数据在数据库操作当中已经成为一个难点,通常会把一个大型的数据库分成若干个小型数据库,把里面的海量信息分别在不同的磁盘或者硬盘当中,这些不同类型的设备之间的通讯以及数据的布局常常是随机制定的,为了提高效率,增强不同小型数据库之间的通讯
52、效率,需要一种能够适应规模变化、合理高效的数据库布局算法, DBHDP(database andconsistenshing-aware data placement)算法将 CCHDP 算法与最优化问题算法模式相结合,引入少量的数据库设备,极大的减少了空间。理论和实践证明,DBHDP 算法可以按照设备中数据的优先级高低进行数据信息的分配,能够适应一定量的设备的增加或者减少的操作,在规模发上变化时迁移最少的数据量,并且可以快速的定位数据,对空间的消耗较少。数据库海量优化问题已经成为数据库领域的难点,要使得优化,不仅要有一个高效的数据库模式还要有一个高效的数据布局模式。就布局模式来- 16 -讲
53、,hash28的一致性是目前同步算法里最具有代表性的。该机制假象数据库系统所的数据均为一致的,能够虚拟出多个虚拟的网络设备,其中可以进行一定的设定,并且设定一个的参数 a 和设备数目 n。数据库中的数据与设备常常是不相容的,因此就布局方面会造成很大的麻烦。接下来 Brinkmann 等人针对异构问题进行了不断的研究29,使得异构环境的数据进行转换从而适应一致的 hash。其主要是,将所有的设备根据其剩余空间的数量进行分层,因此每一层设备的剩余量是相同的,虽然按照设备其转换后的数据库系统符合一致的 hash,但是如果数据库系统中的数据发生迁移或增删,那么所有的层次关系将天壤之别,计算机将重新计算
54、整个数据库系统,这样就是日常工作复杂到无法进行。针对这一问题Schindelhauer 等人又进入了更深一步的研究如何计算数据距离的一种方法被叫做 Hash 距离方法。该种方法有自己的优点和一些缺点,优点是该种方法的适应能力很强的,在数据的发布过对数方法虽然解决了数据的迁移问题,拟设备,使得计算时间过长并且占用迁移数据的量是比较大的。线性方法和就线性方法而言,它要引入相当多得虚空间。又有外国的研究学者提出了一种在数据的集群间分配数据的心得方法,算法解决了子集群在设备之间的迁移和分配问题,但是当数据有批量减少时,甚至除去一个设备时,计算机系统就会重新安排新的集群关系,并重新计算一次,也就是说当数
55、据有批量增加或减少时,计算机会将整个数据库系统重新计算一遍,就好比一所学校增加了一个班,那么校长就要把所有的班重新分配,这样每隔一段时间随着新数据的不断增加,系统就要重划一遍。浪费了时间和空间。Honicky 等人提出在多个异构的子集群间公平的分布数据31。算法可以保证数据在集群的设备间按照其权重均匀的分布。在集群增加时,迁移的数据量是最优的。但是当删除集群时,系统的数据需要全部重新进行组织。浪费了时间和空间。后来,Honicky等人对其在文献32中算法进行改造升级, 研究并设计新的算法族 RUSH33,但是整体算法族在删除或者增加单一的的设备时适应能力非常的不好. Will 等人在先前的基础
56、上进行进一步的创新和优化,提出了面向单个用户能够控制的数据布局的新算法,叫做 CRUSH。目前应用在许多成系统设38例如 Ceph 系统,用户能够的根据相应的容量针对四种不相同的备进行相应的组合,定义布局策略。然而相应的布局规则是最底层必须使用标准的 hash 机制,因为当设备数量发生相应的变化的时候就需要再重新组织全部数据来满足变化的要求,该算法不能够的适应单个机器的添加和被删除的情况。某些已经相对成系统如 Lustre,NASD,GPFS,Panasas 等使用模拟随机段或系统在者以设备为基本的可用性容量的启发式来分配现有的数据34。这些- 17 -相应的设备集合发生变化时,一般都不会将数
57、据再重新迁移,来确保数据再次公平的分布,因此它们的适应性相对较差。 Pannasas 系统接着又使用了一种平衡机制的方式,通过修改迁移数据的匹配表来重新发布数据35。该方法的缺点是在数据定位的过大,大量消耗了系统的时间或者系统的需要查找大量的匹配表,工作量是非常的空间,浪费了大量的资源。 紧接着国内又有一些大学对该算法进行了仔细的研究,例如,湖南省的国防科技大学、的、的华技大学和中国等都在数据发布方面做了一定的研究。并积累了一些相关的工作经验。文献36提出了一种新的数据布局算法,该算法是基于动态数据区间的基础上进行的,主要研究的是空间效应和时间效应。文献37提出了一种通过查询数据表来定位数据的
58、方法,其缺点是在查询的过花费的时间比较大。文献38中方法的缺点是没有对数据分布过的时间和适应性的分析。文献39首次提出了一种有效的数据布局的新算法,其缺点是适应性能和公平性能比较差。文章的 CCHDP 算法是人的基础上进行总结和实验分析的基础上提出来的,主要是在一些聚类算法和 HASH 算法的基础上进行的。该方法的:首先使用一定的算法对于数据的权重进行划分,使他们具有的权重小于一个事先设定好的阀值 a,阀值 a 的取值范围0,1之间。阀值 a 的作用主要是为了避免在使用 HASH 算法时引入大量的虚拟设备,目的是为了节省大量的空间,避免浪费资源。在聚类算法完成之后,根据类权重的不同划分不同的小
59、区间,在为每个等价类分配不同的小区间,使得区间内的数据和类是一一的关系,从而能保证每个类中的数据公平的分配。与文献36、文献37相比较,能够很大程度的减少一些空间的容量,减少资源浪费,能保证使用一致性的 HASH 算法能将数据公平的分配到等价类中的设备上。但是有的时候因为等价类中设备的权重差异很小的情况下,在使用过必须引入一定的虚拟设备,否则使用一致性的 HASH 算法将会浪费空间。引进虚拟设备的优点是单数据的量发生变化时,数据迁移量就等于理论上的迁移量。与文献39、文献40相比数据迁移的量是较少的。除此之外,CCHDP 算法的 范围比较广泛,适合于任意异构的设备的集合。CCHDP 聚类算法与
60、文献40相比具有更好的灵活性,因为文献40在使用过要求每个集群的设备必须是一致的,否则无法使用该方法。然而,CCHDP 这个新的算法要求再使用的过所有的标准都是一致的,主要被应用到一些数据库信息的更新操作上,因为它定位数据时所需要的时间只与类的数目相关,远远小于文献39定位数据所需要的时间。但是这种算法在应用数据库当中仍然有很多,首先数据的布局要求其对查询修改和增加的数据有一个优先级,为了提高数据- 18 -库的使用效率,在 CCHDP 的基础让综合数据库系统的特征,以及从高效的角度考虑引入优先级参数提出了 DBHDP 算法,更试用于数据库系统。2.3.2 问题描述首先把海量数据的数据库系统抽
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 皖南医科大学第二附属医院招聘笔试真题及答案
- 广东中山大学附属第一医院招聘事业单位人员考试真题2025
- 2026年小学六年级英语第二学期期末考试卷及答案(五)
- 2026年初一语文第二学期期末考试卷及答案(共十五套)
- 2026年上海市高考(5月)物理真题卷(含答案与解析)
- 如何确保评估过程的公平性和公正性
- 译林版英语三年级下册Unit8 Colours第3课时Story time
- 任务2.1明挖基础施工
- (2026版)学校基建管理制度
- 2026本土人才面试题库及答案
- 2025年国家统一法律职业资格考试客观题试题与答案
- 北京市东城区2025-2026学年度第二学期初三年级中考二模语文试卷(含答案)
- 2026年安全生产月主题培训课件
- 2026阿克苏地直国有企业招聘工作人员(123人)笔试参考试题及答案解析
- 2026江苏南通市科学技术协会招聘南通科技馆政府购买服务岗位人员4人考试备考题库及答案解析
- 2026中国兵器审计中心(北京中心)招聘9人备考题库及一套参考答案详解
- 高大模板支撑专项施工方案
- 2026-2026年中考英语易错题汇编
- 2026年上海市宝山区中考数学二模试卷(含解析)
- 2026年高考物理总复习:高中物理规律、公式
- 中考数学复习-利用“将军饮马”解决线段最值 练习题(含答案)
评论
0/150
提交评论