(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf_第1页
(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf_第2页
(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf_第3页
(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf_第4页
(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

(计算机应用技术专业论文)基于db2的数据库数据统计和分析方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

、 0 , 。一 学位论文主要创新点 l i i iiiiiii l l lii ii iiiil 17 7 3 2 91 一、用k - m e a n s 聚类分析方法对d b 2 数据库中的数据的重要属性进行 了统计和分析,提高了大数据量处理时的传输速度。 二、利用l r u 算法( 最近最少使用算法) 对用k - m e a n s 聚类分析方法分 析后的缓存中的数据实时排序、并进行数据页的替换,提高了数据查 询的效率。 摘要 随着科学技术的发展,计算机技术不断应用到各行各业,数据存储随之不断 膨胀,对数据库系统设计也就有了更高的要求,因此使用高性能的算法来实现数 据分类将是未来数据库系统设计的发展趋势。基于d b 2 数据库系统的数据统计和 分析系统的设计就是使用高性能算法实现数据的分类、统计和分析。 本文深入研究了各种统计方法,并仔细分析d b 2 数据库系统和统计方法的各 种特性,结合d b 2 数据库中数据的性质,设计了适用于d b 2 数据库的数据统计和 分析系统。在此基础上,作者采用k - m e a n s 算法作为数据分析的核心,实现了数 据的快速分类;对海量数据的处理提高了传输速度;通过l r u 算法实现了数据库 缓冲池的数据的优化排序,提高了数据查询的效率。 论文工作完成了基于d b 2 数据库的数据统计和分析系统的模块设计及应用算 法的具体实现。通过对数据实例的测试,作者验证了k - m e a n s 算法和l r u 算法在 解决数据查询、统计及分析功能上的f 确性和有效性,并在对系统性能改进的基 础上提出了系统优化的方法和策略。 本文的结尾部分对此次丌发的系统和论文中的主要工作进行了分析和展望, 对该系统今后的应用和发展提出了一些改进的设想。 关键词:d b 2 ,数据统计,数据分析,k - m e a n s 算法,l r u 算法 a b s t r a c t a l o n gw i t ht h ed e v e l o p m e n to fs c i e n c ea n dt e c h n o l o g y , c o m p u t e rt e c h n o l o g y c o n t i n u e st ob ea p p l i e dt oa l lw a l k so fl i f e ,t h ee v e r - g r o w i n gd a t as t o r a g en e e d s , d e s i g no fd a t a b a s es y s t e m sh a v eh i g hr e q u i r e m e n t s ,t h eu s eo fh i g h p e r f o r m a n c e a l g o r i t h m sf o rd a t ac l a s s i f i c a t i o nw i l lb et h ed e v e l o p m e n tt r e n do ft h ed a t a b a s es y s t e m d e s i g ni nf u t u r e d b 2d a t a b a s es y s t e mb a s e do nt h ed a t as t a t i s t i c sa n da n a l y s i ss y s t e m d e s i g ni su s i n gh i g h p e r f o r m a n c ea l g o r i t h m sf o rd a t ac l a s s i f i c a t i o n ,s t a t i s t i c sa n d a n a l y s i s t h i si n - d e p t hs t u d yo ft h ev a r i o u ss t a t i s t i c a lm e t h o d s ,a n a l y s i so fd b 2d a t a b a s e s y s t e mc a r e f u l l ya n ds t a t i s t i c a lm e t h o d sf o rav a r i e t yo ff e a t u r e s ,c o m b i n e dw i t ht h e n a t u r eo ft h ed a t ai nd b 2d a t a b a s e s ,d b 2d a t a b a s e sd e s i g n e dt ob ea p p l i e dt ot h ed a t a s t a t i s t i c sa n da n a l y s i ss y s t e m i nt h i sp a p e r , k - m e a n sa l g o r i t h ma st h ec o r eo fd a t a a n a l y s i st or e a l i z et h er a p i dc l a s s i f i c a t i o no fd a t af o rl a r g ev o l u m eo fd a t ap r o c e s s i n g t oi m p r o v et h es p e e do ft r a n s m i s s i o n ;t h eu s eo ft h ed a t a b a s eb u f f e rp o o ll r u a l g o r i t h mi so p t i m i z e dt os o r tt h ed a t at oi m p r o v et h ee f f i c i e n c yo fd a t aq u e r y p a p e rw o r k i sc o m p l e t e db a s e do nd b 2d a t a b a s es t a t i s t i c sa n da n a l y s i ss y s t e mo f m o d u l a rd e s i g na n da p p l i c a t i o no ft h ea l g o r i t h mi m p l e m e n t a t i o n t h r o u g hat y p i c a l e x a m p l eo ft h et e s td a t at ov e r i f yt h eu s e o fk m e a n sa l g o r i t h ma n dl r u a l g o r i t h mt o s o l v et h ed a t aq u e r y , s t a t i s t i c sa n da n a l y s i so ft h ea c c u r a c y , v a l i d i t y , a sw e l la s i m p r o v e m e n t si ns y s t e mp e r f o r m a n c e ,b a s e d o nt h e o p t i m i z a t i o nm e t h o da n d s t r a t e g i e si nt h i ss y s t e m a tt h ee n do ft h i sa r t i c l e ,ih a v eg i v e nt h ea n a l y s i sa n df o r e c a s tf o rt h es y s t e m sa n dt h em a i n w o r k si np a p e r s a n dg i v e ns o m ei m p r o v e m e n ti d e a sf o rf u t t i r eu s ea n dd e v e l o p m e n t k e y w o r d s :d b 2 ,s t a t i s t i c s ,d a t aa n a l y s i s ,k - m e a n sa l g o r i t h m ,l r ua l g o r i t h m 目录 第一章绪论1 1 1 课题背景及研究意义1 1 2 数据库自,j 期规划的重要性1 1 3 实现方案的分析2 1 4 论文的主要工作3 第二章数据统计、查询与分析基础5 2 1 数据统计概况5 2 2 数据查询、分析的基本技术8 第三章基于d b 2 数据库数据统计和分析系统的功能及安全性1 3 3 1d b 2 数据库数据统计和分析系统概述1 3 3 2d b 2 数据库数据统计和分析系统流程1 4 3 3d b 2 数据库数据统计和分析系统主要功能1 5 3 4d b 2 数据库数据统计和分析系统的安全性1 5 第四章基于d b 2 数据库数据统计和分析系统的实现一2 1 4 1 聚类分析2 1 4 2l r u 和m r u 算法2 3 4 3 设计规则及模块设计2 4 4 4 统计分析模块代码实现:3 5 第五章系统改进与优化4 3 5 1 设计优化4 3 5 2 查询优化4 5 第六章结论及展望4 9 参考文献51 发表论文及科研情况:5 3 论文发表及科研5 3 致 谢5 5 第一章绪论 1 1 课题背景及研究意义 第一章绪论 近年来,随着数据量的成倍增长,并且信息的复杂性与关系型数据库理论产 生的时代相比己不可同日而语,信息的结构变得日益复杂,个性化服务等需求增 长,信息的多样性和差异性也都大大增加。因此,关系型数据库理论在管理信息 复杂性方面也需要得到改善。 从某种意义上而言,今天的业务系统数据库信息是业务系统运行的副产物 【l 】。数据库是为支撑特定业务应用的运行而设计,数据库中的数据也仅被单一系 统所使用,所以也就很少考虑这些信息是否易于理解。然而,当今越来越多的系 统需要相互协作、共享信息。信息的可读性、是否易于理解变得更加重要。关系 型数据库对数据的操作几乎全部建立在一个或多个关系表格上,通过对这些关系 表格的分类、合并、连接或选取等运算来实现数据的管理。而关系型数据库对于 表中数据的自我描述,表与表之间的关系的体现等还不能很好的支持,所以要在 软件系统设计中改善关系数据库的不足。 1 2 数据库前期规划的重要性 数据库系统设计【2 】是一个庞大而复杂的系统工程,如果在设计前不进行良好 的整体规划,发现问题再做修改甚至重新设计数据库是不可取的,数据库设计前 要做大量的工作,包括提出需求,分析需求,命名准则等,这些工作的顺利进行, 有利于软件的丌发和后期维护,是一个具有强健生命力的软件必须的阶段。 对于保证设计一个强健生命力的软件主要有以下几项基本要求: 1 2 1 需求分析 在数据库设计时不能急于设计表结构,而忽略了数据库设计之前的整体规 划,结果导致在程序设计过程中乃至系统运行期间出现问题而要反复修改表字 段、表结构甚至重新设计数据库,这是非常不可取的。企业数据库数据统计和分 析系统丌发时,随着客户业务的增长,用户量和数据量急剧增加,数据库系统的 大沣i :业人学硕十学何论文 性能可能成为整个系统瓶颈。所以,有必要根据客户的实际情况,通过模拟分析 系统提供服务的用户数、信息量、业务需求和服务级别,制定合理的数据库规划 策略,这样有助于提高信息系统的效率,降低使用成本。 1 2 2 设计基于现有系统 设计一个新数据库时,不但应该仔细研究业务需求而且还要考察现有的系 统。大多数数据库项目都不是从头开始建立的;通常,机构内总会存在用来满足 特定需求的现有系统。可能现有系统并不完善,但是对旧系统的研究和分析也可 以发现一些可能被忽略的细微问题。这样才也会对新系统设计有重要的参考意 义。 1 2 3 遵守标准的命名规范 一个好的命名规范会对开发有着积极的意义,在系统设计和维护时期,命名 规范的意义更加重大,这样不仅使系统设计时容易理解,而且在设计后期和维护 时期工作量也得到相应减少。好的命名规范也是好的系统的一个很重要的标准。 1 2 4 进行数据库逻辑结构设计,创建数据字典和e r 图表 在深入物理设计之前要先进行逻辑设计。随着大量的c a s e 工具不断涌现出 来,系统的设计也可以达到相当高的逻辑水准,通常可以从整体上更好地了解数 据库设计所需要的方方面面。创建e r 图表和数据字典的必要性也显而易见。其 中至少应该包含每个字段的数据类型和在每个表内的主外键。创建e r 图表和数 据字典可能有点费时但对其他开发人员要了解整个设计却是完全必要的。越早创 建越能有助于避免今后面临的可能混乱,从而可以让任何了解数据库的人都明确 如何从数据库中获得数据。e r ( e n t i t yr e l a t i o n s h i pd i a g r a m ) p j 是非常重要的, 这对表明表之间关系很有用,而数据字典则说明了每个字段的用途以及任何可能 存在的别名,它对s q l ( s t r u c t u r e dq u e r yl a n g u a g e ) 【4 】表达式的文档化是必要的。 通过对用户需求进行综合、归纳与抽象,形成一个独立于具体d b m s ( d a t a b a s e m a n a g e m e n ts y s t e m ) 【5 】的概念模型,可以用e r 图表示。将概念结构转换为某个 d b m s 所支持的数据模型,并对其进行优化。设计逻辑结构应该选择最适于描述 与表达相应概念结构的数据模型,然后选择最合适的d b m s 。 1 3 实现方案的分析 d b 2 数据库数据统计和分析系统中的数据库对象的多少、大小、使用频率 第一章绪论 等对性能与稳定性都有着直接的影响。如果对象很少,不复杂,那么就算不过多 规划,也能够达到比较高的性能。如果对象数据比较多、比较大的话,那么就需 要在数据库设计之前好好的规划,否则就会在很大程度上影响数掘库的性能与稳 定性。其实d b 2 数据库就好像一个仓库,数据库中的对象( 如索引、数据表、表 空间) 等等就好像仓库中的货物。如果货物比较少,那么随便放放,仓库都显得 很空旷。货物寻找起来也会很方便。但是如果货物数量比较多、比较大,就必须 要对其存储空间进行合理规划。只有这样,才能够让仓库达到最佳的空间利用率, 并且存放有序的货物,在查找起来也特别的方便。以数据库数据统计和分析系统 为例,设计系统时数据库对象大小、数量等都有着不确定因素,如果设计不同大 小的对象,在确定对象时需要额外的开销去判断是否符合系统的规定,这样影响 了系统的稳定性;如果设计相同大小的对象,系统的资源不能得到充分利用,性 能也受到一定影响,这些因素给系统设计时带来了不利。 1 4 论文的主要工作 论文的主要内容如下: ( 1 ) 第一章绪论,主要介绍研究的背景,要研究的问题,研究的前期注意要 注意的问题以及研究现状和该问题的研究价值所在。 ( 2 ) 第二章数据统计、查询与分析基础; 介绍d b 2 数据库数据统计和分析系统中数据查询、统计、分析方法的基本概 念和原理。 ( 3 ) 第三章基于d b 2 数据库数据统计和分析系统的功能及安全性; 介绍了设计目标、系统框架、工作流程、主要实现的功能以及d b 2 数据库的 安全性。 ( 4 ) 第四章基于d b 2 数据库数据统计和分析系统实现: 讲述了聚类分析实现、l r u 和m r u 算法、规则设计及其响应模块。介绍了 系统基本模块的功能和实现方法。 ( 5 ) 第五章系统改进与优化; 主要讲述系统的模块改进与优化,一些重要算法在系统中的体现。 ( 6 ) 第六章结论与展望; 最后,分析现有系统给出总结,进一步思考,为下一步工作给出有力参考。 大津l :业人学硕十学f 节论文 第二章数据统汁、台向j 分析桀础 第二章数据统计、查询与分析基础 2 1 数据统计概况 2 1 1 数据统计概述 数据并不都能进入数据仓库。有时数据变化太快,有时该数据不为本企业系 统所有,有时该数据的格式不对,不能存贮到关系型数据库系统中或被其搜索到, 这样会影响到数据统计的准确性。数据统计是统计工作活动过程中所取得的反映 数掘的计量和事物的表量的数字资料以及与之相联系的其他资料的总称【引。在研 究客观事物的数量方面,离不开数据统计,数据统计是对客观现象进行计量的结 果。数据统计包括数据完全统计和数据抽样统计。 一 + 由于数据本身的一些性质,我们在数据库中进行统计时,运用统计学的知识 将数据进行分类,因此统计学的知识是必要的。 2 1 2 数据统计的分类 数据统计是采用某种计量尺度对事物进行计量的结果,采用不同的计量尺度 会得到不同类型的统计数据。 从计量尺度计量的结果来看,可以将数据库中的数据分为以下四种类型: 数据定类:表现为类别,但不区分顺序,是由定类尺度计量形成的。 数据定序:表现为类别,但有顺序,是由定序尺度计量形成的。 数据定距:表现为数值,可进行加、减运算,是由定距尺度计量形成的。 数据定比:表现为数值,可进行加、减、乘、除运算,是由定比尺度计量形 成的。 前两类数据说明的是数据的品质特征,不能用数值表示,其结果均表现为类 别,也称为定性数据或品质数据( o u a l i t a t i v ed a t a ) 【7 】;后两类数据说明的是现 象的数量特征,能够用数值来表现,因此也称为定量数据或数量数据( q u a n t i t a t i v e d a t a ) 【7 l 。由于定距尺度和定比尺度属于同一测度层次,所以可以把后两种数据 看作是同一类数据,统称为定量数据或数值型数据。 区分测量的层次和数据的类型是十分重要的,因为对不同类型的数据将采用 小同的统计方法来处理和分析。比如,对定类数据,通常计算出各组的频数或频 大泮i :业人学硕十学位论文 率,计算其众数和异众比率【8 】,进行列联表分析和x 2 检验等;对定序数据,可 以计算其中位数和四分位差,计算等级相关系数等非参数分析哺j :对定距或定比 数据还可以用更多的统计方法进行处理,如计算各种统计量、进行参数估计和检 验等。我们所处理的大多为数量数据。 需要特别指出的是,适用于低层次测量数据的统计方法,也适用于较高层次 的测量数据,因为后者具有前者的数学特性。比如:在描述数据的集中趋势时, 对定类数据通常是计算众数,对定序数据通常是计算中位数,但对定距和定比数 据同样也可以计算众数和中位数。反之,适用于高层次测量数据的统计方法,则 不能用于较低层次的测量数据,因为低层次数据不具有高层次测量数据的数学特 性。比如,对于定距和定比数据可以计算平均数,但对于定类数据和定序数据则 不能计算平均数。理解这一点,对于选择统计分析方法是十分有用的。 2 1 3 数据统计的计量 把数掘库中对被统计数据的属性、特征进行分类、标示和计算,称为统计计 量或统计量度【9 1 。例如数据库中对工业企业经济效益的统计,对企业职工收入水 平的统计,也可以称为对工业企业经济效益的计量,对企业职工收入水平的计量, 如此等等。由于数据有的比较简单,有的比较复杂,有的特征和属性是可见的( 如 企业收支量) ,有的则是不可见的,有的表现为数量差异,有的表现为品质差异。 因此,统计计量也就有定性计量和定量计量的区别,并且可分不同的层次。按照 变量的性质和数学运算的功能特点,将统计计量划分为四个层次或四种计量尺 度: 2 1 3 1 定类尺度 数据库中用数字作为现象总体中不同类别或不同组别的代码,这是最低层次 的尺度。在这种情况下,不同的数字仅表示不同类( 组) 别的品质差别,而不表 示它们之间量的顺序或量的大小。这种尺度的主要数学特征是等于或不等于。 例如将数据库中企业职工的籍贯进行分类,可以分为天津市、北京市、上海 市、深圳等类,并用( 0 1 ) 代码表示天津市,( 0 2 ) 表示北京市,( 0 3 ) 表示上海 市,( 0 4 ) 表示深圳。并且用( 0 1 1 ) 代表天津市男性籍员工,( 0 1 2 ) 代表天津市 女性籍员工:用( 0 2 1 ) 表示北京市男性籍员工,( 0 2 2 ) 表示北京市女性籍员工; 用( 0 3 1 ) 表示上海市男性员工,( 0 3 2 ) 表示上海市女性员工;用( 0 4 1 ) 表示深 圳男性员工,( 0 4 2 ) 表示深圳女性员工等等。其中两位代码表示省市大类,而三 位代码则表示各类中的性别构成。不同代码反映同一水平的各类( 组) 别,并不 反映其大小顺序。各类中虽然可以计算它的单位数,但不能反映第一类的一个单 第- 二章数据统汁、盘询ij 分析捧础 位可以相当于第二类的几个单位等等。 2 1 3 2 定序尺度 数据库中定序尺度不但可以用数表示量的不同类( 组) 别,而且也反映量的 大小顺序关系,从而可以列出各单位、各类( 组) 的次序。这种尺度的主要数学 特征是大于或小于。例如在数据库中对合格产品按其性能和好坏,分成优等品、 一等品、合格品等等。这种尺度虽然也不能表明一个单位一等品等于几个单位二 等品,但却明确表示一等品性能高于二等品,而二等品性能又高于三等品等等。 定序尺度除了用于分类( 组) 外,在变量数列分析中还可以确定中位数、四分位 数、众数等指标的位置。 2 1 3 3 定距尺度 定距尺度也称问隔尺度,是对数掘类别或次序之间间距的计量,它通常使用 自然或度量衡单位作为计量尺度。定距尺度是比定序尺度高一层次的计量尺度。 它不仅能将事物区分为不同类型并进行排序,而且可以准确地指出类别之问的差 距是多少。例如,在数据库中企业职工的业绩考核数据,可以从高到低分类排序, 形成优秀、良好、中等、合格和不合格的序列。它们不仅有明确的高低之分,而 且可以计算差距,优秀比良好高一个等级,比合格高两个等级等等。定距尺度的 计量结果表现为数值,可以进行加或减的运算,但却不能进行乘或除的运算,其 原因是在等级序列中没有固定的、有确定意义的“零”位。数据库中定距尺度主要 用在数据的第一级排序。 2 1 3 4 定比尺度 定比尺度是在定距尺度的基础上,确定可以作为比较的基数,将两种相关的 数加以对比,而形成新的相对数,用以反映现象的构成、比重、速度、密度等数 量关系。由于它是在比较基数上形成的尺度,所以能够显示更加深刻的意义。定 比尺度的主要数学特征是除或乘。 例如将某地区人口数和土地面积对比计算人口密度指标,说明人口相对的密 集程度。甲地区人口可能比乙地区多,但甲地区的土地更广阔,用人口密度指标 就可以说明相对说来甲地区人口不是多了,而是少了。又如将一个国家( 地区) 的国内生产总值与该国( 地区) 居民对比。计算人均国内生产总值,可以反映国 家( 地区) 的综合经济能力。2 0 0 0 年我国国内生产总值约占世界生产总值的1 4 , 排列世界第六位,堪称世界经济大国,但我国人口占世界总人口的2 4 5 ,如果 按人均国内生产总值计算,在世界各国中又居于比较落后的位次,说明我国仍属 于发展中国家。 大津。l :业人学硕十学何论文 以上四种计量尺度对数据的计量层次是由低级到高级、由粗略到精确逐步递 进的。数据库中高层次的计量尺度具有低层次计量尺度的全部特性,但是不能反 过来。显然,我们可以很容易地将高层次计量尺度的测量结果转化为低层次计量 尺度的测量结果。在统计分析中,一般要求测量的层次越高越好,因为高层次的 计量尺度包含更多的数学特性,所运用的统计分析方法越多,分析时也就越方便, 这f 是我们数据统计和分析系统所需要的,因此系统中应尽可能使用高层次的计 量尺度。 2 1 4 数据统计的技术 数据库中数据的内容质量是数据统计最基本的特征,它包括相关性、准确性 与及时性。一旦缺少了其中任何一个,统计的数据就失去了转化为信息的性质和 基本作用0 1 。因此,这三个特征也可称为数据统计的主要特征。 相关性:相关性是数据库统计软件所生产的数据是否正是用户感兴趣的统计 数据。数据统计的相关性反映了它满足用户需求的程度,它与所提供的可利用数 据是否关注了对用户来说最重要的主题有关。由于对相关性的评价是主观的,会 随用户需求目标的改变而改变,所以数据库数据统计软件所要做的是平衡不同用 户的互相矛盾的需求目标,在给定的资源条件限制下,尽可能的满足大部分用户 的大部分需求。 准确性:准确性指观测值或估计值与未知的真值之间的距离( 接近程度) , 通常用统计误差来衡量。它是数据统计质量的基础和核心内容,也是传统的“数 据统计质量”概念所考虑的主要问题。一般柬讲,误差分为系统误差和随机误差 两部分,有时也用引起不准确性的主要潜在原因( 如抽样误差、无回答误差等) 来分类描述。完全准确的测量经常受到成本的限制,有时甚至是不可能的。所以 关键的是误差是否已降低到用户可以接受的地步。 及时性:与用户需求相关的准确的统计数据如果没有在用户做出决策之前传 递给用户,那么该数据对用户来说,就是没有用的。所以,及时性也是数据库数 据统计软件能否满足用户需求的重要特征。如果该现象本身变化比较迅速,则对 该类统计数据的及时性要求高;如果该现象本身变化比较缓慢,则对及时性要求 不高。 2 2 数据查询、分析的基本技术 2 2 1 数据查询基本概念 数据库查询就是发送给数据库的s q l 指令,这些指令向数据库请求某种施 第_ 二章数据统计、啪j 分析綦础 加在数据集合或数据库上的功能,数据查询的速度快慢直接关系到系统的性能是 否优越。s q l 指令是数据库查询的基本指令而“s q l 数据库”其实就是关系型 数据库管理系统( r d m s ) 通俗的叫法。 对某些系统来说,“数据库”也指一组数据表、数据以及相互区分但结构类 似的配置信息l l 。在这种情况下,每一s q l 数据库的安装都可能由若干数据库 组成。在有些系统上,这种数据库则指的是表空间。数据表是一种包含多行数据 的数据库构造,这种数据库构造由命名的列组成。通常数据表构造为包含关系信 息,同一数据库或表空间以内可以创建若干数据表。表内的列保存某一种类型的 数据而且应根据其保存数据的内容得以命名。例如,被称为“l a s t n a m e ”的列就 应该在每一行包含姓氏条目。正是这- - i l l j - 提的存在才能让关系数据库查询返回_ 一 致的结果。字段( f i e l d ) 指的是某一行某- - n 对应的数据( 或保存数据的地方) 。 另外,数据集合( d a t as e t ) 则指的是多行多列的数据,而且数据集合通常说明数 据库或数据表内的全部数据。结果集合“r e s u l ts e t ” 1 2 】就是从数据库查询返回的 数据;它能够描述从单一字段到数据库内全部数据这一范围内的全部信息。 s q l 语言中的数据查询分为4 种基本类型: s e l e c t :这条语句要求数据库返回指定结果的数据集合;系统可以用这一 语句检索数据库中保存的信息。 i n s e r t :这条语句用来给数据表增加新一行数据。 d e l e t e :该语句从系统的数据库中删除若干行数据。 u p d a t e :该语句修改数据库内的现有数据。 这些语句都有各种各样的限定词和函数供系统用来定义有关的数据集合,同 时控制查询返回的结果集合。 2 2 2s q l 基本指令用法 当我们设计一个新的或分析一个现存的系统时,其中所要考虑的一个重要问 题就是应用程序的设计问题。即使数据库设计得很好而且还经过优化处理,应用 程序设计不适当还是会引起性能问题的数据库。实践证明,如果应用程序存在 设计上的问题,那么修改这些问题比调整数据库配置参数更能改善应用程序的性 能。s q l 是一种高级语言,具有很大的灵活性,从数据库中提取相同的数据可 以用不同形式的s e l e c t 语句来实现,但是,应用程序的性能却随着s e l e c t 语句形式的不同而大相径庭,这是因为不同形式的s e l e c t 语句具有不同的处 理成本。在这种情况下,我们就应该选择那些处理成本低廉的s e l e c t 语句, 这样,应用程序力会有较好的性能。 d b 2 通用数据库本身提供一个s q l 编译器【l2 1 ,该编译器创建编译后的s q l 大津l :业人学硕十学位论文 语句,当该编译器编译s q l 语句时,它将重新编写这些s q l 语句,以生成一种 更容易对其进行优化的形式,这个过程称之为“查询重写( q u e r yr e w r i t e ) ”。 然后,s q l 编译器产生许多满足用户查询要求的、可选的执行方案,并根 据表、索引、列和函数的统计数字来评估每个方案的执行成本,最后从中选取执 行成本最低的方案,该过程称之为“查询优化( q u e r yo p t i m i z a t i o n ) ”。 2 2 2 1 用s e l e c t 语句检索保存的信息 为了获得d b 2 数据库中保存的信息就必须采用s e l e c t 语句。其基本功能 限制在针对单一数据表操作,当然,也有其它范围的构造。为了返回特定列所对 应的所有数据行,可以使用以下语句: s e l e c tc o l u m nl , c o l u m n 2f r o m t a b l e _ n a m e ; 另外,使用通配符“秒可以从表中选出所有的列: s e l e c t 术f r o mt a b l e _ n a m e : 系统要在自身编码分析以上返回的结果当然也没有问题,不过也完全可以采 甩方便的w h e r e 子旬限制返回的结果集合,w h e r e 子句可以让系统为选择数一一 掘定义某些条件。以下查询就会返回“c o l u m n l ”数值等于3 的所以数据行: s e l e c t 木f r o mt a b l e n a m ew h e r ec o l u n m l = 3 ; 除了“= ”( 等于) 条件之外,还可以使用大于,小于,不等于等等条件运算 符。这样就可以根据附加条件筛选出想要的数据。另外,还可以联合w h e r e 语 句使用b e t w e e n 、l i k e 等比较运算符以及a n d 和o r 这类逻辑运算符。注意, o r 语句是包含性的。举一个组合了以上概念的综合例句: s e l e c t 幸f r o mt a b l e n a m ew h e r e ( ( a g e 2 4 ) a n d ( l a s t n a m e b e t w e e n e r i c a n d a n n a ) ) o rc o m p a n yl i k e s c h 0 0 1 ; 用自然语言来描述,这条选择语句的含义是:从数据表中选出年龄小于2 4 岁而且姓氏在“e r i c ”和“a n n a ”之间的或者其公司名称类中有“s c h o o l ”字样 的数据行。 2 2 2 2 用i n s e r t 语句加入新数据 使用i n s e r t 语句可以创建新的数据行。如果希望在某一行的某个字段中赋 值则要用到u p d a t e 语句。 插入语句的语法如下: i n s e r ti n t ot a b l en a m e ( c o l u m n l ,c o l u m n 2 ,c o l u m n 3 ) v a l u e s ( d a t a l , d a t a 2 , d a t a 3 ) ; 如果想按照表内现有列的同- j t l 页序插入所有的值,那么不必指定列名,当然, 从可读性考虑最好不要这样做。另外,如果列出列名,则不必要按照它们在数据 第二章数据统计、询t j 分析培础 库中出现的顺序包括它们,只要列出的值与它们一一对应即可。有些列并没有为 其输入新的信息所以自然没有必要列出它们来。一旦数据库中有了数据要修改起 来也与此很相似。 2 2 2 3u p d a t e 语句和w h e r e 语句 u p d a t e 用来修改现有的值或行罩的空字段,因此它必须在匹配现有的数据 集合同时提供可接受的值。除非真地想要修改所有数据行上的值,否则就必须使 用w h e r e 子句。 u p d a t et a b l en a m es e tc o l u m n l = d a t a l ,c o l u m n 2 = d a t a 2 w h e r e c o l u m n 3 = d a t a 3 : 可以采用w h e r e 子句随意匹配任何一列,正在修改的一列都可以。这样会 有助于把某一特定的值修改为另一个值: u p d a t et a b l e n a m es e tf i r s t n a m e2 a n d y w h e r ef i r s t n a m e = a n d y a n d l a s t n a m e = k i n g : 2 2 2 4d e l e t e 语句 d e l e t e 语句会从d b 2 数据库的数据表中删除整行。如果设计者仅仅想删 除单一的字段则应该使用u p d a t e 语句把它修改为代表应用程序中的n u l l 的 其他空值。一定要小心使用带w h e r e 子句的d e l e t e 语句,否则系统可能会 遭遇清空全部数据表的风险。 d e l e t ef r o mt a b l en a m ew h e r ec o l u m n l = d a t a l : 一旦d b 2 数据库中删除某一行数据就不可再撤销了,因此一般来说,最好 在数据表中包括一名为“i s a c t i v e 的列或类似的指示信息,这样就可以把该列 数据设置为零表示数据禁用。通常,只有在确信不再需要受到影响的信息之后才 可以用d e l e t e 语句。 2 2 3 数据分析的基本概念 数据也称观测值,是实验、测量、观察、调查等的结果,常以数量的形式给 出。数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中、萃取 和提炼出来,用以找出所研究对象的内在规律。在实际应用中,数据分析可帮助 人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数 据,使之成为信息的过程。例如j 开普勒通过分析行星角位置的观测数据,找出 了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判 定市场动向,从而制定合适的生产及销售计划。这些都是从无序的数据中分析出 规律,然后制定解决办法,在d b 2 数据库的数扼分析中也是运用相同的原理束 第三章基于d b 2 数据库数据统计和分析系统的功能及安全性 第三章基于d b 2 数据库数据统计和分析系统的功能及安全性 3 1d b 2 数据库数据统计和分析系统概述 3 1 1d b 2 数据库数据统计和分析系统设计目标 随着计算机的普及,利用计算机的高性能来定位分析数据,为企业的信息定 位提供了很好的参考,有利于决策的迅速确定,为企业的发展做出了很大的贡献。 本项目的设计目标是结合d b 2 数据库高效的性能为用户提供一套性能优越的数 据统计和分析解决方案【1 3 】。 3 1 2d b 2 数据库数据统计和分析系统框架 图3 - 1d b 2 数据库数据分析与设计系统的框架 系统的整体框架如图3 1 所示,系统的功能模块基于d b 2 数据系统进行设 计,用户进行模块选择后,系统根据具体模块产生相应s q l 语句执行相关操作, 之后进行数据分析得到所需结果,最后输出到界面。 天津工业大学硕士学位论文 3 2d b 2 数据库数据统计和分析系统流程 图3 - 2d b 2 数据厍数据分析与设计系统的基本流程示意图 系统的运行流程基于系统的基本框架,首先进行相应的初始化工作后启动系 统,待用户输入用户名和密码后判断此用户类别即:是普通用户还是超级用户( 管 理员) ,核对用户名密码后,如果是普通用户,系统就是进入用户命令状态,相 反系统进入管理员命令状态。然后用户输入命令或者通过界面选择功能模块,例 如用户要统计企业中1 0 0 0 个人的工资水平,在界面中输入所需的数据来源,设 定数据个数。提交给系统,系统分析你的选择自动产生相应的s q l 语句进行数 据查询。查询成功后系统直接对这1 0 0 0 个数据进行数据分析,得到了一系列与 这1 0 0 0 个职工工资有关的数据如平均工资水平,最高工资,最低工资等。然后 输出到界面,显示给用户,供用户自行选择需要的数据结果。如果结果不符合用 户的要求,系统可以重新设定参数。这就是整个系统的基本流程,其他的相关操 作都是基于这个流程进行。 第二章基t - d b 2 数据车数据统计和分析系统的功能及安全性 3 3d b 2 数据库数据统计和分析系统主要功能 本系统不但实现了数据统计,数据分析等基本模块,还完成了系统的整体优 化,是比较完整的具有较高稳定和安全系数的d b 2 数据统计与分析系统。 系统主要实现的功能如下: ( 1 ) d b 2 数据库系统数据的导入与导出。 ( 2 ) 数据统计分析模块的设计。 ( 3 ) 系统模块代码自动生成和组合。 ( 4 ) 数据查询优化。 ( 5 ) 数据分析视图导出。 3 4d b 2 数据库数据统计和分析系统的安全性 在设计d b 2 数据库数据统计和分析系统时,在对比了d b 2 数据库和其他一 些数据库后,由于d b 2 数据库的安全性很高,再加上d b 2 数据库的其他一些优 点,所以设计采用了d b 2 数据库,下面对d b 2 数据库的安全性进行介绍。 3 4 1 概述 数据库的安全性一直是公司所关心的重点问题,任何公司的数据库系统可能 要收集、存储和分析成千上万行信息,这些信息本质上有公共的,也有私有的。 由于有这项责任在身,数据库必须使数据库管理员能适当的授权和限制访问。此 外,数据库还必须提供防止未授权用户存取机密数据的方法。 有时候,数据库安全信息难以获得或理解。尽管众所周知d b 2 通用数据库 ( d b 2u n i v e r s a ld a t a b a s e ,u d b ) 是多么可扩展、多么健壮,但d b 2 的安全特性 的细节很容易被人们忽视。 因为保护数据库安全是数据库管理员( d b a ) 最重要的职责之一,所以设 计者不应当试图通过反复试验来学习数据库安全性。保护企业数据库安全涉及: 防止任何人在企业无需知道的情况下对机密数据进行未授权的存取,防止未授权 用户恶意删除进行破坏或擅自改变数据,采用审核技术监视用户存取数据。 3 4 2d b 2 中三种主要安全机制 3 4 2 1d b 2 数据库的认证 数据库安全性中最基本的概念之一就是认证,这是一个非常简单的过程,系 统通过这个过程来证实用户身份。用户可以通过提供身份证明或认证令牌来响应 大泮f :业人。学硕十学何论文 认证请求。 很可能大家已经熟悉这个概念了。如果您曾经被要求出示带照片的i d ( 例 如,在移动开通新号时) ,那么已经有人向您提出过认证请求了。您出示了身份 证( 或其它带照片的i d ) 从而证明自己的身份。在这种情况下,您的身份证就充 当了认证令牌。 用户验证由d b 2 之外的安全性工具完成,这个工具通常是操作系统的一部 分或独立产品。事实上,安全性不仅是数据库问题;操作系统厂商也要花费很多 的时间、会钱和心思确保他们的产品是安全的。但是,包括m i c r o s o f tw i n d o w s9 5 和9 8 在内的一些操作系统并没有本地安全机制。如果您使用的是没有安全机制 的操作系统,那您可以把环境配置成依靠在更安全的系统上运行的d b 2 服务器 来提供这种安全性。 下面我们来具体介绍一下d b 2 数据库数据统计和分析系统的认证过程: 首先登录到安装有d b 2 数据系统的机器。发出下列命令: d b 2a t t a c ht od b 2 i n s t l 这旱,认证是隐式执行的。使用的是登录到机器时所使用的用户标识,并且 假定操作系统已经验证了该用户标识。 d b 2c o n n e c tt os a m p l eu s e rt e s tlu s i n gm y p a s s 改变密码 d b 2c o n n e c tt os a m p l eu s e rt e s t lu s i n gm y p a s sn e wc h g p a s sc o n f i r mc h g p a s s s e r v e r 在服务器上进行认证。 s e r v e re n c r y p t 在服务器上进行认证。在将密码发送给服务器之自仃, 先在客户机机器上对密码进行加密a c l i e n t 在客户机机器上进行认证,采用匹配算法对s e r v e r 传回的用 户密码与自己输入的密码进行核对,匹配后即可登录系统。 图3 3d b 2 数据库数据分析与设计系统的验证过科 一旦用户身份验证成功,d b 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论