E2002134现代数据管理技术综述.doc_第1页
E2002134现代数据管理技术综述.doc_第2页
E2002134现代数据管理技术综述.doc_第3页
E2002134现代数据管理技术综述.doc_第4页
E2002134现代数据管理技术综述.doc_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

研究生课程论文 Course Paper论文编号 Paper No: E2002134撰写日期 Date: 2003-08-15现 代 数 据 管 理 技 术 综 述A Survey of Modern Data Management Technologies张志林 ZhangZhiLin(计算机及信息工程学院 计算机技术 2002级 学号:E2002134)论文类型Paper Type: 课程总结 Summary of Course Content论及主题 Subjects Covered: 关系数据库 Relational Databases 对象-关系数据库 Object-Relational Databases Web/XML数据管理 Web/XML Data Management 数据仓库与联机分析处理 Data Warehousing & OLAP 数据挖掘与知识发现 Data Mining & Knowledge Discovery课程名称 Course:现代数据管理技术 Modern Data Management课程性质 Course No:研究生专业课 Graduate Course 0824M04学 分 数 Credits:2主讲教师 Instructor:许卓明 XU Zhuo-ming开设学院 College:计算机及信息工程学院 Computers & Information Engineering开设时间 Semester:20032004学年第一学期 Spring, 2003河 海 大 学现 代 数 据 管 理 技 术 综 述张志林(计算机及信息工程学院 计算机技术 2002级 E2002134)Email:摘 要:随着网络技术和软件技术的飞速发展,关系数据库从1970年发展至今,功能日趋完善。本文从对传统数据库技术的回顾开始,逐步对目前数据库应用中所采用的主要的几种数据管理技术进行了简要论述,并对这些技术的优缺点进行简单分析。关键词:数据管理;XML;数据仓库;OLAP;数据挖掘;语义万维网A Survey of Modern Data Management TechnologiesZhang Zhi Lin(E2002134, College of Computers & Information Engineering, Hohai University, Nanjing, China)Email:Abstract:With the rapid development of the network and software technology, the relational databases are gradually mature from 1970 to now. From the beginning of traditional databases looked back, this article discusses some main data management technologies in modern database application and analyses their virtues and disadvantages.Key words: Data Warehousing; XML; OLAP; Data Mining; Semantic Web1 引言1在众多的计算机应用中,有一类重要的计算机应用,叫做数据密集型应用(data intensive applications)。数据管理的主要任务有: 数据组织(organization) 数据存储(storage) 数据访问/检索/查询(access/retrival/query) 数据更新/维护(updating/maintenance) 数据安全(security) 数据管理只要有以下3个特点:1、涉及的数据量大,一般需要存放在辅助存储器中,内存中只能暂存其中很小的一部分;2、数据不随程序的结束而消失,而需长期保留在计算机系统中,这种数据称为持久数据(persistent data)3、数据为多个应用程序所共享,甚至在一个单位或更大范围内共享(shared data)。2 传统数据库技术回顾2.1 文件系统(file system)早期的数据管理都采用文件系统(file system)。在文件系统中,数据按其内容、结构和用途组成若干命名的文件。但经事实证明,文件系统存在着明显的缺点,其中包括:l 编写应用程序很不方便。l 文件的设计很难满足多种应用程序的不同要求,数据冗余往往是不可变面。l 文件结构的每个修改将导致应用程序的修改,应用程序的维护工作量很大。l 文件系统一般不支持对文件的并发访问(concurrent access)。l 由于数据缺少统一管理,在数据的结构、编码、表示格式、命名以及输出格式等方面不容易做到规范化,标准化。2.2 数据库管理系统 (DBMS)世界上第一个数据库管理系统是上世纪60年代开发出来的,自上世纪80年代以来关系数据库(RDBMS)一直是数据库的主流产品。采用DBMS的主要优点有l 提供专门的数据库语言(DL),数据的逻辑形式与物理形式分离,数据查询操纵是高度的非过程化。l 它尽可能的避免了数据沉冗,保持了数据的高度一致性。数据的独立性,可维护。l 数据共享高,支持并发访问l 保证数据的安全性,具备了数据恢复的能力。随着社会的发展和计算机应用的日益深入,关系数据库逐渐暴露其缺点,主要表现在以下几个方面。l 数据类型有限,关系数据库只提供其内部所定义的有限的几种基本数据类型。新的应用需要灵活的类型机制,数据库管理系统应该能够支持用户定义适合自己应用的数据类型。l 关系数据库的表达能力有限,关系数据库的基本结构是二维表,是一种平面结构,无法表达更复杂的结构模式和有效处理复杂的对象。l 关系数据库不支持用户自定义的或系统可扩充的函数或运算。关系数据库能处理的运算只有常用的算数、逻辑、字符串、位串、时间等的运算和一些比较运算以及少许聚集函数,超出此范围,只有交给应用程序去处理,严重影响了数据库的性能。l 缺少全系统唯一的、不依赖于属性值、类似于对象标识符(OID)的标识符。关系数据库是按属性值选取数据的,是按数据的内容来访问数据。但是在访问复杂对象的内部结构时,这种联想式访问显得低效和不易理解。2.3 什么是对象关系数据库为了克服关系数据库的弱点,人们开始探索关系数据库的改进之路。对象数据库的发展促使人们研究关系数据库与对象数据库结合的问题,使得各主要关系数据库先后实现了程度不等的对象化,拓宽了其应用面。这种数据库就是对象关系数据库(ORDBMS)。2.4 对象类型对象关系数据库保留了表的结构及其有关的语句。为了支持对象数据模型,它又定义了一些面向对象的数据类型。在对象关系数据库中,类型具有类的特征,可以看成类。每个类型可拥有若干实例或对象。每个对象具有一个由系统生成的、唯一的对象标识符。在新定义的类型中,最基本的是行类型(row type)。其它类型可看成它的特例和补充。2.4.1 行类型行类型定义如下:CREATE ROW TYPE (row type name)()表面上看,行类型和表的定义差不多,每个对象相当于表中的一行,但它们有本质的差别:l 表中的行由主键值来识别,而行类型的对象用系统生成的、唯一的OID来识别。l 表中的属性受第一范式约束,不能是元组、集合或其他非预定义的类型。而行类型不受此约束。l 表通过连接运算才能引用其他元组中的属性,而行类型可以直接通过OID引用其他对象。但是行类型和表一样,只有四种隐含的操作:插入对象(INSERT)、删除对象(DELETE)、修改对象(UPDATE)、查询对象(SELECT)。2.4.2 抽象数据类型抽象数据类型定义如下:CREATE TYPE(type name) (列出所有属性名极其类型, 定义该类型的=和函数, 定义该类型所有的函数(方法)在上述定义中,定义该类型的=和函数是选项,属性部分的定义与行类型相同。抽象数据类型的函数部分有三种通用的、隐含的函数:l 构造函数:用来生成一个属性等于给定值的ADT对象,其格式如下, (ADT名)()l 观察函数:用于读取属性值。l 删改函数:用于删除或修改对。除此以外,每个抽象函数类型还可以定义各自的函数,又可分为如下2类:l 内函数 这类函数就定义在CREATE TYPE语句中,其格式为: FUNCTION()RETURNS; BEGIN END 内函数一般用来定义比较短小的方法。l 外函数 外函数只在CREATE TYPE语句中留有调用说明,函数的实现部分置于类型定义语句之外。外函数的说明格式为: DECLARE EXTENAL FUNCTION(signature) LANGUAGE; 增加了抽象数据类型后,上面所提到的关系数据库的几个缺点都可以克服。3 XML数据管理33.1 什么是XMLXML是(Extensible Markup Language)是以通用标准标记语言SGML(the Standard generalized Markup Language)为基础,针对万维网的需要,发展而成的一个简化版本。XML技术自出现以来,发展非常迅速,在许多领域内得到广泛的支持而有着广阔的应用前景。例如电子数据交换、电子商务等等更是把XML作为一种基础性、支柱性的技术来看待。随着应用的扩展,XML也增加了一些数据处理和数据交换所需的内容。3.2 XML文档的语法组成XML文档由标记和内容组成。XML中共有六种标记:元素(elements),属性(attributes),实体引用(entity references),注释(comments),处理指令(processing instructions)和CDATA段(CDATA sections)。其中,元素是标记的最常见的形式,由尖括号分隔,和人们熟悉的HTML中的标记看起来没什么两样。大多数元素标识它所包含的内容的性质。3.3 XML在数据管理中的应用近年来,XML日益受到各界的重视,这主要是由于它有广泛的用途和重要的应用前景,其主要用途可概括为:3.3.1 数据交换l 办公和事物数据交换。l 科学数据交换。l 电子商务数据交换。3.3.2 半结构化数据的描述与管理XML为半结构化数据提供了一个标准化的数据模型和语言,再加上万维网这样一个广阔的舞台,使其迅速地从研究走向实用。3.3.3 异构数据集成异构数据集成是当今数据管理中经常出现的问题。常用的办法是用包装器将各种异构数据包装成统一界面。用XML作为统一界面有其优点。首先,随着XML的广泛应用,将会出现大量的、日益增多的XML文档,选用XML作为统一界面更有利。其次XML既可用于结构化的数据交换,也可用于半结构化数据交换。3.4 XML文档关系模式的生成(DTD法)有了DTD图,不难自动生成相应的关系模式,一般在生成时,采用如下的规则:l 根元素不从属其他元素,单独构成一个单元组关系;l 可以多次出现的元素构成一个关系,元素的每次出现相当于关系的一个元祖。l 元素的属性仍当做该元素所对应元祖的属性。l 只有text的子元素可以当做其双亲元素的属性处理。 l 每个元祖由系统赋给惟一的标识符ID,作为该元祖的主健,对有序的元祖,要增加序号(order)属性。4 数据仓库与联机分析处理4.1 数据仓库专为决策服务的数据库系统称为数据仓库。数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。与其他数据库应用不同的是,数据仓库是以读为主的数据库系统。4.1.1 数据仓库产生背景决策是很普遍的社会活动,决策支持系统(DSS)是辅助决策者决策的计算机信息系统。只有拥有充分、可信、合乎决策需要的数据,决策支持系统才能发挥作用,数据是决策的基础。和面向日常操作和运行的数据库不同,用于决策的数据库有以下特点:l 多为总结性数据。l 不但有当前数据,还有历史数据,以便分析变化趋势,进行决策。l 决策需要多方面的数据,不但需要本单位数据,也需要其它单位数据,甚至社会公众数据。l 数据与决策的主题有关部门,不同决策需要不同数据。l 决策数据不一定及时更新,可以定时刷新或按需刷新。4.1.2 数据仓库框架下图是数据仓库示意图。最左边是数据源,包括数据库和非数据库数据源。数据源一般是异构的,通过网络相连。数据仓库可以通过ODBC之类的机制以及各种异构多数据源访问技术,访问各种数据源,从数据源选取决策所需的数据。但是由于各数据库是为各自的应用而建立的,数据管理手段,甚至硬件都可能不同,在编码、命令、数据类型、和语义等方面不可避免地会有冲突。为了把各数据源的数据集成为数据仓库的数据,必须按照数据仓库的统一要求进行必要的变换。不但要集成数据,还要集成数据的数据,即元数据。异构数据的集成是很繁琐的工作,各个数据仓库的数据源未必相同,在建立数据仓库时必须按照各自的情况分别解决。数据经必要的变换后,就可以加载到数据仓库中。加载过程实际上相当于数据的一次全扫描,可以利用这个机会对数据进行必要的处理,例如完整性约束检查、排序、簇集、聚集函数计算、建立索引等。综上,整个数据仓库的建设按照其不同性质,把它分为三个截然不同的部分,分别是:源数据、数据准备、以及数据呈现。现在讲的最多的OLAP分析和决策支持等,都是属于数据呈现的部分。当前数据仓库的核心仍是RDBMS管理下的一个数据库系统。ORACLEDB2文件系统HTML文件抽取变换加载刷新元数据决策数据OLAP服务器OLAP服务器查询分析报表数据挖掘图形用户接口决策者数据仓库框架示意图4.1.3 数据仓库的基本数据模式数据仓库从各数据源抽取决策所需的数据并且经过必要的变换后,还需按一定的数据模式组织这些数据。数据模式的设计要便于进一步处理,要有利于提高处理效率。在设计数据模型时,要尽可能删去与决策无关的内容,压缩数据量。l 星型连接1) 事实表:位于星型连接的中央,它是被大量载入数据的实体。2) 维表:周围的其它实体。3) 在很多情况下:文本数据与数值数据是分离开的。l 雪花模式雪花模式实际上是星形模式的规范化形式。用雪花模式表示,可以节省存储空间,但在访问维表时,要多做连接操作。4.1.4 数据仓库的基本操作维表是决策所须的原始数据,数据仓库应在维表的基础上计算出决策所须的各种总结数据。作为一种数据库系统,数据仓库主要以SQL语言及其聚集函数为基础,经适当扩充,根据事实表和维表提供的原始数据,计算出种种总结数据。l 基本聚集函数SQL语言提供五种聚集函数:SUM,COUNT,AVG,MAX和MIN。由于聚集函数的计算很浪费时间,在数据仓库中常常把这些计算结果当作实视图保存起来。l 立方体操作事实表是个多维表,每个元组可用多维空间的一个点或单元表示。如果每维再加一个值ALL,则可以在多维空间中表示各种实视图。4.2 联机分析处理(OLAP)联机分析处理已经成为当今RDBMS不可缺少的功能。它的主要功能是管理决策所需的总结数据,而总结数据一般都以实视图的形式出现在数据仓库中。在数据仓库这样的大型数据库系统中,查询、维护的速度是关键问题。为了提高性能,除了采用并行处理外,还得在数据组织、查询策略、索引技术等方面采取有效措施。4.2.1 联机分析处理(OLAP)的实现联机分析处理(OLAP)有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP。ROLAP表示基于关系数据库的OLAP实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了星型模式。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为雪花模式。MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多维数组存储数据。多维数据在存储中将形成立方块(Cube)的结构,在MOLAP中对立方块的旋转、切块、切片是产生多维数据报表的主要技术。5 数据挖掘与知识发现5.1 什么是数据挖掘随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为企业创造很多潜在的利润。数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge Discovery in Database,KDD),是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。5.2 数据挖掘的基本方法数据挖掘方法有多种,其中比较典型的有关联分析、序列挖掘、分类分析、聚类分析等。5.2.1 关联分析关联分析,即利用关联规则进行数据挖掘。在数据挖掘研究领域,对于关联分析的研究开展得比较深入,关联分析的目的是挖掘隐藏在数据间的相互关系,它能发现数据库中形如90%的顾客在一次购买活动中购买商品A的同时购买商品B之类的知识。5.2.2 序列挖掘序列挖掘分析和关联分析相似,其目的也是为了挖掘数据之间的联系,但序列挖掘分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列ABC出现的频度较高之类的知识,序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度C和最小支持度S。5.2.3 分类分析设有一个数据库和一组具有不同特征的类别(标记),该数据库中的每一个记录都赋予一个类别的标记,这样的数据库称为示例数据库或训练集。分类分析就是通过分析示例数据库中的数据,为每个类别做出准确的描述或建立分析模型或挖掘出分类规则,然后用这个分类规则对其它数据库中的记录进行分类。举一个简单的例子,信用卡公司的数据库中保存着各持卡人的记录,公司根据信誉程度,已将持卡人记录分成三类:良好、一般、较差,并且类别标记已赋给了各个记录。分类分析就是分析该数据库的记录数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论