如何使用数据库管理数据(ppt 29页).ppt_第1页
如何使用数据库管理数据(ppt 29页).ppt_第2页
如何使用数据库管理数据(ppt 29页).ppt_第3页
如何使用数据库管理数据(ppt 29页).ppt_第4页
如何使用数据库管理数据(ppt 29页).ppt_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、本资料来源,第六章 数据资源管理技术,第一节 传统文件环境下的数据整理,一、文件组织名称与概念 计算机系统以层级的方法组织数据,从位、字节,进而到字段、记录、文件到数据库,如图6.1所示。位代表计算机可处理的最小单位数据。一组位称之为一个字节,代表单一字符,可以是字母、数字或其他符号。一组字符组成一个字、一组文字或一套完整的数字(例如人的名字或年龄),称之为一个字段(Field)。一组相关字段组成一个记录(Record)。一组相同类型的记录则称为文件(File)。 一组相关文件则形成一个数据库(Database)。图6.1说明了乘客信息文件可以和航班信息文件及订单信息文件等构成票务系统数据库。

2、,图6.1 数据层级,一个记录描述一个实体。一个实体(Entity)是一个人、地、物或事件,是我们用以保存信息的基本单位。一张订单是销售订单文件中一个典型的实体,可以保存公司销售订单的信息。描述一个特殊实体的特征或性质称之为属性(Attribute)。举个例子来说,订单号码、订单日期、客户编号和订单总额等,每一项都可以是订单的属性。这些属性的数值可从记录的各个字段中找到并描述实体订单,如图6.2所示。 该记录描述名为订单的实体及其属性。订单号码、订单日期、客户编号及总订单额皆为该订单记录的具体值。订单号码是关键字段,因为它标识了每一订单独特的识别号码。,图6.2 实体与属性,二、传统文件环境的

3、问题 图6.3说明了信息处理的传统方法。 使用传统方法处理文件造成公司内每个工作部门均发展了专门的应用系统。各应用系统需要个性化的数据文件,它们有可能是主文件的子集。主文件的这些子集会造成数据重复、处理缺乏弹性和浪费存储资源。 1. 数据冗余与混乱 数据冗余(Data Redundancy)是指多个数据文件中有相同的数据。当组织内不同部门、工作单位与团队独立搜集相同的数据时,数据冗余就会发生。这种混乱会使企业很难进行客户关系管理、供应链管理与利用企业系统来整合不同来源的数据。,图6.3 传统的文件处理,2. 程序数据相互依赖 程序数据相互依赖(program-data dependence)意

4、指文件中的数据和更新与维护这些文件的程序之间有紧密的关系,每个计算机程序必须描述它所运行的数据的位置与特性。在传统文件环境中,任何数据的改变都必须改变所有访问该数据的程序。譬如说,改变税率或邮政编码长度就得改变程序。这类程序的变更可能会花上数千万元,才能重建被修改数据的程序。 3. 欠缺弹性 经过广泛的编程之后,传统文件系统可以产生例行性报表,但是无法产生偶发性需求的报表,或及时回应未预期的信息需求。对于偶发性的信息需求,系统虽有数据,但是检索的费用昂贵。 4. 安全性低 因为对数据的管理乏力,存取与发布信息根本无法控制。 5. 缺乏数据共享与实用性 在混乱的环境中缺乏对数据存取的控制,人们也

5、就不易获得信息。因为信息存放在不同文件与不同的部门中,不容易建立起相互关系,要做到信息共享或及时存取几乎是不可能的事,信息也无法在组织的不同功能领域或不同部门间自由流动。,第二节 使用数据库管理数据,数据库技术可以防止传统文件组织方法所造成的许多问题。更严谨地定义之,数据库(database)是指搜集整理过的资料,将之集中并减少重复的数据,以有效率地提供给多方面的应用。不同于将各应用系统的数据存放在单个文件中,数据在使用者看来只储存在一个地点。一个数据库服务于多个应用系统。图6.4说明了此数据库的概念。,图6.4 现代数据库环境,一、数据库管理系统 数据库管理系统(Database Manag

6、ement System,DBMS)只是一套软件,它可以让组织集中数据,有效地管理数据,并可由应用程序存取数据。DBMS的运作如同应用程序和实体数据文件之间的接口。当应用程序呼叫某数据项,DBMS便从数据库中找出该项目,并呈现给应用程序。 DBMS分开了数据逻辑与实体观点,使程序设计师或最终使用者无须了解实际上数据被存放在哪儿及如何存放。数据库管理软件可以让实体观点通过不同的应用程序表现出不同的逻辑观点。 数据库管理系统由三个部分组成。 (1)数据定义语言 (2)数据操纵语言 (3)数据字典 数据定义语言是规范的语言,程序设计师以此来确定数据库内容和架构。数据定义语言在数据被转换成应用程序所需

7、的格式之前,定义数据库的每个数据元素。,大多数DBMS都有一种专门化的语言,被称之为数据操纵语言,它与某些惯用的应用编程语言共同使用,以操纵数据库中的数据。这种语言包含许多指令,让最终使用者和程序设计师可以从数据库中得到数据,以满足信息需求并开发应用系统。目前最流行的数据操纵语言是结构化查询语言(Structured Query Language,SQL)。 DBMS的第三个部分是数据字典。它是自动化或人工文件,用以储存数据元素的定义与数据特性,例如用法、实体表示法、所有权(哪位组织成员应负责维护数据)、授权与安全性。很多数据字典可以产生数据使用、数据组成、程序位置等的清单和报表。 大多数字典

8、是全然被动的,只是报告而已。更先进的字典类型是主动式,字典的变动会被相关程序自动采用。 理想的数据库环境中,数据库的数据只被定义一次,便可使用于所有的应用程序中,以消除重复或是不一致的数据。应用程序由DBMS的数据操纵语言与传统的程序设计语言组合写成,从数据库中请求数据元素。当应用系统向数据库要求数据元素,DBMS会找出所呼叫的数据元素并传回。 DBMS可以减少程序开发和维护的成本,以及程序与数据的相互依赖性。信息的可用性提高了,因为使用者与程序设计师可以执行偶发性的数据查询。DBMS可以让组织集中管理、使用并安全维护它们的数据。,二、数据库的种类 1. 关系数据库管理系统 关系数据库管理系统

9、(Relational DBMS)是目前在个人计算机、大型计算机与大型主机上最广泛使用的DBMS类型。关系数据模型代表数据库中所有数据以简单的二维表格来表示。此表格看似是扁平文件,但是可以轻易地从一个以上的文件中摘取并组合数据。有些时候表格也会被认为是文件。 图6.6包含一个宾馆信息表格、一个客户信息表格以及一个订单表格。每一表格的行都是独特的记录,而每一列则是字段。行或记录也可称为元组(Tuple)。使用者常常会需要从许多相关信息中得出报表。关系型模型的长处在于,只要表格中有共同的数据单元,就可使任一文件或表格的数据相互发生关系。 每一个表就是一个关系,每一行或记录则是一个元组。每一列对应一

10、个字段。这些关系可以轻易地组合和抽取来存取数据并生成报表,只要任何两者之间共享相同的数据元素即可。 在关系数据库中,发展有用的数据集合需要三项基本操作:选择、投影以及连接。选择操作建立一个子集,由所有符合所定标准的文件记录组成。换句话说,选择将建立由符合某些标准的行所组成的子集。连接(join)操作组合关系表格,为使用者提供比单个表格更多的信息。 投影操作将建立一个子集,由表格的列组成,允许使用者建立只包含需求信息的新表格,也叫做视图。,图6.6 关系数据模型,在大型主机上的关系数据库管理系统的领导品牌包括IBM的DB2和Oracle公司的Oracle DB2、Oracle与微软的SQL Se

11、rver是中型计算机使用的DBMS。微软的Access是PC使用的关系数据库管理系统,Oracle Lite是使用在小型手持运算装置上的DBMS。,2. 层次数据库管理系统与网状数据库管理系统 层次数据库管理系统用树状结构来呈现数据。每个记录中数据元素被组织成记录的一小部分,称为段。对使用者来说,每一个记录看起来就像组织图,最高层级的段称为根段。逻辑上,较高层级与较低层级相连,如同父子关系。父段可以有一个以上的子段,但子段只能有一个父段。 图6.8表示的层次结构可用于人力资源数据库中。根段是员工,包含基本员工信息,例如姓名、住址和身份证号码。紧接着有三个子段:薪资(包含薪水和升迁的数据)、职务

12、(包含工作职位与部门的数据)以及福利(包含受益人与各项福利资料)。薪资下又有两个子段:绩效(包含员工工作绩效评估数据)与薪资记录(包含员工过去薪资)。在福利下有退休金、人寿保险和医疗保险等子段,包含各种福利计划的数据。,图6.8 人力资源系统的层次数据库管理系统,相较于层次结构描述一对多的关系,网状数据库管理系统描述了多对多的关系。换句话说,父段可以有很多子段,子段也可以有多于一个父段。典型网状DBMS中的多对多关系是乘客与航班之间的关系,如图6.9所示,有许多航班与众多乘客,一个乘客可以在众多航班中选择,某次航班可以被许多乘客选择。 3. 面向对象数据库 今后,有许多应用软件将要求数据库不只

13、能够储存与撷取结构化数值与字符,也要能够处理图形、影像、照片、声音,以至于动态影片。传统的DBMS并不适于处理图形或多媒体应用等。但面向对象数据库管理系统(object-oriented DBMS,OODBMS)把数据和程序作为对象来储存,可以自动撷取与共享。 面向对象数据库管理系统因为可用来管理网页上的各种多媒体组件与Java程序而逐渐受到欢迎,这方面典型的应用必须整合不同来源的信息。OODBMS也适合用于递归性数据之类的数据存储格式。金融与贸易系统经常使用OODBMS。,图6.9 网状数据库管理系统,与关系DBMS相比较,面向对象可以储存的信息类型更复杂,相对的,在处理大量交易时,速度又比

14、关系DBMS慢。混合的对象关系数据库管理系统(object-relational DBMS)可提供面向对象与关系DBMS的功能。混合的方法可以三种方式完成:使用可提供面向对象存取关系DBMS的工具、使用面向对象扩展至现有的关系DBMS,或是使用混合的对象关系数据库管理系统。 三、查询数据库:SQL的组成 使用者与信息系统专家可以将SQL用作将数据从数据库中取出的交互式查询语言,SQL指令可以内嵌于用COBOL、C或其他语言编写的应用系统之中。 接下来说明最重要的SQL基本指令。一般指令中具有特定意义的SQL保留字如SELECT、FROM会以大写标识,而SQL指令会被写成多行。大部分读取数据的S

15、QL语句会包含以下三种子句。 SELECT:列出数据库的表格中使用者在结果的表格中想要看到的列。 FROM:确认将要从中选出某些列的表格或视图。 WHERE:包含由一个表格内选择特定的行(记录)的条件和多个表格中符合连接的条件。,(1)SELECT语句 SELECT语句可以在关系型表格中进行特定的信息查询。一个从表格中所有行读取特定列的SELECT语句,其一般格式如下: SELECT Column_Name,Column_Name, FROM Table_Name; 要撷取的列列于关键词SELECT之后,所使用的表格则列于关键词FROM之后。要注意的是列与表格的名称之中不能有空格,必须是一个词

16、或是用下划线连接,最后语句会以分号结束。 (2)条件式查询 WHERE子句被用来根据WHERE子句中所描述的条件只显示表格中的某些行。例如,假设想要从客房表格中显示单价低于700元/天的客房的相应数据,可以使用: SELECT RoomNumber,RoomDescription,UnitPrice FROM ROOM; WHERE UnitPrice700;,(3)连接两个表格 假设想知道数据库中每间客房的宾馆名称、编号与地址,可以连接客房表格与宾馆表格来得到所需的信息。查询语句如下所示: SELECT ROOM.RoomNumber, Hotel.HotelNumber, Hotel.Ho

17、telName, Hotel.HotelAddress FROM ROOM,HOTEL WHERE ROOM.HotelNumber=Hotel.HotelNumber 要注意的是在WHERE子句中可以表达多个条件。,第三节 建立数据库环境,一、设计数据库 要建立一个数据库,必须经历两种设计:概念设计与实体设计。数据库的概念或逻辑设计是依企业观点来建立数据库的抽象模型。而实体设计则表示数据库如何实际安装于直接存取的存储设备。逻辑设计需要数据库最终使用者对企业信息需求详尽的描述。理想上,数据库的设计将是组织全面性数据规划的一部分。 数据库概念设计描述数据库中的数据元素如何结合。设计过程将界定数据

18、元素之间的关系,以及结合数据元素以满足信息需求最有效率的方法。此过程也将界定重复的数据元素,以及特殊应用软件程序的数据元素组合。各组数据会被组织、改善、整理,直到数据库中所有数据元素关系完整的逻辑观点已被展现出来。 数据库设计者将逻辑数据架构模型以实体关系流程图制成文档,如图6.13所示。矩形代表实体,菱形代表关系。菱形旁的1或M代表实体之间的关系,可以是一对一、一对多或多对多。图6.13表示每一订单能有多间客房,一间客房只能对应一个宾馆,同一宾馆可以提供多间客房。各实体的属性列于实体旁边,关键字段下有下划线。,为了使关系数据库更有效率,复杂的数据元素必须合理化以消除重复的数据元素和难用的多对

19、多关系。这种由复杂的数据组合来建立小而稳定的数据结构的过程称之为规格化(normalization)。图6.14和图6.15说明了这个过程。,图6.13 实体关系流程图,二、分布式数据库 分布式数据库的实体存储位置超过一个以上。部分数据库存放于某处,其他部分可能在别处储存与维护。有两种方法来处理数据库的分散,如图6.16。一种方式是中央数据库(参见图6.16(a)可被分区,每个远程处理器有足够的数据以服务本地区域。区域性数据库改变时,中央数据库可以批量调整,不过通常是在晚上进行。另一战略方式是在所有远程备份中央数据库(参见图6.16(b)。 分布式系统减少了单一大型集中式数据库的脆弱性。它提高

20、了对本地使用者的服务和响应力度,而且可在较小且较便宜的计算机上运行。,图6.16 分布式数据,然而,分布式系统依赖高质量的电信线路,而它们很容易出故障。更有甚者,区域数据库有时候可能会脱离中央数据的标准和定义,而且导致分散处理敏感性数据的安全性问题。数据库设计者需要在做决策时进行多方衡量。 分布式数据库有不同的方式。中央数据库可以被分区,每一远程处理器都有部分的数据库可服务其区域性需求。中央数据库也可以被复制于远程。 三、数据库系统的管理需求 数据库环境的要件是:数据管理;数据规划与模型建立的方法;数据库技术与管理;使用者。这种环境的描述如图6.17所示。,图6.17 数据库环境中的要件,1.

21、 数据管理 数据管理负责特定的政策和程序,使数据可以被当成组织资源来管理。这些责任包括发展信息政策、规划数据、监督逻辑数据库设计与数据字典的开发,以及监督信息系统专家和终端使用团队的数据使用。 数据管理的基本原则是,所有数据都是整个组织的财产。任何群组完成任务所需的数据都必须提供。组织需要明确地陈述信息政策,确立整个组织共享、传播、获取、标准化、分类与储存信息的规划。 2. 数据规划与建模的方法 建立数据库所做的企业分析可以解释为整体企业的信息需求(不同于单个应用软件所针对的需求)。企业分析的目的在于确认构建组织信息关键的实体、属性与关系。 3. 数据库技术、管理与使用者 数据库需要新的软件、

22、接受过DBMS技术训练的人员和新的数据管理结构。大多数企业在信息系统部门内组成数据库设计与管理小组,负责定义与组织数据库的结构与内容,并维护数据库。在与使用者密切合作后,设计小组会建立实体数据库、个体间的逻辑关系及存取的规则与程序,其功能就称为数据库管理。,第四节 数据库的潮流,一、多维数据分析 有时候,管理者需要以传统数据库模型无法表示的方法分析数据。举例来说,某公司在东部、西部和中部三个地区销售螺帽、螺栓、垫圈和螺丝钉这四种产品,想知道各地区各产品的实际销售量,并与计划销售量进行比对。这种分析需要数据的多维观点。 多维分析让使用者掌握数据不同维度组合的各种层面。信息的每一个方面产品、价格、

23、成本、地区或期间都代表不同的维度。所以产品经理可以采用多维数据分析工具了解6月份东部地区卖出多少垫圈,与上个月、去年6月相比如何,以及是否符合销售预测。多维数据分析又称为联机分析处理。 图6.18所示的多维模型可以代表产品、地区、实际销售额与计划销售额。实际销售额矩阵可以与计划销售额矩阵堆栈而形成立方体。如果水平转动90度,将会显示各产品的实际销售额与计划销售额。如果垂直转动90度,会得到各地区的实际销售额与计划销售额的比较。立方体可以互相嵌套,以建立更复杂的数据观点。这种旋转数据立方体的能力是多维报表的主要技术,有时也被称为“slice and dice”。,二、数据仓库与数据挖掘 1. 什

24、么是数据仓库 数据仓库(Data Warehouse)是储存对公司管理者有潜在利益的当前和历史数据的数据库。数据来自于许多核心操作系统与外部搜集的数据,包含网站交易,每一种都有不同的数据模式。它们可能包括老旧系统、关系或面向对象数据库管理系统或是HTML或XML文档组成的系统。这些数据依需要可以每小时、每天、每个星期,甚至每个月将之复制到数据仓库的数据库。数据被标准化为一致的数据模式并整合起来,可用于整个企业的管理分析与决策制定。数据可以供任何需要的人取用,但是不能被变更。,图6.18 多维数据模型,图6.19表述了数据仓库的概念。数据仓库必须由企业与技术人员进行仔细的规划,以确保它能在关键的

25、决策时刻提供正确的信息。企业也可能需要改变企业流程,以从数据仓库的信息中获利。 数据仓库由组织的系统中筛选现在与历史的数据,并以外部的数据结合形成中央数据库,供管理者进行分析与报告时使用。信息目录提供了数据仓库中可提供信息的索引。 公司除了可以建立企业整体数据仓库来服务全体组织,也可以发展另一种较小的、分布式的数据仓库,称为数据集市。数据集市(Data Mart)是数据仓库的子集,其中存着已汇总的或特定的数据被储存在单独的数据库中,提供给特定的使用者利用。数据集市通常是注重在单一的主题上,因此比起企业整体的数据仓库,它可以更快速与更低成本地建立起来。另一方面如果组织开发太多的数据集市,也会带来

26、复杂度、成本与管理上的问题。,图6.19 数据仓库的组成,2. 数据挖掘 数据仓库系统提供了偶发性和标准化的查询工具、分析工具以及图形化报表工具,包括了OLAP与数据挖掘的工具。数据挖掘(Data Mining)利用各式各样的软件工具可以在大量数据中找出隐藏的模式与关系,并且从其中推论出规则,用来预测未来的行为并作为决策的依据。通过数据挖掘,可以利用关于个人偏好的数据来为目标运营提供个性化的信息。在企业与科学工作中也有许多数据挖掘的应用。这些系统可以进行更高级的分类与趋势分析,需要的话也能往下进行更细的分析。表6.1描述了组织如何从数据挖掘中获益。,表6.1 企业如何使用数据挖掘,3. 数据仓

27、库的效益 数据仓库不仅能提供处理过的信息,而且也使决策制定者能更容易地获取信息。它甚至包括构建与重新建构数据模型的功能。据估计世界上约有70%的商业信息储存于大型主机数据库中,其中许多都是很老旧的系统。而大部分老旧系统也是支持企业核心商业流程的关键应用系统。只要这些系统能有效率地处理维持公司运作所需的大量交易,企业就不愿意替换这些系统,以避免妨碍关键商业功能与支付高昂的系统替换成本。许多老旧系统使用层次数据库管理系统或更旧的非数据库式文件,因此使用者很难存取信息。数据仓库可以让决策者随时取得数据,而不会影响到基础的操作系统。许多组织通过万维网技术更容易地使用数据仓库。 三、数据库与万维网 1. 万维网与超媒体数据库 网站利用超媒体数据库,将含有文字、声音、影像与图形的信息相互连接成网页来储存。超媒体数据库(Hypermedia Database)管理信息的方式是以节点的形式储存大量信息,并由使用者指定的链接来连接。节点可能包含文字、图形、声音、动态影像或可执行的计算机程序。,搜寻信息时不必遵循既定的组织结构,可以依设计者建立的各类关系,立刻扩展至

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论