《数据库与数据仓库》PPT课件.ppt_第1页
《数据库与数据仓库》PPT课件.ppt_第2页
《数据库与数据仓库》PPT课件.ppt_第3页
《数据库与数据仓库》PPT课件.ppt_第4页
《数据库与数据仓库》PPT课件.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章 数据库与数据仓库,信 息 管 理 系 统 开 发 结 构,第四章 数据库和数据仓库,第一节 数据管理 第二节 数据库与数据库管理系统环境 第三节 关系数据库模型 第四节 数据库的建立 第五节 数据仓库与数据挖掘 第六节 高级数据库技术和高级数据库应用,第一节 数据管理,什么是数据管理 数据组织的层次 实体、属性和关键字 数据管理的传统方法 数据管理的数据库方法,为什么要进行数据管理,名称,时代,作者,规格,幅面,内容,卷前引首,前隔水,后隔水,题跋,历代收藏人,印章,真迹图,细部放大图,为什么要进行数据管理,第一,“信息孤岛”问题日益严重,数据采集、整理、分析的繁重任务,多源异构的海量数据存储,信息资源有效利用的需求,旧有的数据管理与企业发展的冲突等等; 第二就是系统的自动化程度不高,各个系统不能平滑地集成起来; 第三就是信息系统的成本,我们曾谈到,信息系统集成成本比信息系统建设的成本高甚至几倍。,什么是数据管理,根据赛迪顾问的界定,中国数据管理技术应用软件主要包括:企业信息门户(EIP)、商业智能(BI)、内容管理(CM)、知识管理系统(KMS)和竞争情报系统(CIS)五大应用软件领域。,数据管理的定义,对大量数据的有规则地组织、存储、检索、呈现、统计、分类、分析,以实现除基本的保存功能外的最大效率地利用。 相关资料: /aboutirp/discourse_book3content.htm,数据组织的层次,数据按照层次方式进行组织 由位、字节、字段、记录、文件和数据库组成 位(Bit) 位是计算机中最小的数据单位,其值为0或1,是一个二进位,表示一个导通或未通的电路。 字节(Byte) 字节是由若干位组成的,代表一个字符。字符是信息的最基本构架。(见ASCII码表),ASCII编码表,数据组织的层次,字段(Field)。 多个字符组成一个词或者一个完整的数字(如人名或年龄), 字段是数据的最小单位,它不能再分成有意义的单位 记录(Record) 由与某个特殊对象或活动有关的所有字段组成。 文件(File) 同一类型的所有记录组成一个文件 文件就是与某个特定主题相关的数据记录的集合。,模型的概念: 对现实世界事物特征的模拟和抽象就是这个事物的模型。 计算机不能直接处理现实世界中的具体事物,所以必须先把具体事物转换为抽象的模型,然后再将其转换为计算机可以处理的数据,从而以模拟的方式实现对现实世界事物的处理。 模型应满足以下要求:,真实地反映现实世界; 易被人理解; 便于在计算机上实现;,基本术语,实体:客观存在、并且可以互相区别的事物称为实体。 属性:实体所具有的每一个特性都称为一个属性。选择的实体属性越多,所描述的实体就越清晰。属性有“型”和“值”的概念,属性的名称就是属性的“型”;对型的具体赋值就是属性的“值”。 主键值(码) :在众多属性中能够唯一标识实体的属性或属性组。 实体集:某个实体型下的全部实体,称为实体集。 联系:一个实体集内部各实体之间的相互联系,叫做实体内部联系。在实体集之间的联系,称为实体的外部联系。,实体、属性和关键字,实体entity 实体是所收集的数据相关的一类事物,可以是物,人,实际的东西,或者具体的东西 员工 库存 客户 订单 教室,实体、属性和关键字,属性Attribute 属性是实体的某一方面的特征 学生的姓名、学号、年龄、性别成绩是学生的属性 库存号、说明、现有数量、在仓库中的位置等是库存的属性,实体、属性和关键字,关键字 Primary Key 关键字是用来识别记录的一个或一组数据项,是识别记录和文件中查找记录的标志 学生文件中的学号,产品文件中的产品号,订单文件中的订单号 辅助关键字 Secondary Key 不能唯一表示一个记录的字段,数据管理的传统方法,利用文件管理数据 为每个应用程序分别创建和存储数据文件的数据管理方法都称为传统方法,数据管理传统方法的不足,数据冗余大 冗余是指在多个数据文件中重复出现相同的数据。 数据与程序独立性不高 数据文件和维护它的相关程序之间过分依赖。,数据管理的数据库方法,数据库是逻辑相关的记录和文件的集合。 把先前提及的所有存储在独立文件中的记录归并在一个数据库内,以便让不同的应用程序存取。 储存在数据库中的数据既独立于使用它的计算机程序,也独立于存储它的外部存储器的类型。,数据库管理系统中的模式,数据库管理系统中的模式,物理模式:描述数据的物理存储形式,也称内模式,直接与操作系统或硬件相联系。 概念模式(逻辑模式):数据库数据的完整表示,是所有用户的公共数据视图。模式仅仅涉及数据类型的描述,不涉及具体的数据值。 子模式:针对每一个用户或应用,又由模式导出若干个子模式(或叫外模式、用户模式)。子模式是直接面向用户的,用户能够看见并使用的是逻辑结构的局部数据描述。每一个子模式都是模式的一个子集;也可以看作是模式的一个窗口。一个数据库系统可以有多个子模式。 两级映射可保证三种模式之间的相互独立性。,数据库管理系统,Database Management System,DBMS 在数据库管理系统中,应用程序不能直接从存储介质获得所需的数据。它必须先将请求提交给DBMS,由DBMS负责从存储介质检索数据并提供给应用程序使用,基于数据库方法的优点,减少数据冗余,更有效利用存储空间并增强数据的完整性。也为组织提供了更大地利用数据的灵活性。 两个文件中的数据放在了同一个数据库,可以多种方法定位数据并获得要处理的数据 共享数据和信息资源,第二节 数据库与数据库管理 系统环境,数据库及其特征 数据库管理系统 数据库查询语言 数据的逻辑视图和物理视图,数据库及其特征,数据库的定义 数据库(Database)是一个信息的集合,在这个集合中可以按照信息的逻辑结构对其进行组织与存取。 数据库由两部分组成 信息本身 信息的逻辑结构,数据库特征,信息的集合,数据库特征,逻辑结构 数据字典包含信息的逻辑结构,数据库的特征,信息中的逻辑联系 建立信息间的联系或关系意味着找出文件之间的相互关系. 主关键字 数据库文件中的一个字段,唯一描述一个记录 产品文件中的产品ID,供应商文件中的供应商编号 外部关键字 一个文件中的主关键字出现在另一个文件中就是外部关键字,比如产品文件中的供应商文件.,数据库的特征,内在的完整性约束 完整性约束是保证信息质量的一种规则 比如 产品ID不能重复 产品文件中的供应商ID不应该是供应商文件中没有的供应商ID,数据库管理系统,Database Management System 是一组软件,允许组织集中并有效地管理数据以供应用程序访问 相当与应用程序和物理数据文件之间的接口,数据库管理系统的组成,数据定义语言 数据操作语言 数据字典,数据库管理系统组成,数据定义语言 描述数据库内容和结构的正式语言 数据操作语言 操作数据库中的数据,提供了一组提取数据的命令 数据字典 自动生成或者手工生成的文件,用来存储数据元素的定义和特性。如用途,物理表现,所属关系,授权和安全.被动的,主动的.,数据字典,给数据流程图中每个成分以定义和说明的工具。在数据流程图中仅对系统逻辑功能的总体框架作了描述,缺乏详细具体的说明。数据字典的作用是对数据流程图中的各种成分,包括数据项、数据结构、数据流、数据存储、处理功能、外部项等的逻辑内容与特征予以详细说明。数据字典中有关系统的详细信息是以后系统设计、系统实施与维护的重要依据。 数据字典编写的基本要求如下: 对数据流程图中各种成分的定义必须明确、易理解、唯一; 命名、编号与数据流程图一致; 符合一致性与完整性的要求,对数据流程图上的成分定义与说明无遗漏项,无同名异义或异名同义; 格式规范、文字精炼与符号正确。,财务管理第三层工资管理数据流程图,数据字典中的条目,数据项:是数据处理中不可分割的基本逻辑单位。包括数据项编号、名称、取值范围、数据项类型、长度等。,数据结构:描述数据流/数据存储的逻辑组成。数据结构条目内容包括:数据结构名称、编号、包含该结构的数据流/数据存储的编号、该数据结构中包含的数据项名称等。,数据字典中的条目,数据流:定义数据流程图中的数据流,内容为数据流的编号、名称来源、去向、包含数据结构的名称以及单位时间(如年月日)传输次数等。,数据存储:存储条目的内容有数据存储的名称、编号、组成(即数据存储包含的数据结构)、最大记录数等。 处理功能:条目内容有处理功能的名称、编号、输入数据流、输出数据流、处理逻辑概括等。 外部实体:条目内容有外部实体名称、编号、输入数据流、输出数据流等。,数据库查询语言,属于数据操作语言 自然语言 自然语言查询命令 LIST THE NAMES AND ADDRESSES OF ALL SUPPLIERS WHO LIVE IN SHANGHAI QBE Query By Example 通过拖曳数据项等方法来查询数据,数据库查询语言,SQL Structured Query Language 结构化查询语言标准 利用SQL可以查询不同数据库管理系统下的数据. 基本形式 SELECTFROMWHERE,数据视图和逻辑视图,DBMS把数据的逻辑视图和物理视图分开 逻辑视图以最终用户所使用的直观的方式来显示数据 物理视图则显示了数据的实际组织形式以及它在物理存储介质上的结构 一个物理视图可支持多个逻辑视图 DBMS使用专门的数据库管理软件,使得物理数据库可用于不同应用程序所需的不同的逻辑视图。,第三节 关系数据库模型,四种数据库模型 层次型 网状型 关系型 目前使用最为广泛 面向对象,层次型数据库,层次模型:实体之间按层次关系来定义。实体用记录表示,实体的属性对应记录的数据项。层次模型以每个实体为结点,上层结点叫“父结点”,下层结点叫“子结点”。如下图所示 仅有一个无双亲的根结点;根结点叶子结点 根结点以外的子结点,向上仅有一个父结点,向下有若干子结点。,网状模型数据库,网状模型:可表达比较复杂的实体间关系(多对多),但当需要对系统扩展时,对原有数据结构及应用程序的修改,需要花费更多的代价,甚至带来严重的后果。主要特征如下: 有一个以上的结点无双亲; 至少有一个结点有多个双亲;,关系数据库模型,利用一系列的二维表或文件存储信息. 在关系模型中,每个二维表都描述一种关系. 关系是表的数学术语 每一个表或关系所保存的信息都与一个特定的实体有关. 二维表使描述信息间的关系十分便利,容易处理二维表所包含的信息. 可以灵活地查询数据库和建立报表,关系数据库模型,可以灵活地查询数据库和建立报表 查询单个表和多个表 不必建立数据项之间的所有连接,随时可以建立.,关系数据库模型,关系模型:以表格形式作为基本的存储结构,通过相同关键字段来实现表格间的数据联系。结构简单、易学易用是其主要特点,很受用户欢迎,是目前的主流。 由于系统中实体包括许多属性,而这些属性又会被不同用户的用户使用,所以将这些属性一起放在一个数据表中显然是不合理的,需要进行分类与汇总,以编制不同的、且相关联的表,这就是所谓的关系。 表具有以下四个性质: 在表中的任意一列上,数据项应属于同一个属性; 表中所有行都是不相同的,不允许有重复行出现; 行的顺序无关; 列的顺序无关,但不能重复;,第四节 关系数据库的建立,确定实体和关键字 确定实体之间联系 利用E_R图得到关系 为每个关系确定信息(字段) 用数据定义语言创建数据库,学生修课管理,学生选修样本报表,确定实体和关键字,三个实体 学生 专业 课程 关键字 学号 专业号 课程号,确定实体之间的联系 -画实体联系图,实体联系图(Entity-Relationship Diagram, E-R图) 矩形表示实体 菱形表示实体之间的联系 直线表示连接 1代表出现一次,M代表多次,确定实体之间的联系 -画实体联系图,确定实体之间的联系 -画实体联系图,先画上矩形 填上实体名 判断是否有联系 有联系画上菱形,判断联系是1还是M,利用E-R图得到关系,将每一个实体都转化为一个关系 学生、课程、专业 将每一个多对多的联系都转换为一个关系联系的名称为关系的名称 选修 将每一个一对多的联系都转换为一个关系 分配 合并具有相同关键字的关系:学生与分配合并,为每个关系确定信息(字段),确保每个关系中所含的信息确实处于正确的关系之中 这组信息只依赖于所属关系的主关键字 专业名称 信息不能从其他的信息中派生出来,用数据定义语言创建数据库,根据前面四步的结果来,运用数据定义语言来创建关系,数据库三范式,在建立数据库表时,如何使数据结构合理有效,需要遵守一定的法则,即五大“范式”,其中常用的为前三个“范式” 第一范式:在同一表中没有重复项出现,即不能将同一属性定义两次; 第二范式:每个表必须有(仅有)一个数据元素作为主关键字,其他数据元素与主关键字一一对应。这个主关键字作为与其他相关表之间建立关联的唯一纽带。 第三范式:表中的所有数据元素不但要能够唯一地被关键字所标识,而且它们之

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论