第6章关系数据理论_第1页
第6章关系数据理论_第2页
第6章关系数据理论_第3页
第6章关系数据理论_第4页
第6章关系数据理论_第5页
已阅读5页,还剩86页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、返回返回1第第6章章 关系数据理论关系数据理论返回返回26.1 6.1 规范化问题的提出规范化问题的提出6.1.1 6.1.1 规范化理论的主要内容规范化理论的主要内容关系数据库的规范化理论最早是由关系关系数据库的规范化理论最早是由关系数据库的创始人数据库的创始人E.F.CoddE.F.Codd提出的,提出的,后经许多专家学者对关系数据库理论作后经许多专家学者对关系数据库理论作了深入的研究和发展,形成了一整套有了深入的研究和发展,形成了一整套有关关系数据库设计的理论。关关系数据库设计的理论。返回返回3在关系数据库系统中,在关系数据库系统中,关系模型关系模型包括一包括一组组关系模式关系模式,各个

2、关系不是完全孤立的。,各个关系不是完全孤立的。如何设计一个适合的关系数据库系统,如何设计一个适合的关系数据库系统,关键是关系数据库关键是关系数据库模式模式的设计,一个好的设计,一个好的关系数据库模式应该包括多少的关系数据库模式应该包括多少关系模关系模式式,而每一个关系模式又应该包括哪些,而每一个关系模式又应该包括哪些属性属性,又如何将这些相互关联的关系模,又如何将这些相互关联的关系模式组建一个适合的式组建一个适合的关系模型关系模型,这些工作,这些工作决定了到整个系统运行的效率,也是系决定了到整个系统运行的效率,也是系统成败的关键所在,所以必须在关系数统成败的关键所在,所以必须在关系数据库的据库

3、的规范化理论规范化理论的指导下逐步完成。的指导下逐步完成。 返回返回4下面首先回顾一下关系模型的形式化定义。下面首先回顾一下关系模型的形式化定义。 一个关系模式应当是一个五元组。一个关系模式应当是一个五元组。 R(U, D, DOM, F) 关系名关系名R; 一组属性一组属性U; 属性组属性组U中属性所来自的域中属性所来自的域D; 属性到域的映射属性到域的映射DOM; 属性组属性组U上的一组数据依赖上的一组数据依赖F。 由于由于D和和DOM对模式设计关系不大对模式设计关系不大,因此我们在本章中把关因此我们在本章中把关系模式看作是一个三元组:系模式看作是一个三元组:RU,F返回返回5 关系数据库

4、的规范化理论主要包括三个方面的内容:关系数据库的规范化理论主要包括三个方面的内容:函数依赖函数依赖范式(范式(Normal FormNormal Form)模式设计模式设计 其中,其中,函数依赖函数依赖起着核心的作用,是模式分解和模式起着核心的作用,是模式分解和模式设计的基础,范式是模式分解的标准。设计的基础,范式是模式分解的标准。6.1.2 6.1.2 关系模式的存储异常问题关系模式的存储异常问题 数据库的逻辑设计为什么要遵循一定的规范化理论?数据库的逻辑设计为什么要遵循一定的规范化理论? 什么是好的关系模式?什么是好的关系模式? 某些不好的关系模式可能导致哪些问题?某些不好的关系模式可能导

5、致哪些问题? 下面通过例子进行分析下面通过例子进行分析: :返回返回6例如例如,要求设计,要求设计教学管理数据库教学管理数据库,其关系模式,其关系模式SCDSCD如下:如下:SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE) 其中,其中,SNOSNO表示学生学号,表示学生学号,SNSN表示学生姓名,表示学生姓名,AGEAGE表示表示学生年龄,学生年龄,DEPTDEPT表示学生所在的系别,表示学生所在的系别,MNMN表示系主任表示系主任姓名,姓名,CNOCNO表示课程号,表示课程号,SCORESCORE表示成绩。表

6、示成绩。 根据实际情况,这些数据有如下语义规定:根据实际情况,这些数据有如下语义规定:1. 一个系有若干个学生,但一个学生只属于一个系;2. 一个系只有一名系主任,但一个系主任可以同时兼几个系的系主任;3. 一个学生可以选修多门功课,每门课程可有若干学生选修;4. 每个学生学习课程有一个成绩。 在此关系模式中填入一部分具体的数据,则可得到在此关系模式中填入一部分具体的数据,则可得到SCDSCD关系模式的实例,即一个教学管理数据库,如图所示。关系模式的实例,即一个教学管理数据库,如图所示。返回返回7图图4.1 4.1 关系关系SCDSCDSNOSNAGEDEPTMNCNOSCORES1赵亦17计

7、算机刘伟C190S1赵亦17计算机刘伟C285S2钱尔18信息王平C557S2钱尔18信息王平C680S2钱尔18信息王平C770S2钱尔18信息王平C570S3孙珊20信息王平C10S3孙珊20信息王平C270S3孙珊20信息王平C485S4李思男自动化刘伟C193返回返回8根据上述的语义规定,并分析以上关系中的数据,我们根据上述的语义规定,并分析以上关系中的数据,我们可以看出:可以看出:(SNO,CNO)属性的组合能唯一标识一个元组,属性的组合能唯一标识一个元组,所以所以(SNO,CNO)是该关系模式的是该关系模式的主码主码。但在进行数据库。但在进行数据库的操作时,会出现以下几方面的问题。

8、的操作时,会出现以下几方面的问题。1. 1. 数据冗余。数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数乘以每个学生选修的课程门数,同时学生的姓名、年龄也都要重复存储多次,数据的冗余度很大,浪费了存储空间。2. 2. 插入异常。插入异常。如果某个新系没有招生,尚无学生时,则系名和系主任的信息无法插入到数据库中。 因为在这个关系模式中,(SNO,CNO)是主关系键。根据关系的实体完整性约束,主关系键的值不能为空,而这时没有学生,SNO和CNO均无值,因此不能进行插入操作。 另外,当某个学生尚未选课,即CNO未知,实体完整性约束还规定,主关系键的值不能部分为空,同样不能进行插入操作。返

9、回返回93. 删除异常。某系学生全部毕业而没有招生时,删除全部学生的记录则系名、系主任也随之删除,而这个系依然存在,在数据库中却无法找到该系的信息。另外,如果某个学生不再选修C1课程,本应该只删去C1,但C1是主码的一部分,为保证实体完整性,必须将整个元组一起删掉,这样,有关该学生的其它信息也随之丢失。4. 更新异常。如果学生改名,则该学生的所有记录都要逐一修改SN;又如某系更换系主任,则属于该系的学生记录都要修改MN的内容,稍有不慎,就有可能漏改某些记录,这就会造成数据的不一致性,破坏了数据的完整性。返回返回10 由于存在以上问题,我们说,由于存在以上问题,我们说,SCDSCD是一个不好的关

10、系模是一个不好的关系模式。产生上述问题的原因,直观地说,是因为关系中式。产生上述问题的原因,直观地说,是因为关系中“包罗万象包罗万象”,内容太杂了。,内容太杂了。 那么,怎样才能得到一个好的关系模式呢?那么,怎样才能得到一个好的关系模式呢? 我们把关系模式我们把关系模式SCDSCD分解为下面三个结构简单的关系模分解为下面三个结构简单的关系模式,如图式,如图4.24.2所示。所示。学生关系S(SNO,SN,AGE,DEPT)选课关系SC(SNO,CNO,SCORE)系关系D(DEPT,MN)11SNOSNAGEDEPTSNOCNOSCORES1赵亦17计算机S1C190S2钱尔18信息S1C28

11、5S3孙珊20信息S2C557S4李思21自动化S2C680S2C7S2C570DEPTMNS3C10计算机刘伟S3C270信息王平S3C485自动化刘伟S4C193图 分解后的关系模式返回返回12在以上三个关系模式中,实现了信息的某种程在以上三个关系模式中,实现了信息的某种程度的分离,度的分离,S中存储学生基本信息,与所选课程及系主任无关;D中存储系的有关信息,与学生无关;SC中存储学生选课的信息,而与所学生及系的有关信息无关。与与SCDSCD相比,分解为三个关系模式后,数据的相比,分解为三个关系模式后,数据的冗余度明显降低。冗余度明显降低。当新插入一个系时,只要在关系D中添加一条记录。当某

12、个学生尚未选课,只要在关系S中添加一条学生记录,而与选课关系无关,这就避免了插入异常。当一个系的学生全部毕业时,只需在S中删除该系的全部学生记录,而关系D中有关该系的信息仍然保留,从而不会引起删除异常。同时,由于数据冗余度的降低,数据没有重复存储,也不会引起更新异常。返回返回13经过上述分析,我们说分解后的关系模经过上述分析,我们说分解后的关系模式是一个好的关系数据库模式。式是一个好的关系数据库模式。从而得出结论,一个好的关系模式应该从而得出结论,一个好的关系模式应该具备以下四个条件:具备以下四个条件:1. 尽可能少的数据冗余。2. 没有插入异常。3. 没有删除异常。4. 没有更新异常。返回返

13、回14 但要注意,一个好的关系模式并不是在任何情况下都但要注意,一个好的关系模式并不是在任何情况下都是最优的,是最优的, 比如查询某个学生选修课程名及所在系的系主任时,要通过连接,而连接所需要的系统开销非常大,因此要以实际设计的目标出发进行设计 如何按照一定的规范设计关系模式,将结构复杂的关如何按照一定的规范设计关系模式,将结构复杂的关系分解成结构简单的关系,从而把不好的关系数据库系分解成结构简单的关系,从而把不好的关系数据库模式转变为好的关系数据库模式,这就是模式转变为好的关系数据库模式,这就是关系的规范关系的规范化化。 规范化又可以根据不同的要求而分成若干级别。规范化又可以根据不同的要求而

14、分成若干级别。 我们要设计的关系模式中的各属性是相互依赖、相互我们要设计的关系模式中的各属性是相互依赖、相互制约的,这样才构成了一个结构严谨的整体。制约的,这样才构成了一个结构严谨的整体。 因此在设计关模式时,必须从语义上分析这些因此在设计关模式时,必须从语义上分析这些依赖关依赖关系系。 数据库模式的好坏和关系中各属性间的依赖关系有关,数据库模式的好坏和关系中各属性间的依赖关系有关,因此,我们先讨论属性间的依赖关系,然后再讨论关因此,我们先讨论属性间的依赖关系,然后再讨论关系规范化理论。系规范化理论。 返回返回156.2 6.2 函数依赖函数依赖6.2.16.2.1函数依赖的定义及性质函数依赖

15、的定义及性质 关系模式中的各属性之间相互依赖、相互制约的联系关系模式中的各属性之间相互依赖、相互制约的联系称为称为数据依赖数据依赖。 数据依赖一般分为数据依赖一般分为函数依赖函数依赖、多值依赖多值依赖和和连接依赖连接依赖。 其中其中, ,函数依赖函数依赖是最重要的数据依赖。是最重要的数据依赖。 函数依赖(函数依赖(Functional DependencyFunctional Dependency)是关系模式中属)是关系模式中属性之间的一种性之间的一种逻辑依赖关系逻辑依赖关系。 例如在上一节介绍的关系模式SCD中,SNO与SN、AGE、DEPT之间都有一种依赖关系。 由于一个SNO只对应一个学

16、生,而一个学生只能属于一个系,所以当SNO的值确定之后,SN,AGE,DEPT的值也随之被唯一的确定了。 这类似于变量之间的单值函数关系。设单值函数Y=F(X),自变量X的值可以决定一个唯一的函数值Y。 在这里,我们说SNO决定函数(SN,AGE,DEPT),或者说(SN,AGE,DEPT)函数依赖于SNO。16下面给函数依赖的形式化定义。下面给函数依赖的形式化定义。 1 1函数依赖的定义函数依赖的定义定义定义设关系模式设关系模式R(UR(U,F)F),U U是属性全集,是属性全集,F F是是U U上的上的函数依赖集,函数依赖集,X X和和Y Y是是U U的子集,如果对于的子集,如果对于R(U

17、)R(U)的任意的任意一个可能的关系一个可能的关系r r,对于,对于X X的每一个具体值,的每一个具体值,Y Y都有唯都有唯一的具体值与之对应,则称一的具体值与之对应,则称X X函数确定函数确定Y Y,或,或Y Y函数依函数依赖于赖于X X,记作,记作XYXY。我们称。我们称X X为为决定因素决定因素,Y Y为为依赖因依赖因素素。当当Y Y不函数依赖于不函数依赖于X X时,记作:时,记作:X YX Y。当当XYXY且且YXYX时,则记作:时,则记作: X YX Y。返回返回17对于关系模式对于关系模式SCDSCDU=SNO,SN,AGE,DEPT,MN,CNO,SCOREU=SNO,SN,AG

18、E,DEPT,MN,CNO,SCOREF=SNOSNF=SNOSN,SNOAGESNOAGE,SNODEPTSNODEPT一个一个SNOSNO有多个有多个SCORESCORE的值与其对应,因此的值与其对应,因此SCORESCORE不能唯不能唯一地确定,即一地确定,即SCORESCORE不能函数依赖于不能函数依赖于SNOSNO,所以有:,所以有: SNO SCORESNO SCORE。但是但是SCORESCORE可以被(可以被(SNOSNO,CNOCNO)唯一地确定。所以可表)唯一地确定。所以可表示为:(示为:(SNOSNO,CNOCNO)SCORESCORE。 返回返回18有关函数依赖的几点说

19、明:有关函数依赖的几点说明:1 1平凡的函数依赖与非平凡的函数依赖。平凡的函数依赖与非平凡的函数依赖。 如果如果X X Y, Y,并且并且Y Y不是不是X X的子集的子集, ,则称则称X X Y Y是是非平凡的函数依赖非平凡的函数依赖; ; 如果如果Y Y是是X X的子集的子集, ,则称则称X XY Y是是平凡的函数依赖平凡的函数依赖; ;例如:(例如:(S#S#,SNSN) SN SN 是平凡的函数依赖是平凡的函数依赖若不特别声明,我们讨论的都是非平凡的函数若不特别声明,我们讨论的都是非平凡的函数依赖。依赖。返回返回192 2函数依赖是语义范畴的概念。函数依赖是语义范畴的概念。我们只能根据语

20、义来确定一个函数依赖,而不能按我们只能根据语义来确定一个函数依赖,而不能按照其形式化定义来证明一个函数依赖是否成立。照其形式化定义来证明一个函数依赖是否成立。例如,对于关系模式例如,对于关系模式S S,当学生不存在重名的情况,当学生不存在重名的情况下,可以得到:下,可以得到:SNAGESNAGESNDEPTSNDEPT这种函数依赖关系,必须是在没有重名的学生条件这种函数依赖关系,必须是在没有重名的学生条件下才成立的,否则就不存在函数依赖了。下才成立的,否则就不存在函数依赖了。所以函数依赖反映了一种语义完整性约束。所以函数依赖反映了一种语义完整性约束。 返回返回203 3函数依赖与属性之间的联系

21、类型有关。函数依赖与属性之间的联系类型有关。(1 1)在一个关系模式中,如果属性)在一个关系模式中,如果属性X X与与Y Y有有1:11:1联系联系时,则存在函数依赖时,则存在函数依赖XYXY,YXYX,即,即X YX Y。 例如,当学生无重名时,例如,当学生无重名时,SNO SNSNO SN。(2 2)如果属性)如果属性X X与与Y Y有有m:1m:1的联系时,则只存在函数的联系时,则只存在函数依赖依赖XYXY。 例如,例如,SNOSNO与与AGEAGE,DEPTDEPT之间均为之间均为m:1m:1联系,所联系,所以有以有SNOAGESNOAGE,SNODEPTSNODEPT。(3 3)如果

22、属性)如果属性X X与与Y Y有有m: nm: n的联系时,则的联系时,则X X与与Y Y之间不之间不存在任何函数依赖关系。存在任何函数依赖关系。 例如,一个学生可以选修多门课程,一门课程例如,一个学生可以选修多门课程,一门课程又可以为多个学生选修,所以又可以为多个学生选修,所以SNOSNO与与CNOCNO之间不存在之间不存在函数依赖关系。函数依赖关系。返回返回21由于函数依赖与属性之间的联系类型有由于函数依赖与属性之间的联系类型有关,所以在确定属性间的函数依赖关系关,所以在确定属性间的函数依赖关系时,可以从分析时,可以从分析属性间的联系类型属性间的联系类型入手,入手,便可确定属性间的函数依赖

23、。便可确定属性间的函数依赖。 返回返回222 2 完全函数依赖与部分函数依赖完全函数依赖与部分函数依赖定义定义 设关系模式设关系模式R(U)R(U),U U是属性全集,是属性全集,X X和和Y Y是是U U的子集,的子集, 如果XY,并且对于X的任何一个真子集X,都有X Y,则称Y对X完全函数依赖(FullFunctionalDependency), 记作 X Y。 如果对X的某个真子集X,有X Y,则称Y部分函数依赖于X,记作X Y。 例如,在关系模式SCD中,因为SNO SCORE,且CNO SCORE,所以有:(SNO,CNO) SCORE 。 而SNOAGE,所以(SNO,CNO) A

24、GE。 所以:所以: 只有当决定因素是组合属性时,讨论部分函数依赖才有意义, 当决定因素是单属性时,只能是完全函数依赖。 例如,在关系模式S(SNO,SN,AGE,DEPT),决定因素为单属性SNO,有SNO(SN,AGE,DEPT),不存在部分函数依赖。FPFP返回返回23 3 3 传递函数依赖传递函数依赖定义定义 设有关系模式设有关系模式R R(U U),),U U是属性全是属性全集,集,X X,Y Y,Z Z是是U U的子集,的子集,若XY,但Y X,而YZ(Y X,Z Y),则称Z对X传递函数依赖(TransitiveFunctionalDependency)。 加上条件Y X,是因为

25、:如果YX,则X Y,这时称Z对X直接函数依赖,而不是传递函数依赖。综上所述,函数依赖分为完全函数依赖、部分函数依赖和传递函数依赖三类,它们是规范化理论的依据和规范化程度的准则,下面我们将以介绍的这些概念为基础,进行数据库的规范设计。 返回返回246.2.2 6.2.2 码码设K为RU,F中的属性或属性组合,若KU,则K为R的候选码候选码。若候选码多于一个,则选定其中的一个为 主码主码。 主属性主属性:包含在任何一个候选码中的属性,称作主属性,不包含在任何码中的属性称为非主属性。全码全码:关系模式的码由整个属性组构成。如(S#,C#,T#) 外码外码:关系模式R中属性或属性组X并非R的码,但X

26、是另一个关系模式的码,则称 X是R的外部码(Foreign key)也称外码。 返回返回256.2.3 范式范式 规范化的规范化的基本思想基本思想是消除关系模式中的数据冗余,消是消除关系模式中的数据冗余,消除数据依赖中的不合适的部分,解决数据插入、删除除数据依赖中的不合适的部分,解决数据插入、删除时发生异常现象。时发生异常现象。 这就要求关系数据库设计出来的关系模式要满足一定这就要求关系数据库设计出来的关系模式要满足一定的条件。的条件。 我们把关系数据库的规范化过程中为不同程度的规范我们把关系数据库的规范化过程中为不同程度的规范化要求设立的不同标准称为化要求设立的不同标准称为范式范式(Norm

27、al FormNormal Form)。)。 由于规范化的程度不同,就产生了由于规范化的程度不同,就产生了不同的范式不同的范式。 满足最基本规范化要求的关系模式叫满足最基本规范化要求的关系模式叫第一范式第一范式, 在第一范式中进一步满足一些要求为在第一范式中进一步满足一些要求为第二范式第二范式, 以此类推就产生了以此类推就产生了第三范式第三范式等概念。等概念。 每种范式都规定了一些限制约束条件。每种范式都规定了一些限制约束条件。 返回返回26至此在关系数据库规范中建立了一个范式至此在关系数据库规范中建立了一个范式系列:系列:1NF,2NF,3NF,BCNF,4NF,5NF,1NF,2NF,3N

28、F,BCNF,4NF,5NF,一级比一级比一级有更严格的要求。一级有更严格的要求。各个范式之间的联系可以表示为:各个范式之间的联系可以表示为:5NF 4NF BCNF 3NF 2NF 1NF返回返回27图各种范式之间的关系图各种范式之间的关系下面逐一介绍各级范式及其规范化。下面逐一介绍各级范式及其规范化。 返回返回281 1 第一范式第一范式第一范式第一范式(First Normal Form)是最基本的规是最基本的规范形式,即关系中每个属性都是不可再分的简单范形式,即关系中每个属性都是不可再分的简单项。项。定义定义4.44.4 如果关系模式如果关系模式R R,其所有的属性均为简,其所有的属性

29、均为简单属性,即每个属性都城是不可再分的,则称单属性,即每个属性都城是不可再分的,则称R R属属于第一范式,简称于第一范式,简称1NF1NF,记作,记作R R 1NF1NF。在第在第2 2章讨论关系的性质时,我们把满足这个条件的关系章讨论关系的性质时,我们把满足这个条件的关系称为称为规范化关系规范化关系。在关系数据库系统中只讨论规范化的关系,凡是非规范在关系数据库系统中只讨论规范化的关系,凡是非规范化的关系模式必须化成规范化的关系。化的关系模式必须化成规范化的关系。在非规范化的关系中去掉组合项就能化成规范化的关系。在非规范化的关系中去掉组合项就能化成规范化的关系。每个规范化的关系都属于每个规范

30、化的关系都属于1NF1NF,这也是它之所以称为,这也是它之所以称为“第一第一”的原因。的原因。 29然而,一个关系模式仅仅属于第一范式是不然而,一个关系模式仅仅属于第一范式是不适用的。适用的。在上节中给出的关系模式在上节中给出的关系模式SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)它属于第一范式,但其具有大量的数据冗余,它属于第一范式,但其具有大量的数据冗余,具有插入异常、删除异常、更新异常等弊端。具有插入异常、删除异常、更新异常等弊端。为什么会存在这种问题呢?为什么会存在这种问题呢?让我们分析一下让我们分析

31、一下SCDSCD中的函数依赖关系,它的中的函数依赖关系,它的关系键是(关系键是(SNOSNO,CNOCNO)的属性组合,所以有:)的属性组合,所以有: (SNO,CNO) SCORESNOSN,(SNO,CNO) SNSNOAGE,(SNO,CNO) AGESNODEPT,(SNO,CNO) DEPTSNOMN,(SNO,CNO) MNPFPPP返回返回30我们可以用函数信赖图表示以上函数依赖关系,如图我们可以用函数信赖图表示以上函数依赖关系,如图4.44.4所示。所示。 由此可见,在SCD中,既存在完全函数依赖,又存在部分函数依赖和传递函数依赖。这种情况往往在数据库中是不允许的,也正是由于关

32、系中存在着复杂的函数依赖,才导致数据操作中出现了种弊端。克服这些弊端的方法是用投影运算将关系分解,去掉过于复杂的函数依赖关系,向更高一级的范式进行转换。DEPTMNSCORESNOCNOPPfSNPAGEP返回返回312 2 第二范式第二范式2.1 2.1 第二范式的定义第二范式的定义定义定义 如果关系模式如果关系模式R R 1NF1NF,且每个非主属性都完全函,且每个非主属性都完全函数依赖于数依赖于R R的码,则称的码,则称R R属于属于第二范式第二范式(Second Normal Form),简称,简称2NF2NF,记作,记作R R 2NF2NF。在关系模式在关系模式SCDSCD中,中,S

33、NOSNO,CNOCNO为主属性为主属性,AGEAGE,DEPTDEPT,SNSN,MNMN,SCORESCORE均为非主属性,均为非主属性,经上述分析,存在非主属经上述分析,存在非主属性对关系键的部分函数依赖,所以性对关系键的部分函数依赖,所以SCD 2NFSCD 2NF。返回返回322.2 2NF2.2 2NF规范化规范化2NF2NF规范化是指把规范化是指把1NF1NF关系模式通过投影分解转换成关系模式通过投影分解转换成2NF2NF关系模式的集合。关系模式的集合。下面以关系模式下面以关系模式SCDSCD为例,来说明为例,来说明2NF2NF规范化的过程规范化的过程例例4.1 4.1 将将SC

34、D(SNO,SN,AGE,DEPT,MN,CNO,SCORE)SCD(SNO,SN,AGE,DEPT,MN,CNO,SCORE)规范到规范到2NF2NF。 由SNOSN,SNOAGE,SNODEPT, SNOMN (SNO,CNO) SCORE, 根据分解的原则,我们可以将SCD分解成如下两个关系:FSD(SNO,SN,AGE,DEPT,MN);SC(SNO,CNO,SCORE);33 对于分解后的两个关系对于分解后的两个关系SDSD和和SCSC,主码分别为,主码分别为SNOSNO和和(SNOSNO,CNOCNO),非主属性对主码完全函数依赖。因此,非主属性对主码完全函数依赖。因此,SDSD

35、2NF2NF,SCSC 2NF2NF,而且前面已经讨论,而且前面已经讨论,SCDSCD的这种分解的这种分解没有丢失任何信息,具有无损连接性。没有丢失任何信息,具有无损连接性。 分解后,分解后,SDSD和和SCSC的函数依赖分别如图所示。的函数依赖分别如图所示。 SNOSNSNOCNOSCOREAGEDEPTMN SD SD中的函数依赖关系中的函数依赖关系 SCSC中的函数依赖关系中的函数依赖关系 34SNOSNAGEDEPTMNS1赵亦17计算机刘伟S2钱尔18信息王平S3孙珊20信息王平S4李思21自动化刘伟SCSC SNOCNOSCORES1C190S1C285S2C557S2C680S2

36、C7S2C570S3C10S3C270S3C485S4C1931NF1NF的关系模式经过投影分解转换成的关系模式经过投影分解转换成2NF2NF后,消除了一些数据冗余。后,消除了一些数据冗余。分析分析SDSD和和SCSC中的数据,可以看出,它们存储的冗余度比关系模式中的数据,可以看出,它们存储的冗余度比关系模式SCDSCD有了较大辐度的降低。有了较大辐度的降低。SDSD学生的姓名、年龄不需学生的姓名、年龄不需要重复存储多次。要重复存储多次。这样便可在一定程度上避这样便可在一定程度上避免数据更新所造成的数据不免数据更新所造成的数据不一致性的问题。一致性的问题。返回返回35由于把学生的基本信息与选课

37、信息分开存储,由于把学生的基本信息与选课信息分开存储,则学生基本信息因没选课而不能插入的问题得则学生基本信息因没选课而不能插入的问题得到了解决,插入异常现象得到了部分改善。到了解决,插入异常现象得到了部分改善。同样,如果某个学生不再选修同样,如果某个学生不再选修C1C1课程,只在选课程,只在选课关系课关系SCSC中删去该该学生选修中删去该该学生选修C1C1的记录即可,的记录即可,而而SDSD中有关该学生的其它信息不会受到任何影中有关该学生的其它信息不会受到任何影响,也解决了部分删除异常问题。响,也解决了部分删除异常问题。因此可以说关系模式因此可以说关系模式SDSD和和SCSC在性能上比在性能上

38、比SCDSCD有有了显著提高。了显著提高。 返回返回362.3 2NF2.3 2NF的缺点的缺点2NF2NF的关系模式解决了的关系模式解决了1NF1NF中存在的一些问题,中存在的一些问题,2NF2NF规范规范化的程度比化的程度比1NF1NF前进了一步,但前进了一步,但2NF2NF的关系模式在进行数的关系模式在进行数据操作时,仍然存在着一些问题:据操作时,仍然存在着一些问题:1数据冗余。每个系名和系主任的名字存储的次数等于该系的学生人数。2插入异常。当一个新系没有招生时,有关该系的信息无法插入。3删除异常。某系学生全部毕业而没有招生时,删除全部学生的记录也随之删除了该系的有关信息。4更新异常。更

39、换系主任时,仍需改动较多的学生记录。之所以存在这些问题,是由于在之所以存在这些问题,是由于在SCDSCD中存在着非主属性中存在着非主属性对主码的传递依赖。对主码的传递依赖。分析分析SCDSCD中的函数依赖关系,中的函数依赖关系,SNOSNSNOSN,SNOAGESNOAGE,SNODEPTSNODEPT,DEPTMNDEPTMN,SNO MNSNO MN,非主属性,非主属性MNMN对主键对主键SNOSNO传递依赖。传递依赖。为此,对关系模式为此,对关系模式SCDSCD还需进一步简化,消除这种传递还需进一步简化,消除这种传递依赖,得到依赖,得到3NF3NF。 返回返回373 3 第三范式第三范式

40、3.1 3.1 第三范式的定义第三范式的定义定义定义 如果关系模式如果关系模式R R 2NF2NF,且每个非主属性都,且每个非主属性都不传递依赖于不传递依赖于R R的码,则称的码,则称R R属于第三范式属于第三范式(Third Normal Form),简称,简称3NF3NF,记作,记作R R 3NF3NF。第三范式具有如下性质:第三范式具有如下性质:1 1如果如果R R 3NF3NF,则,则R R也是也是2NF2NF。2 2如果如果R R 2NF2NF,则,则R R不一定是不一定是3NF3NF。返回返回383.2 3NF3.2 3NF规范化规范化3NF3NF规范化规范化是指把是指把2NF2N

41、F关系模式通过投影分解转关系模式通过投影分解转换成换成3NF3NF关系模式的集合。关系模式的集合。下面以下面以2NF2NF关系模式关系模式SDSD为例,来说明为例,来说明3NF3NF规范化规范化的过程。的过程。 返回返回39例例4.24.2将将SD(SNO,SN,AGE,DEPT,MN)SD(SNO,SN,AGE,DEPT,MN)规范到规范到3NF3NF。根据分解的原则,我们可以将SD分解成如下两个关系。 S(SNO,SN,AGE,DEPT),描述学生实体; D(DEPT,MN),描述系的实体。SNOSNAGEDEPTMNDEPTMNSNOSNAGEDEPT返回返回40分解后,分解后,S S和

42、和D D的函数依赖分别如图所示。的函数依赖分别如图所示。SNOSNDEPTAGEDEPTMN S S中的函数依赖关系图中的函数依赖关系图 D D中的函数依赖关系图中的函数依赖关系图由以上两图可以看出,关系模式SD由2NF分解为3NF后,函数依赖关系变得更加简单,既没有非主属性对码的部分依赖,也没有非主属性对码的传递依赖,解决了2NF中存在的四个问题。返回返回41S DS DSNOSNAGEDEPTDEPTMNS1赵亦17计算机计算机刘伟S2钱尔18信息信息王平S3孙珊20信息自动化刘伟S4李思21自动化对于分解后的两个关系S和D,主键分别为SNO和DEPT,不存在非主属性对主键的传递函数依赖。

43、因此,S3NF,D3NF。 关系关系S S和和D D 返回返回421数据冗余降低。系主任的名字存储的次数与该系的学生人数无关,只在关系D中存储一次。2不存在插入异常。当一个新系没有学生时,该系的信息可以直接插入到关系D中,而与学生关系S无关。3不存在删除异常。要删除某系的全部学生而仍然保留该系的有关信息时,可以只删除学生关系S中的相关学生记录,而不影响系关系D中的数据。 4不存在更新异常。更换系主任时,只需修改关系D中一个相应元组的MN属性值,从而不会出现数据的不一致现象。 SCD规范到3NF后,所存在的异常现象已经全部消失。 但是,3NF只限制了非主属性对码的依赖关系,而没有限制主属性对码的

44、依赖关系。 如果发生了这种依赖,仍有可能存在数据冗余、插入异常、删除异常和修改异常。 这时,则需对3NF进一步规范化,消除主属性对码的依赖关系,为了解决这种问题,Boyce与Codd共同提出了一个新范式的定义,这就是Boyce-Codd范式,通常简称BCNF或BC范式。它弥补了3NF的不足。返回返回434 BCNF4 BCNF范式范式 4.1 BCNF4.1 BCNF范式的定义范式的定义定义定义 如果关系模式如果关系模式R R 1NF1NF,且所有的函数依赖,且所有的函数依赖XYXY(Y XY X), ,决定因素决定因素X X必包含了码,则称必包含了码,则称R R属属于于BCNFBCNF范式范

45、式(Boyce-Codd Normal Form),记作,记作R R BCNFBCNF。一个满足一个满足BCNF的关系模式有:的关系模式有: 1.所有非主属性都完全函数依赖于每个侯选码。所有非主属性都完全函数依赖于每个侯选码。 2.所有的主属性对每一个不包含它的码所有的主属性对每一个不包含它的码,也是完全函也是完全函数依赖。数依赖。 3.没有任何属性完全函数依赖于非码的任何一组属没有任何属性完全函数依赖于非码的任何一组属性。性。返回返回44BCNFBCNF具有如下性质:具有如下性质:1 1如果如果R R BCNFBCNF,则,则R R也是也是3NF3NF。 2 2如果如果R R 3NF3NF,

46、则,则R R不一定是不一定是BCNFBCNF。现举例说明。现举例说明。设关系模式设关系模式SNCSNC(SNOSNO,SNSN,CN0CN0,SCORESCORE),),其中其中SNOSNO代表学号,代表学号,SNSN代表学生姓名并假设没有重代表学生姓名并假设没有重名,名,CNOCNO代表课程号,代表课程号,SCORESCORE代表成绩。代表成绩。可以判定,可以判定,SNCSNC有两个候选键(有两个候选键(SNOSNO,CNOCNO)和()和(SNSN,CNOCNO),其函数依赖如下:),其函数依赖如下:SNO SNSNO SN(SNOSNO,CNOCNO)SCORESCORE(SNSN,CN

47、OCNO)SCORESCORE。45唯一的非主属性唯一的非主属性SCORESCORE对键不存在部分函数依赖,对键不存在部分函数依赖,也不存在传递函数依赖。所以也不存在传递函数依赖。所以SNCSNC 3NF3NF。但是,因为但是,因为SNO SNSNO SN,即决定因素,即决定因素SNOSNO或或SNSN不包不包含码,所以含码,所以SNCSNC不是不是BCNFBCNF。这时,关系这时,关系SNCSNC中存在着较大的数据冗余,学生中存在着较大的数据冗余,学生姓名的存储次数等于该生所选的课程数。从而会姓名的存储次数等于该生所选的课程数。从而会引起修改异常。引起修改异常。比如,当要更改某个学生的姓名时

48、,则必须搜索比如,当要更改某个学生的姓名时,则必须搜索出现该姓名的每个学生记录,并对其姓名逐一修出现该姓名的每个学生记录,并对其姓名逐一修改,这样容易造成数据的不一致问题。改,这样容易造成数据的不一致问题。解决这一问题的办法仍然是通过投影分解进一步解决这一问题的办法仍然是通过投影分解进一步提高提高SNCSNC的范式等级,将的范式等级,将SNCSNC规范到规范到BCNFBCNF。 返回返回464.2 BCNF4.2 BCNF规范化规范化 BCNFBCNF规范化是指把规范化是指把3NF3NF关系模式通过投影分解转换成关系模式通过投影分解转换成BCNFBCNF关系模式的集合。关系模式的集合。下面以下

49、面以3NF3NF关系模式关系模式SNCSNC为例,来说明为例,来说明BCNFBCNF规范化的过程。规范化的过程。例例 将将SNC(SNO,SN,CNOSNC(SNO,SN,CNO,SCORE)SCORE)规范到规范到BCNFBCNF。 根据分解的原则,我们可以将根据分解的原则,我们可以将SNCSNC分解成如下两个关系:分解成如下两个关系:S1(SNO,SN),描述学生实体;S2(SNO,CNO,SCORE),描述学生与课程的联系。 对于对于S1S1,有两个候选码,有两个候选码SNOSNO和和SNSN, 对于对于S2S2,主码为(,主码为(SNOSNO,CNOCNO)。)。 在这两个关系中,无论

50、主属性还是非主属性都不存在在这两个关系中,无论主属性还是非主属性都不存在对码的部分依赖和传递依赖,对码的部分依赖和传递依赖,S1S1 BCNFBCNF,S2S2 BCNFBCNF。 返回返回47分解后,分解后,S1S1和和S2S2的函数依赖分别如图所示。的函数依赖分别如图所示。SNOSNSNOCNOSCORE S1 S1中的函数依赖关系中的函数依赖关系 S2S2中的函数依赖关系中的函数依赖关系 关系SNC转换成BCNF后,数据冗余度明显降低。学生的姓名只在关系S1中存储一次,学生要改名时,只需改动一条学生记录中的相应的SN值,从而不会发生修改异常。48例例 设关系模式设关系模式TCSTCS(T

51、 T,C C,S S),),T T表示教师,表示教师,C C表示课程,表示课程,S S表示表示学生。语义假设是,每一位教师只讲授一门课程;每门课程由多学生。语义假设是,每一位教师只讲授一门课程;每门课程由多个教师讲授;某一学生选定某门课程,就对应于一确定的教师。个教师讲授;某一学生选定某门课程,就对应于一确定的教师。 根据语义假设,根据语义假设,TCSTCS的函数依赖是:的函数依赖是:(S S,C C)TT,(,(S S,T T)CC,TCTC。 函数依赖图如图所示。函数依赖图如图所示。 SCTSTC TCS TCS中的函数依赖关系中的函数依赖关系 返回返回49对于对于TCSTCS,(,(S

52、S,C C)和()和(S S,T T)都是候选码,两个候选码相交,有)都是候选码,两个候选码相交,有公共的属性公共的属性S S。TCSTCS中不存在非主属性,也就不可能存在非主属性对中不存在非主属性,也就不可能存在非主属性对码的部分依赖或传递依赖,所以码的部分依赖或传递依赖,所以TCSTCS 3NF3NF。但从但从TCSTCS的一个关系实例的一个关系实例 分析,仍存在一些问题。分析,仍存在一些问题。 TCST1C1S1T1C1S2T2C1S3T2C1S4T3C2S2T4C2S2T4C3S2 关系关系TCSTCS 返回返回501 1数据冗余。数据冗余。虽然每个教师只开一门课,但每个选修该虽然每个

53、教师只开一门课,但每个选修该教师该门课程的学生元组都要记录这一信息。教师该门课程的学生元组都要记录这一信息。2 2插入异常。插入异常。当某门课程本学期不开,自然就没有学生当某门课程本学期不开,自然就没有学生选修。没有学生选修,因为主属性不能为空,教师上选修。没有学生选修,因为主属性不能为空,教师上该门课程的信息就无法插入。同样原因,学生刚入校该门课程的信息就无法插入。同样原因,学生刚入校, ,尚未选课,有关信息也不能输入。尚未选课,有关信息也不能输入。3 3删除异常。删除异常。如果选修某门课程的学生全部毕业,删除如果选修某门课程的学生全部毕业,删除学生记录的同时学生记录的同时, ,随之也删除了

54、教师开设该门课程的信随之也删除了教师开设该门课程的信息。息。4 4更新异常。更新异常。当某个教师开设的某门课程改名后,所有当某个教师开设的某门课程改名后,所有选修该教师该门课程的学生元组都要进行修改,如果选修该教师该门课程的学生元组都要进行修改,如果漏改某个数据,则破坏了数据的完整性。漏改某个数据,则破坏了数据的完整性。 TCSTCS(T T,C C,S S)返回返回51 分析出现上述问题的原因在于主属性部分依赖于码,分析出现上述问题的原因在于主属性部分依赖于码,(S S,T T) C C,因此关系模式还继续分解,转换成更,因此关系模式还继续分解,转换成更高一级的范式高一级的范式BCNFBCN

55、F,以消除数据库操作中的异常现象。,以消除数据库操作中的异常现象。 将将TCSTCS分解为两个关系模式分解为两个关系模式STST(S S,T T)和)和TCTC(T T,C C),),消除函数依赖(消除函数依赖(S S,T T) C C。其中。其中STST的码为的码为S S,TCTC的的码为码为T T。STST BCNFBCNF,TCTC BCNFBCNF。这两个关系模式的函数。这两个关系模式的函数依赖图分别如图所示。依赖图分别如图所示。 STTC ST ST中的函数依赖关系中的函数依赖关系 TCTC中的函数依赖关系中的函数依赖关系 返回返回52 关系模式关系模式TCSTCS由规范到由规范到B

56、CNFBCNF后,使原来存在的四个异常问题得到后,使原来存在的四个异常问题得到解决。解决。 1 1数据冗余降低。数据冗余降低。每个教师开设课程的信息只在TC关系中存储一次。 2 2不存在插入异常。不存在插入异常。对于所开课程尚未有学生选修的教师信息可以直接存储在关系TC中,而对于尚未选修课程的学生可以存储在关系ST中。 3 3不存在删除异常。不存在删除异常。如果选修某门课程的学生全部毕业,可以只删除关系ST中的相关学生记录,而不影响系关系TC中相应教师开设该门课程的信息。 4 4不存在更新异常。不存在更新异常。当某个教师开设的某门课程改名后,只需修改关系TC中的一个相应元组即可,不会破坏数据的

57、完整性。 如果一个关系数据库中所有关系模式都属于如果一个关系数据库中所有关系模式都属于3NF3NF,则已在很大程,则已在很大程度上消除了插入异常和删除异常,但由于可能存在主属性对候选度上消除了插入异常和删除异常,但由于可能存在主属性对候选键的部分依赖和传递依赖,因此关系模式的分离仍不够彻底。键的部分依赖和传递依赖,因此关系模式的分离仍不够彻底。 如果一个关系数据库中所有关系模式都属于如果一个关系数据库中所有关系模式都属于BCNFBCNF,那么在函数依,那么在函数依赖的范畴内,已经实现了模式的彻底分解,消除了产生插入异常赖的范畴内,已经实现了模式的彻底分解,消除了产生插入异常和删除异常的根源,而

58、且数据冗余也减少到极小程度。和删除异常的根源,而且数据冗余也减少到极小程度。 返回返回53一个全是主属性的关系模式一定可以达到第几范式?一个全键的关系模式一定可以达到第几范式?返回返回546.4 关系模式的规范化关系模式的规范化 到目前为止,规范化理论已经提出了六类范式(有关到目前为止,规范化理论已经提出了六类范式(有关4NF4NF和和5NF5NF的内容不再详细介绍)。的内容不再详细介绍)。 各范式级别是在分析函数依赖条件下对关系模式分离程度各范式级别是在分析函数依赖条件下对关系模式分离程度的一种测度,范式级别可以逐级升高。的一种测度,范式级别可以逐级升高。 一个低一级范式的关系模式,通过模式

59、分解转化为若干个一个低一级范式的关系模式,通过模式分解转化为若干个高一级范式的关系模式的集合,这种分解过程叫作关系模高一级范式的关系模式的集合,这种分解过程叫作关系模式的式的规范化规范化(NormalizationNormalization)。)。6.4.1 6.4.1 关系模式规范化的目的和原则关系模式规范化的目的和原则 一个关系只要其分量都是不可分的数据项,就可称作规范化的关一个关系只要其分量都是不可分的数据项,就可称作规范化的关系,但这只是最基本的规范化。系,但这只是最基本的规范化。 这样的关系模式是合法的。这样的关系模式是合法的。 但人们发现有些关系模式存在插入、删除、修改异常、数据冗

60、余但人们发现有些关系模式存在插入、删除、修改异常、数据冗余等弊病。等弊病。 规范化的目的就是使结构合理,消除存储异常,使数据冗余尽量规范化的目的就是使结构合理,消除存储异常,使数据冗余尽量小,便于插入、删除和更新。小,便于插入、删除和更新。 返回返回55 规范化的规范化的基本原则基本原则就是遵从概念单一化就是遵从概念单一化“一事一地一事一地”的原则,即的原则,即一个关系只描述一个实体或者实体间的联系。一个关系只描述一个实体或者实体间的联系。 若多于一个实体,就把它若多于一个实体,就把它“分离分离”出来。出来。 因此,所谓规范化,实质上是概念的单一化,即一个关系表示一因此,所谓规范化,实质上是概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论