CH06 关系数据理论.ppt_第1页
CH06 关系数据理论.ppt_第2页
CH06 关系数据理论.ppt_第3页
CH06 关系数据理论.ppt_第4页
CH06 关系数据理论.ppt_第5页
已阅读5页,还剩140页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章关系数据理论 6 1问题的提出6 2规范化6 3数据依赖的公理系统6 4模式分解 6 1问题的提出 关系数据库逻辑设计针对具体问题 如何构造一个适合于它的数据模式数据库逻辑设计的工具 关系数据库的规范化理论 一 关系模式的形式化定义 关系模式由五部分组成 即它是一个五元组 R U D DOM F R 关系名U 组成该关系的属性名集合D 属性组U中属性所来自的域DOM 属性向域的映象集合F 属性间数据的依赖关系集合 二 关系模式的简化表示 关系模式R简化为一个三元组 R当且仅当U上的一个关系r满足F时 r称为关系模式R U F 的一个关系 三 数据依赖 数据依赖数据依赖是一个关系内部属性与属性之间的一种约束关系 这种约束关系是通过一个关系中属性间值的相等与否体现出来的数据间的相互关系 是现实世界属性间相互联系的抽象 是数据内在的性质 是语义的体现 两种重要的数据依赖类型函数依赖 FunctionalDependency 简记FD 多值依赖 MultivaluedDependency 简记MVD 四 数据依赖对关系模式的影响 例 描述学校的数据库 学生的学号 Sno 所在系 Sdept 系主任姓名 Mname 课程名 Cname 成绩 Grade 若只考虑函数依赖得到的描述学生的关系模式 StudentU Sno Sdept Mname Cname Grade 学校数据库的语义 一个系有若干学生 一个学生只属于一个系 一个系只有一名主任 一个学生可以选修多门课程 每门课程有若干学生选修 每个学生所学的每门课程都有一个成绩 由此得到属性组U上的一组函数依赖F F Sno Sdept Sdept Mname Sno Cname Grade 1 数据冗余太大浪费大量的存储空间例 每一个系主任的姓名重复出现2 更新异常数据冗余 更新数据时 维护数据完整性代价大 例 某系更换系主任后 系统必须修改与该系学生有关的每一个元组 关系模式Student中存在的问题 3 插入异常该插的数据插不进去例 如果一个系刚成立 尚无学生 无法把这个系及其系主任的信息存入数据库 4 删除异常不该删除的数据不得不删例 如果某个系的学生全部毕业了 在删除该系学生信息的同时 把这个系及其系主任的信息也丢掉了 Student关系模式不是一个好的模式 好 的模式 不会发生插入异常 删除异常 更新异常 数据冗余应尽可能少 原因 由存在于模式中的某些数据依赖引起的解决方法 通过分解关系模式来消除其中不合适的数据依赖 结论 6 2规范化 规范化理论致力于解决关系模式中不合适的数据依赖问题 函数依赖和多值依赖是最重要的数据依赖 用规范化理论来改造关系模式 通过分解关系模式来消除其中不合适的数据依赖 以解决插入异常 删除异常 更新异常和数据冗余问题 6 2 1函数依赖 函数依赖平凡函数依赖与非平凡函数依赖完全函数依赖与部分函数依赖传递函数依赖 一 函数依赖 定义6 1设R U 是一个属性集U上的关系模式 X和Y是U的子集 若对于R U 的任意一个可能的关系r r中不可能存在两个元组在X上的属性值相等 而在Y上的属性值不等 则称 X函数确定Y 或 Y函数依赖于X 记作X Y X称为这个函数依赖的决定属性集 对于函数依赖 需要说明以下几点 1 函数依赖不是指关系模式R的某个或某些关系实例满足的约束条件 而是指R的所有关系实例均要满足的约束条件 2 函数依赖是语义范畴的概念 只能根据数据的语义来确定函数依赖 例如 姓名 年龄 这个函数依赖只有在不允许有同名人的条件下成立3 数据库设计者可以对现实世界作强制的规定 例如规定不允许同名人出现 函数依赖 姓名 年龄 成立 所插入的元组必须满足规定的函数依赖 若发现有同名人存在 则拒绝装入该元组 4 若X Y 并且Y X 则记为X Y 5 若Y不函数依赖于X 则记为X Y 例 Student Sno Sname Ssex Sage Sdept 假设不允许重名 则有 Sno Ssex Sno Sage Sno Sdept Sno Sname Sname Ssex Sname Sage Sname Sdept但Ssex Sage 二 平凡函数依赖与非平凡函数依赖 在关系模式R U 中 对于U的子集X和Y 如果X Y 但Y X 则称X Y是非平凡的函数依赖若X Y 但Y X 则称X Y是平凡的函数依赖例 在关系SC Sno Cno Grade 中 非平凡函数依赖 Sno Cno Grade平凡函数依赖 Sno Cno Sno Sno Cno Cno 对于任一关系模式 平凡函数依赖都是必然成立的 它不反映新的语义 因此若不特别声明 总是讨论非平凡函数依赖 三 完全函数依赖与部分函数依赖 定义6 2在关系模式R U 中 如果X Y 并且对于X的任何一个真子集X 都有X Y 则称Y完全函数依赖于X 记作X Y 若X Y 但Y不完全函数依赖于X 则称Y部分函数依赖于X 记作X Y F P 例 在关系SC Sno Cno Grade 中 由于 Sno Grade Cno Grade 因此 Sno Cno Grade F 四 传递函数依赖 定义6 3在关系模式R U 中 如果X Y Y Z 且Y X Y X 则称Z传递函数依赖于X 注 如果Y X 即X Y 则Z直接依赖于X 例 在关系Std Sno Sdept Mname 中 有 Sno Sdept Sdept MnameMname传递函数依赖于Sno 6 2 2码 定义6 4设K为关系模式R中的属性或属性组合 若K U 则K称为R的一个侯选码 若关系模式R有多个候选码 则选定其中一个做为主码 主属性与非主属性ALLKEY F 定义6 5关系模式R中属性或属性组X并非R的码 但X是另一个关系模式的码 则称X是R的外部码 也称外码 码是关系模式中的一个重要概念 候选码能够唯一地标识关系的元组 是关系模式中一组最重要的属性 另一方面 主码又和外部码一起提供了一个表示关系间联系的手段 6 2 3关系模型的范式 关系数据库中的关系必须满足一定的规范化要求 对于不同的规范化程度可用范式来衡量 范式是符合某一种级别的关系模式的集合 是衡量关系模式规范化程度的标准 达到范式的关系才是规范化的 范式的种类 第一范式 1NF 第二范式 2NF 第三范式 3NF BC范式 BCNF 第四范式 4NF 第五范式 5NF 各种范式之间存在联系 某一关系模式R为第n范式 可简记为R nNF 6 2 41NF 定义如果一个关系模式R的所有属性都是不可分的基本数据项 则R 1NF 第一范式是对关系模式的最起码的要求 不满足第一范式的数据库模式不能称为关系数据库 但是满足第一范式的关系模式并不一定是一个好的关系模式 例 关系模式SLC Sno Sdept Sloc Cno Grade Sloc为学生住处 假设每个系的学生住在同一个地方 函数依赖包括 Sno Cno FGradeSno Sdept Sno Cno PSdeptSno Sloc Sno Cno PSlocSdept Sloc SLC的码为 Sno Cno SLC满足第一范式 非主属性Sdept和Sloc部分函数依赖于码 Sno Cno SLC不是一个好的关系模式 存在以下问题 1 插入异常假设Sno 95102 Sdept IS Sloc N的学生还未选课 因课程号是主属性 因此该学生的信息无法插入SLC 2 删除异常假定某个学生 如95002 本来只选修了3号课程这一门课 现在因身体不适 他连3号课程也不选修了 因课程号是主属性 此操作将导致该学生信息的整个元组都要删除 3 数据冗余度大如果一个学生选修了10门课程 那么他的Sdept和Sloc值就要重复存储了10次 4 修改复杂例如学生转系 在修改此学生元组的Sdept值的同时 还可能需要修改住处 Sloc 如果这个学生选修了K门课 则必须无遗漏地修改K个元组中全部Sdept Sloc信息 原因Sdept Sloc部分函数依赖于码 解决方法SLC分解为两个关系模式 以消除这些部分函数依赖 SC Sno Cno Grade SL Sno Sdept Sloc 函数依赖图 6 2 52NF 定义定义6 6若关系模式R 1NF 并且每一个非主属性都完全函数依赖于R的码 则R 2NF 例 SLC Sno Sdept Sloc Cno Grade 1NFSLC Sno Sdept Sloc Cno Grade 2NFSC Sno Cno Grade 2NFSL Sno Sdept Sloc 2NF 显然 在分解后的关系模式中 非主属性都完全函数依赖于码了 从而使上述问题在一定程度上得到了部分的解决 在SL关系中可以插入尚未选课的学生 删除学生选课情况涉及的是SC关系 如果一个学生所有的选课记录全部删除了 只是SC关系中没有关于该学生的记录了 不会牵涉到SL关系中关于该学生的记录 由于学生选修课程的情况与学生的基本情况是分开存储在两个关系中的 因此不论该学生选多少门课程 他的dept和Sloc值都只存储1次 这就大大降低了数据冗余 某个学生从数学系转到信息系 只需修改SL关系中该学生元组的dept值和Sloc值 由于dept Sloc并未重复存储 因此减化了修改操作 2NF就是不允许关系模式的属性之间有这样的函数依赖X Y 其中X是码的真子集 Y是非主属性 显然 码只包含一个属性的关系模式如果属于1NF 那么它一定属于2NF 因为它不可能存在非主属性对码的部分函数依赖 采用投影分解法将一个1NF的关系分解为多个2NF的关系 可以在一定程度上减轻原1NF关系中存在的插入异常 删除异常 数据冗余度大 修改复杂等问题 将一个1NF关系分解为多个2NF的关系 并不能完全消除关系模式中各种异常情况和数据冗余 也就是说 属于2NF的关系模式并不一定是一个好的关系模式 例 2NF关系模式SL Sno Sdept Sloc 中函数依赖 Sno SdeptSdept SlocSno SlocSloc传递函数依赖于Sno 即SL中存在非主属性对码的传递函数依赖 函数依赖图 SL关系中仍然存在插入异常 删除异常和数据冗余度大的问题 删除异常 如果某个系的学生全部毕业了 在删除该系学生信息的同时 把这个系的信息也丢掉了 数据冗余度大 每一个系的学生都住在同一个地方 关于系的住处的信息却重复出现 重复次数与该系学生人数相同 修改复杂 当学校调整学生住处时 比如信息系的学生全部迁到另一地方住宿 由于关于每个系的住处信息是重复存储的 修改时必须同时更新该系所有学生的Sloc属性值 故SL仍存在操作异常问题 仍不是一个好的关系模式 解决方法采用投影分解法 把SL分解为两个关系模式 以消除传递函数依赖 SD Sno Sdept DL Sdept Sloc SD的码为Sno DL的码为Sdept 函数依赖图 定义如果一个关系模式R 2NF 且所有非主属性不存在对码的传递函数依赖 则R 3NF 定义6 7关系模式R中若不存在这样的码X 属性组Y及非主属性Z Z Y 使得X Y Y X Y Z成立 则称R 3NF 例 SL Sno Sdept Sloc 2NF SL Sno Sdept Sloc 3NFSD Sno Sdept 3NFDL Sdept Sloc 3NF 6 2 63NF 显然 在关系模式SD DL中既没有非主属性对码的部分函数依赖也没有非主属性对码的传递函数依赖 基本上解决了上述问题 DL关系中可以插入无在校学生的系的信息 某个系的学生全部毕业了 只是删除SD关系中的相应元组 DL关系中关于该系的信息仍存在 关于系的住处的信息只在DL关系中存储一次 当学校调整某个系的学生住处时 只需修改DL关系中一个相应元组的Sloc属性值 3NF就是不允许关系模式的属性之间有这样的非平凡函数依赖X Y 其中X不包含码 Y是非主属性 X不包含码有两种情况 一种情况X是码的真子集 这是2NF也不允许的 另一种情况X含有非主属性 这是3NF进一步限制的 如果R 3NF 则R也是2NF 采用投影分解法将一个2NF的关系分解为多个3NF的关系 可以在一定程度上解决原2NF关系中存在的插入异常 删除异常 数据冗余度大 修改复杂等问题 将一个2NF关系分解为多个3NF的关系后 并不能完全消除关系模式中的各种异常情况和数据冗余 也就是说 属于3NF的关系模式虽然基本解决了大部分异常问题 但解决得并不彻底 仍然存在不足 例如 模型SC SNO SNAME CNO GRADE 如果姓名是惟一的 模型存在两个候选码 SNO CNO 和 SNAME CNO 模型SC只有一个非主属性GRADE 对两个候选码 SNO CNO 和 SNAME CNO 都是完全函数依赖 并且不存在对两个候选码的传递函数依赖 因此SC 3NF 但是当学生如果退选了课程 元组被删除也失去学生学号与姓名的对应关系 因此仍然存在删除异常的问题 并且由于学生选课很多 姓名也将重复存储 造成数据冗余 因此3NF虽然已经是比较好的模型 但仍然存在改进的余地 6 2 7BC范式 BCNF 定义关系模式R 1NF 对任何非平凡的函数依赖X Y X均包含码 则R BCNF 若R BCNF每一个决定属性集 因素 都包含 候选 码R中的所有属性 主 非主属性 都完全函数依赖于码R中不存在任何属性传递依赖于或部分依赖于任何候选码 所以必定有R 3NF 证明 若R 3NF则R不一定 BCNF 由BCNF的定义可以看到 每个BCNF的关系模式都具有如下3个性质 所有非主属性都完全函数依赖于每个候选码 所有主属性都完全函数依赖于每个不包含它的候选码 没有任何属性完全函数依赖于非码的任何一组属性 例 在关系模式STJ S T J 中 S表示学生 T表示教师 J表示课程 每一教师只教一门课 每门课由若干教师教 某一学生选定某门课 就确定了一个固定的教师 某个学生选修某个教师的课就确定了所选课的名称 S J T S T J T J STJ 3NF S J 和 S T 都可以作为候选码S T J都是主属性STJ BCNFT J T是决定属性集 T不是候选码 解决方法 将STJ分解为二个关系模式 ST S T BCNF TJ T J BCNF 没有任何属性对码的部分函数依赖和传递函数依赖 3NF与BCNF的关系 若关系模式R BCNF 必定有R 3NF 若R 3NF 且R只有一个候选码 则R必属于BCNF 3NF和BCNF是以函数依赖为基础的关系模式规范化程度的测度 如果一个关系数据库中的所有关系模式都属于3NF 则已在很大程度上消除了插入异常和删除异常 但由于可能存在主属性对候选码的部分依赖和传递依赖 因此关系模式的分离仍不够彻底 如果一个关系数据库中的所有关系模式都属于BCNF 那么在函数依赖范畴内 它已实现了模式的彻底分解 达到了最高的规范化程度 消除了插入异常和删除异常 BCNF是对3NF的改进 但是在具体实现时有时是有问题的 例如下面的模型 SJT U F 其中 U STJ F SJ T ST J T J 码是 ST和SJ 没有非主属性 所以SJT 3NF 但是非平凡的函数依赖T J中T不包含码 因此SJT不属于BCNF 当用分解的方法提高规范化程度时 将破坏原来模型的函数依赖关系 这对于系统设计来说是有问题的 这个问题涉及模式分解的一系列理论问题 在信息系统的设计中 普遍采用的是 基于3NF的系统设计 方法 就是由于3NF是无条件何以达到的 并且基本解决了 异常 的问题 因此这种方法目前在信息系统的设计中仍然被广泛地应用 如果仅考虑函数依赖这一种数据依赖 属于BCNF的关系模式已经很完美了 但如果考虑其他数据依赖 例如 多值依赖 属于BCNF的关系模式仍存在问题 不能算作是一个完美的关系模式 6 2 8多值依赖与第四范式 4NF 实例 设学校中某一门课程由多个教师讲授 他们使用相同的一套参考书 可以用一个关系模式Teach C T B 表示课程C 教师T和参考书B之间的关系 该关系可用二维表表示 用二维表表示Teaching Teaching BCNF Teach具有唯一候选码 C T B 即全码Teaching模式中存在的问题 1 数据冗余度大 有多少名任课教师 参考书就要存储多少次 2 插入操作复杂 当某一课程增加一名任课教师时 该课程有多少本参照书 就必须插入多少个元组 如物理课增加一名教师刘关 需插入两个元组 物理 刘关 普通物理学 物理 刘关 光学原理 3 删除操作复杂 某一门课要去掉一本参考书 该课程有多少名教师 就必须删除多少个元组 4 修改操作复杂 某一门课要修改一本参考书 该课程有多少名教师 就必须修改多少个元组产生原因存在多值依赖 一 多值依赖 定义6 9设R U 是一个属性集U上的一个关系模式 X Y和Z是U的子集 并且Z U X Y 多值依赖X Y成立当且仅当对R的任一关系r r在给定的一对 X Z 上对应一组Y的值 这组值仅仅决定于X值而与Z值无关 例Teaching C T B 对于C的每一个值 T有一组值与之对应 而不论B取何值 在R U 的任一关系r中 如果存在元组t s使得t X s X 那么就必然存在元组w v r w v可以与s t相同 使得w X v X t X 而w Y t Y w Z s Z v Y s Y v Z t Z 即交换s t元组的Y值所得的两个新元组必在r中 则Y多值依赖于X 记为X Y 这里 X Y是U的子集 Z U X Y txy1z2sxy2z1wxy1z1vxy2z2 平凡多值依赖和非平凡的多值依赖若X Y 而Z 则称X Y为平凡的多值依赖否则称X Y为非平凡的多值依赖 1 多值依赖具有对称性若X Y 则X Z 其中Z U X Y多值依赖的对称性可以用完全二分图直观地表示出来 多值依赖的性质 2 多值依赖具有传递性若X Y Y Z 则X Z Y 3 函数依赖是多值依赖的特殊情况 若X Y 则X Y 4 若X Y X Z 则X Y Z 5 若X Y X Z 则X Y Z 6 若X Y X Z 则X Y Z X Z Y 1 有效性多值依赖的有效性与属性集的范围有关若X Y在U上成立 则在W XY W U 上一定成立 反之则不然 即X Y在W W U 上成立 在U上并不一定成立多值依赖的定义中不仅涉及属性组X和Y 而且涉及U中其余属性Z 多值依赖与函数依赖的区别 只要在R U 的任何一个关系r中 元组在X和Y上的值满足定义6 l 函数依赖 则函数依赖X Y在任何属性集W XY W U 上成立 2 若函数依赖X Y在R U 上成立 则对于任何Y Y均有X Y 成立多值依赖X Y若在R U 上成立 不能断言对于任何Y Y有X Y 成立 二 第四范式 4NF 定义5 10关系模式R 1NF 如果对于R的每个非平凡多值依赖X Y Y X X都含有候选码 则R 4NF 4NF不允许有非平凡且非函数依赖的多值依赖 允许的是函数依赖 是非平凡多值依赖 如果R 4NF 则R BCNF 例 Teach C T B 4NF 存在非平凡的多值依赖C T 且C不是候选码 这正是它之所以存在数据冗余度大 插入和删除操作复杂等弊病的根源 用投影分解法把Teach分解为如下两个关系模式 CT C T 4NFCB C B 4NFC T C B是平凡多值依赖 分解后Teach关系中的几个问题可以得到解决 参考书只需要在CB关系中存储一次 当某一课程增加一名任课教师时 只需要在CT关系中增加一个元组 某一门课要去掉一本参考书 只需要在CB关系中删除一个相应的元组 6 2 9关系模式规范化的步骤 关系数据库的规范化理论是数据库逻辑设计的工具 一个关系只要其分量都是不可分的数据项 它就是规范化的关系 但这只是最基本的规范化 规范化程度可以有多个不同的级别 规范化程度过低的关系不一定能够很好地描述现实世界 可能会存在插入导演 删除异常 修改复杂 数据冗余等问题 解决方法就是对其进行规范化 转换成高级范式 一个低一级范式的关系模式 通过模式分解可以转换为若干个高一级范式的关系模式集合 这种过程就叫关系模式的规范化 消除不合适的数据依赖使各关系模式达到某种程度的 分离 采用 一事一地 的模式设计原则让一个关系描述一个概念 一个实体或者实体间的一种联系 若多于一个概念就把它 分离 出去所谓规范化实质上是概念的单一化 规范化的基本思想 1NF 消除非主属性对码的部分函数依赖消除决定属性2NF集非码的非平 消除非主属性对码的传递函数依赖凡函数依赖3NF 消除主属性对码的部分和传递函数依赖BCNF 消除非平凡且非函数依赖的多值依赖4NF 消除不是由候选码所蕴含的连接依赖5NF 关系模式规范化的基本步骤 设计数据库模式时不能说规范化程度越高的关系模式就越好在设计数据库模式结构时 必须对现实世界的实际情况和用户应用需求作进一步分析 确定一个合适的 能够反映现实世界的模式上面的规范化步骤可以在其中任何一步终止 成绩管理 学号 姓名 生日 性别 所在城市 长途区号 课程 学期 学分 成绩 消除非主属性对码的部分函数依赖学生 学号 姓名 生日 性别 所在城市 长途区号 课程 课程 学期 学分 成绩 学号 课程 成绩 消除非主属性对码的传递函数依赖学生 学号 姓名 生日 性别 所在城市 城市 所在城市 长途区号 课程 课程 学期 学分 成绩 学号 课程 成绩 实例 已知学生情况表Student如下所示 Student表符合1NF要求吗 如不符合 将其规范化为1NF 将其规范化为2NF 将其规范化为3NF Student表不符合1NF要求 因为在同一表中同类型的字段重复出现 将其规范化为1NF Student 学号 姓名 专业 班级 课程编号 课程名称 课程成绩 家庭住址 邮政编码 将其规范化为2NF Student 学号 姓名 专业 班级 家庭住址 邮政编码 Course 课程编号 课程名称 Score 学号 课程编号 课程成绩 将其规范化为3NF Student 学号 姓名 专业 班级 家庭住址 Course 课程编号 课程名称 Address 家庭住址 邮政编码 Score 学号 课程编号 课程成绩 6 3数据依赖的公理系统 6 3 1函数依赖集合的规范化函数依赖集合的逻辑蕴涵Armstrong推理规则属性集闭包的概念和计算函数依赖集等价最小函数依赖集6 3 2关系模型的分析 6 3 1函数依赖集合的规范化 逻辑蕴涵定义 如果F是关系模型R的函数依赖集合 X Y是R的属性集 如果从F中可以推出函数依赖关系X Y 就称X Y被F逻辑蕴涵 如果X Y被F逻辑蕴涵 可以记作X Y F 一 函数依赖集合的逻辑蕴涵 F的闭包 定义6 12 在关系模式R中为F所逻辑蕴涵的函数依赖的全体叫作F的闭包 记为F Armstrong推理规则一套推理规则 是模式分解算法的理论基础用途求给定关系模式的码从一组函数依赖求得蕴含的函数依赖Armstrong推理规则也称为Armstrong公理系统 二 Armstrong推理规则 关系R中 X Y Z是U的子集 推理规则是 A1 自反律若Y X U 则X Y为F所蕴含 A2 增广律若X Y为F所蕴含 且Z U 则XZ YZ为F所蕴含 A3 传递律若X Y及Y Z为F所蕴含 则X Z为F所蕴含 定理6 l Armstrong推理规则是正确的 l 自反律 若Y X U 则X Y为F所蕴含 证 设Y X U对R的任一关系r中的任意两个元组t s 若t X s X 由于Y X 有t Y s Y 所以X Y成立 自反律得证 2 增广律 若X Y为F所蕴含 且Z U 则XZ YZ为F所蕴含 证 设X Y为F所蕴含 且Z U 设R的任一关系r中任意的两个元组t s 若t XZ s XZ 则有t X s X 和t Z s Z 由X Y 于是有t Y s Y 所以t YZ s YZ 所以XZ YZ为F所蕴含 增广律得证 3 传递律 若X Y及Y Z为F所蕴含 则X Z为F所蕴含 证 设X Y及Y Z为F所蕴含 对R的任一关系r中的任意两个元组t s 若t X s X 由于X Y 有t Y s Y 再由Y Z 有t Z s Z 所以X Z为F所蕴含 传递律得证 导出规则 1 根据A1 A2 A3这三条推理规则可以得到下面三条推理规则 合并规则 由X Y X Z 有X YZ A2 A3 伪传递规则 由X Y WY Z 有XW Z A2 A3 分解规则 由X Y及Z Y 有X Z A1 A3 2 根据合并规则和分解规则 可得引理6 1引理6 lX A1A2 Ak成立的充分必要条件是X Ai成立 i l 2 k 可以证明 Armstrong公理系统是有效的 完备的 有效性指的是 由F出发根据Armstrong推理规则推导出来的每一个函数依赖一定在F 中 完备性指的是 F 中的每一个函数依赖必定可以由F出发根据Armstrong推理规则推导出来 就是说 从F出发应用Armstrong推理规则得出的函数依赖集合的全体就是F 问题 如何求出F 中的一切函数依赖 例如 F X A1 X An 至少可以推导出多少个函数依赖 这个问题属于计算复杂性问题 NP完全问题 但是我们可以找到判断X Z F 是否成立的有效办法 至少可以推导出2n个函数依赖 世界七大数学难题 NP完全问题 霍奇猜想 庞加莱猜想 黎曼假设 杨 米尔斯理论 纳卫尔 斯托可方程 BSD猜想 定义6 13在关系模式R中 X Y是U的子集 属性集X关于函数依赖集F的闭包定义为 XF Y Y U 且X Y F 关于属性闭包的引理 即判断规则 引理6 2 设F为属性集U上的一组函数依赖 X Y U X Y F 的充分必要条件是Y XF 用途 将判定X Y是否能由F根据Armstrong公理导出的问题 就转化为求出XF 判定Y是否为XF 的子集的问题 这个规则提供了判断函数依赖是否成立的有效方法 三 属性闭包的概念和计算 求属性集闭包的算法算法6 l求属性集X X U 关于U上的函数依赖集F的闭包XF 输入 X F输出 XF 步骤 1 令X 0 X i 0 2 计算 B A 一切WX i 且W A F 3 令X i 1 X i B 4 判断X i 1 X i 是否成立 5 若成立或X i U 则XF X i 算法终止 6 若不成立 则i i l 返回第 2 步 例 已知关系模式R 其中U ABCDE F AB C B D C E EC B AC B 求 AB F 解 设X 0 AB 1 计算X 1 逐一的扫描F集合中各个函数依赖 找左部为A B或AB的函数依赖 AB C B D X 1 AB CD ABCD 2 因为X 0 X 1 所以再找出左部为ABCD子集的那些函数依赖 得到AB C B D C E AC B X 2 X 1 BCDE ABCDE 3 因为X 2 U 算法终止 所以 AB F ABCDE 例 关系R中 U ABCDEF AB C B D C E E C A C 求 BC F 解 设X 0 BC 计算F中 B C决定的D E 加入X 0 中 X 1 BCDE 不等于X 0 还需计算 再计算F中 B C D E决定的属性 加入X 1 中 X 2 BCDE 等于X 1 算法结束 BC F BCDE 例 关系R中 U ABCD F A B BC D AF ABCF C AC F ABCD AC B AC D B 定理6 2Armstrong公理系统是有效的 完备的有效性 由F出发根据Armstrong公理推导出来的每一个函数依赖一定在F 中 Armstrong正确 完备性 F 中的每一个函数依赖 必定可以由F出发根据Armstrong公理推导出来 Armstrong公理够用 完全 所有不能用Armstrong公理推导出来f都不为真 f F 有效性与完备性的证明 1 有效性 可由定理6 1得证2 完备性只需证明逆否命题 若函数依赖X Y不能由F从Armstrong公理导出 那么它必然不为F所蕴含 分三步证明 1 引理 若V W成立 且V XF 则W XF 证因为V XF 所以有X V成立 因为X V V W 于是X W成立所以W XF 2 若f不能用Armstrong公理推导出来 f F 若存在r F 中的全部函数依赖在r上成立 而不能用Armstrong公理推导出来的f 在r上不成立 构造一张二维表r 它由下列两个元组构成 可证明r必是R U F 的一个关系 即F 中的全部函数依赖在r上成立 XF U XF 11 100 011 111 1若r不是R的关系 则必由于F中有函数依赖V W在r上不成立所致 由r的构成可知 V必定是XF 的子集 而W不是XF 的子集 可是由第 1 步 W XF 矛盾 所以r必是R的一个关系 3 若f不能用Armstrong公理推导出来 f F 而不能用Armstrong公理推导出来的f在r上不成立 若X Y不能由F从Armstrong公理导出 则Y不是XF 的子集 引理5 2 因此必有Y的子集Y 满足Y U XF 则X Y在r中不成立 即X Y必不为R蕴含 因为F 中的全部函数依赖在r上成立 函数依赖集的等价对函数依赖集合进行变换的目的是寻找最合理的函数依赖集合 但每次变换后 必须与原来的集合具有相同的含义 这就是函数依赖集合的等价 或互相覆盖 定义6 14 两个函数依赖集合F G 如果G F 就称函数依赖集合F与G等价 或互相覆盖 引理6 3 判定两个函数依赖集等价的算法 F G 的充分必要条件是 F G 且G F 四 函数依赖集等价 证明 F G 的充分必要条件是F G 和G F 要判定F G 只须逐一对F中的函数依赖X Y 考察Y是否属于XG 就行了 证 必要性显然 只证充分性 1 若F G 则XF XG 2 任取X Y F 则有Y XF XG 所以X Y G G 即F G 3 同理可证G F 所以F G 定义6 15如果函数依赖集F满足下列条件 则称F为一个极小函数依赖集 亦称为最小依赖集或最小覆盖 记为Fmin 或Fm 1 F中任一函数依赖的右部仅含有一个属性 即把F中每个函数依赖的右端分成单属性 2 F中不存在这样的函数依赖X A 使得F与F X A 等价 即F中无多余的函数依赖 3 F中不存在这样的函数依赖X A X有真子集Z使得F X A Z A 与F等价 即F中每个函数依赖的左端无多余的属性 五 最小函数依赖集 例 对于6 l节中的关系模式S 其中 U SNO SDEPT MNAME CNAME GRADE F SNO SDEPT SDEPT MNAME SNO CNAME GRADE 设F SNO SDEPT SNO MNAME SDEPT MNAME SNO CNAME GRADE SNO SDEPT SDEPT F是最小覆盖 而F 不是 因为 F SNO MNAME 与F 等价F SNO SDEPT SDEPT 也与F 等价F SNO SDEPT SDEPT SNO SDEPT 也与F 等价 Fmin算法 分三步进行 利用分解规则 把右端多属性 n个 的函数依赖变成左端不变的n个函数依赖 即把右端分解成单属性 对于F中每个X A 设G F X A 如果A XG 则将X A从F中删除 否则保留 对于F中每个包含多属性X有X A 选择X的每个子集Z 如果A ZF 则用Z A代替X A 例 F A BC B AC C A 求Fmin 解 先分解右端 F A B A C B A B C C A 判断每个函数依赖 设G F A B AG AC 不包含B 故A B保留 G F A C AG ABC 包含C 故A C删除 令F G F A B B A B C C A G F B A BG BAC 包含A 故B A删除 令F G F A B B C C A G F B C BG B 不包含C 故B C保留 G F C A CG C 不包含A 故C A保留 F中函数依赖的左端都是单属性 算法结束 Fmin A B B C C A 注意 Fmin不是惟一的 本例如果改变考察次序 从右向左 将得到 Fmin A B A C B A C A 例 F BE G BD G CDE AB CD A CE G BC A B D C D 求Fmin 解 先分解右端 F BE G BD G CDE A CDE B CD A CE G BC A B D C D 判断每个函数依赖 过程略 F BD G CDE B CD A B D C D BF BDG 包含G 用B G代替BD G CE F CEBDGA 包含B 用CE B代替CDE B CF CDA 包含A 用C A代替CD A Fmin B G CE B C A B D C D 定理6 3每一个函数依赖集F均等价于一个极小函数依赖集Fm 此Fm称为F的最小依赖集 1 逐一检查F中各函数依赖FDi X Y 若Y A1A2 Ak k 2 则用 X Aj j 1 2 k 来取代X Y 引理6 1保证了F变换前后的等价性 2 逐一检查F中各函数依赖FDi X A 令G F X A 若A XG 则从F中去掉此函数依赖 由于F与G F X A 等价的充要条件是A XG 因此F变换前后是等价的 证 构造性证明 依据定义分三步对F进行 极小化处理 找出F的一个最小依赖集 3 逐一取出F中各函数依赖FDi X A 设X B1B2 Bm 逐一考查Bi i l 2 m 若A X Bi F 则以X Bi取代X 由于F与F X A Z A 等价的充要条件是A ZF 其中Z X Bi因此F变换前后是等价的 由定义 最后剩下的F就一定是极小依赖集 因为对F的每一次 改造 都保证了改造前后的两个函数依赖集等价 因此剩下的F与原来的F等价 证毕 6 3 2关系模型的分析 确定关系模式的候选码是进行规范化分析的出发点 有下述准则可以使用 关系R U F 中 F是最小函数依赖集 准则1 如果属性A只在F中各个函数依赖的左端出现 则A必是码中的属性 准则2 如果属性A不在F的各个函数依赖中出现 则A必是码中的属性 准则3 如果属性A只在F中各个函数依赖的右端出现 则A必不是码中的属性 一 候选码的确定 根据以上准则 确定候选码的步骤是 先根据准则2 把不在F的各个函数依赖中出现属性去掉 因这些属性一般对模型没有什么意义 根据准则1 确定码中必须有的属性集 设为M 根据准则3 去掉码中肯定没有的属性集 确定余下的属性集 设为W 从属性集M开始 令K M 如果KF U K就是候选码 否则从W选择属性加入到K中 直至KF U K就是候选码 注意可能有多个候选码 例如 F BE G BD G CDE AB CD A CE G BC A B D C D Fmin B G CE B C A B D C D 只在左端出现的属性 CE M CE 只在右端出现的属性 ADG 余下的属性 B W B R的候选码只可能是 CE CEB 经计算 CE F ABCDEG 因此R的码是CE 根据规范化定义判断所处理的模型是第几范式 例如 F BE G BD G CDE AB CD A CE G BC A B D C D 二 对关系模式规范化 Fmin B G CE B C A B D C D 存在对码CE的部分函数依赖C D 所以R 1NF 利用模式分解的规则 对关系模式进行分解 达到规范化的要求 6 4模式的分解 一个关系只要其分量都是不可分的数据项 它就是规范化的关系 但这只是最基本的规范化 规范化程度可以有6个不同的级别 即6个范式 一个低一级范式的关系模式 通过模式分解可以转换为若干个高一级范式的关系模式集合 这种过程就叫关系模式的规范化 关系模式规范化时一般应遵循以下原则 1 关系模式进行无损连接分解 关系模式分解过程中数据不能丢失或增加 必须把全局关系模式中的所有数据无损地分解到各个子关系模式中 以保证数据的完整性 2 保持原来模型的函数依赖关系 因为这些函数依赖关系是数据模型反映的客观事物的固有属性 一般是不能舍弃的 3 合理选择规范化程度 考虑到存取效率 低级模式造成的冗余度很大 既浪费了存储空间 又影响了数据的一致行 因此希望一个子模式的属性越少越好 即取高级范式 若考虑到查询效率 低级范式又比高级范式好 此时连接运算的代价较小 这是一对矛盾 所以应根据情况 合理选择规范化程度 模式分解可以提高关系模式的规范化程度 但是必须考虑如下问题 避免信息丢失 简单地说 就是模式R分解为R1 R2 Rn后 将R1 R2 Rn自然连接还应该等于模式R 这就是 无损失连接 准则 避免数据关系丢失 模式R分解为R1 R2 Rn后 函数依赖集合F也被对应分解为F1 F2 Fn 应满足F与各Fi i 1 2 n 的并集等价 即满足这就是 保持函数依赖 准则 一 对模式分解的两个基本要求 例 R U F 中 U ABC F A B B C 设模型中各属性的值如下 有三种可能的分解方法 1 方法一 R1 U1 AB F1 A B R2 U2 BC F2 B C 函数依赖集 F1 F2 A B B C F 保持函数依赖 自然连接后 分解后情况 符合无损失连接规则 2 方法二 R1 U1 AB F1 A B R2 U2 AC F2 A C F1 F2 A B A C B C F1 F2 不满足保持函数依赖 自然连接后 分解后情况 符合无损失连接规则 3 方法三 R1 U1 AC F1 A C R2 U2 BC F2 B C F1 F2 A C B C 而 A B F1 F2 不满足保持函数依赖 自然连接后 分解后情况 不符合无损失连接规则 从上面例题可以发现 分解具有无损连接性和分解保持函数依赖是两个互相独立的标准 具有无损连接的分解不一定能够保持函数依赖 同样 保持函数依赖的分解也不一定具有无损连接 例如 上面的第一种分解方法既具有无损连接性 又保持了函数依赖 第二种分解方法保具有无损连接性 但未保持函数依赖 第三种分解方法既不具有无损连接性 也未保持函数依赖 它不是原关系模式的一个等价分解 把低一级的关系模式分解为若干个高一级的关系模式的方法并不是唯一的 只有能够保证分解后的关系模式与原关系模式等价 分解方法才有意义 关系模式分解的三个定义 1 分解具有 无损连接性 2 分解要 保持函数依赖 3 分解既要 保持函数依赖 又要具有 无损连接性 二 模式分解的原则 规范化理论提供了一套完整的模式分解算法 按照这套算法可以做到 若要求分解具有无损连接性 那么模式分解一定能够达到4NF 若要求分解保持函数依赖 那么模式分解一定能够达到3NF 但不定能够达到BCNF 若要求分解既具有无损连接性 又保持函数依赖 则模式分解一定能够达到3NF 但不一定能够达到BCNF 三 模式分解的方法 达到3NF保持函数依赖分解的方法 设关系模式R U F 将F化为最小函数依赖集 令F Fmin 把在F中不出现的属性从U中去掉 属性集合仍然为U 对照F中的函数依赖集 将所有函数依赖左端相同的划为一组 相应的右端以及函数依赖均归入该组 这些分组就是分解后的模式组成 这种分解方法得到的就是达到3NF且保持函数依赖的分解 例如 F B G CE B C A B D C D 码是CE 分解成三个模式 R1 U1 BDG F1 B G B D R2 U2 ACD F2 C A C D R3 U3 BCE F3 CE B 分解后 R1 R2 R3均达到3NF 且分解符合保持函数依赖的规则 达到3NF既符合无损失连接并保持函数依赖分解的方法 设关系模式R U F 先按上述方法 将R分解为R1 R1 Rn 选取R的主码 将主码与函数依赖相关的属性组成一个关系Rn 1 如果Rn 1就是R1 R2 中一个 就将它们合并 否则加入到分解系列中 这个分解系列就是既符合无损失连接又保持函数依赖的分解系列 例如 前面的例题 F B G CE B C A B D C D 码是CE 分解成三个模式 R1 U1 BDG F1 B G B D R2 U2 ACD F2 C A C D R3 U3 BCE F3 CE B R3就是包含码CE的模式 所以分解符合无损失连接规则 达到BCNF无损失连接分解的方法 设关系模式R U F 置初值 R 如果 中所有关系模式均已达到BCNF则转 否则在 中选非BCNF的模式S 在S中必存在X A X不包含S的码 也不包含A 这时S必存在A之外且不包含在X中的属性集Y 用S1和S2代替S 其中S1 XA S2 XY 用 S1 S2 代替 中的S 转 算法结束 就是分解结果 例如 R U F U ABCDEF AB C B D D E 码是AB 分解过程如下 先分出DE R1 ABCD R2 DE 再从R1中分出BD R1 ABC R2 DE R3 BD R1 R2 R3都属于BCNF 分解完成 达到4NF无损失连接分解的方法 设关系模式R U F 置初值 R 如果 中所有关系模式均已达到4NF则转 否则在 中选非4NF的模式S 在S中必存在X Y X不包含S的码 Y X XY S 令Z Y X 设S1 XZ S2 S Z 用 S1 S2 代替 中的S 转 算法结束 就是分解结果 例如 R U F U ABCEFG F A BCG B AC C G A EF 置初值 R ABCEFG 从A BCG分解 R1 ABCG R2 AEF 从B AC分解 R1 ABC R2 AEF R3 BG 或从C G分解 R1 ABC R2 AEF R3 CG 在步骤 中的两种分解都使每个模式达到了4NF 但是从B AC分解后丢失了函数依赖C G 而从C G分解可以保持全部函数依赖 思考 SL Sno Sdept Sloc F Sno Sdept Sdept Sloc Sno Sloc SL 2NF存在插入异常 删除异常 冗余度大和修改复杂等问题 存在哪些分解方法 1 SL分解为下面三个关系模式 SN Sno SD Sdept SO Sloc 分解后的数据库丢失了许多信息 例如无法查询95001学生所在系或所在宿舍 如果分解后的关系可以通过自然连接恢复为原来的关系 那么这种分解就没有丢失信息 2 SL分解为下面二个关系模式 NL Sno Sloc DL Sdept Sloc 分解后的关系为 3 将SL分解为下面二个关系模式 ND Sno Sdept NL Sno Sloc 分解后的关系为 与SL关系一样 因此没有丢失信息 第三种分解方法具有无损连接性 但这种分解方法没有保持原关系中的函数依赖Sdept Sloc 4 将SL分解为下面二个关系模式 ND Sno Sdept DL Sdept Sloc 这种分解方法就保持了函数依赖 如果一个分解具有无损连接性 则它能够保证不丢失信息 如果一个分解保持了函数依赖 则它可以减轻或解决各种异常情况 分解具有无损连接性和分解保持函数依赖是两个互相独立的标准 具有无损连接性的分解不一定能够保持函数依赖 同样 保持函数依赖的分解也不一定具有无损连接性 连接依赖与5NF 例如 设关系模式SPJ SNO PNO JNO 它显然达到了4NF SPJ分别在SP PJ SJ上的投影 一 连接依赖 SP与PJ自然连接 PJ与SJ自然连接 SP与SJ自然连接 关系SPJ分解为其中两个属性的关系后 无论哪两个自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论