




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
15.06.2023Page:1第9章索引技术
主要内容1.基本概念
2.线性索引①稠密索引②分块索引③多重表④倒排表
3.树型索引①2-3树②B-树③B+树数据结构中索引技术全文共35页,当前为第1页。15.06.2023Page:29.1索引的基本概念
在索引问题以及数据库中,常常将数据元素称为记录(record)。文件文件(file)通常是指存储在外存上的记录集合。从操作系统的角度看,文件是无结构的连续字节序列,从数据库的角度看,文件是有结构的记录集合,每个记录可由若干个数据项组成。记录是文件中进行存取的基本单位,数据项是文件中可使用的最小单位。索引
索引(index)是把一个关键码与它对应的记录相关联的过程,一个索引属于某一个文件,它由若干索引项构成,每个索引项(indexitem)至少应包含关键码对应的记录在存储器中的位置等信息。数据结构中索引技术全文共35页,当前为第2页。15.06.2023Page:39.1索引的基本概念
索引并不需要重新排列记录在文件中的顺序,一个文件可能有多个相关的索引,每个索引往往支持一个关键码,并且通过该索引实现对文件中记录的快速访问。静态索引静态索引(staticindex)是指索引结构在文件创建时生成。一旦生成就固定下来,只有当文件再组织时才允许改变。动态索引
动态索引(dynamicindex)是指在文件创建时生成的索引结构。在文件执行插入、删除等操作时,索引结构本身也随之发生改变。数据结构中索引技术全文共35页,当前为第3页。15.06.2023Page:49.1索引的基本概念树形索引索引项组织为树结构,称其为树形索引。
对一些大型文件,索引本身可能也很大,可对索引再建立一个索引,这样就构成了多级索引。当某级索引很大时,也可能要驻留在外存。线性索引
索引项组织为线性结构,则称其为线性索引或索引表。数据结构中索引技术全文共35页,当前为第4页。15.06.2023Page:59.2线性索引一、稠密索引稠密索引主要适用于静态索引。
在线性索引中,若文件中的每个记录对应一个索引项,则这种索引称为稠密索引。在稠密索引中,无论文件是否按关键码有序,索引项总是按关键码顺序排列。见P298图8-1优点:对数据库记录有效查找和随机访问;缺点:查找过程中可能需要多次访问磁盘使查找的性能降低。一旦在文件中插入或删除了记录,就必须更新稠密索引。数据结构中索引技术全文共35页,当前为第5页。15.06.2023Page:69.2线性索引二、分块索引分块索引既适用于静态索引,也适用于动态索引。
对文件分块使其分块有序。分块有序是指将文件划分为若干块,每一块内不要求有序,但第二块中所有记录的关键码均大于第一块中所有记录关键码,第三块中所有记录的关键码均大于第二块中所有的关键码…..依此类推。
对于分块有序的文件,每块只需对应一个索引项,这种索引方法叫做分块索引。每块对应一个索引项,各索引项按关键码有序排序,形成一个索引表。块内最大关键码块长块首地址数据结构中索引技术全文共35页,当前为第6页。15.06.2023Page:79.2线性索引二、分块索引
在分块索引表中进行的查找称为分块查找(也称为索引顺序查找)1、在索引表中确定待查关键码所在的块。2、在相应块中查找待查关键码。见P299图8-3数据结构中索引技术全文共35页,当前为第7页。15.06.2023Page:89.2线性索引三、多重表
多重表(multiplelist)是一种多索引结构,除了为文件建立一个主索引外,还为每个需要查找的次关键码建立一个索引,在文件中为建立索引的次关键码分别增设一个指针域,用于将关键码相同的记录连接在一起,或将在同一块中的记录连接在一起(对分块索引)见P300图8-4数据结构中索引技术全文共35页,当前为第8页。15.06.2023Page:99.2线性索引四、倒排表倒排表(reverselist)是对次关键码建立一种索引表,在倒排表中,索引项包括次关键码的值和具有的各记录的地址。其中记录号表存储具有相同关键码值的所有记录的记录号,并且它们有序排列。见P301图8-5次关键码值记录号表
其中,记录号表存储具有相同次关键码值的所有记录的记录号,并且它们有序排列。索引不是由记录来确定属性(即数据项)值,而是由属性值来确定记录的位置,因而称为倒排表。数据结构中索引技术全文共35页,当前为第9页。15.06.2023Page:109.3树形索引
树形索引是一种树结构的索引,树中每个结点是一个索引项,一般应包含关键码及其对应的记录地址,对树结构的查找一般也快于线性查找。树形索引多用作动态索引结构,即树中结点可动态地增加或撤消,树形索引常采用链接存储结构实现。数据结构中索引技术全文共35页,当前为第10页。15.06.2023Page:119.3树形索引一、2-3树一颗2-3树(见P302图9-7)是具有下列特性的树。(1) 一个结点包含一个或者两个关键码;(2) 每个内部结点有2个子女(如果它包含一个关键码)或者3个子女(若它包含两个关键码),并因此得名2-3树;(3) 所有叶子结点都在树的同一层。
2-3树最大的优点是它能够以相对较低的代价保持树高的平衡。数据结构中索引技术全文共35页,当前为第11页。15.06.2023Page:129.3树形索引一、2-3树18331223304810152021244547505231图9-7一个2-3树的例子数据结构中索引技术全文共35页,当前为第12页。15.06.2023Page:139.3树形索引一、2-3树
2-3树还有一类似于二叉排序树的特征,对于每一个结点,左子树中所有结点的值都小于第一个关键码的值,而中间子树的值均大于第一个关键码的值,若有右子树的话那么中间子树中所有结点的值都小于第二个关键码的值,而右子树的值大于第二个关键码的值,一个高度为k的2-3树至少有2k-1个叶子结点,此时每个分支结点都有2个子女,形成一颗满二叉树的形状,一个高度为k的2-3树至多有3k-1个叶子结点,此时每个分支结点都有3个子女。在2-3树中查找一个关键码的过程类似于在二叉排序树中查找。数据结构中索引技术全文共35页,当前为第13页。15.06.2023Page:149.3树形索引一、2-3树
查找:
在2-3树中查找一个关键码的过程类似于在二叉排序树中的查找。查找从根结点开始,如果根结点不包含被查找的关键码k,那么查找就在可能包含关键码k的子树中继续进行。存储在根结点中的关键码确定哪一个子树是正确的子树。数据结构中索引技术全文共35页,当前为第14页。15.06.2023Page:159.3树形索引一、2-3树
插入:
向一个2-3树中插入一个记录的过程类似于二叉排序树的插入,新记录也是插到相应的叶子结点中。插入过程如下:首先要找到被插入记录应该插入的叶子结点。如果这个叶子结点只包含一个记录,就可以把新记录直接填加到这个叶子结点中。如果新记录要插入到叶子结点L中,而L已经包含了两个记录,那么就需要把L分成两个结点,这称为一次“分裂”。首先创建一个新结点L',L得到这三个记录的关键码中最小的一个,L'得到最大的一个,中间的关键码与一个数据结构中索引技术全文共35页,当前为第15页。15.06.2023Page:169.3树形索引指向L'的指针传回父结点,这称为一次“提升”。然后把被提升的关键码插入父结点。如果父结点当前只包含一个记录(即只有两个子女),那么就只需简单地把被提升的关键码和指向L'的指针添加到父结点中。如果父结点已经满了,那么就重复“分裂—提升”过程。当提升需要根结点分裂时,2-3树的高度就增加了一层。1833122330481020212445475052311415图9-8在图9-7中插入14以后的2-3树数据结构中索引技术全文共35页,当前为第16页。15.06.2023Page:179.3树形索引183312233010202124454731141548525055图9-9在图9-8的2-3树中插入值55数据结构中索引技术全文共35页,当前为第17页。15.06.2023Page:189.3树形索引一、2-3树
删除:当从2-3树中删除一个关键码时,有三种情况要考虑:⑴从一个包含两个记录的叶子结点删除一个记录。只简单删除该记录即可。183312233048101520212445505231在图9-7中删除47数据结构中索引技术全文共35页,当前为第18页。15.06.2023Page:199.3树形索引一、2-3树
删除:⑵唯一的一个记录从一个叶子结点删除。又分二种情形:相邻的兄弟结点有两个记录,则移一个记录填补即可,但需修改父结点。在图9-7所示2-3树中删除47、241833122130481015235052314520数据结构中索引技术全文共35页,当前为第19页。15.06.2023Page:209.3树形索引一、2-3树
删除:
相邻的兄弟结点都只有一个记录,则把该结点与一个兄弟结点合并,并删除该结点,但也需修改父结点,有可能影响至根结点并导致树减少一层。
⑶从一个内部结点删除一个记录。
被删除的记录用其子树的最小的关键码代替,逐步向下至叶子结点的关键码。2-3树的插入和删除操作都会引起叶子结点的分裂或者合并。
2-3树是树高平衡的,最大深度是「log2n」+1。
2-3树的插入、查找和删除操作都需要O(log2n)时间。数据结构中索引技术全文共35页,当前为第20页。15.06.2023Page:219.3树形索引二、B-树B-树是一种平衡的多路查找树,主要面向动态查找,通常用在文件系统中。1、B-树的定义一颗m阶的B-树,或者为空树,或者为满足下列特性的m叉树;
(1) 所有的叶子结点都出现在同一层上,并且不带信息,叶子的双亲称为终端结点;
(2) 树中每个结点至多有m棵子树;
(3) 若根结点不是终端结点,则至少有两棵子树;
(4) 除根结点之外的所有非终端结点至少有「m/2」棵子树;数据结构中索引技术全文共35页,当前为第21页。15.06.2023Page:229.3树形索引二、B-树所有的非终端结点都包含以下数据:(n,A0,K1,A1,K2,…,Kn,An)其中,n(m/21≤n≤m1)为关键码的个数,Ki(1≤i≤n)为关键码,且Ki<Ki+1(1≤i≤n-1),Ai(0≤i≤n)为指向子树根结点的指针,且指针Ai所指子树中所有结点的关键码均小于Ki+1大于Ki。B-树是2-3树的推广,2-3树是一个3阶B-树。数据结构中索引技术全文共35页,当前为第22页。15.06.2023Page:239.3树形索引二、B-树1181111271393475364199FFFFFFFFFFFFtabcdefhg24378135图9-11
一个4阶B-树叶子结点终端结点数据结构中索引技术全文共35页,当前为第23页。15.06.2023Page:249.3树形索引二、B-树
在m阶B-树中每个结点至多有m棵子树(m-1个关键码),除根结点之外的所有非终端结点至少有「m/2」棵子树;若根结点不是终端结点,则至少有两棵子树(即一个关键码),至多有m棵子树(即m-1个关键码);B-树的叶子结点可以看作是外部结点(即查找失败的结点,实际不存在),指向这些结点的指针为空。数据结构中索引技术全文共35页,当前为第24页。15.06.2023Page:259.3树形索引二、B-树查找:
B-树的每个结点上是多关键码的有序表,在到达某个结点时,先在有序表中查找,若找到,则查找成功;否则,按照指针信息到相应的子树中查找,当到达叶子结点时,则说明树中没有对应的关键码,查找失败。在B-树上的查找过程是一个顺指针查找结点和在结点中查找关键码交叉进行的过程。如查找关键码53
在B-树上进行查找包含两种基本操作:⑴在B-树中查找结点;⑵在结点中查找关键码。数据结构中索引技术全文共35页,当前为第25页。15.06.2023Page:269.3树形索引二、B-树插入:
假定要在m阶B-树中插入关键码key,设n=m-1,即n为结点中关键码数目的最大值,B-树的插入过程如下:
⑴定位:查找插入的终端结点,该结点的关键码数目<n,则直接插入即可;否则,执行“分裂-提升”过程。⑵分裂——提升:将结点p“分裂”成两个结点p1和p2,中间关键码k提升到父结点,k的左指针指向p1,右指针指向p2。若父结点的关键码数溢出则继续向根部“分裂-提升”导致树的高度增加一层。数据结构中索引技术全文共35页,当前为第26页。15.06.2023Page:279.3树形索引二、B-树删除:设在m阶B-树中删除关键码key。首先要找到key的位置,即“定位”。定位的结果是返回了key所在结点的指针q,假定key是结点q中第i个关键码Ki,若结点q不是终端结点,则用Ai所指的子树中的最小键值x来“替换”Ki。由于x所在结点一定是终端结点,这样,删除问题就归结为在终端结点中删除关键码。
如果终端结点中关键码的个数大于「m/2」-1,则可直接删除该关键码。数据结构中索引技术全文共35页,当前为第27页。15.06.2023Page:289.3树形索引二、B-树例如在下图所示B—树中删除关键码90。608050701020402228909660805070102040222896数据结构中索引技术全文共35页,当前为第28页。15.06.2023Page:299.3树形索引二、B-树
如果在终端结点中删除一个关键码后,其关键码的个数不足「m/2」-2,则不符合m阶B-树的要求,需要从兄弟结点借关键码或合并结点,以保证B-树的特性,具体分两种情况:⑴兄弟够借:
借来的关键码上移到父结点,父结点相应的关键码下移到被删结点中。⑴兄弟不够借:
则执行“合并”操作,合并过程可能导致到根结点,并使B-树的树高减少一层。见P309图9-14示例数据结构中索引技术全文共35页,当前为第29页。15.06.2023Page:309.3树形索引三、B+树在基于磁盘的大型系统中,最普遍实现的是B-树的一个变体,称为B+树。
一棵m阶的B+树在结构上与m阶的B-树相同,但在关键码的内部安排上有所不同,具体如下:(1) 具有m棵子树的结点含有m个关键码,即每一个关键码对应一棵子树。(2) 关键码K是它所对应的子树的根结点中最大(或最小)关键码。(3) 所有的终端结点中包含了全部关键码信息,及指向关键码记录的指针。(4) 各终端结点按关键码的大小次序链在一起,形成单链表,并设置头指针。数据结构中索引技术全文共35页,当前为第30页。15.06.2023Page:319.3树形索引三、B+树与B-树类似,在B+树中,结点内的关键码仍然有序排列,并且对同一结点内的任意两个关键码Ki和Kj,若Ki<Kj,则Ki小于Kj对应的子树中的所有关键码。
与二叉排序树和2-3树最显著的不同是B+树只在终端结点存储记录,内部结点存储关键码(用于引导查找)。
例如图9-15所示为一棵3阶的B+树,通常在B+树上有两个头指针,一个指向根结点
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 扩句课件教学课件
- 2025年化工仪表考试题目及答案
- 慢性胃炎护理课件
- 2025年江西道法中考试卷及答案
- 情节曲折的课件
- 深圳中考模考试卷及答案
- 数学教学论考试题及答案
- 情商培养独立自律的课件
- 树脂中控考试试题及答案
- 食品制作考试题目及答案
- 2025-2030中国卤虫行业投资新趋势动向及发展战略分析报告
- 油品质量安全培训课件
- 2025中职生开学第一课主题班会课件
- 2025年湖南省高职单招《英语》高频必练考试题库400题(含答案)
- 消防工程深化设计管理体系及保障措施方案
- 手术室常用药品管理
- 某物业公司各部门主管及员工绩效考核表
- 沈阳理工大学《物理化学Z》2022-2023学年第一学期期末试卷
- 有限空间第三方承包安全协议书
- 新生儿筛查遗传代谢病诊治规范专家共识解读
- 地毯更换简易施工合同协议书
评论
0/150
提交评论