第9章散列结构及其应用.ppt

上传人：油*** IP属地：浙江上传时间：2020-03-22 格式：PPT 页数：84 大小：519.01KB 积分：30 举报 版权申诉

已阅读5页，还剩79页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

9 1集合的概念9 2集合的散列存储9 3散列表及其运算9 4散列结构下的查找性能分析9 5散列结构的应用 LZW压缩问题第9章散列结构及其应用集合是具有相同属性的数据元素按任何次序排列而成任一非空集合可表示为 a1 a2 ai ai 1 an 其中i为该元素的编号是为了区别而任意标注的不代表任何次序集合中元素的个数称为集合的长度当长度n 0时为空集说明集合中的元素可以按任何次序排列集合的长度是可变化的当向它插入一个元素后其长度加1 从中删除一个元素长度减1 集合中元素的数据类型相同且可以为任何一种类型 9 1集合的概念 9 2集合的散列存储9 3散列表及其运算9 4散列结构下的查找性能分析9 5散列结构的应用 LZW压缩问题第9章散列结构及其应用 9 2 1散列的概念9 2 2散列函数的构造9 2 3处理冲突的方法 9 2集合的散列存储散列 Hash 同顺序链接和索引一样是存储数据的又一种方法散列存储的基本思想是以所需存储的节点数据元素中的关键字 key 作为自变量通过某种确定的函数H 称作散列函数或者哈希函数进行计算把求出的函数值作为该节点的存储地址并将该节点或节点的关键字存储在这个地址中散列存储中使用的函数H key 称为散列函数或哈希函数散列函数实现关键字到存储地址的映射或称转换 H key 的值称为散列地址或哈希地址使用的数组空间或文件空间是数据进行散列存储的地址空间这种存储结构被称为散列表或哈希表例假定一个集合为 16 35 23 31 45 70 若规定每个元素key的存储地址H key key 注 H key key称为散列函数请画出存储结构图解根据散列函数H key key 可知元素16应当存入地址为16的单元元素23应当存入地址为23的单元对应散列存储表哈希表如下 31 23 16 35 45 70 散列存储下的插入与删除在该存储方式下若向集合中插入key 25的元素可根据散列函数H key key 计算出元素25的散列地址为25 即下标为25的存储单元若在该集合中删除key 31的元素同样可根据散列函数H key key 计算出元素31的散列地址为31 即从下标为31的存储单元中取出该元素冲突上例讨论的散列表是一种理想的情况实际应用中常常出现一个待插元素的散列地址已被占用的情况使得该元素无法直接存入到此单元中我们称此现象为冲突例如若上例中的散列函数H key 为H key key 10 则元素35和45的散列地址相同当向散列表中插入元素45时散列地址下标为5的单元已被占用致使元素45无法存入到下标为5的单元中冲突产生的原因散列存储中虽然冲突很难避免但发生冲突的可能性却有大有小这主要与三个因素有关 1 与装填因子有关越小冲突的可能性就越小越大最大取1 时冲突的可能性就越大 2 与所采用的散列函数有关若散列函数选择得当就能够使散列地址尽可能均匀分布在散列空间上减少冲突的发生 3 与解决冲突的方法有关方法选择的好坏也将减少或增加发生冲突的可能性 9 2 1散列的概念 9 2 2散列函数的构造9 2 3处理冲突的方法 9 2集合的散列存储构造散列函数的目标是使散列地址尽可能均匀分布在散列空间上同时使计算尽可能简单以节省计算时间常用的散列函数构造方法有直接定址法除留余数法数字分析法平方取中法折叠法 Hash key a key b a b为常数优点以关键码key的某个线性函数值为哈希地址不会产生冲突缺点要占用连续地址空间空间效率低例关键码集合为 100 300 500 700 800 900 选取哈希函数为Hash key key 100 则存储结构哈希表如下 1 直接定址法 Hash key keymodp p是一个整数特点以关键字除以p的余数作为哈希地址关键如何选取合适的p 技巧若设计的哈希表长为m 则一般取p m且为质数也可以是不包含小于20质因子的合数 2 除留余数法例已知待散列元素为 18 75 60 43 54 90 46 表长m 10 p 7 则有 H 18 18 7 4H 75 75 7 5H 60 60 7 4H 43 43 7 1H 54 54 7 5H 90 90 7 6H 46 46 7 4 此时冲突较多为减少冲突可取较大的m值和p值如m p 13 结果如下 H 18 18 13 5H 75 75 13 10H 60 60 13 8H 43 43 13 4H 54 54 13 2H 90 90 13 12H 46 46 13 7 0123456789101112 特点某关键字的某几位组合成哈希地址所选的位应当是各种符号在该位上出现的频率大致相同 3 数字分析法 34705243491487348269634852703486305349805834796713473919 例有一组例如80个关键字其样式如下讨论第1 2位均是 3和4 第3位也只有 7 8 9 因此这几位不能用余下四位分布较均匀可作为哈希地址选用位号若哈希地址取两位因元素仅80个则可取这四位中的任意两位组合成哈希地址也可以取其中两位与其它两位叠加求和后取低两位作哈希地址特点对关键字平方后按哈希表大小取中间的若干位作为哈希地址理由平方后中间几位和关键字中每一位都相关故不同关键字会以较高的概率产生不同的哈希地址例 2589的平方值为6702921 可以取中间的029为地址 4 平方取中法 5 折叠法特点将关键字自左到右分成位数相等的几部分最后一部分位数可以短些然后将这几部分叠加求和并按哈希表表长取后几位作为哈希地址适用于每一位上各符号出现概率大致相同的情况法1 移位法将各部分的最后一位对齐相加法2 间界叠加法从一端向另一端沿分割界来回折叠后最后一位对齐相加例元素42751896 用法1 427 518 96 1041用法2 42751896 724 518 69 1311 9 2 1散列的概念9 2 2散列函数的构造 9 2 3处理冲突的方法 9 2集合的散列存储常见的冲突处理方法有开放定址法开地址法链地址法拉链法 1 开放定址法这种方法也称再散列法其基本思想是当关键字key的哈希地址p H key 出现冲突时以p为基础产生另一个哈希地址p1 如果p1仍然冲突再以p为基础产生另一个哈希地址p2 直到找出一个不冲突的哈希地址pi 将相应元素存入其中这种方法有一个通用的再散列函数形式 i 1 2 n 其中H key 为哈希函数 m为表长 di称为增量序列增量序列的取值方式不同相应的再散列方式也不同主要有以下三种线性探测再散列 di 1 2 3 m 1 这种方法的特点是冲突发生时顺序查看表中下一单元直到找出一个空单元或查遍全表二次探测再散列 di 12 12 22 22 k2 k2 k m 2 这种方法的特点是冲突发生时在表的左右进行跳跃式探测比较灵活伪随机探测再散列 di 伪随机数序列具体实现时应建立一个伪随机数发生器如i i p m 并给定一个随机数做起点例已知哈希表长度m 11 哈希函数为 H key key 11 则H 47 3 H 26 4 H 60 5 假设下一个关键字为69 则H 69 3 与47冲突用线性探测再散列处理冲突下一个哈希地址为H1 3 1 11 4 仍然冲突再找下一个哈希地址为H2 3 2 11 5 还是冲突继续找下一个哈希地址为H3 3 3 11 6 此时不再冲突将69填入6号单元 012345678910 用二次探测再散列处理冲突因H 69 3与47冲突下一个哈希地址为H1 3 12 11 4 仍然冲突再找下一个哈希地址为H2 3 12 11 2 此时不再冲突将69填入2号单元 012345678910 用伪随机探测再散列处理冲突且伪随机数序列为 2 5 9 则下一个哈希地址为H1 3 2 11 5 仍然冲突再找下一个哈希地址为H2 3 5 11 8 此时不再冲突将69填入8号单元 012345678910 2 链地址法这种方法的基本思想是将所有哈希地址为i的元素构成一个称为同义词链的单链表并将单链表的头指针存在哈希表的第i个单元中因而查找插入和删除主要在同义词链中进行链地址法适用于经常进行插入和删除的情况例已知一组关键字 32 40 36 53 16 46 71 27 42 24 49 64 哈希表长度为13 哈希函数为 H key key 13 则用链地址法处理冲突的结果如图所示同一链表中关键字自小到大有序一组关键字 32 40 36 53 16 46 71 27 42 24 49 64 哈希函数为 H key key 13 9 1集合的概念9 2集合的散列存储 9 3散列表及其运算9 4散列结构下的查找性能分析9 5散列结构的应用 LZW压缩问题第9章散列结构及其应用对散列表的运算主要有散列表的初始化清除散列表向散列表中插入元素查找散列表从散列表中删除元素等在集合的散列存储中处理冲突的方法不同其散列表的类型定义也不同假定使用HashMaxSize常量表示待定义的散列表类型的长度下面分别给出与开放定址法和链地址法对应的散列表类型下散列表的运算 9 3 1采用开放定址法解决冲突的散列表及其运算9 3 2采用链地址法解决冲突的散列表及其运算 9 3散列表及其运算用线性探测法处理冲突散列表的数据结构如下 defineMAX LENGTH100 散列表的最大长度typeofstruct 定义节点类型intkey 关键字也可以采用其它数据类型chardata 其它数据项可以采用其它数据类型 ElemType typeofstruct 定义散列表类型ElemTypeelems MAX LENGTH 节点数组intlen 散列表长度 HashTable intstored MAX LENGTH 标志数组初始化散列表初始化散列表的算法需要完成两项操作一是设置散列表的长度二是初始化标志数组的元素为0 初始化散列表的算法如下 voidinitHashTable HashTableht intn ht 散列表 n 散列表长度ht len n 设置散列表的长度inti for i 0 i n i 初始化标志数组stored i 0 向散列表中插入一个元素将一个节点插入到散列表中其算法分为以下几步 1 根据节点关键字计算散列地址 2 根据标志判断是否发生冲突如果发生冲突进行线性探测再散列直到找到空地址 3 找到空地址把节点插入到散列表中修改标志数组 4 如果散列表中已经没有空地址则报错算法如下 voidinsert HashTableht ElemTypeele ht 散列表 ele 插入节点inti add i Hash ele key 计算散列地址 Hash 是散列函数 if stored i 0 没发生冲突ht elems i ele stored i 1 else 发生冲突再散列add i i i 1 ht len while i add stored i 1 i i 1 ht len if stored i 0 找到空地址ht elems i ele stored i 1 else 散列表中已经没有空地址报错printf erroroccurred 从散列表中查找一个元素在线性探测散列表中查找一个节点其算法分为以下几步 1 根据待查节点关键字计算散列地址 2 如果该地址存储的节点关键字等于待查节点关键字则找到否则进行线性探测再散列直到待查关键字或遇到空地址或找遍散列表 3 如果找到待查关键字则返回散列地址如果遇到空地址或找遍散列表则说明散列表中没有待查节点返回 1 算法如下 intsearch HashTableht ElemTypeele ht 散列表 ele 待查找节点inti add i Hash ele key 计算散列地址if stored i 1 ht elems i key ele key 找到returni else 线性探测再散列add i i i 1 ht len while i add stored i 1 ht elems i key ele key i i 1 ht len if ht elems i key ele key 找到待查节点returni else 散列表中找不到该节点printf cannotfind return 1 从散列表中删除一个元素在线性探测散列表中删除一个节点其过程分为两步 1 首先查找节点 2 如果找到则删除方法是更新标志数组否则报错算法如下 voiddelete HashTableht ElemTypeele inti i search ht ele if i 1 找到待删除节点删除stored i 0 else 没有找到报错printf erroroccurred 对于线性探测散列表删除节点会引起信息丢失的问题因为在线性探测在散列法中我们处理冲突的方式是把同义词放到散列表中的下一个空地址而查找是沿着同一个路径进行因此当我们删除了一个节点后由于标志数组被更新其后的同义词也将不再被查找到 9 3 1采用开放定址法解决冲突的散列表及其运算 9 3 2采用链地址法解决冲突的散列表及其运算 9 3散列表及其运算在链地址法中每个节点对应一个链表节点它由三个域组成其中 key为关键字域存放节点的关键字 data为数据域存放节点的其他数据信息 next为链域存放指向下一个同义词节点的指针采用C语言定义的数据类型如下所示 defineMAX LENGTH100 散列表的最大长度typeofstruct 定义节点节点类型intkey 关键字可以采用其它数据类型ElemTypedata 存储节点的全部数据ElemNode next 指向下一个同义词节点的指针 ElemNode typeofstruct 定义表头节点类型和散列表类型ElemNode first 指向同义词链表中第一个节点的指针 ElemHeader HashTable MAX LENGTH 所有的同义词构成一个单链表再由一个表头节点指向这个单链表的第一个节点这些表头节点组成一个一维数组即散列表数组元素的下标对应由散列函数求出的散列地址初始化散列表初始化拉链散列算法只需要把散列表中所有表头节点的指针域置为NULL即可算法如下 voidinitHashTable HashTableht intn ht 散列表 n 散列表长度inti for i 0 i n i 初始化标志数组ht i first NULL 向散列表插入一个元素将一个节点插入到拉链散列表中算法分为以下几步 1 根据节点关键字计算散列地址 2 根据散列地址找到表头节点并将节点插入到对应的单链表中算法如下 voidinsert HashTableht ElemTypeele inti ElemNode p i Hash ele key 计算散列地址 Hash 是散列函数 p ElemNode malloc sizeof ElemNode 分配节点存储代插入节点p key ele key p data ele p next ht i first 插入到单链表中ht i first p 从散列表中查找一个元素在散列链表中查找一个节点其算法分为以下几步 1 根据待查节点关键字计算散列地址 2 在散列地址所指向的单链表中顺次查找待查节点关键字 3 如果找到待查关键字则返回指向该节点的指针否则说明散列表中没有待查节点返回NULL 算法如下 intsearch HashTableht ElemTypeele ht 散列表 ele 待查找节点inti ElemNode p i Hash ele key 计算散列地址 Hash 是散列函数p ht i first while p NULL p key ele key 顺次查找单链表p p next returnp 从散列表中删除一个元素在拉链散列表中删除一个节点其算法分为两步 1 首先查找节点 2 如果找到则删除方法和在单链表中删除一个节点一样否则报错算法如下 voiddelete HashTableht ElemTypeele ht 散列表 ele 待删除节点inti ElemNode p q i Hash ele key 计算散列地址 Hash 是散列函数p ht i first if p NULL 没有找到报错printf erroroccurred else q p next while q NULL q key ele key p q q q next if q NULL 没有找到报错printf erroroccurred else 找到删除p next q next free q 释放空间通过上述算法可以看出采用链地址法构造的散列表不会出现因删除而引起的信息丢失的问题但采用拉链法散列表所占的存储空间要比开放定址法的大 9 1集合的概念9 2集合的散列存储9 3散列表及其运算 9 4散列结构下的查找性能分析9 5散列结构的应用 LZW压缩问题第9章散列结构及其应用明确散列函数没有万能通式要根据元素集合的特性而分别构造讨论散列查找的速度是否为真正的O 1 不是由于冲突的产生使得散列表的查找过程仍然要进行比较仍然要以平均查找长度ASL来衡量一般地 ASL依赖于散列表的装填因子它标志着散列表的装满程度越大表中记录数越多说明表装得越满发生冲突的可能性就越大查找时比较次数就越多 0 1 在散列表的插入和查找算法中平均查找长度与表的大小m无关只与自己所取的散列函数的值和处理冲突的方法有关假定所选取的散列函数能够使任意关键字等概率的映射到散列空间的任一地址上则理论上已经证明当采用线性探查法处理冲突时平均查找长度为 1 1 1 a 2 当用链地址法处理冲突时平均查找长度为1 a 2 当用开放定址法中的平方探查法双散列函数探查法处理冲突时平均查找长度为 ln 1 a a 即 ASL与装填因子有关既不是严格的O 1 也不是O n 在散列存储中插入和查找的速度是相当快的它优于前面其他任一方法特别是当数据量很大时更是如此散列存储的缺点是根据关键字计算散列地址需要花费一定的计算时间若关键字不是整数则首先要把它转化为整数为此也要花费一定的转化时间占用的存储空间比较多因为采用开放定址法解决冲突的散列总是取a值小于1 采用链接法处理冲突的散列表同数据的链接的存储相比多占用一个具有m个位置的指针数组空间在散列表中只能按关键字查找元素而很难按非关键字查找元素若用散列表存储线性表数据中元素之间的逻辑关系无法体现出来例给定关键字序列11 78 10 1 3 2 4 21 试分别用顺序查找二分查找二叉排序树查找散列查找用线性探查法和拉链法来实现查找试画出它们的对应存储形式顺序查找的顺序表二分查找的判定树二叉排序树查找的二叉排序树及两种散列查找的散列表并求出每一种查找的成功平均查找长度散列函数H k k 11 顺序查找的顺序表一维数组如图所示从图中可以得到顺序查找的成功平均查找长度为 ASL 1 2 3 4 5 6 7 8 8 4 5 012345678910 二分查找的判定树中序序列为从小到大排列的有序序列如图所示从图中可以得到二分查找的成功平均查找长度为 ASL 1 2 2 3 4 4 8 2 625 二叉排序树关键字顺序已确定该二叉排序树应唯一如图所示从图中可以得到二叉排序树查找的成功平均查找长度为 ASL 1 2 2 3 2 4 5 2 8 3 125 散列函数H k k 11线性探查法解决冲突的散列表如图所示从图中可以得到线性探查法的成功平均查找长度为 ASL 1 1 2 1 3 2 1 8 8 2 375 012345678910 012345678910 拉链法解决冲突的散列表如图所示从图中可以得到拉链法的成功平均查找长度为 ASL 1 6 2 2 8 1 25 9 1集合的概念9 2集合的散列存储9 3散列表及其运算9 4散列结构下的查找性能分析 9 5散列结构的应用 LZW压缩问题第9章散列结构及其应用 LZW压缩就是将输入的数据流转换成输出的编码流在转换过程中动态构建编译表其过程可以分为如下几步 1 初始化编译表包括开辟编译表空间把根字符放入编译表中 2 定义一个前缀对象CurrentPrefix 记为p 初始时p 定义一个当前字符串CurrentString p记为p k 其中k为当前读取的数据流中的字符 3 依次读取数据流中的字符做 3 1 CurrentString p k 代表字符串连接操作 3 2 检查CurrentString是否在编译表中如果在则p p k 继续读取下一个字符否则输出p在编译表中的索引到编码流中把CurrentString加入到编译表中 p k 读取下一个字符 4 输出p在编译表中的索引到编码流中例9 21 输入的数据流是abacababad 采用LZW压缩过程中各变量的变化如表9 5所示其中编译表的索引从0开始 3 1 CurrentString p k 代表字符串连接操作 3 2 检查CurrentString是否在编译表中如果在则p p k 继续读取下一个字符否则输出p在编译表中的索引到编码流中把CurrentString加入到编译表中 p k 读取下一个字符下面给出LZW压缩算法 voidlzw comp char charStream charStream为输入数据流由a b c d四种字符组成chark 当前读入的字符char p 前缀char currStr 当前字符串charStringTable 1024 编译表inti 0 j m 初始化编译表StringTable 0 a StringTable 1 b StringTable 2 c StringTable 3 d for m 4 m 1024 m StringTable m 0 m 4 k charStream i p malloc sizeof char p 0 currStr malloc sizeof char currStr 0 while k 0 依次读取数据流strcpy currStr p strcat currStr k j search StringTable currStr 在编译表中查找当前字符串 if j 1 没有找到printf search StringTable p 输出前缀在编译表中的索引strcpy StringTable m currStr 当前字符串加入到编译表中strcpy p k else 找到s

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第9章散列结构及其应用.ppt

文档简介

温馨提示

最新文档

评论

第9章 散列结构及其应用.ppt

文档简介

温馨提示

最新文档

评论

相关文档

第9章散列结构及其应用.ppt