哈夫曼编码的分析与实现

上传人：t*** IP属地：河南上传时间：2020-04-02 格式：DOC 页数：21 大小：541.63KB 积分：15 举报 版权申诉

已阅读5页，还剩16页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

吉林建筑大学吉林建筑大学电气与计算机学院电气与计算机学院信息理论与编码课程设计报告信息理论与编码课程设计报告设计题目设计题目哈夫曼编码的分析与实现哈夫曼编码的分析与实现专业班级专业班级电子信息工程电子信息工程 131 学生姓名学生姓名学学号号指导教师指导教师设计时间设计时间 2016 11 21 2016 12 2 教师评语成绩评阅教师日期 0 第 1 章概述 1 1 设计的作用目的通过完成具体编码算法的程序设计和调试工作提高编程能力深刻理解信源编码信道编译码的基本思想和目的掌握编码的基本原理与编码过程增强逻辑思维能力培养和提高自学能力以及综合运用所学理论知识去分析解决实际问题的能力逐步熟悉开展科学实践的程序和方法主要目的是加深对理论知识的理解掌握查阅有关资料的技能提高实践技能培养独立分析问题解决问题及实际应用的能力通过课程设计各环节的实践应达到如下要求 1 理解无失真信源编码的理论基础掌握无失真信源编码的基本方法 2 根据哈夫曼编码算法考虑一个有多种可能符号各种符号发生的概率不同的信源得到哈夫曼编码和码树 3 掌握哈夫曼编码的优缺点 4 通过完成具体编码算法的程序设计和调试工作提高编程能力深刻理解信源编码信道编译码的基本思想和目的掌握编码的基本原理与编码过程增强逻辑思维能力培养和提高自学能力以及综合运用所学理论知识去分析解决实际问题的能力逐步熟悉开展科学实践的程序和方法 1 2 设计任务及要求 1 理解无失真信源编码的理论基础掌握无失真信源编码的基本方法 2 掌握哈夫曼编码费诺编码方法的基本步骤及优缺点 3 深刻理解信道编码的基本思想与目的理解线性分组码的基本原理与编码过程 4 能够使用 MATLAB 或其他语言进行编程编写的函数要有通用性 1 3 设计内容一个有 8 个符号的信源 X 各个符号出现的概率为 04 005 006 0 07 0 1 012 017 0 39 0 87654321 xxxxxxxx XP X 进行哈夫曼编码并计算平均码长编码效率冗余度 1 第 2 章哈夫曼编码的分析与实现 2 1 哈夫曼编码介绍及原理哈夫曼编码 Huffman Coding 是一种熵编码编码压缩方式哈夫曼编码是可变字长编码 VLC 的一种哈夫曼压缩是个无损的压缩算法一般用来压缩文本和程序文件哈夫曼压缩属于可变代码长度算法一族意思是不同符号例如文本文件中的字符用一个特定长度的位序列替代因此在文件中出现频率高的符号使用短的位序列而那些很少出现的符号则用较长的位序列哈夫曼编码的码长是变化的对于出现频率高的信息编码的长度较短而对于出现频率低的信息编码长度较长这样处理全部信息的总码长一定小于实际信息的符号长度下面给出具体的 Huffman 编码算法 1 首先统计出每个符号出现的频率如本次课程设计 x1到 x7的出现频率分别为 0 39 0 17 0 12 0 1 0 07 0 06 0 05 0 04 2 从左到右把上述频率按从小到大的顺序排列 3 每一次选出最小的两个值作为二叉树的两个叶子节点将和作为它们的根节点这两个叶子节点不再参与比较新的根节点参与比较 4 重复 3 直到最后得到和为 1 的根节点 5 将形成的二叉树的左节点标 0 右节点标 1 把从最上面的根节点到最下面的叶子节点途中遇到的 0 1 序列串起来就得到了各个符号的编码 2 2 哈夫曼编码步骤 1 将信源消息符号按其出现的概率大小依次排列为 12n ppp 2 取两个概率最小的字母分别分配以 0 和 1 两个码元并将这两个概率相加作为一个新字母的概率与未分配的二进制符号的字母重新排队 3 对重排后的两个概率小符号重复步骤 2 的过程 4 不断继续上述过程直到最后两个符号配以 0 和 1 为止 5 从最后一级开始向前返回得到各个信源符号所对应的码元序列即相应的码子 2 0 1 0 1 0 1 0 1 0 1 0 1 0 1 2 4 哈夫曼编码特点 1 哈弗曼的编码方法保证了概率大的符号应对于短码概率小的应对于长码充分利用了短码 2 缩减信源的最后两个码子总是最后一位不同从而保证了哈弗曼码是及时码 3 哈夫曼码没有错误保护功能在译码时如果码串中没有错误那么就能一个接一个地正确译出代码但如果码串中有错误哪怕仅是 1 位出现错误不但这个码本身译错更糟糕的是后面的数据串也会接着被译错全乱了套这种现象称为错误传播 error propagation 计算机对这种错误也无能为力说不出错在哪里更谈不上去纠正它 4 哈夫曼编码只能用整数来表示单个符号而不能用小数这很大程度上限制了压缩效果 5 哈夫曼所有位都是合在一起的如果改动其中一位就可以使其数据变得面目全非 2 5 设计步骤设一个有 8 个符号的信源 X 各个符号出现的概率为 04 0 05 0 06 0 07 0 1 012 0 17 0 39 0 87654321 xxxxxxxx XP X 则有两种哈夫曼编码方法 0 1 编码或者 1 0 编码表 1 哈夫曼 0 1 编码过程框图信源符号概率编码过程码字码长 X10 39 0 39 0 39 0 39 0 39 0 39 0 61 111 X20 17 0 17 0 17 0 19 0 25 0 36 0 390013 X30 12 0 12 0 13 0 17 0 19 0 250113 X40 1 0 1 0 12 0 13 0 1700004 X50 07 0 09 0 1 0 1201004 X60 06 0 07 0 0901014 X70 05 0 06000105 X80 04000115 i x i p x i W i K 3 该哈夫曼码的平均码长为K 8 1 0 39 1 0 17 3 0 12 3 0 1 4 0 07 4 0 06 4 0 05 5 0 04 5 2 63 ii i Kp x K 码元符号信源熵为 H x 8 1 log bit ii i H xp xp x 0 39l og0 39 0 17l og0 17 0 12l og0 12 0 1l og0 1 0 07l og0 07 0 06l og0 06 0 05l og0 05 0 04l og0 04 2 58 符号编码效率 2 58 0 98 2 63 H X K 冗余度 11 0 977 0 02 表 2 哈夫曼 1 0 编码过程框图信源符号概率编码过程码字码长 X10 39 0 39 0 39 0 39 0 39 0 39 0 61 101 X20 17 0 17 0 17 0 19 0 25 0 36 0 391103 X30 12 0 12 0 13 0 17 0 19 0 251003 X40 1 0 1 0 12 0 13 0 1711114 X50 07 0 09 0 1 0 1210114 X60 06 0 07 0 0910104 X70 05 0 061110 1 5 X80 041110 0 5 信源熵为 H x i x i p x i W i K 1 0 1 0 1 0 1 0 1 0 1 0 1 0 4 8 1 log bit ii i H xp xp x 0 39l og0 39 0 17l og0 17 0 12l og0 12 0 1l og0 1 0 07l og0 07 0 06l og0 06 0 05l og0 05 0 04l og0 04 2 58 符号该哈夫曼码的平均码长为K 8 1 0 39 1 0 17 3 0 12 3 0 1 4 0 07 4 0 06 4 0 05 5 0 04 5 2 63 ii i Kp x K 码元符号编码效率 2 58 0 98 2 63 H X K 冗余度 11 0 977 0 02 通过以上的两种不同的编码方式进行比较我们发现其实以上两种编码的码虽然不同但是其知识将原来的 1 换成了 0 0 换成了 1 他的码长编码效率冗余度是没有变化的需要注意的是对于多进制哈夫曼编码为了提高编码效率就要使长码的符号数量尽量少概率尽量小所以信源符号数最好满足其rnrm 1 中 r 为进制数 n 为缩减的次数比如说如果要进行三进制编码那么最好信源具有 7 个符号第一次合并后减少 2 个称为 5 个第二次合并后又减少 2 个称为 3 个这样给每一个赋予三进制符号就没有浪费的了但是如果信源只有 6 个符号的话为了减少最长码的数量那么应该在第一次合并是添置为零的虚拟符号 1 个事实上只合并 2 个概率最小的符号后面每次合并 3 个就可以是的最长的码的符号数量最少也就是长码的概率最小从而得到最高的编码效率但是对于信源的某一个符号来说有时候可能还会比定长码长例如当信源有 5 个是采用定长码方式可用 3 个二进制符号组成码字而用变长码是有时候码字却长达 4 个二进制符号所以编码简单化的代价就是要有大量的储存设备用来缓冲码字长度的差异也就是码方差小的码质量好的原因设一秒钟送一个信源符号输出码字却只有 5 个二进制符号若希望平均每秒输出个二进制的信息率输出才能从长久计算输出和输入保持平衡当储61 2 k 存量不够大的时候可能有时取空有时溢出例如信源连续发出短码时就会出现取空就是说还没有存入就要输出连续发出长码时就会出现溢出 5 就是说存入太多以致于存满了还未取出就要再次存入所以应估计所需的存储器容量才能使上述现象发生的概率小至可以容忍当我们计算两个概率之和时假设这两种的概率之和与上方概率有相同我们应该把这个和概率放在其相同概率上方还是下方我们就此进行讨论设我们有一组概率为 0 4 0 2 0 2 0 1 0 1 则离散无记忆信源 1 01 02 02 04 0 54321 xxxxx XP X 当概率相同放在下方时哈夫曼编码为当概率相同放在上方时哈夫曼编码为则上面两表给出的哈夫曼平均码长相等即 K 符号码元 2 2 8 1i Kixip 编码效率也相同即信源编码概率编码过程码字码长 X10 4002 X20 2102 X30 2112 X40 10103 X50 1 0113 信源编码概率编码过程码字码长 X10 411 X20 2012 X30 20002 X40 100104 X50 1 0 4 0 4 0 6 1 0 0 2 0 4 0 4 0 2 0 2 0 2 00114 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 4 0 4 0 6 0 2 0 2 0 2 0 4 0 2 0 4 1 0 0 1 表 3 哈夫曼编码方法一表 4 哈夫曼编码方法二 6 965 0 K XH q i iii KkapKkE 1 2 2 2 1 但是两种码的质量不完全相同可用码方差来表示即 36 1 2 1 16 0 2 2 由此可见放在上面的哈夫曼编码比放在下面的哈夫曼编码得到的码方差要小许多故应该放在上面 2 6 哈弗曼树原理及过程哈夫曼树 Huffman tree 又名最优树指给定 n 个权值作为 n 的叶子结点构造一棵二叉树若带权路径长度达到最小称这样的二叉树为最优二叉树也称为哈夫曼树 Huffman tree 哈夫曼树是带权路径长度最短的树权值较大的结点离根较近若将树中结点赋给一个有着某种含义的数值则这个数值称为该结点的权哈夫曼树是一种树形结构用哈夫曼树的方法解编程题的算法就叫做哈夫曼算法树并不是指植物而是一种数据结构因为其存放方式颇有点象一棵树有树叉因而称为树最简哈夫曼树是由德国数学家冯哈夫曼发现的此树的特点就是引出的路程最短哈弗曼最优二叉树步骤 1 初始化根据给定的 n 个权值构成 n 棵二叉树的集合 12n w ww 其中每棵二叉树中只有一个带权的根结点左右子树均 12 n FT TT i w 空 2 找最小树在 F 中选择两棵根结点权值最小的树作为左右子树构造一棵新的二叉树且至新的二叉树的根结点的权值为其左右子树上根结点的权值之和 3 删除与加入在 F 中删除这两棵树并将新的二叉树加入 F 中 4 判断重复前两步 2 和 3 直到 F 中只含有一棵树为止该树即为哈夫曼树 7 0 0 0 0 00 0 1 11 11 1 1 X 1 001010 0000 0001000011 01100111 图 1 哈夫曼 0 1 编码树图形 X 0 1 1 1 1 0 0 0 0 0 1 1 1 0 1000 1001 101 110 11100 11101 1111 图 2 哈夫曼 1 0 编码树图形哈夫曼树也可以是 k 叉的只是在构造 k 叉哈夫曼树时需要先进行一些调整构造哈夫曼树的思想是每次选 k 个权重最小的元素来合成一个新的元素该元素权重为 k 个元素权重之和但是当 k 大于 2 时按照这个步骤做下去可能到最后剩下的元素少于 k 个解决这个问题的办法是假设已经有了一棵哈夫曼树且为一棵满 k 叉树则可以计算出其叶节点数目为式子中 11 knk 的 nk 表示子节点数目为 k 的节点数目于是对给定的 n 个权值构造 k 叉哈夫曼树时可以先考虑增加一些权值为 0 的叶子节点使得叶子节点总数为这种形式然后再按照哈夫曼树的方法进行构造即可 11 knk 0 8 第 3 章哈夫曼编码 C 语言实现 3 1 C 语言编程 3 1 1 程序介绍本程序的编码和运行都是在 VS2008 中实现的整个程序虽然看似庞大但编写过程清晰采用模块化编写各个问题逐个击破也方便对程序的管理和运行整个程序的编写分为五大部分 main 主函数 xiaoxi 子函数 add 子函数 coding 子函数 ordination 子函数五大部分紧密相连环环相扣共同实现程序的编码 Main 主函数主要负责其它函数的调用和最后结果的输出 Xiaoxi 子函数主要负责输入需要的概率数据 Add 子函数负责概率相加以便于排序 coding 子函数负责具体编码工作从右往左逐列编码在每一列从下往上逐个编码与上课时学习的方法稍有不同其原理相同 ordination 子函数主要负责各个概率间以及概率和的排序该程序的优点有以下四个方面 1 程序在刚运行的时候需要输入概率数据程序会启动蜂鸣器提示需要输入数据在输入需要输入的数据个数之后会再次启动蜂鸣器提醒需要输入概率数程序具有的提醒功能是本程序的一大特色 2 程序在输入完需要的数据后会自动排序而不需要再去麻烦的排序 3 程序在运行过程中会自动检错错误报警 a 当输入的概率大于 1 或小于 0 的时候系统会自动提示错误 9 b 当输入的概率之和大于 1 时系统会自动检错 4 程序的编码过程清晰编码过程中所有的概率都会在显示窗口显示出来更清楚易懂 5 若两概率之和与另一概率相等概率之和会自动排在后面 a 理论上讲求和排序的时候是按照列的形式但程序按照行的形式当然了再完美的计划也会有破绽这个程序也不可避免地存在些小缺点 b 出错报警时增加蜂鸣器长时间工作 c add 函数语句重复流程图中已经进行了修改程序使用说明该程序是在 VS2008 环境下编写的运行也需要在 VS2008 中运行请确保你在装载有 VS2008 环境下运行 3 2 程序流程图以及说明 10 主程序 N 结束定义全局数组 a b c d 定义全局变量定义变量 n x y K 开始输出编码过程中产生的新概率输出码字输出平均码长信源熵编码效率冗余度初始输出提示获取 y xiaoxi ordination m a Y 数组 a 一维存放输入概率数组 b 二维存放编码过程概率数组 c 三维存放编码每个位置即时编码数组 d 一维存放码长 i 为整型变量计数编码次数 m 为整型 n x 为控制循环整型变量 y 为检错控制整型变量 K 为存放平均码长浮点型变量 H 为存放信源熵浮点型变量三重循环初始化使其所有值为 2 显示请输入消息个数响蜂鸣器调用获取概率函数将返回值给 y Y 0 存在错误结束程序调用获取概率函数将返回值给 y 说明图 3 主程序流程图 3 3 C 语言源程序 include include define w 10 11 float a w b w w 0 f w 0 int i c w w w d w 0 m xiaoxi int n float P 0 printf n 请分别输入消息概率区间在 0 1 概率之和应为 n a for n 0 n 1 a n 0 printf 出错概率应在 0 1 范围内 n return 0 break P a n if P 1 printf 出错概率和应为 1 n return 0 else return 1 ordination int f float e int g j float k for g 0 g f 1 g for j g 1 j f j if e g 0 i t 0 for k m 2 i k 0 k if f i b i 1 k for r 0 c i 1 k r 2 r c i m i 2 r c i 1 k r c i m i 1 r c i 1 k r c i m i 2 r 0 c i m i 1 r 1 for j m i 3 j 0 j for k m 2 i k 0 k if b i j b i 1 k for r 0 c i 1 k r 2 r c i j r c i 1 k r 13 add int j for i 0 i m i b 0 i a i for i 1 i m i b i m i 1 b i 1 m i 1 b i 1 m i f i 1 b i m i 1 for j 0 j m i 1 j b i j b i 1 j ordination m i b i main int n x y float K 0 H 0 for n 0 n w n for x 0 x w x for y 0 y w y c n x y 2 printf n 请输入消息个数 n a scanf d printf n y xiaoxi if y 1 ordination m a add coding printf n 编码过程如下 n for n 0 n m n 14 printf n 第 d 列 n 1 for x 0 x m x if b n x 0 break printf t 5 4f b n x printf n printf n for n 0 n m n printf 概率为 5 4f 的符号编码后码字为 t a n for x 0 x m x if c 0 n x 2 break printf d c 0 n x d n K a n d n H a n log10l a n log10l 2 printf t 其码长为 d n d n printf n 平均码长 K printf 3 2f K printf n 信源熵 3 2f H printf n 编码效率 H K 3 2f H 100 K printf n 冗余度 3 2f n 1 H K 3 4 程序步骤及运行本程序会对输入的概率自动检错任何输入大于 1 或小于 0 的概率或概率之和不等于 1 系统都会提示错误 15 图 4 仿真纠错情况及结果进行哈弗曼编码第一步输入你所需要的概率个数如你需要输入概率 x1 x8 请输入 8 点回车键第二步输入你所需要的概率程序会自动排序如输入概率 x1 x8 分别点回车键确认否则请按退格键第三步输入完成后按下回车键程序会出现结果图 5 哈夫曼 1 0 编码运行结果显示各列重新排列的概率值 16 图 6 哈夫曼 0 1 编码树运行结果显示各列重新排列的概率值从运行结果可知该结果与理论一致并且可以看出哈夫曼编码的 3 个特点 1 哈夫曼码的编码方法保证了概率大的符号对应于短码概率小的符号对应于长码 2 缩减信源的最后二个码字总是最后一位码元不同前面各位码元相同二元编码情况从而保证了哈夫曼是即时码 3 每次缩减信源的最长两个码字有相同的码长这三个特点保证了所得的哈夫曼码一定是最佳码因此哈夫曼是一种应用广泛而有效的数据压缩技术利用哈夫曼编码进行通信可以大大提高信道利用率加快信息传输速度降低传输成本数据压缩的过程称为编码解压的过程称为译码进行信息传递时发送端通过一个编码系统对待传数据明文预先编码而接受端将传来的数据密文进行译码 17 第 4 章总结本次课程设计让我对哈夫曼编码以及 C 语言有了更深的理解和操作能力开始针对题目进行分析将所涉及的知识点及相关函数做了分析大体能够把握整体的设计流程及思路再通过查阅相关资料使自己的知识也更加丰富了明白了哈夫曼编码的原理以及仿真的实现首先对给题目进行了计算进行哈夫曼编码求出平均码长编码效率开始时不是很顺利以前学的很多书本上的东西记得不太清楚了经过复习课本的内容掌握原理后顺利求出结果然后是利用 C 语言编写程序由于我现在正在公司实习接触到编程的东西比较多所以对 C 语言编程还是比较熟悉的所以我选择使用 C 语言来实现仿真仔细研究后得到程序的算法还有我也参考了一部分网上的

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

哈夫曼编码的分析与实现

文档简介

温馨提示

最新文档

评论

哈夫曼编码的分析与实现

文档简介

温馨提示

最新文档

评论

相关文档