




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ch数据无损压缩演示(Shi)文稿第一页,共四十页。优选ch数(Shu)据无损压缩第二页,共四十页。第(Di)2章数据无损压缩目录2.1数据的冗余2.1.1冗余概念2.1.2决策量2.1.3信息量2.1.4熵2.1.5数据冗余量2.2统计编码2.2.1香农-范诺编码2.2.2霍夫曼编码2.2.3算术编码2.3RLE编码2.4词典编码2.4.1词典编码的思想2.4.2LZ77算法2.4.3LZSS算法2.4.4LZ78算法2.4.5LZW算法参考文献和站点第三页,共四十页。2.0数据无损压(Ya)缩概述数据可被压缩的依据数据本身存在冗余听觉系统的敏感度有限视觉系统的敏感度有限三种多媒体数据类型文字(text)数据——无损压缩根据数据本身的冗余(Basedondataredundancy)声音(audio)数据——有损压缩根据数据本身的冗余(Basedondataredundancy)根据人的听觉系统特性(Basedonhumanhearingsystem)图像(image)/视像(video)数据——有损压缩根据数据本身的冗余(Basedondataredundancy)根据人的视觉系统特性(Basedonhumanvisualsystem)
第四页,共四十页。2.0数据无(Wu)损压缩概述(续1)数据无损压缩的理论——信息论(informationtheory)1948年创建的数学理论的一个分支学科,研究信息的编码、传输和存储该术语源于ClaudeShannon(香农)发表的“AMathematicalTheoryofCommunication”论文题目,提议用二进制数据对信息进行编码最初只应用于通信工程领域,后来扩展到包括计算在内的其他多个领域,如信息的存储、信息的检索等。在通信方面,主要研究数据量、传输速率、信道容量、传输正确率等问题。数据无损压缩的方法霍夫曼编码(Huffmancoding)算术编码(arithmeticcoding)行程长度编码(run-lengthcoding)词典编码(dictionarycoding)……第五页,共四十页。2.0数据无损压缩概(Gai)述(续2)TheFatherofInformationTheory——
ClaudeElwoodShannonBorn:30April1916inGaylord,Michigan,USADied:24Feb2001inMedford,Massachusetts,USA信息论之父介绍第六页,共四十页。2.1数据的(De)冗余冗余概念人为冗余在信息处理系统中,使用两台计算机做同样的工作是提高系统可靠性的一种措施—此种冗余乃有意为之在数据存储和传输中,为了检测和恢复在数据存储或数据传输过程中出现的错误,根据使用的算法的要求,在数据存储或数据传输之前把额外的数据添加到用户数据中,这个额外的数据就是冗余数据—比如数字签名、水印等等视听冗余由于人的视觉系统和听觉系统的局限性,在图像数据和声音数据中,有些数据确实是多余的,使用算法将其去掉后并不会丢失实质性的信息或含义,对理解数据表达的信息几乎没有影响数据冗余不考虑数据来源时,单纯数据集中也可能存在多余的数据,去掉这些多余数据并不会丢失任何信息,这种冗余称为数据冗余,而且还可定量表达第七页,共四十页。2.1数据(Ju)的冗余(续1)决策量(decisioncontent)在有限数目的互斥事件集合中,决策量是事件数的对数值在数学上表示为
H0=log(n)
其中,n是事件数决策量的单位由对数的底数决定Sh(Shannon):用于以2为底的对数Nat(naturalunit):用于以e为底的对数Hart(hartley):用于以10为底的对数第八页,共四十页。2.1数据的冗余(Yu)(续2)信息量(informationcontent)具有确定概率事件的信息的定量度量在数学上定义为
其中,是事件出现的概率举例:假设X={a,b,c}是由3个事件构成的集合,p(a)=0.5,p(b)=0.25,p(b)=0.25分别是事件a,b和c出现的概率,这些事件的信息量分别为,
I(a)=log2(1/0.50)=1shI(b)=log2(1/0.25)=2shI(c)=log2(1/0.25)=2sh一个等概率事件的集合,每个事件的信息量等于该集合的决策量第九页,共四十页。2.1数(Shu)据的冗余(续3)熵(entropy)按照香农(Shannon)的理论,在有限的互斥和联合穷举事件的集合中,熵为事件的信息量的平均值,也称事件的平均信息量(meaninformationcontent)用数学表示为第十页,共四十页。2.1数据的冗余(Yu)(续4)数据的冗余量第十一页,共四十页。2.2统计编(Bian)码 统计编码给已知统计信息的符号分配代码的数据无损压缩方法编码方法香农-范诺编码霍夫曼编码算术编码编码特性香农-范诺编码和霍夫曼编码的原理相同,都是根据符号集中各个符号出现的频繁程度来编码,出现次数越多的符号,给它分配的代码位数越少算术编码使用0和1之间的实数的间隔长度代表概率大小,概率越大间隔越长,编码效率可接近于熵第十二页,共四十页。2.2.1统(Tong)计编码——香农-范诺编码 香农-范诺编码(Shannon–Fanocoding)在香农的源编码理论中,熵的大小表示非冗余的不可压缩的信息量在计算熵时,如果对数的底数用2,熵的单位就用“香农(Sh)”,也称“位(bit)”
。“位”是1948年Shannon首次使用的术语。例如最早阐述和实现“从上到下”的熵编码方法的人是Shannon(1948年)和Fano(1949年),因此称为香农-范诺(Shannon-Fano)编码法第十三页,共四十页。2.2.1香农-范诺编(Bian)码香农-范诺编码举例有一幅40个像素组成的灰度图像,灰度共有5级,分别用符号A,B,C,D和E表示。40个像素中出现灰度A的像素数有15个,出现灰度B的像素数有7个,出现灰度C的像素数有7个,其余情况见表2-1(1)计算该图像可能获得的压缩比的理论值(2)对5个符号进行编码(3)计算该图像可能获得的压缩比的实际值表2-1符号在图像中出现的数目符号ABCDE出现的次数157765出现的概率15/407/407/406/405/40第十四页,共四十页。2.2.1香农-范诺(Nuo)编码(续1)(1)压缩比的理论值按照常规的编码方法,表示5个符号最少需要3位,如用000表示A,001表示B,…,100表示E,其余3个代码(101,110,111)不用。这就意味每个像素用3位,编码这幅图像总共需要120位。按照香农理论,这幅图像的熵为这个数值表明,每个符号不需要用3位构成的代码表示,而用2.196位就可以,因此40个像素只需用87.84位就可以,因此在理论上,这幅图像的的压缩比为120:87.84≈1.37:1,实际上就是3:2.196≈1.37第十五页,共四十页。2.2.1香农(Nong)-范诺编码(续2)(2)符号编码对每个符号进行编码时采用“从上到下”的方法。首先按照符号出现的频度或概率排序,如A,B,C,D和E,见表2-2。然后使用递归方法分成两个部分,每一部分具有近似相同的次数,如图2-1所示第十六页,共四十页。2.2.1香农-范诺编码(Ma)(续3)(3)压缩比的实际值按照这种方法进行编码需要的总位数为30+14+14+18+15=91,实际的压缩比为120:91≈1.32:1图2-1香农-范诺算法编码举例
第十七页,共四十页。2.2.2统计编码——霍(Huo)夫曼编码 霍夫曼编码(Huffmancoding)霍夫曼(D.A.Huffman)在1952年提出和描述的“从下到上”的熵编码方法根据给定数据集中各元素所出现的频率来压缩数据的一种统计压缩编码方法。这些元素(如字母)出现的次数越多,其编码的位数就越少广泛用在JPEG,MPEG,H.26X等各种信息编码标准中第十八页,共四十页。2.2.2霍(Huo)夫曼编码—CaseStudy1霍夫曼编码举例1现有一个由5个不同符号组成的30个符号的字符串:BABACACADADABBCBABEBEDDABEEEBB计算(1)该字符串的霍夫曼码(2)该字符串的熵(3)该字符串的平均码长(4)编码前后的压缩比第十九页,共四十页。2.2.2霍(Huo)夫曼编码—CaseStudy1(续1)符号出现的次数log2(1/pi)分配的代码需要的位数B101.585?A81.907?C33.322?D42.907?E52.585?合计30符号出现的概率第二十页,共四十页。2.2.2霍(Huo)夫曼编码—CaseStudy1(续2)(1)计算该字符串的霍夫曼码步骤①:按照符号出现概率大小的顺序对符号进行排序步骤②:把概率最小的两个符号组成一个节点P1步骤③:重复步骤②,得到节点P2,P3,P4,……,
PN,形成一棵树,其中的PN称为根节点步骤④:从根节点PN开始到每个符号的树叶,从上到下
标上0(上枝)和1(下枝),至于哪个为1哪个为0则
无关紧要,但通常把概率大的标成1,概率小的
标成0步骤⑤:从根节点PN开始顺着树枝到每个叶子分别写出
每个符号的代码第二十一页,共四十页。2.2.2霍夫曼(Man)编码—CaseStudy1(续3)符号B(10)A(8)E(5)D(4)C(3)P1(7)P2(12)P3(18)P4(30)01101010代码B(11)A(10)E(00)D(011)C(010)第二十二页,共四十页。2.2.2霍夫(Fu)曼编码—CaseStudy1(续4)符号出现的次数log2(1/pi)分配的代码需要的位数B101.5851120A81.9071016C33.3220109D42.90701112E52.5850010合计301.06730个字符组成的字符串需要67位5个符号的代码第二十三页,共四十页。2.2.2霍夫(Fu)曼编码—CaseStudy1(续5)
(2)计算该字符串的熵
其中,是事件的集合,
并满足H(S)=(8/30)×log2(30/8)+(10/30)×log2(30/10)+
(3/30)×log2(30/3)+(4/30)×log2(30/4)+
(5/30)×log2(30/5)
=[30lg30–(8×lg8+
10×lg10+
3×lg3+
4
×lg4+5lg5)]/(30×log22)
=(44.3136-24.5592)/9.0308=
2.1874(Sh)第二十四页,共四十页。2.2.2霍夫曼编(Bian)码—CaseStudy1(续6)(3)
计算该字符串的平均码长平均码长:
=(2×8+2×10+3×3+3×4+2×5)/30
=2.233位/符号
压缩比:90/67=1.34:1
平均码长:67/30=2.233位(4)计算编码前后的压缩比编码前:5个符号需3位,30个字符,需要90位编码后:共67位第二十五页,共四十页。2.2.2霍夫曼编(Bian)码—CaseStudy2霍夫曼编码举例2编码前N=8symbols:{a,b,c,d,e,f,g,h},3bitspersymbol(N=23=8)P(a)=0.01,P(b)=0.02,P(c)=0.05,P(d)=0.09,P(e)=0.18,P(f)=0.2,P(g)=0.2,
P(h)=0.25计算(1)该字符串的霍夫曼码(2)该字符串的熵(3)该字符串的平均码长(4)编码效率第二十六页,共四十页。2.2.2霍(Huo)夫曼编码—CaseStudy2(续2)Averagelengthpersymbol
(beforecoding):(2)Entropy:(3)Averagelengthpersymbol
(withHuffmancoding):(4)Efficiencyofthecode:第二十七页,共四十页。2.2.3统(Tong)计编码——算术编码 算术编码(arithmeticcoding)给已知统计信息的符号分配代码的数据无损压缩技术算术编码是把一个信源表示为实轴上0和1之间的一个区间,信源集合中的每一个元素都用来缩短这个区间。实质上是为整个输入字符流分配一个“码字”,因此它的编码效率可接近于熵第二十八页,共四十页。2.2.3算术(Shu)编码举例[例2.3]假设信源符号为{00,01,10,11},它们的概率分别为{0.1,0.4,0.2,0.3}对二进制消息序列10001100101101…进行算术编码第二十九页,共四十页。2.2.3算术编码(Ma)举例(续1)符号00011011概率0.10.40.20.3初始编码间隔[0,0.1)[0.1,0.5)[0.5,0.7)[0.7,1]表2-4例2.3的信源符号概率和初始编码间隔
初始化根据信源符号的概率把间隔[0,1)分成如表2-4所示的4个子间隔:[0,0.1),[0.1,0.5),[0.5,0.7),[0.7,1)。其中[x,y)的表示半开放间隔,即包含x不包含y,x称为低边界或左边界,y称为高边界或右边界第三十页,共四十页。2.2.3算(Suan)术编码举例(续2)确定符号的编码范围编码时输入第1个符号是10,找到它的编码范围是[0.5,0.7]消息中第2个符号00的编码范围是[0,0.1),它的间隔就取[0.5,0.7)的第一个十分之一作为新间隔[0.5,0.52)编码第3个符号11时,取新间隔为[0.514,0.52)编码第4个符号00时,取新间隔为[0.514,0.5146)依此类推……消息的编码输出可以是最后一个间隔中的任意数整个编码过程如图2-3所示编码和译码的全过程分别见表2-5和表2-6第三十一页,共四十页。2.2.3算术编码举(Ju)例(续3)图2-3例2.3的算术编码过程第三十二页,共四十页。2.2.3算术(Shu)编码举例(续4)第三十三页,共四十页。2.2.3算术编(Bian)码举例(续5)第三十四页,共四十页。算术编(Bian)码的特点①不必预先定义概率模型,自适应模式具有独特的优点;
②信源符号概率接近时,建议使用算术编码
,这种情况下其效率高于Huffman编码;
第三十五页,共四十页。算(Suan)术编码特点续③算术编码绕过了用一个特定的代码替代一个输入符号的想法,用一个浮点输出数值代替一个流的输入符号,较长的复杂的消息输出的数值中就需要更多的位数。④算术编码实现方法复杂一些,但J
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 美术设计师创新设计题目及答案
- 石方工程承包合同协议书
- 纺织环保理念的实施试题及答案
- 合同更正协议书
- 加工合同协议书范本
- 消费帮扶合同协议书
- 模数变形测试题及答案
- 转让楼房合同协议书
- 退款押金协议书范本
- 购买合同协议书制作
- 2024-2025学年高一上学期数学开学第一课教学设计
- 家装主材下单安装流程
- 供水管网漏损更新改造工程(一期)可行性研究报告
- 课题申报参考:产教融合背景下护理专业技能人才“岗课赛证”融通路径研究
- 2025年度合伙人利益共享及风险分担协议范本
- 中华人民共和国工会法课件
- 仓库礼仪培训
- 2025年高考化学复习热搜题速递之反应热与焓变(2024年7月)
- 化粪池、隔油池清掏承揽合同2025年
- 收藏证书内容模板
- 不锈钢管接件行业市场发展及发展趋势与投资战略研究报告
评论
0/150
提交评论