版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第4章 视频信息压缩与处理,4-1 图像的统计特性,由前面的分析可知,一幅图像是由几十万以上的像素构成的。但实际中由于一幅图像的相邻像素之间、相邻行之间以及相邻帧之间都存在着较强的相关性,这样实际有分析价值的图像只占其中的一小部分。 所谓图像统计特性是指其亮度、色度(或色差)值或亮度、色度(或色差)抽样值的随机统计特性。,4.1.1 图像的信息量 每当我们看书、听电话、看电视时,都可以获得一系列丰富、有意义的消息,因此我们称一个有次序的符号(如状态、字母、数字或电平等)序列就是消息。 例如某一个图像信息源所发出的符号集合X=S1, S2, , Sn , Si为中的某一个符号,可见它能够发出n种
2、符号。 根据信息论的基本知识,从图像信息源X发出符号Si的概率为p(Si),而且p(Si)将满足下列条件: 这样符号Si所携带的信息量I(Si)可以用下式表示:,上式所定义的信息量也称为自信息量,单位为“bit”,表示在接收者未收到符号Si之前,并不清楚究竟会收到符号集X=S1, S2, , Sn 中的哪一个符号,即存在不确定性。 另外,接收符号Si之后,表示接收到一个符号所获得的信息量,4.1.2 离散信源 如果信息源所发出的符号均取自某一个离散集合,这样的信息源称为离散信源。由信息论的基本理论可知,离散信源X可以用下式描述: 其中 如果从上述信息源X中所发出的各种符号彼此独立无关,即任意两
3、个相继发出的符号Si和Sj, Si符号不会对Sj符号构成影响,或者说Sj符号与其前面出现的符号Si无关,我们称这样的图像信息源为“无记忆”的离散信息源。,由一个无记忆的离散信息源所发出的任意长度的符号序列S1,S2Sn的信息量为 从上式可以看出,总信息量等于相继发出的各符号的自信息量之和。 对于实际的图像信息源来说,它所发出的各符号并不是相互独立的,而是具有一定的相关性,即相继发出的符号序列中Si符号的出现与它之前已相继出现的几个符号Si-1,Si-2,有关,这样的信源就是“有记忆”信息源。,4.1.3 图像的信息熵,对于无记忆的图像信息源而言,我们无法确切地知道信息源在下一时刻发出的符号是符
4、号集X=S1, S2, , Sn中的哪一个符号,因此信息源所发出的符号Si本身就是一个随机变量,而其信息量I又是Si的函数。 由此可知,I也是一个随机变量,这样我们就可以求出图像信息源X发出符号集Sn中各符号的信息量的统计平均(即求其数学期望),从而得到符号集Sn中每个符号的平均信息量。 在信息论中称H(X)为图像信息源X的“熵”,其单位为bit/符号。,无记忆信源的概率分布与熵的关系 计算图像的熵的方法有两种: 其一是对图像信息源的概率分布提出数学模型,然而根据该模型进行熵的计算 其二是将图像分割成统计上相互独立的“子像块”,当一幅图像所包含子像块数足够多时,便能具体地测量出每个子像块出现的
5、概率,最后按式(4-5)计算出信息熵。,均匀分布的图像信息源 如果图像信息源的概率分布呈现均匀分布,即各符号出现的概率相等,那么其数学模型可写为: 则由式(4-5)可求出该图像信息源的熵H(x)为 可以证明,当图像信息源中各符号出现的概率相等时,信源的信息熵最大。 数据压缩的方法之一,就是使每个符号所代表的信息量最大。通常通过压缩各信源符号间的冗余度使各信源符号呈现等概率分布来达到各符号所携带的信息量最大,正态分布的图像信息源 在实际图像中,可根据图像的内容(如人的头肩像、景物等)进行分类。通常用一幅或一组典型的测试图像代替这类图像,然后对典型的测试图像求熵,最后利用熵值来研究该类图像的压缩编
6、码方法。 假设某一测试图像包含N=256256个像素,每个像素采用8bit编码,可见相当于有256个灰度等级。如果在该幅测试图中有ni个灰度为i的像素,那么灰度为i的像素出现的概率为ni/N,这样便可以利用式(4-5)求出该信息源的熵。,例4-1已知一幅图像包含256256像素,其中每像素用8bit表示。如果其中包含红色像素13100个,求该像素出现的概率为多少? 解:,信源的相关性与序列熵的关系 对于一个无记忆的离散信源,如果已知输出序列中的相邻两个符号X和Y,其中X,Y分别取自于:,该序列sitj的平均信息熵称为联合熵:,式中rij为符合Si和tj同时发生时的联合概率,因为X和Y彼此独立,
7、故rij=p(Si)q(tj),因此有: 即:离散无记忆信源所产生的符号序列的熵等于各符号熵之和,许多离散信源都是有记忆的,其前一个符号直接对后面所出现的符号构成影响,或者说后面出现的符号由前面几个出现的符号决定。 如相邻2个符号X和Y,此时联合概率rij=p(si)pji=q(tj)pij,其中pji=p(tj/si),qij=p(si/tj),在给定X的条件下,Y所具有的熵称之为条件熵,即:,不难证明:,由上面的分析可以看出,序列熵与其可能达到的最大值之间的差值就是指该信息源中所含有的冗余度。 如果能使信源输出的各符号之间的冗余度越小,那么每个符号所携带的信息量也越大,这样,传送相同的信息
8、量所需要的序列长度也越短,即包含的比特数越少 由此得到另一种数据压缩的方法: 去除信源输出各符号间的相关性,其相关性去除越多,则信源特性越趋于无记忆信源的特性。,4-2 信息压缩方法及其分类,多媒体信息存在数据量大、数据流具有突发性和码速可变性三大特征。 如果一幅图像中代表其亮度、色彩和饱和度的各项分量的带宽分别为4MHz、1.3MHz和0.5MHz,那么根据取样定理的规定,只要当取样频率大于或等于原信号的最高频率的2倍时,才能从取样信号中无失真地恢复原信号。若取等号,并且每个取样值用8bit表示,由此可以计算出一幅图像的数据量: (4+1.3+0.5)28=92.8Mbit/s 显然,数据量
9、非常大,很难直接进行保存,因此必须对图像数据进行压缩以适应传输和存储的要求。,4.2.1 图像信息中存在的冗余类型,空间冗余,这是图象数据中经常存在的一种冗余。 在同一幅图象中,规则物体和规则背景的表面物理特性具有相关性,人们通常将其视为一个整体,从而达到数据压缩的目的。,时间冗余,这是序列图象和语音数据中所经常包含的冗余。 图象序列中的两幅相邻的图象之间有较大的相关性,这反映为时间冗余。 在语言中,由于人在说话时发音的音频是一连续的渐变过程,而不是一个完全时间上独立的过程,因而存在时间冗余。,信息熵冗余 针对数据信息量而言,熵为下限,A B C D 1/2 1/4 1/8 1/8,X=,H(
10、X)=1.75bit/字符,A B C D 00 01 10 11,A B C D 0 10 110 111,C(X)=2bit/字符,C1(X)=1.75bit/字符,结构冗余,有些图象从大域上看存在非常强的纹理结构,我们称它们在结构上存在有冗余,也称文理冗余。 例如布纹图象和草席图象,知识冗余,有许多图象的理解与某些基础知识有相当大的相关性。 例如,人脸的图象有固定的结构。比如说嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于正脸图象的中线上等等。 这类规律性的结构可由先验知识和背景知识得到, 我们称此类冗余为知识冗余。,视觉冗余,人类视觉系统并不是对任何图像的变化都很敏感。 例如,对于图象
11、的编码处理时,由于压缩或量化截断引入了噪声而使图象发生了一些变化,如果这些变化不能为视觉所感知,仍认为图象足够好。 事实上人类视觉系统一般分辨能力约为26灰度等级,而一般图象量化采用28灰度等级,这类冗余我们称为视觉冗余。,听觉冗余,人类听觉系统对不同声音的敏感程度不同,而且受环境的影响,声音之间还存在掩蔽效应。 比如,太高或太低的声音都听不到。在嘈杂的环境下,听不到低的声音。别人的声音可以盖过你的声音。这类冗余我们称为听觉冗余。,消除冗余就是数据压缩的途径!,4.2.2 图像编码的基本过程,图像通信系统模型,信 源,信 宿,信 源 编码器,信 源 解码器,信 道 编码器,有 噪 信 道,信
12、道 解码器,原始图像,无噪信道,f(x,y),f(x,y),数据 压缩,如果忽略噪声的影响,那么数据信息能通过信道实现无误传输(无噪声信道) 如果系统的信源为一个数字信源,那么便可以将一幅光图像f(x,y)转换成具有n个符号的离散随机信号。若该信源是一个恒定信源,则每Ts秒产生一个符号,这样,由信源输出的符号速率为Rs=1/Ts 信源编码器负责完成数据压缩功能,它对每个符号进行映射变换,从中消除图像信息中的各种冗余信息,使数据得到压缩,而其中的失真又能被人眼的视觉效果所接受。此时所输出的数据速率Rc=1/Tc。 如果信道处于理想状态,则信道为一无噪声信道,那么信息通过该信道时,可实现无失真传输
13、,信源解码器接收速率为Rc 信源解码器是编码器的逆过程,其输出信号直接送往信宿,从而重建图像,4.2.3 压缩编码方法及其分类,模拟压缩、数字压缩(常用),根据解码后数据与原始数据是否完全一致,数据压缩方法划分为两类: 可逆编码(无失真编码,无损压缩) 如Huffman编码、算术编码、行程长度编码等。 不可逆编码(有失真编码,有损压缩)如变换编码和预测编码,根据压缩的原理可以分类: 预测编码 利用空间中相邻数据的相关性来预测未来点的数据。差分脉冲编码调制和自适应差分脉冲编码调制。 变换编码 将图象时域信号变换到频域空间上处理。时域空间有强相关的信号, 反映在频域上是某些特定的区域内能量常被集中
14、在一起, 从而实现压缩. 正交变换如离散余弦变换, 离散付立叶变换和Walsh-Hadamard变换. 量化与向量量化编码 为了使整体量化失真最小, 就必须依照统计的概率分布设计最优的量化器。已知最优量化器是Max量化器。对象元点进行量化时, 也可以考虑一次量化多个点的向量量化。,信息熵编码 根据信息熵原理,让出现概率大的用短的码字表达,反之用长的码字表示。最常见的方法如Huffman编码、Shannon编码以及算术编码。 子带编码 将图象数据变换到频域后,按频域分带,然后用不同的量化器进行量化,从而达到最优的组合。或者分步渐近编码,随着解码数据的增加,图象逐渐清晰。 模型编码 编码时首先将图
15、象中边界、轮廓、纹理等结构特征找出来,保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图象。具体方法有轮廓编码、域分割编码、分析合成编码、识别合成编码、基于知识的编码、分形编码等。,4.2.4 数据压缩技术的性能指标,压缩比 压缩过程中输入数据量与输出数据量之比,设原图像的平均码长为L,压缩后图像的平均码长为Lc,则压缩比为C=L/Lc 冗余度 编码效率 重现质量 将解码恢复后的图像、声音信号与原图像、声音进行对比。 压缩和解压缩速度 同步、实时 压缩计算量大于解压缩计算量,4.3 无失真图像压缩编码方法,又称为统计编码,它是根据信源符号出现概率的分布特性而进行的压缩编码。 基本思
16、想: 在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。 如Huffman编码、算术编码。,4.3.1 Huffman编码,Huffman定理 在变长编码中,对出现概率大的信源符号赋于短码字,而对于出现概率小的信源符号赋于长码字。如果码字长度严格按照所对应符号出现概率大小逆序排列,则编码结果平均码字长度一定小于任何其它排列方式。 Huffman定理是Huffman编码的理论基础 1952年Huffman提出来的 也称为最优码,平均码长最短,具体编码过程:,1、排序:按符号出现的概率从大到小进行排列。 2、赋值:对最后的两个符号进行赋值,概
17、率大的赋“1”,概率小的赋“0”(反之也成立)。 3、合并:将上述最后的两个符号出现概率相加合成一个概率。 4、重新排序:将合成后的概率与其它符号概率一起进行重新排序(从大到小)。然后重复步骤2的内容,直至最后只剩下两个概率为止。 5、码字分配:从最后一步开始反向进行码字分配,对最后两个概率中较大的赋“1”。对较小的赋“0”(与第二过程中的规定相同)。从而形成一个码字。如下图中虚线所示的方向。,例4-2 假设某符号集X中包含6个符号:S1,S2,S6,各自出现的概率为 X= 试求其哈夫曼编码及其编码效率。 解:1、哈夫曼编码 在图4-6中给出了哈夫曼编码过程,其中设两个符号中较大的为”1”,较
18、小的为”0”.编码结果如表4-1所示。,2、编码效率 根据式(4-5)可求出信源熵: = )=2.56 利用式(4-17)可求出平均码长: =0.22+0.192+0.183+0.173+0.153+0.113=2.61 哈夫曼编码的编码效率 =98.08%,哈夫曼编码的特点,哈夫曼编码所构造的码并不是惟一的,但其编码效率是惟一的。 对不同信源其编码效率是不同的。 实现电路复杂,而且存在误码传播问题。,4.3.2 游程编码,当图像不太复杂时,往往存在着灰度或颜色相同的图像子块。由于图像编码是按顺序对每个相素进行编码的,因而会存在多行的数据具有相同数值的情况,这样可只保留连续相同像素值和像素点数
19、目。这种方法就是游程编码。这里所说的“游程”是指连续串的延续长度。下面以两值图像为例进行说明。 二值图像是指图像中的相素值只有两种取值,即“0”和“1”,因而在图像中这些符号会连续地出现,我们通常将连“0”这一段称为“0”游程,而连“1”的一段则称为“1”游程,它们的长度分别为L(0)和L(1),往往“0”游程与“1”游程会交替出现,即第一游程为“0”游程。第二游程为“1”游程。第三游程又为“0”游程。下面我们以一个具体的二值序列为例进行说明。,二值图像是指图像中的相素值只有两种取值,即“0”和“1”,因而在图像中这些符号会连续地出现,我们通常将连“0”这一段称为“0”游程,而连“1”的一段则
20、称为“1”游程,它们的长度分别为L(0)和L(1),往往“0”游程与“1”游程会交替出现,即第一游程为“0”游程。第二游程为“1”游程。第三游程又为“0”游程。下面我们以一个具体的二值序列为例进行说明。 已知一个二值序列00101110001001,根据游程编码规则,可知其游程序列为21133121。,4.3.3 算术编码,在信源概率分布比较均匀情况下,哈夫曼编码的效率较低,而此时算术编码的编码效率要高于哈夫曼编码,同时又无需向变换编码那样,要求对数据进行分块,因此在JPEG扩展系统中以算术编码代替哈夫曼编码。我们可以将被编码的信息表示成实数轴01之间的一个间隔,这样如果一个信息的符号越长,编
21、码表示它的间隔就越小,同时表示这一间隔所需的二进制位数也就越多。,1、码区间的分割 设在传输任何信息之前信息的完整范围是0,1,算术编码在初始化阶段预置一个大概率p和一个小概率q。如果信源所发出的连续符号组成序列为Sn,那么其中每个Sn对应一个信源状态,对于二进制数据序列Sn,我们可以用C(S)来表示其算术编码,可以认为它是一个二进制小数。随着符号串中“0”,“1”的出现,所对应的码区间也发生相应的变化。,如果信源发出的符号序列的概率模型为m阶马尔可夫链,那么表明某个符号的出现只与前m个符号有关,因此其所对应的区间为C(S),C(S)+L(S) ,其中L(S)代表子区间的宽度,C(S)是该半开
22、子区间中的最小数,而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程,如图4-7所示。,图中假设“0”出现概率为2/3,“1”码出现的概率为1/3,因而L(0)=2/3,L(1)=1/3。如果在“0”码后面出现的仍然是“0”码,这样“00”出现的概率= 2/32/3=4/9 ,即L(00)=4/9 ,并位于图4-7中所示的区域。同理如果第三位码仍然为“0”码,“000”出现的概率= 2/32/32/3 =8/27 ,该区间的范围0,8/27)。,算术编码规则 在进行编码过程中,随着信息的不断出现,子区间按下列规律减小。 新子区间左端= 前子区间左端+当前子区间左端前子区间长度 新子区间长度=前子区间长度当前子区间长度 下面以一个具体例子来说明算术编码的编码过程。,例4-2已知二进制信源分布 ,如果要传输的数据序列为1011,试写出算术编码过程。,解: (1)已知小概率事件q=1/4,大概率事件p=1-q=3/4 (2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 社区专干考试题型及答案
- 社会化营销试题及答案
- 青海遴选考试题库及答案
- 广东省深圳市龙岗区2025-2026学年三年级上学期期末学业测试数学试题(含答案)
- 吉林省吉林市蛟河市2025-2026学年七年级上学期1月期末考试语文试卷(含答案)
- 广东省深圳市龙岗区2024-2025学年上学期八年级地理期末学业质量监测试题(含答案)
- 2026 年初中英语《名词》专项练习与答案 (100 题)
- 车险理赔沟通培训课件
- 帕金森节目题目及答案
- 2026年大学大二(建筑环境与能源应用工程)暖通空调系统设计综合测试题及答案
- 旅居养老可行性方案
- 灯谜大全及答案1000个
- 老年健康与医养结合服务管理
- 中国焦虑障碍防治指南
- 1到六年级古诗全部打印
- 心包积液及心包填塞
- GB/T 40222-2021智能水电厂技术导则
- 两片罐生产工艺流程XXXX1226
- 第十章-孤独症及其遗传学研究课件
- 人教版四年级上册语文期末试卷(完美版)
- 工艺管道仪表流程图PID基础知识入门级培训课件
评论
0/150
提交评论