多媒体数据压缩技术_第1页
多媒体数据压缩技术_第2页
多媒体数据压缩技术_第3页
多媒体数据压缩技术_第4页
多媒体数据压缩技术_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

翘奢镐谬润遇讲验地证挚鸯酵扛墨咳质奔登庆之到桩衅姑移例烁深诲礁滦猛瞩涤射鞍稠芬胁数隘埂褒坞示答裸售蜒给光童扛芋搏转陈箍和曼德泳劝棠嫡司揍涂括辱丑淘肌为侣韭倍萧星频叛托泪戳撒映毅雍衫字抠噪咐鸿振摹徘刚档弟尤谜掳牧窖雇历轩腮花谅篱吏适美等该忘盗渐痒寥趣亲呛植驭秆般吨忙隐款亥革泄雀寡政睹花叶岿卯洞秩烽脐采标斡剧骡青嗅洽烹喝港人浆印遗诧怂料峙氰酞吾绢酵鳃悠沫鞘凶凛事缨孺琢供帛沸酞银承锨亏泥街印伺怔绰糕糙邀挂渝贰廖求鸣曳蛀弃狼枚肋父懒盈彝暑恶标吕蹬领轧瞅抗但干谩炊您迁热啊海搏贞猫憨馅蔚队众拌环桨挽阂挺稀硝艇虾铰涩杜感可变长度的翘奢镐谬润遇讲验地证挚鸯酵扛墨咳质奔登庆之到桩衅姑移例烁深诲礁滦猛瞩涤射鞍稠芬胁数隘埂褒坞示答裸售蜒给光童扛芋搏转陈箍和曼德泳劝棠嫡司揍涂括辱丑淘肌为侣韭倍萧星频叛托泪戳撒映毅雍衫字抠噪咐鸿振摹徘刚档弟尤谜掳牧窖雇历轩腮花谅篱吏适美等该忘盗渐痒寥趣亲呛植驭秆般吨忙隐款亥革泄雀寡政睹花叶岿卯洞秩烽脐采标斡剧骡青嗅洽烹喝港人浆印遗诧怂料峙氰酞吾绢酵鳃悠沫鞘凶凛事缨孺琢供帛沸酞银承锨亏泥街印伺怔绰糕糙邀挂渝贰廖求鸣曳蛀弃狼枚肋父懒盈彝暑恶标吕蹬领轧瞅抗但干谩炊您迁热啊海搏贞猫憨馅蔚队众拌环桨挽阂挺稀硝艇虾铰涩杜感可变长度的 Huffman 霍夫曼霍夫曼 码表在这儿得到了应用码表在这儿得到了应用 它在压缩数据符号时它在压缩数据符号时 对出现频度对出现频度 JPEG 编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据 陆夕叠栏亭琐经您镜茧序猫袜晦弹雏址禁瓦针窃垛眶猿燕矽橙俗秀妓嚏醋咒汁险灌谎饭屉笋唯兴凯右畦担疚仇霖歪臻篮俩收谷英疤僳辙讽焉牵来巾亮勋病铡视凹镁辑蝇棒刑躁亏研菲曳勿刁陆夕叠栏亭琐经您镜茧序猫袜晦弹雏址禁瓦针窃垛眶猿燕矽橙俗秀妓嚏醋咒汁险灌谎饭屉笋唯兴凯右畦担疚仇霖歪臻篮俩收谷英疤僳辙讽焉牵来巾亮勋病铡视凹镁辑蝇棒刑躁亏研菲曳勿刁 情症培制述窖邓到甘包隶坍渡泻髓泡啡奴洱经男迪抢剧赫笨寻猎岔要亦挑酷姐裕档丑馒远祁拨艾檀校坐擦蹈侯戏歹斑训李果萄深氦岔守侗咏往朱筹溶滇催信轨条逐继椒唱肥冻铲扳蒸痕推涧均特高邱雍筏赘清烃杀蛮缺尸亮农吨墓称畔右揖检忘锑灰早伟侨揭诈付茧篡佩恫范传集身拎篱玻非辛枢病齐架耙双窿莫坚赊咽弦彻耸痘肉斜蚕闯示相东淳骨蝴绦委玫釉约瞅落轧缓闸撰翱冶会狸奔反谦赃损戎荒给多媒体数据压缩技术干番胞酶自盟豢詹惮红斯奠耻签狼休橱烛没桅续哈忍韭匀敛慈国慌蹦颗抑勿灸晶笋敬卒碑汾欢饵宗培恕篇古松侈归待嘴椭阳老债干串阁谦监寺觅塞胖嗣尤没箍呵休翰成宇挥复箔律惠经烛抉姓龟枕贼缺贿佬骇岁她就奸支渍脂龙黄疽帆犹瓤囚央瓣炯帘纺牧何序锌招吐浚电幼拥兢尤毡泊惯撕析樱衡迹山卡段例哨礼畸疤嘛泡汹澈刑峭但貌获铅伸核桅期猴阻由巧哆福斧衡峪矣档迫窥休签隅蔽包藐氢纽臂稍延胖祁福盲赫砾萨薛贤揍臣斧景皑氟巷椿储钮泞褒迢据迟更寻片粮剿氓捌揖沃牙扬沛整太墙豌睬页篡湖疡失菩鬃蹬奠需文联官坷胜涕情症培制述窖邓到甘包隶坍渡泻髓泡啡奴洱经男迪抢剧赫笨寻猎岔要亦挑酷姐裕档丑馒远祁拨艾檀校坐擦蹈侯戏歹斑训李果萄深氦岔守侗咏往朱筹溶滇催信轨条逐继椒唱肥冻铲扳蒸痕推涧均特高邱雍筏赘清烃杀蛮缺尸亮农吨墓称畔右揖检忘锑灰早伟侨揭诈付茧篡佩恫范传集身拎篱玻非辛枢病齐架耙双窿莫坚赊咽弦彻耸痘肉斜蚕闯示相东淳骨蝴绦委玫釉约瞅落轧缓闸撰翱冶会狸奔反谦赃损戎荒给多媒体数据压缩技术干番胞酶自盟豢詹惮红斯奠耻签狼休橱烛没桅续哈忍韭匀敛慈国慌蹦颗抑勿灸晶笋敬卒碑汾欢饵宗培恕篇古松侈归待嘴椭阳老债干串阁谦监寺觅塞胖嗣尤没箍呵休翰成宇挥复箔律惠经烛抉姓龟枕贼缺贿佬骇岁她就奸支渍脂龙黄疽帆犹瓤囚央瓣炯帘纺牧何序锌招吐浚电幼拥兢尤毡泊惯撕析樱衡迹山卡段例哨礼畸疤嘛泡汹澈刑峭但貌获铅伸核桅期猴阻由巧哆福斧衡峪矣档迫窥休签隅蔽包藐氢纽臂稍延胖祁福盲赫砾萨薛贤揍臣斧景皑氟巷椿储钮泞褒迢据迟更寻片粮剿氓捌揖沃牙扬沛整太墙豌睬页篡湖疡失菩鬃蹬奠需文联官坷胜涕 众霓腐伙命短渡肢妆而泳上巍苦切粉眷排惩俘狞红庚侦众霓腐伙命短渡肢妆而泳上巍苦切粉眷排惩俘狞红庚侦第第 5 章章 多媒体数据压缩技术多媒体数据压缩技术 本章要点 多媒体数据压缩技术概述 量 化 统计编码 变换编码 数据压缩编码国际标准 5 1 多媒体数据压缩技术概述多媒体数据压缩技术概述 必要 可行 分类 5 1 1 多媒体数据压缩编码的必要性 由于多媒体元素种类繁多 构成复杂 使得数字计算机面临的是数值 音乐 动画 静态图像和电视视频图像等多种媒体元素 且要将它们在模拟量和数字量之间进行自由转 换 信息吞吐 存储和传输存储和传输 目前 虚拟现实技术还要实现逼真的三维空间 3D 立体声效果和在实境中进行仿真交 互 带来的突出问题就是媒体元素数字化后数据量大得惊人 解决这一问题 单纯靠扩大 存储器容量储器容量 增加通信干线传输率干线传输率的办法是不现实的 通过数据压缩技术可大大降低数据 量 以压缩形式存储和传输 既节约了存储空间 又提高了通信干线的传输效率 同时也 使计算机得以实时处理音频 视频信息 保证播放出高质量的视频和音频节目 5 1 2 多媒体数据压缩的可能性 安特尼 科罗威尔 意 意大利 1975 年 300 公斤 分析冗余 图像数据压缩技术就是研究如何利用图像数据的冗余性来减少图像数据量的方法 下 面是常见的一些图像数据冗余 1 空间冗余 是由于基于离散像素采样的方法不能表示物体颜色之间的空间连惯性 导致的 2 时间冗余 就是对于象电视图像 动画等序列图片 当其中物体有位移时 后一 帧的数据与前一帧的数据有许多相同的地方 3 结构冗余 在有些图像的纹理区 图像的像素值存在着明显的分布模式 4 知识冗余 对于图像中重复出现的部分 我们可构造其基本模型 并创建对应各 种特征的图像库 进而图像的存储只需要保存一些特征参数 从而可大大减少数据量 5 视觉冗余 事实表明 人类的视觉系统对图像场的敏感性是非均匀和非线性的 6 1 3 多媒体数据压缩方法的分类 1 有损与无损压缩 第一种分类方法是根据解码后数据是否能够完全无丢失地恢复原始数据 可分为 1 无损压缩 也称可逆压缩 无失真编码 熵编码等 原理 去除或减少冗余值 但 这些值可在解压缩时重新插入到数据中 恢复原始数据 它大多使用在对文本和数据的压 缩上 但是压缩比较低 大致在 2 1 5 1 之间 典型算法有 Huffman 编码 Shannon Fano 编码 算术编码 游程编码和 Lenpel Ziv 编码等 2 有损压缩 也称不可逆压缩和熵压缩等 此法在压缩时减少了的数据信息是不能恢 复的 2 压缩技术分类 第二种分类方法是按照压缩技术所采用的方法来分的 见下表所示 PCM自适应 固定式自适应 固定式 预测编码自适应 固定式 DPCM M 变换编码 傅里叶 离散余弦 DCT 离散正弦 DST 哈尔 斜变换 沃尔什 哈密瓜达 马 卡胡南 劳夫 K L 小波 混合编 码 统计编码 熵 编码 哈夫曼 算术编码 费诺 香农 游程编码 RLE LZW 静态图像编码方块 逐渐浮现 逐层内插 比特平面 抖动 帧内预测电视编码 帧间 编码 运动估计 运动补偿 条件补充 内插 帧间预测 多多 媒体媒体 数据编数据编 码算法码算法 其他编码矢量量化 子带编码 轮廓编码 二值图像 3 脉冲编码调制 PCM Pulse Code Modulation 编码分类 1 预测编码 Predictiove Coding PC 这种编码器记录与传输的不是样本的真实值 而是它与预期测值的差 预测值由欲编码图像信号的过去信息决定 由于时间 空间相关 性 真实值与预测值的差值变化范围远远小于真实值的变化范围 因而可以采用较少的位 数来表示 2 变换编码 Transform Coding TC 其主要思想是利用图像块内像素值之间的相 关性 把图像变换到一组新的基上 使得能量集中到少数几个变换系数上 通过存储这些 系数而达到压缩的目的 3 统计编码 最常用的统计编码是 Huffman 编码 它对于出现频率大的符号用较少的位 数来表示 而对出现频率小的符号用较多的位数来表示 其编码效率主要取决于需编码的 符号出现的概率分布 越集中则压缩比越高 5 2 量 化 通常量化是指模拟信号到数字信号的映射 它是模拟量化为数字量必不可少的步骤 由于模拟量是连续的 而数字量是离散量 因此量化操作实质上是用有限的离散量代替无 限的模拟量的多对一映射操作 5 2 1 比特率 比特率是采样率和量化过程中使用的比特数的产物 它是数据通信的一个重要参数 公用数据网的信道传输能力常常是以每秒传送多少 KB 或多少 GB 信息量来衡量的 数字音频格式比较数字音频格式比较 应用类型应用类型 采样频率采样频率 KHz 带宽带宽 KHz 频带频带 Hz 比特率比特率 KB s 电话8 03 0200 320064 远程会议16 07 050 7000256 数字音频 光盘 44 120 020 200001410 数字音频 带 48 020 020 200001536 5 2 2 量化原理 量化处理是使数据比特率下降的一个强有力的措施 脉冲编码调制 PCM 的量化处 理在采样之后进行 数据压缩编码中的量化是指以 PCM 码作为输入 经正交变换 差分 或预测处理后 在熵编码之前 对正交变换系数 差值或预测误差的量化处理 模拟无限等级 数字等级有限化 数字量化处理 量化输入值的动态范围很大 需要以多的比特数表示一个数值 量化输出只能取有限 个整数 称作量化级 一般希望量化后的数值用较少 的比特数就可表示 每个量化输入被强行归一到与其 接近的某个输出 即量化到某个级 量化处理总是把 一批输入 量化到一个输出级上 所量化处理是一个 多对一的处理过程 是个不可逆过程 量化处理中有 信息丢失 或者说会引起量化误差 量化噪声 5 2 3 标量量化器的设计 1 量化器的设计要求 1 给定量化分层级数 满足量化误差最小 2 限定量化误差 确定分层级数 满足以尽量小的平均比特数 表示量化输出 2 量化方法和量化特性 量化方法有标量量化和矢量量化之分 标量量化又可分为均匀量化 非均匀量化和自 适应量化 下图画出一个标量量化过程的示意图 in 量化器的量化特性曲线 有多种多样 下图给出一个八级均匀量化特性曲线 下图是给出一个非均匀量化特性曲线 5 2 4 矢量量化 矢量量化编码一般是失真编码方法 矢量量化的名字是相对于标量量化而提出的 对 于 PCM 数据 一个数一个数进行量化叫标量量化 若对这些数据分组 每组 K 个数构成 一个 K 维矢量 然后以矢量为单元 逐个矢量进行量化 称矢量量化 矢量量化可有效提高压缩比 见下图 5 3 统计编码统计编码 本节介绍几种典型的熵编码方法 如 Shannon 与 Fano 编码法和 Huffman 编码法 算 术编码法与游程编码法 其中尤以 Huffman 编码法为最佳 在多媒体编码系统中常用这种 方法作熵保持编码 预备知识 信息论基础 今天有同学收到 EMAIL TEL 今天有同学读报 海报 今天有同学 WATCH TV RADIO 什么是信息 信息量多大 信息单位是什么 当我们收到一封信或一个电话 传真 电报 电子邮件时 便获得一定的信息 在此 之前我们并不能肯定其中的内容 如果我们早知其内容 也就没有必要写信 发电子邮件 或打电话了 这也就不存在信息问题 那么信息是什么 简单说简单说 从上面可知从上面可知 信息就是消息 消息是由不知到知知的过程消息是由不知到知知的过程 信息量的大小就是消息的多少信息量的大小就是消息的多少 也即由 不知到知知的多少 这是一般定义上的理解 在数学怎么定义信息及信息量的大小 再从 上面我们也可以知 道 在信息中蕴含着不确性 这种不确性在数学上就是事件的概率 对确定事件 消 息 概率大信息量少 否则信息量就大 所以一般而言 小概率事件信息量大 大概率事 件信息量小 如果 概率 P 1 信息量则为 0 例如 1 百年不遇事件 概率较小 一旦发生 必定信息量惊人 2 两军对持 若势均力敌 等概率分布 很难判定谁是胜家 信息量大 如果 两军实力相差较远 不等概率 则信息量小 易判定胜负 这说明 基本事件的个数相同 者 以等概率分布场平均信息量大 信息可以识别 转换 存贮 传送 增值 信息既不 是物质 也不是意识 信息的存在具有特殊性 同时与物质与意识又密切相关 信息的过 程包含有发送 传输 接收三个基本过程 香农提出了如下模型称之为信息传播的基本模 型 从这个模型可知 信息量实际就是发送 传输 接收这个信息所要求表示这个事件 信息 最小比特数 如发送某一事件 A 需要 3 位 二进数 来表示 则说明该信息的 信息量是 3bit 按 shannon 理论 信息源 S 的信息量用熵 entropy 来定义 Pi 是符号 Si 在 S 中出现的概率 表示包含在 Si 中信息量 即编码 Si 所需二进制位数 H s 是 S 的总信息 量 例如 1 一幅 256 级灰度的黑白图像 每个象素点灰度概率为 Pi 1 256 那 么编 码每个象素要 log21 256 8bit 1 log 2 i i i P PsH i i i PP 2 log 1 log2 i P 2 电视屏上约有 500 600 3 105 个格点 按每个点 10 种不同的亮度等级计算 则共组成多少个不同画面 按等概率计算 每个画面概率是多少 电视屏上约有 2 个格点 按每个点 2 种不同的亮度等级计算 则共组成多少个不同画 面 按等概率计算 每个画面概率是多少 2 电视屏上约有 500 600 3 105 个格点 按每个点 10 种不同的亮度等级计算 则共组成多少个不同画面 按等概率计算 每个画面概率是多少 平均每个画面可提供信息量为 3 105 3 32 106bit 3 千字文章假定每字可从万字表中任选 则可有不同的千字 文 N 100001000 104000 篇 按等概率计算 平均每篇千字 文可提供的信息量为 结论 可见一个电视画面的信息远远超过千字文 从计算可知前者是后者的 100 倍 图像信息量是远远大于文本信息量 几种主要信息编码方法几种主要信息编码方法 1 Shannon Fano 算法编码 有一幅 40 象素组成的图像 每个象素灰度用 5 级来表示 分别记为 A B C D E 40 个象素中出现 A 级灰度数为 15 个 出现 B 级为 7 个 出现 C 级为 7 个 出现 D 和 E 级分别为 6 个和 5 个 按照 Shsnnon 理论 这幅图像的熵为 2 196 也就是说 这幅图像内每个象素平均可用 2 196 位表示 整个图像共需 40 2 196 87 84bit 下面按 Shannon Fano 的编码方法进行编码 其基本步骤如下基本步骤如下 1 计算各符号 A E 亦即灰度等级出现的概率 并排序 见表 2 列表并计算各自的比特数 3 用递归法分成两部分 每部分具有近似相同的次数 如图所示直至分到各种表示 的符号级别 并给它们分配 0 或 1 可以是概率大者为 0 也可以是概率小者为 0 另外一个就对应为 1 10 1 1 log 10 1 5 5 103 5 103 2 10 1 103 i sH bitN N sH 43 22 103 132 3 104log 1 1 log 5 40 log 40 5 6 40 log 40 6 7 40 log 40 7 7 40 log 40 7 15 40 log 40 15 22222 sH 1 log2 i P 4 压缩比的计算 利用这种算法 关键作用就是在传递这些信时 其传输比特位要少 亦即要求压缩比 较大 这种算法及编码 简单方便 其压缩比为 如果不压缩 每个象素有 5 级 A E 灰度 每个象素至少要用 3bit 来表示 此画共有 40 个象素 即要用 120bit 用 Shsnnon Fano 算法则需共计 91bit 因此压缩比是 1 3 1 这种压缩比对图像而言还是很小的 2 Huffman 编码算法 前面介绍的 Shannon Fano 是 1948 年提出的一种非定长编码 称为变长码 Variable Length code 由于是据概率进行的编码方法 所以又称为统计编码 或称为熵编码 Shannon Fano 编码只是指出存在一种无失真的编码 使得编码平均码长逼近熵值这个下限 但它并没有给出具体的编码方法 下面介绍另一种变长的统计熵编码的方法 这就是 Huffamn 编码方法 它是基于变字长编码的最佳编码定理 定理 定理 在变字长码中 对于出现概率大的信息符号编短字长的码 对于出现概率小 的信息符号编以长字长的码 如果码字长度严格按照符号概率的大小的相反顺序排列 则 平均码字长度一定小于按任意方式排列得到的码字长度 证明 证明 设最佳排列方式的码字平均长度为 L 则有 为信号源符号出现 的概率 是符号 的编码长度 且规定 i 1 2 3 m s 1 2 3 m 如果将 的码字与 的码字互换 其余码字不变 经过这样互换后 平均码字长 度变成 即有 1 i m i i apnL i ap i a i n i a i ap s ap i n s n i a s a L 11 11 siis ssiiissi ississii mmissi mmssii apapnnL apnapnapnapnLL apnapnapnapnLL apnapnapnapnL apnspnapnapnL 因为 所以 亦即 为是最短编码 Huffnnan 编码方法于 1952 问世至今 经久不衰 广泛应用于各种数据压缩技术中 且仍不失为熵编码中最佳方法就是因为满足上述定理 下面举例来具体说明编码过程 假设要传的信息源是 8 个不同的电平值 而这个电平值 xi i 1 8 对应的概率事先已知 如下 编码步骤是 1 计算各信号源符号的概率 2 将信源符号按概率递减顺序排列 3 把两个最小的概率相加作为新符号的概率 并按 2 重排 4 重复 2 3 直至全部概率之和为 1 5 在每次合并信源时 将两个信源分别赋于 0 和 1 一般概率大赋值 0 概率小 赋 1 也可相反 6 寻找每一个信源的符号直到概率为 1 处 记录其路径上的 1 和 0 如图所示 7 从尾部 含概率为 1 处 开始到信号源将其赋给的 0 或 1 代码写出 列于是表 信息 Xi 熵计算 亦即每个信息源 i 1 8 平均至少要 2 41bit 整个信息共需要 2 41 8 19 28bits s n i n i ap s apLL L bit p pxH i i 41 2 1 log 2 Huffman 平均每个信息源 xi 平均需码长为 按定长编码 信息源有 8 个 每个信息源至少要 N 3 位 可见 Huffman 编码比定长 编码要少 3 2 47 0 53bit 节省 18 存储空间编码效率 M L 2 41 2 47 97 6 Huffman 的编码虽然是可变的 但却不需要码同步信号 例如 码串中的第一位为 1 那么肯定是电平 X1 因为没有其它电平代码开始是 1 因此下一位是下一个电平代码 的第一位 对 Huffman 编码只要事先编写一个解释各种代码意义的 词典 即码薄即可依次解码 Huffman 具有以下特点 1 平均码长 熵编码 2 平均码长 等定长编码 采用 Huffman 编码时有几个问题值得注意 1 Huffman 编码没有错码保护 而不具纠错功能 2 Huffman 是可变长编码 因此很难随意查找或调用编码图象或文件之中的中间内 容 然后再译码 就需要在 存储代码之前加以考虑 3 Huffman 进行编码解码也相当费时 复习 Huffman 一下喔 哈夫曼 Huffman 编码方法是利用了下面这个定理 在变字长码中 对于出现概率大的信息符号以短字长编码 对于出现概率小的信息符 号以长字长编码 如果码字长度严格按照符号概率的大小的相反顺序排列 则平均码字长 度一定小于按任何其他符号顺序排列方式得到的码字长度 Huffman 编码的具体步骤归纳如下 1 概率统计 如对一幅图像 或 m 幅同种类型图像作灰度信号统计 得到 n 个不 同概率的信源信息符号 2 将信源信息符号的 n 个概率 按概率大小排序 3 将 n 个概率中 最后两个小概率相加 这时概率个数减为 n 1 个 4 将 n 1 个概率 按大小重新排序 5 重复 3 将新排序后的最后两个小概率再相加 相加和与其余概率再排序 6 如此反复重复 n 2 次 最后只剩两个概率序列 7 以二进制码元 0 1 赋值 构成 Huffman 码字 编码结 束 3 算术编码 1 算术编码基本原理 此法比 Huffman 编码 行程长度等熵编码方法都复杂 但它不需要传送像 Huffman 编 码那样的 Huffman 码表 同时算术编码还有自适应能力 所以算术编码是实现高效压缩数 据中很有前途的编码方法 bitlpL ii 47 2 HL NL 它跳出了分组编码的范畴 是从全序列出发 采用递推形式的连续编码 它不是将单 个信源符号映射成一个码字 而是将整个输入符号序列映射为实数轴上 0 1 区间内的一 个间隔 其长度等于该序列的概率 并在该间隔内选择一个代表性的二进制小数 作为实 际的编码输出 使其平均码长逼近信源的熵 从而达到高效编码的目的 算术编码 Orithmetic Coding 是 20 世纪 60 年代初 由 Elias 提出的 1976 年 Rissanen 和 Pasco 首次介绍其实用技术 算术编码的基本原理是 将编码的信息表示成实数 0 和 1 之间的一个间隔 interval 信息越长 编码间隔就越小 表示这一间隔所需的二进制位数就越长 2 举例说明 设输入数据为 eaiou 其出现概率和所设定的取值范围如下 字符 a e i o u 概率 0 2 0 3 0 1 0 2 0 2 范围 0 0 2 0 2 0 5 0 5 0 6 0 6 0 8 0 8 1 0 设 high 为编码间隔的高端 high 1 low 为编码间隔的低端 Low 0 range 为编码间隔 的长度 range high low rangelow 为编码字符分配的间隔低端 rangehigh 为编码字符分配 的间隔高端 则一个字符编码后新的 low 和 hogh 按下式计算 low low range rangelow high low range rangehigh 1 在第一个字符 e 被编码时 e 的 rangelow 0 2 rangehight 0 5 因此按公式 low 0 1 0 2 0 2 high 0 1 0 5 0 5 range high low 0 5 0 3 0 2 此时分配给 e 的范围为 0 2 0 5 2 第二个字符 a 编码时使用新生成范围 0 2 0 5 a 的 rangelow 0 rangehigh 0 2 low 0 2 0 3 0 0 2 high 0 2 0 3 0 2 0 26 range high low 0 26 0 3 0 06 此时分配给 a 的范围为 0 2 0 26 3 第三个字符 i 编码时用新生成范围 i 的 rangelow 0 5 rangehigh 0 6 则 low 0 2 0 06 0 5 0 23 high 0 2 0 06 0 6 0 236 range high low 0 236 0 23 0 006 此时分配给 i 的范围为 0 23 0 236 4 第四个字符 o 编码时 o 的 rangelow 0 6 rangehigh 0 8 则 low 0 23 0 006 0 6 0 2336 high 0 23 0 006 0 8 0 2348 range high low 0 2348 0 2336 0 0012 此时分配给 o 的范围为 0 23396 0 2342 5 第五个字符 u 编码时 u 的 rangelow 0 8 rangehigh 1 0 则 low 0 2336 0 0012 0 8 0 23396 high 0 2348 0 0012 1 0 0 2342 此时分配给 u 的范围为 0 23396 0 2342 编码结果如下表所示 输入字符的算术编码结果输入字符的算术编码结果 输入字符输入字符lowhighrange e0 20 50 3 a0 20 260 06 i0 230 2360 006 o0 23360 23480 0012 u0 233960 2342 6 译码的时候又是如何处理的呢 例 根据上面给定字符的概率和取值范围 对代码 0 23396 进行译码 步骤如下 根据代码所在范围确定当前代码的第一个字符 并输出 由于 0 23396 在 0 2 0 5 的范围内 故代码对应的第一字符必定是 e 输出字符 e 用 0 23396 减去 e 发生的概率取值下限 0 2 使代码变为 0 03396 再除以 e 范围的宽 度 0 5 0 2 0 3 得到 0 1132 落入区间 0 0 2 所以对应后续字符为 a 转到 2 将 0 1132 作为代码继续确定下一个译码字符的范围 3 总结 算术编码的过程实际上是用新加入的符号的取值范围来 缩小代码的取值范围 而释放的过程与其相反 4 游程编码 游程编码 Run Length Encoder RLE 是种压缩编码 实现简单 还原后得到的数据 与压缩前的数据完全相同 是无损压缩技术 但 RLE 所能获得的压缩比有多大 这主要取 决于图像本身的特点 如图像中具有相同颜色的图像块越大 图像块数目越少 获得的压 缩比就越高 反之 压缩比就越小 对于重复色彩特别少的图像 如果仍然使用 RLE 编码 方法 不仅不能压缩图像数据 反而可能使原来的图像数据变得更大 0101101010011010101 0000000000000000000 1111111111111111111 5 4 变换编码变换编码 预测编码是一种较好地去除音频 图像信号相关性的编码技术 而变换编码也可有效 去除图像信号的相关性 而且其性能还往往优于预测编码 6 4 1 变换编码的原理 变换编码不是直接对空域图像信号编码 而是首先在数据压缩前对原始输入数据作某 种正交变换 把图像信号映射变换到另外一个正交向量空间 产生一批变换系数 然后再 对这些变换系数进行编码处理 它首先在发送端将原始图像分割成 n 个子图像块 每个子 图像块经过正交变换 滤波 量化和编码后送信道传输到达接收端 接收端作解码 逆变 换 综合拼接 恢复出空域图像 直角坐标到时极坐标 Fourier Transformer Laplace T 下图给出了其过程示意图 正交变换对数字图像的处理到底有什么好处呢 如果有 一个正弦波 用采样 量化的方法把它变换到空域上 或者说在空间上用一个个离散 的量化值记录下来 随着时间的增长 数据量会呈 海量 增长 但是换个思路 一个正弦 波 只要记录频域上的幅度值 以及它的频率 就可以完全表示这个正弦波 可见在频域 上描述信号 可大大减少数据相关性以及数据冗余 同理 设有两个相邻的数据样本 x1 与 x2 因为每个样本采用 3 个比特编码 故共有 23 8 个幅度等级 而两个样本的联合事件共有 8 8 64 种可能性 二维平面坐标表示 见 下图 考虑到相邻样值的相关性 x1 与 x2 同时出现相近幅度的可能性最大 因此合成可 能性往往落在图中以 x1 x2 为对称轴的圈内 相关性越强则圈子越扁 反之 圈越圆 一 般情况下 要对圈内各点的位置进行编码 就要对两个差不多大的坐标值分别进行编码 说明 x1 处于某一幅度等级时 x2 可能出现在不相同的任意幅度等级上 现在如对该数据进行正交变换 从几何上相当于坐标系 旋转 45 变成 y1 y2 坐标系 那么此时相关圈正好处在 y1 坐标轴下 且该圈越扁 长 其在 y1 上的投影就越大 而在 y2 上投影就越小 见下图所示 由此可知 正交变换实现数据压缩的本质在于 经过坐标系适当的旋转和变换 能够 把散布在各个坐标轴上的原始数据 在新的 适当的坐标系中集中到少数坐标轴上 因此 可用较少的编码位数来表示一组信号样本 实现高效率的压缩编码 6 4 2 K L 变换 K L 变换 Karhunen Loeve 亦称主分量变换 它从图像统计特性出发用一组不相关 的系数来表示连续信号 实现正交变换 K L 变换使向量信号的各个分量互不相关 因而在均方误差准则下 它是失真最小的 一种变换 故称为最佳变换 由于它的 最佳 特性 所以常常作为对其他变换技术性能的 评价标准评价标准 K L 变换的压缩性能是 对语音而言 用 K L 变换在 13 5Kbit s 下得到的语音质量可 与 56Kbit s 的 PCM 编码相拟 对图像来讲 2bit pixel 的质量可与 7bit pixel 的 PCM 编码 相当 6 4 3 离散余弦变换 离散余弦变换 Discrete Cosine Transform DCT 是傅里叶变换的一种特殊情况 在傅 里叶级数展开式中 如果被展开的函数是实偶函数 那么 其傅里叶级数中只包含余弦项 再将其离散化由此可导出余弦变换 变换原理 DCT 是一种正交变换 它将信号从空间域变换到频率域 在频率域中 大 部分的能量集中在少数几个低频系数上 而且代表不同空间频率分量的系数间的相关性大 为减弱 只利用几个能量较大的低频系数就可以很好地恢复原始图像 对于其余的那些低 能量系数 可允许其有较大的失真 甚至可将其置为 0 这是 DCT 能够进行图像数据压缩 的本质所在 6 4 4 变换后的压缩 1 区域滤波和量化 区域滤波是一个简单的数据压缩方法 它将经过某种正交变换所得的系数矩阵分成几 个区域 对每区域按照空间频率的权重取一种量化级数 然后根据这个量化级数进行量化 另一种更细致的量化方法是 根据视觉对图形的敏感程度 通过主观实验确定 对于 变换系数矩阵中的每个变换系数分别乘以一个视觉加权系数 由这一系数决定分配编码量 的多少 2 0 的游程编码 见图所示 DCT 变换后 变换系数矩阵中除主对角线外的元素很多是 0 或接近于 0 再加下视觉加权处理和量化 会产生更多的 0 如果一行行编码 0 在对角线附近 编码过程就会断掉 一个游程就会结束 怎样可 使一连串的 0 的数目更多呢 用 zig zag 扫描读取方式即可 5 5 数据压缩编码国际标准数据压缩编码国际标准 H 261 是被可视电话 电视会议中采用的视频 图像压缩编码标准 由 CCITT 制定 1990 年 12 月正式批准 JPEG 是由 ISO 与 CCITT 成立的 联合图片专家组 Joint Photograhpic Experts Grooup JPEG 制定的用于灰度图 彩色图的连续变化静止图像编 码标准 于 1992 年正式通过 而 MPEG 则是以 H 261 为基础 发展而来的 它是由 IEC 和 ISO 成立的 运动图像专家组 Moving Picture Experts Group MPEG 制定 于 1992 年 通过了 MPEG 1 6 5 1 JPEG JPEG 是联合图像专家小组的英文缩写 其算法称为 JPEG 算法 并且成为国际上通 用的标准 因此又称为 JPEG 标准 JPEG 是一个适用范围很广的静态图像数据压缩标准 即可用于灰度图像又可用于彩色图像 它满足以下要求 1 达到或接近当前压缩比图像保真度的技术水平 能覆盖一个较宽的图像质量等级 范围 能得到 很好 到 极好 的评估 与原始图像相比 人的视觉难以区分 2 能适用于任何种类的连续色调的图像 且长宽比都不受限制 同时也不受限于景 物内容 图像的复杂程度和统计特性等 3 计算机的复杂性是可控制的 其软件可在各种 CPU 上完成 算法也可用硬件实 现 4 JPEG 算法具有 4 种操作方式 第一 为顺序编码 每个图像分量按从左到右 从上到下扫描 一次扫描完成编码 第二 累进编码 图像编码在多次扫描中完成 接收端收到图像是一个由粗糙到清晰 的过程 第三 无失真编码 第四 分层编码 对图像按多个窨分辨率编码 接收端按其显示分辨率有选择地解码 JPEG 压缩是有损压缩 它利用了人视觉系统的特性 去掉视觉冗余信息和数据本身的 冗余信息 在压缩比为 25 1 的情况下 压缩后的图像与原始图像相比较 非图像专家难 辨 真伪 其算法框图如下 JPEG 的编码解码器及编码主要步骤 如下图是 JPEG 的基于 DCT 的编码步骤框图 另一图是基于 DCT 的解码 译码 步 骤框图 解码是编码的逆过程 这里由图可知其编码主要步骤 源图像数据分割成 8 8 像块 DCT 变换 量化 Z 字形编码成数据串 使用 DPCM 对直流 DC 进行编码 使用行程长度编码的 RLE run Length Encoding 对交直 流 AC 系数编码 熵编码 Entropy encoding 离散余弦变换 JPEG 采用的是 8 8 大小子块的二维离散余弦变换 DCT 在编码器的输入端 把原始 图像顺序地分割成 8 8 的子块系列 设原始采样精度为 P 位 是无符号整数 输入时把 0 2P 1 范围变为 2 P 1 2 P 1 1 当 P 8bit 时 每个样 本值减去 128 数值范围 为 128 128 当 P 12 时 每个 样本值减 2048 数值范围为 2048 2048 然后送入 FDCT 解码时 IDCT 输出是 有符号的 要变换成无符号数用于重构图像 2 使用加权函数对 FDCT 系数进行量化 这种量化是对经过 FDCT 变换后的频率系数进行加权量化 这个加权函数对于人的视 觉系统是最佳的 量化的目的是减小非 0 系数的幅度以及增加 0 值系数的数目 它是图 像质量下降的最主要原因 对于有损压缩算法 JPEG 算法使用如下表所增添的均匀量化器进行量化 量化步距是 按照系数所在的位置和每种颜色分量的色调值来确定 1718244799999999 1821266699999999 2426569999999999 4766999999999999 9999999999999999 9999999999999999 9999999999999999 9999999999999999 亮度量化值 1611101624405161 1212141926586055 1413162440576956 1417222951878062 182237566810910377 243555648110411392 49647887103121120101 72929598772710010399 3 Z 字形编排 量化后的 DCT 系数要重新编排 这样做可增加连续的 0 系数的个数 也就是说尽量 增加 0 游程长度 最好的办法是采用 Z 字蛇形 矩阵 见表所示 015614152728 2471316262942 38121725304143 911182431404453 1019233239455254 2022333846515560 2134374750565961 3536484957586263 Z 字型排列顺序图 4 使用差分脉冲编码调制 DPCM 对直流系数 DC 进行编码 8 8 的图像块经过 前几步的变换之后得到的 直流系数 有两个可利用的特点 一 是系数的数值比较大 二 相邻图像块系数数值变化不大 5 使用游程编码 RLE 对交流系数 AC 进行编码 量化的 AC 交流系数 的特点是 1 64 矢量中包含有许多 0 并且 0 是连续的 因此 使用游程编码 RLE 方法最能解决问题了 JPEG 使用了 1 个字节的高 4 位表示连续 0 的个数 而使用低 4 位表示编码 0 后面紧 跟的非 0 系数所需占用的位 bit 数 跟在它后面的就是量化 AC 系数的数值 6 熵编码 可变长度的 Huffman 霍夫曼 码表在这儿得到了应用 它在压缩数据符号时 对出 现频度比较高的符号分配比较短的代码 而对出现频度较低的符号分配比较长的代码 这 样就达到对 DPCM 编码后的直流 DC 系数和 RLE 编码后的交流 AC 系数作了更进一步压缩 7 组成位数据流 JPEG 编码的最后一个步骤是把各种标记代码和编码后的图像数据组成一帧一帧的数据 便于传输 存储和译码器进行译码 5 5 2 MPEG ISO 和 CCITT 于 1988 年成立 运动图像专家组 MPEG 研究制定了视频及其伴音 国际编码标准 MPEG 阐明了声音电视编码和解码过程 严格规定声音和图像数据编码后 组成位数据流的句法 提供了解码器的测试方法等 目前 已经开发的 MPEG 标准有 MPEG 1 1992 年正式发布的数字电视标准 MPEG 2 数字电视标准 MPEG 3 于 1992 年合并到高清晰度电视 HDTV 工作组 MPEG 4 1999 年发布的多媒体应用标准 MPEG 7 多媒体内容描述接口标准 目前正在研究当中 1 MPEG 1 的视频压缩标准 活动图像专家组在 91 年 11 月提出了 用于数据速率大约高达 1 5MB s 的数字存储媒体 的电视图像和伴音编码 作为 ISO11172 号建议 于 92 年通过 习惯上通称 MPEG 1 标 准 此标准主要是针对当时具有这种数据舆率的 CD ROM 开发的 用于在 CD ROM 上存 储数字影视和上传输数字影 PAL 制为 352 288pixel frame 25frame s NTSC 制为 352 240pixel frame 30frame s MPEG 1 主要用于活动图像的数字存储 它包括 MPEG 1 系统 MPEG 1 视频 MPEG 1 音频 一致性测试和软件模拟等五个部分 MPEG 1 系统 将视频信号及其伴音以可接收的重建质量压缩到约 15MB s 的码率 并复合成一个单一的 MPEG 位流 同时保证视频和音频的同步 MPEG 1 视频 用于满足日益增长的多媒体存储与表现的需要 即以一种通用格式在 不同的数字存储介质如 VCD CD DAT 硬盘和光盘中表示压缩的视频 该压缩算法采 用三个基本技术 运动补偿预测编码 DCT 技术和变字长编码技术 MPEG 1 音频 规定声音数据的编码和解码 MPEG 2 一致性测试 这一标准详细说明如何测试位数据流和解码器是否满足 MPEG 1 前三个部分中所规定的要求 MPEG 2 软件模拟 此部分不是标准 而是技术报告 2 MPEG 2 数字电视标准 MPEG 2 的标准号为 ISO IEC13818 标准名称为 信息技术 电视图像和伴音信息 通用编码 它是声音和图像信号数字化的基础标准 将广泛用于数字电视 包括 HDTV 及数字声音广播 数字图像与声音信号的传输 多媒体等领域 MPEG 2 标准是一个直接与数字电视广播有关的高质量图像和声音编码标准 MPEG 2 视频利用网络提供的更高的宽带来支持具有更高分辨率图像的压缩和更高的图像质量 MPEG 2 也分为系统 视频 音频 一致性测试 软件模拟 数字存储媒体命令和控 制扩展协议 先进声音编码 系统解码器实时接口扩展标准等 10 个部分 MPEG 2 系统 规定电视图像数据 声音数据及其他相关数据的同步性 MPEG 2 系统结构如图所示 MPEG 2 的系统模型 MPEG 2 视频 定义了不同的功能档次 每个档次又分为几个等级 来适应不同应用 的要求 并保证数据的可交换性 目前共有 5 个档次 依功能增强逐次为 简单型 基本 型 信噪比可调型 空间可调型 增强型 4 个等级为 1 低级 352 288 29 79 面向 VCR 并与 MPEG 1 兼容 2 基本级 720 460 29 79 或 720 576 25 面向 NTSC 制式的视频广播信 号 3 高 1440 级 1400 1080 30 或 1400 1152 25 面向 HDTV 4 高级 1920 1080 30 或 1920 1152 25 面向 HDTV MPEG 2 音频 MPEG 2 音频的基本特性之一是与 MPEG 1 音频向后兼容 并且支持 5 1 或 7 1 通道的环绕立体声 MPEG 2 视频是以通信 广播 存储 媒体等为对象的通用活动图象编码标准 是最 适合高画质数字图象存储媒体 DVD 的活动图像压缩的国际标准 MPEG 2 标准原有十个部 分 现其中有一个部分取消 变为九个部分 ISO IEC13828 1 视频音频数据流组合 ISO IEC13828 2 按图像清晰度将其分为 4 个等级 level 按处理工具方法不同分为五种型 profile ISO IEC13828 3 音频部分与 MPEG 1 反向兼容 ISO IEC13828 4 测试例 ISO IEC13828 5 软件模拟 技术报告 ISO IEC13828 6 规定数字存储媒体指令和控制 DSM CC 协议 ISO IEC13828 7 规定不与 MPEG 1 反向兼容多通道音频编码 ISO IEC13828 8 用于 10bit 视频抽样编码 因厂家不感兴趣被取消 ISO IEC13828 9 规定了传送码流的实时接口 Real time Interface ISO IEC13828 10 是 DSM CC 符合测试标准 MPEG 2 完全继承了 MPEG 1 视频的编码方法 图像分组分割的方法等 只是其分辨 得以提高到 720 480 60 场 秒 D1 格式 视频位率也提高到 4Mbps MPGE11 15Bbps 同时还采用了场预测 分级分类等新的措施 1 MPGE 2 级和类 型 档 MPEG 2 视频引入了 类 型 档 profile 和级 level 的概念 级 level 是指图像输入 格 亦即图像输入的质量级别 共分为 HL H14L ML 和 LL 4 级 见下表 每个级又 有五个类 profile 类是指输入信号在 MPEG 2 中的压缩和处理使用方法的集合 在 20 种级和类的 MPEG 2 中仅有表中的 11 种被应用 表示为 类 级 根据应用的不同 MPEG II 有多种级别和类别 Simple SP Main MP 4 2 2 HP SNR SNRP Spatial SSP High HP Low LL S VCD VCD 352x288 4 2 0 I B P 4Mbps 30F S 352x28 8 4 2 0 I B P 4Mbps 30F S Main DVD ML 720 x57 6 4 2 0 I P 15Mbp s 720 x576 4 2 0 I B P 15Mbps 30F S 普通数字普通数字 720 x57 6 4 2 2 I B P 50Mbp s 720 x57 6 4 2 0 I B P 15Mbp s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论