(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf_第1页
(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf_第2页
(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf_第3页
(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf_第4页
(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf_第5页
已阅读5页,还剩63页未读 继续免费阅读

(通信与信息系统专业论文)mpeg4视频编码器算法研究及优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕 ! : 学 1 二 论文 y6 8 9 1 1 0 摘要 2 1 世纪的人类社会是信息化的社会,就通信内容来说,它已不局限于简单 的语音、文字信息,更进一步地, 将图像视频信息亦纳入其中。数字化后的信 息,尤其是视频和音频信息具有数据海量性,它们给存储和传输造成较大的困 难。 mp e g 4 是商业界最重要最有影响的多媒体数据压缩编码国际标准之一, 它 的全称为音频和视觉对象的通用编码。 它定义了音频、视频等多媒体数据语法 结构和解码过程、互联网上的传输以及人与媒体交互的一整套框架,覆盖了多 媒体的绝大部分应用领域。它的基于对象思想使其具有高压缩比、灵活性好、 可扩展性和可交互性强等优点。 本课题结合移动通信的实际应用背景,在全面了解mp e g 4 标准的基础上, 对 m p e g 4标准的核心部分一一视频的压缩编码进行重点研究。根据移动通信 的实际特点,实现对原视频流实时压缩编码和网上流化传输,为客户提供高质 量的视频图像。 在研究过程中,着重考虑了压缩编码器的速度、视频图像的质 量和码率控制等要求。 本课题首先以网上提供的部分源码为基础,对这些代码进行移植、整合、 改写、扩充、 优化,总结了软件优化的一些思想,实现了 个 w i n d o w平台下 c版木的视频编码器的原型,建立了 继续研究的测试试验平台。其次,研究了 m p e g 4 视频压缩标准的关键算法, 对纹理编码、 运动估计和补偿、 速率控制等 模块进行了 优化,降低了计算复杂度,提高了编码速度,并对优化的结果作了 比较和分析, 为今后将mp e g 4 视频编码器移植到移动通信设备上奠定了基础。 关键字: 视频编码, mp e g 4 标准, 纹理编码、 d c t变换, 运动估计和补偿, 码率控制,算法优化 浙江大学硕十学十论文 第一章绪 论 1 . 1课题的背景、目 标和意义 近年来, 随着生产力和经济的快速发展, 人们在社会生活发生了 许多的改 变,人们之间的流动性增加,迫切需要打破地域对交流设置的樊篱。为了适应 这种变化,各家厂商不仅在大力开发各种移动设备和通信器材,而且对通信内 容进行了扩充,使其不再局限于简单的语音、文字信息, 提供确切、直观、高 效的图像视频信息已 成为电信运营商的一个重要追求。 然而,图像视频信号经 过数字化处理之后形成的数据量非常庞大,如此庞大的数据量不仅存储开销很 大, 而且在传输中使得通讯设备的负荷量很重, 甚至承受不了。 采用压缩技术, 可以把这些数据压缩几倍、几十倍,甚至几百倍。因此,研究如何去除冗余数 据、高效地表示图像、进行数据压缩, 具有重大的实用价值。 数字图像压缩技 术己 成为目 前国内外的研究热点之一,为了保证不同 厂商设备和产品之间的可 交 换 性, 国 际 标 准 化 协 会 ( in t e rn a t i o n a l s t a n d a r d i z a t io n o r g a n iz a t i o n , i s o ) , 国际电子学委员会 ( i n t e r n a t i o n a l e l e c t r o n i c s c o m m i tt e e , i e c ) 、国际电信协会 ( i n t e r n a t i o n a l t e l e c o m m u n i c a t i o n u n i o n , i t u )等国际组织于9 0 年代领导制 定了许多重要的多媒体数据压缩标准。从h . 2 6 1 , m p e g l , h .2 6 3 到m p e g 2 , 再到现在的mp e g 4 , mp e g 7 , m p e g 2 1 , h .2 6 4 , 标准越来越成熟,覆盖的应 用领域愈来愈广泛,尤其是m p e g 4 和h .2 6 3 等面向 低码率高质量的标准对于 实时视频传输处理有着非重重要的意义。同时, 通信技术也在飞速发展,各种 宽带网络的出现使得实时 视频传输成为可能。目 前在商业界发展最迅速、影响 最大、 技术较成熟的多媒体数据压缩编码国际标准是m p e g 4 。 它的全称为音频 和视觉对象的 通用编码, 是伴随着互联网而产生和发展起来的。 它定义了音频、 视频等多媒体数据的码流语法和解码过程、互联网上的传输以 及人与媒体交互 的一整套框架,覆盖了多媒体的绝大部分应用领域。 它的基于对象思想使其具 有高压缩比、 灵活性好、 可扩展性和可交互性强等优点。 m p e g 4 正在蓬勃发展, 及时了 解和跟踪它的发展动向,掌握其核心技术,结合实际应用,是一项很有 意义的事情。 本课题结合移动通信的实际应用背景,在全面了解m p e g 4 标准的基础上, 对 m p e g 4标准的核心部分一一 视频的 压缩编码进行了 重点 研究, 根据移动通 信的实际特点,实现了对原视频流的实时压缩编码和网上流化传输,为客户提 供了高质量的视频图像。 在研究过程中,着重考虑了压缩编码器的速度、视频 图像的质量和码率控制等要求。 本课题的意义在于: 研究、 改进和实现了mp e g 4 视频压缩标准的关键算法 纹理编码、运动估计和码率控制,掌握了 视频压缩编码的核心技术,实现 了编码器的原型,建立了继续研究的测试试验平台, 为mp e g 4 在移动通信设 备上的实际应用和开发奠定了 基础。 1 . 2课题完成的 任务 课题的理论和实现准备工作: 浙江大学硕士学士论文 首先全面了 解m p e g 4 这一多媒体编码国际标准, 对其基本思想、 整个框架、 关键技术等有了完整的认识,深入剖析了网上提供的mp e g 4编码器的实现代 码,为改写代码提供了方便。 课题主要完成了以下几个方面的工作: 1 . m p e g 4视频压缩编码器的软件实现,以网上提供的部分实现源码为基 础, 对这些代码进行移植、整合、改写、扩充、优化,总结了软件优化的一些 思想,实现了一个wi n d o w平台下c版本的视频编码器原型,为后一步视频压 缩算法的选择及优化提供了测试平台。 2 . 对mp e g 4 视频编码的关键技术一一纹理编码进行了研究和改进。 在i n t e r 宏块中采用了基于自 适应模式选择的快速离散余弦变换法,在没有明显降低图 像质量的条件下, 大大减少了计算量; 在i n t r a 宏块中采用了一种简单方法来选 择是否进行a c预测。 3 .对mp e g 4 视频编码的关键技术一一运动估计算法进行了研究和改进。 在传统的运动估计算法mv f a s t的基础上, 提出了一种快速运动估计算法, 试 验结果表明, 这种运动估计算法比 全搜索运动估计算法在速度方面要快很多, 精度方面略差。 4 .对mp e g 4 视频编码的关键技术一一码率控制算法进行了研究和改进。 在分析了多种码率控制算法后,提出了一种快速且有效的码率控制算法,试验 证明,对于绝大多数视频序列都能起到很好的码率控制作用。 1 . 3本论文内容安排 论文共分三部分。第一部分是绪论和理论知识准备;第二部分是 m p e g 4 编码器的软件实现和一些关键算法的研究;第三部分是全文总结和展望。全文 内 容组织如下: 第1 章,绪论,阐明了课题的背景、目的、意义及要完成的任务。 第 2章,视频压缩标准,介绍了视频编码的原理及各视频标准的历史和发 展。 第3 章, mp e g 4 视频压缩标准,介绍了mp e g 4 标准的基本知识及软件的 实现和优化。 第4 章, 纹理编码, 阐 述了m p e g 4 中纹理编码的理论基础及本课题中的改 进,并给出了试验结果。 第 5章, 运动估计算法的研究和改进,阐述了 运动估计算法的理论基础及 本课题中的改进方法,并给出了 试验结果。 第 6章,码率控制算法的研究和改进,阐述了 其理论基础及本课题中 采用 的方法,并给出了试验结果. 第 7章,总结了全文的研究成果,并对视频压缩进行了展望,提出了进一 步的研究工作。 浙江大学硕十学上论文 第二章视频压缩标准 2 . 1 视频数据压缩的必要性 随着微电子、计算机、网络和传感器技术的高速发展,图像、声音等媒体 信息的记录、存储、传输正朝着数字化方向前进,这是因为数字信号具有易于 传输和远距离存储、没有积累失真、可被高品质地还原、抗干扰能力强、处理 精度高、便于加密等优点。 在众多的多媒体信息中, 视觉信息具有以 下优点: . 直观性。图像信息更为形象直观,印象深刻,易于理解; . 确切性。 图像信息显然更容易确认, 不易发生错误, 这点在军事、 医学、 工业指挥等方面具有重要意义; . 高效率。 由于视觉器官具有较高的图案识别能力, 人们可在很短时间内 通过视觉接受到更多的信息; 由于视觉信息具备众多优点,把视觉信息纳入通信领域、为人们提供多渠 道、多方位的信息来源成为了现代人的迫切需求。但与此同时,使用未被压缩 的图像、声音、 动画、 活动影像等多媒体信息时, 特别是有较高的质量要求时, 不仅需要用相当大的存储空间,而且需要相当高的数据传输率。例如,图 像为 c c i r ( i n t e m a t i o n a l c o n s u lt a t i v e c o m m i t t e e f o r r a d i o ) 格式 ( 7 2 0 x 5 7 6 ) , 4 : 4 : 4 采样时, 一帧活动影像要求约1 m b 计算机数据; 如果按我国电 影的放映 速度每 秒2 5 帧计算 ( 美、日 等国 家为3 0 帧) , 对一个满屏幕的影像, 要求计算机每秒 传送2 5 m b数据, 一片c d - r o m仅可存储2 0 .9 秒的节目, 这大大超过了p c 机 及某些工作站可以处理的能力,给存储器的存储容量、 通信干线的信道传输率 增加了极大的 压力, 且大大地增加成本。 如果由于技术或其他方面原因的限制, 在达不到较高传输速度的情况下,传输时间必然拖得更长,语音可能变得 “ 语 无伦次” ,图像变得 “ 杂乱无章” ,从而完全失去了意义。在保持所需数据传输 率和存储容量条件下,最简单的方法之一就是减少图像分辨率的大小,例如把 窗口大小改为1 0 o x 1 0 0 个象素: 另一个方法是降低回放速度, 如每秒5 帧、 1 0 帧等1 1 : 否则就需要扩大存储器容量、增加通信干线的传输率。 显然, 这些都 不是理想的解决办法。最好的解决办法是对图像文件的大小进行压缩, 通过数 据压缩手段把信息数据量压下来, 以 压缩形式存储和传输, 既紧缩了 存储空间, 又提高了通信干线的传输效。 2 . 2 视频数据压缩的可能性 视频数据的压缩不仅是必要的,也是可能的。视频图像的各个相邻象素在 统计上一般都有某种程度的相关性。例如,画面中 亮度变化平坦的地方, 相令 象素值就有相同的电平; 而就相邻帧的图像来说, 即使图像有某种程度的运动, 两帧图像也仍然是很相似的。 也就是说, 图像中事实上包含着大量的冗余成分。 通过消 减这些 冗余成分, 就能 达到 相当 程度的 信息 压 缩2 1 在信息论中,通过减小冗余而进行的数据压缩处理称为信源编码。 视频序 列中实际包含着各种各样的冗余信息:空间冗余、时间冗余、心理视觉冗余、 浙江大学硕 卜 学十论文 嫡冗余、结构冗余、知识冗余以 及起因于图 像非平稳性的兀余等。其中空间冗 余度和时间冗余度都起因于图像的统计性质,所以也称为统计冗余度。统计冗 余表现为图像信号在时域和空域的高相关性:心理视觉冗余起源于人眼对某些 空间频率的感觉迟钝;嫡冗余表现为符号编码平均码长和信源嫡之间的偏差; 结构冗余是把图像看作区域集时产生的冗余;知识冗余是指与收发端所共有的 知识相关联性。研究视频信号中冗余消除方法,实现信息传输、存储和处理的 有效性和可靠性是视频编码的关键问题3 1 2 . 3 视频编码器的基本原理 数字视频数据压缩的目 的 就是去掉视频数据中的 各种冗余信息( 即去除数据 之间的相关性) , 保留 相互独立的 信息分量。 在视频数据中 存在多种冗余信息, 如何尽最大可能去除这些冗余信息是视频编码的主导研究思想。 2 . 3 . 1 削减视频信息中的冗余成分 1 .空间冗余度的削减 空间冗余度是指一副图像内所包含的冗余度。例如,规则条纹图像和平坦 图像,它们的空间冗余度就很大。从空间域来看,相关性强的信号常表现为相 邻象素之间象素值相同或相似;从频域来看,相关性强的信号常表现为能量集 中于某些特定频率成分上。 因此,要削减空间冗余度,可从空间域或频域来设计适当算法。在空间 域, 对于相邻象素之间相关性很强的图 像,可以像图2 . 1 所示, 先用已 编码的相邻 象素对下一待编码的象素进行某种程度的预测,再对预测差值编码,这样可望 得到大幅度的信息压缩。基于这种思想的编码被称为帧内预测编码 ( i n t r a p r e d i c t i v e c o d i n g ) 。 在频域, 对于相关性强的 信号,可先做傅立叶变换, 然后 只对能量集中的频率成分的系数进行编码。基于这种原理的编码被称为变换编 码 ( t r a n s f o r m c o d i n g ) . 0一代)-oseseo- 一 戒 一 一 o x -1j. x i-1 x i+t.i-1k owe叫0一卜 一 巾 0 一- 0一 一o x i- l ,i x i.i 图2 . 1帧内预测编码的原理 2 .时间冗余度的削减 中 , 黑赢潺黯盟瓢1嘿焉溉钡 可视电话等运动图像 9 编码( i n t e r p r e d i c t i v e c o d i n g ) 来消除。像图2 .2所示, 先用某些方法估计出 运动图 像各部分的运动 矢量, 对其运动部分加以 补偿后再进行帧间预测。这称为运动补偿预测编码 ( m o t i o n - c o m p e n s a t e d p r e d ic ti v e c o d i n g ) , 它已 是 会 议电 视 和 可 视电 话 等 超 低 速 立 0 _ 砚 巾mo ., 久枯 素 浙江大学硕士学士论文 图2 . 2 运动补偿预测的原理 3 .心理视觉冗余度的削减 即使在接收端没有物理重现原图像,但人用眼睛观看时,它与原图像看上 去一样的。 人的感官觉察不到的那些成分, 从图像编码的角度上看是一种冗余, 也就是人们常说的 心理视觉冗余度。 人眼视觉有以 下特性 2 1 ( 1 ) 失真知觉的频率特性: 不易觉察随时间快速变化的失真和空间高频失 真; ( 2 ) 与画面图案的关系: 在静止图 像的情况下, 易于发觉图像平坦部分的 失真而不易发觉轮廓部分的失真。 但在运动图像的 情况下,轮廓部分的失真将 成为一种边缘效应,反而更加显著; ( 3 )与图像动作的关系:当图像动作达到一定速度,视线跟不上运动时, 视觉对失真的敏感度变低; ( 4 ) 与场景切换的关系: 在画面切换的紧后边,即使分辨率下降较大,也 不会感到有明显变化; ( 5 )与画面亮度的关系:同等级的图像失真,画面越暗,失真感越明显; ( 6 ) 色度信号与亮度信号: 与亮度信号相比, 色度信号的失真更不易被发 觉,因而,间隔地抽掉一些色度信号样本点并不会影响重现图像的彩色质量。 利用视觉特性进行信息压缩,因编码中必然会包含失真,所以被称为非可 逆编码 ( n o n - r e v e r s i b l e c o d i n g ) 。 这 种非可 逆编码可高 效地 进行视频压缩, 且 在广播电视图像编码、可视电话和会议电视的图像编码两个方面获得了广泛应 用。人们对广播电 视不希望因编码而导致接收端看到的解码图像质量下降,因 此, 这种情况下的压缩是按眼睛看不出 编码失真的原则 即检知限以下)来进 行的。而在可视电话和会议电 视中,为了降低它的传输成本费,即使感到了失 真的存在,人们也会允许或容忍的。 图像通信中,由于多数情况对传输速率有严格的限制,如何在所给定的传 浙江大学硕十学 卜 论文 输速率下使主观失真达到最小, 便成了 信息压缩的主要目 标。 4 .嫡冗余度的削减 根据信息 论的 原 理, 数据压 缩的 理论极限 是 信息 嫡15 1 。 如 果 要求 在编 码过 程 中不丢失信息量,则要求保存信息嫡。 给量化电平分配二进制代码时,就像图 2 .3 所示, 给出现频度高的电 平分配短代码, 给出 现频度低的电 平分配长 代码, 以 此来缩短总平均码长。当 达到最佳代码分配时,平均码长就等于根据发生频 度所计算出 的 嫡的 值。 这种编码方 式被称为 嫡编码 ( e n t r o p y c o d i n g ) 。 它是 无 失 真 压 缩 编码 方 法, 其中 应 用最 广的 有 哈 夫 曼 编 码( h u ff m a n c o d i n g ) 和 行 程 编码 ( r u n l e n g t h c o d i n g ) 。最近, 算术编码 ( a r i t h m e t i c c o d i n g ) 受到了 很大 的重视。 一 一 一 j 卜 一 一 一 争 一 一 一 争 1 0 01 1 0 1 0 一 一 一 今 一 一 一 争 一 一 一 今 1 1 0 1 1 1 0 1 1 1 1 0 图2 . 3 非线性量化和代码分配 5 .结构和知识冗余度的削减 从 “ 被摄物体本来是具有三维结构的实际物体,而图像是被摄物体在二维 平面上的投影” 这一观点出发,着眼于图像结构进行编码,以此来提高压缩冗 余 度的效果。 其中轮廓编码( c o n t o u r c o d i n g ) 就是这方面的 研究。 可视电话图像中,由于编码对象仅限于人物像,收发端关于编码对象的共 有知识也可被看作是一种冗余度 的含义。这种编码总称智能编码 。要消除这种知识性冗余,需识别和理解图像 ( i n t e l l i g e n t c o d i n g ) , 2 . 3 .2视频编码器的典型结构 浙江大学硕1:学士论文 视频输入 图2 . 4 视频编码器的典型结构 到目 前为止, 不管是mp e g系列的m p e g x 标准还是i t u - t的h .2 6 x 系列 的标准,它们的编码基本原理都是一样的,都是用时域预测去掉时域冗余,空 域预测去掉空间冗余,用嫡编码使得可以用最少的比特来表示码流,将各种信 息压缩手段组合起来使用。 所不同的是,各种标准采用的 算法不一样,以面向 不同的应用。图2 .4给出了一个典型的视频编码器的结构,下面对各部分作个 简单说明。 ( 1 )预处理:这部分是为后面的编码作准备,主要做以下几方面的工作: 去除图像的噪声, 加快编码的速度, 提高视频图像的主观质量;图像格式转换, 使其符合编码的需要;通过控制样本数 ( 即按需要进行减采样)和每秒帧数来 限制待编码的象素数,进一步降低码率: ( 2 ) 运动估计和补偿:施以 运动补偿预测,取出预测误差信号以 待编码。 在场景切换或帧内编码时不进行预测,直接取出输入信号: ( 3 ) d c t变换: 对预测误差信号或原信号进行d c t 变换,去除空间相关 性,使能量集中在一部分系数; ( 4 ) 量化:对于已判定为要编码的信号或其组合, 进行标量量化或矢量量 化; ( 5 ) 反d c t 变换和反量化: 通过反d c t 变换和反量化解码, 得到运动估 计时所需的参考图像。 在量化时不可避免会产生量化噪声, 所以 如果用d c t 变 换前的信号作参考图像,将会导致图像质量严重下降,因为接收端输出的信号 己与d c t 变换前的信号不同了。 为了得到高质量的图像, 这一部分是必不可少 的; ( 6 ) 嫡编码:按照尽可能缩短平均码长的原则,对各个量化输出进行代码 分配; ( 7 )码率控制:在对传输速率有严格的限制时,这一部分是需要的,它的 浙江大学硕 卜 学十论文 目的是为了在给定的传输速率下使主观失真达到最小 ( 如异步传输模式 ( a t m)网)时,这一部分可不要 。在对传输速率没有限制 2 .3 .3视频编码的常用方法简介 视频数据压缩的方法繁多, 在这里不进行- 一 讨论, 只讨那些常用视频数据 压缩技术。 2 .3 .3 . 1嫡编码 嫡编码是建立在随机过程的统计特性基础上的, 在多媒体视频压缩中常用的 三种信息嫡方法为:哈夫曼编码、游程编码和算术编码。 1 .哈夫曼编码 哈夫曼编码于1 9 5 2 年问世, 它的理论依据是变字长编码理论。 基本思想如下, 在变字长编码中,以编码输入信息符号出现的统计概率为依据, 对出现概率大的 信息符号赋以短字长的码, 对于出现概率小的信息符号赋以长字长的码。 如果码 字长度严格按照符号出现概率大小排列, 则平均码字长度一定小于按任何其它符 号顺序排列得到的码字长度。 在所有的对输出码字分配不同码字长度的变字长编码方法中, 该编码方法的 输出码字的平均码长最短, 与信源嫡值最接近。 但此方法在编码前必须进行概率 统计, 且要传送哈夫曼码表, 这使得此方法失去了自 适应能力和实时性, 增加了 传输的码率。 2 .游程编码 基本思路如下, 用一个代表值和串长来代替一个相同值的连续串, 其中代表 值 和串 长 组 合, 构 成编 码 输入 码元 进 行 编 码, 并 按 其出 现的 概 率, 分 配 不同 码长 的码字。大概率以短码,小概率以长码。 这中 编码方法对于同 一行或相邻行的象素之间 具有强相关性的图 像有很好 的 压缩效果; 对于纯粹随 机的“ 沙土型”图像效果很差。 3 . 算术编码 算术编码是一种按照符号序列的出现概率对概率数直线进行区间分割, 并把 表示已分割区间的二进制小数作为相应序列代码的编码方式。 这种编码方法的最大优点是比较容易实现动态自 适应, 且编码效率很高。 它 的最大缺点是计算复杂度很高,从而阻碍它被广泛使用的。 2 .3 .3 .2预测编码 预测编码是按某一模型利用已经解码的样本值预测随后输入的样本, 然后将 实际样本值与其预测值相减得到一个误差值, 并对该误差值进行编码。 由于误差 值要远远小于实际值, 所以达到了压缩数据的目 的。 预测编码主要是要削减空间 和时间冗余度。 1 . d p c m方法 浙江大学硕_ 止 学_ l : 论文 实际 应用中 用的 最多的 预测编码方法为 d p c m ( d e f e r e n t i a l p u l s e c o d e m o d u l a t i o n ) 方 法 5 8 1 , 其工 作 原 理为 : 假定与当前象素有因果相邻关系的n - 1 个象素值序列为x i , x v . . . x_ , , 线 性 预 测 值 为群, 实 际 值 为 x, a i( i= l , 2 , ., , n - 1 ) 为 预 测 系 数( 即 加 权 因 子) e 为误差值,则: ( 2 . 1 ) e =x 一, y /( 2 . 2 ) 最优线性预测就是合理选择预测系数a i( i = 1 , 2 , , n - 1 ) , 使e n 的均方值最 小 , 即 使e ( 代 ) 最 小。 d p c m方法利用了差值图 像的相关性比原始图像的相关性要小的多,从而达 到了 信息压缩的目的。 在该预测模型的数学推导中 发现, 预测模型的复杂程度和 预测系数的个数有关,即与预测中使用的样本的数目 有关, 样本数越少越简单, 一般采用前三点或前一点预测。 2 .帧间预测 帧间编码技术处理的对象是序列图像,基本思想是把前一帧或前几帧的图像 存储起来作为参考帧, 利用帧间的时间相关性, 来预测当前帧的象素值, 进一步 消除图像信号的冗余度, 提高压缩比, 降低传输比 特率。 这种帧间预测原理的概 况如图2 . 5 所示。 图2 . 5帧间预测 常用的两种帧间预测编码方法为: 条件象素补充法和运动补偿技术【 。 ( 1 )条件象素补充法 p e a s e , m o u n t s 等人提出的条件象素补充法规定, 通过帧间预测差分信号与一 个适当的阀 值比较, 将图像分成两个不同区域。 若帧间各对应象素的亮度差在设 定的某阀值以下则认为该象素位于图像的背景区或相对静止区, 不传送该值, 在 接收端用上一帧相应象素值来代替; 如果超过这一阀 值, 则认为该象素值位于图 像的运动物体区,把这些象素存在缓冲存储器中,并以 恒定的传输速度传送。 浙江大学硕士学 卜 论文 用此方法可使一幅电视图像可能只传送其中较少部分的象素, 且传送的只是 帧间差值, 可得到较好的压缩比。 据统计, 在可视电话应用中,由于大部分图像 是静止图像, 且背景不重要, 用条件象素补充法需要传送的象素只占全部象素的 6 % 左右,但它在运动变化剧烈的场合中应用效果不是很好。这种方法过分依赖 阀值, 如果阀值过高,图像中的动作就会变得很生硬而使画面显得很不自 然, 运 动物体的一部分像贴上去一样留在以前的场景上, 这种劣化是很严重的。 阀值过 小, 将降 低压缩比 q ( 2 ) 运动补偿技术 运动补偿方法作为更有效的帧间预测方法而被提出,因为它能较好地提高编 码压缩比, 在近十年来已得到特别的重视和广泛的应用。 其基本思想是跟踪画面 内的运动情况,对其加以 补偿后再进行帧间预测,通常由以下几方面组成: 1 ) 把图像分割为子块, 这里假设运动物体仅作水平平移和垂直平移; 2 ) 估计物体的位移值; 3 ) 用位移估值( 即运动矢量) 进行运动补偿预测; 4 ) 预测信息, 对预测差值进行编码。 其中, 对子块进行运动估计( 或者说运动估值) 是运动补偿预测的关键技术, 一 旦求得运动物体的运动矢量后, 即可将其送入运动补偿预测器( 如图 2 .6 所示) , 进 行编码传输。 图 2 .6 运动补偿预测编码 在运动图像编码中较多关心的是由被摄物体和摄像机二者之间的运动共同 造成的相对二维运动, 高效而快速的运动矢量求取算法是运动补偿技术中的焦点 问题,目 前常用的几种对运动矢量进行估值的方法有: 块匹 配 算法:块匹 配算法 ( b l o c k - m a t c h i n g a l g o ri t h m ) 建 立在“ 块内 各象素 做相同的平移” 的假设之上。 在该算法中要求确定块尺寸大小的选择, 只有在块 小时才可近似认为块内 各象素点作相等的平移,以 满足块匹配算法的基本假设。 但若块太小, 则估计结果易 受干扰噪声影响不够可靠, 且传送运动矢量所需比 特 数过多, 计算复杂度加大; 块若过大虽可减轻其影响, 但基本假定被破坏, 影响 估 计 精 度, 增 加 预 测 差 值 的 编 码 复 杂 度 和比 特 数 。 一 般 子 块的 大 小 取 1 6 x 1 6 块 、 8 x 8 块或4 x 4 块较为合适。 块匹配算法相对而言计算复杂度不是很高, 硬件、 软 件都较容易实现, 是目前最常用的运动估计算法, 人们已研究出了多种基于块匹 浙江大学硕1 丁 学士论文 配思想的快速运动搜索方法, 这将在第五章具体介绍, 此处不再过多介绍了。 象素递归法: 象素递归 算法( p e l - r e c u r s i v e a l g o r i t h m ) 的出 发点是通过对灰度 的 梯度变化来求象素的位移。 它能 对每个象素的 运动进行精确到亚像素级的估 计, 由于每个象素都有一个对应的运动矢量, 为了降 低码率而避免将其所有的运 动矢量都进行传输, 提出了许多解决的办法, 如让接收端在与发射端同样的条件 下用与发射端相同的方法进行运动估计、 n e t r a v a l i 象素递归法的迭代修正等。 由于象素递归法的最小搜索单元是象素点,因而对物体的运动有较高的灵敏 度, 且有较高的位移估值精度, 对复杂运动具有较强的适应性, 但也正是这个原 因, 使得它对噪声影响也大, 在图像的平坦部分很难得到充分的精度。 且它跟踪 的位移范围很小,由于p r a 算法对位移的估值是通过梯度运算得到的, 因而运算 代价大, 难以 硬件 化, 这些 缺点 导致象素递归 法的 实 用化程 度不如块匹 配算 法 12 1 相位相关法:由于物体的空间位移与其相位变化是相对应的,从而可将运动 估计由空域转至频域进行。 首先, 对两帧图像中的子块进行傅立叶变换求得相位 相关函数,再利用相位相关函数的尖峰求取运动矢量估值。根据进一步的观察, 对于平移运动, 相位相关函数将产生比互相关函数尖锐得多的尖峰。 因而用相位 相关函数进行运动估计更加有利。但这种方法运算复杂度太大了,难以 硬件化, 无法得到广泛的实用。 预测编码方式的思路比较简单, 但它有一个致命的弱点, 就是误码扩散问题。 当传输途中发生误码时, 其影响并不是只停留在最初发生误码的地方, 而是会在 以 后各象素的解码过程中不断往下扩散。 为了防止帧间编码中误码在时间方向 上 的不断积累,可采用周期性地插入帧内编码之类的刷新操作等方法。 2 . 3 .3 . 3正交变换编码 变换编码的基本思想是通过变换操作除去由于坐标轴的选择不当而引起的 相关性, 而且有可能将难以处理的各种小局部相关集中到一起处理。 根据数学中 的理论, 单位变换的一个重要性质是距离保持,即向量间的欧拉距离不变。 可以 证明, 坐标轴通过旋转, 数据的离差 ( 即能量) 保持不变。 变换本身不会造成任 何压缩, 但它分解了原始数据的关系, 把大量琐碎的信号能量精简到少量变换成 分中 去。由 于变换后保留了 全部能量, 所以 许多变换系数只包含了 很少的 能量, 对这些系数进行量化和有效的编码就可造成压缩 ” 。 常见的正交变换编码方法 有:k l 变换、离散傅立叶变换、d c t 变换、wa l s h - h a d a m a r d 变换等。 1 . h u n e n l o e v e 变换 ( k l 变换) 这是一种能量打包的最优变换。 然而, 它的偏置函数是图像依赖的; 并在计 算中需要估计图像协方差; 另外, 不存在快速算法。 这些缺点严格限制了它的 利 用。 2 .立叶变换 ( d f t ) 离散傅立叶变换产生的变换系数是复数, 直接存储与管理这些复数量是一种 缺陷。 且由于经过图像块复杂的周期性变换后, 会产生一些伪频谱成分, 在低比 特编码时,这些伪频谱成分使得重建图像出 现一些类似马赛克的方块。 3 . d c t 变换 浙江大学硕万 i 学士论文 对于象素间呈现高度相关的图 像, d c t 变换的性能与k l 变换没有实质的区 别,且它可以避免产生伪频谱成分,所以d c t 变化具有较高的压缩效率。d c t 变换的快速算法使得d c t 变换在图像压缩中得到了广泛应用。 在第四章将详细叙 述d c t 变换算法, 此处不再过多 介绍。 4 . wa l s h - h a d a m a r d 变换 wa l s h - h a d a m a r d 变换算法比 较简单, 且具有简洁的去相关能力, 以及特别利 于硬件实现, 它己 变得比 较流行。 但它在能量压缩、 包装方面却远没有达到最佳。 2 .3 . 3 . 4量化编码 量化是指由数字量到数字量的多对一映射, 量化器所要完成的功能是按一定 的规则对表达式作近似表示, 即 指用一组有限的实数集作为输出, 其中每个数代 表一群最接近于它的取样值, 量化编码为有损编码, 在视频编码中较多应用量化 的过程是对二维d c t 系数的量化处理。 量化可分为线性量化和非线性量化。 线性量化是指量化电平间隔全都取相同 值的量化方式, 这种量化方式对待量化数据在其动态范围内均匀分布的情况十分 有效。 但实际上, 由于对于信号矩阵实施正交变换后, 系数的能量分布一般比较 集中. 可近似地表示成一种零集中度很高的拉普拉斯分布。 当总量化电平数给定 时, 对分布集中 部分的量化电 平配置得密一些, 对其它部分的量化电平配置得疏 一些,这种方法称为非线性量化。 量化还可分为标量量化( 零记 忆量化或一维量化) 和向 量量化 分组量化) 。 在标 量量化中, 预先准备好有限个量化电平值, 量化过程中选取最接近输入值的量化 电 平值, 并对该量化电 平值的 序号 进行编码。向 量量化 多维量化) 则是预先准备 好有限个有代表性的量化矢量模型, 量化过程中 选取与该输入矢量值最相似的量 化模型矢量, 并对该量化模型矢量的 序号进行编码。 在希望以比较低的比特率进 行量化时,矢量量化是一种有效的 方式 2 1 。 2 . 4 视频压缩标准的历史和发展 自 -t n r * m a . uit- , 穷的多媒体世界中, 用户希望能自由地组合、装配来 构造自己 满意的系统,这就提出了一个不同厂家产品 兼容性问题,因此需要一个全球性的统一国际技术标准。 基于不同的应用时期 和不同的压缩编码技术,国际标准化组织相继制定了 m p e g 1、mp e g 2、 mp e g 4 , mp e g 7 , mp e g 2 1 , h . 2 6 1 , h .2 6 3 和 h . 2 6 4几个标准。 i - i f: i t z % * 1 a iwt t mzi fi 1 0 7 友展关t , 9 a m j 2 .7 所示。mp e g视频编码技术是在 h .2 6 1 视频 编码算法的基础上改进、发展而来的。下面对各个视频压缩标准作个简介。 浙江大学硕士学 1 _ 论文 tsonec 1tu-th.261ftmpf.g2ni.262h263h.263 v.1(fl263+)c2r263(fl263)- -fl264 mp e g 4 一酶逾 如一 f u t u re c o n b i n e d i s o / l e c a n d i t u - t s t a . 山川1 .l i o n a c t i v i t i e s 图2 . 7 h .2 6 x ( i t l t ) 和mp e g ( i s o / i e c ) 标准 2 . 4 . i h 一 2 6 1 1 2 4 72 . 4 . 1 h . 2 6 1 h .2 6 1 建议是国际电视电话/ 会议电视咨询委员会 ( c c i t t ) 即现在 i t u - t ) 于1 4 8 8 年1 0 月 提出了 的, 其目 标是在i s d n ( i n t e g r a t e d s 上以p x 6 4 k b p s p =1 . e r v i c e s d i g i t a l n e t w o r k ) 3 0 的速率开展视频会议和视频电 话业务。 的 码 率范 围 为6 4 k b p s 到1 .s m b p s e h .2 6 1 定义了 视频编码算法, 主要用了 帧内图像、 它适用 d c 丁 变换、变字长编码等压缩技术,为后来视频压缩标准的发展提供了基础。 此外, 它还指定了最大编码延迟为1 5 0 m s , 否则会给用户带来视频失真的印象。 h .2 6 1 标准中的算法能够用廉价的y l s i ( 超大规模集成电 路)实现,这给视频 ! i .v 知可柳 由任 沿东 的商 曲什 # 但 了知令 _ 它也存在不足, 它不适用于不同信道传输, x 1 0 - 6 ) . 且误码率允许范围小 ( 不大于1 2 . 4 . 2 h . 2 6 3 1 2 h .2 6 3 标准是国际电视电话/ 会议电视咨询委员会于1 9 9 5 年 1 1 主要是针对甚低码率 ( 低于 频编码的。 法与h .2 6 1 别如下: 6 4 k b p s )的 视频会议和可视电 话的应用 它适用的 码率范围为l o k b p : 到 月提出的, 、f 氏 码率视 匕 道 用四 消 围 为l o k b p s 到3 8 4 k b p s o h . 2 6 3 标准的 视频编 码算 相似 ( 如运动补偿和d c t算法) ,与h .2 6 1 相比,h .2 6 3 的主要区 浙江大学硕_ l 学士 论文 ( 1 ) 提高了 运动矢量的精度,采用了半像素精度运动估值; ( 2 ) 宏块 ( 1 6 x 1 6 ) 运动估值和块 ( 8 x 8 ) 运动估值的自 适应变换; ( 3 ) 支持s u b - q c i f 格式 ( 1 2 8 x 9 6 )的码流; ( 4 ) 采用了 三维( l a s t - r u n - l e v e l ) 而不是二维( r u n - l e v e l ) 游程编码; ( 5 ) 增加了一些可选项,如可选的无限制运动矢量、 可选的算术编码、可 选的重叠运动补偿和四运动矢量法 块的高级预测模式和可选的双向 预测。 试验 表明 , h .2 6 3 标 准中 的 测 试 模型t m n 8 ( t e s t m o d e l 8 ) 在 低于6 4 k b p s 码率时, p s n r值比h .2 6 1 提高了3 - 4 d b . h .2 6 3 标准可以 作为将来甚低码率 编码算法和编码标准性能评估的一个里程碑。但它不适应现有的窄带网络环境 上传输视频信息, 为此, i t u - t 在1 9 9 8 年1 月通过了h .2 6 3 标准的第二版h .2 6 3 + , 增 加了 十二 个新的 高 级 模式; 2 0 0 0 年1 1 月, 又 推出 了 第 三 版h .2 6 3 + + l3 0 1 , 再 次新增3 个高级模式。这些新增模式主要包括:参考帧再采样模式、高级帧内 编码模式、 交替帧间v l c选择模式、 分片结构模式、 参考帧选择模式、 数据分 害 i 模式可分级扩展编码等。 2 . 4 . 3 mp e g 1 lz 5 l m p e g 1 标准是运动图像专家组于1 9 9 2 年1 1 月制定的。 m p e g l 标准包括 了m p e g视频, m p e g音频和m p e g系统三部分, 它的目 标是将数字视频信号 和与之相伴的音频信号在一个可以 接受的质量下,能被压缩到码率约1 .5 mb i t / s 的 一个m p e g单一流, 实 现视频和音频等多 样压缩数据流的复 合和同 步。 它的 适 用码率范围 为0 . 8 m b p s 到1 . 5 m b p s , 是针 对 存储 媒体的 视频 编 码标准, 主要 应用于v c d , c d - r o m等数字存储介质上的 视频和音频压缩。 为了满足应用需要,mp e g i 提供了以下特性: ( 1 ) 随机存取: 这意味着存在可随机存取的单元, 在质量不下降的前提下, 随机存取时间大约可达0 .5 s ; ( 2 ) 快速正向 / i向搜索: 对压缩数据流可进行扫描, 利用合适的存取点来 显示所选择的图像,以实现正向和逆向 快速搜索; ( 3 )逆向重播; ( 4 ) 视听同 步; ( 5 ) 容错性。要求编码方案对残存的未被校正的误差有较强的 鲁棒性, 这 样即使在有误差的情况下,也能避免编码失败; ( 6 ) 编码/ 解码延迟。 在视频电话的应用中, 必须保证系统的延迟时间低于 1 5 0 m s ,以便保证这种面对面进行对话的应用质量要求。传输质量和延迟在一 个相当的范围内是可以折中考虑的,因此压缩算法应在可接受的延迟范围内可 充分地被执行。 m p e g 1 标准只规定了 码流语法和解码过程, 用户可以 很 好地利用这个语法 的灵活性来设计非常高质量的编码器和非常低成本的解码器。 编码器的设计中 浙江大学硕士学_ 二 论文 一些重要参数, 如运动估 值、自 适应量化和码率控制等可以由 用户自 由 确定。 m p e g 1 标准是在h .2 6 1 视频编码算法的基础上改进并发展的,保留了d c t变 换等压缩技术。它改进的主要内容是增加了 b图像帧 ( 双向预测)和图像组 ( g o p )的概念,使其具有更高的压缩比和容错性,同时定义了编码算法中各 工具层的语法,使得视频的可操作性更灵活。 2 . 4 .4 mp e g 2 1 2 6 1 m p e g 2标准是运动图 像专家组于 1 9 9 4年 1 1 月制定的。 它克服并 解决了 m p e g 1 不能满足日 益增长的多媒体技术、 数字电 视技术对分辨率和传输率等方 面的技术要求。 me p g 2 主要是针对4 -9 m b i t/ s 运动图像及其伴音的编码标准, 被广泛应用于存储媒体、 会议电 视/ 可视电话、 数字电 视、 高清晰度电视、 广播、 通信、网络等应用领域。它是工业标准d v d的核心标准。 m p e g 2 是m p e g i 的 一个超集, 它前向 兼容m p e g 1 , 并力求满足数字在存 储媒体、高清晰度电视等应用领域中对对媒体视频、音频通用编码方法日益增 长的新需要。因此, mp e g 2 标准对mp e g 1 作了重要的改进和扩充: ( 1 ) 针对隔行扫描的常规电视图像专门设置了“ 按帧编码” 和“ 按场编码” 两种模式,并对运动补偿作了相应的扩充,使其编码效率显著提高; ( 2 ) 档次和等级的 划分是m p e g 2 为适应不同 应用而定义各个子集的结果。 “ 档次”是集成后的完整码流的一个子集,而每个 “ 档次”的 “ 等级”则是对 编码参数所作出的进一步的限制。 “ 档次/ 等级”是通过确定码流中相应的标题 信 息 及附 加 信息中 的 有 关 参 数 来 给 定的 , 其中 一 个 主 要的 组 合 是m p m l c m a in p r o fi l e / m a i n l e v e l ) . m e p g 1 相当 于m p l l 。以 档次和等级的形式定义规范, 为不同的应用领域之间的数据交换提供方便和可行性; (

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论