基于上下文的算术编码器的研究与设计-硕士论文_第1页
基于上下文的算术编码器的研究与设计-硕士论文_第2页
基于上下文的算术编码器的研究与设计-硕士论文_第3页
基于上下文的算术编码器的研究与设计-硕士论文_第4页
基于上下文的算术编码器的研究与设计-硕士论文_第5页
已阅读5页,还剩61页未读 继续免费阅读

基于上下文的算术编码器的研究与设计-硕士论文.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

工学硕士学位论文 基于上下文的算术编码器的研究与设计 董美岑 哈尔滨工业大学 2006 年 6 月 图书分类号:TP391.4 U.D.C.: 681.39 工学硕士学位论文 基于上下文的算术编码器的研究与设计 硕 士 研 究 生: 董美岑 导师: 刘岩教授 申 请 学 位: 工学硕士 学 科 、 专 业: 计算机科学与技术 所 在 单 位: 计算机科学与技术 答 辩 日 期: 2006 年 6 月 授予学位单位: 哈尔滨工业大学 Classified Index:TP391.4 U.D.C.: 681.39 A Dissertation for the Degree of M. Eng. RESEARCH AND DESIGN OF THE CONTEXT-BASED ARITHMETIC CODING Candidate: Dong Meicen Supervisor: Prof. Liu Yan Academic Degree Applied for: Master of Engineering Specialty: Computer Science and Technology Date of Oral Examination: June, 2006 University: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 摘摘 要要 随着近年来通讯技术的发展,高清晰度视频的应用越来越广泛,因此高效的视频压缩技术成为当今的研究热点之一。基于上下文的自适应二进制算术编码(CABAC)以其高效的编码优势,被 H.264、AVS 等视频标准纷纷采用,成为主要的熵编码方案。 H.264/AVC 与 AVS 标准都是新一代视频编码标准,包含了非常先进的编码技术。因此,本文首先对其进行研究,重点分析了标准中的算术编码技术。通过分析研究得到,对语法元素进行二值化是 CABAC 算法中不可缺少的一个关键步骤,二进制化算法的合理与否直接影响着 CABAC 算法的编码效率的优劣。在 AVS 标准中,变换系数 level 值的二值化方案采用了 Unary码,Unary 码对较小的整数值二值化效果较好,但对较大的值则会造成很大的冗余,从而影响了 CABAC 的编码效率。针对这种情况,本文引入 Exp-Golomb 码来减少较大的变换系数二值化的冗余问题,提出了一种 Unary 码和 Exp-Golomb 码相结合的的二进制化算法,该算法避免了设立标志位所带来的附加损耗,分别针对于变换系数中的 luma 系数和 chroma 系数的概率分布特点,采取了不同的自适应切换设置,并且相应地增加了概率模型。经过SD、HD、CIF 三组序列测试,其码率分别降低了 1.24134%,0.10016%和0.16029%,证明了该算法确实有效地提高了 CABAC 的编码效率。 之后本文针对变换系数中 abslevel=1 出现概率极高的现象,提出一种新的算术编码方案。由于 abslevel=1 的高概率出现,使得第二位平面具有很大的相关性,因此文中算术编码的上下文模型的设计方案主要基于 level 值和bitplane。考虑到 luma 系数与 chroma 系数之间的差异,本文分开设计这两类系数的上下文模型,其中沿用了 AVS 标准中的分层建模方式,并以bitplane 为主要的模型分类方式,对数据量较大、相关性较强的第一位平面和第二位平面加细划分上下文模型,最后根据不同的概率变化趋势做出不同的概率更新方案。该算术编码方案在 SD、HD、CIF 三组序列上测试,其码率分别节省了 0.09115%,0.06825%和 0.09171%。 关键词关键词 视频编码;CABAC;Unary 码;kth Exp-Golomb 码;位平面 - I - 哈尔滨工业大学工学硕士学位论文 Abstract With the development of the communication technology in recent years, the high resolusion digital video is used more and more widely, so the research on more efficient video coding technology has been a hot point. Context-based adaptive binary arithmetic coding (CABAC) has been a normative scheme of entropy coding in video coding standards such as H.264, AVS, for its excellent coding efficiency. H.264/AVC and AVS are the new generation of video coding standard, and its compression performance has led it to the most efficient video coding project. So we first carried on the research of H.264/AVC, and put emphasis on its arithmetic coding. By careful analysis, we found that the binarization of the syntax element is a neglected process in CABAC, and the binarizations property will directly affect the coding efficiency. The Unary code is applied in the binarization of the translation coefficients in the national standard AVS. It is preponderant for the small values, but will bring more redundancy for the bigger ones. So the Exp-Golomb code is introduced for the redundancy reduction. This paper presents a algorithm that combined Unary code and Exp-Golomb code. It switched separately in consideration of the difference between luma and chroma coefficients, instead of setting a marking bit which will bing loss at the same time, and also added some corresponding context models. It had been tested on SD, HD and CIF, three types of sequence, and the bitrate had been saved by 1.24134%, 0.10016% and 0.16029% on average. So it is proved that the performance of CABAC could be improved as expected, by integrating the offered binarization algorithm into it. Next, it is observed that it is in a high probability that the abslevel turns out to be 1. So theres a great correlation among the second bitplane. So we offered a new arithmetic coding scheme in which the design of context models is based on level and bitplane. Considering the difference between luma and chroma coefficients, we will make it separately. The 2th order modeling idea of AVS standard is adopted in this scheme, and the context models are mainly partitioned by the bitplane. We will make the context models more detailed for the first and - II - 哈尔滨工业大学工学硕士学位论文 the second bitplane, because of their great correlation and quantities of data. At last, the updating of the probability is set differently as the probability varies separately. The bitrate on SD, HD and CIF, three types of sequence has been reduced by 0.09115%, 0.06825% and 0.09171% in this arithmetic coding scheme. Keywords Video coding, CABAC, Unary code, kth Exp-Golomb code, bitplane - III - 哈尔滨工业大学工学硕士学位论文 目录目录 摘要.I Abstract. II 第 1 章 绪论.1 1.1 课题背景.1 1.2 视频编码标准发展历程.3 1.3 本文的研究内容.6 1.4 章节安排.7 第 2 章 视频编码系统.8 2.1 视频编码器框架.8 2.2 视频编码技术.9 2.2.1 变换编码.11 2.2.2 预测编码.12 2.2.3 熵编码.13 2.3 视频熵编码技术.15 2.3.1 信息理论基础.15 2.3.2 Huffman编码 .16 2.3.3 算术编码.17 2.4 本章小结.19 第 3 章 当前视频编码标准中的CABAC技术研究.20 3.1 块系数编码.20 3.1.1 H.264/AVC中块系数的编码.21 3.1.2 AVS中块系数的编码.22 3.2 H.264 中的基于上下文的自适应算术编码器(CABAC) .23 3.2.1 二值化.24 3.2.2 上下文建模.24 3.2.3 自适应二元算术编码器.25 3.3 AVS中的基于上下文的自适应算术编码器(CABAC).27 3.3.1 二值化.27 3.3.2 上下文建模.28 3.3.3 自适应二元算术编码.29 - IV - 哈尔滨工业大学工学硕士学位论文 3.4 本章小结.31 第 4 章 块系数二值化算法的设计.32 4.1 Unary码与kth Exp-Golomb码.32 4.1.1 Unary码.32 4.1.2 kth Exp-Golomb码.33 4.1.3 Unary码与Exp-Golomb码的二值化效率比较.34 4.2 算法具体设计.35 4.2.1 zig-zag扫描.35 4.2.2 二值化算法.35 4.2.3 上下文建模.38 4.3 实验结果.38 4.3.1 SD序列.38 4.3.2 HD序列.39 4.3.3 CIF序列.39 4.4 本章小结.40 第 5 章 基于上下文的算术编码器的设计.41 5.1 基本思想.41 5.2 基于上下文的算术编码器的设计.43 5.2.1 上下文模型的建立.43 5.2.2 概率更新.45 5.3 实验结果.48 5.3.1 SD序列.48 5.3.2 HD序列.48 5.3.3 CIF序列.49 5.4 本章小结.49 结论.51 参考文献.52 攻读学位期间发表的学术论文.56 哈尔滨工业大学硕士学位论文原创性声明.57 哈尔滨工业大学硕士学位论文使用授权书.57 哈尔滨工业大学硕士学位涉密论文管理.57 致谢.58 - V - 哈尔滨工业大学工学硕士学位论文 第第1章 绪论章 绪论 1.1 课题背景课题背景 近年来,随着电子、计算机、通讯技术的迅速发展,使得建立在此基础上的音视频编解码技术的应用越来越广泛,从家庭娱乐到专业的通信设备、从廉价的消费电子产品到昂贵的专业级专用设备,应用的例子不胜枚举,如VCD、DVD、可视电话、手机视频、视频会议、IP上的视频服务、数字图书馆、数字电视、高清晰电视、数字图像监控、网络摄像机、电视演播室14等等,这一系列的应用与服务已经成为信息时代的明显标志。 有专家曾经强调过: “标准化是产业化的前提” 。所以一项技术,在能够广泛应用于工业生产,广泛应用于生活中之前,必须有个全世界统一的工业标准。所以,众多压缩编码的归宿是一个国际标准。为协调不同国家和地区的兼容性,也为制造行业提供技术解决方案,国际标准化组织(ISO)及国际电子学委员会(IEC)于 1988 年成立了运动图像专家组,简称MPEG(Moving Picture Experts Group),并相继制定了一系列视音频编码国际标准。其中,针对最高码率 1.5Mbits的数字存储媒体应用,于 1992 年发布了MPEG-15标准,MPEG-1标准被广泛应用于视音频媒体的存储,如VCD;MPEG又于 1994 年发布了MPEG-26标准,应用于码率在 6Mbits以上的数字电视及高清晰度数字电视(HDTV)格式视音频的编码,MPEG-2 标准得到了广泛的应用,已经成为数字存储媒体、数字电视广播、宽带通信等应用的普遍遵循的规范。MPEG-47,8标准在计算机、通信、娱乐相融合的应用背景下,采用基于对象、基于模型的第二代编码技术,提供了基于内容的交互功能,为今后更灵活的视音频编码应用提供了一个庞大的工具集合。几乎是同步的,另一个组织CCITT(International Telegraph and Telephone Consultative Committee-国际电话电报委员会)9,后改名 为 国 际 电 信 协 会 (ITU-T International Telecommunications Union-Telecommunication Sector)针对低码率视频通信应用,先后发布了H.26110、H.26311等低码率下视频编码方案,被应用于可视电话、视频会议等应用场合。这一系列视音频编码标准都有一个共同的不断追求的目标,即在尽可能低的码率(或存储容量)下获得尽可能好的图像质量。而且,随着市场对图像传输需求的增加,如何适应不同信道传输特性的问题也日益显现出来,为了解决- 1 - 哈尔滨工业大学工学硕士学位论文 这些问题,ISO/IEC和ITU两大国际标准化组织联手制定了视频新标准H.26412。这些标准的制定极大的推动了视音频编码技术的发展,同时更为信息产业的进步注入了强大的动力。 音视频编码压缩技术作为整个产业依赖的共性技术,音视频产业进入数字时代的关键技术,成为近 20 年来数字电视以及整个数字音视频领域国际竞争的热点。直接面向产业的数字音视频编码标准更是热点中的焦点。正是因为其极端重要性,国际上很多企业纷纷将自己的专利技术纳入国际标准,也有部分企业借此而提出了越来越苛刻的专利收费条款。比专利费问题更为严重的是,标准作为产业链的最上游,将直接影响芯片、软件、整机和媒体文化产业运营整个产业链条。要培育健康的、能够良性发展的数字化音视频产业,必须拥有自主知识产权的标准。于是,在 2002 年 6 月,经国家信息产业部科学技术司批准成立了数字音视频编解码技术标准化工作组。2003 年,国家发展改革委员会批准了数字音视频编解码技术标准 AVS 研究开发与测试验证重大专项。在国内外上百家企业和科研单位共同参与下,AVS 标准制定工作进展顺利,其中最重要的视频编码标准于 2005 年通过国家广电总局测试,2006 年 1月得到信息产业部批准,2 月国家标准化管理委员会正式颁布,3 月 1 日起实施。继视频部分后,音频、移动视频、系统、数字版权管理等部分将相继审批、发布。 AVS 用近四年的实践首次证明了“采用主流技术路线,妥善解决专利问题”制定重大标准的可行性问题。以 AVS 视频为例,自主技术和公开技术解决了标准的绝大多数技术问题,与未授权专利交叉的风险很小。凭借自主技术的明显优势地位和公平合理的“AVS 专利池”统一许可模式,AVS 能够妥善解决知识产权问题。AVS 面向标清的数字电视传输系统能够直接提供高清电视服务,从而能够建立自主的直播卫星系统和高清晰度广播系统,而且支撑网络电视和手机电视等;运营商不必再为选择国际标准而背负巨额专利包袱;与新一代光技术结合,制造出新一代高清晰度激光视盘机等等,这些都为我国数字音视频产业的跨越发展提供了难得契机。 AVS 对我国数字化音视频产业的发展具有基础意义。AVS 最直接的产业化成果是未来 10 年我国需要的数亿颗解码芯片,最直接效益是节省超过每年数十亿美元的专利费。 - 2 - 哈尔滨工业大学工学硕士学位论文 1.2 视频编码标准发展历程视频编码标准发展历程 近 10 年来,视频编码技术的制定得到了迅速发展和广泛应用,并且日臻成熟,其标志是多个视频编码的国际标准的制定,即 ISO/IEC 关于活动图像的编码标准 MPEG-1、MPEG-2、MPEG-4(2)、MPEG-4(10)等,以及 ITU-T 制定的视频编码标准 H.26X 系列。这些标准融合了各种性能优良的图像编码算法,代表了目前视频编码技术的发展水平。表 1-1 按时间顺序给出了各种视频压缩编码的国际标准。 表 1-1 视频压缩标准的发展历程 Table 1-1 Development of video coding standards 发布日期 制订组织 应用场合 H.261 1990.12 ITU-T ISDN(综合业务数字网)视频会议 MPEG-1 1992.11 ISO/IEC VCD、光盘存储、家用视频、视频监控等 MPEG-2 (H.262) 1994.11 ITU-T & ISO/IEC 数字电视、DVD、高清晰度电视、卫星电视等 H.263 1996.3 H.263+ 1998.1 ITU-T 桌面可视电话、移动视频等 MPEG-4 1999.5 ISO/IEC IP网、交互式视频、移动通信、专业视频等 H.263+ 2000.11 ITU-T 桌面可视电话、移动视频等 H.264/AVC 2003.3 数字视频存储以及IPTV、数字卫星广播、手机电视 ITU-T & ISO/IEC H.261 是最早出现的实用的视频编码建议,目的是规范ISDN上的会议电视和可视电话应用中的视频编码技术。它采用的算法结合了可减少时间冗余的帧间预测和可减少空间冗余的DCT变换的混合编码方法,和ISDN信道相匹配。其输出的码率p64kbit/s,取值较小时,只能传输清晰度不太高的图像,适合于面对面的电视电话;值取较大时(如),可以传输清晰度较好的的会议电视图像。此外,在H.261 建议中还首次提出了宏块(MacroBlock)的概念pp6p 13及针对宏块编码的CBP(Coded Block Pattern)技术14,这些高效的技术在后续的- 3 - 哈尔滨工业大学工学硕士学位论文 视频编码标准中也都得到了采纳。 MPEG-1 标准的码率为 1.2Mbit/s 左右,可提供 30 帧 CIF 质量的图像,是为 CD-ROM 光盘的视频存储和播放所制定的。MPEG-1 标准视频编码部分的基本算法与 H.261、H.263 相似,也采取了帧间块运动估计编码结合 DCT 变换编码,并都采用 2D-VLC 对量化后系数进行熵编码。但 MPEG-1 针对码率在1.5Mb/s 的光盘存储等应用,需满足快速浏览及视频内容运动速度较快的编码要求,因此 MPEG-1 的技术是 H.261 的超集,其中最根本的区别是 MPEG-1 标准引入帧间双向预测编码,这在 H.261 中是没有的。表 1-2 列出了 MPEG-1 标准与 H.261 建议部分技术差异。 表 1-2 H.261 建议与 MPEG-1 视频编码标准技术比较 Table 1-2 Comparison of technics between H.261 and MPEG-1 H.261建议 MPEG-1视频编码标准 顺序存取 顺序存取/随机存取 只支持CIF及QCIF格式视频编码 灵活图像尺寸 运动估计精度为1个像素 运动估计精度可为1/2像素 运动估计范围为+/-15像素 扩展运动估计范围 可变阈值+均匀量化 采用量化矩阵 宏块组(GOB)结构 条带(Slice Structure)结构 无 帧间编码包含双向预测技术 无 采用GOP结构 有信道编码 无 由于 MPEG-2 标准针对标清、高清视频广播应用,而广播视频信号具有隔行扫描特性,因此相对于 MPEG-1 标准,MPEG-2 标准的最大特色是提供了场编码所需要的技术,这包括基于场的运动估计、DCT 变换及适合场视频编码的交替扫描(Alternate Scan)技术。此外,MPEG-2 标准还引入编码的可分级性技术如空间可分级性、时间可分级性和信噪比可分级性等,以针对不同场合的应用。 H.263 建议的是低码率图像压缩标准,在技术上是 H.261 的改进和扩充,支持码率小于 64kbit/s 的应用。但实质上 H.263 以及后来的 H.263+和 H.263+已发展成支持全码率应用的的建议。相对于 H.261 建议,H.263 建议运动估计采用 1/2 像素精度,运动向量编码采用差分编码方式。编码时可选择无约束运- 4 - 哈尔滨工业大学工学硕士学位论文 动矢量(Unrestricted Motion Vector),即运动估计范围可超出图像大小,而且在高级预测模式中(Advanced Prediction Mode),用 4 个 88 子块的运动矢量代替1 个 1616 宏块的运动矢量,并采用重叠块运动补偿技术(Overlapped Block Motion Compensation)。这些技术较大的提高了编码效率。H.263+建议支持灵活的图像格式并增加了可分级技术等。但是由于 H.263 标准还只是以像素块为基础的第一代编码技术标准,没有在以显示器件为图像/视频系统的最后环节中考虑人眼视觉特性对编码图像的影响,因此第二代编码技术就提出了要充分利用人类视觉系统和心理特性以及信源各种性质的要求,即是要基于内容的,去掉的是图像/视频信号内容的冗余部分,其中基于对象的方法称为中层压缩编码方法,基于语义的方法称为高层压缩编码方法。 MPEG-4 标准的制定目标是提供更多更灵活的视音频交互功能,因此采用了基于对象(VOP: Video Object Plane)的编码方式。基于对象的编码分别对对象的轮廓、纹理及运动信息编码,但在实际应用中,只有 S(Simple Profile)及ASP(Advanced Simple Profile)档次得到应用,即任意形状的对象退化为规则的方块。在这两个档次中,没有双向预测及场编码技术,技术的细化与 H.263 类似。 H.264/AVC视频编码标准是ITU的VCEG(视频编码专家组)和ISO/IEC的MPEG(活动图像编码专家组)的联合视频组(Joint Video Team, JVT)开发的一个新的数字视频编码标准,它既是ITU的H.264,又是ISO/IEC的MPEG-4 的第十部分。H.264 和以前的标准一样,也是DPCM加变换编码的混合编码模式。但它采用“回归基本”的简洁设计,不用众多的选项,获得比H.263+好得多的压缩性能,加强了对各种信道的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;应用目标范围较宽,以满足不同速率、不同解析度以及不同传输(存储)场合的需求。在技术上H.264 采用灵活块大小(最小 44)运动估计、1/4 像素运动估计精度、无约束运动矢量、多参考帧运动估计、率失真模式选择、增强的skip及direct帧间模式、帧内编码空间方向预测、环内去块效应滤波、44 整数DCT变换、基于上下文的变长编码及基于上下文的算术编码。这些技术极大的提高了编码效率,表 1-3 列出了MPEG-2、H.263 HLP、MPEG-4 ASP及H.264/AVC的编码效率比较15,其中H.263 HLP表示H.263 的High-Latency Profile。H.264 的码流结构对网络的适应性强,增加了差错恢复能力,能够很好地适应IP和无线网络的应用。 总之,H.261 建议是视频编码的经典之作,H.263 是其发展,并将逐步在实际应用中取而代之,主要应用于通信方面,但 H.263 的众多选项往往令使用 - 5 - 哈尔滨工业大学工学硕士学位论文 表 1-3 视频编码标准编码效率比较 Table 1-3 Comparison of coding efficiency between video coding standards 平均码率节省,相对于: MPEG-4 ASP H.263 HLP MPEG-2 H.264/AVC 39% 49% 64% MPEG-4 ASP - 17% 43% H.263 HLP - - 31% 者无所适从,MPEG 系列标准从针对存储媒体的应用发展到适应传输媒体的应用,其核心视频编码的基本框架是和 H.261 一致的,其中引人注目的 MPEG-4的“基于对象的编码”部分由于尚有技术障碍,目前还难以普遍应用,而从此基础上发展起来的新的视频编码建议 H.264 克服了两者的弱点,在混合编码的框架下引入了新的编码方式,提高了编码效率,面向实际应用。 1.3 本文的研究内容本文的研究内容 从表 1-3 中我们可以看到,相对于 MPEG-2 标准,在相同信噪比的情况下,H.264/AVC 编码标准可以将编码效率提高一倍以上。这样,虽然 MPEG-2标准在通信、广播等应用领域已经得到广泛应用,但是制定近 10 年的 MPEG-2 标准技术已经相对落后,针对高清晰度电视广播等应用,MPEG-2 标准已经不是最佳的技术解决方案。针对此种技术需求,同时也为我国高清晰度高密度音视频编码标准的制定提供技术方案,本文对视频编码中的关键技术-熵编码技术进行了研究。本文的具体研究内容包括: (1) 对 H.264/AVC 和 AVS 编码标准中的熵编码技术进行研究。基于上下文的自适应二进制算术编码(CABAC)以其高效的编码优势,被 H.264、AVS 等视频标准纷纷采用,成为主要的熵编码方案。因此对这两个标准中的CABAC 技术的分析研究,对本文算术编码器的设计具有借鉴意义。 (2) 针对 AVS 标准中采用单一的 Unary 码进行二值化造成很大的冗余,从而影响了 CABAC 的编码效率的情况,引入 Exp-Golomb 码来二值化较大的变换系数。提出了一种 Unary 码和 Exp-Golomb 码相结合的的二进制化算法,该算法避免了设立标志位所带来的附加损耗,分别针对于 level 值中的luma 系数和 chroma 系数的概率分布特点,采取了不同的自适应切换设- 6 - 哈尔滨工业大学工学硕士学位论文 置,并且增加相应的概率模型。 (3) 高效算术编码器的设计。设计将在 88 块基础上做,将 level 和 bitplane 结合起来考虑,分析 level 二值化后各个 bitplane 的分布的统计特性,建立复合上下文,自适应概率更新的 context model,以进一步提高编码效率。 1.4 章节安排章节安排 本论文的章节安排如下: 第二章对视频编码系统做出大致的了解,首先给出视频编码框架,然后分析了主要的视频编码方法,最后深入研究了熵编码的几种算法。 第三章首先结合 H.264/AVC 和 AVS 视频编码标准对视频编码中的块系数编码方案进行分析,之后分别对 H.264/AVC 标准和 AVS 标准中的 CABAC 技术进行了深入研究。 第四章首先系统地研究了 Unary 码和 Exp-Golomb 码各自的特点,并分别统计分析了 luma 系数和 chroma 系数的分布,提出了一种 Unary 码和 0 阶 Exp-Golomb 码自适应切换的二值化方法,该算法充分地利用了 Unary 码和 0 阶Exp-Golomb 码各自的优势,并且对 luma 系数和 chroma 系数分别设定阈值,在不增加复杂性的情况下,使二值化算法能更加合理的处理变换系数,提高编码效率。最后给出实验结果。 第五章设计高效的算术编码器。研究不同 level 二值化后的各个 bitplane 的分布的统计特性,设计一种结合 level 和 bitplane 建立 context model 的算术编码器,并且设定相应的概率更新条件,最后给出实验结果。 - 7 - 哈尔滨工业大学工学硕士学位论文 第第2章 视频编码系统章 视频编码系统 在广播电视、网络流媒体、视频会议、视频监控等视频传输系统中,视频编码系统处在信源编码的位置,如图 2-1 所示,其功能就是去除视频这种信源符号序列之间的信息冗余,对视频数据进行高效表示。 图 2-1 视频传输系统 Figure2-1 Video transmission systerm 视频的信息冗余主要包括空间冗余、时间冗余、人类视觉冗余及统计冗余。空间冗余是指视频序列的每帧图像在很多区域有很强的相关性,如相似的纹理结构;时间冗余是指视频序列的前后帧图像有很强的相似性,在很多情况下前后帧图像相差的仅是前景物体的位置移动;人类视觉冗余是指人类的视觉系统对视频的高频信息及纹理一致区域的变化不敏感,视频的这部分信息对人眼来说是冗余的;统计冗余也就是信源的信息熵冗余。视频编码系统中的各主要编码技术便是解决以上几方面的信息冗余问题。 2.1 视频编码器框架视频编码器框架 H.264/AVC 视频编码器框架如图 2-2 所示,其他视频编码标准的编码器框架与此基本一致。从图中可以看到,视频编码系统是一个混合编码系统,主要包括预测编码(帧内预测、帧间运动估计与补偿) 、变换编码及熵编码。 视频编码的基本流程为,首先将视频序列的每一帧划分为固定大小的宏块,通常为 1616 像素的亮度分量及 2 个 88 像素的色差分量,之后以宏块为单位进行编码。对视频序列的第一帧及场景切换帧或者随机读取帧采用 I 帧编码方式,I 帧编码只利用当前帧内的像素作空间预测。其大致过程为,利用帧内先前已经编码块中的像素对当前块内的像素值作出预测(对应图 2-2 中的帧内预测模块) ,将预测值与原始视频信号作差得到预测残差,再对预测残差进行变换、量化、扫描及熵编码形成编码码流。对其余帧采用帧间编码方式,包括前向预测 P 帧(Prediction Frame)和双向预测 B 帧(Bidirectional Prediction Frame),帧间编码是对当前帧内的块在先前已编码帧中寻找最相似块(运动估计)作为当前块的预测值(运动补偿) ,之后如 I 帧的编码过程对预测残差进- 8 - 哈尔滨工业大学工学硕士学位论文 行编码。 图 2-2 视频编码器框架 Figure 2-2 The basic framework of video coder in H.264/AVC 编码器中还内含一个解码器,如图 2-2 中虚线内所示。内嵌的解码器模拟真正解码器的解码过程,以获得解码重构图像,作为编码下一帧或下一块的测参考。解码步骤包括对变换量化后的系数进行反量化反变换得到预测残差,之后预测残差与预测值相加经滤波去除块效应后得到解码重构图像。 2.2 视频编码技术视频编码技术 视频编码是降低数字视频序列比特殊的过程,其分类如图 2-3 所示。在基于统计的编码方法中,有 PCM、量化、预测编码、变换编码、子带编码、小波变换编码、哈夫曼编码、算术编码、游程编码。在基于重要性和基于内容的编码方法中有滤波、子采样、比特分配、物体形状提取、物体形状编码、运动估计、运动补偿、纹理编码等等。 大体上说来,图像编码和其他编码的基本方法是相似的,但对于数字图像来访有它独特的地方。比如,图像中区域内部点的相关性很大,这样对于变换- 9 - 哈尔滨工业大学工学硕士学位论文 编码来说就会更有用。因为,相关性很大的意义就是信息量有冗余。 图 2-3 视频编码分类 Figure2-3 The classificaton of video coding 1985 年M.Kunt利用人眼视觉特性提出第二代编码技术1617,其基本思想是考虑人眼对轮廓、边缘的特殊敏感性和方向感知特性提高压缩比。在此推动下,发展了基于对象的编码,即将视频分解为纹理、轮廓、运动信息,并分别编码。随后又发展了基于模型的编码方法,即在编码端和解码端建立相同的模型,用模型分析输入的视频序列,提取出模型参数,对模型参数编码。基于对象的编码和基于模型的编码在MPEG-4 标准中得到了应用。 虽然这些技术在某些特定情况下取得了较高的压缩比和较好的视觉效果,如对头肩视频序列的编码,但局限性很强,对于视频内容及运动更一般的情况,压缩效果不好。因此,得到广泛应用的视频压缩标准都采用了所谓的第一代编码技术。第一代编码技术基于信号理论,所操作的对象是以块为单元的像- 10 - 哈尔滨工业大学工学硕士学位论文 素集合,这些主体编码技术就是从 50 年代发展起来的变换编码、预测编码及熵编码这三大类经典视频编码技术。其中的预测编码、变换编码等则属于熵压缩,而熵编码属于冗余度压缩。 2.2.1 变换编码变换编码 视频序列的每帧图像可以看作二维离散时变信号,因此可用频谱分析技术对图像进行处理。而且在 1965 年左右,研究者们开始认识到对视频信号的频域系数编码将更加有效。这是因为,(1)对图像进行正交变换可以去除空间像素之间的相关性,也就是变换后的频域系数是图像信息的更加紧凑的表示,这有利于编码压缩;(2)正交变换使得原先分布在每个像素上的能量集中到频域的少数几个低频系数上,这代表了图像的大部分信息,而频域的高频系数值较小是与大多数图像的高频信息较少相一致的,因此频域系数的性质有利于采用基于人类视觉特性的量化方法,如对低频系数采用小的量化步长以保持大部分信息不丢失,而对高频系数量化的大一些,虽然信息损失较多,但人的视觉对此部分信息损失不敏感。基于以上认识,研究者们开始寻找适合于图像编码的变换矩阵。变换方式的选择取决于以下几个准则: 1. 变换域的数据必须是不相关的(正交分量) 、紧凑的(主要能量集中在少数几个分量上) ; 2. 变换具有可逆性; 3. 变换具有可实现性(对内存要求低,限定算法精度,运算量较低等) 。 1968 年,Andrews和Pratt研究了傅利叶变换18。起初他们对 512512 像素的整幅图像进行傅利叶变换,但这样计算复杂度非常高,同时也没有必要,因为距离 16 个像素以上的像素之间的相关性已经很小。所以他们将图像分成块,以块为单位进行变换编码。傅利叶变换是一种复变换,因此其缺点是计算复杂度高,不易实时处理。随后,1969 年Andrews和Pratt研究了只有加法和减法操作的Hadamard变换19,但Hadamard变换的基函数是方块波,这与实际的视频性质不一致,因此采用Hadamard变换编码有块效应,视觉质量不好。与此同时,Habibi和Wintz在 1969 年研究了K-L(Karhunen-Loeve)变换20,K-L变换是理论上的最佳变换,但K-L变换需准确知道块系数的协方差矩阵,如果将此部分信息传输给解码端则代价太高,如果事先统计出协方差矩阵,则全局的统计数据不能很好的吻合编码过程中的局部统计特性,达不到K-L变换的性能,所以K-L变换也没有进入实际应用。真正的突破是 1974 年Ahmed等人提出的离- 11 - 哈尔滨工业大学工学硕士学位论文 散余弦变换(DCT-Discrete Cosine Transform)21。理论上DCT变换性能接近K-L变换,且基函数为余弦波,这体现了实际视频的性质,不会带来块效应,同时DCT变换具有快速算法。因此,DCT变换在视频编码中得到广泛应用,成为视频编码标准中的根本性技术。 变换系数的经典编码策略是 1969 年Pratt和Andrews所提出的区域编码和阈值编码22。区域编码是对事先指定区域的系数进行编码,而区域外的其他系数不编码。由于低频系数含有图像的大部分信息,因此编码区域总是在块的左上角。区域编码的好处是编码简单不需传送额外信息,但如果高频系数出现大值,则会损失较多高频信息,使解码图像的边缘平滑模糊,视觉质量下降。阈值编码是对块中大于某一值的所有系数进行编码,相对于区域编码其有一定的自适应性,但需传送系数的位置信息。视频编码标准中采用阈值编码,阈值设为 0,即对块中所有非零系数进行编码,对系数的组织通常采用zig-zag扫描技术23,可参考 4.2.1 节。 2.2.2 预测编码预测编码 通常,图像具有很好的连续性,也就是说,可以通过对一个或多个像素的观测预测出它们相邻像素的大概取值。这种思想导致产生了预测编码。预测编码分为线性预测和非线性预测。1952 年贝尔实验室Cutler等人实现的差值脉冲编码调制(DPCM, Differential Pulse Code Modulation)系统24,就是属于线性预测,其基本思想是不对信号直接进行编码,而是用前一信号对当前信号做出预测,即对当前信号和前一信号的差值进行编码传送,同年Oliver25和Harrison26将DPCM技术应用到视频编码中。DPCM技术在视频编码中的应用分为帧内预测技术及帧间预测技术,分别用于消除空间及时间上的数据冗余。帧内预测通常有两种形式,一个为时域系数的预测,如在H.264/AVC27标准中所采用的块系数预测方法,一个为频域系数的预测,如MPEG-4 标准中块系数DCT变换后DC系数及部分AC系数的预测方法。帧间预测技术的发展经历了条件更新(Conditional Replenishment)、3D-DPCM、基于像素的运动估计及基于块的运动估计几个阶段,最终确定基于块的运动估计技术是最佳方案。现代视频编码标准都采用了基于块运动补偿的帧间预测技术,用于消除帧间数据冗余,并与变换编码技术相结合构成混合编码系统,这一编码构架在现代视频编码标准中都得到了采用。 1952 年Harrison26对帧内预测技术进行了研究,其方法是用先前已编码像- 12 - 哈尔滨工业大学工学硕士学位论文 素的加权和作为当前像素的预测值,研究中比较了一维(行内像素)DPCM技术及二维(多行内的相邻像素)DPCM技术的性能。在随后的十几年中,贝尔实验室的研究者们对空间DPCM技术进行了广泛的研究,1971 年Connor等人的文章28对这些技术进行了比较和总结。 1962 年Seyler发表的关于帧间编码研究的文章29奠定了现代帧间预测编码的基础。他提出视频序列相邻帧间存在很强的相关性,因此对视频序列编码只需编码相邻帧间的差异,并指出相邻帧间的差异是由于物体的移动,摄像机镜头的摇动及场景的切换造成的。在此基础上,1969 年贝尔实验室的Mounts30实现了一个简单的帧间条件更新(Conditional Replenishment)编码系统。此系统以像素为单位,如果相邻帧间像素的差值大于某一阈值,则编码此差值,阈值的大小由编码系统输出码流缓冲区的饱和度来决定。随后其他学者的研究进一步完善了此系统,并提出 3D-DPCM技术,即当前帧像素的值由前一编码帧和当前帧的相邻像素来预测,这一技术当物体运动幅度较小时编码效果较好。在以上研究的基础上,70 年代日本的NEC和NTT公司分别搭建了视频编码原型机,码率可以达到 1.5Mb/s。 为进一步提高编码效率降低码率,帧间的预测需要更加准确,这就需要对帧间物体的运动进行建模与测量,并通过运动补偿更好的降低相邻帧间的相关性。Rocca等人3132首先对基于运动补偿的帧间预测编码进行了研究。他们的方法是根据纹理的一致性将图像分成若干区域,并认为每个纹理一致的区域具有相同的运动,可以用一个运动矢量来描述。Netravali和Robbins提出像素递归算法33(PRA: Pixel-Recursive Algorithm),通过一个局部算子计算每个像素的运动,解码器也完全重复这一过程,所以不需传递运动信息。以上算法编码头肩视频序列效果较好,但对于更一般的视频序列编码效率不高,同时计算复杂度也高。一种更简单有效的运动估计方法在 1974 年由Y.Taki等人34提出,这就是将图像分成规则大小的块,以块为单位进行帧间运动估计与补偿。这一方法易于操作而且有效,因此现代的视频编码标准都普遍采用了这一方法。在此后的研究中,研究者们致力于提高运动估计的速度,提出了三步搜索35等快速运动估计算法。 2.2.3 熵编码熵编码 熵编码属于统计编码,建立在香农信息论36的基础上,是一种无损压缩。现在的熵编码主流技术包括变长编码(Variable Length Coding)和算术编码- 13 - 哈尔滨工业大学工学硕士学位论文 (Arithmetic Coding)。变长编码的基本思想是为出现概率大的符号分配短的码字,为出现概率小的符号分配长码字,从而达到总体平均码字最短。有代表性的变长码是 1952 年哈夫曼提出的Huffman码37,可以证明,对于给定的信源及其概率分布,Huffman码是最佳码。除了哈夫曼和基于哈夫曼的编码,还有很多其他形式的VLCs38可能被用于视频编码的应用。基于哈夫曼的编码对传输错误非常敏感纠错能力很差。VLCs序列中的一个小错误就可能打乱解码端的同步,产生错误扩散,影响解码器的正确解码;可逆VLCs(RVLCs)可以从正反两个方向解码,具有一定的纠错性。预先定义码表的一个缺点是编码器和解码器必须对其进行存储。如果输入符号是已知的,可以采用自生成码字来避免这个问题,指数哥伦布码就是其中的一种。算术编码的思想与变长码不同,算术编码计算输入符号序列的联合概率,将输入符号序列映射为实数轴上0区间内的一个小区间,区间的宽度等于该序列的概率值,之后在此区间内选择一个有效的二进制小数作为整个符号序列的编码码字。可以看到算术编码是对输入符号序列进行操作,而非单个符号,因此算术编码是将数据符号映射成一个小数,其比特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论