已阅读5页,还剩61页未读, 继续免费阅读
(电路与系统专业论文)视频编码技术及基于块匹配的运动估计搜索算法的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
兰州大学硕士学位论文 摘要 数字视频处理技术的研究不仅具有很大的理论意义,更具有迫切的现实意 义。数字视频技术是网络应用、移动通信、信息家电等领域的核心技术之一。数 字视频压缩编码技术集各种高效可行的图像编码技术于一体,是图像编码技术向 实用化发展的典范。 本文对数字视频压缩编码技术作深入研究,概述和总结了视频编码标准 m p e g - 4 及h 2 6 4 ,重点分析数字视频处理的关键技术运动估计与补偿,总 结传统运动估计快速搜索算法,深入研究高性能运动估计搜索算法中的p d s 、 m v f a s t 、p m v f a s t 、e p z s 算法,这些算法集区域搜索、运动场自适应预测、 简化搜索模式等技术于一起,算法性能比传统快速搜索算法有很大提高,其中 p m v f a s t 、e p z s 算法己被视频编码标准m p e g - 4 及h 2 6 4 所采纳。 在深入研究的基础上,本文提出了对运动估计快速搜索算法在匹配值计算方 面的改进策略,这种改进是继阈值处理的早期终止准则用于改进所有传统快速搜 索算法之后又一新的尝试,对快速搜索算法及中低运动特性的视频序列具有广适 应性。由实验结果可见,改进算法在没有增加算法复杂度及p s n r 下降较小的前 提下,编码速度提高非常显著。以较小的视频质量下降换取编码速度的大幅度提 高,这是值得的,也符合快速运动估计搜索算法的研究思想。这种改进在高性能 运动估计快速搜索算法的研究上具有独创性和开拓性,并具有较大的工程实用价 值。 关键词:数字视频处理块匹配运动估计搜索算法视频编码标准 m p e g 4h 2 6 4 兰州大学硕士学位论文 a b s t r a c t d i g i t a lv i d e op r o c e s s i n gt e c h n o l o g yi so n eo f t h ek e yt e c h n i q u e so fi n t e m e t , m o b i l ev i d e oc o m m u n i c a t i o na n dp e r s o n a lm u l t i m e d i aa p p l i a n c ee t c ,t h e s t u d yo n w h i c hi sn o t o n l ys i g n i f i c a n t f o ri m a g ec o d i n gt h e o r yr e s e a r c hb u ta l s o u r g e n t l y n e e d e df o ro u rm o d e m s o c i e t y v i d e oc o d i n g i sa l li n t e g r a t e dt e c h n i q u eo f a l le f f i c i e n t a n d a p p l i e di m a g e - c o d i n g m e t h o d s i nt h i sp a p e r ,t h ed i g i t a lv i d e oc o d i n gt e c h n i q u ei s a n a l y z e da n ds t u d i e d ,t h e v d e oc o d i n gs t a n d a r d s ,m p e g 一4a n dh 2 6 4a l es u m m a r i z e da sw e l l ,a n dt h es t r e s s e s a r em a i n l y p u to np r e d i c t i v ec o d i n g ,e s p e c i a l l yt h ei n t e r - p r e d i c t i v ec o d i n g i nt e r m so f t h em o t i o ne s t i m a t i o na n dm o t i o nc o m p e n s a t i o n ,t h et r a d i t i o n a lb l o c k m a t c h i n g m o t i o ne s t i m a t i o na l g o r i t h m sa r e g e n e r a l i z e d ,a n dt h ee n h a n c e db l o c km a t c h i n g m o t i o ne s t i m a t i o na l g o r i t h m sa l e d e e p l yr e s e a r c h e d t h e s ee n h a n c e da l g o r i t h m s i n v o l v i n gp d s ,p m v f a s t a n d e p z s ,r e l ym a i n l yu p o nr o b u s ta n dr e l i a b l ep r e d i c t i v e t e c h n i q u e s a n d e a r l y t e r m i n a t i o n c r i t e r i a c o m p a r e d w i t ht h et r a d i t i o n a ls e a r c h a l g o r i t h m s ,t h el a t e ra r em o r es o p h i s t i c a t e da n dm a n yo ft h e mh a v eb e e na d o p t e di n t h ev i d e oc o d i n gs t a n d a r d s ,m p e g 4a n dh 2 6 4 f u r t h e r m o r e ,b a s e do nd e e pr e s e a r c h ,o n es t r a t e g yi nm a t c hv a i u ec a l c u l a t i n gi s p r o p o s e d f o r e n h a n c i n gt h e f a s ts e a r c ha l g o r i t h m s t h em e t h o di sa s i g n i f i c a n t p r o g r e s sf o l l o w i n gt h et h r e s h o l dm e t h o du s e di n a m e n d i n g a l lc l a s s i c a lm o t i o n e s t i m a t i o ns e a r c h a l g o r i t h m s ,a n d i s a p p l i c a b l e t o i m p r o v e a l lf a s t s e a r c h i n g a l g o r i t h m s o u re x p e r i m e n t sh a v ev e r i f i e dt h es u p e r i o r i t yo f t h em o d i f i e d a l g o r i t h m s , a n dt h i sb e t t e r m e n ti s p m m e t h e a nf o rt h e r e s e a r c ho fb l o c km a t c h i n gm o t i o n e s t i m a t i o na n di sa p p l i e df o rv i d e o p r o j e c t k e y w o r d s :d i g i t a i v i d e o p r o c e s s i n g b l o c km a t c hm o t i o ne s t i m a t i o n s e a r c h a l g o r i t h m v i d e o c o d i n gs t 叠n d a r d m p e g 一41 - 1 2 6 4 i l 原创性声明 本人郑重声明:本人所呈交的学位论文,是在导师的指导下独立进行 研究所取得的成果。学位论文中凡引用他人已经发表或未发表的成果、 数据、观点等,均已明确注明出处。除文中已经注明引用的内容外,不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究成 果做出重要贡献的个人和集体,均已在文中以明确方式标明。 本声明的法律责任由本人承担。 论文作者签名: 至盔氆 日期: 墨蹩:塑 关于学位论文使用授权的声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属 兰州大学。本人完全了解兰州大学有关保存、使用学位论文的规定,同 意学校保存或向国家有关部门或机构送交论文的纸质版和电子版,允许 论文被查阅和借阅;本人授权兰州大学可以将本学位论文的全部或部分 内容编入有关数据库进行检索,可以采用任何复制手段保存和汇编本学 位论文。本人离校后发表、使用学位论文或与该论文直接相关的学术论 文或成果时,第一署名单位仍然为兰州大学。 保密论文在解密后应遵守此规定。 论文作者签名:翌蕴益 导师签名:赶i 监垒日期:皂盟芏:尘1 兰州大学硕士学位论文 第一章绪论 近年来,数字通信与计算机技术飞速发展,加上超大规模集成电路技术和宽 带数字网技术的发展,使得基于英特网的多媒体业务得到进一步发展。人们对数 字视频业务如可视电话、电视会议、安全监视、远程医疗、远程教育、高清晰度 电视、视频点播和视频电子邮件等产生了越来越浓厚的兴趣。社会需求是数字视 频处理技术研究的前提和动力。 1 1 课题背景及意义 数字视频处理技术的研究具有很大的理论及现实意义。下面从产业进程、 应用领域及研究领域三方面作概括阐述。 。 1 。产业进程 理论成果的产业化是推动人类文明进步的极好例子。图像编码一系列国际 建议与标准的提出标志着图像编码技术己经成熟,开始由学术研究走向产业化, 前景十分诱人。早在1 9 9 1 年就有人预言,图像编码技术的突破具有十分巨大的 意义。其意义之大已达到可以促使现有信息产业的结构发生巨变的可能,它使通 信、广播、计算机产业的界限变得模糊了。近几年来的实践也证实了这个预言。 目前,国外已出现了有线电视公司和通信、计算机公司之间的相互合作f 甚至合 并) 的先例。现在的情况己不是简单满足某些用户图像压缩的要求,而是正在以 图像编码技术为基础,大规模地积极开拓新的产品和应用领域,并使之产业化,服 务于社会,并促进人类社会的向前发展。 2 应用领域 数字视频的应用领域宽广,下面是目前已经开始的几个方面的应用,将来还 可能会开发出我们预想不到的新型应用。 从技术的角度看主要体现在以下方面: ( 1 ) 可视通信。将数字视频技术与综合业务数字网o s d n ) 相结合,提供可 视通信( 视频会议、电视电话、远程监视及在线影院等) 功能。可视通信适用于军 事、国防、公安及个人或家庭娱乐等多方面的应用。 兰i t 大学硕士学位论文 ( 2 ) 数字电视。数字电视指从节目的制作、编辑、存储、传输以及接收全 部实现数字化。数字电视可以通过卫星、有线电视电缆、地面无线广播等途径进 行传输。数字电视具有图像质量高、声音效果好、节省带宽资源、节目更丰富等 优点,是一个市场前景非常广阔的研究及开发课题。 ( 3 ) 电子出版。电子出版物具有体积小、容量犬、保存方便、检索容易等 优点。一张普通的容量为6 5 0 m 的c d r o m 可以存储约3 亿字( 按每个汉字2 个 字节计算) 的书籍,可阻存储约5 0 多分钟采用m p e g 1 标准压缩的c i f 格式的视 频及其伴音。随着更大容量光盘的问世以及压缩技术的进步,电子出版必将成为 出版的主要方式之一。目前,v c d 和d v d 己经成为电影电视的重要出版方式。 ( 4 ) 多媒体咨询服务。使用多媒体咨询系统,人们可以方便地找到自己需 要的信息,例如新闻、金融资讯、天气预报、交通、旅游、购物、以及自己感兴 趣的电影电视节目等。 ( 5 ) 多媒体家用电器。现在v c d d v d 、数码像机、m p 3 播放机等已经走 入了人们的生活。电视计算机( t e l e c o m p u t e r ) j d 趣渐走近人们的生活。它是介于 电视和个人计算机之间的一种应用技术,将个人计算机与电视机融为一体,构成 一个多媒体工作站。 ( 6 ) 移动可视通信。利用移动通信设备同样可以传输数字图像和数字视频。 现在的移动设备可以传输简单的图像,随着技术的进步,用手机看电影、看电视 将很快成为现实。 从社会结构及应用角度看: ( 1 ) 军事上:用于机动多目标跟踪、动态图像中的目标检测、导弹动态监 控、测量遥感等方面。 ( 2 ) 工业上:用于工业测量、工业机器人、自主运载器导航等方面。 ( 3 ) 商业上:用于高清晰度电视、电视会议、视频图像传输、重要场所的 保安监控等方面。 ( 4 ) 医学上:用于生物组织( 如显微镜下的细胞和x 光或超声波下的器官) 的运动分析等方面。 ( 5 ) 气象上:用于云图的分析预报等方面。 ( 6 ) 运输上:用于交通管理、运输工具的流量监控等方面。 兰州大学硕士学位论文 此外,数字视频处理还是其它科学研究有效的辅助手段和工具,如: ( 1 ) 数字视频处理可以为流体力学中的流体形象化研究提供强有力的工具。 ( 2 ) 海水表层温度的卫星图像序列分析可用于近表海水流向的研究。 3 研究领域 数字视频处理的研究领域十分宽广,是图像处理、数字通信领域与科研产业 化的交汇点。由于其巨大的市场吸引力与社会效益,从政府到各级科研单位包括 学校都始终将其作为研究与开发的重点。下面就其研究范畴与发展趋势作一表 述。 重点集中在图像编码方面,目前的研究工作主要分为两个方向。 1 更好地实现现有的图像编码国际标准 研制出集成度更高、性能更好的图像编码专用芯片( a s i c ) ,使编码系统成 本更低,可靠性更高。几个国际标准的系统级编解码a s i c 均己推出,其中包 括对运算速度要求很高的m p e g - 2 编解码芯片。不久还将推出要求更高的 h d t v 韵单片视频编解码芯片。解决好现有图像编码系统开发中的技术问题。 例如:提高图像质量,提高抗误码能力。如果拿现在生产的符合m p e g 一1 的 v c d 图像质量和几年前m p e g 一1 刚制定时的v c d 图像质量相比,就可以看到 虽然用的是同个国际标准和同样的数码率( ( 1 5 m b p s ) ,但图像质量大大提高 了,这就是近几年来对m p e g 一1 编码器具体实现算法作深入研究的成果。国际 标准的开放性结构为这种深入的改进提供了前提,它允许人们在不影响兼容性 的前提下发挥自己的创造性,对标准中的开放部分进行改进。这些开放性部分 包括运动估计和运动补偿方法,自适应量化系数和缓存器控制策略等。在国际 标准规定的约束下,对这部分算法作更合理的细化有助于提高编解码器的性 能。如:复原图质量,提高抗误码能力等。基于高速、通用d s p 芯片的视频 编解码系统的研究也是该领域的热点之一。 2 对图像编码理论和其它图像编码新方法的研究 目前己提出和正在进行研究的图像编码方法有以下几种:多分辨率编码 最早提出的是金字塔编码,后来是子带编码,最近的小波变换图像编码。基于 表面描述的编码方法。模型编码。它可分为物体模型未知的物体基编码和物体 模型已知的语义基编码。利用人工神经网络编码。利用分形几何的图像编码。 兰州大学硕士学位论文 利用数学形态学的图像编码等。 其次,数字视频处理领域的研究和开发还体现在以下几个方面:数字视频 监控系统。视频图像采集及处理系统。m p e g 视频流转码技术的研究。基 于图像的自动跟踪控制系统的研究。运动图像检测与识别技术的研究。视频 序列中运动目标的实时分割与跟踪。视频多目标分割、宏特征描述与状态检测 技术。基于内容的视频数据检索研究。视频检索中的特征提取方法研究。 1 2 本论文的主要工作 本论文以视频编码标准及数字视频处理关键技术的研究为重点,就数字视频 处理中的运动估计和补偿等编码技术作深入分析,主要分析研究基于块匹配的运 动估计搜索算法,在算法研究的基础上,提出了对高性能运动估计搜索算法在匹 配值计算方面的改进策略,实验证明效果优异;另外,围绕符台目前研究及应用 方向的低码率视频编码标准,详细阐述在这些标准中使用的其它视频处理技术, 如基于d c t 变换的低码率视频编码等;此外,对目前的研究热点低码率视 频编码标准h 2 6 4 及m p e g - 4 作总结和概述。 本论文的内容安排如下: 第一章主要介绍课题背景、研究意义及科研动态。 第二章概述视频编码系列标准,重点阐述m p e g 4 、h 2 6 4 标准。 第三章集中分析基本视频图像编码理论及技术,阐述各方法的基本编码思想 与原理。重点分析视频编码标准中使用的统计编码及变换编码技术。 第四章集中分析研究数字视频处理理论中的运动估计与补偿技术,总结传统 快速搜索算法,给出各算法的性能对比。重点分析研究视频编码标准中使用的基 于块匹配的运动估计与补偿技术及其快速搜索算法。 第五章深入研究高性能运动估计快速搜索算法,对p d s 、p m v f a s t 、e p z s 算法作详细分析。并在研究的基础上提出了对快速搜索算法的改进策略。 第六章作总结及展望。 4 兰卅l 大学硕士学位论文 第二章视频编码标准概述 随着人们对信息类别及信息规模要求的不断提高,并伴随数字视频业务的 发展产生了一系列数字视频压缩标准【1 3 】,这些标准反过来又极大地促进了数字 视频业务的发展。该系列的建议和方案有:h2 6 1 :1 9 8 41 2 1 9 9 0 7 f 可视电话及电 视会议应用) ;m p e g 1 :1 9 8 8 1 9 9 2 1 ( 数字存储介质v c d 及音频的编码 等) ;m p e g 2 1 5 2 6 2 :1 9 8 8 1 9 9 4 ( 高清晰度数字视频编码d v d 等) :h 2 6 3 :1 9 9 5 2 1 9 9 5 6 ( 低码率视频编码) ;m p e g 一4 :1 9 9 3 9 1 9 9 8 1 1 ( 视频音频和多媒体通信) 。 h 2 6 4 项目的目的就是发展一种高性能的视频编码标准,在传统的块匹配技 术基础之上引入更灵活精确的编码方案以更利于视频技术的应用。i t u 的视频专 家组( v c e c r - - v i d e oc o d ee x p e r t sg r o u p ) 于1 9 9 7 年开始此工作并致力于发展 h 2 6 l 标准,1 9 9 8 年1 月份开始草案征集,1 9 9 9 年9 月,完成第一个草案,到 2 0 0 1 年低,鉴于h 2 6 l 软件模型的性能明显优于现有的m p e g 一4 软件模型, i s o i e c 的活动图像压缩专家组( m p e g - - m o v i n g p i c t u r e se x p e r t sg r o u p ) 组织 也加入到i t u 的v c e g ,成立了联合视频专家组( t j o i n tv i d e ot e a m ) 共 同发展h 2 6 l 标准。t 的目标就是在m p e g 及i t u t 标准的基础之上开发一 种统一可行的视频编码标准,它既是i t u _ t 的h 2 6 4 ,又是i s o i e c 的m p e g - 4 的第l o 部分。2 0 0 1 年5 月公布了其测试模型t m l 一8 ,标准的出版直到2 0 0 3 年 底才完成,这比预期的晚了一年。后来,h 2 6 l 正式更名为h 2 6 4 。 h 2 6 4 的应用面向实时视频通信、因特网视频传输、视频流媒体服务等。 从实际应用出发,本文重点介绍m p e g 4 及h 2 6 4 标准。关于m p e g 1 、 m p e g 一2 、m p e g 一7 2 1 、h 2 6 1 及h 2 6 3 标准可参阅文献 1 ,2 ,3 等。 2 1 m p e g 4 标准 在m p e g - 1 、m p e g - - 2 进入广泛的实际应用之时,m p e g 小组又于1 9 9 8 年发布 了m p e g - 4 标准的草稿。该标准对压缩算法进行了改进,以便满足低码率应用的 需求;另外,m p e g 一4 还把提高多媒体系统的交互性和灵活性作为一项重要的目 标,因此它更适合于交互式a v 服务以及远程监控。为了满足各种应用的需求, m p e g - 4 标准实际上相当庞大,它具有广泛的适应性和可扩展性。m p e g - 4 正式编 兰州大学硕士学位论文 号是i s o i e c 国际标准1 4 4 9 6 ,它是一种新型的多媒体标准,与以前标准的一 个重要区别就在于它是一个基于对象的视编码压缩标准,为互联网上传输高质量 的多媒体视频提供了很好的技术平台。m p e g - 4 是适用于“超低比特率活动图像 和语音压缩的标准”。 m p e g 一4 旨在为视音频数据的通信、存取与管理提供一个灵活的框架与一套 开放的编码工具。这些工具将支持大量的应用功能( 新的和传统的) 。尤为引人 注目的是,m p e g 一4 提供的多种视音频( 自然的与合成的) 的编码模式使图像或 视音频中对象的存取大为便利。这种视频、音频对象的存取,常被称作基于内容 的存取( c o n t e n t - b a s e d ) “。基于内容的检索是它的一种特殊形式。实际上,数 字化电视( 自然的内容) 、交互式图形应用( 合成的内容,如p c 游戏、虚拟环境 等) 及w 删( 内容的分布与存取) 这三个领域的成功促进了m p e g - 4 的诞生。m p e g 一4 将提供多个标准化技术元素,以促进上述三个领域中各种形式的内容制作、发布 与存取的集成。 1 肝e g 一4 的功能 m p e g 一4 视频编码标准支持m p e g 一1 、m p e g - 2 中的大多数功能,提供不同视频 标准源格式、码率、帧率下矩形图像的有效编码,同时也支持基于内容的图像编 码。更大特点是支持多媒体通讯中的交互式功能,以满足用户的需求。传统的交 互存取方式中,用户得到的场景是制作人员事先编排好的,用户只能对音视频序 列进行简单的回放。m p e g 一4 提出了基于内容的存取概念,努力使用户根据制作者 设计的具体自由度,与场景进行交互。用户不仅可以改变场景的视角,在其中尽情 畅游,还可以改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清 除。用户将从这些简便、灵活的交互过程中获得丰富的信息和极大的乐趣。 为了支持众多的多媒体应用,m p e g - 4 不仅保留了现有标准中的一些解决方 案,而且致力于一些新功能的研究与定义。这些新功能可划分为三大类“1 :( 1 ) 基 于内容的交互功能;基于对象的多媒体存取工具;基于对象的码率控制和编辑功 能( 提供编辑视频对象的方法) ;基于对象的时域随机存取。( 2 ) 数据压缩编码: 视频数据的高效编码;多个并发数据的有效编码。( 3 ) 通用存取功能:易错环境下 的鲁棒性;基于内容的伸缩性( 表现在时域、空间及重建图像质量上) 。m p e g - 4 对合成视频对象的支持同样引人注目:m p e g - 4 可对合成的面部与人体进行参数 兰卅l 大学硕士学位论文 化描述:对面部与身体活动信息以参数化的数据流进行描述。 简单地说,m p e g 一4 的视频部分应支持以下功能:高效压缩、基于内容的交互 ( 操作、编辑、访问等) 、基于内容的分级扩展( 空域分级、时域分级) ,以基于内 容的方式表示数据。g p e g 4 基于内容的功能支持视频对象问的分离编码和解码。 这一特点为用户的交互控制提供了最基本的机制:对压缩的图像和视频对象进行 灵活的表示与控制,而不必在接收端做进一步的分割和变换编码。 2 m p e g - 4 的语法结构 支持基于内容的独立编码和解码是m p e g - 4 视频标准新增功能的精华“1 。为 了实现基于内容的交互功能,引入了视频对象平面v o p ( v i d e oo b j b c tp l a n e ) 的概 念。v o p 的构成依赖于具体应用和系统实际所处的环境:为与原来的标准兼容,v o p 可以是一个矩形帧( 即传统的m p e g 一1 ,m p e g - 2 中的矩形帧) ;对于基于内容的表 示要求较高的应用来说,v o p 可能是场景中的某一物体或某一层面,如新闻解说 中解说员的头像等;v o p 也可以是计算机产生的二维、三维图形。在视频校验模 型中,v o p 主要定义为画面中分割出来的不同物体,每个v o p 由三类信息描述:运 动信息、形状信息、纹理信息。视频校验模型中有四个层次的数据结构,它们都 以类的形式定义,分别为:v o s ( v i d e oo b j e c ts e q u e n c e ) :视频对象序列,是包 含其它三个类的一个类,一个完整的视频序列可以由几个v o s 组成。v o ( v i d e o o b j e c t ) :视频对象,是场景中的某个物体,由时间上连续的许多帧组成。v o 可以 是视频序列中的人物或具体的景物,例如电视新闻中的播音员,或是电视剧中一 辆奔驰的汽车:也可以是计算机图形技术生成的二维或三维图形。v o l ( v i d e o o b j e c tl a y e r ) :视频对象层,v o 的三种属性信息编码于这个类中,这个类的引入 主要用来扩展v 0 的时域和空域分辨率。v o p 可以看作是v 0 在某一时刻的表象,即 某一帧v o 3 m p e g 一4 的技术结构 一般情况下,每个v o p 的形状都是任意的,且其形状及位置随时间的变化而变 化a 因此为了对任意形状的v o p 的形状、运动及纹理进行编码,m p e g - 4 视频检验 模型引进了“自适应宏块网格”。自适应宏块由三种宏块组成:标准宏块、边缘 宏块和外部宏块。标准宏块是像素完全位于v o p 内的宏块;边缘宏块是部分像素 位于v o p p q 的宏块:外部宏块是完全位于v o p 夕b 的宏块。对于不同的宏块采用不同 兰州大学硕上学位论文 的技术进行形状编码、运动估计补偿和纹理编码。视频序列的每一帧可分割为 一些任意形状的图像区域,每个这样的区域即可能包含感兴趣的特定图像或视频 内容。对标准宏块的运动补偿及纹理编码同m p e g 一2 的方法相同。而对于轮廓宏 块的运动估计,补偿及纹理编码,采用图像填充技术,即用一定的灰度值填充轮廓 宏块中位于边界以外的像素。整个编码过程是:先对形状信息进行编码,然后对 v o p 图像窗口宏块网格的运动矢量进行编码,再对v o p 中宏块的运动和纹理信息进 行编码。基于内容功能的核心技术是支持对组成场景的各个视频内容( 例如场景 中的人物、物体、背景等) 的独立编解码。在m p e g - 4 中,对感兴趣的视频内容能 进行有选择的解码和重建,被称为“基于内容的可分级性“。m p e g 一4 的这特 点为在压缩域图像和视频内容进行交互式操作提供了可能性,而这种操作的好处 是在解码端不需做进一步的分割或代码转换。 4 m p e g 一4 的编码特点从矩形帧到v o p 传统图像编码方法依据信源编码理论的框架,将图像作为随机信号,利用其随 机特性来达到压缩的目的。这种方法本身未能考虑信息获取者的主观意义与主观 特性,未能考虑事件本身的特性如具体含义、重要性以及后果等等。但正是由于 信源编码理论的限定使得传统的图像编码具有较高的概括性和综合性,而基于矩 形帧编码的传统视频编码标准如h 2 6 1 、m p e g - 1 、m p e g 一2 ,在实际应用中也获得 了巨大成功。然而m p e g - 4 并不满足于此,它的目标在于采用现代图像编码方法, 利用人限的视觉特性,抓住图像信息传输的本质,从轮廓、纹理的思路出发,支持 基于视觉内容的交互功能。而实现基于内容交互功能的关键在于基于视频对象的 编码。在m p e g l 和m p e g 一2 标准中,输入的视频信号都被看成是大小固定并在固定 间隔出现的矩形区域,m p e g 一4 是m p e g 一1 和m p e g - 2 编码方案向适应任意形状的图 像序列而进行的逻辑扩展。它在这一概念中,我们根据人眼感兴趣的一些特性如 形状、运动、纹理等,将图像序列中每一帧中的场景,看成是由不同视频对象面v o p 所组成,而同一对象连续的v o p 构成视频对象v 0 。 对于输入视频序列,通过分析可将其分割为r i 个v o ( n = 1 ,2 ,3 ) ,对同- - v o 编码后形成v o p 数据流,v o p 的编码包括对运动( 采用运动预测方法) 及纹理( 采用 变换编码方法) 的编码,其基本原理与 l2 6 1 和m p e g - i 和m p e g - 2 极为相似。由于 m p e g 一4 基于内容图像编码方法中的v o p 具有任意形状,因此该编码方案可以处理 兰州大学硕士学位论文 形状( s h a p e ) 和透明( t r a n s p a r e n c y ) 信息,这与只能处理矩形帧序列的现有视频 编码标准形成了鲜明的对照。在m p e g - 4 中,矩形帧被认为是v o p 的一个特例,这时 编码系统不用处理形状信息,退化为类似于h 2 6 1 、m p e g l 、m p e g 一2 的传统编码 系统。同时也实现了与现有标准的兼容。从矩形帧到v o p ,m p e g 一4 顺应了现代图像 压缩编码的发展潮流,即从基于像素的传统编码向基于对象和内容的现代编码的 转变。从这个意义上讲,m p e g - 4 视频编码技术翻开了图像编码史上崭新的一页。 5 m p e g - 4 的编码技术 v o p 编码器由两个主要部分组成:形状编码和传统的纹理、运动信息编码,其 中纹理编码、运动预测和运动补偿部分在原理上同现有标准是一致的“。值得 注意的是形状编码,这是图像编码标准中第一次引入形状编码技术。 ( 1 ) 形状编码 m p e g - 4 引入了形状信息的编码,尽管形状编码在计算机图形学、计算机视觉 和图像压缩领域不是什么新技术,但将其纳入完整的视频编码标准内,这还是第 一次。v o 的形状信息有两类:二值形状信息和灰度形状信息。二值形状信息用0 、 l 来表示v o p 的形状,0 表示非v o p 区域,1 表示v o p 区域。如果一个形状块中所有像 素具有相同的色彩则不进行编码,只需将一个标志传送给解码器,以告诉解码器 这个形状块的形状信息是全部透明( 0 ) 还是全部黑暗的( 2 5 5 ) 。灰度形状信息用 0 2 5 5 之间的数值来表示v o p 的透明程度,其中0 表示完全透明( 相当于二值形状 信息中的0 ) ,2 5 5 表示完全不透明( 相当于二值形状信息中的1 ) 。对灰度形状信 息的编码是分别对二值形状及像素亮度值进行编码。对像素亮度值的编码是以 1 6 1 6 亮度宏块为单元用纹理编码技术进行编码,属于有损编码。目前的标准中 采用矩阵的形式来表示二值或灰度形状信息,称之为位图。实验表明位图表示法 具有较高的编码效率和较低的运算复杂度。但为了能够进行更有效的操作和压缩 在最终的标准中可能出现另一种表示方法,即借用高层语义的描述,以轮廓的几 何参数进行表征。 ( 2 ) 运动信息编码 类似于现有的视频编码标准,m p e 6 - 4 采用运动估计和运动孙偿技术来去除 i 蛩像信息中的时间冗余,而这些运动信息的编码技术可视为现有标准由向任意形 状的v o p 的延伸。 兰州大学硕士学位论文 v o p 的编码有3 种模式,即帧内编码模式,帧间预测编码模式,帧问双向编码 模式。在m p e g 一4 中运动预测和运动补偿可以是基于1 6 1 6 像素宏块的,也可以 是基于8 8 像素块的。为了能适应任意形状的v o p ,m p e g 一4 引入了图像填充技术 和多边形匹配技术。图像填充技术利用v o p f 自部的像素值来外推v 0 p 外的像素值, 以此获得运动预测的参考值。多边形匹配技术则将v o p 的轮廓宏块的活跃部分包 含在多边形之内,以此来增加运动估值的有效性。 每个v o p 编码前,首先要生成一个界定框,用来表示v o p 在视频帧中的位置和 大小然后将界定框内的像素分成1 6 1 6 的宏块,并对各宏块进行形状编码、运 动估计运动补偿和纹理编码生成一个水平和垂直方向的像素都为1 6 的倍数 的矩形窗,该矩形窗位置的选定要求它完全包含视频对象v o p 的同时又具有最少 的1 6 x1 6 非透明宏块数。每个v o p 的颜色、形状、运动及纹理信息独立地编码、 存储和传输。v o p 标识以及多个v o p 在接收端如何重新组合为原始序列等相关信息 也要传给解码器。 ( 3 ) 纹理编码 纹理编码的对象可以是帧内编码模式的,也可以是帧间编码模或运动补偿后 的预测误差。编码方法基本上仍采用基于8 x 8 像素块的d c t 方法。在帧内编码模 式中,对于完全位于v o p 内的像素块,则采用经典的d c t 方法;对于完全位于v o p 之 外的像素块则不进行编码;对于部分在v o p p q ,部分在v o p 外的像素块则首先采用 图像填充技术来获取v o p 之外的像素值,之后再进行d c t 编码。帧内编码模式中还 将对d e t 变换的d c 及a c 因子进行有效的预测。在帧间编码模式中,为了对b v o p 和 p - v o p 运动补偿后的预测误差进行编码,可将那些位于v o p 活跃区域之外的像素值 设为1 2 8 。此外,还可采用形状自适应方法对v o pf q 的像素进行编码,该方法可在 相同码率下获得较高的编码质量,但运算的复杂程度稍高。变换之后的d c t 因子还 需经过量化( 采用单一量化因子或量化矩阵) 、扫描及变长编码,这些过程与现有 标准基本相同。 ( 4 ) 分级编码 很多多媒体应用需要系统支持时域、空间及质量的伸缩性,分级编码就是为 了实现这一目标。例如,在远程多媒体数据库检索及视频内容重放等应用中,分级 编码的引入使得接收机可依据具体的信道带宽、系统处理能力、显示能力及用户 兰州大学硕士学位论文 需求进行多分辨率的解码及回放。接收机可视具体情况对编码数据流进行部分解 码,以获得较低的解码复杂度,同时也意味着较低的重建图像质量,较低的空间分 辨率,较低的时间分辨率。m p e g 一4 中通过视频对象层v o l 的数据结构来实现分级 编码。每一种分级编码都至少有2 层v o l ,低层称为基本层,高层称为增强层。空 间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的 v o p 进行编码之前,必须先对基本层中相应的v o p 进行编码。同样对于时域伸缩性, 可通过增强层来增加视频序列中某个v o p ( 特别是运动的v 0 ) 的帧率,使其与其余 区域相比更为平滑。 2 2 h 2 6 4 标准 面向实际应用,由两大国际标准化组织共同制定的h 2 6 4 建议是视频编码技 术的新发展【4 ,8 1 。它在多模式运动估计、整数变换、统- - v l c 符号编码、基于4 4 块的整数变换、分层编码语法等方面都有它的独到之处。h 2 6 4 具有广阔的 应用前景,例如实时视频通信、因特网视频传输、视频流媒体服务、压缩视频存 储、视频数据库等。 结合图2 1 所示的h 2 6 4 编码器结构,本节主要对h 2 6 4 主要特性及技术作 说明。 1 h 2 6 4 主要特性 i - i 2 6 4 和以前的标准一样,也是d p c m 加变换编码的混合编码模式,但它采 用“回归基本”的简洁设计,不用众多的选项,获得比h 2 6 3 + + 好得多的压缩性 能;在原有视频编码标准特性的基础上发展了许多新的性能h r l ,主要如下: 数码率降低5 0 左右:与h 2 6 3 + 和m p e g - 4 标准相比,获得相同编码效 果的情况下平均能节约近5 0 的码率。 高质量的视频:在所有码率下( 包括低码率) ,能提供高质量的视频。 自适应延时处理:h 2 6 4 能工作在低延时模式下,以适应实时通信的需要, 也能在没有延时的模式下用于视频存储等。 友好的网络应用:其视频编码层( v i d e oc o d i n g l a y e r v c l ) 在概念上 的分离提供了更高性能的视频压缩,网络应用层( n e t w o r k a d a p t a t i o nl a y e r n a l ) 使其适合各种类型的网络传输应用。h 2 6 4 的码流结构网络适应性强,增 兰州大学硕士学位论文 加了差错恢复能力,一能够很好地适应口和无线网络的应用。加强了对各种信道 的适应能力,采用“网络友好”的结构和语法,有利于对误码和丢包的处理;提 供了解决网络传输包丢失问题的工具,适用于高误码率传输的无线网络视频数据 传输。 图2 1h 2 6 4 编码器结构 2 i r 2 6 4 关键技术 ( 1 ) 分层设计 h 2 6 4 的算法在概念上可以分为两层:视频编码层( v c l ) 负责高效的视频 内容表示;网络提取层( n a l ) 负责以网络所要求的恰当的方式对数据进行打包 和传送。 在v c l 和n a l 之间定义了一个基于分组方式的接口,打包和相应的信令属 于n a l 的一部分。这样,高编码效率和网络友好性的任务分别由v c l 和n a l 来完成。v c l 层包括基于块的运动估计混合编码和一些新特性。与前面的视频 编码标准一样,h 2 6 4 没有把前处理和后处理等功能包括在草案中,这样可以增 加标准的灵活性;n a l 负责使用下层网络的分段格式来封装数据,包括组帧、 逻辑信道的信令、定时信息的利用或序列结束信号等。例如,n a l 支持视频在 电路交换信道上的传输格式,支持视频在i n t e r n e t 上利用r t p u d p i p 传输的格 兰州大学硕士学位论文 式。n a l 包括自己的头部信息、段结构信息和实际载荷信息,即上层的v c l 数 据。 ( 2 ) 图像的分块 与其它视频编码标准类似,图像被分割成像素块,并以块作为基本处理单元。 采样后的视频帧被分成1 6 1 6 的宏块,每个宏块包括一个亮度子块和两个8 8 色度子块。例如一帧q c i f ( 1 7 6 ( 1 4 4 ) 格式的图像被分成9 1 1 个宏块,若干 个宏块又组成了片( s l i c e ) ,一幅q c i f 的图像最少由一个片组成,最多则由9 9 个片组成。 在帧间预测时,对每个1 6 1 6 的宏块,根据不同的语法及块运动特性,又 可分为如图2 2 所示的8 1 6 、1 6 8 、8 8 、8 4 、4 8 、4 4 的小块进行变 换编码。色度块为亮度块的1 4 。 由于采用不同大小的块进行帧间预测,使运动估计模型更接近物体的实际运 动,因此运动补偿精度更高。这种方法比单一1 6 1 6 块的预测方法提高大于1 5 的编码效率。 h o d 世1 m o d e 2 :m o d e 3m o d e 车 o 1 6 x 1 6b j o c kt w o8 x 1 6b k x k s t w o1 6 x 8u bf o u r8 蚺b | o c b o n em o t 。f 1 曲。r t w om 删o nv e 咖晤t w on i o t t o nv e c t o r s f o u rm o t k 】nv e c t o r s 口田日田 m o d e 5 鑫g 稍b l o c k s e 砒m o t i o av e c t c x s h m d t 6 啦m 敏4 b i o d s e 电h t m 坩曲r s m o d e7 s i x t e e n4 x 4b l o c k s s t x t a 朗i n o t j o nv e c t o c s 圈田圆 图2 2h 2 6 4 块模式 ( 3 ) 高精度的运动估计 除采用不同尺寸的块进行更接近物体实际运动的估计方法外,h 2 6 4 还采用 l 4 和l 8 像素精度的运动估计法 9 1 1 , 1 2 ,提高大于2 0 酐j 编码率。半像素精度的 运动估计主要是在整数像素的运动估计基础上,通过图像的像素插值运算,扩大 实际的像素数以提高运动估计的精度。 兰卅l 大学硕d j 学位论文 关于图像的插值运算参见文献【9 】。 在1 4 像素精度时可使用6 抽头滤波器来减少高频噪声,对于1 8 像素精度 的运动矢量,可使用更为复杂的8 抽头的滤波器。在进行运动估计时,编码器还 可选择“增强”内插滤波器来提高预测的效果。 ( 4 ) 整数变换 h 2 6 4 与先前的标准相似,对残差采用基于块的变换编码,但变换是整数操 作而不是实数运算,其过程和d c t 基本相似。这种方法的优点在于:在编码 器和解码器中允许精度相同的变换和反变换,便于使用简单的定点运算方式。也 就是说,这里没有“反变换误差”。变换的单位是4 x 4 块,而不是以往常用的8 8 块。由于用于变换块的尺寸缩小,运动物体的划分更精确,这样,不但变换 计算量比较小,而且在运动物体边缘处的衔接误差也大为减小。为了使小尺寸块 的变换方式对图像中较大面积的平滑区域不产生块之间的灰度差异,可对帧内宏 块亮度数据的1 6 个4 x 4 块的d c 系数( 每个小块一个,共1 6 个) 进行第二次4 x 4 块的变换,对色度数据的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026国网福建省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题及答案详解(夺冠)
- 2026国网福建省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题及答案详解(名师系列)
- 2025国网湖南省高校毕业生提前批招聘(约450人)笔试模拟试题浓缩500题附答案详解(精练)
- 2026国家管网集团甘肃公司秋季高校毕业生招聘25人笔试参考题库(浓缩500题)带答案详解(完整版)
- 2026国网吉林省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题(含答案详解)
- 2026秋季国家管网集团福建公司高校毕业生招聘笔试备考试题(浓缩500题)附参考答案详解(基础题)
- 2026国网青海省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题及一套答案详解
- 2026秋季国家管网集团云南公司高校毕业生招聘笔试参考题库(浓缩500题)附答案详解(综合题)
- 2026国网甘肃省电力公司高校毕业生提前批招聘笔试模拟试题浓缩500题含答案详解(夺分金卷)
- 2026国网湖南省电力公司高校毕业生提前批招聘(约450人)笔试备考题库浓缩500题及答案详解1套
- 2025年煤矿矿山救护救援行动人员三级救援案例分析试卷及答案
- 沥青路面施工合同范本模板
- 人工智能在灾害应急救援中的作用与挑战研究报告
- 互感现象及应用试卷
- 第二单元维护社会秩序 检测题(含答案)-2025-2026学年八年级上册道德与法治
- 2025年公安辅警笔试考试题库及答案
- HTTP协议课件教学课件
- 物业防寒防冻安全培训课件
- 2025道中华铸牢中华民族共同体意识知识竞赛试题(+答案)
- 【诗歌鉴赏】2026届高三9月名校模考试分类汇编四
- T-CCUA 048-2025 政务信息系统运行维护费用定额测算方法
评论
0/150
提交评论