




已阅读5页,还剩83页未读, 继续免费阅读
(应用数学专业论文)视频数据压缩编码中若干问题的研究与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 争s s 2 2 如i 征信息 i 会,人们迫切希迥计算机能以人类刊惯的方式提”i 信息服务,冈酊 多媒体技术戍运而7 l 。它的“ 现,使得原本只有文字界面的汁筇机有r 牛动的面 孔。人们不仪可以通过文字信息,还可以通过直接看到的影像和听到的声音,米 学爿和使川对象,并可以参与或改变信息的演示。接下米多媒体视频、音频通讯 也随之出现了。上e 是数字视频的巨大的数据量,使得视劐! 信号股以胝缩码流的 彤式存储和传输。视频 矗缩算法的日益成熟,编码标准的相继推出,有力的支持 了视频通信的发展。 j 1 在一个开发的网络( 细i n t e r n e t ) - l l 进行视频传输时,通常难以避免误 码和冈网络拥挤而产牛的玉包。而m p e g 解码系统对误码非常敏感,哪怕在m p e g 视频流一1 1 只有个比特的误码,都有可能对解码的图象质量产牛j e 常严重的影 响。冈此错误检测和错误掩蔽技术在m p e g 标准的应川t lr 有着至关重要的作川。 本文分析了错浸比特出现在胛g e 视频流小的不同的位置肘画面质量的影响,给 出了切实可行的错误检测的方法,并结合d v d 解码器开发的实践,提出了几利一有 效的错误掩蔽算法: 是否埘视频信号进行隔行采样,是现代电视系统和个人计算机处理视频信号 的标志性区别。去隔行技术也是最撼本的视频格式转化的方法之。本文的最后 从信号分析的角度,对视频信号的隔行采样和去隔行技术进行了分析,提出了完 全恢复原信号的去隔行方法的存在条件及设计思路。 关键词:m p e g ,d v d 服务质量,错误掩蔽,去隔行 a b s t r a c t nt h es o ce t yo fn f o r m a to n ,u s e r se x p e c tt h a tc o m p u t e rc a ns e r v e u sn f o r m a t i o ni naw a yf o rb e n sc u s t o m t h et e c h n o l o g yo fm u i t i m e d i a c a m ei n t ob e i n g 1 i t hi tt h et x tm e n uo fc o m p u t e rh a sb e c o m e i f e ii k ea n d m o r ec o n v e n i e n tt ou s e r s u s e r sc o u i dn o to n l yl e a r na n dw o r kb yt x t n f o r m e t i o n ,b u ta t s ob ys t a t i co rm o v i n gp i c t u r ea n ds o u n d ,a n d j 0 ino r 呐d i f yt h ed e m o n s t r a t i o no fi n f o r m a t i o nt o o t h e nt h et e c h n o l o g yo f m u l t i m e d i ac o m m u n i c a t i o nc a m ei n t ob e i n g i ng e n e r a l ,d u et oi t sh u g e v o l u m eo fv i d e od a t a ,v i d e oi n f o r m e t i o ni sa l w a y ss t o r e da n dt r a n s m i t t e d nc o m p r e s s e df m l l i t h ed e v e i o p m e n to fv i d e oc o u u n i c a t i o ni ss t r o n g l y s u p p o r t e db yt h ea d v a n c e sint h er e s e a r c ho nvd e oc o m p r e s s io nag o rt h m s a n dr e l e a s eo fc o d i n gs t a n d a r d s t l h e nt r a n s m i s s i o nv i d e oo v e ra no p e nn e t w o r k ,ii k et h ei n t e r n e t ,t h e s y s t e mu s u a il yh a sn oc o n t r a io nd y n a m i c a il yc h a n g i n ga n du n p r e d i c t a b l e n e t w o r kt r a f f i c m p e 6d e c o d e ri ss e n s i t i v et oe r r o ri nt h es t r e a m e v e n o n eb i te r r o rw ih u r tt h es t r e a ms e r i o u s l y s ot h et e c h o n i o g yo fe r r o r c o n t r ola n de r r o rc o n c e am e n tisn e c e s s a r yt ou p e ge n c o din ga n dd e c o din g a p p li c a t i o n i nt h i sp a p e r ,w ea n a l y z ee r r o ri n f e c t i o nt op i c t u r ea n dg i r e ap r a c t i c a b i em e t h o di ne r r r od e c t i o r l s o m en e we r r o rc o n c e a i m e n t a l g o r i t h m sa r ea i s op r e s e n t e d t h i sa i g o r i t h m sa r ea p p ii e di nd v dd e c o d e r s y s t e mb a s e do n 瞒d s h o wa n di n t e lm m xt e c h n o l o g y t oi n t e r i a c eo rn o tt oi n t e r i a c ed e v i d e st h et e l e v i s i o na n dp e r s o n a i c o m p u t e rc o m u n i t i e s d e i n t e r l a c i n g s ab a s i cr e q u ir l m n e n tf o rv i d e o s c a n i n gf o r m a tc o n v e r s i o n s a tl a s to ft h i sp a p e r ,w ea n a l y s e st h e i n t e r i a c e dv i d e os i g n a ia n dd e i n t e r l a c i n gb a s e do n s i g n a ip r o c e s s i n g t h e o r y ,a n dd is c u s s e dt h ec o n d i t i o nf o rp e r f e c t l yr e s t o r i n gt h eo r i g i n a l s i g n a ia n dt h em e t h o dt od e s i g nad e i n t e r l a c i n gf ii t e r k e yw o r d s : p e g ,d v d ,q o s ,e r r o rc o n c e a l m e n t ,d e i n t e r i a c e 浙江大学硕j :学位论文 第一章绪论 1 1 多媒体计算机技术 多媒体是融合两种或者两种以上媒体的一种人机交互式信息交流和传播媒 体,使川的媒体包括文字、幽形、剀像、声音、动画和电视例像( v i d e o ) 等等。 多媒体是超媒体系统,i - 的个子集,超媒体系统是使川超链接构成的全球信息系 统全球信息系统是冈特网上使川t c p i p 卧议和u d p l p 协议的席川系统。二维 的多媒体网页使jr jh i i l 来编写,而三维的多媒体网页使川v r m l 米编写。在几前 许多多媒体作a 6 使川光盘存储器发行,在将米多媒体作a 更多地使川网络米发 行。 多嫘体涉及的技术范围很广,技术很新、研究内容很深,是多种学科和多种 技术交叉的领域。目前,多媒体技术的研究和应川开发丰要在下列几个方面: ( 1 ) 多媒体数据的表示技术:包括文字、声音、图形、图像、动画、影视等 媒体在计算机巾的表示方法。由于多媒体的数据量大得惊人,尤其是声音和影视, 包括高清晰度数字电视( h i g hd e f i n i t i o nt e l e v i s i o n ,h o t v ) 这类的连续媒体。 为克服数据传输通道带宽和存储器容量的限制,投入了大量的人力和物力柴开发 数据压缩和解压缩技术;入机接口技术,如语音识别和文本一语音转换( t e x t t o s p e e c h ,t t s ) 也是多媒体研究【i f 的重要课题:虚拟现实( v ir t u a lr e a li t y ,v r ) 是当今多媒体技术研究中的热点技术之一。 ( 2 ) 多媒体刨作和编辑工具:使川t 具将会大大缩短提供信息的时问。将米 人人都要会使j 多媒体创作和编辑t 具,就像现在我们使川笔和纸那样熟练。 ( 3 ) 多媒体数据的存储技术:这包括c 0 技术,d v o 技术等。 ( 4 ) 多媒体的应用开发:包括多媒体c o r o i a 节几( t i t l e ) 制作,多媒体数据 库,环球超媒体信息系统( w e b ) ,多1 标广播技术( n l u i t i c a s t i n g ) ,影视点播 ( v i d e oo rd e m a n d ,r o d ) ,电视会议( v i d e oc o n f e r e n c i n g ) ,远程教育系统,多 媒体信息的检索等。 浙江大学硕士学位论文 1 2 多媒体数据压缩技术的重要性 多媒体计算机技术是面向三继幽形、立体声和彩色全屏幕运动幽象的处理技 术。数字计算机面临数值、文字、语言、音乐、幽形、动画、静止图象、电视视 频幽象等多利媒体承载的由模拟量转化成数字量信息的存储、传输和处理的问 题。数字化的视频和音频等信号的数据量之大是非常惊人的。 衷1 1 未球缩信源的大致比特率 电话( 2 0 0 3 4 0 0 h z ) :8 0 0 0 s a m p l e s 1 2b i t s s a m p l e = 9 6 k b p s 宽带语音( 5 0 7 0 0 0 h z ) :1 6 0 0 0 s a m p l e l s 1 4 b i t s s a m p i e = 2 2 4 k b p s 宽带音频( 2 0 2 0 0 0 0 h z ) :4 4 1 0 1 s a m p l e s 1 6 b i t s s a m p l e = 1 4 1 2 u b p s 圈象: 5 1 2 5 1 2 p i x e l s 2 4 b i t s = 6 3 m b i t s 视频: 6 4 0 4 8 0 p i x e l s 2 4 b i t s 3 0 f r a m e s = 2 2 1 u b p s h d t v : 1 2 8 0 7 2 0 p i x e i s 2 4 b j t s 6 0 f r a m e s = 1 3 g b p s 无疑数字化信息尤其是视频信号的巨大数据量对多媒体技术的发展提出了 挑战。解决这一问题,单纯川扩大存储器容量,增加通信干线的传输率的办法是 不现实的。数据骶缩技术是个行之有效的方法。随着v l s i 的发展和高速微处理 器广泛戍_ 1 1 j 于个人电脑,复杂的算法实现成为可能。通过数据压缩手段把信息数 据量胝下来,以肚缩形式存储合传输,即节约了存储空问,又提高了通信干线的 传输效率。 1 3 常见音视频压缩标准 1 3 1 多媒体会议标准 i t u t ( 国际电信联盟电仿标准部) 是划定电信标准的最重要的国勋;组织。 它起源于1 8 6 5 年,早期为长距离电报制定标准,现在是联台尉的+ 个下属纽织。 近年爿,i t u - t 在多媒体数字通信力面( 包括电视会议) 制定了系列国 际标准。如下表: 浙江大学顾士学位跑文 表1 2i t u t 多媒体会议标准 标准网络视频 h 3 2 0i s d nh 2 6 1 h 3 2 1a t 孙b l s d n h 。3 2 2i s o e t h e r n e t h 3 2 3l a n s i n t e r n e t h 2 6 1 h 3 2 4p s t nh 2 6 3 h 。3 1 0a 1 v b l s d nh 。2 6 2 音频多路复姬 控制 g ,7 ”h 2 2 1h 2 4 2 g 7 1 1 h 2 2 5 0h 2 4 5 g 7 2 3 1h 2 2 3 h 2 4 5 m p e g 一1h 。2 2 2h 。2 4 5 ( 1 ) 基于l d s n 的h 3 2 0 视频会议 1 1 1 j th 3 2 0 标准因为使用带宽时以6 4 k 为基本增加量,称为“p x 6 4 ”,它 包括i s d n 和5 6 k b p s 交换网( 速率从5 6 k b p s 2 1 1 b p s ) 上的视频会议和电视电话。 h 3 2 0 支持双向实时音频和视频会话( 音频和视频分别有各自的信道) ,同 时还提供可选择的数据通道。h 3 2 0 标准的扩展支持多点会议( 三个或更多的站 点加入一个会议组) 、加密、远端摄像机的远程控制和广播应用。 h 3 2 0 标准发展于8 0 年代后期,于1 9 9 0 年由c c l t t ( 现在的1 1 1 j ) 通过。 它是第一个成功的低速率视频通信标准,并且至今仍是一个被广泛接受i s d n 视 频会议标准。 如表1 2 所示,h 3 2 0 标准是一个系统标准,包括许多应用于系统各个部分 的1 1 1 j t 标准。h 3 2 0 的核心组成如下: h 2 2 1 多路复用:将音频、视频、数据和控制融八单一的比特流。用l o m s 帧进行时分复用同步。 h 2 3 0 h 2 4 2 控制:包括模式控制命令、指示信号和能力交换。在h 2 2 1 复 用中通过一个固定的4 0 0 b p s 信道( b a s 比特率分配信号) 进行操作。 h 2 3 1 h 2 4 3 多点会议:指定多点会议中央桥和多路会议的操作( 虽然在 h 3 2 0 标准上可选,但通常被实现) 。 h 2 6 1 视频编码:将彩色动画视频压缩成低速比特流。有q c l f ( 1 7 6 1 4 4 ) 和c i f ( 3 5 2 2 8 8 ) 两利一图象格式。 g 7 1 1 音频编码:采样频率8 k h z ,长话质量窄带( 3 k h z ) 音频的8 b i ti o g - p c m 浙江大学硕士学位论文 编码。 ( 2 ) h 3 2 0 网络适配标准h 3 2 1 和h 3 2 2 h 3 2 1 和h 3 2 2 标准的出现拓宽了h 3 2 0 的使用,使h 3 2 0 不仅仅用于i s d n 网络上。使标准的h 3 2 0 终端也适用于其他的网络,并且提供基于i s d n 终端的 互联以与i s d n 上h 3 2 0 的等效特性。h 3 2 1 包含将h 3 2 0 终端适用于a t i b 环境 ( b i s d n ) 的技术规范。h 3 2 2 包含将h 3 2 0 终端设配于l s 0 e n t e r n e t ( i s l a n 一1 6 t ) 局域网的技术规范。 ( 3 ) 新一代标准h 3 2 3 、h 3 2 4 、h 3 1 0 h 3 2 0 标准的成功促进了许多扩展标准的发展,如用于加密的h 2 3 3 h 2 3 4 , 用于实时远端摄像控制的h 2 2 4 h 2 8 1 ,以及用于广播应用的h 3 3 1 。h 3 2 0 的成 功也促进了h 3 2 1 和h 3 2 2 的发展。 自从1 9 9 0 年通过h 3 2 0 标准以来,在工业应用中发现了它的一些局限性, 这时出现了更好的视频和音频压缩技术。于是产生了利用最新压缩技术标准避免 h 3 2 0 的问题如:用于包交换网络的h 3 2 3 ,用于低速电路交换网络的h 3 2 4 以 及用于a b l s d n 的h 3 1 0 。 所有的第二代系统相对于h 3 2 0 来说有以下优点: 支持连接上更快的呼叫启动: 支持视频、音频和数据的多信道: 更简单更灵活地在多信道中分配带宽; 把传输和接收能力分离: 详细描述模式对称要求; 接受驱动模式要求机制: 改进地视频和音频编码; 更大范用的视频模式和视频解析率: 为将米标准或非标准的扩展提供了更清晰的机制。 1 3 2m p e g 标准 浙江大学颁士学位沦文 m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 是一个国际标准化组织t 它制定了 一系列音频和视频的压缩标准。这些标准为压缩领域提供了良好的范例,并有极 大的商业价值。 ( 1 ) m p e g 一1 忡e g 一1 视频是面向位率大约为1 5 m b s 的视频信号的压缩,肿e 1 6 1 音频是 面向每通道速率置j 6 4 k p b s 、1 2 8 k b s l s 和1 9 2 k b p s 的数字音频信号的压缩。m p e g - 1 的最终目标还得解决数字音频和数字视频等多样压缩数据流得复合和同步的问 题。综上所述,m p 6 e 一1 标准实际上包含三个部分:m p e g 一1 视频、m p e g 一1 音频 和m p e g 一1 系统, ( 2 )髓p e g 一2 同m p e g - - 1 标准一样,h p g 一2 标准也包括视频、音频和系统三部分,它克 服并解决了肿e g 一1 不能满足日益增长的多媒体技术、数字电视技术对分辨率和 传输率等方面的技术要求的缺陷。 m p e g 一2 标准的系统功能是将一个或多个音频、视频和其他的基本数据流合 成单个或多个数据流,以适应于存储和传输。符合m p e g 一2 标准的编码数据流, 可以在一个很宽的恢复和接收条件下进行同步解码。m p e g 一2 系统支持五项基本 功能:解码是多压缩流的同步;将多个压缩流交织成单个的数据流;解码时缓冲 器初始化;缓冲区管理;时间识别。忡e g 2 标准的压缩编码系统是将视频和音 频算法结合起来开发的。系统编码可有两种方法,其编码输出包括程序流合和传 送流两种定义流。程序流和抑e g 一1 系统定义的流相似:而传送流是一种用来传 送和保存程序的编码数据或其数据的数据流。 措p e g 一2 视频体系要求必须保证与船e g 一1 视频体系向下兼容,并力求满足 数字在存储媒体、会议电视、可视电话、数字电视、高清晰度电视、广播、通信、 网络等应用领域中对多媒体视频和音频通用编码方法日益增长的新需要。如分辨 率要求有低( 3 5 2 2 8 8 ) 、中( 7 2 0 x 4 8 0 ) 、次高( 1 4 4 0 x 1 0 8 0 ) 、高( 1 9 2 0 x 1 0 8 0 ) 不同档次:压缩编码方法也要求从简单到复杂有不同等级。 肿e g 一2 音频体系同m p e g 一1 差别不大,不过它支持5 + 1 声道。 ( 3 ) a c 一3 a c 一3 音频编码标准的起源是o o l b y c 一1 。a c 一1 应用的编码技术是自适 浙江大学硕士学位论文 应增量调制( a d m ) ,它把2 0 k h z 的宽带立体声音频信号编码成5 1 2 k b s 的数据流。 a c 一1 曾在卫星电视和调频广播上得到广泛应用。1 9 9 0 年d l o b y 实验室推出了立 体声编码标准a c 一2 ,它采用类似m d c t 的重叠窝口的快速傅立叶变换( f f t ) 编 码技术,其数据率在2 5 6 k b p s 以下,a c - 2 被应用于p c 声卡和综合业务数字网等 方面。 19 9 2 年d o l b y 实验室在a c 一2 的基础上,又开发了d o l b ya c 一3 的数字音 频编码技术。a c 一3 提供五个声道的从2 0 h z 2 0 k h z 的全通道频响,即正前方的 左( l ) 、中( c ) 、右( r ) 、后边的两个独立的环绕立体声通道左后( l s ) 和右后 ( r s ) 。此外,a c 一3 同时还提供了一个l o o h z 以下的超低音声道供用户选用, 以弥补低音之不足,此声道仅为辅助,因此称为0 1 声道。所以a c 一3 被称为 5 1 声道。a c 一3 对这六个声道进行数字编码,并将它们压缩成一个通道,而它 的比特率仅是3 2 0 k b p s 。 d o l b ya c 一3 的使用范围很广,如制作镭射影碟、c d 唱片、v h s 录像带;d b s : c a t v :d v d 等。 ( 4 ) m p e g 一4 帅e g 一4 标准的日标为:支持多种多媒体应用( 主要侧重于对多媒体信息内 容的访问) ,可根据应用要求不同来现场配置解码器。编码系统是开放的可以随 时加入新的有效的算法模块。 比较u p e g 一1 和m p e g - - 2 标准,肿e g 一4 标准的编码是基于对象的,这样就 便于操作和控制对象,而传统的压缩方法是基于帧的,显然无法进行对象操作。 实际应用t h 由于传输带宽的限制,有时必须对压缩码率进行控制,这样就直接 影响图象的质量。使用传统的视频压缩方法,必然影响整帧图象的质量,没有灵 活性可言。而m p e g - - 4 对比特率控制可以基于对象,即使在极低比特率条件下, 也可以利用码率分配方法,对用户感兴趣的对象多分配一些比特率,而对用户不 感兴趣的对象少分配一些比特率,这样图象的主管质量可以得到保证。 ( 5 ) m p e g 一7 为快速方便地搜索节e l ,m p e g 制定了一个新标准 p e g 一7 ,它是多媒 体内容描述接口( m u i t i m e d i ac o n t e n td e s c r i p t i o ni n t e r f a c e ) 。m p e g - 7 是 快速且有效地搜索出川户所需的不同类型的多媒体资料的方法,它将解决以下问 6 浙江大学硕士学位论文 题: 1 当需要搜索m p e g 4 编码信息中的某一套节日时,米自不同领域的一些要求。 z 在咿e g 一4 语法【1 1 对搜索功能适当支持的一些术语。 3 m p e g 一4 编码信息搜索引擎通川工具规格。 m p e g 一7 将对各种不同类型的多媒体信息进行标准化的描述该描述与所描 述的内容相联系,以实现快速而有效的搜索。该标准不包含对描述和特征的自动 提取,它也没有规定利刚描述进行搜索的工具( 或任何程序) 。m p e g 一7 可以独 立于其他m p e g 标准使用,也可以用于描述模拟式的电影。但m p e g 一4r - 所定义的 对音频视频对象的描述适用于u p e g 一7 ,这种描述是分类的基础。可以年u j i j m p e g 一7 的描述来增强其他b p e g 标准的功能。 m p e g 一7 的应用很广泛,既可以用于存储( 在线或离线) ,也可以用于流式应用 ( 如广播、将模型加入i n t e r n e t 等) ,它可以在实时或非实时环境下应用。实 时环境指的是当信息被捕获时是与所描述的内容相联系的。i i i p e g - 。7 在教育、新 闻、导游信息、娱乐、研究业务、地理信息系统、医学应用、购物等等各方面具 有潜在的应用能力,一些应用举例如下: 数字图书馆( 图像日录、音乐字典等) ,利j 日网络,用户利用计算机就 可查找所需的资料。 多媒体名录服务( 如黄页) 。 广播媒体选择( 无线电信道、w 信道等) 。 多媒体编辑( 个人电子新闻业务,媒体写作) 。 ( 6 ) 胛e g z 1 2 0 0 0 年3 月成立的# i p e g 一2 1 工作组在酝酿制定m p e g 一2 1 标准,其核心目标 是使数字多媒体信息资源能被大范围的网络和设备透明和增值地使f 。2 0 0 0 年1 0 月,i i p e g - 2 1 专家组提出创造一个能够共同使j 玎的多媒体信息框架。需要完成以 下任务: 1 框架的各成分之问是如何关联的,能够察觉不能实现联系的障碍在框架的什 么地方。 2 整合现有系统qr 的各种标准以支持多媒体管理的各利t 协调技术。 浙江大学硕士学位论文 3 开发新的规范使得能够通过网络存取和使刚多媒体内容:实现多个交易模型 保证服务模型及收费;保障内容用户的隐私权。 多媒体信息框架应该提供并利,接口和协议,使得信息资源的各种内容能够产 生、操作、查询、存取、存储、传送和使用。它应具有多种功能,如内容创造、 内容生成、内容传送、内容使j j 和消费、内容表示、内容辨识和说明、终端和网 络资源抽象、事件报告、知识产权管理和保护、t i | ;j 户隐私权、付费管理等等。在 多媒体、数字化、计算机、网络技术日新月昴的今天,各生成厂家亟需一个通加 的压缩标准使产品更加市场化。b p e g 标准化组织一直致力于对数据压缩技术标 准化工作的研究,并取得很大成绩。n p e g 一1 和m p e g 2 标准已成为世界广泛采用 的标准,随着m p e g 一4 、b p e g - 7 和m p e g 一2 1 标准的不断推出,数据压缩和传输的 技术将趋向更加规范化。但音频、视频等压缩编码工作还远没有结束,比口前压 缩方案性能更好的编码方案将不断推出。 1 4 本文研究内容 由于误码、丢包的存在,实际的通信系统不可避免的对传输的信号引入失真。 编码视频对误码高度敏感,失真的传播与扩散使得很低的谡码率导致解码后视频 图象质量的严重下降。另外,由于各利,原因,在i l i 国大部分人常会遇到牛产质量 较差的v c d 、d v d 盘片,因此在插放过程巾常有驱动器死锁或播放软件关闭的情 况发生,任何一款播放软件对硬件方面的死锁都不会有太好的解决办法,这些可 通过纠错技术减少软件方面出现的问题。 本文的主要页献: 实现了d v d 视频解码器 二讨论了传输信道对编码视频的影响以及视频的q o s 和质量评价方法 三以b p e g 编码视频流为例分析了失真掩蔽的编解码方案 四提出了有效的错误检测和掩蔽算法,应川于d v d 视频解码器;h 对有错误的序 列纠错取得了良好的效果。 五通过对隔行采样的视卿j f 言号的分析,提出了无损去隔行的实现条件和设计最 佳去隔行滤波器的乃法。 浙江大学颇 学位论文 1 5 本文章节安排 本文第。章介绍了音视频抹缩的些固际标准,第二章介绍视频j 缩的关键 算法,第三章介绍in t e l 处砰器、w i n 操作系统卜溉捌! 处理系统开发技术,筇 四章介绍作开开发的d v dp l a y e r 第五卷是埘视劁! 流失贞的分析,第六章提 “ r 几种错误掩蔽算法,并分析了它忙m p e g 流- i 的应川。笫七章是对去隔行技术 的i t 论。 9 浙江大学硕士学位论文 第二章视频压缩的关键算法 数字视频压缩的标准很多,如i t u t 标准h 2 6 1 、h 2 6 3 、h 。2 6 3 + 、h 。2 6 3 + + 、 h 2 6 4 、m p e g 一1 、m p e g - - 2 、p e g 一4 等等。这些标准虽然面向的应;i j 不同,但 其采j 1 的皋本算法都是大同小异。本章就主要介绍视频融缩算法的关键技术。 2 1 数字视频压缩编码概述 数字视频数据压缩不仅是必要的而且也是可能的,原因是,自然视频图像有 极强的相关性,也就是说有大量的冗余信息。数据压缩就是去掉数据i p 的冗余信 息( 去除数据之问的相关性) ,保留相互独立的信息分量。以静图像画西为例,数 字幽像的灰度信号和色差信号在空域( x ,y 举标系) 虽然属于一个随机场分布, 但是它可以看成为一个平稳的马尔可夫场【5 2 】。也就是说,圈像像素点在空域巾 的灰度值和色差信号值,除了边界轮廓外,都是缓慢变化。比如一幅头肩人像图, 背景、人脸、头发等处的灰度、颜色都是平绥改变。相邻像素的灰度和色差值比 较接近,具有强的相关性,直接用采样数据( p c m 码) 表示灰度和色差,信息有 较多的冗余。但是如何先排除冗余信息,再进行编码,使表示每像素的平均比特 数下降,这就是通常所说的视频幽像的帧内编码,以减少空域冗余进行数据压缩。 视频图像是沿时间轴方向的一个帧序列,其帧问图像的相关性也很强,通常用减 少帧问传送帧的数口即降低帧率,以减少时域的冗余,采用运动估值和运动补偿 的方法以满足解码图像质量要求。 到几前为止,不管是m p e g 系列的m p e g x 标准还是i t u t 的h 2 6 x 系列标准, 它们的编码基本原理都是样的,那就是川时域预测去掉时域冗余,空域预测去 掉空间冗余,再d c t 域量化,去掉高频不重要的信息,再川v l c 和游程编码使得 可以川最少的比特米表示码流。所不同的是,稃利,标准采川的各码表不样,以 面向不同的虑川,另外,较新的标准采川比较高级的些的算法。下图( 蚓2 1 ) 就是个m p e g 编码器的例子。下面我1 f m p e g 视频球缩为例进行详细的描述。 浙江大学硕士学位论文 c - | q 。,h d l 一一一 窿t 。t r a 一 i r h o = v : r 鼍”i o i 岫 j i 纠 m j t r = j 三互 一_ 压f l 1 竺:2 竺| _ ! 竺! 厂一 。1 ”一一 m o t l o v e c 日r 例2 1 婶e g 编码器框图 2 1 1 去时域冗余 由于视频序列相邻帧之间存在着很强的柑关性,通过帧问运动补偿可以有效 地压缩数据比特率,同时m p e g 标准有对视频信号做随机存取的重要要求,m p e g 采用了三利喽型的图象:i n t r ap i c t u r e ( i 帧) 、p r e d i c t e dp i c t u r e ( p 帧) 、 b i d if e e t i o n a ip r e d i c t e dp i c t u r e ( b 帧) 。i n t r ap i c t u r e 采用单独的压缩方 式,可提供随机存取的存取位黄、但压缩比不大:帧间预测编码时,要j = f :l 到先前 的帧,当前所预测的帧又作为后面的预测帧的参考帧。b i d ir e c t i o n a ip r e d i c t e d pic t u r e 的数据压缩效果要优于p r e dic t e dpc t u r e 。 ( 1 ) 运动补偿 运动补偿是减少帧序列冗余信息的有效办法。运动补偿是基于1 6 16 子块 的算法,每个子块可j 日一个二维的运动矢量处理。运动补偿实际上是个广义的 预测技术,它适川于单纯性预测( 因果预测) 和非因果预测( 插补) 。运动补偿 预测是以子块( 1 6 x1 6 ) 为预测单元,把当前子块认为是先前某一子块的位移, 位移的内容包括运动方向和运动幅度。所以运动补偿是用先前的局部图象,来预 测当前的局部图象,1 6 1 6 的运动矢量块是预测误差,它必须进行编码、传送, 供解码时恢复图象j | i j 。 浙江大学硕士学位论文 运动补偿中的非因果性预测,即插补编码是基于时问轴上的多分辨率技术。 是对时间轴( 帧序列方向) 方向上低分辨率的子信号进行编码。比如对帧率为 1 2 ( 1 5 帧s ) 或帧率为1 3 ( 1 0 帧i s ) 的低分辨率图象进行编码,然后作图象 插值及附加校正,最后得到满分辨率的图象信号。 运动补偿插补编码,也叫双向预测编码。通过双向预测编码,可以获得一个 高的压缩比。 ( 2 ) 运动表示 m p e g 标准t l i ,运动估算是基于1 6 1 6 的块为单元表示的。这样的补偿单元 称为宏块( m a c r o b i o c k ) 。宏块有不同的类型,比如在b 帧中的每个1 6 1 6 的宏 块,可以是帧内型的、前向预测型的、后向预测型的或者是平均型的。不同区域 宏块的运动矢量可以有不同的选择。运动矢量的选择范围是基于帧问图象的时问 分辨率和块内幽象的时问分辨率,以及帧序列图象的性质而选定。当宏块所包含 的画面内容在待序列中完全静止不动,那么宏块的运动矢量为零。 对每个1 6 1 6 宏块的运动信息与其相邻块之问可作不同的编码处理。采用 宏块运动补偿方法,可以减少序列图像冗余信息,获得高压缩比和良好重建图象 质量的压缩效果。 ( 3 ) 运动估算 运动的估算涉及到从视频序列巾抽取运动信息所使川的一整套技术。m p e g 标准说明了如何表示运动信息,根据运动补偿的类型:前向预测、后向预测和双 向预测,每个1 6 1 6 的宏块i l i 可包含一个或2 个运动矢量,然而m p e 6 标准并没 有说明运动矢量的求取方法。但是皋于块的运动矢量求取应该按照尽量减少匹配 误差的方法的原则。 2 1 2 去空域冗余 无论是i n t r ap i c t u r e 还是p r e d i c t e dp i c t u r e 或是b i d ir e c t i o n a i p r e d i c t e dp i c t u r e ,都还存在很高的空域冗余。可以减少空域冗余信息的技术 很多,m p e g 优先考虑了辇于块的技术。在摹于块的去空域冗余技术i h 变换编 衔江大学颈士学位论文 码技术和矢量量化编码技术是两矛| r 可选川的方法。离散余弦变换( d c t ) 编码有 明确的优点和相对简单的文现力法,由d c t 技术和视觉加权标量量化及行程编码 和熵编码技术是被优先考虑的。 ( 1 ) 离散余弦变换( d c t ) m p e g 标准i i 的d c t 是将个8 8 的空问窗口的图象采样数据或预测误差数 据作离散余弦变换,得出6 4 个变换系数。 ( 2 ) 量化 量化瀑差的主观感觉随d c t 系数的频率有很大的变化,利用这一特性可对高 频悉数作比较粗的量化。精确的量化矩阵依赖于许多外部参数,诸如图象的显示 特性,观察距离和源图象的噪声数量,因此有可能针对某种应用或某个单独的序 列设计一个专用的量化矩阵。 ( 3 ) 熵编码 为了进一步提高o c t 固有的压缩率和减少运动信息对整个位率的影响,使用 可变长度的码字进行编码。对o c t 系数,使用一个类似哈夫曼的表,对相应数对 ( 行程,幅值) 的符号进行编f i 马。 z 2 运动估计算法 对视频序列进行高效编码的关键是有效地消除空间冗余。为了这个口标,运 动估计( m o t i 0 1 1e s t i m a t e ) 和运动补偿( m o t i o nc o m p e n s a t :i o n ) 得到地广泛地 应用。 2 。2 1 光流分析法( o p t i c a lf l o wm e t h o d s ) ( 1 ) 二维运动与j 匕流场 二维运动指的是三维运动在图象平面上的透视或正交投影。三维运动的特征 可依据物体象素的三维瞬时速皮或三维位移米袭征。 对所有的( 工,f ) r 3 ,可以定义在时刻t 和t = f + l a t 浙江大学硕士学位论文 ( ,为整数,f 是瞬时采样问隔) 问的投影位移,由此产生一个连续时空变量的 实值二维位移矢量函数d a x ,t ;l a x ) 。二维运动矢量场涉及到这个函数的采样表达 式,它由下式给出: d 。( x ,t ;i a t ) = d a x ,t ;l n ) ,i f ( x ,f ) a 3 光流矢量定义为特定点( x ,t ) r 3 上的图象平面坐标的瞬时变化值,即 ( v v 2 ) = ( 拿,车) 。对应的光流场就是象素位移的矢量场。 a la t 光流场不同于二维运动场,这是因为 缺乏足够的空问图象梯度:在实际运动能被观察的运动范围内要有足够的灰 度等级变化。 外部光照的变化:个可以检测到的光流,并不总是对应与实际的运动。如 果外部光照有变化,即使没有运动,光流亦可检测到。 ( 2 ) 二维运动估算 二维运动估算问题就是在时问f 和t + a t 之间,对于所有的( x ,t ) 和,z 而言,图象平面对应矢量d ( x ,y ;i a x ) = d ( x ,t ;l a x ) ,4 ( x ,f ,f 缸) r 的估算。 正向估算: 给定时刻f 和t + z 出的时空采样值s 。( z ,t ) ,由下式表述 l ( 一,曼,f ) = s + ,山( + d l ( 工,t ;l a t ) ,x 2 + d ! ( 工,t ;l a x ) ,f + l a t ) 逆向估算: 对给定时刻t 和,一l a t , s ( z l ,x 2f ) = s 一( x 1 一吐( x ,t ;l a t ) ,叠一如( x ,t ;l a x ) ,r + l a t ) 在实际的视频压缩应川l ,逆向运动估算比正向运动估算更为方便,也得到 了更为广泛的戍川。 在对运动属性缺乏假设的情况下,仪仪依据两帧幽蒙米阐述对应或二维运动 估算,是。利“不适定”的问题。 浙江大学硕士学位论文 ( i ) 光流解的存在性 解的存在性即能否为两帧图象的象素建立对应关系。 参考帧 运动使得背景被_ | :f 盖在估值 帧中没订区域与之对应 估值帧 运动使得覆盖的背景变成不糖 盖,无运动矢量指向浚区域。 图2 2 运动目标对背景的攫盖弓i 起的光流遮蔽效应。 如图2 2 所示,估值帧中的虚线内的背景象素显然无法从参考帧中找到对应 象素。 ( i i ) 光流解的唯一性 如果假设每个象素的运动矢量都是独立的,那么从运动估算方程来看,未知 量的个数是方程个数的两倍。显然二维运动估算问题的解不是唯一的。 ( i i i ) 光流解的连续性 由于运动估值对序列图像中噪声高度敏感,很小的噪声将导致估值运动矢量 的很大偏差,所以解的连续性也不能保证。 由于二维运动估算的“不适定”的性质,所以运动估算的算法必须要有相关 二维运动场结构的附加假设模型。下面我们介绍基于光流方程( o f e o p t i c a i f i o we q u a t i o n ) 的方法 9 】。 ( 3 ) 光流方程 假设s o ( x , ,鼍,f ) 表示连续时空亮度分布。如果假设沿着运动轨迹的亮度保持 不变,我们得到: 垡丛每兰盟:0 ;五和马沿运动轨迹随f 而变化。 口f 它可以被表示成: 浙江大学硕士学位论文 垦掣v】(,r)+掣u(xt,x2,tox,) + 掣= o 吼讲 其巾, v ,( x t , x 2 t ) = 百d x i ,叱( 五,t ,f ) = i d x 2 这就是光流方程,又称为光流约束条件。用内积形式表示为 + a s x _ , x t ) :o 其h v s z x x 2 t ) ; o s j 末x :o ,o s j x , , x t ) r 。* ll 肌2 表示矢量的内积。 由上式可以发现仅f h ) t 流基本约束方程不能解得位置( x ,) 处的运动矢量,只 能得到垂直于图像空问梯度方向的运动分量v 。( x ,) ,称为法向流。 一堡垫! 兰! 堕 “一心,f 卜丽岽刍而 由此可以看出o f e 算法要求:时空图象亮度是可微的:亮度的偏微分也存在。 在实际应用r i - i ,由于o f e 算法太过复杂,因此它的使用受到很多限制。 2 2 2 基于块的分析方法 基于块的运动估算和补偿可算是最通用的算法。在h 2 6 1 、h 2 6 3 、b p e g l 、 m p e g 2 等国际标准中得到了应用。 ( 1 ) 块运动模型 最简单的块运动模型就是简单的二维平移。那么k 帧, 1 1 ,一个i | _ _ 1 心位于 月= ( n ,h :) 的v n 块8 被模型化为k + i ( 1 是整数) 帧t i t 同样大小的个块。 s ( h 1 ,n 2 , ) = s ( n l + d 】,n 2 + d 2 ,k + ,) 基于简单的块平移模型的运动补偿和估算的通川性在于: 由于每个块只需要。个运动矢量,冈此不需要很多附加条件农示运动场:实 现时有可以使j i j 的低价v l s i 。 浙江大学硕士学位论文 ( 2 ) 块匹配算法 块匹配算法的颦本思想如下:从当前帧k 小的象素( x ,v ) 的位移通过考虑 一个r h 0 定位伍( x ,v ) 的n h 块,同时搜索帧k + l ( 参考帧) 米找出同样大 小的最佳匹配块的位置米确定。从计算成本出发,搜索过程通常限制在一定大小 的窗口,i t 进行。称为搜索窗口。 块匹配算法有几个关键的地方,如匹配原则,搜索算法,块大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年护理礼仪知题库及答案
- 2025年标注人员协作平台设计试题及答案
- 2025年电力系统工程师中级专业模拟题及答案解析
- 2025年执业药师《法规》真题及答案(考生回忆版1)
- 2025医疗器械GCP考试试题(+答案)
- 文库发布:南亚课件
- 2025年度配电线路安规考试题库及答案
- 2025年服装委托加工合同范本
- 2025年开学典礼活动策划方案模板
- 2025年幼儿园防台风应急预案方案
- 2025年盘锦市总工会面向社会公开招聘工会社会工作者52人考试参考试题及答案解析
- 2025河北水发节水有限公司公开招聘工作人员16人笔试参考题库附答案解析
- 新版中华民族共同体概论课件第十二讲民族危亡与中华民族意识觉醒(1840-1919)-2025年版
- 夜间红外成像算法优化-洞察及研究
- 书店服务礼仪培训课件
- 设备点巡检基础知识培训
- 2025-2026学年辽师大版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
- 曲阜师范大学毕业论文答辩课件模板课件
- 谢好网金字塔教学课件
- 人教版二年级数学上册第一单元测试卷(含答案)
- 2025至2030复合磨机衬板行业发展趋势分析与未来投资战略咨询研究报告
评论
0/150
提交评论