(信号与信息处理专业论文)视频格式转换算法研究.pdf_第1页
(信号与信息处理专业论文)视频格式转换算法研究.pdf_第2页
(信号与信息处理专业论文)视频格式转换算法研究.pdf_第3页
(信号与信息处理专业论文)视频格式转换算法研究.pdf_第4页
(信号与信息处理专业论文)视频格式转换算法研究.pdf_第5页
已阅读5页,还剩67页未读 继续免费阅读

(信号与信息处理专业论文)视频格式转换算法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同 意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许 论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或 部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制 手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密d ( 请在以e 方框内打“”) 、 学位论文作者签名:王遣1 虱指导溯签铂司研 日期:泸弓年2 月7 日 日期:力 3 年工月f 7 日 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立 进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究 做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意 识到本声明的法律结果由本人承担。 学位论文作者签名:王建1 虱 日期:年月j 7 日 视频格式转换算法研究 摘要 随着数字电视产业以及视频技术的蓬勃发展,目前在视频领域内,大量格式标准并存, 其多样性适应了视频应用的广泛性、专业性,同时也造成了不同格式视频信号之间难以交流 信息的现状,长期存在的国际电视制式间的不兼容即为一例,这就需要用到视频格式转换,因 此多格式变换已成为数字电视终端中的必备功能,具有广阔的市场前景。本文作为国家计委 产业化重点项目高清晰度数字电视系统中的一部分,其主要目标是研究开发视频格式转 换新的算法,分析可行性及其性能评估。体文的主要研究成果如下: f 1 ) 运动估计方面:考察了传统块匹配运功估计算法和当今视频格式转换算法中占主流地位 的算法一3 维递归搜索块匹配算法,分析了后者在矢量一致性、算法硬件实现独特的优越性, 并将本算法作为本文后续工作中运动估计的基本算法;考虑到实际运动场景中大量存在全局 运动,而本算法对全局运动不能得到令人满意的效果,因此本文对算法利用提取全局参数进 行了优化,从而能够更好的反应场景中的全局运动:研究了亚象素运动估计中几种常用内插 滤波器一阶线性、三次样条、多相位插值滤波器的幅度和群延迟响应,分析了各自的特点, 指出多相位滤波器在内插性能上的优越性;本文还将运动估计分为三类情况一两场之间、帧 场之间、利用g s t 连续三场之间的运动估计,并且分别讨论了各自情况下利用不同插值滤 波器进行亚象素运动估计的性能。 f 2 ) 去隔行算法方面:考察了已有去隔行算法,涵盖范围从非运动补偿性质的,包括线性、 运动自适应、边界自适应等,到基于运动补偿性质的,包括时间反向投影、时间递归、白适 应递归、基于g s t 去隔行等,本文特地考察了这些算法对不同图像内容性质的差异,指出 有的算法比如a r 适用于处理图像细节,有的算法比如t r 适合于处理边界内容,所以,本 文尝试着用中值滤波器将这些算法的性能综合起来,从而在一定程度上达到折中,对新算法 的性能分析表明,这种改进还是比较有效的。另外,本文还从主观视觉方面考察了这些去隔 行算法的性能,最终得到的结论为:补偿算法与其他算法相比主要优势集中在其重构场在运 动表现上的平滑、自然性上,没有明显的运动的停滞、颤动现象,付出的代价是会出现块效 应、拖影和由错误运动形成的局部扭曲。在运动剧烈的序列中,运动补偿对视频质量改善非 常明显;而在运动不剧烈的序列中,运动补偿对视频质量的改善作用不大。 ( 3 ) 场率和空间扫描率变换方面:以5 0 h z 转换到i o o h z 倍频为例,分析了场复制算法和简 单的运动补偿平均算法的缺陷,指出对图象局部细节处理会因为运动矢量的不精确而导致赝 象,因此本文设计了结合中值滤波器的运动补偿方案,实验结果表明这种改进是有效的。本 文还以5 0 h z 转换到1 0 0 h z 为例说明了怎样用一种硬件实现简单的算法来完成分数倍频率 转换。对于空间扫描率方面,本文考察了传统了的线性插值、自适应边界插值的性能,并且 分析了一种对于边界插值进行改进的算法的性能,指出这种增强的边界算法是相对优良的。 目前本文的工作停留在算法软件仿真阶段,离硬件实现还有相当长的路要走,这也是今 2 后工作努力的方向。 , 关键词:视频格式转换去隔行场率扫描率运动估计亚象素内插运动补偿 ,一 ,” 。 s t u d yo fv i d e o f o r m a t sc o n v e r s i o n a l g o r i t h m a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fh d t vi n d u s t r ya n dd i g i t a lv i d e ot e c h n o l o g y , m a n vv i d e of o r m a t sc o e x i s ti nc u r r e n tv i d e of i e l d s o no n eh a n d ,t h ed i v e r s i t yo f v i d e of o r m a t sc o r r e s p o n d st op r o f e s s i o n a la n dv a r i o u sa p p l i c a t i o n s ;o nt h eo t h e rh a n d , i ta l s o1 e a d st o d i f f i c u l t y i ni n f o r m a t i o nc o m m u n i c a t i o nb e t w e e nd i f f e r e n tv i d e o s i g n a l s ,f o re x a m p l e ,t h ei n c o m p a t i b i l i t y o f d i f f e r e n ti n t e r n a t i o n a lt v s y s t e m s t h e n i t i s n e c e s s a r yt oc o n v e r tv i d e os i g n a l sb e t w e e nv a r i o u sf o r m a t s s oi t i sp r o s p e r o u si n m a r k e tb e c a u s ed i g i t a lt v e q u i p m e n t sn e e df o r m a tc o n v e r s i o ns y s t e m s a s a p a r to f h d t vs y s t e m s p o n s o r e db yn a t i o n a l p l a nd e v e l o p m e n tc o m m i t t e e ,t h em a i n r e s e a r c ht a r g e to ft h i s a r t i c l ei st od e v e l o pn e wa l g o r i t h m so fv i d e of o r m a t sa n d a n a l y z et h e i rp l a u s i b i l i t ya n dp e r f o r m a n c e t h i sa r t i c l e i so r g a n i z e da sf o l l o w s : f i r s t l y , w er e v i e wt r a d i t i o n a lb l o c km a t c h i n gm o t i o ne s t i m a t i o na l g o r i t h m sa n d t h e n e w l yd e v e l o p e d a n d d o m i n a t i n ga l g o r i t h m - 3 d i m e n s i o nr e c u r s i v es e a r c hb l o c k m a t c h i n gm o t i o ne s t i m a t i o n w ep o i n to u ti t sp r i o r i t yi nv e c t o ri n s i s t e n c ea n de a s i e r i m p l e m e n t a t i o n c o n s i d e r i n gw i d e l ye x i s t i n gg l o b a lm o t i o n ,t h e3 da l g o r i t h mi sn o t s u i t a b l et oh a n d l ew i t hs u c hs i t u a t i o n ;w ei m p r o v et h i sa l g o r i t h mu s i n gg l o b a lm o t i o n p a r a m e t e r w e a l s or e v i e w a m p l i t u d e a n d g r o u pd e l a yr e s p o n s e o f s e v e r a l i n t e r p o l a t i o nf i l t e ri ns u b - p i x e lm o t i o ne s t i m a t i o n ,i n c l u d i n gf i r s to r d e rl i n e a rf i l t e r , c u b i ci n t e r p o l a t i o nf i l t e ra n d p o l yp h a s ei n t e r p o l a t i o na n dp o i n t o u tt h ep r i o r i t yo ft h e l a s t i n t e r p o l a t i o n f i l t e r a tl a s t ,w ep a r t i t i o nm o t i o ne s t i m a t i o ni n t ot h r e ek i n d s : m o t i o ne s t i m a t i o nb e t w e e nt w o n e i g h b o r i n gf i e l d s ,b e t w e e nf r a m ea n d i t sf o l l o w i n g f i e l d ,b e t w e e nt h r e en e i g h b o r i n gf i e l d su s i n gg s ta n da n a l y z et h e i rp e r f o r m a n c e u n d e rv a r i o u ss i t u a t i o n s s e c o n d l y , w er e v i e w e x i s t i n gd e i n t e r l a c i n ga l g o r i t h m s f r o m o n - - m o t i o n - c o m p e n s a t i o na l g o r i t h mi n c l u d i n gl i n e a r , m o t i o na d a p t i v e , e d g ea d a p t i v e t om o t i o n - c o m p e n s a t i o nb a s e da l g o r i t h m si n c l u d i n gt b p , t r , a r ,g s t w e a n a l y z e t h e i rp e r f o r m a n c ei np r o c e s s i n gd e t a i l s ,e d g e ,a n dm o t i o nv e c t o rr o b u s ta n df i n do u t t h a te v e r ya l g o r i t h mh a si t so w np r e f e r e n c e s on a t u r a l l yw ec o m b i n ea l lt h e i r p r e f e r e n c e su s i n gm e d i a nf i l t e rt og a i nr e l a t i v e l yb e t t e rp e r f o r m a n c e i no v e r a l la s p e c t s b e s i d e s ,w ec o m p a r ea l l t h e s e a l g o r i t h m s f r o m s u b j e c t i v e e f f e c ta n dd r a wo u r c o n c l u s i o na sf o l l o w s :o no n eh a n d ,a l g o r i t h m sb a s e do nm o t i o nc o m p e n s a t i o na r e g o o da tm o t i o ns m o o t h n e s sa n dn a t u r a l n e s sw i t l l o u tm o t i o nj i t t e r , m e a nw h i l e1 e a dt o 3 4 o t h e ra r t i f a c t ss u c ha sb l o c ke f f e c t ,h a l o ;o nt h eo t h e rh a n d ,t h e yh a v ep e r f e c t p e r f o r m a n c ei nr a p i dm o t i o nw h i l e i ns l o wm o t i o ns i t u a t i o nt h e i rp r i o r i t yi sn o t o b v i o u s t h i r d l y , w ea n a l y z et h ed e f i c i e n c yo f f i e l dd u p l i c a t ea n ds i m p l ea v e r a g em o t i o n c o m p e n s a t i o na l g o r i t h mw i t hc o n v e r s i o nf r o m5 0 h z t o1 0 0 h zt a k e na sa ne x a m p l e a n dp o i n to u tt h a ti m p r o p e rp r o c e s s i o ni np i c t u r ed e t a i lr e s u l t si na r t i f a c t s s ow e d e v e l o pn e w s c h e m ec o m b i n i n gm e d i a nf i l t e r t h ef o l l o w i n gs i m u l a t i o nr e s u l tr e v e a l s i t si m p r o v e m e n te f f e c t w ea l s od e v i s eas i m p l es c h e m et oi m p l e m e n tf r a c t i o nf i e l d r a t ec o n v e r s i o nw i t hc o n v e r s i o nf r o m5 0 h zt o1 0 0 h za sa l le x a m p l e a tl a s t w e r e v i e ws e v e r a lt r a d i t i o n a l a l g o r i t h m s i ns c a nr a t ec o n v e r s i o n i n c l u d i n g l i n e a r i n t e r p o l a t i o na n de d g ea d a p t i v ei n t e r p o l a t i o n a sac o m p a r e , w ea l s oa n a l y z ean e w l y i m p r o v e da l g o r i t h mb a s e d o n e d g ea d a p t i v ei n t e r p o l a t i o n c u r r e n t l y 0 1 1 1 w o r kr e m a i n so nt h es t a g eo fs o f t w a r es i m u l a t i o n w eh a v ea l o n g w a y t og ob e f o r eh a r d w a r ei m p l e m e n t a t i o no ft h e s ea l g o r i t h m s i ti sw h a tw ew i l l f o c u so ni nt h ef u t u r e k e y w o r d s : v i d e of o r m a t se o n v e r s i o n m o t i o ne s t i m a t i o n d e i n t e r l a c i n g s u b - p i x e l f i e l dr a t e i n t e r p o l a t i o n s c a l ar a t e m o t i o n c o m p e n s a t i o n 圭童奎堡查堂堡圭堂垡堡;! ! ! ;三塑三! ! 上旦 第一章绪论 1 1 研究背景 视频信息是人类最重要的信息源之一,在信号处理领域占有很大的比重。现存的视频源 其实质为活动的三维场景投影到二维平面后对其进行空间一时间采样的结果。 由于历史的,技术的,甚至是政治的因素,目前的视频采样格式( 后文简称为视频格式) 非常多样化( 见表1 1 ) 。如在电视发展早期阶段,由于技术条件的限制,当场频与交流电源 不一致时,节目制作中容易出现画面闪烁,而接收器也会出现滚动的横杠。为了克服这技 术障碍,各地区的电视节目选取本地交流电源频率作为场频,出现了5 0 h z 和6 0 h z 两大类 直视阵营。周肘由于频道带宽的膜制,与5 0 h z 和6 0 h z 场频相适应,发展出了5 2 5 扫描线 的n t s c 制式和6 2 5 扫描线的p a l 制式。出于产业保护等政治目的,在p a l 之后5 0 h z 阵 营内又发展出了s e c a m 制式。9 0 年代以来,数字电视技术的飞速发展,许多国家和组织 又都提出了自己的格式标准。表1 - 1 列出了些重要的视频格式标准。这种视频格式的多样 性同样还表现在监控、会议电视等应用领域,由于通讯带宽、存储容量、设备成本等限制, 不同的应用场合会选用特定的采样格式。如此众多的视频格式既方便了视频应用在各个专业 领域的快速推广,同时也造成了不同视频格式间信息交流、编辑、传输、演播的障碍。如现 在p a l 制式地区的观众和n t s c 制式地区的观众之间无法共享电视节目。近年来,随着信 息技术、通讯技术、广播电视、多媒体技术的发展,多格式视频间的交互需求越来越旺盛, 为视频采样格式转换提供了广阔的市场前景。 当然,视频格式转换技术不仅仅用作不同格式视频间的桥接,还可用于:( 1 ) 视觉效果 增强。如目前市场流行的1 0 0 h z 电视,通过场频率倍增去除普通电视的闪烁效应;1 6 :9 电 视变换空间采样率增加观众的l 临场感。( 2 ) 视频压缩。如h 2 6 3 视频会议系统,采用了帧场 抽取来减少码率,帧率为7 5 f s ,为了得到高质量的画面,在解码端需要帧场内插还原视频 流。( 3 ) 视频编辑。如电影胶片到视频节目的转换,叉如在m p e g - 4 标准中,由来自不同 片源的视频s p r i t e 拼接成统一、完整的场景。( 4 ) 精密监控。由于传感器性能的限制,得到 的传感图像可能不足以满足监控所需的精度,需要通过视频格式转换技术对视频进行超分辨 率变换。 目前,我国高清数字电视产业正以日新月异的速度迅猛发展。但是,我们必须看到,由 于建立全数字电视台需要高昂的费用、而用高清格式拍摄的节目相对缺乏、以及现在家庭拥 有大量的模拟制式电视机等各种因素的影响,这一切都决定了从模拟到数字电视时代的转变 是一个渐进的过程。美国从2 0 0 0 年开始广播数字电视,计划到2 0 0 6 年才停止使用模拟电视 台;欧洲已经开通d v b 节目,与此同时传统的模拟电视并未取消;日本于2 0 0 1 年开播6 套卫星高清数字电视,2 0 0 3 年将在各主要城市开展地面数字高清晰度电视,而目前的模拟 标清、高清电视仍将延续:我国于1 9 9 9 年国庆首播高清晰度电视,2 0 0 0 年先后在北京、上 海、深圳等地定期试播高清晰度数字电视节目。可见,传统电视到高清晰度数字电视的过渡 7 上海交通大学硕士学位论文 2 0 0 3 年1 月 过程将会持续很长一段时间,此阶段大量视频格式并存,需要接收终端提供格式转换功能以 兼容不同视频格式。另外在高清晰度电视推广的初期,高清晰度的节目源非常有限,也需要 格式转换设备将大量标清格式的节目转成高清格式。这也是本文所作研究的目的之一。 采样格式 标准制定组织应用领域有效像素( 水平垂直场 率1 n t s c c c 玳与原n t s c 模拟制式兼容的数字 6 4 0 4 8 0 6 0 i 5 2 5 6 0电视格式 眦c c i r与原n t s c 模拟制式兼容的数字7 2 0 5 7 6 5 0 1 6 2 5 6 0电视格式 h d t v 1 2 8 0s m p t e高清数字电视格式7 2 0 1 2 8 0 6 0 p ,3 0 p 2 4 p h d t v 1 9 2 0s m p t e高清数字电视格式1 0 8 0 1 9 2 0 6 0 p 以o p 2 4 p s i fi s o c m p e g 1 的标准输入格式,用于视 2 4 0 3 5 2 3 0 p 频存储 c i fi s o 肥c h 2 6 1 的标准输入格式,用于会议 2 8 8 3 6 0 3 0 p 电视 q c 球 i s o i e ch 2 6 1 的标准输入格式,用于可视 1 4 4 1 8 0 x3 0 p 电话 气c c i r 已于1 9 9 3 年更名为玎u 1 2 研究内容 表1 - i 几类重要视频标准的采样格式 t a b l e1 - 1s e v e r a lv i d e os a m p l ef o r m a t 本质上说来,视频格式变换是一种时一空( t e m p o r a l - - s p a t i a l ) 三维视场的重采样过程。 一个典型的重采样系统由信号输入、采样、滤波、重采样和输出这样五个环节构成,图1 - 1 显示了一个一维重采样系统的结构。从信号分析的角度来观察,如果输入信号为一理想的带 限信号,采样率符合奈奎斯特定理,且重构滤波器完全线性,则输出端可以理想地复现输入 信号。而现实世界的待处理信号往往并非限带的,同时理想的线性滤波器物理上并不可行, 因此这样的处理过程总会引入信息的损失或畸变。这种信号的失真既表现在时域中波形的形 变,对于一个频率响应系统丽言更表现在频谱的变化上。在实际系统中,信号的接收部分( 如 眼、耳等等) 往往具有复杂的频谱,只对高增益区段的信号敏感。如果充分利用接收者的这 类屏蔽效应,有选择地舍弃一些次要信息,着重处理重要信息,将能有效地提高重采样算法 的效率。 在现代的重采样系统中,重采样滤波器通常也在离散域中直接对数字信号进行操作,滤 波和重采样同时完成,典型的技术包括时域低通数字滤波、频域填零扩展等等【” 8 占鲞奎望盔堂堡圭堂垡堡壅三竺三兰! 旦 对视频采样格式变换而言,重采样主要包括如下三种类型:变扫描率、去隔行和变帧 场率。 变扫描率( s c a n m g r a t ec o n v e r s i o n ) 即通常而言的图像缩放( s c a l i n g ) ,一般用于采用 不同分辨率的标准间转换或者画中画( p i p ) 、多画面模式( m p m ) 、拉镜( z o o m i n g ) 等视 频特效中。基于帧存、处理能力、系统性价比等的考虑,一般采用帧内( i n t r a - f r a m e ) 算法。 传统的二维插值技术都可以成为其候选算法。但应注意,评估一般的图像插值算法是否适合 视频缩放一定要考虑到其处理场景的时域稳定性,如不理想的算法尽管有较好的单帧特性, 但可能会由于前后帧处理的不一致性造成物体轮廓处的跳动现象。 引。陋蹦“恤越。“。恤皿。“。七蛤 图l - 1 重采样系统结构 f i g u r e 卜jr e s a m p l i n gs y s i e ms t r u c t u r e 隔行变换( d e i n t e d a c i n g ) 是一项特殊的视频信号处理。隔行扫描方式设计的初衷是利 用视觉残留特性,在有限的处理带宽内提供尽可能高的垂直分辨率,同时消除低帧率造成的 大面积闪烁效应。由于隔行处理是直接在图像平面垂直方向上的抽取,并未进行前置滤波, 理论上将引入垂直方向的频谱混叠。实践中经常能观察到的隔行缺陷有诸如行间闪烁、爬行、 运动物体垂直轮廓畸变等等。由于历史原因,隔行扫描视频广泛存在,并且为大量视频终端 设备采用。因此,隔行变换是视频采样格式转换研究的一个重要内容。传统的转隔行可以通 过帧内信息隔行抽取完成,去隔行算法有两类:场内( i n l r a f i e l d ) 插值和场间( i n t e r f i e l d ) 插值。场内插值类似于垂直方向1 :2 的变扫描率变换,可以选用各种二维图像插值算法。场 间插值将涉及多场信息的有效融合,对静止场景,简单的合并就可以获得比帧内算法更好的 去隔行视频,而在大运动场合,场间的差异非常明显,不恰当的帧间算法会造成垂直方向的 锯齿,性能甚至劣于帧内算法。 场率变换( f i e l dr a t ec o n v e r s i o n ) 需要在帧场间重构出新的帧,场。最简单的方式是重 复当前帧,场,这种技术非常易于实现,在早期的变帧场率应用中被广泛采用。其缺点是对 运动物体有非常明显的跳动现象( j i t t e r ) 。高质量的场率变换将建立在基于运动矢量的动态 补偿内插基础之上,在运动轨迹上重构待插帧场。 9 圭塑奎望查兰堡主堂焦堕奎兰翌! 兰j 旦 1 3 格式转换的理论基础” 1 3 1 静止场景的频谱 对于三维采样点阵a3 ,设v ,v 。,v ,为三维空间r 3 中的线性独立矢量,分别表示空间上 的水平、垂直以及时间上的矢量,则a 3 可以看作由v x , v ,v ,的全部整系数线性组合构成的 集合: a 3 = 如,匕+ m ,b 以,i 。n x , n y , n j z n :j 式中y = p ,f v ,k j ,称为给定采样点阵a 3 的一个采样矩阵。 对一个视频场景,其信号为f ( x ,y ,f ) ,以采样矩阵来表示,采样后的信号为 加川叫圳,磊m ,吖 :f ( x 川y ) 占 i n t n v ,】e x y t 一矿 一矿 f n v n r j 甩y 聆f 对其进行付氏变换,设连续信号的频谱为f ( u ,v ,w ) ,则采样信号的频谱为 弘,v ,w ,2 南毫, “ v w u ( 1 2 ) ( 1 - 3 ) 式中l ,d ( a 3 ) 为采样密度的倒数,表示单位空间内的采样点数。u 满足u 7 矿= ,由c ,作 为采样矩阵确定的采样点阵称为a 3 的倒易点阵,表示为人。由此,视频采样信号的频谱 是连续信号频谱按倒易点阵分布的无数个复制频谱之和 我们研究的视频采样点阵主要为逐行和隔行两种方式,逐行方式下( 如图1 - 2 ) : 采样矩阵 1 0 缈 a t ( 1 - 4 ) 、i,j y ,l i i 、, =yf 栉 + 缸 。l | i 咋 上海交通大学硕士学位论文 2 0 0 3 年1 月 倒易点阵的采样矩阵:u 。= 采样密度为: 1 a x 0 o 0 1 a y o 0 0 1 a t d p ( a3 ) = a x a y a t a p 3a p p 图1 - 2 逐行采样点阵及其倒易点阵 f i g u r el 。2s a m p l el a t t i c ef o rp r o g r e s s i v ev i d e oa n di t sr e c i p r o c a ll a t t i c e 隔行采样点阵( 如图1 - 3 ) : 采样矩阵: = 倒易点阵的采样矩阵 采样密度为 2 缈a y 出2 u = r 心 d i ( 人3 ) = a x a y a t ( 1 - 5 ) ( 1 - 6 ) ( 1 7 ) ( 1 8 ) ( 1 - 9 ) 当视频场景为静态场景时,信号相对时间轴为一常量,其频谱分布在与w 轴垂直的平 面内,为二维平面谱。如果原始信号的频带限制在倒易点阵的“一v 平面单元格内,即截至 频率满足条件( 或 a u 2 ) ( 鼠 a v 2 ) ( 如图1 - 4 ) ,则采样过程中频谱复制无混叠,原 始信号可以通过理想低通滤波器完全重构。 图1 - 4 显示了静态视频扫描率上变换的频谱域过程。从中可以得到如下结论: ,蝴堋躺躺被酬于网格( - 争,争) ( _ 争,争卜棚中 “m2 m i n ( a u o ,a m ) ,。= m i n ( a v o ,h ) ) ,格式变换过程可以无混叠地完成。 2 ) 为了防止由于混叠产生的虚像,下变换前( 倒易点阵将变密) 需要进行防混叠滤波;而 上海交通大学硕士学位论文 2 0 0 3 年1 月 同样地,上变换时( 倒易点阵将变疏) 已丢失的高频信息也不可能通过插入值恢复。 3 ) 对于静态隔行视频,尽管场内垂直方向采样距离加大( 2 ) ,但由于其倒易点阵的u v 平面单元格与逐行方式下相同( 1 y ) ,因此从频谱域来看,静态隔行视频可以保留与 逐行视频相同的分辨率而不产生混叠。 4 ) 但对于单场隔行视频而言,其信号本身是由逐行视频直接作垂直方向抽取而来,存在混 叠。从频谱域角度分析,任何场内格式转换算法只能改变频谱的分布,无法恢复已混叠 的信号。这是所有场内格式转换算法共有的缺陷。 5 ) 由( 3 ) 和( 4 ) 分析可知,对静态带限隔行视频源,理想的场间格式转换算法可以去除隔行效 应,恢复图像隔行抽取前的分辨率。 yo 、1 茎 体:# :孓:= ;= :二: 土:。_ :- = - 二士 l _ :- - - t - 一- - t - - - - 专- ;- ,- t - a ,3a ,妒 1 ( 2 每) 图1 - 3 隔行采样点阵及其倒易点阵 f i g u r e1 - 3s a m p l el a u i c eo f i n t e r l a c e dv i d e oa n di t sr e c i p r o c a ll a t t i c e 图1 4 扫描率变换中的频谱过程( 帧内滤波) f i g u r e1 - 4s p e e o u mo f s c a nr a t ec o n v e r s i o n ( i n t r a - f r a r n et i l t e r ) 1 3 2 运动场景的频谱 对于运动场景,其信号频谱不再局限于垂直w 轴的平面内,具有三维形态。 了保证采样后的频谱互不混叠,其频谱应当限制于倒易点阵的单元格内: ( 一等,等 ( 一等,等 ( 一鲁,鲁 1 2 此时,为 ( 1 - 1o ) 圭童奎望盔兰堡主堂垡堡壅 二塑兰兰! 旦 这是一种过强的防混叠条件,其代价是大量的有用高频信息将被抛弃。如果能够找到运动场 景的频谱特点,并据此设计相应的滤波器,在采样格式变换过程中尽可能保留原始视频中的 有用信息,则可以得到比较完美的结果。 设运动场景厂( x ,y ,f ) 作乖= h ,v , 的整体恒速运动,则: f ( x ,y ,r ) = f o o v x t ,y v y t ) 式中f o ( x ,y ) 为初始参考帧,其频谱为f o ( u ,v ) 。对上式作三维傅立叶变换得 , ,v ,w ) = 五o - - v x t ,y b f ) p 一7 2 4 “+ + a x a y a t ( 1 1 2 ) j ,y f 】一 运用变量替换z = x v x t ,y = y u r 得到 f ( “,v ,w ) = f o ( x , y ) e - j 2 x ( u x + r y ) d x 砂8 。2 州“+ 叶“”d t m y k 矿 f e ( 1 1 3 ) = f o ( u ,v ) 5 ( u v ,+ v v ,+ w ) 上式表明在三维频谱空间u v w 中,作整体恒速运动的场景其频谱为将初始场景的二维 频谱r ( “,v ) 复制在空间平面“u + + w = 0 中,如图1 - 5 ( a ) c o ) p ) 际。 图i 一5 整体恒速率运动视频信号频谱 f i g u r e1 - 5t h es p e c t r u mo f v i d e ow i t hg l o b a l ,u n i f o r mv e l o c i t ym o t i o n 对这样的时空三维场景进行采样,由式1 - 3 可知其采样信号的频谱为连续信号频谱在倒易点 阵处的复制。图1 4 ( c ) 为u = 0 处的v w 平面内恒速运动场景的采样频谱,也称为垂直一 时间谱。如果不考虑原始频谱平面分布这一特点,则只有当信号频带限制在图1 _ 4 ( c ) 中的阴 影带内时,采样速率满足耐奎斯特采样定理,频谱不混叠。但对于整体恒速率运动场景,其 频谱完全可以在三维空间内交错分布,即使采样频率为亚耐奎斯特采样率,只要满足运动速 度非临界速度( 即该速度下采样后的空间频谱平面将通过多个倒易网格点) ,频谱实际并不 混叠。仍然可以无混叠地实现信号的格式变换和重构,但普通的时空滤波器无法胜任,必须 圭塑奎望盔堂堡圭堂垡堡壅一三塑! j 坠星 由沿速度矢量滤波的运动补偿滤波器完成。由此可以得出如下结论: 1 ) 真实场景通常包含非恒速运动,但在一个小的时间段内,可以看作匀速运动( 时间域内 的高频部分将为视觉系统抑制) ,对于短时频谱,恒速率运动假设满足。 2 ) 真实场景通常包含多种运动,但基于场景中物体远大于采样栅格的假设( 同样人眼对空 间域内的小物体不敏感) ,在各物体区域内,整体运动假设仍满足。 3 ) 如果沿着运动方向进行插值滤波,则能充分利用频谱的空间平行分布这一特点,在格式 变换过程中保留比耐奎斯特截止频带更高的频率信息,以提供高于静态滤波方式的视频 质量。 这一部分我们考察了视频信号的频谱域特性,分析了静止场景和运动场景在格式变换过 程中的频谱变化,提出了确保变换过程中信息完整重构的条件,为格式变换提供了理论基础。 1 。4 本文内容安排和研究创新 以上我们粗略介绍了视频格式转换的背景、基本内容以及其理论基础。应该指出,视频 格式转换牵涉到的面相当广泛,包括信号处理、图象分析、运动估计、图像内插、以及计算 机视觉等等,本文不可能涵盖所有的内容。笔者读硕士期间主要从事视频内插算法的研究及 视频格式转换系统的实现,因此本文的主要内容是围绕这些并作适当扩展来进行一些初步的 研究探索。 在第二章里面,我们考察了当前格式转换中的主流运动估计算法3 维递归搜索块匹配 算法的性能及其优越性,并对其利用全局参数进行优化。另外,研究了了亚象素运动估计中 涉及到的关键技术一亚象素插值算法。 在第三章里面,我们考察了主要的去隔行算法,包括线性算法、非线形和基于运动补偿 的算法,比较了它们的性能,提出了利用中值滤波器进行优化的新的算法。 第四章我们研究了场率变换中已有算法的品质退化,然后提出了改进措施。另外还比较 了空间扫描率转化方面各种算法的性能。 第五章为总结和展望,总结了本文研究成果,指出了后续工作的研究方向。 本文的创造性研究成果概括如下: ( 1 ) 分析了3 微递归搜索算法的不足后,利用全局参数对其进行了改进; ( 2 )分析了去隔行算法的性能后,指出已存在算法的不足,利用中值滤波进行优化; ( 3 ) 分析了简单的基于运动补偿的场率倍增算法不足后,利用切换参数进行优化,并对 分数倍场率变换提出硬件实现相对简单易行的实现算法框架。 1 4 圭童銮望查兰堡主兰丝笙塞三竺兰至二l 旦 第二章运动估计算法研究 2 1 运动估计算法综述 由上一章的讨论可知,要用运动补偿滤波来进行视频格式转换,必须要进行运动估计从 而得到格式转换所需要的运动矢量。二维真实运动场的估算本质上是从三维场景的a 3 采样 点阵中估算高阶次的三维运动在采样平面的二维投影,是典型的不适定问题,其解的存在性、 唯一性和连续性都无法保证f l 】。这种不适定性表现在: ( 1 ) 孔径问题:如果没有附加约束条件,任何算法只能确定垂直于空间梯度方向上的运动, 而沿着梯度方向由于缺乏足够的信息使得任何位置都可能找到匹配的像素,解的唯一性很难 满足。( 2 ) 遮挡爆露:场景中运动物体相对位置的变化会造成前景对背景的遮挡或暴露,这 些位置的像素会无法在相邻场中找到对应点而使运动估计失败,即解的存在性不满足。( 3 ) 噪 声影响:观察噪声很容易影响运动估计的结果,尤其存在孔径效应的场合,真实运动矢量与 其它可能解性能很接近,很容易被噪声干扰。( 4 ) 光照变化:光照变化会引起大范围的像素 亮度调整,其过程复杂,很难正确建模。由此引起的序列中像素间对应关系的变化会影响估 计结果的正确性。 运动估计的方法很多,但是我们必须看到格式转换中对运动估计的要求和视频压缩中是 不一样的1 2 :在视频编码领域,运动矢量是为了减小预测误差( 而这个误差还通过信道传 送) ,运动估计的真实性( 与真实运动场相比) 要求并不高,而运动场的熵却是一个重要的 指标,它将决定运动矢量最终编码的比特数,估算的误差由误差帧得以补偿;在格式转换领 域,要求:( 1 ) 由于内插是在沿着运动轨迹的方向上进行,所以得到的运动矢量必须准确, 即能够反映物体的真实运动。这是个非常关键的要求;使用不能反应物体真实运动的矢量 会导致物体位置的偏移,反映到最后效果上就会出现赝象。( 2 ) 由于我们设计算法的最终目 标是将其制成芯片,供专业设备或消费类电子产品使用,所采用的算法应该尽可能地简化, 降低计算复杂度,便于硬件实现。传统压缩编码领域广泛使用的运动估计算法主要考虑的不 是其估计结果对实际运动描述的真实性,而是最小化重构残差以达到压缩信息量的茸的,因 而未采取足够措施来控制上述不适定问题,其结果很难满足空域一致性和时域连续性的要 求,并不适合运动补偿格式变换的要求,需要开发更适合的运动估计算法。 用于格式转换的运动估计算法可以用于编码,但是用于预测编码的运动估计算法不能 照搬到格式转化。传统的运动估计算法大致可以分为基于象素的方法和基于块匹配的方法。 在视频编码领域得到广泛应用的方法有( 参考文献 3 】 4 】 5 】【6 】【7 】) : ( 1 ) 全搜索( f u l ls e a r c h ) :也称为穷尽搜索法。算法思想是对搜索范围内的所有可能的候 ! 塑奎望杰兰堡圭竺竺笙苎一 一丝竖生! 丛 选位置计算最小绝对误差,从中找出最小的那个对应的偏移量就是所求的运动矢量。此方法 典型缺点是计算量大,但是这种算法简单、可靠,其次它找到的一定是全局的最优点。 ( 2 ) 三步搜索法( t h r e es t e ps e a r c h ) :从原始点开始,以最大搜索长度的一半作为搜索步 长,检测中心点及其周围8 个邻近点的绝对误差和,找出最小值。然后以该最小点为中心, 步长减半,并在缩小的方形上9 点中找出最小值,以此类推,直至最终结果。 ( 3 ) 二维对数搜索法( t w od i m e n s i o ns e a r c h ) :该算法基本思想是通过快速搜索跟踪最小绝 对误差和的点。从原始点开始,以十字形分布的五个点构成每次搜索的点群,求出最小误差 点。如最小点出现在十字形点群的边缘点,则下次搜索以该点为新的十字形搜索点群的中心 点,而步长不变。如最小点出现在十字点群的中心点,则下次搜索点仍以该点为中心构成十 字形点群,但步长减半。以此类推,直至步长为l ,此时找到的晟小误差点就是所求的最优 匹配点。 ( 4 ) 交叉搜索法( c r o s ss e a r c ha l g o r i t h m ) :这种算法是在t d l 法和t s s 法基础上为进一步 减少计算量而发展起来的快速搜索法。从原始点开始,以最大搜索长度的一半作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论