(计算机应用技术专业论文)镜头边界检测算法研究.pdf_第1页
(计算机应用技术专业论文)镜头边界检测算法研究.pdf_第2页
(计算机应用技术专业论文)镜头边界检测算法研究.pdf_第3页
(计算机应用技术专业论文)镜头边界检测算法研究.pdf_第4页
(计算机应用技术专业论文)镜头边界检测算法研究.pdf_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 镜头边界检测算法研究 计算机应用技术专业硕士研究生杜奎然 指导教师肖国强教授 摘要 随着数字时代的来临,计算机技术和多媒体技术的迅猛发展使声音、视频 等各种各样的信息现在能以高效、方便的形式储存,但同时也造成视频资料泛 滥的问题,如何有效管理和检索视频成为亟待解决的问题之一。基于内容的视 频检索技术的出现能有效地解决视频存储管理以及检索的一系列问题,镜头边 界自动检测是实现基于内容的视频检索系统关键的第一步,同时也是极具挑战 的课题,近年来成为了研究热点之一。 有鉴于此,本文对镜头边界自动检测展开深入研究,首先分析了算法的研 究现状与发展趋势,总结了现有算法的优劣,在此基础上提出一种利用多种视 频特征的自适应门限镜头分割算法。突变检测中,算法首先利用滑动窗口,把 当前帧与其前后相邻多帧的视频特征进行比较,形成两组一维的相似向量,再 运用f i s h e r 线性判别式,与此同时,结合视频序列中提取的运动矢量形成的自 适应阈值来实现突变检测。在渐变检测过程中,首先提取帧的亮度方差作为视 频特征,再利用有限状态机来搜索特征曲线中可能存在的渐变,然后结合帧的 纹理特征和目标的运动情况来进一步确认渐变的存在,从而最大可能地检测出 渐变。对大量1 i 也c v 】d 视频进行实验的结果表明,该算法对视频突变和渐变 都具有良好的检测性能,同时能有效地避免运动以及闪光带来的干扰,对各类 视频具有较好的鲁棒性。 关键词:镜头边界渐变检测突变检测f i s h e r 判别式运动信息 a b s t r a c t v i d e os h o tb o u n d a r yd e t e c t i o na l g o r i t h m m a jo r :c o m p u t e ra p p l i c a t i o nt e c h n o l o g y a u t h o r :k u i r a nd u s u p e r v i s o r :p r o f g u o q i a n gx i a o a b s t r a c t w i t ht h ec o m i n go fd i g i t a la g e ,t h er a p i dd e v e l o p m e n to fc o m p u t e ra n d m u l t i m e d i at e c h n i q u em a k ei tp o s s i b l et os t o r ea u d i oa n dv i d e of i l e si na ne f f i c i e n t a n dc o n v e n i e n tw a y ,a n dm e a n w h i l e ,t h ef l o o d i n go fm u l t i m e d i ai n f o r m a t i o na l s o r e s u l t e di na l lu r g e n tp r o b l e mo fh o wt om a n a g ea n dr e t r i e v a lt h e s ei n f o r m a t i o n e f f i c i e n t l y t h ec o m e n t b a s e dv i d e or e t r i e v a l ( c b v r ) s y s t e m i sag o o ds o l u t i o nt o t h i sp r o b l e m ,a n di th a sb e i n gah o tt o p i ci nm u l t i m e d i af i e l df o rr e c e n ty e a r s s h o t b o u n d a r yd e t e c t i o ni st h ec r i t i c a lr e q u i s i t eo fi m p l e m e n t i n gc b v r , w h i c hi sq u i t ea b i gc h a l l e n g e t h i st h e s i sm a k e sad e e pr e s e a r c ho ns h o tb o u n d a r yd e t e c t i o ni n c l u d i n ga n a l y s i s t h es t a t eo ft h ea r t , a n ds u m m a r i z e st h ep r o g r e s st r e n da n dd r a w b a c k so ra d v a n t a g e s o ft h e s ee x i s t i n ga l g o r i t h m s 。t h e nt h i st h e s i sp r e s e n t san o v e la l g o r i t h mb a s e do nt h e e x i s t i n gw o r k ,w h i c hc o n s i s t so ft w op a r t s ,n a m e l ya b r u p tc h a n g ed e t e c t i o na n d g r a d u a lc h a n g ed e t e c t i o n f i r s t l y , b o t has l i d i n gw i n d o wa n daf i s h e rd i s c r i m i n a t o r a r eu s e d + t od e t e c ta b r u p tc h a n g e f u r t h e r m o r e ,a na d a p t i v et h r e s h o l d ,w h i c hi s d e d u c e df r o mm o t i o nv e c t o r se m b e d d e di nv i d e ob i ts t r e a m s ,i sa l s oe m p l o y e dt o d e a lw i t ht h ep r o b l e mo fa b r u p tc h a n g ed e t e c t i o n m e a n w h i l e ,af i n i t es t a t em a c h i n e i su s e dt os e a r c hg r a d u a lt r a n s i t i o nc a n d i d a t ea l o n gi n t e n s i t yv a r i a n c ec o n t i n u i t y s i g n a l ,t h e ne l i m i n a t et h o s ef a l s ec a n d i d a t e su s i n gm o t i o ni n f o r m a t i o na n dt e x t u r e f e a t u r e e x p e r i m e n t a lr e s u l t sb a s e do nal a r g ec o l l e c t i o no fv i d e o sf r o mt r e c v i d d e m o n s t r a t et h a tt h ep r o p o s e da l g o r i t h mw o r k si n d e e dw e l lm e a s u r e db yb o t h r o b u s t n e s sa n de f f i c i e n c y k e yw o r d s :s h o tb o u n d a r yc u t d e t e c t i o ng r a d u a ld e t e c t i o nf i s h e rl i n e a r d i s c r i m i n a t o rm o t i o ni n f o r m a t i o n i i i 独创性声明 学位论文题目 统盐也銎缝巡耸垄叠亟 本人提交的学位论文是在导师指导下进行的研究工作及取得的 研究成果。论文中引用他人已经发表或出版过的研究成果,文中已加 了特别标注:对本研究及学位论文撰写曾做出贡献的老师、腮友、同 仁在文中作了明确说明并表示衷心感谢。 学位敝能咖食虼签字溉1 年厂月才日 学位论文版权使用授权书 本学位论文作者完全了解西南大学有关保留、使用学位论文的规 定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允 许论文被查阅和借阅。本人授权西南大学研究生院( 筹) 可以将学位 论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩 印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书,本论文:口不保密, 口保密期限至年月止) 学位论文作者签名:辛渺 签字嗍:1 年歹月万日 导师签名: 签字日其】9 :7 7 年岁月却1 第一章绪论 第一章绪论 1 1 引言 近年来,多媒体技术和通信技术的发展日新月异,与此同时人们的消费水 平和消费观念也发生了很大改变,现在人们不仅仅追求物质享受更越来越注重 精神的享受,在这样的条件下,数字视频的应用呈爆炸式的增长态势,这主要 源于两个方面原因:l 、半导体业的摩尔定律仍然在继续,这使得计算机处理 能力和存储能力得到持续提高,这也造就了数码摄像机的普及,人们非常容易 就能制作出视频。2 、互联网的普及。它使得多媒体传播快速和方便。现在, 朋友亲人之间通过互联网互相分享视频和图片非常普遍。每天都有海量数字视 频产生。人们接触到数字视频的渠道越来越广,据有关统计报道,全世界的电 视台每天约产生成几十t 的谈话节目视频和新闻类视频,如何将这些海量的视 频进行有效管理是一个非常艰巨的任务。一种办法是手工地对这些视频内容进 行标注,进而产生视频数据库,然后对视频数据库进行检索和查询得到用户想 要的数据。这种方法费时费力,特别是对海量的视频数据,这种方法几乎是不 可行的。另一种方法是利用计算机对这些海量的视频进行分析和理解来形成视 频库,最终实现基于视频内容的检索和查询。而要进行视频内容分析,对视频 进行结构性分析是先决条件【l 】。 1 2 研究背景及意义 基于内容的视频检索系统关键的一项技术是对视频进行结构分析,设计一 个高效算法分割视频具有极大的应用价值。在过去的十年时间,这个问题成为 了多媒体领域的研究热点,众多学者提出了大量有效的算法,但是,目前存在 的算法都存在这样或那样的问题,因此视频分割的问题还没有得到很好的解 决,基于内容的视频分析和检索系统的原型系统虽然已经存在,但目前还仅仅 只停留在实验阶段跚,离实际应用阶段还有很长一段路要走,这也正是本文研 究的初衷。每年由美国国家标准局( n i s t ) 举办的t r e c v i d 会议1 ,旨在推进视 频检索技术的发展,从2 0 0 7 年的会议报告来看,2 0 多家的科研机构提交的检 测报告中,几乎全部的突变检测算法查全率和查准率都达到了9 2 9 6 以上。从某 种程度上来讲,突变检测的问题得到了很好解决1 4 】。但是,我们也可以看到, 一方面,历年t r e c v i d 视频的突变检测难度在增加,某些上一年表现优异的算 法在该年表现性能却有所下降,因此需要进一步优化。另一方面,t r e c v i d 历 年视频种类单一,主要集中在电视新闻类,经过实验发现,一些在t r e c v i d 表 现良好的算法在其他视频上却性能严重劣化,如体育运动视频,动画等等,因 西南大学硕士学位论文 此需要进一步改善算法的鲁棒性。而渐变检测,由于两个镜头之间变化情况多 样,用单一特征来检测均没能达到很好的效果,同样在2 0 0 7 年t r e c v i d 会议 报告中,渐变检测算法的查全率和查准率都只在7 0 - - 8 0 之间,还需进一步提 高h 1 。对于实现基于内容的视频检索系统而言,进一步提高渐变检测算法的查 全率和查准率有极大的理论价值和应用价值。 1 3 研究现状与发展趋势 i 3 1 研究现状 最近几年,镜头边界检测算法一直是多媒体领域的研究热点,不少研究团 体和个人提出了新颖的思想和表现优异的算法。中国大陆学者张宏江博士在这 个多媒体分析领域做出了开创性的贡献,首先提出了这个研究课题,并就这个 课题发表了自己的看法,进而提出了一些算法【5 】。j b e s e 6 s 等人对于这个问题进 行了理论模型建立【6 】,从此为这个问题的求解奠定了理论基础。最近,清华大 学针对这个问题进行了全面理论化、规范化,认为这个问题的求解过程可以分 为三个阶段p j :( 1 ) 、特征提取( 2 ) 、检测信号的构成( 3 ) 、对检测信号分类得到 镜头切换类型。在这三个阶段国内外各科研机构采用的方法都各有不同。在特 征提取阶段中,提取的特征主要分为两大类:像素域特征和压缩域特征,像素 域中,最简单的方法就是提取帧图像中每一个像素值。这种方法的缺点显而易 见,计算量大且由于捕获了帧的每一个细节变化,因而太敏感。为了解决这些 问题,统计出每一帧颜色直方图的特征被广泛采用,颜色直方图特征去除了各 神颜色的空间分布信息,对于局部运动已不太敏感,大量实验表明,采用这种 特征进行突变检测能达到较好的效果【8 】【9 1 ,国内科研机构中,清华大学、华中 科技大学历年向t r e c v i d 会议提交的检测系统均是采用这种特征【1 0 】【1 1 】【1 2 】。国 际上a t & t 1 3 1 、c o l u m b i a 大学、f x p a l o 实验室【1 4 1 以及日本k d d ir & d 实验室f 1 5 】 也都是采用颜色直方图特征。此外,z a b i h 等人还采用边缘像素改变率( e d g e c h a n g er a t i o _ - e c r ) 的像素域特征来实现突变检测【1 6 】【1 7 】。在压缩域中,d c 系 数以及运动矢量也常被用来进行突变检测【8 1 。在检测信号构成阶段,通常做法 可大致分为两类:( 1 ) 、相邻两帧间的特征值比较得到检测信号值。采用上 述特征值后,每相邻两帧之间进行相似性比较,如果两帧同处在一个镜头里, 则可以得出一个与前一帧相差不大的检测信号值,若两帧处在两个不同的镜头 里,则两帧特征值比较之后得到的值将会与前一值形成较大差异。( 2 ) 、相 邻多帧间的特征值比较得到检测信号值。h a n j a l i c 指出应该将尽可能多的额外 信息加入到镜头边界检测中以消除各种干扰所带来的影响【2 】。因此不仅应该进 行相邻帧比较,而且应该将某帧与其邻近的多帧进行比较,这样可以消除由于 第一章绪论 一个镜头内由于闪光灯等带来的干扰。国际上通常的做法是相邻几帧之间相似 性比较形成一个相似矩阵,然后采用适当的核函数对相似矩阵进行变换而得到 检测信号值。在这种方法中,核函数的设计极其重要,核函数的好坏直接关系 到最后检测效果的好坏。m a t t h e wc o o p e r 等人提出了四种核函数,实验结果表 明效果良好i 堪】【1 9 1 。在镜头边界检测算法的第三个阶段,采用的方法可以分为两 种类型:( 1 ) 、基于规则的分类方法( 2 ) 、机器学习的分类方法。基于规则 的分类方法的主要思想是,预设一个阈值,当第二阶段形成的检测信号小于或 大于这个阈值时就被认为是突变或渐变。在早期研究中,通常启发式地选取一 个全局阈值,而全局阈值不能很好的适用于各种各样的镜头变化类型,因此在 后来的研究中,人们提出了很多结合上下文相关信息来形成自适应阈值用于检 测,实验表明,采用自适应阈值的检测性能比采用全局阈值的检测性能要好很 多。机器学习分类的方法是镜头边界检测的一个发展趋势。 1 3 2 发展趋势 在镜头边界检测算法的三个阶段中,前两个阶段由于多年研究努力,已经 日趋成熟。在第三个阶段中,除了传统的基于规则的分类方法之外,越来越多 人采用的机器学习的方法来进行分类,实验结果表明采用机器学习方法的检测 效果要好于采用传统方法的检测效果。现在,很多人试着将镜头边界检测问题 看作模式识别问题,因此模式识别以及机器学习的工具被引入到了检测算法 中。最开始,日本的k d d ir & d 实验室将支持矢量机( s u p p o r tv e c t o rm a c h i n e - s ) 用于检测【1 5 】,后来a t & t 以及清华大学都将s v m 应用于自己的检测算 法中【1 0 】【1 1 】【1 2 】【1 3 】。除s v m 外,机器学习中的分类工具如k - m e a n s 、b p n e u r a l n e t w o r k 、k - n e a r e s tn e i g h b o r 、r o u g hs e t ,b a y e s i a nn e t w o r k 、h i d d e nm a r k o v c h a i n ( h m c ) 等工具也被引入到了检测算法中。因此,将机器学习的方法应用 于镜头边界检测算法是一个发展趋势。 1 4 论文的主要创新点 本文的创新点如下: 1 、将模式识别中的线性判别函数f i s h e r 判别函数应用于突变检测,与此 同时结合帧间的运动强度来实现突变检测; 2 、用运动矢量形成自适应阈值,有效消除运动的干扰; 3 、将帧亮度方差以及帧纹理特征以及帧内目标运动情况多种特征结合起 来用于渐变的检测。 3 西南大学硕十学位论文 1 5 本文的组织结构 本文首先简述了m p e g 编解码原理,然后回顾了目前已存在的镜头边界检 测算法,并将这些算法的性能进行比较,分析其优缺点,通过对特征提取、检 测变量的构成和分类方法进行研究,针对视频突变和渐变提出了自己的解决方 案。 本文总共分为七章,各章的主要内容包括: 第一章:介绍了论文的立题依据,研究背景和现状,同时介绍了基于内容 视频检索( c b v r ) 实现的基本原理和方法,并分析其关键的技术难点。 第二章:介绍了当前最流行的视频编码标准m p e g 编解码原理,着重讲述 其中比较关键的技术。 第三章:详细讲述视频镜头边界检测的原理,以及回顾当前已经存在的视 频边界检测算法所有特征,检测方法等。 第四章:叙述作者提出的结合了直方图和运动信息的突变检测算法。 第五章:叙述作者提出的采用帧亮度特征,帧纹理特征以及运动信息的三 步渐变检测方法。 第六章:针对第四章和第五章提出的两个算法进行实验验证,主要包括视 频集的建立,实验结果分析,性能评价等。 第七章:总结本文的工作,并就视频镜头边界检测算法的进一步改善做出 展望。 1 6 本章小结 本章首先对视频镜头边界检测进行了概述,然后介绍其在基于内容视频检 索( c b v r ) 中的应用,说明了研究视频边界检测的重要意义,最后简述了这项 研究的现状和发展趋势。 4 第二章m p e g 视频编解码原理 第二章m p e g 视频编解码原理 2 1m p f g 简介腔 如前所述,数字技术的进步使得数字视频应用非常广泛,为了使得数字视 频技术得到更大程度推广,数字视频压缩编码的标准化变得非常重要。在此背 景下,i s o i e c1 9 8 8 年成立了m p e g c m o t i o i lp i c t u r ee x p e r tg r o u p ) d , 组,旨在 对音频和视频信号的数字压缩过程进行标准化。m p e g 在1 9 9 3 年发表了第。 个标准m p e g 1 ,它由三部分构成,即:音频压缩方法、视频压缩方法以及能 同时播放声音图像的音视频数据交织复用系统【2 1 】1 2 2 。v i p e g 1 主要支持速率 1 5 m - b i t s 左右的视频编码,质量与早期录像系统无异,通常被用于光盘存储音 频和视频。 9 0 年代中期,m p e g 小组意识到需要一种更高速率用于广播的视频编码标 准。m p e g 2 能支持对标准分辨率的电视进行编码,速率为3 一 1 5 m b i t s ,甚至 能支持高清电视的编码,速率高达1 5 - - 一3 0 m b i t s 。m p e g 一2 还将m p e g 1 的立 体声扩展到了多通道环绕音效编码。它向下兼容,因此能解码m p e g 1 的比特 流。m p e g - 2 中的音频、视频和系统规范三部分标准在1 9 9 3 年l1 月完成, i s o f l e c 在1 9 9 4 年t1 月完成了审核,并在1 9 9 5 年发表了最终文本。m p e g - 2 旨在建立一个通用的视频编码系统,这个系统能支持多种应用。现在,已开发 的适应多种不同应用的算法已经被集成到标准中,由于在每一个解码器中都实 现标准中的这些特征并不必要,因为一方面会使系统比较复杂,同时也浪费带 宽,因此在v i p e g ,2 标准之下定义了多个子集,称为类( p r o f i l e ) 和等级 ( 1 e v e l ) ,所谓类是表示构成比特流参数和标识的子集,由此来定义编码和解 码算法的基本结构。而所谓等级是表示加在比特流内的参数制约条件,由此在 类规定的算法结构中,定义所达到的品质。 随着互联网的发展,因特网上图像通信急剧膨胀,为了更有效地在互联网 上传播视频和音频:于是出现了m p e g - 4 标准,它定位在自然图像、c g ( c o m p u t e rg r a p h i c s ) 图像、动画图像和附带声音和音乐的综合编码。编码算 法将m p e g 1 和m p e g 2 进行改良,加入了对象编码等新要素,从而提高了编 码效率,并且可以实现以用户为对象的操作。m p e g - 4 在1 9 9 9 年4 月成为了国 际标准。 1 9 9 6 年1 0 月,m p e g 小组开始了一项新的工作,这个m p e g 家族的新成 员被称为“多媒体内容描述接口( m u l t i m e d i ac o n t e n td e s c r i p t i o n i n t e r f a c e ) ,简称m p e g 7 。其目标就是产生一种描述多媒体内容数据的标 准,满足实时、非实时应用的需求。准确地说,m p e g 7 并不是一种压缩编码 西南大学硕士学位论文 方法,而是一个多媒体内容描述接口,它将规范一组“描述子”,用于描述各 种多媒体信息,也将对定义其他描述子以及结构( 称为“描述模式 ) 的方法 进行标准化。这些“描述 ( 包括描述子和描述模式) 与其内容关联,允许快 速有效地搜索用户感兴趣的资料。m p e g 7 标准化一种语言,它用来说明描述 模式,即“描述定义语言 。带有m p e g 7 数据的文件可以包含静止图像、图 形、3 d 模型、音频、语音、视频,以及这些元素如何在多媒体表现中组合的 信息。m _ p e g 7 的功能与其他m p e g 标准互为补充。m p e g 1 、m p e g 2 和 m p e g 4 是内容本身的表示,而m p e g 7 包含了关于视频内容的信息,它将在 索引和检索等方面广泛应用。关于m p e g 的更多信息,此处不再赘述。 2 2 视频基础 目前,电视的帧率为2 5 赫兹,每一帧由两个互相交织的场组成,因此电 视的场率为5 0 赫兹,每帧的第一场由帧中的奇数行( 帧顶为第一行) 组成, 第二场由帧中的偶数行组成,且第二场在第一场2 0 毫秒后产生,一个交织帧 同时包含两个场。 在其他视频系统中,更普遍的是非交织的帧( 例如,大多数计算机都输出 非交织视频) ,在这类视频中,帧的每一行被同时采样,非交织视频又被称为 “逐行扫描 或者“顺序扫描”视频。 摄像机中的红( r ) ,绿( g ) ,蓝( b ) 信号能等同地表达为亮度( y ) 和色差( u v ) 信号,此时色差信号相对于亮度可能会被削弱,但是不会影响 画质。对于标准分辨率的视频,c c i r 规范6 0 1 定义了怎样从视频信号里采样 y ,u ,v 信号然后数字化形成离散像素,从中可知,4 :2 :2 和4 :2 :0 通常用来描 述数字图像的采样结构,4 :2 :2 表示色差信号相对于亮度信号被水平方向1 2 采 样,4 :2 :0 表示色差信号相对于亮度信号被水平和垂直方向1 2 采样,如图2 1 所示。 yljvyuv yi jv 田田圈田田田田 ( b ) 4 :2 :2 图2 1 色差分量的划分 根据c c i r 规范进行采样,数字电视帧的活动区域大小为7 2 0 5 7 6 ,帧率 为2 5 赫兹。若用8 位来表示y ,u ,v 像素,对于4 :2 :2 和4 :2 :0 模式压缩前的 比特率分别为: 6 第二苹m p e g 视频编解码原理 4 :2 :2 :7 2 0 5 7 6 2 5 8 + 3 6 0 5 7 6 2 5 ( 8 + 8 ) = 1 6 6 m b i t s 4 :2 :o :7 2 0 5 7 6 2 5 8 + 3 6 0 2 8 8 2 5 ( 8 + 8 ) = 1 2 4 m b i t s m p e g 2 能将标准的4 :2 :0 视频的比特率压缩至3 ;- - - 1 5 m b i t s 。在这个范围 中,比特率越低,m p e g 2 编码和解码过程对视频质量产生的损害越大。对于 标准分辨率视频,6 m b i t s 的比特率通常被认为是画质和传输带宽利用率的较 好折中。 2 3 比特率压缩原理 压缩比特率通常是在编码器端传输之前去除信号中的冗余信息,然后在解 码器端重新插入这些信息。在视频信号中,两种冗余信息可以去除: a 时间和空间冗余。像素值不是独立的,而是与帧内相邻像素和帧间相邻 像素值相关的。所以,在某种程度上,如果在已知相邻像素值则可以预测该像 素的值。 b 视觉心理冗余。跟目标边缘比起来,人眼对不变的精细空间细节不敏 感。所以在编码器端去掉一些细节,能大大节省比特率同时又不会被觉察。 在m p e g 编解码过程中采用的两种关键压缩技术,即帧内离散余弦变换 ( d c t ) 编码和运动补偿帧间预测。这些技术在m p e g 之前已经成功地用到了 其他标准中。 2 4 帧内d c t 编码 一个二维d c t 变换是在图像所有像块( 8 8 像素) 中对每一个颜色分量 进行变换产生相应d c t 变换系数块。如图2 2 所示。每一个d c t 系数的幅值 表明了水平和垂直方向上的空间频率组合对原始像块的贡献。水平和垂直方向 第一个系数称为d c 系数。n x n 的二维d c t 定义为 2 3 1 【2 4 】: fkv):三cc(v)yn-1yn-i,k),恼s鱼坐cos(2y+1)vn2c c ( 2 1 ) f ( “,v ) 2 万( 材) ( v ) 萎萎厂( j ,) c 。s 兰号影竺1 矿( 2 1 ) v 工- ov 一0 厶v二v 其中:c ( “) ,c ( v ) :j 击v = o ;“,v ,x ,y :。,1 ,2 ,一1 ;x ,y 是像块 l1其他 中的空间坐标;“,是d c t 域的坐标。 d c t 逆变换( i d c t ) 定义为: 厂(x,y1:n-in-icf甜、icr(v1(“,1,1c。s(2x+1)uncos(2y+1)vnf ( 2 2 ) 厂( x ,y ) 2 一u = o 一1 =( 甜) c r ( v ) ( “,v ) c 。s 1 万一i 万一(22)-0 z 1 t二jv t 7 两南大学硕士学位论文 88图像块8x8d c r 系数块 图2 。2 离散余弦变换及逆变换( 点为像块中像素值及d c t 系数值) 需明白的是,d c t 变化并不能直接减少表示块的位数,例如对于一个8 8 像块,每一个像素8 位表示,d c t 变换后产生了一个8 8 的系数块,每一 个系数可能需要用l l 位表示( 系数值的范围比像素值的范围更大) 。但是通 过观察可以发现,自然图像中的典型像块,经过d c t 变换后,系数是非均匀 分布的,能量主要集中在低频系数上,而高频系数均接近于零。因此可以通过 这个转换系数的非均匀分布来减少原始图像块的空间冗余信息,从而减少表达 图像的比特数。 经过d c t 转换后,这些d c t 系数还需经过量化,量化主要是减少需要传 输的值的个数,从而减少比特数。在实现过程中,变换系数的量化等级在高频 部分较粗,在低频部分精细。因为高频部分对人眼的影响非常小,据此可知编 码和解码过程是有损的,因为编码时产生的量化误差是不可以逆的。 量化后的d c t 系数需经过排序和编码过程,在m e p g 1 2 中,对8 8 的 系数块从d c 系数开始进行“之 ( z i g z a g ) 字形扫描,从而产生 y 0 经过量 化后的系数值,再对其用可变长度码字( 允) 方法进行熵编码,每一个可变 长度码字表示若干个零值后存在某个等级的非零值。v l c 码字认为“较少的连 续零 比“较多的连续零 更可能出现,幅值小的系数比幅值大的系数出现的 概率大。可变长度码字编码方法根据每一个值出现的概率大小分配长度不一的 码字。图2 2 展示了“之 字形的扫描过程。 为了说明可变长度编码过程,特举例说明。如经过量化后的d c t 系数块 “之”字形扫描后产生的一列值为: 1 2 ,6 ,6 ,0 ,4 ,3 ,0 ,0 ,0 0 第二章m p e g 视频编解码原理 编码的第一步是将这- - n 值分组成连续的零接着一个非零值。末尾用e o b 表示,用括号表示这些分组为: ( 1 2 ) ,( 6 ) , ( 6 ) ,( 0 ,4 ) ,( 3 ) e o b 第二步为每一组产生一个可变长度码字,表1 为m p e g - 1 和m p e g 2 标准 中使用的部分d c t 系数可变长度码字表。m p e g 2 另有帧内v l c 用于帧内编 码。由表2 1 可得上述量化值经过编码后变为: 0 0 0 0 0 0 0 011 0 10 0 ,0 0 1 00 0 0 10 ,0 0 1 00 0 0 10 ,0 0 0 00 0 110 0 0 ,0 0 1 01 0 ,1 0 表2 1d c t 系数的可变长度码表( 部分) 2 5 运动补偿帧间预测 , 运动补偿实际上是对活动图像进行压缩时所使用的一种帧间编码技术,是 视频压缩的关键技术之一。目前已存在于国际标准的视频压缩方法中,从 h 2 6 1 ,m p e g 2 1 到m p e g 一2 ,都无一例外地使用了运动补偿技术。 所谓“活动图像实际上是一系列静止图像的连续排列,当它们以不小于 2 4 帧秒的速率连续显示时,由于人眼的视觉暂留特性,使人产生了连续活动 的感觉,因此一般情况下,相邻帧的内容实际没有太大变化( 镜头切换除 外) ,有很大一部分甚至完全一样,所以相邻帧间有较大相关性,这种相关性 称为时域相关性。运动补偿的目的正是要将这种时域相关性尽可能地去除。运 动估计与运动补偿是现阶段视频压缩编码的关键技术。图像序列中的第n 帧图 像可以看作是前面预测参考帧第n 帧( 例如第n l 帧) 图像经过一定平移得到 的,包含了很多时间冗余度。因此在实际编码中,为了节省编码位率,并不传 输第n 帧的全部数据,而是利用运动估计技术计算出第n 帧与预测参考帧n - 的差值。如果运动估计比较有效,则中的概率分布基本上在零附近,从而 导致的能量很小,相应的编码传输所需要的位数也很少。在解码端,根据预 测参考帧n 和差值,就可以基本恢复出初始的第n 帧图像。这就是运动估 计和补偿技术。 9 西南大学硕士学位论文 2 6m p e g 一1 2 标准汹1 2 6 1 编解码结构 在m p e g 一2 系统中,如图2 3 所示,利用了d c t 变换和帧问运动补偿预 测。编码器从源图像提取出运动补偿预测以形成预测误差图像,预测误差经过 d c t 变换后再进行量化和编码,编码后的亮度和色差预测误差结合了运动矢量 和同步信息。最后形成待传输的比特流。图2 4 表示了l v l p e g 2 解码结构。 比特速率控制 图2 3m p e g 编码器结构 量化步长 1 0 图2 4m p e g 解码器的结构 第二章m p e g 视频编解码原理 图2 5n p e g 一2 视频比特流结构( 自下而上) 在解码器端,经过量化的d c t 系数通过i d c t 变换后形成预测误差,将这 些误差叠加于前一解码帧之上产生重建图像。图2 4 及图2 5 展示了m p e g ,2 的编解码结构,m p e g 一2 支持多种模式来进行预测。例如,以前一帧为基础进 行前向预测,以后一帧为基础进行后向预测,或者结合前后帧进行双向预测。 为进行运动补偿,必须将进行了运动预测后的残差信号基于某种规范( 使用绝 对值和、平方和) 找出最小的运动矢量,找出恰当的运动矢量的方法是由编码 器负责的,目前已经存在多种搜索算法来得到运动矢量,欲了解该算法的细 节,请参考相关文献。 2 6 2 帧类型 在m p e g - 2 视频中,定义了三种帧类型。这些不同的帧类型对应于编码宏 块采用的不同预测模式。 帧内编码帧( i 帧) 。i 帧表示没有参照任何其他帧,它包含的所有宏块都 是帧内编码宏块。它所获得的压缩是通过减少空间冗余信息而不是时间冗余信 息,这些帧在比特流中周期性出现,它为解码器提供了开始解码的点。 前向预测帧( p 帧) 。p 帧是利用前一i 帧或p 帧进行运动补偿得到的 帧,同时也可能作为后续帧进行预测的参照帧。p 帧中的每一个宏块可能是帧 间编码宏块,也可能是帧内编码宏块。相对于i 帧,p 帧同时消除了空间冗余 和时间冗余,因此,p 帧可得到更大的压缩空间。 双向预测帧( b 帧) 。b 帧利用前后的i 帧和p 帧进行运动补偿,获得了 最大的压缩空间。帧中每个宏块可能是前向预测编码宏块、后向预测编码宏 块、双向预测编码宏块和帧内编码宏块。为实现从后续帧获得预测值,编码器 两南大学硕士学位论文 必须将帧显示顺序进行重排形成比特流中特有的帧序,重排后,传输给解码器 时先传送b 帧的前一帧,然后传送该b 帧的后续参考帧,最后是该b 帧。 双向预测 图2 6g o p 中i 帧、p 帧及b 帧的关系 通常,i 帧,p 帧和b 帧在视频序列中成组地周期性重复出现,该组被称 为一个图像组( g r o u po fp i c t u r e s ,g o p ) ,它们之间的关系如图2 6 所示。一 个典型的图像组的显示顺序为: b i b 2 1 3 8 4 b s p 6 8 7 b s p 9 b i o l ll p l 2 经过帧重排后在比特流中的顺序为: 1 3 8 1 8 2 p 6 8 4 b s p 9 8 7 8 8 p 1 2 b i o b n 一个典型的g o p 可以用两个参数来表达:一个是g o p 中帧的个数n ,另 一个是p 帧的间距m 。在上例中n 等于1 2 ,m 等于3 。但是m p e g - 2 中并不 是都是这样典型的g o p 结构,例如,一个p 帧后有一个镜头的变化,这样这 个p 帧几乎不能拥有后续帧的预测,因为它与后续帧完全不同,所以这时将后 续帧进行帧内编码更能节省比特空间。这样就形成了p 帧紧接着i 帧的情形。 对于给定的解码图像质量,不同的帧类型产生的比特数会完全不一样。在 典型的示例序列中,i 帧产生的比特数约为p 帧的三倍,而p 帧产生的比特数 比b 帧多出5 0 。 2 6 3 缓冲区控制 去除了源图像的冗余后,每帧的比特数各异。比特数依赖于源图像的复杂 程度、与后续的帧的相似程度,以及运动预测算法的效率。对于大多数应用来 说,解码器必须将比特流以固定的速率输出。因此,在编码器与通道之间存在 一个缓冲区。缓冲区被编码器以可变比特率填充,通道以固定的比特率填充, 为了防止缓冲区溢出,建立一个反馈机制以调整平均编码比特率。例如,增加 d c t 系数的量化等级就会降低平均编码比特率。这也会减少可变长度编码的比 1 2 第二章m p e g 视频编解码原理 特位数,但是会使图像更加劣化。解码器必须在输出通道与可变的比特率输入 之间建立一个缓冲区。编码器与解码器的缓冲区大小必须一致。 2 6 4 类与级别, m p e g 2 是对m p e g 1 的扩展,m p e g 1 的目标是对逐行扫描视频进行编 码,使之比特率达到约1 5 m b i t s 。m p e g - 2 提供了额外的工具以对隔行扫描的 视频进行高效编码,并支持较大的比特率。m p e g 2 同时还提供工具进行“多 尺度”编码,这样可以从部分比特流中重建出有用的视频。整个比特流被结构 化成多层,最基本的层是基本层( b a s el a y e r ) ,在此基础上加入精细层以减 少量化误差,改善分辨率。 m p e g 定义了m p e g 2 工具包的一些子集,被称为类和等级。所谓类是表 示构成比特流参数和标识的子集,由此来定义编码和解码算法的基本结构。而 所谓等级是表示加在比特流内的参数上制约条件,由此在类规定的算法结构 中,定义所达到的品质。 m p e g 2 中定义了两种非尺度变换的类,一种是简化型( s i m p l e ) ,一种 是基本型( m a i n ) 。简化型中没有b 帧,也就没有后向预测。所以不需要帧序 重排( 帧序重排会形成1 2 0 毫秒的编码延迟) ,这种类适合于低延迟时间的应 用,如视频会议( 总体延迟约1 0 0 毫秒) 。亮度和色差的比例为4 :2 :0 。基本 型加入了b 帧,也是应用最普遍的类。加入b 帧改善了画质,但同时帧重排也 引入了1 2 0 毫秒的编码延迟。目前,许多m p e g 2 解码芯片都支持该类。 m p e g 2 还定义了两种尺度变换的类:信噪比可变型( s n rs c a l a b l e ) 和空 间分辨率可变型( s p a t i a ls c a l a b l e ) 。s n r 类加入了对d c t 系数精细化的增强 层的支持,这类编解码器总体上它与固定尺度的编解码器的结构类似,只是编 码器对d c t 系数量化时,具有使用较大的量化因子,粗略编码量化了的d c t 系数的下层,和使用粗略量化的d c t 系数和实际的d c t 系数间的差分d c t 系数的上层。因此,它是像素数目相同,但品质不同的视频标准间连接时的必 要的技术。s n r 可伸缩性使用错误率低的信道传送下层的编码信息,使用错层 图像品质,避免画质的急剧下降。空间可伸缩性适用于面向空间分辨率不同视 频标准间的连接( 如h d t v 和标准t v ) 功能。并且,空间可伸缩性在发生比 特流错误的情况下,可以利用不同的两个错误率传送信道,将重要性高的下层 编码信息使用错误率低的信道传送,而相比之下重要度较低的上层编码信息使 用错误率高的信道传送,从而避免了因传送错误造成图像品质急剧下降。 此外,m p e g 一2 还定义了高级类( h i g h ) ,它加入了对4 :2 :2 视频信号的 支持,同时也支持信噪比的可伸缩性以及空间分辨率的可伸缩性。 西南大学硕士学位论文 在等级上,m p e g 2 定义了低级( l o w ) 、基本( m a i n ) 、高级1 4 4 0 ( h i g h 1 4 4 0 ) 以及高级( h i g h ) 四种,等级的不同主要体现在视频分辨率的 高低。表2 2 用“类 等级的组合方式展示了m p e g 2 整个算法的所有子集 ( 共支持1 1 个子集) 【2 3 】。 表2 2m p e g 视频的类和等级 s p 鲫i l ( 有线 m p b t l ( d i r e c t t vs n p 酬l t v ) 数字视频) 枷鲫l 1 4 4 0 h r p h l ( 美国a t v ) s s p 饼也1 4 4 0h p 研1 l ( 欧洲数字1 4 4 0 m ) t v ) h p h l 值得提醒的是,类是由简化型向高级型功能逐步提高的,等级是由低品质 向高品质逐步提高的。基本类、基本等级( m p 2 a l ) 具体使用在美国卫星 d i r c c t t v 中,简化类、基本等级( s p m l ) 具体使用在有线t v 中,基本 类、高级等级( 御 甩) 具体使用在美国a t v 中,空间分辨率可变类,高级 1 4 4 0 等级( s s p h l l 4 4 0 ) 具体使用在欧洲数字h d t v 中。d v d 播放器使用 的是m p m l 。 2 7 本章小结 本章对当前运用最为广泛的视频编解码结构m p e g 1 2 进行介绍,然后从 原理上对m p e g 1 2 标准进行梗概性的综述,对其中的关键技术进行了阐述。 1 4 , , ,删 删 砸心砸 煳之弦 崩如捌,“匏咖铉 阻 眦 绝 伽 n n n 玛 捌“巧幽qm 眩本加级m驰级舍: 基口高0 n 高n 第三章视频镜头边界检测 第三章视频镜头边界检测 急剧增长的多媒体信息迫切需要一种高效的技术来进行存储和管理。特别 地我们需要一种鲁棒性好的技术来索引、检索和压缩视频信息,还需要一种浏 览的算法来访问大型的视频库、图片库和语义视频界面。将这些所有元素集成 在一起的系统被称为基于内容的视频检索系统( c b v r ) 。 3 一基于内容的视频检索 多年的研究证明,一个典型的基于内容的视频检索系统应该包括四个主要 过程:特征提取、结构分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论