（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-13 格式：PDF 页数：53 大小：1.52MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf_第2页

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf_第3页

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf_第4页

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf_第5页

已阅读5页，还剩48页未读，继续免费阅读

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

两南上# 衙i f - 帚乏摘璧基于宏块类型信息的自适应场景变换检测算法计算机应用技术专业硕士研究生李争名指导教师肖国强教授摘要近年来，在计算机、t v 、i n t e m e t 、d v d 和数字图持馆等应用中涉及剑人_ | 的多媒体信息，这些信息一方面需要人量的存储设备，另一方面，如何从众多的多媒体信息中，找剑用户需要的多媒体信息成为一个难题。因此，自动视频检索技术在视频戍h 钡域里受剑学者的广泛关注，而场景变换的检测在视频处理( 包括视频索引，基丁二内容的视频管理，视频跟踪等) 中扮演一个重要的角色。在过去儿十年中，场景变换检测已经披广泛地研究，并且提出了很多的场景变换检测算法，通过对这些算法的研究和! j 类，可以把它们分为两人类：一种是基于像袭域的场景变换检测，另一种是基r 压缩域的场景变换检测。本文提出了一种在压缩域中快速有效的自适应场景变换检测算法，该算法通过利用 m p e g 视频流中的运动补偿和运动估计技术，对于场景突变的检测利刚b 帧和p 帧中的场景突变和1 e 场景突变帧的宏块类型信息进行处理，再利用滑动窗口的检测方式，准确地定位出场景突变的位置。对于场景渐变( 包括番化，淡入和淡出) ，利用了b 帧和p 帧中的场景渐变和非场景渐变帧的宏块类璀信息进行处理，又根据场景渐变的帧都是一个序列的特点，采用中值滤波的方式对形成的数据流就行滤波，经过滤波后的数据再利用滑动窗口的方式准确地检测出场景渐变的开始帧和结束帧位置。本文提出的算法不需要提取其它的特征或直方图等，可以直接在压缩域中实现，适合实时视频处理。实验结果达到了较高的壳全率和查准率，并和现存的场景变换算法进行了对比实验。关键词：场景变换m p e g 视频检索视频分割 m ，7 r 鲫1 f 忙za b s t r a c t a d a p t i v e d e t e c t i o no fs c e n e c h a n g ef o r m p e gv i d e o sb a s e do ns l i d i n gw i n d o w s m o d e l i n g _l m a j o r ：c o m p u t e ra p p l i c a t i o nt e c h n o l o g y a u t h o r ：l iz h e n g m i n g s u p e r v i s o r ：p r o ex i a og u o q i a n g a b s t r a c t t h e r ei sag r e a ta m o u n to fm u l t i m e d i ai n f o r m a t i o nr e l a t e dt om a n ya p p l i c a t i o n ss u c h c o m p u t e r , t v i n t e r a c t ，d v d ，a n dd i g i t a ll i b r a r i e s 。t h em u l t i m e d i ai n f o r m a t i o nn e e d sal o to f d e v i c e st os t o r e o nt h eo t h e rh a n d ，i ti sd i f f i c u l tt of i n do u tt h ei n f o r m a t i o nw h i c hy o uw a n tf r o m c o n s i d e r a b l em u l t i m e d i ai n f o r m a t i o n t h e r e f o r et h ea u t o m a t i cv i d e oi n d e x i n ga n dr e t r i e v a lh a v e b e c o m em o r ep o p u l a ri nv i d e oa p p l i c a t i o n s s c e n ec h a n g ed e t e c t i o np l a y sa l li m p o r t a n tr o l ei n v i d e op r o c e s s i n gw i t hm a n ya p p l i c a t i o n ss u c ha sv i d e oi n d e x i n g ，v i d e oo b j e c tt r a c k i n ga n dv i d e o c o n t e n tm a l l a 【g e m e r i t o v e rt h el a s td e c a d e s ，s c e n ec h a n g ed e t e c t i o nh a sb e e nw i d e l ys t u d i e da n dr e s e a r c h e d a sa r e s u l t m a n ys c e n cc h a n g ed e t e c t i o nt e c h n i q u e sh a v eb e e np r o p o s e da n dp u b l i s h e di nt h el i t e r a t u r e s f o ro n rc o n v e n i e n c eo fs u r v e y i n ge x i s t i n gr e s e a r c hi nt h ef i e l do f t h i ss u b j e c t a i lt h e s ea l g o r i t h m s a n dt e c h n i q u e sc a nb eb r o a d l yc l a s s i f i e da sp i x e l - d o m a i n - b a s e da n dc o m p r e s s e d - d o m a i n - b a s e d i nt h ed i s s e r t a t i o n , w ep r o p o s ea ne f f e c t i v ea n df a s ts c e n ec h a n g ed e t e c t i o na l g o r i t h mb a s e do n c o m p r e s s e dd o m a i n t h ep r o p o s e dm e t h o do f s c e n ec h a n g ed e t e c t i o ne x p l o i t st h em p e gm o t i o n e s t i m a t i o na n dc o m p e n s a t i o ns c h e m eb ye x a m i n i n gt h ep r e d i c t i o ns t a t u sf o re a c hm a c r o - b l o c ki n s i d e bf a l n e sa n dpf l a m e s ，a n dn of e a t u r ee x t r a c t i o no rh i s t o g r a md i f f e r e n t i a t i o ni sn e e d e d as l i d i n g w i n d o w sm e c h a n i s mi se m p l o y e dt od e t e c tt h ep r e c i s i o nl o c a t i o no f s c e n ec h a n g e t h ep r o p o s e d a l g o r i t h mc a nw o r ki nc o m p r e s s e dd o m a i n ，a n de s p e c i a l l ys u i t a b l ef o rr e a l - t i m ea p p l i c a t i o n s t h e p r o p o s e da l g o r i t h ma c h i e v e ss u p e r i o r i t ym e a s u r e db yr e c a l la n dp r e c i s i o nr a t e sc o m p a r e dw i t h e x i s t i n gm e t h o d s k e yw o r d s ：s c e n ec h a n g e m p e gv i d e or e t r i e v a lv i d e os e g m e n t a t i o n h 独创性声明学位论文题目：茎i 盘丛鲤篮鱼幽夤纽垒暴变越丝浏垒逡本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特另, l j m 以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也坏包含为获得西南大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者：李孕兔签字日期：弦叼年寸月工z 日学位论文版权使用授权书本学位论文作者完全了解西南大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权西南大学研究生院可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书，本论文：囱不保密，口保密期限至年月止) 。学位论文作者签名：李导皂导师签名签字日期：舫1 年中月姐日签字日期学位论文作者毕业后去向：工作单位：趟丛亚童显查通讯地址：土监圭山立盟j 盘望j 薹日电话：! 丝! ! ；赴碰监邮编：互凸红 m 可，、7 # 砷t 17 7 诊上钙章绪论第一章绪论本章对论文研究的背景、国内外相天领域的研究现状、论文研究的内容与创新点以及论文的内容安排予以说明。 1 1 论文研究背景随着多媒体压缩技术和计算机性能的显著提高以及宽带网络的飞速发展，多媒体信息系统包括m p e g 数字视频的运用变得r 益广泛。例如数字图书馆、远程教育、视频点播、数字视频广播、交q ：电视等。由于m p e g 格式的视频数据量非常大，因此迫切地需要有效的索引、浏览和检索工具，传统的视频检索只能通过快进和快退等顺序的方法人工查找，因而足一件非常烦琐耗时的工作，它已经无法满足多媒体数据库的要求，用户f f 往希望只要能给出例子或给出特征描述，系统就能自动地找到所需的视频片段，因此基于内容的索引和检索技术成为研究的热点。场景变换是视频分析的一个研究热点，是基于内容的视频索引、浏览和检索首要解决的问题。场景变换的检测既可以在像素域，也可以在压缩域里实现。由于在压缩域中进行场景变换检测，可以减少视频信号编解码的计算量，从而降低算法的复杂度。因此，目前很多的场景变换检测算法部是在压缩域中进行。而压缩域中的宏块类型信息在视频编码中比较容易提取而且计算简单。已经提出了一些利用压缩域中宏块的类型信息实现的场景变换检测算法。通常利用宏块的类型信息进行场景变换检测都是通过前后两帧宏块个数的比较或者设定一些门限来进行检测，在实际的检测过程中很容易出现误检和漏检。如何找到一种有效的自适应场景变换检测算法具有很重要的意义。本文通过对宏块类型信息的研究，提出了一种综合利用b 帧和p 帧的宏块类型信息的自适应场景变换检测算法，并在算法中利用中值滤波进行噪声的过滤，以及利用滑动窗口的检测方式能有效地定位出场景变换的位置。 1 2 国内外相关领域的研究现状场景变换的检测在视频检索、视频摘要、对象跟踪和视频管理等视频处理领域中起很重要的作用。在过去的几十年中，场景变换检测算法被广泛的研究，并提出了很多的场景变换检测算法。这些算法基本上可以分为两大类：像素域和压缩域。在像素域，主要是利用模板匹配法、基于边缘的方法、基于模型的方法和直方图的检测算法【l ”，i a n p a p u r 等 1 2 】通过对视频制作过程的研究，提出了一种可用于镜头边界检测的视频编辑模型。它的缺点是，建模过程比较复杂，需要对每种突两南j 、学埘i 学c ，诒z 第亭锗论变类氆建立模型。j u n g h w a n 5 提出了一种基于内容的场景变换检测算法，通过计算帧问的背景不同，并利用背景的不同来处理不同的镜头运动。s e u n g 6 提出一种结合贝叶斯和结构信息进行场景变换的检测。模板匹配法的缺点是对镜头或物体运动非常敏感，因此它严格地局限于像素的位置。噪声和物体运动都会使帧间差增大，从而导致错误的场景变换检测。直方图法的缺点是有时候会漏掉场景变换，因为两幅图像有可能完全不同的结构，但其颜色直方图卸很接近。随着m p e g 系列标准的实施，现在越来越多的视频以压缩域的形式存在。因此，在像素域中进行场景变换的检测，要对现有的视频进行编码和解码，由此，产生大量的运算，不利于实时的视频处理。近来，场景变换的检测主要在压缩域中实现，特别是在m p e g 视频流中。在压缩域中进行场景变换的检测可以使用运动矢量，d c 系数等1 8 q 2 】。由于压缩域中的宏块类型信息容易提取而且计算简单，并能实时地对视频进行处理，研究者已经利用宏块的类型信息提出了一些算法。l i u 1 3 提出了利用b 帧中前向预测宏块个数与双向预测宏块个数的和与宏块总个数的比值，再和b 帧中的后向预测宏块个数与双向预测宏块的和与宏块总数的比值，然后比较它们中的最小值，并取它的倒数，再利用中值滤波进行场景突变的检测。这种算法只是考虑了b 帧的一部分宏块类型信息，因此在实际检测中容易出现错检和漏检的情况。t a e h w a n 1 4 】提出的算法利用了p 帧中的宏块类型信息和b 帧中的运动矢量以及i 帧中的d c 系数进行场景突变的检测，这种算法由于考虑过多的特征，导致计算量比较大。s o o 1 5 1 6 提出利用b 帧的前向预测宏块个数和后向预测宏块的个数大于一定的门限值，并利用p 帧中的帧内编码宏块个数大于一定的门限值相结合进行场景突变的检测。他还利用b 帧中的双向预测宏块个数和p 帧中的帧内编码宏块个数分别大于一定的门限值进行场景叠化的检测。这种算法设定的门限值比较多，容易受噪声等干扰，同时对场景叠化的检测也不能检测出连续的叠化序列。f e r n a n d o 1 7 1 8 和s a n g k e u n 1 9 提出利用b 帧中的双向预测宏块的个数大于一定的门限进行场景突变的检测。张 2 0 】提出了两步检测场景突变的算法，利用p 帧的宏块类型信息粗略地检测出场景突变的位置，第二步再利用b 帧中的宏块信息检测出场景突变的具体位置。同时他还提出了利用b 帧中的双向预测宏块类型信息和p 帧中的宏块类型信息进行场景渐变的检测( 包括叠化、淡入和淡出) 的检测。已经提出的利用宏块类型信息进行场景变换榆测的算法，几乎都是通过对b 帧中的部分宏块类型信息大于某一特定的门限进行场景变换的枪测，由于没有考虑宏块的全部信息特征，出现了很多的错检和漏检。h a o r a n 2 1 首次提出了考虑全局中的宏块特征进行场景突变和场景叠化的检测，并利用了滑动窗口的方式进 2 两南j 、7 帕卜q - i f - z 麓亭绪i 行场景突变的位置检测，山于场景突变的视频子序列中产生多个峰值，导致了不能准确定位出场景突变的帧。而对于场景叠化利用了检测场景突变时的修改公式进行检测，由于没有考虑到b 帧中的双向预测宏块个数导致了不能准确定位出场景渐变的丌始帧和结束帧。 1 3 论文研究的内容及其所做的工作在分析和研究已有的算法和视频帧中的宏块类型信息的基础上，本文提出了一种综合利用b 帧和p 帧中的各种宏块类型信息形成数据流，再根据非场景变换帧的宏块类型信息对数据流进行修改，并对形成的数据流利用中值滤波进行噪声的消除，最后形成的数据流可以有效地消除噪声等对视频场景检测的干扰，再利用滑动窗口检测场景变换的准确位置。本文所做的工作主要有： 1 、根据场景突变时b 帧和p 帧中的宏块类型信息，提出了一种新的场景突变和场景渐变( 叠化、淡入和淡出) 检测算法。 2 、在场景叠化、淡入和淡出的检测中，利用中值滤波的方法进行噪声的消除等。 3 、根据形成的数据流，通过综合分析，利用一种改进的滑动窗口方式进行场景变换位置的检测。 4 、对提出的算法在m p e g 一2 实验平台进行了验证并与相关的算法进行了对比。 1 4 论文的主要创新点基于宏块类型信息的场景变换的检测算法，由于计算量比较小，能实时的在压缩域中进行处理，因此论文的主要创新点有： 1 、提出了一种新的结合b 帧和p 帧中的宏块类型信息的场景突变和场景渐变( 叠化、淡入和淡出) 检测算法。 2 、在场景叠化、淡入和淡出的检测中，引用了中值滤波的方法进行噪声的消除。 3 、利用滑动窗口的检测方法能有效准确地定位出场景突变的准确位置和场景渐变的开始帧和结束帧。 1 5 论文的结构在余下的章节中，第二章是论文使用的相关理论，第三章是场景突变检测算法，第四章是场景渐变检测算法，第五章是实验结果，第六章是总结与以后的工作，最后是论文的参考文献。两南j ：学颁t 学f ? ，诊z鹪帝棚y 、的胖论毕础第二章相关的理论基础研究场景变换，理论上应依掘视频的结构理沦，其次为了实现算法，m p e g 2 标准也是必不可少，由于场景变换检测是基于内容的视频检索的基础，本部分简单介绍了基于内容的视频检索系统的组成。 2 1 视频数据 2 1 1 视频数据的结构一般来说，视频中包括以下数据： l 、文本数据，包括有关整个视频的信息( 例如标题、摘要、主题、类型等) 以及制作视频的个人信息( 例如制片人、导演、演员表等) 。传统的视频检索主要依靠这些需要手工输入数据。 2 、结构数据，视频数据从结构上自上而下可以分为电影、场景、镜头、和帧 ( 如图2 1 【2 2 】所示) 。电影 i 场景l场景2 场景3场景4 i 厂 t 镜头1镜头2镜头3 镜头l i 厂、帧l帧n 图2 1 视频数据的结构帧是视频数据的最小单元，是一幅静止的画面。摄像镜头连续拍摄，能得到连续发生的事情。在一个场景中，摄像机可以从不同的角度拍摄同一个事件。而电影则由许多场景组成，叙述一个完整的故事。结构层中每一个视频层次的数据都可以用一定的属性加以描述。如：电影的属性：主要包括场景的个数和持续的时间。场景的属性：如标题、持续时间、镜头数目、开始镜头、结束镜头等。镜头的属性：如持续时日j 、开始帧号、结束帧号、关键帧集合、特征空日j 等。帧的属性：帧有大量的属性，如直方图、轮廓图、d c t 变换后的直流( d c ) 及交流( a c ) 系数图等。 3 、内容数据表示视频的语义内容，它包括音频数据、镜头内的一组关键帧或运 4 一可，+ 劬卜学17 7 论上第一帚相声的坪诊蚌础动物体、由字幕得到的文本关键字以及从视频数据中提取的特征向量等。 2 1 2 镜头的切换由于一个镜头只能拍摄相邻地点连续发生的事情，它的描述能力有限，所以大多数的视频都是由许多镜头通过编辑连接而成的。有的视频切换频繁，镜头的持续时间短，如电视新闻节目、故事片等。这些视频通过镜头的切换束反映不同地点或不同时间发生的事情。也有的视频切换比较少，每个镜头的持续时间较长，例如体育节目的转播。而用于银行保安、交通监管的监控视频几乎没有镜头的切换，对于这些视频，人们主要关心的是镜头内物体的运动。镜头的切换分为突变和渐变( a b r u p tc h a n g ea n dg r a d u a lc h a n g e ) 两类。突变是一个镜头直接转换为下一个镜头，中间没有时白j 上的延迟：渐变2 4 1 则是加入了一些空问或时间上的编辑效果，由前一个镜头慢慢地转换为下一个镜头。渐变的方式有很多种，而且不断有新的方式出现，常见的有淡入淡出( f a d ei n o u t 、叠化 ( d i s s o l v e 和扫转换( w i p e 等几类。淡入是把画面逐渐加强，淡出是把画面逐渐减弱直到消失。叠化是上一个镜头画面逐渐减弱的同时，下一个镜头的画面逐渐加强；扫转换则是从画面的某一部分开始，上一个镜头逐渐地被下一个镜头代替。 2 1 3 镜头内的运动镜头内的运动。2 “2 ”包括由对象运动导致的局部运动和由摄像头运动导致的全局运动。 1 、对象运动对象的运动根据实际情况的不同千变万化，但又是视频检索的一个重要方面，特别足对于监控视频。例如用户可能需要检索某个物体被移动的视频片段或汽车发动的视频片段。针对这种情况，归纳了以下几种对象运动，并进行了分析：出现：一个对象出现于镜头；消失：一个对象从镜头中消失：进入：一个运动的对象出现于镜头；退出：一个运动的对象从镜头中离去：运动：一个原本静止的对象开始运动；停止：一个原本运动的对象停了下来。通过对以上对象运动的分析，可实现对监控视频的基于内容的检索。 2 、摄像头的运动在视频的拍摄过程中，摄像头可以按不同的方式运动，以达到特定的拍摄效果。摄像头的运动包括：两l 可上。# f ，i7 心i 芝第。市柑1 的胖冷转础摇镜头( t i i ta n dp a n 摄像头的位置不变，而是以云台为轴心，上下或左右转动指摄方向。转镜头( z - r o t a t i o n ：以对象为中心，摄像头从不同的位置角度拍。移动镜头( t r a n s l a t i o n ：摄像头的位置跟着拍摄对象移动，但不旋转角度移动又可分为水平移动( h o r i z o n t a lt r a n s l a t i o n 和垂直移动( v e r t i c a l t r a n s l a ti o n 。推拉镜头( z o o mi na n do u t ：推镜头，即从远处开始逐渐推近到拍摄对象。拉镜头，即从近处开始逐渐拍摄全景。有时一个摄像头镜头内有几种运动，此时一般只分析主要的运动。 2 2 视频压缩标准m p e g - 2 介绍 m p e g ( m o v i n g p i c t u r e se x p e r tg r o u p ) 是i s o 和i e c 两个国际组织的联合技术委员会领导下的运动图像专家组。该组织于1 9 8 8 年丌始工作，其任务是给用于数字存储媒介、电视广播和通信的运动图像及其相关声音制定一种通用的数字编码标准。针对不同的应用目的m p e g 专家组制定了m p e g 系列标准。为满足广播电视对图像质量的应用要求，m p e g 专家组制定了m p e g 2 。其中m p e g 一2 是由m p e g 开发的第二个标准。m p e g 2 是“活动图像及有关声音信息的通用编码”( g e n e t i cc o d i n go f m o v i n gp i c t u r e sa s s o c i a t e di n f o r m a t i o n ) 标准， 1 9 9 4 年1 1 月正式确定为国际标准。m p e g 2 标准由系统、视频和音频部分组成，另外附加一个性能测试部分，m p e g 。2 是针对标准视频清晰度电视的数字压缩标准，但是它不是精确的硬件实施标准，而是规定怎样把图像、声音和数据压缩后复合到一串数据包流程中，以供传输的通用性描述。 2 2 1 m p e g - 2 的组成 m p e g 2 标准目i i 分为9 个部分2 6 1 ，统称为i s o i e c l 3 8 1 8 国际标准。各部分的内容描述如下：第一部分一i s 0 i e c l 3 8 1 8 一l ，s y s t e m ：系统，描述多个视频，音频和数据基本码流合成传输码流和节目码流的方式。第二部分一i s o 正c 1 3 8 1 8 2 ，v i d e o ：视频，描述视频编码方法。第三部分一i s 伽e c l 3 8 1 8 3 ，a u d i o ：音频，描述与m p e g 1 音频标准反向兼容的音频编码方法。第四部分- - i s o i e c l 3 8 1 8 - 4 ，c o m p l i a n c e ：符合测试，描述测试一个编码码流是否符合m p e g 2 码流的方法。第五部分- - i s o i e c l 3 8 1 8 5 ，s o f t w a r e ：软件，描述了m p e g - 2 标准的第一、 6 i i qe ；jj 、舢死j 学业论上第一二亭相蔓的押冷坫础二、三部分的软件实现方法。第六部分- - i s o i e c l 3 8 1 8 - 6 ，d s m c c ：数字存储媒体命令与控制，描述交互式多媒体网络中服务器与用户阃的会话信令集。以上六个部分均已获得通过，成为正式的蹦际标准，并在数字电视等领域中得到了广泛的实际应用。此外，m p e g 2 标准还有_ 一个部分：第七部分规定不与 m p e g l 音频反向兼容的多通道音频编码：第八部分现已停止；第九部分规定了传送码流的实时接口。 2 2 2m p e g 一2 视频的型和级 m p e g 一2 视频标准覆盖了一个广泛的应用范围，充分考虑了各种应用的不同要求，有较强的通用性。标准规定了四种图像格式，称为级( l e v e l s ) ；还规定了不同的压缩处理方法，称为型( p r o f i l e s ) 。按照不同的璎和级可有多种组合方式，但具体实际应用的只有其中的一部分，m p e g 一2 的型和级如表2 1 【2 7 】所示。 l 、级( l e v e l s ) 低级、主级、高1 4 4 0 级和高级共四个级反映了m p e g 2 编码器输入端的信源图像格式。括号内表示一帧画面内水平方向的像素数垂直方向的像素数帧频。 ( 1 ) 低级l 卜信源格式是3 5 2 2 4 8 3 0 或3 5 2 2 8 8 2 5 ，相应编码最大输出码率为4 m b p s 。对应m p e g - 1 图像质量，m p e g 2 后向兼容m p e g - 1 的信源格式。 ( 2 ) 主级m l ，信源格式是7 2 0 x 4 8 0 x 2 9 9 7 或7 2 0 x 5 7 6 x 2 5 ，是常规电视s d t v 的图像格式。最大允许输出码率为1 5 m b p s ，相应高型数码率是2 0 m b p s 。 ( 3 ) 高1 4 4 0 级h 一1 4 4 0 一是h d t v 发展过渡中的信源格式，没有得到实际应用。 ( 4 ) 高级h 卜为高清晰度电视( h d t v ) 的信源格式，即1 9 2 0 x1 0 8 0 x3 0 或 1 9 2 0 1 1 5 2 2 5 。最大输出码率为8 0 m b p s ，相应高型数码率是l o o m b p s 。 2 、型( p r o f i l e s ) 从表的横向分为五型，s p 、m p 、s n r p 、s s p 和h p 。不同的型反映出数据处理中采用的压缩工具不同，每升高一型，使用的压缩工具将更复杂。 ( 1 ) 简单型s p ( s i m p l ep r o f i l e ) 简单型采用i 帧和p 帧两种编码帧，s p m l 是s p 型中唯一的一个符合点。 ( 2 ) 主型m p ( m a i np r o f i l e ) 主型采用了i 帧、p 帧和b 帧三种编码帧，增加了双向预测方法( b i d i r e c t i o n a l p r e d i c t i o n ) ，在相同比特率的情况下，将给出比简单型更好的图像质量。 ( 3 ) 信杂比可分级s n r ( s n rs c a l a b l e ) s n r 将视频数据分成基本层和上层。基本层表示编码图像的基本数据但图像 7 两南，、学的t # f j i f - z筑，h iy 。的珲论甚础质量较低，增强层町用来改进提高图像的信噪比。s n r 可分级的目的是提供传输两层业务的机制，例如将一个图像序列编码成低层和增强层两个比特流，低层可以独立于增强层比特流进行解码，提供较低的图像质量。低层和增强层两个比特流结合将给出较高的图像质量。表2 jm p e g 一2 视频的级和硝掣g o f i l e 简单型卯主型信杂比可分级空间可分级型高型 4 ：2 ：0l 师型s n r ps s ph p 级1 m 1 4 ：2 ：04 ：2 ：04 = 2 ：0 4 ：2 ：限4 ：2 ：2 高级h l 加p i l l龟阻 1 9 2 0 1 0 8 0 x 3 0 8 0 1 v b 芦全部层 1 9 2 0 1 1 5 2 x 2 5 1 0 0 1 v 叶! s 底层 2 5 高1 4 4 0 级加强s 蹰h 1 4 4 0 li - i i 陋h 1 4 4 9 l h 1 4 4 0 lh 1 4 加l 全部层全部层 1 4 4 0 x 1 0 加3 0 6 0 1 伽l s6 0 i v l b 碍 8 0 芦 1 9 2 0 x1 1 5 2 x 2 5底层底层 1 j 帕馏扣m 】m 主级i v i l 靶砥l g l 陋m i ,s 幡 m lm 龟地 7 2 0 4 9 0 3 d 1 5 胁辟1 5 1 v b p j 全部层全部层 7 2 0 x 6 2 5c 无b 帧)1 肭p 2 0 1 v l a p s 底层加m ，p 扇层 4 b 芦低级l l m p l l刚p l l 卫2 x 2 4 9 x 如 4 1 v b p全部层4 p 峦2 x 2 8 8 底层 3 降 ( 4 ) 空间可分级型s s p ( s p a t i a l l ys c a l a b l e ) s s p 允许多分辨率编码技术，适合于视频业务相互操作的应用。 ( 5 ) 高型h p ( h i g hp r o f i l e ) h p 对亮度取样率、最大比特率和v b v 缓存容量都有不同约束，可见表2 1 。 2 2 3i g p e 0 - 2 视频结构 m p e g 2 的视频结构共分为六层， 1 、视频序列( v i d e os e q u e n c e 一个视频序列( 也称图像序列) 2 、图像组( g r o u po fp i c t u r e s 如图2 2 f 2 9 】所示。由一系列图像组( g o p ) 组成。 8 两南，、顺卜学f 一泠上第争丰f i y - 的删诊鞋础图像组是由连续的几个图像组成，这些图像铍分为i 、p 、b 三种编码图像帧， g o p 是编码后视频码流进行编辑的随机存取视频单元，进入点应在i 帧的起始端。 3 、图像( p i c t u r e s ) 图像足一个独立的硅示单元，也是图像编码的基本单元，分为i 、p 、b 三种编码图像。 4 、像条( s l i c e ) 像条由一系列连续的宏块组成。像条的宏块应处在同一水平宏块行内。像条是发生误码后且不可纠正时，数据重新获得同步从而能正常解码的基本单元。对于7 2 0 5 7 6 像素的画面来说，一帧图像里有3 6 个宏块排( 1 6 3 6 = 5 7 6 ) ，宏块排内可以各自有不同的像条划分方法。一个宏块排内像条数最少为1 个，如果每个宏块排内像条数多，则有利于误码后的重新正确解码，但确增加了码流中附加的信息，从而降低编码效率变。 5 、宏块( m a c r o b l o c k l 一个宏块由一个1 6 x 1 6 像素的亮度阵列和相应区域内的c b 、c r 色差信号阵列共同组成，它是运动预测的基本单元，以宏块为单位得到一个个宏块最佳匹配的运动矢量。但运动预测只对亮度阵列进行，色差阵列的帧间编码使用亮度阵列中得到的运动矢量。在m p e g l 中图像的色度格式是4 ：2 ：0 ，而在m p e g 一2 中图像的色度格式还包括4 ：2 ：2 和4 ：4 ：4 格式。宏块的结构如图2 3 所示。 9 两南j 节册i f ，诊上笛：章曰关的珲玲j 】i = 础 6 、块( b l o c k ) 一幅图像以亮度数据阵列为基准被分成为若干个8 8 象素的阵列，简称为块。它是d c t 变换编码的基本单元。 y c 七c ， 4 ：2 ：o ：差块结构田曰 x2-c毛c； 4 ：2 ：2 克已块结构田田 y 4 ：4 ：4 舞已岛皂结构图2 3 宏块的结构 2 2 4m p e g 一2 的三种图像及编码原理 m p e g 压缩编码算法包括了帧内编码、帧问编码，d c t 变换编码、自适应量化、熵编码和运动估计和运动补偿等一系列压缩方法。为了区分帧内、帧间编码， m p e g 2 定义了三种编码图像。 l 、i 、p 、1 3 编码图像 ( 1 ) 帧内编码图像( i n t r ap i c t u r e s ) 帧内编码图像简称“i 帧”，i 帧是只使用本帧内的数据进行编码的图像。即只对本帧内的图像像块进行d c t 变换、量化和熵编码等压缩处理。了保证图像有高的质量，i 帧图像的压缩比一般不高，约在( 2 5 ) ：1 的范围内。在一个图像组( g o p ) 中的第一个编码帧应为i 帧。 ( 2 ) i ；向预测编码图像( p r e d i c a t e dp i c t u r e s ) 前向预测编码图像简称“p 帧”，p 帧足根据前面最靠近的i 帧或p 帧作为参考帧进行前向预测编码的图像。由于p 帧使用了运动补偿压缩方法，压缩比高于 i 帧，可达到( 5 1 0 ) ：l 的范围。p 帧可以作为b 帧和后面的p 帧的参考帧。 ( 3 ) 双向预测编码图像( b i d r e c t i o n a lp i c t u r e s ) i o 西南、中硕i 产位论z鹚争相置的即诊毕皑双向预测编码图像简称“b 帧”。b 帧足根掘一个过去的参考帧和一个将来的参考帧进行双向预测的编码图像。其参考帧町以是一个i 帧和p 帧，或是i j i 后两个p 帧。由于b 帧是在两个参考帧基础卜双向预测得出的，它的预测精度能做到很高，其压缩比较大，可达到( 2 0 3 0 ) ：l 范围。有了i 、p 、b 帧的组合，可以既得到较岛的综合码率压缩比，又保证图像质量。 2 、图像组( g o pg r o u po f p i c t u r e s ) 图2 4 【3 0 1 中的一个g o p 中有1 2 帧，其中包含1 个i 帧、3 个p 帧和8 个b 帧，称为一个图像组。m p e g 2 编码规范中，对于g o p 的长度、g o p 内部有几个p 帧、一对i 、p 或p 、p 之间有几个b 帧以及一个g o p 结束于b 帧还是p 帧都没有作规定，这些均由设计者根据需要确定。 g l 靴i ( o c f ) - ! 前向预测后向项测图2 4m p e g - 2 视频的图像组时间自 2 2 5m p e g 编码器工作原理 m p e g 编码器的工作原理如图2 5 【2 9 】1 3 1 1 。当p 帧的宏块进入编码器时，前面的i 帧已经存储在i 帧存储器中作为参考帧。运动估计器m e ( m o t i o ne s t i m a t i o n ) 在i 帧中搜索与p 帧输入宏块最佳的匹配宏块。在i 帧搜索到的最匹配宏块相对于p 帧宏块的位置就足运动矢量m vm o t i o n v e c t o r ) 。运动矢量分为两路输出，一路送到熵编码器中进行编码，另一路送入运动检测器m c ( m o t i o n c 伽p e n s a t i o n ) 中，同时i 帧图像也输入到m c 中。根据运动矢量坐标以及p 帧宏块的位置找到i 帧中的匹配宏块。该宏块由运动检测器输出向上分为两路，一路进入减法器与p 帧宏块相减得预测误差。曲l 如，、帕i j 纠? 7 论上第幸相天的理论托础 “1b 帧的宏块进入编码器时，参考帧i 、p 帧或p 、p 帧已经储存在i 帧和p 帧存储器内作为参考帧。运动估计器，进行双向运动颅测。找到两个运动矢量后，分两路输出，一路送到熵编码器，另一路送到运动补偿预测器，同时i 帧和p 帧也一起输到此预测器。由b 帧宏块位置和两个运动矢量m v i 、m v 2 ，可以分别找到 i 帧的匹配宏块和p 帧的匹配宏块，将它们按比例相加后，由预测器输出，作为帧1 日j 预测值。然后进入减法器与b 帧宏块相减得预测误差。预测误差经过 d c t 和量化器后，直接进入熵编码器，由于b 帧不作为基准帧，所以不必进入存储器。广叫化器卜叫处理卜 1 自适应量ll 编码统计i 黜帧内，帧k 1 乜运动估计妻、 p 帧存嫱器r ! 心副蓁h 图2 5m p e g 2 压缩编码原理框图运动矢量 m v ) 2 2 6m p e g 一2 视频的帧重排由于在编码b 帧时，需要用将来的一个帧作为参考帧，因此需要把按显示顺序送进柬的图像序列重新排列后再进入编码器，这称为帧重排。图像序列的显示顺序和帧重排后图像序列的编码顺序如图2 6 【2 9 】所示。 2 3 基于内容的视频检索系统视频检索就是要从大量的视频数据中找到所需的视频片断。传统的视频检索只能通过快进和快退等顺序的方法人工查找，因而是一件非常繁琐耗时的工作，这显然已无法满足多媒体数据库的要求。用户往往希望只要给出例子或给出特征描述，系统能自动地找到所需的视频片断点，即实现基于内容的视频检索。 _ o b 嘭r 帧置排一 + 信号 1 匠鞫两南j 、，删tf # ? ，冷王第争招工的珲论堆础图2 6 帧重排后图像序列的编码顺序视频数据比文本、图像包含更丰富的信息，但是却无法像文本那样直接地给出它的内容或者直接地进行内容的比较。要实现基于内容的视频检索，首先必须对视频进行处理，包括视频结构的分析和视频单元的自动索引。视频结构的分析是指通过镜头边界的监测，把视频分割成基本的组成单元镜头：视频单元的自动索引是指提起镜头的颜色、纹理和运动等各种特征，形成描述镜头的特征空间。然后依靠这个特征空| 日j 进行镜头内容的比较。基于内容的视频检索包括视频结构的分析、视频数据的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测，把视频分割成基本的组成单元镜头；视频数据的自动索引包括关键帧的选取和静止特征与运动特征的提取：视频聚类就是根据这些特征进行的。视频处理的一般过程如图2 7 2 1 所示。 2 3 1 镜头边界检测图2 7 视频数据的处理过程镜头是视频数据的基本单元。大部分视频是通过编辑由一个个镜头连接而成的，所以基于内容检索的视频处理，首先要把视频自动地分割为镜头，以作为基本的索引单元，这个过程就称为镜头边界检测，也叫场景变换检测fs c e n ec h a n g e d e t e c t i o n ) ，它是实现基于内容的视频检索的第一步。嚣一两南，。舢pf j 1 ，沦z筑哥相关的坪t 轼础镜头切换时，视频数据将发生系列的变换，表现在颜色筹异突然增大、新旧边缘的远离、对象形状的改变和运动的不连续性等各方面。镜头边界检测的目的就是寻找这些变换的规律。一般而占，同一个镜头内的各帧之间的差异较小，而不同镜头的帧| 日j 差异较大。镜头边界检测方法可以分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等。 2 3 2 关键帧的选取关键帧是用于描述一个镜头的关键图像帧，它放映了一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件，因而描述应尽可能地准确完全，另一方面为便于管理，数据量应尽量地小，且计算不宜太复杂。关键帧的选取方法很多，比较经典的有帧平均法和直方图平均法。帧平均法是从镜头中取所有帧在某个位置上像素值的平均值。然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧；直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选取与该平均直方图最接近的帧作为关键帧。这些方法的优点是计算比较简单，所选取的帧具有平均代表意义。缺点是，从一个镜头中选取一个关键帧，无法描述有多个物体运动的镜头。一般来浇，从镜头中选取固定数目的关键帧不是一种好的方法，因为这种方法对于变化很少的镜头则选取的关键帧过多，而对于运动较多的镜头，有一两个关键帧又无法充分描述。 2 3 3 特征提取镜头足视频检索的最小单位。视频分割成镜头后，就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内容的特征空日j ，这个特征空日j 将作为视频聚类和检索的依据。视频数据的特征分为静态特征和动念特征。 l 、静态特征提取静态特征的提取主要针对关键帧，可以采用通常的图像特征提取方法，提取颜色特征、纹理特征、形状和边缘特征等。颜色特征是图像视频检索中运用最广泛的特征之一，与其它特征相比，它的可靠性更高。其中颜色直方图是图像颜色特征最普遍的表示方法，从概率的角度来说，它表示了3 个颜色通道密度的联合概率。除了颜色直方图以外，其它颜色特征的表示包括颜色距( c o l o rm o m e n t s ) ，颜色集(

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于宏块类型信息的自适应场景变换检测算法.pdf

文档简介

温馨提示

最新文档

评论

相关文档