




免费预览已结束,剩余53页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本 科 毕 业 论 文卡通视频中关键帧提取的镜头分割法研究Key Frame Extraction Algorithm About Cartoon VideoBased Shot Detecting姓 名: 学 号:学院:软件学院系:软件工程专 业:软件工程年 级:指导教师: 年 月 摘 要 基于内容的视频检索是多媒体信息检索中一个非常重要的研究领域。本文主要针对系统中的核心技术关键帧提取技术展开研究。在占有大量相关领域资料以及对国际压缩标准(MPEG-7)视频部分深入分析和理解的基础上,根据现有的研究理论成果,实现了通用直方图比较法和X平方比较法两种关键帧提取技术。然后在对前两种算法的分析研究前提下,本文改进了一种的基于分块理论的关键帧提取方法X平方结合分块的关键帧提取方法。该方法针对MPEG-7压缩视频文件,通过部分解码提取图像特征信息进行关键帧检索。在方法测试上,通过查准率(Precision)和查全率(recall)两个方面来衡量改进方法与传统方法的优劣,性能评测同时要考虑算法的检索时间(RetrievalTime)。实验证明,改进的基于分块理论的X平方关键帧提取方法较通用直方图法和传统X平方比较法相比,在查全率这项性能指标上有一定的提高,平均提高30%,尤其适合新闻纪录片、电影片等局部运动较为剧烈的视频序列。但检索时间还有待进一步改进,检索时间较通用直方图法和传统X平方比较法增加了20%左右,毕竟基于分块理论是通过提高检索量和检索细读提高查全率。总体来说,改进的基于分块理论的X平方比较法在一定程度上改进了检索效果。关键词 视频结构化;镜头分割;关键帧 Abstract Content-Based Video Retrieval is a very important field of research of Multimedia information retrieval. In this paper, our focus is the systems core technology - the key frame extraction technology research. On the basic of a large number of related fields, as well as to international compression standards (MPEG-7)-depth analysis of the video, this paper analysis and comparison of an improved block-based theory of the X-square critical frame extraction method, compared with the traditional key-frame extraction method. In connection of the MPEG-7 compressed video files, this method extracts images through partially decoding the key features of information retrieval frames. In the method of testing, the improvement of both methods and the advantages and disadvantages of traditional methods can ne measured through precision and recall. We evaluate the performance at the same time to consider the time search algorithm (RetrievalTime). The experiments show that compared with the more traditioinal methods, the improved block-based theory of the X-square keyframe have been inproved in the recall rate of the performance indicators, especially for news documentaries, films and other more intense local campaign video sequence. But the search time remains to be further improved. Generally speaking, the improved block-based theory of the X-square improves the search results to some extent.Keywords: Structure of video, Shot segmentation, Key frame 目录第一章 引言11.1论题的提出11.2国内外现有的对视频检索的研究情况31.3 镜头检测以及关键帧提取的主要困难41.4本文的主要工作5第二章 实验总体设计62.1基于内容视频检索的系统结构62.2系统的软硬件组成7第三章 视频序列的分析83.1视频序列结构分析83.2 MPEG-7视频数据结构93.2.1MPEG-7介绍93.2.2 MPEG-7视频数据结构123.2.3 MPEG视频图像结构详细介绍133.3 MPEG中图片要素提取程序实现17第四章 基于内容的视频检索中关于关键帧的提取研究194.1 关键帧提取问题的提出194.2 视频分析与分段204.3 关键帧提取的具体方法实现214.3.1 通用直方图比较法224.3.2 X平方直方图比较法304.3.3 X平方结合分块比较法334.4 三种检索方法性能分析以及结果对比38第五章 总结与展望41致谢43参考文献44 contentsChapter One Introduction11.1 The thesis11.2 The domestic and international research status31.3 Difficulties in lens detection and key frame extraction41.4 The main work5Chapter Two The entire experimental design62.1 Content-based video retrieval system architecture62.2 Hardware and software of the system7Chapter Three Analysis of video sequences83.1 Structural Analysis of video sequences83.2 MPEG-7 Video digital structure93.2.1 MPEG-7 Introduction93.2.2 MPEG-7 Video digital structure123.2.3 MPEG Detail structure of video images133.3 Procedures for the realization of picture elements in MPEG17Chapter Four Key frame extraction in CBVR194.1 The problem of key frame194.2 Video analysis and segmentation204.3 Specific key frame extraction method214.3.1 Histogram comparison method224.3.2 X square histogram comparison method304.3.3 X-square block of Comparison method334.4 Performance Analysis and comparison of the results38Chapter Five Conclusion and Prospect41Acknowledgement43References44 基于内容的视频检索中关键帧提取算法的研究第一章 引言1.1论题的提出随着科学技术的进步发展,特别是计算机技术和网络技术的发展,信息高速公路的建设,以及多媒体的推广应用,现代信息处理的对象和方法都有了很大的变化。近几年,比较显著和重要的一点就是大量的各种类型的信息在全球得到了采集、传输、流通和应用,人们正在快速地进入一个信息化的社会。而图像、视频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式。随着多媒体技术和网络技术的飞速发展,视频在多个领域得到广泛地应用。对这些海量的而且包含大量非结构化信息的数据进行组织、表达、管理、查询和检索成为迫切的需求。因此基于内容的视频检索(Content-Based Video Retrieval,CBVR)成为近年来研究的热点。传统的多媒体检索方案采用关键字标识符方法描述信息线索。例如具体到图像查询是借助图像的编号,即标签来进行的。为实现检索,先给图像加上一个对其描述的文字或数字标签,然后在索引时对标签进行检索。这样一来对图像的查询变成了基于标签的查询。传统的方法虽然简单,但有几个根本的问题影响对多媒体信息的有效使用。首先,文字标签难以表达蕴藏在多媒体数据中丰富的内容,在查询图像、视频时常会出现错误。其次,文字描述是一种特定的抽象,如果描述的标准改变,则标签也得重新制作才能适合新查询的要求。换句话说,特定的标签只适合特定的查询要求。最后,目前这些文字标签是靠观察者选出来加上去的,因此受主观影响因素很大,不同的观察者或同一观察者在不同条件下对同一幅图像可能给出不同的描述,因此不够客观,没有统一标准。事实上,诸如多媒体数据获取的日期、关键字等都可提供有用的索引线索,但是都不能完全抓取多媒体数据的信息。因为多媒体数据内容户需要访问多媒体数据的内容,如颜色、纹理、目标形状、分布位置、声调等。由于传统方法不能完整地概括多媒体信息的内容,因此在很多情况下不能满足实用的要求。例如,商标注册部门在审理新的商标注册时需要对已注册商标进行检索,看是否有雷同。这仅靠对商标的文字标签进行检索是不能解决的。有如在一部电影中如何提取精彩镜头作为电影的剪辑?为了解决上述问题,需要全面地、一般性地和客观地来提取多媒体内容。实际上,人们利用多媒体信息并不是根据它们的感官质量而是根据更重要的信息内容本身,所以只有根据内容进行检索才能有效地获得所需的多媒体信息,达到更深的检索层次。由此,基于内容的多媒体检索系统应运而生了。基于内容的多媒体检索,包括图像、视频和音频信息的检索,本文主要是针对基于内容的视频检索(CBVR,Content-Based Video Retrieval)技术中关键帧的提取进行研究。视频图像的一个特点是数据量很大,但同时其视觉内容常有较大的冗余。为访问视频内容,需要对视频进行浏览和对视频信息定位,这需要将视频分解。视频节目,一般可将其分解为一系列基本的单元镜头(shot),在这样分解的基础上可对视频进一步组织,以进行非线性的浏览和基于内容的查询检索等。视频数据组织的多层树结构中,视频流的上一层是镜头层。镜头是由一系列连续的帧所组成,是摄像机在一次连续的操作中得到的,也有人称为是摄像机在同一个场景下连续操作得到的。一个视频节目总是有许多镜头利用不同的方式通过各种剪辑手段结合起来而组成的。若将视频序列看作一系列镜头的集合,那么将需要的镜头提取出来和图像分割中将关心的目标从图像中提取出来有许多相似之处。主要区别是前者要将视频序列图像沿时间轴进行分割或切分,所以也称之为视频序列图像的时域分割(Time-domain Partitioning),也有人称之为镜头检测,还有人称之为视频分段,场景转换检测或镜头变换识别1。所谓基于内容的视频检索就是根据视频数据中的场景、镜头、帧和运动对象以及图像数据中的颜色、纹理、形状等特征在大规模视频数据库中找到满足特定的视觉特征描述的图像的过程。它的研究目标是提供在没有人参与的情况下能自动地理解或识别图像视觉特征的算法。目前,基于内容的视频检索的工作主要集中在识别和描述图像的颜色、纹理、形状、空间关系的基础上,对视频数据进行镜头边界检测、关键帧提取以及故事情节的重构。由此可见,这是一门涉及面很广的交叉学科,需要利用图像处理、模式识别、计算机视觉、图像理解等领域的知识作为基础,还需从认知科学、人工智能、数据库管理系统、人机交互、信息检索等领域引入新的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统结构以及友好的人机界面。基于内容的视频检索具有如下特点:(1)突破了传统的基于表达式检索的局限,直接对视频信息进行分析,抽取特征,利用这些特征建立索引进行检索。(2)提取特征方法多种多样。图像特征如颜色、纹理、形状轮廓、位置、空间关系等。(3)基于内容的视频检索是一种近似匹配。在检索的过程中,它采用相似性匹配的方法逐步求精来获得查询的结果。即查询是一个迭代过程,不断减小查询结果的范围,直到定位到目标。这一点与常规数据库检索的精确匹配方法有明显不同。1.2国内外现有的对视频检索的研究情况基于内容的视频检索自正式“冠名”以来,得到国内外信息领域科技人员的广泛重视和研究,迅速成为一个非常活跃的热点研究领域。基于内容的视频检索的发展也得到许多国际学术组织的重视和关注,在国际上每年召开的有关多媒体技术的学术大会中,有许多重要的系列大会都开辟了基于内容的视频检索主题和分会,而IEEE和SPIE都组织了专门的基于内容的多媒体信息检索会议。这些都极大地推动了基于内容的视频检索的发展。虽然当前的CBVR技术的研究还不成熟,但是作为商业软件包的图像检索系统已经问世,在网络上的演示版本也相应出现。具有商用价值的著名软件包系统包括IBM公司的QBICFlickner et al 1995,Virage公司的VIR图像工程系统Gupta et al 1996,Excalibur公司的Excalibur视觉检索产品Feder 1996 2。IBM的QBIC(Query By Image Content)是第一个商品化的基于内容的图像检索系统。作为基于内容检索系统的典型代表,其系统框架和技术对后来的图像检索系统具有深远的影响。QBIC系统实现了基于颜色、纹理或形状的查询,以及文字关键字的查询。查询接口方式支持基于模板图像、用户构造的略图的查询。Virage公司的VIR图像工程系统也具有独立性及附属性,不但支持基于颜色、颜色布局、纹理和结构(对象边界信息)的可视化查询;而且支持由上述四个原子查询的任意组合,用户可根据自己的侧重调整这四个原子查询的权重。Excalibur公司的Excalibur视觉检索产品是在研究模式识别理论和数据库技术的基础上研制出来的,现已被成功地应用于Yahoo上,即图像冲浪组件,实现了基于内容的图像检索。PhotoBook系统突出的特点是允许查询者根据应用的特点,选择某种恰当的特征进行查询,其中的人脸识别检索技术已被应用于美国的警察机关。VisualSEEK是一种视觉特性搜索工具,其姊妹系统WebSeek是面向WWW的文本/图像搜索工具,主要研究的是图像区域的空间关系查询和从压缩域中抽取视觉特性。MARS系统是用不同的特征和不同的相似性度量准则比较模板图像和图像库中的图像。针对查询者的反馈,调整各个图像相似性度量结果的权重,从而达到按查询者要求修改检索结果的目的。在我国从90年代后期至今,基于内容的检索技术逐渐成为研究和应用的热点。但国内这方面的研究还很初步,尤其对视频的基于内容的检索研究更少,缺乏大规模的、无领域的应用系统;更无法满足视频点播、医疗、军事等领域对视频处理的要求。因此还需要做更多的理论和实践的研究,以实现真正的基于内容的检索2。目前国内正研究开发的视频检索系统有:(1)NewVideoCAR国防科技大多媒体研究开发中心研制开发的新闻节目浏览检索系统。(2)MIRC国防科学技术大学系统工程系研制开发的多媒体信息查询和检索系统。(3)TV-FI由清华大学开发的视频节目管理系统。可提供视频数据入库、基于内容的浏览、检索等功能,提供多种模式访问视频数据,包括基于关键字的查询、基于示例的查询、按视频结构进行浏览以及按用户定义类别进行浏览等。1.3 镜头检测以及关键帧提取的主要困难 现有的镜头检测及关键帧提取算法分别运用视频不同的特征,每种算法都有其各自的特点,但也存在一些问题:(l)镜头切变的检测方法很多,但是这些方法一般都没有考虑渐变的情况。单纯能识别切变镜头在一个实际的视频检索系统中意义不大,因此,目前研究者越来越关注能够同时识别切变和渐变的方法。(2)在镜头转换中,并不是所有特征均能够同时反应镜头变化规律,如何提取合适的特征保证检测结果的正确性仍然是一个值得研究的问题;(3)算法所需要的计算时间也是需要考虑的问题,一个算法如果花费时间过长,即使有很高的精确率也很难在实际中得到应用。一个好的镜头检测算法既要保证查全率(recall),也要保证查准率印(Precision),并且算法必须简洁快速。(4)目前,镜头渐变检测算法还不成熟,还不能将镜头渐变与摇镜头、物体或摄像机移动很好的区分开来,容易造成误检。(5)在关键帧提取方面,如何根据视频内容的变化提取适量的关键帧,以及将关键帧对应到相应的主题和类目,关键对象分割等都是目前比较受关注的问题。1.4本文的主要工作随着计算机技术、多媒体技术的发展和信息需求的不断增长,多媒体信息已经成为各类信息系统的主要数据来源形式,而在多媒体数据中视频数据占有很大比重。数字化视频在各个方面的应用越来越普遍,并且每天都有大量视频信息产生,人们对其进行系统管理和方便快速的检索提出了要求。综上所述,多媒体数据库基于内容的视频检索有着广泛的发展前途,本文研究力求吸取以往研究的成功经验和思想,探讨MPEG-7压缩视频流中视频序列镜头探测和基于镜头的检索,建立一实验模型采用关键帧分析的方法实现对视频文件关键帧的提取。第二章 实验总体设计2.1基于内容视频检索的系统结构基于内容的图像检索过程大致可以描述为:首先将一段视频序列分割为若干个镜头序列,然后在各镜头序列中找到若干个关键帧来代表该镜头的主要视觉内容;在视频序列被结构化以后,提取各关键帧的视觉特征(颜色、纹理、形状轮廓等)以及运动参数,存入特征数据库中;系统相似性匹配模块处理用户构造的查询,在视频数据库中寻找与之相符的图像,并将结果反馈给用户;用户也可以通过特征参数调整,以进行逐步求精的查询,最终得到满意的查询结果。系统结构如图2-1所示:图21基于内容视频检索的系统结构首先要进行视频结构分析,将视频序列分割为镜头,并在镜头内选择关键帧,这是实现一个高效的CBVR系统的基础和关键。然后提取镜头的运动特征和关键帧中的视觉特征,作为一种检索机制存入视频数据库。最后根据用户提交的查询按照一定特征进行视频检索,将检索结果按相似性程度交给用户,当用户对查询结果不满意时可以优化查询结果,自动根据用户的意见灵活地优化检索结果。CBVR系统主要包含镜头分割、关键帧提取、特征提取和相似性匹配四大功能模块和一个相关反馈环路2。*镜头分割模块找到镜头之间的切换边界,把一段视频序列分割成一个个的镜头;*关键帧提取模块提取出能够描述一个镜头主要内容的关键图像帧;*特征提取模块从图像内容中抽取视觉特征,以此建立检索索引;*相似性匹配模块根据系统相似性度量的算法计算查询特征与特征数据库中对应的每组特征的相似性程度;*相关反馈环路即形成反馈检索,通过交互式的反馈来决定采用何种特征组合及各种特征权值,不断缩小匹配集合的范围,最终定位到所需目标。2.2系统的软硬件组成由基于内容视频检索系统的构成,本文确定了系统实现的硬件组成:*计算机主机一台:AMD Athlon(tm)XP 2800+1.84G,512兆内存容量;*显示系统:Samsung SyncMaster 550b显示器;RADEON9100显示卡;*外存:120G容量硬盘;*图像输入设备:图像采集卡;摄像头;*系统的软件支持平台为WindowsXp Professional操作系统,开发平台为Matlab 7.1版。第三章 视频序列的分析3.1视频序列结构分析为了更好的访问视频序列,有必要将语义层次上的视频数据结构化。通常,视频数据可以按照从高到低的顺序划分为四个层次:视频序列(Video program)、场景(Scene)、镜头(Shot)、图像帧(Frame)。如图3-1所示:图3-1 视频序列层次结构图一段视频序列可以划分为若干个场景(也叫作故事单元),每个场景描述一个完整的事件;场景又包含一个或多个镜头,镜头是由摄像机一次连续拍摄得到的全部内容,用于表示一个时间段或相同地点连续的动作,它是视频数据的基本单位;视频数据的最小单位-图像帧又构成了镜头,图像帧就是一幅幅静止的图像。其中图像帧和镜头是句法结构,场景是语义结构。任何视频节目都是由一个个镜头衔接起来的,因此镜头是视频检索的基本单元。只有先将视频序列中的每一个镜头分割出来才有可能进行下一步的结构分析。本论文立足于基于镜头关键帧的检测与提取。镜头之间的衔接方式多种多样,我们称之为镜头边界。镜头边界的生成是为了让视频中镜头的衔接更加紧密美观,因此目前的视频中大都采用了许多镜头编辑方法,经过对镜头边界的编辑处理,将镜头和镜头完美地连接起来。镜头的编辑和视频的产生过程如图3-2所示:图3-2 镜头的编辑和视频的产生图根据镜头连接方式的不同可将镜头切换分为突变和渐变两种:突变是指一个镜头直接转换到下一个镜头,画面的情节和动作发生直接跳跃。渐变是指加入了一些空间或时间上的编辑效果,由一个镜头逐渐过渡到另一个镜头。常见的渐变包括淡入(Fade in)、淡出(Fade out)、溶化(Dissolve)、扫换(Wipe)等。将画面逐渐加强成为淡入;将画面逐渐关闭消失成为淡出;一个画面消失的同时另一画面逐渐出现称为溶化;图像从画面的某一部分开始逐渐地被另一画面取而代之的方式称为扫换。镜头分割出来后,可由关键帧来表示这个镜头的基本内容。关键帧是一个最可能准确、有效地描述一个镜头信息的图像帧。形象地说,全部的关键帧就组成一部生动的“连环画”。用户可以通过指定关键帧的特点或浏览关键帧来检索镜头。3.2 MPEG-7视频数据结构多媒体信息的大量涌现,使得越来越多的视频数据是以JPEG、MPEG-X等压缩形式存储和传输的。本论文就是基于MPEG-7压缩视频流实现关键帧提取方法的研究,所以有必要先介绍一下MPEG-7国际标准及其视频数据的结构。3.2.1MPEG-7介绍 从1996年10月起,MPEG开始了被称为“多媒体内容描述接口”(Multimedia Content Description Interface)的,MPEG-7研究,以一种描述多媒体内容数据的标准,满足实时、非实时以及“推一拉”应用的需求。直至2001年12月,完成了MPEG一7标准的草案,随后获得MPEG的通过,并以工ISO/IEC 14496号文件正式成为国际标准。MPEG-7通过一组规范的“描述子”(Descriptor,D),描述各种多媒体信息的数据(指资料)和特征(指数据),既定义特征表示的句法和语义,又赋予描述值(Descriptor Value,DV)。这样一来,MPEG-7标准就可以应用于存储形式(在线、脱机模式)或流形式(广播、推送模型),在实时和非实时操作环境中,把资料采集的信息与内容检索相关联,以包含静止图像、图形、3D模型、音频、语音、视频,以及这些元素如何在多媒体表现为组合信息,以更多的通用数据类型扩展为现有标识内容的专用检索和查询方案。换句话说,MPEG一7像其他MPEG家族成员一样,满足了特定需求的视听信息的标准表示,并在其他标准表示的基础之上,建立了内容描述的数据格式。因而,尽管淤EG一7并不对应用标准化,也不针对特定的应用领域,但却可以利用它的应用来认识需求和评价技术。正是因为如此,在数字媒体应用的开放分布式计算环境(Distributed Computing Environment,DCE)中,得到OSF一DCE所倡导的通用工具、标准、协议的完全支持,为在不同平台建立MPEG-7的应用程序开放了尽可能广泛的应用环境,从而能够通过基于内容的检索接口,匹配用户查询与不同媒体描述内容和表达方式之的相关信息,使MPEG-7标准成为其它方式所不能比的、适应于各种媒体综合检索的宽泛应用。这就与MPEG-1/2/4标准只定义解码器,而不规范编码器一样,并不定义搜索引擎,反而为竞争性应用预留了足够的发展空间。所以,在MPEG-1/2/4编码的海量内容中,MPEG-7将起到“穿针引线”的作用,因而被命名为1+2+4=7。这样一来,MPEG-7描述内容的“比特”就可以承载检索MPE于1/2/4编码的比特,也就有了“比特之比特”的称谓。应用的研究表明,既然MPEG-7定义的是多媒体内容描述接口,就可以通过这一被打通了的接口,在时间(同步)和空间(空间位置和三维感受)的对象关系中,利用面向对象的程序设计(Object-Oriented Programming,OOP)工具,对MPEG一1/2/4关于面向对象的运动矢量和形状描述子,采用继承、封装和多态模式,直接调用接口;还可以利用面向方面的编程设计。(Aspect-Oriented Programming,AOP)组件,对O0P形成互补,既对同一对象层次的公用行为建模,又在交叉关系的定义中,以层次化的纵向方面描述和处理请求、导言、元数据及描述子,从而实现栅格化的检索机制:只要输入查询的特定声音即可找到特定的场景;只要画出一些线段或是相似形即可获得一组图形、标志和符号的图像;只要检索对象的颜色或纹理即可得到所选特征的相似图像;只要给定运动图像的对象运动关系即可获得包含时空描述的图像组。一句话,只要给定了规范的内容描述,就能获得相似场景的多个素材;描述的约束条件越多且越准,指向的检索目标就越确定。MPEG-7的适应性应用集中在如何准确地描述数据对象的内容特征上,并以合理的数据结构及算法实现高效索引。MPEG- 7对多媒体信息的描述目前主要包括以下几个方面:*有关媒体制作方面的信息(如媒体的制作商、标题等);*有关媒体使用方面的信息(如媒体的版权、使用记录等);*有关媒体存储方面的信息(如媒体的编码方式、存储格式等);*有关媒体时间域、空间域方面的信息(如媒体中的场景切换、区域分割等);*有关媒体特征方面的信息(如媒体的灰度、纹理、音频特征等);*有关媒体内容表述方面的信息(如媒体中包括的对象、事件及其之间的相互关系)。表3-1 MPEG-7标准的描述子3:类型特征描述子视觉结构网格分布三维多视图时间序列空间坐标系时间插值颜色颜色空间颜色量化颜色直方图主颜色可扩展颜色颜色结构颜色分布GIF/GOP颜色纹理边缘直方图同类纹理纹理浏览形状对象范围基于区域形状基于轮廓形状三维形状运动镜头运动对象运动轨迹参数运动运动速度位置区域定位子时空定位子其他人脸描述子 3.2.2 MPEG-7视频数据结构 MPEG-7的视频数据流是由排列有序的视频比特流组成,称之为层。如果只有一层,则编码数据称为不可分级的视频比特流。如果有两层或多层,则称为可分级的视频比特流。而为更好地表示编码数据,用句法将视频比特流分为六个层次,自上到下分别是:运动图像序列(Sequence)、图像组(GOP)、图像(Picture)、图像片(Slice)、宏块(MacroBlock)和块(Block)。如图3-4所示4。图3-3 MPEG-7 视频数据结构*运动视频序列是比特流中的最高语法结构,定义了整个视频序列的结构。运动视频序列是由一幅或多幅图像组构成的。它以一个序列头开始(sequence header),由序列结束代码sequence_end_code终止。*图像组由相互间有预测和生成关系的一组I、P、B帧组成,但头一帧图像总是I帧。*图像*图像片*宏块*块3.2.3 MPEG视频图像结构详细介绍*图像图像是独立的显示单位,也是基本编码单位。图像信号分为三个部分:一个亮度信号Y和两个色度信号U、V。亮度信号Y由偶数个行和偶数个列组成,色度信号U、V分别取Y信号在水平、垂直方向的1/2。在MPEG-7中,图像可以是逐行的,也可以是隔行的。图像分为I帧图像、P帧图像和B帧图像三种:(1)I帧(Intra-Frame)仅使用图像本身的信息编码。由于I帧不依赖于其他帧,所以是随机存取的入点,同时是解码中的基准帧。帧内图像只使用变换码,可提供中度的压缩。(2)P帧(Predicated-Frame)根据前面的I帧或P帧进行预测,使用运动补偿算法进行压缩,因而压缩比要比I帧高,数据量平均达到I帧的1/3左右。P帧是对前后的B帧和后继的P帧进行解码的基准帧。P帧本身是有误差的,如果P帧的前一个基准帧也是P帧,就会造成误差传播。(3)B帧(Bidirectinal-Frame)是基于内插重建的帧,它基于前后的两个I、P帧或P、P帧,它使用双向预测,数据量平均可以达到I帧的1/9左右。B帧本身不作为基准,因此可以在提供更高的压缩比的情况下不传播误差5。*图像片由一系列宏块组成,是重新同步单位。图像片的第一个和最后一个宏块不能跳过,图像片的第一个和最后一个宏块应具有相同的水平行。图像片的设置目的是防止误码的扩散,当一个图像片出现误码时,不影响后续的图像片解码。*宏块MPEG-7中定义了三种宏块结构:4:2:0宏块,4:2:2宏块和4:4:4宏块,分别代表构成一个宏块包含亮度分量和空间上相应的色度分量的数量关系。对于每一种不同的色度格式,宏块中块的顺序会有不同:4:2:0由6个块组成,4个Y,1个Cb块和1个Cr块;4:2:2由8个块组成,4个Y,2个Cb块和2个Cr块;4:4:4由12个块组成,4个Y,4个Cb块和4个Cr块。块的顺序如下: 图3-4 4:2:0宏块结构 图3-5 4:2:2宏块结构 图3-6 4:4:4宏块结构色度格式是色度样本的使用模式,即色度分量和亮度分量的关系。在彩色图像中,亮度(Y)、色调(U/Cb)和饱和度(V/Cr)则构成了一幅彩色图像的要素。根据三基色原理,任何颜色都可以用三个独立的基色按不同的比例混合产生。这三个基色就是红(R)、绿(G)、蓝(B)。根据色度学理论YUV和RGB两种彩色空间的关系为:在MPEG-7中定义的三种色度格式阐述如下:4:2:0格式:色差信号Cb、Cr的样本为亮度信号Y的样本在水平和垂直维数的一半。如下图:图3-7 4:2:0格式和色度排列图4:2:2格式:色差信号Cb、Cr的样本为亮度信号Y的样本在水平的一半,而在垂直维数上和亮度信号样本相同。图3-8 4:2:2格式和色度排列图4:4:4格式:色差信号Cb、Cr的样本为亮度信号Y的样本在水平和垂直维数都相等。图3-9 4:4:4格式和色度排列图*块一个8行8列的样点矩阵,或者64个DCT系数。是DCT变换的基本变换单元。3.3 MPEG中图片要素提取程序实现clear all; clc; %清空工作空间tic;%start timeshot=mpgread(.videoscut.mpg,1:200,truecolor);%读取MPEG视频%shot=aviread(videoskiing.avi);frames=size(shot,2);%movie(shot);%graycount1=zeros(256,1);count2=zeros(256,1);%第一帧rgb获取countr1=zeros(256,1);countr2=zeros(256,1);countg1=zeros(256,1);countg2=zeros(256,1);countb1=zeros(256,1);countb2=zeros(256,1);%初始化第一帧framedif=zeros(frames,1);framedifr=zeros(frames,1);framedifg=zeros(frames,1);framedifb=zeros(frames,1);framedifrgb=zeros(frames,1);%求帧间差(以通用直方图为例,下章详细说明)%divnum=64;%district numphase=256/divnum;%division%gray1=double(rgb2gray(shot(1,1).cdata);w=size(shot(1,1).cdata,1);%heighth=size(shot(1,1).cdata,2);%width%r=double(shot(1,1).cdata(:,:,1);g=double(shot(1,1).cdata(:,:,2);b=double(shot(1,1).cdata(:,:,3);for j=1:w for k=1:h count1(gray1(j,k)+1)=count1(gray1(j,k)+1)+1; countr1(r(j,k)+1)=countr1(r(j,k)+1)+1; countg1(g(j,k)+1)=countg1(g(j,k)+1)+1; countb1(b(j,k)+1)=countb1(b(j,k)+1)+1; endenddistrict1=zeros(divnum,1);district2=zeros(divnum,1);%第四章 基于内容的视频检索中关于关键帧的提取研究 4.1 关键帧提取问题的提出镜头分割是视频结构层次化的基础,要求能够正确检测出各种复杂编辑的镜头边界,并能够有效地分辨镜头内的运动变化,排除它们对镜头边界识别的干扰。关键帧是镜头的代表,也是视频检索的重要依据,关键帧要能够反映镜头中的主要运动和变化。按照内容粒度可以把视频分为:节目、场景、镜头组、镜头和关键帧。节目是时间上有序的场景组合。场景是指语义上相关,时间上相邻的一组镜头。镜头是摄像硬件从打开到关闭这一过程记录下来的连续图像帧,它是视频中的最小物理单元。在镜头内部,相邻和相近的视频帧特征相近,变化很小,但在镜头转换处,视频帧的特征往往会发生明显的改变,也是关键帧容易出现的地方。一般认为镜头之间的转换方式主要有两大类:突变(切变)和渐变。突变也称直接切割(Abrupt Change),渐变也称光学切割(Gradual Change)突变是镜头间的突然变化,常在两帧图像间完成。渐变则是从一个镜头缓慢地变化到另一个镜头,常延续十几或几十帧。突变可以认为只有一种,而渐变则有许多种类型,如淡入淡出、叠化、擦除/褪色等。也可以说,切变是没有时间长度的,切变在两帧间发生,切变前的帧属于上一个镜头,切变后的帧属于下一个镜头。两个镜头间的切变是将两个镜头直接连接在一起得到的,中间没有使用任何摄影编辑效果。切变一般对应在两帧图像间某种模式(由于场景亮度或颜色的改变,目标或背景的运动,边缘轮廓的变化等产生/造成)的突变。在同一场景下,亮度的突然变化主要有两个原因,一是照明的变化(如开灯,闪光),一是景物的(快速)运动。在不同场景下,亮度的突然变化则主要是场景自身的变化产生的。不过在实际中,一般很难知道亮度的变化具体是由于上述哪一个原因(包括照明变化、景物运动、场景变化)产生的。渐变是许多镜头切换方式的总称,它的特点是整个切换过程是逐渐完成,从一个镜头变化到另一个镜头常可能延续十几帧或几十帧,比较常见的渐变主要有淡入、淡出和叠化等。淡入、淡出和叠化效果都可以通过光学处理来获得,或者说通过改变象素的亮度或颜色来获得。此时前后两个镜头间的边界会跨越若干个帧,或者说构成了一个包括起始帧和终结帧的相应的过渡序列。淡入对应将一个镜头不断变亮,直至最后一帧变得完全白色(实际中到达正常显示就停止了)的光学过程。淡出对应将一个镜头不断变暗(一般也持续10多帧),直至最后一帧变得完全黑色的过程。叠化可看作一个淡入镜头和一个淡出镜头的登加。滑动是与叠化对应的对空间位置进行变换的操作,后一镜头不断推进以占据整个屏幕,而前一镜头不断退让逐步从屏幕中消失与滑动中前后两帧都有动作不同上拉和下拉都只有后一镜头运动而前一镜头不动。上拉和下拉方向相反,它们都可看作是擦除在一定方向上的特例。而翻页可看作把擦除中动静的两帧对换过来的一种手段,既不是去推后一帧以覆盖前一帧,而是拉走前一帧显露出后一帧。有人用擦除代表一类在电影制片术和广告片中常用的空间编辑手段,其基本思路是用后一个镜头的首帧去占领原来前一镜头的尾帧所占据的空间。擦除可以是水平擦除、垂直擦除或者翻转,这样就将滑动、上拉、下拉、翻页、翻转、都归在擦除名下了。旋转一般来说可看作将擦除中的平移运动换成旋转运动而得到的效果,特别是有些旋转变化中图像帧没有尺度上的变化。如果在渐变过程中,图像帧有尺度上的变化,则旋转更接近弹进的一个特例。两种渐变形式都有平移以外的运动,只是后者的空间运动不太规则。而弹出弹进的关系类似于淡出与淡入的关系,可以看作是一个镜头两端的“括号”,标出该镜头的起终点。5糙化是比较独特的空间编辑手段,它指一种利用多种暗的模板(常用的是园环)通过侵入屏幕而渐进地把视场着挡住的技术。糙化曾在无声电影中得到广泛应用,但在现代电影中己用得很少了。关键帧是用于描述一个镜头的关键图像帧,它反映一个镜头的主要内容。关键帧的选取一方面必须能够反映镜头中的主要事件,因而描述应尽可能地准确完全,另一方面为便于管理,数据量应尽量地小,且计算不宜太复杂。基于关键帧的检索,是对代表视频镜头的关键帧进行检索。关键帧是一幅幅图像,可以采用与图像检索相似的方法。一旦检索到目标关键帧,用户就可以观看它代表的视频片断。对视频信息进行镜头分割的处理之后,为了建立视频索引,提取视频摘要,需要选取镜头的关键帧。只有对分割后图像序列的关键帧进行准确的定位,才能为最终的检索奠定良好的基础。所谓关键帧是指在图像序列中具有代表性,能够反映一个镜头序列内容梗概的图像帧,通过选取关键帧可以大大减少视频索引的数据量。在存储容量有限的情况下,通常仅存储镜头关键帧,可以达到数据压缩的效果。同时,用关键帧来代表镜头,然后提取关键帧的纹理、颜色等静态特征和动态特征,将这些帧存储到视频数据库中以便进行相似匹配,从而达到快速浏览的目的。因此,关键帧的选取在基于内容的视频检索研究中占据着核心地位。4.2 视频分析与分段 视频流是一种非结构化的线性数据流。在分析应用视频的过程中,需要先将视频流分割为具有独立语义信息的片段,即为分段,也称为分割。视频数据的分析、组织和应用都需要以视频分段为基础。因此,视频分析与分段在研究视频数据库及视频处理上具有基础地位和重要的作用。图4-1 视频的层次分析一般而言,视频数据的组织是一个多层次的树型结构。对原始视频流,可以由低到高划分为五个层次:帧(Frame),镜头(Shot),场景(Scene),剧情或幕(Act),视频文档(Video),如图4-1所示6。最高层视频文档层针对整段视频,剧情或幕层是引用影视或戏剧中的术语,它可以是一段相对完整的故事情节,也可以是一段相对独立的内容(如一段完整的新闻,一小节足球比赛等),一般采用人工分段。需要计算机自动完成的主要是镜头层分段或镜头变换
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年从入门到精通香席制作技艺全攻略含试题解析
- 2025年人力资源公司招聘专员模拟面试题及参考答案
- 2025年出版物发行零售项目发展计划
- 护理操作培训知识点课件
- 消毒供应中心医院感染管理
- 2025年科研合作协议书
- 抢救车及抢救药品课件
- 2025年吡虫啉项目发展计划
- 2025年智能小区(楼)系统项目建议书
- 2025年玉米新组合项目合作计划书
- 外研版英语九年级上册教学计划
- 跨境电商理论与实务PPT完整全套教学课件
- C语言开发基础教程(Dev-C++)(第2版)PPT完整全套教学课件
- 卡通开学季收心班会幼儿开学第一课小学一二三年级开学第一课PPT通用模板课件开学主题班会
- 玻璃熔化工艺公开课课件
- 核电质量保证介绍课件
- 机床数控技术PPT完整全套教学课件
- 大型精密模具异性塑件模具技术改造项目资金申请报告
- 中国饮食文化PPT完整全套教学课件
- 2022年中国胸痛中心质控报告-江苏-中国胸痛中心联盟
- 中兴LTE网管操作指导书(最全)
评论
0/150
提交评论