视频内容的结构化_第1页
视频内容的结构化_第2页
视频内容的结构化_第3页
视频内容的结构化_第4页
视频内容的结构化_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

,视频内容的结构化,2,背景,Largemultimediadatabase,Onlinevideos,video,24hoursBroadcastvideos,视频的特点,时间上依赖的图象帧序列流很强的情节发展性但是其制作过程中存在“场景”“分镜头”,且其间存在内容层次,只是在最后节目中消失了,结构化视频的作用,建立索引视频表征视频相似度比较便于浏览和检索视频结构化目的:自动分析视频流中蕴涵的这种结构切分有意义的视频段,视频结构化的基本概念,书,视频,章,节,页,场景,镜头,帧,视频结构化的基本概念,视频,场景,镜头,帧,基本组成单位独立的图象,语义上相关,时间上相近的若干镜头,在时间和空间上连续数帧的集合,若干镜头或场景的集合,体育视频结构示意图,新闻结构示意图,研究点,镜头边界检测(shotboundarydetection)场景聚类(sceneclustering)镜头分类(shotclustering)关键帧提取(Keyframeextraction),镜头边界检测示意图,镜头,镜头:摄像机拍下的不间断帧序列,是视频数据流进一步结构化的基础结构层如,在拍摄“飞机起飞”这组镜头时,画面的色彩和纹理等图像特征将保持不变镜头是对视频流进行处理的最小物理单元,而视频帧是视频流的基本单元,镜头包含少许的语义内容由于在同一组镜头中,属于同一组镜头的图像帧之间的特征保持稳定如果相邻图像帧之间的特征发生了明显变化,则认为发生了镜头变化,需要对视频进行切分,11,镜头分类示例,长镜头(LS):显示场景的全貌中镜头(MS):表现人物的动作,如谈话等短镜头(CU):近距离刻画人物的表情,长镜头,中镜头,短镜头,注:一般在电影中镜头常被分为7类,即特长(XLS)、长(LS)、中长(MLS)、中(MS)、中短(MCU)、短(CU)和特短(XCU),,场景,场景:语义上相关和时间上相邻的若干镜头组成了一个场景,场景是视频所蕴涵的高层抽象概念和语义表达,如“学校运动会”这个场景可以由“运动员入场”、“运动员比赛”和“观众呐喊”等镜头组成。场景可以用属于这个场景的若干个镜头所对应的关键帧来表示。(为什么不使用文字信息?),场景聚类示意图,镜头边界检测,视频镜头边缘检测定义,ProblemdefinitionShottransitiondetectionisusedtosplitupafilmintobasictemporalunitscalledshots;ashotisaseriesofinterrelatedconsecutivepicturestakencontiguouslybyasinglecameraandrepresentingacontinuousactionintimeandspace.Alsoknownasshotboundarydetectionorscenetransitiondetection.Itisafundamentalstepofautomatedindexingandcontent-basedvideoretrievalorsummarizationapplicationswhichprovideanefficientaccesstohugevideoarchives,镜头变化分类,镜头变化,切变,渐变,Thisisasuddentransitionfromoneshottoanother,i.e.oneframebelongstothefirstshot,thenextframebelongstothesecondshot.Theyarebealsoknownashardcutsorsimplycuts.,Inthiskindoftransitionsthetwoshotsarecombinedusingchromatic,spatialorspatial-chromaticeffectswhichgraduallyreplaceoneshotbyanother.,TheSchemaofVideoShotDetection,视频镜头边缘检测方法,基本思想:对比相邻帧间的特征认为有重大变化的地方是镜头边缘的发生之处,Althoughcutdetectionappearstobeasimpletaskforahumanbeing,itisanon-trivialtaskforcomputers.Cutdetectionwouldbeatrivialproblemifeachframeofavideowasenrichedwithadditionalinformationaboutwhenandbywhichcameraitwastaken.,Whilemostalgorithmsachievegoodresultswithhardcuts,manyfailwithrecognizingsoftcuts.Hardcutsusuallygotogetherwithsuddenandextensivechangesinthevisualcontentwhilesoftcutsfeatureslowandgradualchanges.,20,镜头边界检测常用算法,绝对帧间差法图像像素差法图像数值差法颜色直方图法压缩域差法矩不变量法边界跟踪法运动矢量法,绝对帧差法,判断相信图像之间特征的绝对差是否大具体实现时,判断两个相信帧差别的方法可以是:计算相邻两个图像中所有像素的色彩亮度之和注意:采样不必均匀,不必25帧/秒作为计算绝对差异的特征可以有很多,不一定是色彩亮度和,图像像素差法(1),影响因素D/A转换的噪音视频对象和镜头运动,焦距的变化及某一时刻是闪变cutwipedissolvefade等特殊效果步骤计算象素变化超过阈值的像素个数将此数目与另一阈值比较,超出则认为是镜头边界,图像像素差法(2),缺点对镜头的移动敏感对噪声的容错性小改进3*3滤波针对不同的视频流选不同的阈值,图像像素差法(),将图像分成若干子块区域分别比较例如在图像子块中计算灰度平均值和方差缺点计算量大会产生错误的结果,颜色直方图法,相邻帧图象的灰度差别大于某个阈值时认为是镜头的切分点分为16个子块,计算每个子块的颜色直方图舍弃8个最大的差值,以减少对象移动噪声是影响带权重的区域灰度颜色直方图,权值根据视频流内区域变化的可能性设定像素差法,数值差法和颜色直方图法中,颜色直方图法最好地满足了速度和准确度的要求,简单的直方图差,带权重的直方图,均值化后的颜色直方图,直方图求交,直方图平方差,压缩域差法,不对图像解压,而是直接用JPEG压缩图像帧的DCT系数作为帧相似度衡量的标准。省去解压步骤,直接从原始视频数据流中提取特征,从而加快检测速度。每个压缩域系数保留了原始图像帧中或图像帧间最重要特征,所以压缩域系数可以有效分析视频数据。,矩不变量法,图像矩不变量具有比例、旋转和过渡不变性的特点,可以用来进行镜头边缘检测。图像f(x,y)的矩定义为:,矩不变量法,也可以从归一化的图像中心矩定义矩不变量:其中,矩不变量法,根据以上定义,使用以下三个矩不变量:,矩不变量法,从相邻图像帧f和f中提取矩不变特征,计算这些矩不变特征的欧氏距离:其中如果d(f,f)超过一定阈值,则认为f和f间出现了镜头转换。,边界跟踪法,思路:在镜头转换中,距离原来边缘很远的位置会出现新的边缘,而原来的边缘会逐渐消失,因此,镜头转换的判断可以看作是两个图像帧中边缘的比较。,边界跟踪法,Zabih,Miller和Mai在边界识别的基础上提出了比较颜色直方图和颜色比例的镜头边缘检测方法。该方法为:把连续帧排列成一行以减少镜头移动造成的影响,然后比较图像中边的个数和位置,同时计算相邻两帧间进入或者离开图像的边所占百分比,百分比最大的是镜头的切点。是否为Dissolve或fade也可以通过百分比的相关值判断。该方法对运动的敏感度不大。,边界跟踪法,在该算法中,如果用表示帧f和f中最近边中像素点距离超过阈值r的像素点数目在f中所占百分比,表示帧f和f中最近边中像素点距离超过阈值r的像素点在f中所占百分比,则相邻帧f和f的差为:如果d(f,f)超过一定阈值,则认为在f和f处应该进行镜头切割。,imd1=rgb2gray(im1);Imd2=rgb2gray(im2);%blackbackgroundimagebw1=edge(imd1,sobel);bw2=edge(imd2,sobel);%invertimagetowhitebackgroundibw2=1-bw2;ibw1=1-bw1;s1=size(find(bw1),1);s2=size(find(bw1),1);%dilatese=strel(square,3);dbw1=imdilate(bw1,se);dbw2=imdilate(bw2,se);imIn=dbw1,运动矢量法,镜头缩放运动(zoom/pan)的出现可以用来进行镜头边缘检测。Ueda等通过块匹配得到的运动矢量特征,来检测是否镜头是由于摄像机镜头前后移动引起焦距变化或是摄像机角度转变造成的。Shahrary用基于区域像素差计算得到的运动矢量特征来判断镜头中是否含有大量的相机或者对象运动。由于摄像机运动常被不正确地当作渐变,因而这种方法判断镜头缩放等运动可以达到镜头边缘检测的目的。,小结,镜头边缘检测算法的实质:如何找到一种或几种良好的视频图像特征,通过判断相邻图像帧之间的特征是否发生剧烈变化,来完成视频镜头边缘检测任务。定义和选取特征图像视觉特征,结合文字、听觉特征设计算法判断特征变化选取阈值,视频镜头边缘检测方法分类,FixedThreshold-Inthisapproach,thescoresarecomparedtoathresholdwhichwassetpreviouslyandifthescoreishigherthanthethresholdacutisdeclared.AdaptiveThreshold-Inthisapproach,thescoresarecomparedtoathresholdwhichconsidersvariousscoresinthevideotoadaptthethresholdtothepropertiesofthecurrentvideo.Likeinthepreviouscase,ifthescoreishigherthanthecorrespondingthresholdacutisdeclared.MachineLearning-Machinelearningtechniquescanbeappliedalsotothedecisionprocess.,基于阈值的镜头边界检测,概述,阈值的评判:没有一个客观的评判方法,主要是主观评判。合适的阈值既要能够判断出个别帧之间的变化,又要能确保整体切分性能保持在一定水平。“严格”的切分阈值会对视频帧中的细微差别比较敏感,会使视频流被切分过细,无镜头转移时仍被切分。“宽松”的切分阈值不能检测到视频帧的强烈特征变化,会使整个视频流被切分过大,发生镜头转换时可能检测不到。,镜头边界检测,张宏江,微软亚洲工程院院长,1451,1993年6月,张宏江博士在多媒体系统杂志的创刊号上发表了他在这个领域的第一篇论文,建立了现代视频检索和内容查询的一个基本框架,这是在现代多媒体研究方面的一篇十分经典的文章。后来走进这个领域的研究者,都会借鉴或引用这篇论文。他也因此成为计算机视频检索研究领域的“开山鼻祖”。张宏江博士是国际多媒体领域的领军人物和最具影响力的科学家之一,他已出版四本学术专著、发表近400篇学术论文,编辑发表了十本有关多媒体处理、内容检索和互联网多媒体的学术专集,拥有60余项美国专利。他的许多研究成果已成为相关研究领域的经典参考文献,并成为多项研究工作的科技基础。,在研究环境里,无所谓成功和失败,而做工程、做产品,最后只有一个衡量这个产品最后在市场上能不能卖出去,基于双阈值的镜头检测,镜头边界变化阈值的确定,像素点变化阈值,对图像对应像素点之间进行比较,判断这些像素点是否发生了变化。像素点变化的阈值可以从实验中总结得到。对于不同视频,这个值的变化不大。,镜头切分阈值,在镜头边缘检测中,用以判断相邻两帧图像之间是否发生镜头转换,决定是否在这两帧之间进行切分。对于不同的视频源,镜头突变的阈值的变化范围很大。阈值的选取一般基于帧与帧之间直方图的比较。单阈值:准确性依赖于直方图是否是双峰的。多阈值:依赖于直方图有多个清晰的峰值。可变阈值:基于图像中特定区域的局部直方图。阈值选取需要了解镜头切分点的帧间差分布,需针对不同应用背景考虑,是图像处理中的难题。,镜头切分阈值,的自动选取建立在整个视频中帧间差的归一化,除镜头变化和摄像机移动外,造成帧间差的原因可能有三个:原始视频模拟信号数字化后产生的噪声视频设备产生的噪声没有对象绝对静止可以将上面三种噪声看成高斯分布噪声,因此帧间差的分布可以分解为:高斯噪声,引起的帧差与镜头分割无关。镜头分割、渐变和摄像机移动造成的帧差。,镜头切分阈值,Thestatisticsmodelisbasedonfollowingassumption:Thedissimilarityfeaturevaluesf(n)foraframecomesfromtwodistributions:oneforshotboundaries(S)andonefor“not-a-shot-boundary”(N).Ingeneral,ShasaconsiderablylargermeanandstandarddeviationthanN.,Threshold,镜头切分阈值,将整个镜头中相邻帧之间的特征差求取出来,得到一个差值序列。这些特征差可以是直方图差、像素差和运动差等。令为帧间差序列的标准方差,为序列的均值。高斯噪声造成的帧间差序列可以用以下高斯概率来模拟:,镜头切分阈值,也就是说,非镜头切分点的帧间差落在范围内,是一个小的常量,而属于镜头转换的帧间差则不在该区间内,镜头切分阈值就可以取为:当为3时,99.9%的非镜头帧间差落在这个范围内。用颜色直方图时,取5或6,可以保证非镜头切分点的帧间差落在该范围外的概率为0。,镜头渐变阈值,视频数据流中,淡入淡出(fade)、dissolve和wipe这些镜头渐变是一种特殊的镜头转换,也需要设置一些阈值去识别和切分这些渐变镜头转换。实验发现,用来判断视频渐变的阈值应该取得比整个视频的帧间差平均值要大。对于不同视频,这个阈值变化不大。一般来说,取8或10。,基于阈值的镜头检测的问题,阈值很难确定简单的阈值不能满足所有的视频需求,基于支持向量机的镜头边界检测,Severalexperimentalevaluationshaveshownthatthesimplehistogramfeatureusuallyisabletoachieveasatisfactoryresultwhilesomecomplicatedfeaturessuchasedgecannotoutperformthesimplefeature.ThedetectionofGTsisoneofthemajorchallengestotheproposedformalframework.Sofar,notechniquesofGTdetectionhavebeenabletoachievetheresultcomparabletothatofCUTdetection.,FadeOut/In:DuringtheFOI,twoadjacentshotsarespatiallyandtemporallywellseparatedbysomemonochromeframes,whereasmonochromeframesseldomappearelsewhere.Intheprocessoffadeout/ineffect,thefirstshotfadesoutintoasequenceofdarkmonochromeframesandthenthenextshotfadesin.,Wipe:Forwipes,theadjacentshotsarenottemporallyseparatedbutspatiallywellseparatedatanytime.Aninterestingmethodforwipedetectionistheso-calledspatio-temporalsliceanalysis.Dissolve:Intheprocessofdissolve,twoadjacentshotsaretemporallyaswellasspatiallyintermingled,SBDSYSTEMBASEDONGRAPHPARTITIONMODEL,SBDSYSTEMBASEDONGRAPHPART

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论