(计算机应用技术专业论文)基于内容的视频检索技术研究(1).pdf_第1页
(计算机应用技术专业论文)基于内容的视频检索技术研究(1).pdf_第2页
(计算机应用技术专业论文)基于内容的视频检索技术研究(1).pdf_第3页
(计算机应用技术专业论文)基于内容的视频检索技术研究(1).pdf_第4页
(计算机应用技术专业论文)基于内容的视频检索技术研究(1).pdf_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着多媒体信息的应用,视频信息大量涌现,如何在海量的数据中快速检索 出所需要的资料就显得至关重要。目前视频数据的检索方法主要还是依靠文本标 注。文本信息不但难以完整的描述视频数据丰富多变的内容,而且手工生成的索 引费时费力,缺乏统一的标准。为了能够方便人们寻找视频数据,基于内容的视 频检索( c o n t e n t - b a s e dv i d e or e t r i e v a l ,c b v r ) 技术研究引起了人们的广泛的关注。 基于内容的视频检索,就是由计算机对于视频内容自动分析,用户可以针对自己 需要的内容提出查询要求。 本设计以此为背景,在一定程度上较好的解决了小段视频的检索问题。首先 利用d i r e c t s h o w 对视频片断进行分割,以b m p 格式保存在视频库中,再按照镜头 分割,关键帧提取,视频类聚,特帧提取,视频检索的步骤依次进行研究,最终 实现了基于浏览的检索和基于简单特征的检索。 论文围绕着基于内容的视频检索技术进行研究和探讨,介绍了基本概念,基 本方法,重点介绍了本设计所用到的方法,并给出部分检索结果。主要杰容安排 如下; a ) 第一章主要介绍了基于内容的视频检索技术产生的背景和研究现状,基本 概念及基本技术。 ”第二章至第七章主要描述了本设计使用的方法,并对经典算法进行了分 析,是本文的重点。首先利用d i r e c t s h o w 把视频片断分解为视频帧,并保 存在褫频库中;然后在h s v 颜色空闽中,按照颜色直方图和灰度帧闻差 相结合的方法把视频帧进行初步归类,在每一个镜头中提取l 一3 帧关键帧; 接着按照特征进行聚类,在聚类中提取关键帧;荐接着利用信息熵不变矩 方法提取出关键搴麦麴特缝信息;最终实现了基于浏览的检索和基于简单特 征的检索,并给出部分检索结果。 c ) 第八章对检索结果进行分析,在总结全文的基础上,就该研究领域今后的 发展方向及有待研究的相关闻题进行了分析和展望。 关键字:视频检索;关键帧;镜头聚类;特征。 出东大学硕士学位论文 a b s t r a c t a l o n g 砸t l lt h ea p p l i c a t i o no fm u l t i m e d i a , v i d e oi n f o r m a t i o nc o m e sf o 吡l a r g e l y h o wt os e a r c ht h en e e d e di n f o r m a t i o nq u i c k l yi nam a s so fd a t ab e c o m e sv e r y i m p o r t a n t a tp r e s e n t ,t h et e c h n i q u e so fv i d e or e t r i e v a l sm a i n l yd e p e n do nt h em e t h o d o fl a b e l l i n go nt e x t h o w e v e r ,t h el a b e l sc a l ln o tw h o l e l yd e s c r i b et h ea b u n d a n ta n d c h a n g e f u lc o n t e n t , a n dt h ei n d e x e sb yh a n dt a k em u c ht i m ea n dm a n p o w e r , a n da l s ot h i s m e t h o dl a c k sau n i f i e ds t a n d a r d s ot h em e t h o do fl a b e l l i n go nt e x tc a l ln o tm e e tn e e d s n o w a d a y s i no r d e rt om e e tt h en e e do fs e a r c h i n gv i d e od a t ac o n v e n t i e n t l ya n dq u i c k l y , t h et e c h n i q u e so fc b v r ( c o n t e n t - b a s e dv i d e or e t r i e v a l ) c a u s eal o to fc o n c e r n s a m o n gm a n yp e o p l e t h em e a n i n go fc b v ri st h a tw i t ht h ec o m p u t e rw h i c hc a n a n a l y s ev i d e oc o n t e n t sa u t o m a t i c l y ,u s e r sc a nb r i n gf o r w a r dr e q u i r e m e n t sa c c o r d i n gt o t h e i ro w nn e e d s t h ed e s i g nt a k e st h i sa sb a c k g r o u n d ,a n di tp r e f e r a b l yr e s o l v e st h er e t r i e v a lo fab i t o fv i d e ot oac e r t a i ne x t e n t n em e t h o d su s e di nt h i sp a p e rf i l ed e s c r i b e da sf o l l o w s : f i r s ts e g m e n tt h ev i d e of r a g m e n ti n t oi m a g e s ,a n ds t o r et h ei m a g e si n t oad a t a b a s e ;t h e n s e g m e n tt h es h o t s ,e x t r a c tk e y f r a m e s ,c l u s t e r ,e x t r a c tf e a t u r e s ;a tl a s tr e a l i z et h er e t r i e v a l b a s e do nb r o w s ea n dt h er e t r i e v a lb a s e do ns i m p l ef e a t u r e s b a s e do nt h er e s e a r c ha n dt h ed i s c u s s i o no fc b v t h et h e s i si n t r o d u c e st h eb a s i c c o n c e p t s , t h eb a s i cm e t h o d so nc b v r , t h em e t h o d su s e di nt h i sc o u r s ed e s i g n ,a n da l s o t h er e s u l t s t h es t r u c t u r eo ft h ed i s s e r t a t i o ni sa sf o l l o w s : 的i nc h a p t e r 量,t h eb a c k g r o u n da n dt h ep r e s e n ts i t u a t i o no ft h et e c h n i q u e so f c b v ra r ei n t r o d u c e d a n dt h e r ea r ea l s os o m eb a s i cc o n c e p t sa n db a i s c m e t h o d s 协f r o mc h a p t e r2t oc h a p t e r7 ,t h em e t h o d su s e di nt h i sp a p e ra l ed e s c r i b e d ,a n d a l s os o m ec o n v e n t i o n a lm e t h o d sa r ea n a l y z e d t h i sp a r ti sm o s ti m p o r t m e n t f i r s t l yi s e g m e n tt h ev i d e oi n t of r a m e sb yu s i n gt h et e c h n i q u eo fd i r e c t s h o w , a n dp u tt h ed a t a i n t oad a t a b a s e ;t h e ni nt h es p a c eo fh s v , p r e l i m i n a r yc l a s s i f yt h ef r a m e sa c c o r d i n gt ot h e l l l 山东大学硕士学饿论文 l v m e t h o do fc o m b i n i n gc o l o rh i s t o g r a ma n dg r a y - s c a l ei n t e r f r a m ed i f f e r e n c e ;e x t r a c t1t o3 k e yf r a m e si ne v e r ys h o t ;t h e nc l u s t e ra n de x t r a c tk e yf r a m e sf r o m t h e s ec l u s t e r s ;a n dt h e n e x t r a c tt h ei n f o r m a t i o no fe i g e n v a l u eb yu s i n gt h em e t h o do fl n v a r i a n tm o m e n t so f i r a f o r m a t i o ne n t r o p y ;a tl a s tr e a l i z et h er e t r i e v a lb a s e do nb r o w s ea n dt h er e t r i e v a lb a s e d o ns i m p l ef e a t u r e s t h e r ea r ea l s os o m er e s u l t si nt h e s es e c t i o n s c ) i nc h a p t e r8 ,t h er e s u l t sa n dt h er e t r i e v a lm e t h o d su s e da r ea n a l y z e d f u r t h e r m o r e ,o nt h eb a s i so fs u m m a r i z i n gt h et o t a lt h e s i s ,s o m ea n a l y s i sa n d e x p e c t a t i o n sa b o u tt h ed e v e l o p m e n tt r e n d sa n da l s os o m er e l a t e dp r o b l e m sa r e p r e s e n t e d k e y w o r d s :v i d e or e t r i e v a l ;k e yf r a m e ;s h o tc l u s t e r ;f e a t u r e 原创性声明和关于学位论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的科研成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方 式标明。本声明的法律责任由本人承担。 论文作者签名:垒盎 日 期:z 坦遒垒目 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:垒垫导师签名:垂坠叁日期:竺垒兰:! :1 6 山东大学硕士学位论文 1 1 理论背景 第1 章绪论 经科学研究证明,在人类所能感受的信息中,听觉信息约占2 0 ,视觉信息占 6 0 以上,其它如味觉、触觉、嗅觉等加起来差不多占2 0 ,可见视觉在人们日常 生活中的重要性。目前,在空间探测、遥感、军事侦察与精密制导、生物医学、 工业检测等方面都有许多成功的应用,并积累了大量有用的信息,对这些信息的 管理以及如何从这些信息中提取特定的有用信息则成为人们新的研究热斛1 1 。随着 计算机网络的飞速发展,人们每天都在不断地获得大量的图像信息,这些数据如何 组织、表达、存储、管理、查询和检索的工作,传统数据库技术就“难以胜任” 了。然而如果没有对图像和视频数据的自动及有效的描述,大量的信息将淹没在 数据库中,无法在需要时被检索出来。 所谓视频检索就是从海量的视频数据中检索到感兴趣的视频片断或图片集 合。传统的视频检索除了文本方式以外,就是通过快进快退等简单枯燥手段实现 的的人工检索,不仅耗时而且非常繁琐。现代的信息检索需求已经远非这种传统 方法所能及,现代的视频检索希望能通过画面,图形活动帧,视频情节等来检索 到所需要的视频文件或者片断。 从用户的角度分析,他们希望在任何时间任何地方以任意的方式享受视频媒 体。例如在新闻中检索感兴趣的事件,在电影中检索喜欢的情节,在体育节目中 检索喜爱的体育运动,在电视中检索某条广告是否播出等。基于内容的视频检索 ( c o n t e n t - b a s e dv i d e or e t r i e v a l ,c b v r ) 技术因此应运而生。 基于内容的视频检索,就是根据视频内容和上下文关系,对大规模视频数据 库中的数据进行检索。它的预期目标是在没有人工参与的情况下,自动提取并描述 视频的特征和内容。它是- - f q 交叉学科,以图像处理、模式识别、计算机视觉、 图像理解等领域的知识为基础,从认知科学、人工智能、数据库管理系统及人机 交互,信息检索等领域,引入媒体数据表示和数据模型,从而设计出可靠、有效 的检索算法,系统结构以及友好的人机界面。目前,在基于内容的视频检索技术 山东大学硕士学位论文 的研究方面,除了识别和描述图像的颜色,纹理,形状和空间关系外,其他主要 集中在视频镜头分割,特征提取和描述( 包括视觉特征,颜色,纹理和形状及运动 , 信息和对象信息等) ,关键帧提取和结构分析等方面1 2 j 。 海量的视频数据使得基于内容的视频检索技术具有广阔的应用前景。一方面, 基于内容的视频检索技术将使用户可以方便快速地浏览、检索视频内容,使视频 数据库有效的存储、加工和管理成为可能;另一方面,基于内容的视频检索技术 的发展将带来个性化的服务:人们不仅可以看到更加多样化、专业化的高清晰视 频数据,而且可以获得大量的资讯信息。因此,基于内容的视频检索技术的不断 发展和完善将使其发挥越来越大的作用。 1 2 研究内容 本设计按照传统的视频处理方法( 解压域下) ,首先以d i r e c t s h o w 为基础,将 视频片断分割为一帧帧的视频图片( 以b m p 的格式) 存储在计算机中,再进行镜头 分割,在镜头内选取关键帧,在镜头的基础上进行聚类,提取特征,最终实现浏 览功能和简单的检索功能,流程图如图1 - 1 示。 2 甲甲 镜头边界检测 用户查询 i 关键帧特征库 图卜1 流程图 本设计在一定程度上解决了视频片断的检索问题。工作重点在视频镜头分割, 山东大学硕士学位论文 关键帧特征提取,聚类及基本检索功能的实现方面。 1 3 国内外研究现状 注。 秀了方便入们寻找视频数据,视频检索技术的研究逐渐雩| 起了入们广泛的关 。3 。1 研究方法 传统的基于文本的视频检索方法利用文本信息对视频内容进行注释,通过对 关键字的抽取来撼述视频内容的语义特征。这是一项耗时的工作,蔼且容易受甄察 者主观的影响。因此,这种检索方法已不能满足需要。用户希望的是给如例子或是 特征描述,系统就能自动检索到匹配的视频片断,即实现基于内容的视频检索。 在基于内容的视频检索技术( 解压域) 中,两首先将视频序列分割为镜头,并在 镜头内选择关键帧,然后提取镜头的特征以及关键帧的视觉特征存入视频数据库。 在镜头的基础上还可以进一步进行镜头聚类,形成情节,然后提取情节的关键帧, 并进行描述后存入视频数据库,最后根据用户提交的查询按照一定的特征进行视 频检索,将检索结果提交给用户。下面按照图i - 1 的次序介绍目前的研究方法: ( 1 ) 镜头边缘检测:解压域下的镜头检测算法有模板匹配法、直方图法和基于 模型的方法等。模板匹配法囝是以两帧图像对应象素差的绝对值之和作为帧闯差, 如果前后两帧的帧间差变化超出某个阈值,则认为有镜头的切换。直方图法f 4 l 的基 本原理是将颜色空间分为一个个离散的颜色小区间,然后计算落入每个小区间的 象素数目,褥到霉像的直方图统计,遽过比较两恢图像的直方图统计得到帧闻差。 基于边缘的检测方法【5 】考虑图像中的边缘或轮廓信息,通过分别计算两帧图像中进 入的边缘像素0 q i ) 和消失的边缘像素( n o ) ,比较它们之间的距离以检测镜头的边 界。 ( 2 ) 关键帧的提取方法:主要有基于运动分析的方法、基于图像信息的提取方 法和基于镜头活动性的方法。w o l f ( 6 】通过光流分析来计算镜头中的运动量,在运动 量局部最小值处选取关键帧,它反映了视频数据的静止。z h a n g ,w u r m 等人菝据 镜头内各帧之间是否有显著变化的标准来选择关键帧,首先把镜头的第帧作为 3 山东大学硕士学位论文 关键帧,然后计算前一个关键帧与剩余帧之差,如果差值大于某一阈值,则选取 另一个关键帧。g r e s l e 和h u a n g 8 】提出基于镜头活动性提取关键帧的方法。首先计 算内部帧和参考帧的直方图,然后计算活动性标志。根据活动性的曲线,局部最 小值对应的帧作为关键帧【9 】。 ( 3 ) 特征提取方法:包括静态特征的提取方法和动态特征的提取方法。静态特 征分颜色特征,纹理特征和形状特征等。目前基于颜色方法具有代表性的是颜色 直方图法。而纹理分析法有基于灰度共生矩阵的方法和基于g a b o r 小波变换的分 析法【1 0 1 。形状分析是先进行图像分割,把对象提取出来,再利用各种方法进行匹 配测量。 ( 4 ) 视频聚类:可分为两类:一类是把同属一个场景的镜头进行聚类,以形成层 次型的视频结构一场景和电影。另一类聚类是对视频进行分类。根据镜头的重复 程度,视频一般可分为对话型、动作型和其它类型3 类【1 1 1 。 ( 5 ) 检索技术:主要分为3 类:基于框架的检索方法,基于浏览的检索方法和 基于特征的检索方法。基于框架的检索方法是一种层次化的检索,可以按主题安 排或者按视频内容的特点安排。基于浏览的方法也是按照层次进行的,用户可以 浏览场景、镜头、关键帧和所有的视频帧。基于描述特征的检索方法目前实现的 主要是基于主色调的检索,另外还有基于目标颜色或形状、纹理特征等,也包括 用户说明的摄像机的运动和目标的运动情况等。 1 3 2 研究成果 国内外已经开发出多种视频数据检索系统。这些系统虽然大多没有成为商用 化系统,但也反映了视频数据检索系统研究的主要成果,主要有以下一些【协1 5 】: ( 1 ) q b i c 系统 q b i c ( q u e r yb yi m a g ec o n t e n t ) 是由i b ma l m a d e n i 开究中心开发的,是“基于 内容 检索系统的典型代表。q b i c 系统使用例子图像、用户构建的草图和图画及 其选择的颜色和纹理模式、以及镜头和目标运动等图形信息,对大型图像和视频 数据库进行查询。它主要使用了颜色、纹理、形状、摄像机和对象运动来描述内 容。 4 山东大学硕士学位论文 ( 2 ) v i d e o q 系统 v i d e o q 是哥伦比亚大学研究的个项目,它扩充了传统的关键字和主题导航 的查询方法,使用视觉特征和时空关系来检索视频。特征包括集成文本和视觉搜 索方法,自动的视频对象分割和追踪,丰富的视觉特征痒( 包括颜色、纹理、形 状和运动) ,通过互联网交互鸯询和浏览。 ( 3 ) v i r a g e 系统 v i r a g e 是美国加髑大学圣迭我戈分校设计的一个基于内容的搜索弓| 擎。与 q b i c 类似,v i r a g o 除了支持基于颜色、颜色布局、纹理和结构的可视查询,还支 持上述4 种原子查询的任何组合查询。 ( 4 ) e 0 怒系统 新加坡国立大学开发的一个基于内容的检索机。其显著技术特色:多种特征 提取方法,多种基于内容检索方法,使用自组织神经网络对复杂特征度量,建立 基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。 ( 5 ) v i s u a l s e e k 系统 v i s u a l s e e k 是美国哥伦比皿大学电子工程系与电信研究中心图像和高级电视 实验室共霹研究的,一种在互联网上使用的“基于内容”的检索系统。它实现了 互联网上的“基于内容 的图像视频检索系统,提供了一套供人们在互联网上搜 索和检索图像及视频的工具。 ( 融t v f l 系统 t v f i ( t s i n g h u av i d e of i n di t ) ,是清华大学开发的视频节目管理系统。这个系 统可以提供如下几个功能:视频数据入库,基于内容的浏览,检索等。t v f i 提供 多种模式访问视频数据,如基于关键字的查询,基于示例的查询,按视频结构进 行浏览,以及按用户自己预先定义的类别进行浏览。 囡外还许多类似的系统,如加利福尼亚大学s a n t aq a r b a m 分 校的n e t r a ,伊利诺 依大学的m a r s ,卡耐基梅隆大学( c m 啦豹数字视频库工程巍f o 懿e d i a 【1 翻等。国内, 清华大学计算机系结合8 6 3 高技术研究发展项网w e b 上基于内容图像检索”的研 究所建立了互联网上的图像检索系统。国防科技大学多媒体实验室在视频内容结 构纯分析等方面做了许多工作,对多媒体数据挖掘的框架及技术进行了探索性盼 5 山东大学硕士学位论文 研究 1 7 - i s 】,并且开发出了多个实用的视频分析与检索系统。 1 4 技术关键点分析 本文研究的关键点主要是: a )镜头分割是否能够比较清晰的划分镜头的边界。镜头分割是视频检索 的第一步,分割的结果直接影响检索的效果。本设计使用的是帧问颜 色直方图相异度与灰度差值的乘积的方法。 b )关键帧的选取。视频划分为镜头后,所选取的关键帧能否代表镜头是 关键帧选取的最重要指标,且要兼顾算法的时间复杂度。本设计采用 的是在镜头中选取三帧作为候选关键帧,根据相似度判断实际选取的 关键帧。 c )聚类问题。假设在镜头的关键帧获取以后就直接进行检索,就会有大 量的重复信息,直接影响系统执行的时间。传统的聚类方法,如k 均 值聚类方法所含类别的数目由用户自定义,含有主观因素。本设计所 采用的方法是基于特征的聚类方法,没有类别限制,时间复杂度也比 较小。 d )界面的设计。本设计在浏览方面实现两个功能:镜头浏览的功能和基 于特征的检索功能。运用列表,组合框,按钮,p i c t u r e 等控件来实现 滚动浏览位图的功能。 1 5 研究意义 基于内容的视频检索技术是一种综合集成技术,其中一些关键技术如镜头边 界检测、关键帧提取、特征提取等的研究虽然取得了一定的进展,但由于各种理 论和相关技术不尽完善,还有许多问题需要进一步深入研究:高识别率,有效的 特征提取,高层语义和低层特征的结合,综合多特征的检索技术,基于对象的检 索,检索中的交互问题等问题。 基于内容的视频检索技术有着广阔的应用前景,几乎可以应用于所有的视频 6 山东大学硕士学位论文 相关的痖用中。下瑟列举其中最主要的几个废用:视频快速测览,电视耄影制作, 数字图书馆,v o d ( v i d e o - o n d e m a n d ) ,电子商务,个人视频管理,远程教育,远 程医疗,远程购物等多个领域【2 1 。 1 6 论文结构 本文主要框架如下: 第l 章绪论; 第2 章视频帧提取; 第3 章视频镜头分割; 第4 章视频关键帧提取; 第5 章特征提取; 第6 章视频聚类; 第7 章检索的实现; 第8 章总结和展望。 7 山东大学硕士学位论文 第2 章视频帧提取 视频检索的目的就是要从大量的视频数据中找到所需的视频片段。视频数据 是一个二维非结构化的图像序列,要实现基于内容的视频检索,首先要从多媒体 文件中提取视频帧序列,然后对这些图像流进行处理,使之成为结构性的数据, 提取其特征,从丽达到检索曩的。 2 1 视频基本概念描述 简要介绍一下有关视频的几个基本概念: ( 1 ) 帧( f r a m e ) :视频流中的基本组成单元,每帧均可看成是一幅独立的图像。 视频流数据就是由连续图像帧构成的。帧是视频的最小单位。 0 ) 镜头( s h o t ) :摄像枧拍下的不间断帧穿列,是视频数据流进一步结构化的基 础。同一组镜头中,视频帧的图像特征基本保持稳定。若相邻图像帧之间的特征 发生了明显变化,则认为是发生了镜头变换。 ( 3 ) 关键帧( k e yf r a m e ) :关键帧是代表镜头内容的图像帻。在一个视频镜头内, 关键帧数目远小于镜头所包含的图像帧数日。用关键帧代表镜头可以大大减小计 算复杂性。 ( 4 ) 场景( s c e n e ) :语义上相关和时闻上相邻的若干组镜头组成了一个场景。场 景是视频所蕴涵的高层抽象概念和语义的表达。像镜头可以由关键帧代表一样, 场景也可以使用属于这个场景的所有镜头所对应的关键帧集合来表示。 2 2d ;r e c t s h o w d i r e c t xs d k ( d i r e c t xs o f t w a r ed e v e l o pk i 0 是美国微软公司开发的一套主要用 于设计多媒体、2 d 、3 d 游戏及程序a p i ,其中包含了各类与制作多媒体功能相关 的组件( c o m p o n e n o ,各组件则提供了许多多媒体的接口和方法,包括d i r e c t s h o w , d i r e c t l n p u t ,d i r e c t m u s i c ,d i r e c t p l a y ,d i r e c t 3 d ,d i r e c t s o u n d 。 d i r e c t s h o w 是为播放各种类型的视频数据、音频数据或其他多媒体数据而设计 3 山东大学硕士学位论文 的。d i r e c t s h o w 支持m p e g ( 包括m p 3 ) 、a v i 、m o v 、w a v 、d v d 等格式。佶助 于d i r e c t s h o w ,可以很容易地实现多种格式的多媒体数据的回放、传输和捕获。 d i r e c t s h o w 使用f i l t e rg r a p h 的模型来管理整个数据流的处理过程;参与数据处 理的各个模块( c o m 组件) 叫做f i l t e r 。各个f i l t e r 在f i l t e rg r a p h 按一定的顺序连 接成一个“流水线 协同工作。框架图如图2 - 1 示。 = 巫马 图2 1d i r e c t s h o w 及其与应用程序之间的关系 源滤波组件( s o u r c ef i l t e r ) :用于从本地文件或i n t e m e t 源读取媒体流,构成蒡 据的源起点;变换滤波组件( t r a n s f o r mf i l t e r ) :从读取到显示过程中需要经历的变 换,包括编解码器,目的是以各种方法处理、修改或改变数据;显示滤波组件 ( r e n d e r i n gf i l t e r ) :用于将媒体流显示到所需设备( 如显示器屏幕) 上。 每一个f i l t e r 都与其他的一个或两个f i l t e r 相连接。两个f i l t e r 相连接的连接 点也是c o m 对象,即p i n 。f i l t e r 通过p i n 将数据从一个f i l t e r 传递到另一个f i l t e r 中,从而可以使数据在由f i l t e r 组成的链表中流动【1 9 1 。图2 - 1 中的箭头表示f i l t e r 链表中的数据流的方向。在d i r e c t s h o w 中,这样一个f i l t e r 链表称为f i l t e rg r a p h 。 f i l t e r 具有三个状态,运行,停止,暂停。当一个f i l t e r 运行时,它就处理媒体数 据流,当停止时,就不再处理数据。 f i l t e rg r a p hm a n a g e r 也是一个c o m 对象,用来控制f i l t e rg r a p h 中所有的 f i l t e r ,主要有以下的功能: 9 山东大学硕士学位论文 a ) 用来协调f i l t e r 之间状态的改变,从而使f i l t e rg r a p h 中所有的f i l t e r 的状 态改变一致。 b ) 建立一个参考时钟。 c ) 将f i l t e r 的消息通知返回给应用程序。 d ) 提供建立f i l t e rg r a p h 的方法【2 0 l 。 2 3 视频帧的捕获 d i r e c t s h o w 透明的处理各种格式的多媒体流,避免直接操作数据,增强了程 序的通用性,简化了应用的开发。在本设计中,首先建立过滤器图表,与特定的 多媒体流相关联,然后加视频抓帧过滤器进图表,并设置回调函数。当图表运行 时,抓帧过滤器抓取流过的视频帧( 可进行设置,可以是每一帧,也可以是间隔 固定帧) ,把抓取的帧存储在视频库中,以便于后面的检索。 在此过程中,抓帧的过程是重点也是难点。抓帧过滤器是一个转换过滤器, 支持i s a m p l e g r a b b e r 接口,它把取样无改变的向下传输,因此,抓帧过滤器的加 入并不改变数据流。缺省的,帧抓取过滤器没有首选的媒体类型,在它被插入之 前,通过i s a m p l e g r a b b e r :s e t m e d i a t y p e 0 方法,指定参数a m m e d i u y p e 设置 输入帧的媒体类型,媒体类型能确保图表管理器在图表中适当的位置插入抓帧过 滤器。设置媒体类型之后,调用i g r a p h b u i l d e r :c o n n e c t 0 方法连结到过滤器图表。 接下来调用方法i s a m p l e g r a b b e r :s e t b u f f e r s a m p l e s ( t r u e ) 来设置缓冲区模式,调 用i s a m p l e g r a b b e r :g e t c u r r e n t b u f f e r 0 方法获得最近缓冲的帧,在缓冲区里,当前 帧覆盖前一帧。要抓所有帧,就要定义一个回调类来实现i s a m p l e g r a b b e r c b 接1 2 1 。 抓帧过滤器能在每一个取样到达时调用一次回调方法,有两种方法: s a m p l e c b 0 ,b u f f e r c b 0 。本设计调用的是b u f f e r c b 0 方法。 结果截图。 1 0 山东大学硕士学位论文 i # 一_ 0 4 ,f ! * 衲d ,壁一! ! ! 一 2 4 本章小结 图2 2d i r e c t s h o w 视频帧提取 ( d ) 本章简要的介绍了d i r e c t s h o w 技术。结果证明,利用d i r e c t s h o w 的视频检索 系统具有代码量少、通用性强、实时性好的特点,适用于各种多媒体流。因此, 利用d i r e c t s h o w 能够使开发者专注于各自的分析和处理,而无需考虑带有共性的 实现细节,极大地降低了多媒体应用开发的复杂度,并提高了其开发效率。 山东大学硕士学位论文 第3 章视频镜头分割 如果对每个视频帧都进行单独的处理,检索的效率会变很低。在现实中,视 频是由大量的逻辑单位和分块组成的,就是视频镜头。一个镜头通常表示一个事 件或是连续的动作。镜头是视频的基本单元。因此,镜头分割在视频检索中非常 重要。 当视频情节内容发生变化时,会出现镜头切换。通常镜头间的切换方式主要 分为两大类:突变和渐变。突变是指镜头直接从一个镜头跳跃至下一个镜头,镜 头间没有过渡。而渐变是一个镜头向另一个镜头渐渐过渡的过程,没有明显的镜 头跳跃,包括淡入淡出,溶合和擦洗等。视频镜头分割的结果不仅要检查出切变, 还要将渐变检查出来【2 1 1 。 3 1 算法回顾 本文1 3 1 节简要的介绍了视频分割算法,下面对这些算法做一下分析。 模板匹配法以两帧对应像素差的绝对值之和作为帧间差,缺点是对噪声和镜 头或物体运动非常敏感,导致误检。 基于直方图法不考虑像素的位置信息,使用其亮度和彩色的统计值,因而抗 噪声能力比模板匹配法强,缺点是对于结构不同而直方图却很相近的两帧会造成 漏检。 基于边缘法的基本思想是,在镜头转换时,新出现的边缘远离旧边缘的位置, 同样旧边缘消失的位置应远离新边缘的位置。本设计一开始就是采用这种方法, 计算量非常大,并且对于噪声的影响非常敏感,如常发生一个镜头内,主持人位 置的移动就被检测成镜头变换,或者是环境稍微变化如镜头中出现一个污点也会 被误判为两个不同镜头的情况发生。 以上三种方法都是利用帧间差来进行镜头边界检测,受噪声的影响都比较大。 对于突变变换,帧间差在切换处会出现明显的峰值;对于渐变变换,帧间差虽然 有所增大,但没有一个明显的峰值,而是会出现“高原区 2 2 】。 d l 东大学硕士学位论文 3 。2 常见的彩色空问 常见的颜色空间有r g b ,h s v 2 3 1 等,下面分别给出这些空问的定义: ( 王) r g b 颜色空闻 r g b ( r e d ,g r e e n , b l u e ) 颜色空间最常见的就是显示器系统。彩色光栅图形的显示 器都使用r 、g 、b 数值来驱动r 、g 、b 电子枪发射电子,并分别激发荧光屏上的 r 、g 、j 5 l 三种颜色的荧竞粉发崽不同亮度的光线,通过相加混合产生各种颜色; 而扫描仪也是通过吸收原稿经反射或透射而发送来的光线中的r 、g :b 成分,并 用它来表示原稿的颜色。r g b 色彩空间被称为与设备相关的色彩空间。如图3 1 示。 二c _ 。r t 善一。 图3 - 1r g b 模型 ( 2 ) h s v 颜色空间 h s v ( h u e ,s a t u r a t i o n ,v a l u e ) 颜色空间的模型对应于圆柱坐标系中的一个圆锥形 子集渊,圆锥的顶面对应于v = i 。它包含了r g b 模型中的r = i ,g = i ,b = i 三个 面。色彩h 由绕v 轴的旋转角给定。红色对应于0 。,绿色对应于1 2 0 。,蓝色 对应于2 4 0 。在h s v 颜色模型中,每一种颜色和它的补色相差1 8 0 。饱和度s 取值从o 到王,所以圆锥顶面的半径为l 。h s v 颜色模型所代表的颜色域是c i e 色 度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之 百。在隧锥的顶点( 即原点) 处,v = 0 ,h 和s 无定义,代表黑色。圆锥的顶面中 心处s = o ,v = i ,h 无定义,代表白色。从该点到原点代表亮度渐暗的灰色,郎具 有不同灰度的灰色。对于这些点,s = 0 ,h 的值无定义。可以说,h s v 模型中的v 轴对应予r g b 颜色空间中的主对角线。在隳锥项面的蘧周上的颜色,v = i ,s = i , 这种颜色是纯色。如图3 - 2 示。 山东大学硕士学位论文 0 - - - 嘲( c to - 1 o ) v _ f 盅嚣 图3 2h s v 颜色空间 其他的颜色空间还有c m 灏色空间,h s l 颜色空间,h s b 颜色空间,h s i 颜 色空间,y c c 颜色空间,x y z 颜色空间,l a b 颜色空间,颜色空间等,在此不 再赘述。 3 3r g b 到h s v 颜色空间的转换 本系统采用h s v 颜色模型,因为h s v 颜色模型与人的视觉感知最为相近,并 且它是一个连续的颜色空间,任意两种颜色的相似距离可以用它们在h s v 空间中所 在位置的距离来定义,非常适合基于颜色的图像相似性比较。从r g b 颜色空间向 h s v 颜色空间转换使用公式3 1 实现【2 5 乏6 】。 i 撒c 睁毒坠竺型垒! ) - 一b g 一j 2 ( 足一g ) 2 + ( r 一曰) ( g 一曰) “1 2 万一撇o s 一竺旦型_ 生一b g 【2 4 ( r g ) 2 + ( r b ) ( g b ) am a x ( r ,g ,b ) 一m i n ( r ,g ,b ) 公式3 - 1 一i i 万五广 v := m a x ( r , g , b ) 2 5 5 3 4 本设计的分割方法 1 4 参考文献 2 1 ,设,。( f ,j ) 为第n 帧的( j ,) 点像素的灰度值: 山东大学硕士学能论文 挂 d = ( f ,y ) - i ( i ,州 f 皇lj = l 公式3 - 2 表示第n 帧和第n + l 帧的对应像素灰度差值之和,m 、n 分别表示该帧的宽和高( 以 像素点数表示) 。 d 。:型l 一 公式3 3 8 2 5 6 m 表示对的归一化运算,0 绒l 。 在h s v 颜色空间中,将h 等分为1 8 份,s 和v 等分为4 份。定义: = m i n ( x 。( f ) ,以一。( i ) ) 公式3 4 为第1 1 帧和第时l 帧颜色直方图的相似度。l 一艺则表示两帧颜色直方图的相异度。 则乙= 玻o 一) 为第1 1 帧和第时l 帧颜色直方图的相异度与帧闻灰度差的归一 化值的乘积,显然0 乙l 。 如此,两幅图像的差异可以通过磊的变化表现出来,于是通过检测乙的交化 就可以检测出镜头的变化,同时使用此种方法将会扩大有差异的两帧图像与无差 异的两帧图像问的比较结渠,有利于检测帧闯差。 文献 2 1 中还提到因镜头的渐变是一荦孛帧闻变化的积累,所以帧闻差模式表 现如同一座缓慢变化的山峰。对于突变的镜头由于帧间变化没有积累的作用,它 的模式表现如同一个矩形。而闪光灯所引起的变化是瞬间的,不存在时间积累的 过程。由上述原因,本设计采用相隔7 帧得到乙。 3 5a d o 数据库技术 v i s u a lc h 提供了丰富的数据库访问技术,例如a d o 、o d b c 、d a o 等。其 中,a d o 是最新的数据库访问技术。它是更加简单,而又更加灵活的对象模型【2 7 - 2 9 1 。 实际上,a d o 是一个提供一组标准接口并能够自动完成对目标数据库的操作的支 持、自注册的a c t i v e x 组件。 1 5 山东大学硕士学位论文 a d o 提供如下操作方式: 连接到数据源并确定对数据源的所有更改是否已成功或未发生。 制定访问数据源的命令,同时可带变量参数,或优化执行。 执行命令,如果执行这个命令,数据按表行的形式返回,则保存这些行在 易于操作或更改的缓存中。并在适当情况下,可使用缓存行的更改更新数据源。 提供常规方法检测错误( 通常由建立连接或执行命令造成) 。 一般情况下,需要在编程模型中采用所有上述的步骤。a d o 编程中的关键元 素:连接( c o n n e c t i o n ) ;命令( c o m m a n d ) ;参数( p a r a m e t e ) ;记录集 ( r e c o r d s e t ) ;字段( f i e l d ) ;错- i 吴( e r r o r ) ;属性( p r o p e r t y ) ;集合( s e o ;事 件( e v e n o 。 下面介绍一下a d o 的基本接口: c o n n e c t i o n p t r :返回一个记录集或一个空指针。通常用其创建一个数据连 接或执行一条不返回结果的s q l 语句,如一个存储过程。 。c o m m a n d p t r :接口返回一个记录集。它提供了一种简单的方法来执行返回 记录集的存储过程和s q l 语句。如果只执行一次或几次数据访问操作,在 一c o m m a n d p t r 接口中直接使用连接串。若要频繁的访问数据库,并要返回很多记 录集,应该使用全局c o n n e c t i o n p t r 接口创建一个数据连接,然后使用c o m m a n d p t r 接口执行存储过程和s q l 语句。 r e c t o r s e t p t r :对记录集提供了更多的功能( 与上面两种对象相比) ,如记 录锁定、游标控制等。如果需要使用多个记录集,最好的方法是同c o m m a n d 对象 一样,使用已经创建了数据连接的全局c o n n e c t i o n p t r 接口,然后使用r e c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论