(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf_第1页
(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf_第2页
(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf_第3页
(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf_第4页
(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf_第5页
已阅读5页,还剩124页未读 继续免费阅读

(模式识别与智能系统专业论文)家用视频内容分析方法研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 随着便携式电子记录设备的普及,越来越多的家庭用户开始使用这些设备来记录有 意义的生活经历和日常生活片断,家用视频的数据量呈现出快速增长的趋势。但是, 家用视频具有视觉和声音质量较差、内容没有经过编辑等特点。为了实现对家用视频 内容的自动、有效的组织和管理,减轻普通家庭用户浏览、检索和共享视频内容的负 担,视频内容分析已经成为家用视频领域一个重要的研究课题。对家用视频内容分析 方法进行研究,不仅能为家庭用户提供个性化的多媒体服务,而且有助于推动视频领 域的语义建模、机器学习和信息检索等相关课题的发展。由此可见,家用视频内容分 析方法研究具有重要的理论和应用价值。 本论文从三个不同层次研究了家用视频内容分析中的关键问题,即质量评估、内容 理解和内容表征,目标是实现一个自动理解、表征和浏览的家用视频处理系统。由于 家用视频视觉质量较差的特点,为实现对家用视频内容的过滤,质量评估成为内容分 析的一个基本步骤,处于最底层。内容理解主要解决对视频内容中的语义概念进行建 模,处于比质量评估更高的层次。而内容表征则是基于质量评估和内容理解的结果, 对家用视频内容以最紧凑和有效的方式进行表征;作为家用视频的一种应用,它处于 最高层。这三个层次组成了家用视频内容分析的一个相对完整的框架。本文对家用视 频内容分析方法进行了深入的研究,取得了以下成果: ( 1 ) 对于质量评估问题,针对目前家用视频领域缺乏专门的视觉质量评估方法这一现 状,提出了一个全新的、面向家用视频的时空质量评估方法,并深入研究了影响 整体视觉质量的几个关键时空因素以及这些因素和整体视觉质量的内在关系。与 传统的基于单帧图像的质量评估方法不同的是,采用子镜头这种视频时序结构单 元作为质量评估的基本单位。在子镜头上分析了一组影响视觉质量的时空因素, 包括不稳定性、骤动性、失真性、模糊性、亮度性和方向性,并提出三种方法将 这些时空因素融合到整体视觉质量的评估准则中,分别是基于用户研究、基于规 则和基于学习的方法。为实现对视频内容的过滤,提出了一个可扩展的、基于视 觉质量的家用视频摘要系统,目的是在保证视频摘要信息性的同时,保证其视觉 质量最优。与基于用户注意力的视频摘要系统的对比实验表明,本文提出的基于 质量的视频摘要系统对家用视频具有更好的适用性。 ( 2 ) 对于内容理解问题,从“用户拍摄意图”这一全新的角度来研究家用视频内容分析 方法,并参考心理学上的意图产生机制,建立了对用户拍摄意图进行建模和挖掘 的完整的理论和系统框架。首先,基于心理学上的意图机制和广泛的用户研究实 验,定义了一组用户拍摄意图的概念,包括“静态场景”、“动态事件”、“特写匦 面”、“美丽风景”、“转换记录”、“长时间记录”和“随意记录”等。提出了个对用 中国科学技术大学博士学位论文 户拍摄意图进行挖掘的全面和可扩展的框架,包括视频结构分解、意图相关的特 征分析、基于奇异值分解的意图单元分割和基于学习的意图概念分类等部分。实 验在一个具有9 0 段家用视频序列、由1 6 位普通家庭用户在最近2 0 年拍摄的视频 数据库上进行。客观和主观评价都验证了意图挖掘这一全新分析方法的有效性。 ( 3 1 对于内容表征问题,提出了一个新的家用视频内容表征和浏览系统视频相 册,改变了普通家庭用户传统的利用p c 机、键盘和鼠标的视频浏览方式,支持 更为自然和有效的视频浏览和检索,从而在数字家用视频和模拟家庭相册之间建 立了一种无缝的通信方式。首先,视频相册通过基于优化的方法挑选出具有代表 性的缩略图集合,并将这些缩略图按照预定义的个性化形状模板进行变形,然后 采用基于关键帧或全拼图的方式对变形后的缩略图进行表征,并将其打印成真实 的相册形式。这样,用户可以像浏览普通家庭相册一样浏览视频相册。当用户想 观看打印出来的视频相册中特定照片对应的视频片断时,可以通过手机或其他拍 摄设备随意的拍下该照片,并通过无线网络将其传送到服务器。服务器中的视频 相册系统将通过自训练主动形状模型算法对拍摄的照片轮廓进行精确定位和重 建。最后,根据重建的照片内容特征对相应的视频片断进行检索,并将该片断在 用户终端进行回放。 ( 4 ) 在视频相册系统中,分别对传统的全拼图和主动形状模型算法进行了改进。提出 一种新的基于运动特征的快速有效的全拼图算法,在提高全拼图视觉质量的同 时,能显著降低全拼图的计算时间;提出一种新的自训练主动形状模型,通过对 针孑l 相机模型的角度变化进行仿真,自动产生训练样本集,从而解决了传统的主 动形状模型算法中由人工标注引入的误差影响,提高了主动形状模型对轮廓形状 的定位能力。 关键词:视频内容分析,家用视频,质量评估,用户拍摄意图,视频相册,视频全拼 图,自训练主动形状模型 英文摘要 a b s t r a c t w i t hr a p i da d o p t i o no fc o n s u m e rd i g i t a lr e c o r d e r sa sh o m ea p p l i a n c e st oc a p t u r e p e o p l e sm e m o r a b l ee x p e r i e n c e sa n dd o c u m e n tt h e i rd a i l yl i v e s ,t h eq u a n t i t yo fh o m e v i d e od a t ai si n c r e a s i n gd r a m a t i c a l l y h o w e v e r ,h o m ev i d e o sa r eu s u a l l yc h a r a c t e r i z e d b yt h el o wv i s u a la n da u d i oq u a l i t y a sw e l la sn o n e d i t e dc o n t e n t i no r d e rt oa l l e v i a t e t h ea v e r a g eh o m eu s e r s e f f o r tt ob r o w s e ,r e t r i e v ea n ds h a r ep e r s o n a lv i d e o s ic o n t e n t a n a l y s i sh a sb e c o m ea ni m p o r t a n tr e s e a r c hi s s u ei nh o m ev i d e o sf o rt u r n i n gt h er a wd a t a i n t oaw e l l o r g a n i z e da n de a s y t o a c c e s sd a t a b a s e h o m ev i d e oc o n t e n ta n a l y s i sa i m sa t n o to n l yp r o v i d i n gp e r s o n a l i z e dm u l t i m e d i as e r v i c e sf o rh o m eu s e r s ,b u ta l s oe n h a n c i n g t h ed e v e l o p m e n to fr e l a t e di s s u e si nv i d e oc o n t e n tr e t r i e v a l ,s u c ha ss e m a n t i cm o d e l i n g , m a c h i n el e a r n i n ga n di n f o r m a t i o nr e t r i e v a l t h e r e f o r e t h er e s e a r c ho nm e t h o d sf o rh o m e v i d e oc o n t e n ta n a l y s i sh a sb o t hi m p o r t a n tt h e o r e t i c a la n da p p l i e dv a l u e s t h i st h e s i si n v e s t i g a t e st h ek e yp r o b l e m so fh o m ev i d e oc o n t e n ta n a l y s i sa tt h r e e d i f f e r e n tl e v e l s :q u a l i t ya s s e s s m e n t ,c o n t e n tu n d e r s t a n d i n ga n dc o n t e n tr e p r e s e n t a t i o n q u a l i t ya s s e s s m e n ti saf u n d a m e n t a ls t e pf o rf i l t e r i n gh o m ev i d e oc o n t e n td u e t ot h el o w v i s u a lq u a l i t y c o n t e n tu n d e r s t a n d i n ge n a b l e sm o d e l i n go fs e m a n t i cc o n c e p t sa tah i g h e r l e v e lt h a nq u a l i t y c o n t e n tr e p r e s e n t a t i o nc o r r e s p o n d st ot h eh i g h e s ta p p l i c a t i o nl e v e l w h i c hc a n p r o v i d e ac o m p a c ta n de f f i c i e n tr e p r e s e n t a t i o no fv i d e oc o n t e n tb a s e do nq u a l i t y a n du n d e r s t a n d i n go fc o n t e n t a sar e s u l t t h e s et h r e e1 e v e l sb u i l du par e l a t i v e l yc o r n p r e h e n s i v ef r a m e w o r kf o rh o m ev i d e oc o n t e n ta n a l y s i s a c c o r d i n g l y , t h i st h e s i sc o n d u c t s ad e e pr e s e a r c ho nh o m ev i d e oc o n t e n ta n a l y s i s ) a n do b t a i n st h ef o l l o w i n ga c h i e v e m e n t s : ( 1 ) f o rq u a l i t ya s s e s s m e n t ,w ep r o p o s ean o v e ls p a t i o - t e m p o r a lq u a l i t ya s s e s s m e n t s c h e m ef o rh o m ev i d e o s ,i nw h i c has e to fk e ys p a t i o t e m p o r a lf a c t o r sa sw e l la s t h er e l a t i o n s h i pb e t w e nt h e s ef a c t o r sa n dt h eo v e r a l lv i s u a lq u a l i t ya r ei n v e s t i g a t e d i nc o n t r a s tt oe x i s t i n gf r a m e l e v e l b a s e dq u a l i t ya s s e s s m e n ts c h e m e s ,at y p eo ft e r n p o r a ls e g m e n to fv i d e o ,s u b s h o t ,i ss e l e c t e da st h eb a s i cu n i tf o rq u a l i t ya s s e s s m e n t as e to fs p a t i o t e m p o r a lv i s u a la r t i f a c t s ,r e g a r d e da st h ek e yf a c t o r sa f f e c t i n gt h e o v e r a l lp e r c e i v e dq u a l i t y ( i e u n s t a b l e n e s sa n dj e r k i n e s sa st e m p o r a lf a c t o r s ;i 颂一 d e l i t y ,b l u r r i n g ,b r i g h t n e s sa n do r i e n t a t i o na ss p a t i a lf a c t o r s ) ,a r em i n e df r o me a c h s u b - s h o tb a s e do np a r t i c u l a rc h a r a c t e r i s t i c so fh o m ev i d e o s t h er e l a t i o n s h i pb e - t w e e nt h eo v e r a l lq u a l i t ym e t r i ca n dt h e s ef a c t o r sa r ee x p l o i t e db yt h r e ed i f f e r e n t m e t h o d s ,i n c l u d i n gu s e rs t u d y b a s e d ,r u l e - b a s e da n dl e a r n i n g - b a s e d t of i l t e r h o m ev i d e oc o n t e n t , i 1 7 0p r e s e n tas c a l a b l eh f l l 。1 3 1 ;t u i y r b a s c dh o m ev i d e os u m m a r i z a t i o n - 1 1 1 中国科学技术大学博士学位论文 s y s t e mf r o man o v e lp e r s p e c t i v e a c h i e v i n gt h eb e s tv i s u a lq u a l i t yw h i l es i m u l t a - n e o u s l yp r e s e r v i n gt h em o s ti n f o r m a t i v ec o n t e n t ac o m p a r i s o nu s e rs t u d yb e t w e e n t h i ss y s t e ma n da t t e n t i o nm o d e lb a s e dv i d e os k i m m i n ga p p r o a c hh a sd e m o n s t r a t e d t h eb e t t e ra p p l i c a b i l i t yo ft h ep r o p o s e dq u a l i t ya s s e s s m e n ts c h e m ef o rh o m ev i d e o s f o rc o n t e n tu n d e r s t a n d i n g ,w ep r e s e n tan o v e lv i e wt ot a c k l et h i si s s u e ,i e c a p t u r e i n t e n t i o no fc a m c o r d e ru s e r s ,t ot a c k l et h ep r o b l e mo fh o m ev i d e oc o n t e n ta n a l y s i s b a s e do nt h es t u d yo fi n t e n t i o nm e c h a n i s mi np s y c h o l o g y , ac o m p r e h e n s i v e a n de x t e n s i b l ef r a m e w o r ki sp r e s e n t e df o rm o d e l i n ga n dm i n i n go fu s e r s i n t e n - t i o n f i r s t l y , as e to fd o m a i n - s p e c i f i cc a p t u r ei n t e n t i o nc o n c e p t si sd e f i n e db a s e d o ni n t e n t i o nm e c h a n i s m ,w h i c hc o n s i s to f “s t a t i cs c e n e ”,d y n a m i ce v e n t ”,“c l o s e u p v i e w ”,b e a u t i f u ls c e n e r y ”,s w i t c hr e c o r d ”,“l o n g t i m er e c o r d a n d j u s tr e c o r d ”a c o m p r e h e n s i v ea n de x t e n s i b l es c h e m ec o n s i s t i n go fv i d e os t r u c t u r ed e c o m p o s i t i o n , i n t e n t i o no r i e n t e df e a t u r ea n a l y s i s ,a sw e l la ss v d b a s e di n t e n t i o ns e g m e n t a t i o na n d l e a r n i n g b a s e di n t e n t i o nc l a s s i f i c a t i o ni sp r o p o s e dt om i n et h eu s e r s c a p t u r ei n t e n - t i o n e x p e r i m e n t sw e r ec a r r i e do nh o m ev i d e os e q u e n c e so f9 0h o u r si nt o t a l ,t a k e n b y1 6p e r s o n so v e rt h ep a s t2 0y e a r s b o t ht h eo b j e c t i v ea n ds u b j e c t i v ee v a l u a t i o n s i n d i c a t et h a tt h i si n t e n t i o n b a s e da p p r o a c hi sn o to n l yan o v e lp e r s p e c t i v eb u ta l s o a ne f f e c t i v ec o m p l e m e n tt oe x i s t i n gh o m ev i d e oc o n t e n ta n a l y s i ss c h e m e s f o rc o n t e n tr e p r e s e n t a t i o n ,w ed e v e l o pan o v e lh o m ev i d e oc o n t e n tr e p r e s e n t a t i o n a n db r o w s i n gs y s t e m v i d e ob o o k l e t ,w h i c he n a b l e se f f i c i e n ta n dn a t u r a lp e r s o n a l v i d e ob r o w s i n ga n ds e a r c h i n g v i d e ob o o k l e tb u i l d sas e a m l e s sb r i d g eb e t w e e n d i g i t a lv i d e o sa n da n a l o ga l b u m s i nt h i ss y s t e m r e p r e s e n t a t i v et h u m b n a i l so fa c o l l e c t i o no fv i d e os e g m e n t sa r es e l e c t e dt h r o u g ha no p t i m i z a t i o n - b a s e db o o k l e t g e n e r a t i o na p p r o a c ha tf i r s t ,a n dt h e nr e s h a p e db ya s e to fp r e - t r a i n e dp e r s o n a l i z e d s h a p et e m p l a t e s ( s u c ha sc i r c l e ,h e a r t ,s e c t o r ,s t a m p ,e t c ) a n dr e p r e s e n t e db yk e y f r a m e so rm o s a i c s ,c o n s e q u e n t l yp r i n t e do u to nar e a lb o o k l e to ra l b u m w h e nu s e r s p l a nt ob r o w s et h ec o n t e n to ft h e i rd i g i t a lv i d e ol i b r a r y ,t h e yc a nf i r s t l yb r o w s e t h e i rb o o k l e t si nam a n n e ra sb r o w s i n go r d i n a r yp h o t oa l b u m s w h e nt h e yw a n tt o w a t c hac e r t a i ns e g m e n ti n d i c a t e db yat h u m b n a i li nt h eb o o k l e t ,t h e ya r ea b l et ou s e t h e i rc a m e r ap h o n e so rs i m i l a rd e v i c e st oc a p t u r et h ec o r r e s p o n d i n gt h u m b n a i l ,a n d s e n dt h ec a p t u r e di m a g et oac o m p u t e rv i aw i r e l e s sn e t w o r k t h e r e a f t e r ,t h et a r g e t t h u m b n a i li sa c c u r a t e l yl o c a t e db yap r o p o s e ds e l f - t r a i n e da c t i v es h a p em o d e l s a l g o r i t h m ,a n dt h e nt h ed i s t o r t i o no ft h ec a p t u r e di m a g ei sc o r r e c t e d f i n a l l y ,t h e v i d e ob o o k l e ts y s t e mw i l la u t o m a t i c a l l yf i n dt h em o s ts i m i l a rt h u m b n a i lt ot h e c o r r e c t e do n ei nt h ev i d e ol i b r a r ya n db e g i nt op l a yt h ec o r r e s p o n d i n gs e g m e n tf o r t b e1 】s e r s 一l v - 英文摘要 ( 4 ) i nv i d e ob o o k l e t ,w ei m p r o v et h et r a d i t i o n a lm o s a i c i n ga n da c t i v es h a p em o d e l s f o rm o s a i c i n g ,an o v e le f f i c i e n ta n df a s tm o s a i c i n ga p p r o a c hb a s e do nm o t i o n a n a l y s i si sp r o p o s e dt os i m u l t a n e o u s l yi m p r o v et h ev i s u a lq u a l i t ya n dr e d u c et h e c o m p u t a t i o n a lt i m eo fm o s a i c s f o ra c t i v es h a p em o d e l an o v e ls e l f - t r a i n e da s m ( s t a s m ) i sp r o p o s e dt oa u t o m a t i c a l l yg e n e r a t et r a i n i n gs a m p l e sb ys i m u l a t i n g t h ep i t c ha n dy a wo fp i n h o l ec a m e r a b yu s i n gs t a s m v i d e o + b o o k l e ti sa b l et o i m p r o v et h el o c a t i o no ft h et h u m b n a i lc o n t o u rs i g n i f i c a n t l y k e yw o r d s - v i d e oc o n t e n ta n a l y s i s ,h o m ev i d e o ,q u a l i t ya s s e s s m e n t ,i n t e n t i o nm i n i n g , v i d e ob o o k l e t ,v i d e om o s a i c ,s e l f - t r a i n e da c t i v es h a p em o d e l s v 一 中国科学技术大学博士学位论文 插图目录 基于内容的视频检索框架 视频内容的多级结构 由不同数字设备获取的视频内容 各种数字娱乐设备在家庭用户中的占有率 数字多媒体内容在互联网用户中的占有率 家用视频内容的分析流程 m y v i d e o s 系统的用户界面:1 4 半自动家用视频的精彩片断检测的用户界面1 5 h i t c h c o c k 系统的用户界面1 6 一些视频内容表征系统( 1 9 9 3 2 0 0 5 ) 1 8 家用视频文件头中的时间戳信息2 2 全局运动估计结果2 4 m p e g 一7 中的摄像机运动模型2 5 子镜头检测和分类的算法流程2 6 家用视频的结构分析结果2 6 时空因素的视频帧例子2 9 帧级别空域因素亮度性和方向性的计算3 2 基于用户研究方法的界面3 4 最优线性分类超平面3 6 s i g m o i d 函数盐线3 7 视频摘要的x t l 文件描述3 9 视频中用户注意力检测的结果示例4 1 一个家用视频的时空因素曲线及对应的子镜头关键帧4 2 一个家用视频的时空质量曲线和不同s r 条件下的子镜头挑选4 3 一个家用视频在s r = 5 条件下的四种摘要结果4 5 广义心理学上的信息加工流程 拍摄意图的产生过程 拍摄意图定义的关键帧例子 对用户拍摄意图挖掘的框架 系数o l 的计算方法 子镜头内注意力能量特征的检测 摄像机的注意力模型 具有代表性的子镜头内摄像机全局运动的时序模式 一个家用视频的子镜头特征的欧式距离曲线够鳃阻够强弱:晏:鼹缸 1 2 3 4 5 6 1 2 3 4 1 2 3 4 5 1 2 3 4 5 6 7 8 9 1 1 2 3 4 5 6 7 8 9 卜卜卜卜卜卜 二盈0 生 孓孓孓孓孓 缸缸缸缸缸垂缸缸缸垂 孓孓孓孓孓孓孓孓孓 插图目录 5 一1 0 基于意图的视频浏览的用户界面6 7 5 1 1 意图概念标注的统计分析结果7 1 5 1 2 基于注意力的视频浏览的用户界面7 4 6 - 1 传统的和基于视频相册的视频浏览方式7 7 6 2 视频相册的系统框图7 9 6 3 视频相册的版式模板8 0 6 4 视频相册的形状模板8 0 6 5 传统的视频全拼图生成方法8 4 6 6 全拼图的合成8 4 6 7 快速有效的全拼图生成方法8 5 6 8 基于全局运动路径的“m 一帧”挑选8 7 6 9 利用本文的全拼图算法生成的一个全拼图的例子8 8 6 一1 0 针孔摄像机模型9 0 6 1 1 基于s t a s m 的搜索过程9 3 6 - 1 2 采用传统方法和本文方法生成的全拼图的视觉比较9 6 6 1 3 一些“m 一帧”和其对应的变形帧9 6 6 1 4 不同方法和参数条件下第3 0 5 帧对应的变形帧的比较9 7 6 1 5 视频相册的生成子系统用户界面9 7 6 1 6 视频相册的效果图9 8 中国科学技术大学博士学位论文 表格目录 通过用户研究实验得到的各种因素的权重因子3 4 家用视频摘要的实验数据4 1 视频摘要“质量性”的主观评价结果4 4 视频摘要“信息性”的主观评价结果4 4 视频摘要“愉悦性”的主观评价结果4 4 拍摄意图概念的定义5 0 通用的内容特征5 9 家用视频数据集6 9 家用视频数据集的类型统计6 9 意图分类的客观结果7 2 基于注意力和意图的视频浏览用户研究的评价结果7 5 6 1 传统的全拼图方法和本文的快速全拼图方法对比实验结果9 5 6 2 基于视频相册的检索结果9 8 1 2 3 4 5 1 2 3 4 5 6 缸缸缸缸缸 孓孓孓孓孓孓 关于学位论文使用授权的说明 本人完全了解中国科学技术大学有关保留、使用学位论文的规 定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复 制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 作者签名: 日期: 幻口舌啦 尊师签名:圜鳌堕 日期: 2 - 0 06 弘2 6 第一章绪论 第一章绪论 本章首先介绍基于内容的视频检索研究方向的产生、发展和存在的问题,并由此引出家用 视频内容分析的研究意义及其中存在的关键问题,然后介绍本文的主要工作和贡献,最后给出 全文的结构安排。 1 1基于内容的视频检索 随着数据获取、传输和存储技术的快速发展,多媒体数据,尤其是视频,在家用、教育、 商业和娱乐等领域越来越普及。为了实现对视频数据的描述、组织和管理,基于内容的视频检 索( c o n t e n tb a s e dv i d e or e t r i e v a l ,c b v r ) 由此而来。 图1 1 基于内容的视频检索框架 视频检索是指对视频数据中所蕴含的物理结构和语义内容进行分析和理解,以方便用户查 询。其本质是对无序的视频数据进行结构化,提取语义信息,从而使得视频内容能像文本一样 被快速、准确的检索【l 】。一般来说,视频检索包括特征提取、结构分析、摘要、索引、检索和 浏览等五个部分【2 t 3 】,如图1 1 所示。特征抽取是一个视频检索系统的最基本的步骤,视频特 征包括视觉特征( 如颜色、纹理、形状、运动等底层特征,以及人脸、室内、室外等中层语义 特征) ,音频特征( 如击球声、能量等) 和文本特征( 如内嵌的o c r 文本、语音识别的文字 和转录文字等) 。结构分析主要是分割视频的时序结构,把一个连续的视频流按其内容展开的 不同,分成若干语义段落单元,如关键帧( k e y f r a m e ) 、镜头( s h o t ) 、场景( s c e n e ) 、故事 单元( s t o r y ) 等。镜头定义为摄像机一次连续拍摄的不间断帧序列,是视频数据流中的物理结 构单元;场景定义为语义上相关和时间上相邻的若干镜头,具有一定的抽象语义;故事单元由 一组语义相关的场景组成,这些场景组合在一起可以描述一段完整的故事情节,是视频所蕴含 的高层抽象概念和语义的表达;关键帧是指在一个镜头中被挑选出来可以用来代表镜头内容的 图像。这些视频结构单元从大到小依次分别为故事单元、场景、镜头和关键帧。图1 2 给出了 视频内容的多级结构。视频摘要是指对一段视频创建一个紧凑的视觉表征的过程,表征方式可 以是静态的关键帧或者全拼图( m o s a i c ) ,也可以是动态的精彩片断( h i g h l i g h t ) 。索引则是 根据视频的结构化和摘要的结果,根据用户的查询要求建立元数据的索引结构,最后提供给用 中国科学技术大学博士学位论文 户浏览和检索的接口。 围阁 图1 2 视频内容的多级结构 v i d e o s c e n e s h o t s u b - s h o t f r a m e 根据视频内容的类别【4 】,可以将基于内容的视频检索研究分为以下几个领域: 新闻节目( n e w sv i d e o ) :主要解决新闻播音员的检测、新闻节目的结构化和新闻故 事的构造等,已有的系统包括c m u 的i n f o r m e d i a 系统【5 】、n u s 的新闻检索系统【6 】和 u c f 的p e g a s u s 系统【7 】等。 家用视频( h o m ev i d e o ) :主要解决家用视频的结构化、语义分析、内容表征、编辑和 自由创作等,将在第1 2 部分做详细介绍。 体育视频( s p o r t sv i d e o ) :体育视频的特点是结构性强和事件定义比较明确,并且底层 的内容特征往往具有很强的时序模式。因此对体育视频的分析一直是视频检索领域的研 究热点之一。主要解决体育节目的结构化( 如将体育视频分为“p l a y b r e a k ”两种结构) 【8 】【9 】、精彩片断的检测【1 0 1 1 1 1 】以及特定领域( 如足球、篮球、棒球等) 的事件检测和识 别等【1 2 儿1 3 1 4 】。近来,随着体育视频的内容分析越来越商业化,w a n 等人通过自动检 测足球比赛中球门位置的方法插入虚拟广告内容【1 5 】。一般来说,体育视频分析的难点有 两个:一是如何开发具有通用性( g e n e r a l ) 的算法,使得自动分析的方法在各种不同体 育节目中都能适用;另一个则是如何在一个特定体育节目中开发具有鲁棒性( r o b u s t ) 的算法,使得能处理该种体育节目中的所有结构分析和事件检测问题。 电视电影节目( t vs e r i e s f e a t u r em o v i e ) :主要解决电视电影节目的场景分类f 1 6 1 【1 7 】。m a t s u o 等人提出利用镜头类别、镜头长度和摄像机运动等特征推测电影节目中 的拍摄模式【1 8 】。近来,n a d a m o t o 等人开发出一套用电视节目中t a l k s h o w 的方式讲述 w 曲内容的系统【1 9 】。但是由于电视电影节目的后期制作过程非常复杂,往往含有导演 或编辑者比较深奥的意图,这造成了底层内容特征和高层语义之间存在较大的鸿沟,因 此对电视电影节目的内容理解一直是视频分析领域的一个富有挑战性的课题。 一2 艮 :囵 第一章绪抡 监控视频( s u r v e i l l a n c ev i d e o ) :主要解决胨控视频【, 0 1 1 2 1 j 秘交通视频【2 2 】中突筻事件 的检测和识别。由于监控视频中的事件没有明确定义的事件,或者说监控领域的事件发 生的概率穰小,因此z h o n g 等人提出利用无监督的方法将监控视频中的行为进行聚类, 而突发事件就对应于聚娄结果中的小娄情况2 3 1 。 图1 - 3 由不同数字设备获取晌税频内嚣 自从1 9 9 0 年代初h jz h a n g 等人提出现代视频检索和内容查询的基本框架h 米【2 4 1 1 3 】, 视频检索的研究经历了出内容豹结构化到弘相似性为基碓豹查询和相关反馈,再到多媒体内容 的语义建模、特定领域( 体育、新闻、监控等) 的事件检测等三个阶段;尽管视频检索已绎取 得了长足的进展,但是以下几个原囚使得对视频榆索的继续深入的研究很有必要: 新的视频硬件技术对视频检索提出了更高的要求。如图1 - 3 所示,数字便携式摄像机 ( d i g i t a lc a m c o r d e r ) 、数码柱挑( d i g i t a lc a m e r a ) 霸个人数字助理( p e r s o n a ld i g i t a l a s s i s t a n t ,p d a ) 等数码产品的普及,使得普通用户很容易产生视频数据。特别是记录 个人一生的“m y l i f e b i t g 概念t 2 5 1 1 2 6 1 a 7 1 的提出,更加使得个入的祝颟内容变得无处不 在。因此,视频检索技术将两临着个性化的挑战。 以网络、通信和多媒体数据处理为中心的新兴多媒体应用技水也迅速埕展,如视频 点播( v o d ) ,高清晰d v d ( h dd v d ) 、商清晰电视( t l d t v ) 、交互式网络电视 ( i p t v ) 翡3 g 多媒体鼹务等。扁对,烨随着w e b2 0 时代柏到来,越来越多的视频 内容将通过个人博客( b l o g ) 、站点摘孽( r s s ) 、百科垒书( w i k i ) 、和对等网络 ( p 2 p ) 等方式进行传播和共享。圈此,蕴含丰富内容的视频信息势必随着网络前普及 面大舰槿的增长。钢如,2 0 0 5 年度羹国a b c 新闻节鞫的数据量就达到1 2 0 g

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论