（教育技术学专业论文）基于内容的视频检索技术及教学应用研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：59 大小：2.40MB 积分：0 举报 版权申诉

已阅读5页，还剩54页未读，继续免费阅读

（教育技术学专业论文）基于内容的视频检索技术及教学应用研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着计算机、多媒体和网络通信等信息技术的迅猛发展，数字视频正以势不可挡的力量改变着人们的学习、思维乃至整个生活方式。因此，迫切需要一种灵活、有效的方式来检索数字视频资源。传统的视频检索是基于关键词的检索，其描述能力有限、主观性强且需要手工标注，视频数据库建设成本高、周期长，检索单位只局限于电影或整场比赛，对于更小的视频片段，如一个场景或镜头，只能依靠传统的快进、快退等手段进行人工查找。这种检索方式费时、费力且不能满足用户对视频内容检索的要求。为此，本文总结了基于内容的视频检索的优势和实现过程，介绍了层次数据模型、面向对象数据模型、代数数据模型、基于应用及生成的视频数据模型等成功应用于视频数据库的数据模型，并对镜头变换识别技术、关键帧提取技术、特征提取技术和镜头聚类技术等关键技术进行了分析和总结。为了证明基于内容视频检索的可行性，文章又对q b i c 、v i d e o s t a r 、代数视频系统、o v i d 等8 个典型的检索系统，从数据模型、索引方式、主要功能、主要贡献及应用领域等方面进行了比较和总结；并针对检索系统的通用性不足，多媒体信息内容描述难，视频数据的存储不尽合理、方式单一以及视频语义自动提取较难等5 个方面的问题，结合具体的检索系统指出了相应的解决方案。现代技术环境下，人们不再局限于利用书本、课堂、电视、广播等传统的手段进行学习，通过网络利用计算机和手机进行灵活、自由的学习，已经成为众多人的首要选择。受传统教育的影响，我国的学习者对教师的依赖性较强，这样就使能够传播教师影像和声音的视频教材成为现代人学习的主要媒体。因此，如何开发出适应不同需求的视频教材，并实现高效检索，成为一个亟待解决的问题。为此，文章以视频教材为结合点，对基于内容的视频检索技术在教育教学中的应用作了一些尝试，思考了该技术对视频教材开发的启示，对于提高视频教材交互性的问题，提出了自己的看法。数字环境下，传统的电视教材经过编码以后，可以通过网络传播，利用计算机硬盘、光盘存储，通过计算机播放呈现内容，已经突破了以往仅通过电视传播和呈现的单一方式。传统电视教材的概念已经不能完全涵盖数字环境下电视教材的内涵。基于此，本文把数字环境下的电视教材称为视频教材。视频教材的呈现形式是视频。因此，基于内容的视频检索技术也适合于对视频教材的检索。由于传统的电视教材大都是以课堂为单位开发的，基于一定的教学思想和教学方法。因此，传统的电视教材具有较强的整体性和封闭性。利用电视教材进行教和学，是一个单向的过程，缺乏交互，教师和学生不能根据需要改变信息呈现的速度和顺序。基于此，文章提出了视频教材外部交互和内部交互的概念，指出了从微观的角度，以知识点为单位开发视频教材的思想。在数字环境下，利用基于内容视频检索技术和流媒体传输技术等，获得丰富的视频素材，再利用多媒体组合平台组合成视频教材，利用交互控件实现视频教材的外部交互，以提高视频教材交互性，并给出了交互模型。最后，从课堂教学和远程教学两方面分析了视频教材交互系统的应用并总结了视频教材的发展趋势。关键词：基于内容的检索，视频教材，交互性，数据模型，算法 a b s t r a c t w i t ht h ed r a m a t i cd e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g i e ss u c ha sc o m p u t e rt e c h n o l o g y ， m u l t i m e d i at e c h n o l o g ya n dn e t w o r kc o m m u n i c a t i o nt e c h n o l o g ye t c ，t h em e t h o d so fp e o p l e ss t u d y ， t h i n k i n ga n dl i v i n gh a v ec h a n g e dg r e a t l yw i t ht h ee f f e c to fd i g i t a lv i d e o t h e r e f o r e ，i ti se x i g e n tt or e t r i e v e d i g i t a lv i d e of l e x i b l ya n de f f e c t i v e l y t r a d i t i o n a lv i d e or e t r i e v a li sb a s e do nk e yw o r d s t h ea b i l i t yo fk e y w o r d s d e s c r i p t i o ni sl i m i t e d a n dw en e e dl a b e le v e r yv i d e om a t e r i a lm a n u a l l y v i d e od a t ab a s e sc o s ti s h i g ha n dc o n s t r u c t i n gc y c l ei sl o n g t h eu n i to fr e t r i e v a li sl i m i t e dt oaw h o l ec i n e m ao rm a t c h i fw en e e d t or e t r i e v es m a l l e ru n i ts u c ha so n es c e n eo ro n es h o t ，w em u s td e p e n do nt r a d i t i o n a lf a s ts e a r c h t h e r e f o r e ， t h ew a yo ft r a d i t i o n a lr e t r i e v a li st i m ec o n s u m e d ，l a b o r i o u sa n dc a n ts a t i s f yu s e r sr e q u i r e m e n t so f c o n t e n t b a s e dr e t r i e v a l b a s i n go nt h a t , t h i sp a p e rs u m m a r i z e st h ea d v a n t a g ea n di m p l e m e n t i n gc o u i s eo f c o n t e n t - b a s e dv i d e or e t r i e v a l s o m ev i d e od a t am o d e l sa r ep r e s e n t e ds u c ha sh i e r a r c h i c a ld a t am o d e l ， o b j e c t - o r i e n t e dv i d e od a t am o d e l ，a l g e b r a i cv i d e od a t am o d e l ，a p p l i c a t i o na n dc r e a t i o nb a s e dv i d e od a t a m o d e le t c a n dt h ek e yt e c h n o l o g i e so fc o n t e n t - b a s e dv i d e or e t r i e v a ls u c ha ss h o ts e g m e n t a t i o nt e c h n o l o g y ， r e t r a c tk e y - f r a m et e c h n o l o g y ，r e t r a c tc h a r a c t e rt e c h n o l o g ya n ds h o tc l u s t e r i n gt e c h n o l o g ye t c a r ea n a l y z e d a n ds u m m a r i z e di nt h i sp a p e r i no r d e rt op r o v et h ef e a s i b i l i t yo fc o n t e n t b a s e dv i d e or e t r i e v a l ，t h i sp a p e rc o m p a r e se i g h tt y p i c a l r e t r i e v a ls y s t e m ss u c ha sq b i c ，v i d e o s t a r , a l g e b r a i cv i d e os y s t e m ，a n do v i de t c f r o mt h ea s p e c t so f d a t am o d e l ，i n d e xm e t h o d ，m a i nf u n c t i o n ，m a i nc o n t r i b u t i o na n da p p l y i n gf i e l d se t c a n dp o i n t so u tf i v e p r o b l e m ss u c ha sl a c k i n go fu n i v e r s a l i t y ，d i f f i c u l t yf o rd e s c r i b i n gm u l t i m e d i ai n f o r m a t i o n ，s i n g u l a r i t ya n d i n c o n s e q u e n c eo fv i d e od a t a ss t o r a g i n gf o r m ，d i f f i c u l t yf o rr e t r a c t i n gv i d e o ss e m a n t i c sa u t o m a t i c a l l ye r e a n dt h er e l e v a n ts o l u t i o n s p e o p l eh a v en o ta n yl o n g e rs t u d i e do n l yi nt r a d i t i o n a lw a y so fb o o k ，c l a s s r o o m ，t e l e v i s i o na n d b r o a d c a s te t c i nm o d e mt e c h n o l o g ye n v i r o n m e n t m a n yp e o p l ew o u l dl i k et os t u d yt h r o u g hu s i n g c o m p u t e ra n dm o b i l et e l e p h o n ei nn e t w o r kf r e e l ya n df l e x i b l y w i t ht h ee f f e c to ft r a d i t i o n a le d u c a t i o n ， c h i n e s el e a r n e r sd e p e n do nt e a c h e rg r e a t l y c o n s e q u e n t l y ，t h e ya r ei n c l i n e dt oa p p l yv i d e ot e a c h i n g m a t e r i a l ，j u s tb e c a u s ei tc a ns p r e a dt e a c h e r sv i d e oa n da u d i o t h e r e f o r e ，i nd i g i t a le n v i r o n m e n t ，i ti sa n e x i g e n tp r o b l e mt or e s o l v et h a th o ww ed e v e l o pt h ev i d e ot e a c h i n gm a t e r i a lw h i c hc a na d a p td i f f e r e n t r e q u e s ta n dc a r r yo u tr e t r i e v i n gv i d e ot e a c h i n gm a t e r i a le f f e c t i v e l y i i i t h e r e f o r e ，t h i sp a p e ra t t e m p t st oc o m b i n ev i d e ot e a c h i n gm a t e r i a lt or e s e a r c ho nt h ea p p l i c a t i o n o fc o n t e n t - b a s e dv i d e or e t r i e v a li ne d u c a t i o na n di n s t r u c t i o n a n dt h i sp a p e rc o n s i d e r sa p p l i c a t i o no f c o n t e n t b a s e dv i d e or e t r i e v a lt e c h n o l o g yt od e v e l o pv i d e ot e a c h i n gm a t e r i a l a n df o rt h eq u e s t i o no f i m p r o v i n gi n t e r a c t i v i t yo f v i d e ot e a c h i n gm a t e r i a l ，t h i sp a p e rp u t sf o r w a r do w no p i n i o n a f t e rb e i n ge n c o d e di nd i g i t a le n v i r o n m e n t , t r a d i t i o n a lt vt e a c h i n gm a t e r i a lc a nb es p r e a d e d t h r o u g hn e t w o r k , s t o r a g e di nh a r dd i s k so fc o m p u t e r sa n dc d ，s h o w e dt h r o u g hc o m p u t e rd i s p l a y s t v t e a c h i n gm a t e r i a ld on o ts p r e a da n ds h o wo n l yt h r o u g ht va n yl o n g e r t h e r e f o r e ，t h ec o n c e p to ft r a d i t i o n a l t vt e a c h i n gm a t e r i a lh a sn o tc o n t a i n e dm e a n i n g so ft vt e a c h i n gm a t e r i a li nd i g i t a le n v i r o n m e n t b a s i n g o nt h a t , t h i sp a p e rc a l l st v t e a c h i n gm a t e r i a li nd i g i t a le n v i r o n m e n tv i d e ot e a c h i n gm a t e r i a l b e c a u s ev i d e o t e a c h i n gm a t e r i a l sf o r mi sv i d e o ，t h et e c h n o l o g yo fc o n t e n t - b a s e dv i d e or e t r i e v a lf i t si n t ov i d e ot e a c h i n g m a t e r i a lt o o t r a d i t i o n a lt vt e a c h i n gm a t e r i a li sd e v e l o p e dw i t hc l a s s r o o mu n i ta n db a s i n go ns p e c i f i c i n s t r u c t i o ni d e aa n dm e t h o d t h e r e f o r e ，i ti sw h o l ea n dc l o s e t e a c h i n ga n dl e a r n i n gt h r o u g ht v t e a c h i n g m a t e r i a li sau n i l i n e a rc o u r s ea n dl a c kf o ri n t e r a c t i o n t e a c h e r sa n ds t u d e n t sc a n tc h a n g es p e e da n do r d e r o fs h o wi n f o r m a t i o n b a s i n go nt h a t ，t h i sp a p e rp r e s e n t st h ec o n c e p t so fi n t e r n a li n t e r a c t i o na n de x t e r n a l i n t e r a c t i o no fv i d e ot e a c h i n gm a t e r i a l a n dt h i sp a p e rp u t sf o r w a r dt h ei d e ao fd e v e l o p i n gv i d e ot e a c h i n g m a t e r i a lb a s i n go nk n o w l e d g ep o i n tf r o mm i c r o c o s m i ca n g l e i nd i g i t a le n v i r o n m e n t , w ec a ng e tp l e n t yo f v i d e om a t e r i a l st h r o u g hu s i n gc o n t e n t b a s e dv i d e ot e c h n o l o g ya n ds 仃e a m i n gm e d i a t e c h n o l o g y a n dt h e n ， w ec a na s s e m b l ev i d e ot e a c h i n gm a t e r i a lo nm u l t i m e d i ap l a t f o r ma n di m p l e m e n te x t e m a li n t e r a c t i o n t h r o u g hi n t e r a c t i o nc o n t r 0 1 t h e r e b y ，v i d e ot e a c h i n gm a t e r i a l si n t e r a c t i v i t yi si m p r o v e d a n dt h em o d e lo f v i d e ot e a c h i n gm a t e r i a l si n t e r a c t i o ni sd e s c r i b e d a tl a s t ，t h i sp a p e ra n a l y z e st h ea p p l i c a t i o no fv i d e o t e a c h i n gm a t e r i a l si n t e r a c t i v i t ys y s t e mf r o mt w oa s p e c t so fc l a s si n s t r u c t i o na n dd i s t a n c ei n s t r u c t i o na n d s u m m a r i z e sv i d e ot e a c h i n gm a t e r i a l sd e v e l o p m e n tt e n d e n c y k e yw o r d s ：c o n t e n t b a s e dr e t r i e v a l ，v i d e ot e a c h i n gm a t e r i a l ，i n t e r a c t i v i t y ，d a t am o d e l ，a r i t h m e t i c i v 独创性声明本人郑重声明：所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写的研究成果，也不包含为获得河南师范大学或其他教育机构的学位或证书所使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。关于论文使用授权的说明抛易本人完全了解河南师范大学有关保留、使用学位论文的规定，即：有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权河南师范大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。( 保密的学位论文在解密后适用本授权书) 南罹1 矽日期：二竺“ 第一章绪论 1 1 研究背景第一章绪论随着多媒体技术、网络技术和计算机技术的发展，特别是海量存储技术和流媒体传输技术成熟和完善，数字视频已是“旧时王榭堂前燕，飞入寻常百姓家，越来越多的人正在利用互联网、数字电视等方式领略数字视频的魅力。数字化已经成为当今信息社会的一大特点。与模拟视频相比，数字视频具有较强的抗干扰能力，便于传播、编辑和存取，易于建立索引和注释等特剧。因此，数字视频正在以其稳定性、扩展性和交互性等优势，逐渐替代模拟视频，我国计划在2 0 1 5 年实现电视播、发、收的全数字化。数字视频风暴正在以它势不可挡的力量改变着人们的学习、工作、娱乐乃至整个生活方式。因此，我们迫切需要一种灵活、高效的方式来检索数字视频资源。视频信息与传统的文本信息有很大的不同。一方面，由于图像和视频具有不同的感知，使得保存其内容信息非常困难【2 】；另一方面，在检索视觉信息时，用户很难准确表达他们真正所需的信剧3 1 。视频信息包括两部分：一部分是低层的视觉信息，如：颜色、纹理、主体形状和运动特征等；另一部分是高层的语义信息。视频数据本身只能表达视觉信息，而不能表达其语义信息，因此视频的语义信息具有多样性和模糊性，不同的人对同一段视频可能会有不同的解释，加上视频信息数据量大、数据结构复杂，这就决定了对视频的检索要更复杂、更困难。视频检索就是从大量的视频数据中找出所需的视频片段。传统的视频检索是基于关键词描述( k e y w o r d b a s e dv i d e or e t r i e v a l ，k b v r ) 的检索，其描述能力有限、主观性强、需要手工标注，视频数据库建设成本高、周期长，检索的单位只局限于电影或整场比赛，对更小的视频片段的检索，如一个场景或镜头，只能依靠传统的快进、快退等手段进行人工查找【4 】，费时、费力。基于内容的视频检索既能向用户提供基于颜色、纹理、形状及运动特征等视觉信息的检索，又能提供基于高级语义信息的检索，具有在镜头、场景、情节等不同层次上进行检索的功能，既能满足用户基于例子和特征描述的检索要求，又能满足用户对视频语义内容的检索。受传统教育的影响，我国的学习者特别钟情于视频教材。但由于传统电视教材的整体性、封闭性等特点，使其几乎不具备交互性，而交互是学习的灵魂，交互的缺乏，已经严重影响到了学习效果。建构学习理论认为学习不是靠灌输知识而完成的，而是学习基于内容的视频检索技术及教学应用研究者对知识意义建构的过程，这种对知识意义的建构无处不体现着交互。因此，在现代数字环境下，如何提高视频教材的交互性则成为一个值得研究的问题。近年来，随着计算机、通信、多媒体和基于内容检索技术的发展，使得实现对视频教材的基于内容检索成为可能。基于内容的视频检索技术对我们开发视频教材有什么样的启示，怎样利用基于内容的视频检索技术来高效的检索视频教学素材，如何建设视频教学资源库，为每一段视频教学素材提取什么样的属性? 都值得我们去思考。文章就是针对以上问题展开讨论的。 1 2 研究现状基于内容的视觉信息检索( 主要包括基于内容的图像检索和基于内容的视频检索) 从正式提出到现在仅有十多个年头，1 9 9 2 年，基于内容的图像检索( c o n t e n t b a s e di m a g e r e t r i e v a l ) 一词开始在国际上正式使用，同时基于内容的视频检索研究开始。基于内容的视觉信息检索从一开始就备受世界各国知名大学及其它研究机构关注，并投入研究，取得了丰富的成果。这些成果大都集中在理论层面上，在应用层面上开发出了一些实验性的检索平台，在一些领域得到了成功应用，比如：美国i b ma l m a d e n 研究中心开发的q b i c ( q u e r yb yi m a g ec o n t e n t ) 系统，是“基于内容检索系统的典型代表，现已经应用于博物馆以及对商标、专利的检索；挪威技术学院研制开发的视频存储及检索系统 ( v i d e o s t a r ) ；美国哥伦比亚大学研制开发的v i s u a l s e e k 和v i d e o q 系统；加拿大西蒙弗雷泽大学开发的数字图书馆中基于内容的图像检索系统( c b i r d ) 等。 1 9 9 4 年，在国内开始关注基于内容的视觉信息检索研究，并先后在一些刊物和杂志上发表了一些文章，概括介绍了有关原理、方法和研究应用的特点，旨在唤起国内相关学科研究人员的注意和重视。之后几年，这方面的研究工作陆续得到了国家自然科学基金项目、国家高技术发展计划基金项目等的支持。在这些基金项目的支持下，先后发表了相关研究论文近百篇，并开发出了基于内容的视频检索实验平台，如：清华大学研制开发的t v 兀系统等。这些研究成果为基于内容的视觉信息检索技术在具体领域的应用研究奠定了基础。对基于内容视频检索技术的研究仍处于起步阶段，虽然已经有一些实验检索系统在在数字博物馆、数字图书馆、远程医疗、服装设计、建筑设计及公安侦破等领域得到了成功应用，但还远远不能满足人们的需求。由于基于内容的视频检索技术涉及的理论和 2 第一章绪论技术众多，以及视频数据本身的特点，目前仍处于实验室研究及成果推广阶段，还没有一套完善的商用检索系统。主要存在着检索系统的通用性不足，多媒体信息内容描述难，视频数据的存储不尽合理、方式单一以及视频语义自动提取较难等问题。世界范围内，对基于内容的视频检索技术在教育教学中的具体应用研究较少。在国内的相关研究文献中，刘俊晓等人在文献【5 】中介绍基于内容的视频检索技术的基础上，从灵活获得所需视频教学资源，学校图书馆的数字化，远程视频教学等方面阐述了基于内容视频检索技术的应用；邵斌等人在文献【6 】中研究了以完整的视频节目为数据源，利用a s p 和s m i l ( 同步多媒体语言) 技术，动态截取视频素材片段，然后依据具体的应用，提取视频素材的属性，在数据库的支持下实现基于内容的视频检索；李学朝等人在文献【7 】中，对j 2 e e 架构下智能视频检索系统集成框架进行了研究，并实现了 i v i d e o 系统；刘春祥等人在文献 8 】中，研究了m v c 架构下网络视频检索系统的设计与实现方法等等。这些文献有的阐述基于内容的视频检索技术在教育教学中的应用方向和领域；有的提出了结合动态网页设计技术、j a v a 技术等分析和实现基于内容的检索的思想，并作了一定的尝试。在教学应用方面，主要提出了利用基于内容的视频检索技术对视频教学资源进行有效的管理和检索的思想，对具体可行的方案阐述较少；对基于内容的网络视频教学系统进行了设计和开发尝试等。几乎没有涉及更深层的教育教学应用。 1 3 本文主要工作本文研究的内容主要集中在对基于内容视频检索关键技术的分析，对典型检索系统的比较，基于内容的检索技术的教学应用研究三方面。具体工作包括： ( 1 ) 在阐述基于内容的视频检索技术的思想及优势的基础上，重点对层次数据模型、面向对象数据模型、代数数据模型、基于应用及生成的视频数据模型等成功应用于视频数据库的数据模型及镜头变换识别技术、关键帧提取技术、特征提取技术和镜头聚类技术等关键技术进行了分析和总结。 ( 2 ) 在比较q b i c 、v i d e o s t a r 、o v i d 等8 个典型检索系统的基础上，从数据模型、索引方式、主要功能、主要贡献、应用领域及需改进工作等方面对其进行归纳总结；并针对检索系统的通用性不足，多媒体信息内容描述难，视频数据的存储不尽合理、方式单一以及视频语义自动提取较难等5 个方面的问题，结合具体的检索系统指出了相应的解决方案。基于内容的视频检索技术及教学应用研究 ( 3 ) 在提出视频教材“内部交互”和“外部交互概念的基础上，指出改变传统的视频教材开发理念，指出了从微观的角度，以知识点为单位开发视频教材的思想。在数字环境下，利用基于内容视频检索技术和流媒体传输技术等，获得丰富的视频素材，再利用多媒体组合平台组合成视频教材，利用交互控件实现视频教材的外部交互，从而提高视频教材的交互性，并给出了交互模型。最后，从课堂教学和远程教学两方面分析了视频教材的应用并总结了其发展趋势。 1 4 结构与组织本文共分五章，以下各章的主要内容如下：第二章，基于内容视频检索关键技术分析。阐述了视频数据结构化的过程，并对关键技术进行了分析和比较。第三章，基于内容的视频检索系统比较研究。比较了q b i c 、v i d e o s t a r 等8 个典型检索系统，指出了主要存在的问题及相应的解决方案。第四章，基于内容视频检索技术的教学应用。首先阐述了电视教材的定义、分类、优势和局限；提出了从微观的角度，以知识点为单位开发视频积件素材的思想；并在数字环境下，利用基于内容的视频检索等技术获得视频素材，通过多媒体素材组合平台，重新组织成视频教材，通过交互控件实现视频教材的外部交互；并从课堂教学和远程教学两方面分析了视频教材的应用，总结了其发展方向。第五章，总结了主要研究的内容，分析了基于内容的检索领域研究的热点及研究方向，提出了下一步要做到工作以及研究计划。 4 第二章基于内容的视频检索关键技术分析第二章基于内容的视频检索关键技术分析要实现对视频数据基于内容的检索，首先要对视频数据进行有效的组织。视频数据的最小单位是图像帧，一系列连续的图像帧构成镜头，若干镜头组合表达一定的情节。其分层结构如下图2 1 所示【5 1 。图2 1 视频分层结构图镜头是视频数据的基本单元，因此要实现对视频内容的检索，还必须将视频序列分割为镜头，再对每个镜头进行特征提取，得到一个尽可能反映镜头内容的特征空间，作为镜头聚合即构造场景的依据。镜头特征包括静态视觉特征和动态特征两个方面。静态特征主要指颜色、纹理及主体形状特征等。静态特征的提取是通过对镜头关键帧特征提取实现的。关键帧是从镜头中抽取出来的，能反映镜头内容的一组静态图像。动态特征的提取是在对镜头运动分析的基础上进行的，运动分析主要是针对目标运动轨迹的变化、目标大小的变化、镜头运动的变化( 如：推、拉、摇、移、跟等) ，所采用的方法主要有基于块的方法、像素递归方法、贝叶斯方法和基于光流方程的方法等。所提取的特征被存入特征库中，并以此进行索引。在镜头的基础上，根据镜头特征进一步进行镜头聚类，把情节上相似的镜头重构为场景，然后提取场景的代表帧，并进行描述后存入视频数据库。最后根据用户提交的查询按照一定的特征进行视频检索，将检索结果按相似程度提交给用户，这样用户就可以方便的浏览和检索视频。基于内容的视频分析如图 2 2 所示【9 1 。基于内容的视频检索技术及教学应用研究。一j ：视频聚类 - 图2 - 2 视频数据结构化处理过程基于内容的视频检索既能向用户提供基于颜色、纹理、形状及运动特征等视觉信息的检索，又能提供基于高级语义信息的检索；既可以在镜头层进行也可在情节层进行。在镜头层的检索可以借助关键帧来进行，在情节层的检索可以借助代表帧来进行。其关键技术有镜头变换识别技术、关键帧提取技术、特征提取技术和镜头聚类技术等【1 0 1 。由于视频数据数据量大、结构复杂，人们常采用层次视频数据模型、面向对象的数据模型、代数视频数据模型、基于应用和生成的视频数据模型等来研究视频数据。 2 1 视频数据模型数据模型是数据库系统中用于提供信息表示和操作手段的形式构架，由数据结构、数据操作和完整性约束三部分组成【l l 】。数据结构既要研究与数据本身内容有关的对象，也要研究不同数据间关系的对象。而数据操作则指对数据的各种加工利用手段，如对数据的插入、更改、删除和查询等。数据的约束条件是指通用完整性的集合，给出了一般的语义约束。视频作为多媒体中的一种重要媒体，其主要的特征是它的时序性，所以也称作基于时间的媒体或时基类媒体。在视频数据模型的发展过程中，最初也是在传统的只反映空间信息的表达形式上增加时间因素，这样所建立的表达时基的模型主要有时间线、时间 p e t n 网、基于时态区间表示及层次模型等。后来，研究者利用面向对象的思想，建立了面向对象的视频数据模型；考虑到视频的逻辑结构及视频段之间的层次关系，提出了代数视频数据模型；根据应用的不同，提出了基于应用及生成的视频数据模型等。 2 1 1 层次数据模型该模型把视频序列分割成可相互重叠的子块的集合，每个子块代表一个容易描述的 6 第二章基于内容的视频检索关键技术分析简单事件，称为层( s t r a t a ) ，每层在逻辑上是独立的。层次模型方法保留了视频流中丰富的上下文信息。但是，一个基本的问题是，人们已经熟悉了将视频镜头作为基本单元的组织方法，而且，以重叠片段的形式来划分视频内容过程非常繁杂，且需借助于自动工具，而自动工具的开发较为困难，因为它涉及到如何确定视频序列的语义内容1 2 1 。 2 1 2 面向对象数据模型随着面向对象理论和技术的发展，传统的关系型数据库也越来越多的支持面向对象的数据模型，特别是在多媒体数据库系统中。面向对象的数据模型以一种自然的方法来描述现实世界中实体和实体之间的关系，更符合人认识世界的思维习惯。对象代表现实世界中的实体，是实体的一种更高层抽象，可代表一种基本数据类型，也可代表复杂结构的数据类型【l3 1 。面向对象可描述为：面向对象= 对象+ 类+ 继承+ 消息。其中对象是核心概念，现实世界中所有的概念实体都可模型化为对象，对象是由实体中的数据及定义在数据上的操作组成的。其中组成对象的数据称为对象的属性。属性可以是一种基本数据类型，也可以是一种抽象数据类型，即属性也可以是一个对象。属性本身可表示对象的性质，可以方便的描述对象之间的聚合关系，这对于多媒体数据来说是非常有用的。定义在对象属性上的一组操作称为对象的方法，方法体现了对象的行为能力【1 3 , 1 4 】。类是一组具有相同属性和操作的对象的集合。继承是类之间一种基本关系，指某个类的层次关联中不同类共享属性和操作的机制。消息是对象间通信的手段，一个对象通过向另一个对象发送消息来请求其服务。此外，面向对象数据特点还有封装、信息隐蔽、消息传递、多态性等。综上所述，面向对象数据与现实世界实体对象一一对应，具有传统数据库数据不具有的两大特性，即内容海量性和结构复杂性，因此，越来越多的在多媒体数据库中使用。在对视频数据进行面向对象的建模过程中，主要记录视频数据的语义内容、视听内容、文本信息和关键帧( r 帧) 。这些都是视频数据的共有特征，因此，可以抽象出这些特征定义一个基类b a s e s h o t ，然后利用类的继承性，在基类的基础上，加进一些视频数据格式的特征和方法，构造适合不同视频格式的子类( 女h r m v b s h o t 、m p e g s h o t ) ，再把不同格式的子类合并成一个类( m u l t i s h o t ) ，用来支持多种视频格式【1 5 】。基于内容的视频检索技术及教学应用研究 2 1 3 代数视频数据模型在文献【1 6 】中作者提出了代数视频数据模型，此模型引入了视频段之间的层次关系和视频代数操作，利用该模型可以对原始视频段进行代数操作生成新的视频流。模型的基本要素是代数视频节点和包含在节点上的操作。整个模型是可嵌套的层次结构，基本结构如图2 - 3 所示。代数视频节点中包含子节点，子节点可以是一个代数视频节点也可以是一个原始视频段。原始视频段可以用原始视频名表示也可以用原始视频的一个区间表示。代数视频节点还包含关于其内容的描述信息和描述其所有子节点播放特征组合及表现的信息。视频节点可任意嵌套并指向同一视频数据库。此外，代数视频节点还保存视频代数操作形成的视频表达式，最简单的视频表达式即是一个子节点，视频表达式中还可包含变量。用视频代数可构造复杂的视频表达式。图2 - 3 代数视频模型的基本结构在视频代数系统中包含以下四类运算，它们都可以用复合视频表达式来表示。 ( 1 ) 创立( c r e a t i o n ) ，由原始视频定义视频表达式的结构。包含的基本操作有创立和延时。 ( 2 ) 合成( c o m p o s i t i o n ) ，定义了子节点之间的关系。包含的基本操作较多，如：连接、交、并、差、并行和条件等。 ( 3 ) 表现( p r e s e n t a t i o n ) ，为所包含子节点定义空间布局。包含表现操作。 ( 4 ) 描述( d e s c r i p t i o n ) ，把内容属性与代数视频节点联系起来。包含描述和隐藏描述。 8 第二章基于内容的视频检索关键技术分析 2 1 4 基于应用及生成的视频数据模型文献【1 7 】中提出了基于视频应用及生成的分段视频模型，此模型以不同视频数据的应用和生成特点为设计依据。其中视频生成提供了有关节目的语法结构和视听特性；主要包括控制视频可视化程度的脚本控制，控制视频的制作环境、主题和拍摄参数的摄像控制，控制时序合成结果的合成控制，控制视听声道内容的信道控制。模型主要针对故事片、新闻、体育比赛、运动生理学和建筑物监控等几类视频资料进行了分析，对每一种视频资料，都从视频目的、视频内容、视频生成和视频用途等方面分析。比如：故事片是人为创作出来的，编剧和导演需要通过各种手段向观众传递信息，因此会严格的控制视频生成过程，可表现在多方面，例如编剧通过制作脚本来控制节目的内容，导演通过选取拍摄场地、拍摄时间等对节目的环境信息进行控制等；新闻节目的报道方式和播放格式都有自身的特点，例如每个节目都有主持人和记者的现场报道，一般都具有时效性和真实性的特点等。 2 1 5 通用视频数据模型 n j i l s v o l d 在文献【1 8 】中提出了一种通用视频数据框架模型。此模型借助传统数据库模型的表达方式建立了一个较清晰的概念模型，具有较广的应用价值。该模型引入的基本视频数据对象有：视频存储段、视频文档、视频流、帧序列和注释。通用视频数据框架模型结构如图2 4 所示。存储视频段指存放于视频数据库中分割为独立视频段的原始视频数据，与视频流之间是一种映射( m a p p i n g ) 关系，即视频流可映射为若干个视频段。视频流，是视频文档的一种表现，两者通过关系“代表”( r e p r e s e n t e d b y ) 联系起来。视频文档是由原始视频素材生成的文档结构，可播放视频流。视频流通过关系“部分 ( p a r to f ) 划分为若干个帧序列，帧序列是把视频流的各单元与注释联系起来的重要的中间结构。视频文档由结构成分构成，两者通过关系“构成 ( s t r u c t m e d b y ) 发生联系，而结构成分通过“说明”关系( d e f i n e s ) 与帧序列关联。视频文档从视频素材中抽取描述其内容的注释，注释可划分为三类：有关人的注释( p e r s o na n n o t a t i o n ) 、有关地点的注释 ( l o c a t i o na n n o t a t i o n ) 、有关事件的注释( e v e n ta n n o t a t i o n ) 。注释通过“评注”关系 ( a n n o t a t e s ) 与帧序列关联。 9 基于内容的视频检索技术及教学应用研究乏翌冀芏芦剥竺酬虱刚。l ( 0 ，n ) 。( 1 ，1 ) i i d 弓h 存储视频段 i d 煎乡叫磊耋会l 聪引噍喜件越0 10 l ( ，)( ，n ) l 型 2 ，i ：) 复合单元 ( o ，1 ) y 蓐罚 j 丑 ( o ，n 誓人妒孙 ( o ，1 j y 场景习桀n 5 嚣1 ( o ，) y 现失习图2 4 通用视频数据框架模型结构图 2 2 关键技术分析 2 2 1 镜头变

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（教育技术学专业论文）基于内容的视频检索技术及教学应用研究.pdf

文档简介

温馨提示

最新文档

评论

（教育技术学专业论文）基于内容的视频检索技术及教学应用研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档