（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：61 大小：1.93MB 积分：0 举报 版权申诉

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf_第2页

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf_第3页

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf_第4页

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf_第5页

已阅读5页，还剩56页未读，继续免费阅读

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要基于内容的新闻视频检索语义提取技术研究作者简介：杨强，男，1 9 7 8 年7 月出生，2 0 0 4 年9 月师从于成都理工大学黄地龙教授，于2 0 0 7 年6 月获硕士学位。摘要当前基于内容的视频检索系统主要利用视频图像的基本特征，以及综合各种视觉特征进行联合检索，其缺点是不能有效地提取并利用视频流中的语义信息。如可自动提取视频语义信息，使其尽可能与人对视频内容的理解保持一致，使计算机检索视频的能力接近于人的理解水平，从而达到视频检索语义处理的最终目标，是当前基于内容的视频检索技术研究的关键问题。因此本文以新闻视频为对象，研究了基于内容的视频检索中语义提取技术。文章主要针对基于内容的新闻视频检索语义提取过程以及实验分析系统设计中的若干问题进行探讨。首先分析了视频数据的特点，阐述了新闻视频的语义层次化模型和基于内容的新闻视频检索语义提取技术。然后在对当前视频关键桢提取的主要算法分析基础上，研究了基于帧间似然比的关键帧提取算法和自适应阈值的关键帧提取聚类算法。随后分析了视频字幕和台标的时空分布特征，提出了基于时空分布特征的字幕提取改进算法，改进算法主要采用双峰阈值法、积分投影法等实现了字幕区域的提取与行列分割。同时研究了台标分割的关键帧差分法，并利用小波特征参数及s v m 方法实现了台标识别。在基于知识的语义提取技术中，分别阐述了人物、情感、场景等语义提取方法。在人物语义提取算法中，主要利用有效入物的语义入脸模型与高层语义的关联，实现了人物语义的提取。在场景语义提取算法中，通过视频帧序列的关键帧、主持人镜头和主题字幕等综合特征，实现了新闻场景的分割，并根据分割出的场景特征参数与已建立好的场景先验知识库进行比较，获得该段视频场景的语义文本描述。在情感语义提取技术中，采用因子分析法建立情感空间模型，再采用概率神经网络实现特征空间到情感空间的映射，并通过已建立好的情感语义知识库获取视频的情感语义文本描述。最后设计了基于内容的新闻视频语义分析与检索实验系统。系统在传统的基于关键词模糊匹配基础上，通过构建语义词典完善了系统的检索功能，使得检索系统具有一定的“智能”，较好的实现了视频检索。关键词：视频检索；语义提取；关键帧；台标识别；字幕检测成都理工大学硕士学位论文 t h em e t h o dr e s e a r c ho fs e m a n t i c - d i s t i l l i n gi n c o n t e n t b a s e dn e w sv i d e or e t r i e v a l a b s t r a c t c u r r e n t l y , c b v rm o s t l ym a k e su s eo ft h eb a s i cc h a r a c t e ro fv i d e oa n d m u l t i v i s i o nc h a r a c t e rt or e a l i z ec o m b i n es e a r c h e s n es h o r t c o m i n gi st h a tt h e t e c h n o l o g yc a nn o tu s i n gt h es e m a n t i ca v a i l a b i l i t y h o wt od e f i n et h es e m a n t i ca n d d i s t i l lt h es e m a n t i ci n f o r m a t i o ni st h ek e y p r o b l e m s o ，t h ep a p e rs t u d i e st h e s e m a n t i cd i s t i l l i n gt e c h n o l o g yi nc b v r , a n dm o s t l yd i s c u s s e ss e m a n t i cd i s t i l l i n go n n e w sv i d e oa n dt h ea n a l y s i ss y s t e md e s i g n f i r s t , t h ep a p e ra n a l y s e st h ec h a r a c t e ro fv i d e od a t a , a n dp u tf o r w a r dt h e s e m a n t i cm o d e lo fv i d e oa n dt h et e c h n o l o g yo fs e m a n t i cd i s t i l l i n g t h e n , t h ep a p e r a n a l y s e st h em o s t l ya r i t h m e t i co fk e y - f r a m ed i s t i l l i n g ，a n dp u tf o r w a r dam e t h o do f k e yf r a m ed i s t i l l i n gb a s e do ns i m i l a rr a t i ob e t w e e nf r a m e s ，a n dp u tf o r w a r da n o t h e r m e t h o dt od i s t i l lt h ek e y f r a m e l a t e r , an e wa l g o r i t h mi sp r e s e n t e dt od e t e c ta n d l o c a t en e w sl o c a l - c a p t i o n su s i n gs p a t i o - t e m p o r a ld i s t r i b u t i o nf e a t u r e i nt h et v s y m b o lr e c o g n i z ea r i t h m e t i c ，t h ea r i t h m e t i cf i r s t l ym a k ei n t e r - f r a m ed i f f e r e n t i a lf o r t h ek e yf r a m e ，a n dd i v i d eu pt h ei m a g ea r e ao ft h et v s y m b 0 1 t h ep a p e rp i c k s - u p t h ew a v e l e tc h a r a c t e ra st h ep a r a m e t e ro ft h et vs y m b 0 1 a tl a s t , t h em e t h o d r e c o g n i z e st h et vs y m b o lu s i n gt h es v ma r i t h m e t i c a tl a s t ，t h ep a p e rp u tf o r w a r dt h ec h a r a c t e rs e m a n t i cd i s t i l l i n gm e t h o d 、t h e s e n s i b i l i t ys e m a n t i cd i s t i l l i n gm e t h o da n dt h es e i n es e m a n t i cd i s t i l l i n gm e t h o d i n t h em e t h o do fs c d l es e m a n t i cd i s t i l l i n g ，t h ea r i t h m e t i cd i v i d e su pt h en e w ss c e l l e u s i n gt h ec h a r a c t e ro f k e y - f r a m e 、t h el e n so f t o a s t m a s t e ra n d t h es u b j e c tt i t l e t h e n , t h em e t h o dd i s t i l l st h ep a r a m e t e ro ft h es c e n ea n dc o m p a r e dt ot h er e p o s i t o r yt 0 o b t a i nt h es c e n es e m a n t i c i nt h em e t h o do fs e n s i b i l i t ys e m a n t i cd i s t i l l i n g ，t h e a r i t h m e t i ce s t a b l i s h e st h em o d e lo fs e n s i b i l i t y s p a c e ，a n dr e a l i z e st h em a p p i n g b e t w e e nc h a r a c t e ra n ds e n s i b i l i t y s p a c eu s i n gt h em e t h o do fp r o b a b i l i s t i en e u r a l n e t w o r k ( p d a tl a s t , t h ep a p e ro b t a i n e dt h es e n s i b i l i t ys e m a n t i cu s i n gt h e r e p o s i t o r yo f s e n s i b i l i t ys e m a n t i c i nt h ee n d ，t h ep a p e rr e a l i z e st h en e w sv i d e or e t r i e v a ls y s t e mb a s e do nt h e a r i t h m e t i co f s e m a n t i cd i s t i l l i n g k e yw o r d s ： c b v r ； s e m a n t i c d i s t i l l i n g ；k e yf r a m e ；t vs y m b o l r e c o g n i t i o n ；l o c a l - c a p t i o ne x t r a c t i o n n 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得盛壑堡王太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者导师签名：么么：豸杉学位论文作者签名协锄学位论文版权使用授权书 rb ! 兄本学位论文作者完全了解盛壑堡工盍堂有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权盛壑理王太堂可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名钐馋 y 日y5 日第1 章引言第1 章引言 1 1 研究背景随着科学技术的进步发展和推广应用，特别是计算机技术和网络技术的发展，信息高速公路的建设，以及多媒体的推广应用，各种视频资料源源不断地产生，随之建立起了越来越多的视频数据库，出现了数字图书馆、数字博物馆、数字电视、视频点播、远程教育、远程医疗等许多新的服务形式和信息交流手段。视频作为一种集视觉、听觉和文本信息于一体的综合性媒体信息在人门的生活、学习、工作、娱乐等方面所起的作用越来越突出，各种视频服务对人们生活的方式和社会的发展所产生的影响越来越大。如何有效地组织、管理和充分利用视频信息资源，如何快速、高效地查询、检索所需要的视频内容，日益成为人们的迫切需求。作为获取视频信息资源重要手段的视频检索技术越来越受到广大学者的重视。视频信息检索的发展大致经历了两个阶段：基于文本标注的视频检索和基于内容的视频检索( c o n t e n t b a s e dv i d e or e t r i e v a l ，简称c b v r ) 。基于文本注记的视频检索实现过程是先给视频加上一个对其描述的文字或数字注记，然后在索引时对注记进行匹配检索。基于文本注记的视频检索在方法上较为简单，易于实现，但有几个根本的问题影响对视频信息的有效使用 4 。 ( 1 ) 人工注解需要大量劳动力，对目前海量视频数据用此方法很不现实。 ( 2 ) 特定的注记只适合于特定的查询要求。( 3 ) 文字注记主要靠观察人员进行添加，受主观因素影响很大，不同的观察者或同一观察者在不同条件下对同一视频可能给出不同的描述，因而不够客观，没有统一标准。( 4 ) 少数关键字无法清楚的描述视频丰富的内容( 背景、人物、事件) 。( 5 ) 由于基于文本注记的视频检索的基本结构单元一般都是整部视频，要想得到所需的视频片断，还必须通过快进或快退等顺序查找的方法进行查找，非常耗时。为克服基于文本标注的视频检索存在的不足，研究者们提出了基于内容的视频检索方案( c b v r ) 。基于内容的视频检索是指通过对视频资料从低层到高层进行处理、分析和理解来获取视频内容，并根据内容进行检索的过程。当前基于内容的视频检索系统主要利用视频图像的基本特征，以及综合各种视觉特征进行联合检索。成都理l ：人学硕+ 学位论文由于人对视频内容的理解是建立在人类已有知识基础之上的，而这些低级特征无法反映这些经验知识，如何有效地利用视频流中所包含的大量语义信息实现视频检索是当前研究的重点和难点问题。如何定义及理解视频语义，计算机如何自动提取视频的语义信息，使其尽可能与人对视频内容的理解保持一致，使计算机检索视频的能力接近于人的理解水平，从而达到视频检索语义处理的最终目标，是当前基于内容的视频检索技术研究的关键问题。本文以新闻视频为研究对象，建立了新闻视频的层次化语义模型，提出了视频语义的提取技术，并以此为基础开发了基于语义的新闻的视频检索系统，重点实现了新闻视频语义的自动分析与提取。 1 2 研究意义本课题“基于内容的新闻视频检索语义提取技术研究”是在基于内容的视频检索框架中，寻求计算机自动分析、提取新闻视频语义的解决方法。其现实意义表现在： ( 1 ) 建立视频低层特征与高层语义的关联，实现视频语义文本描述的自动获取，为海量视频信息检索提供了理论方法； ( 2 ) 由计算机自动分析、提取新闻视频语义，不再消耗大量的人力资源，同时避免了主观因素的影响，较好的保持与视频内容的一致性。 ( 3 ) 视频关键帧提取及其内容分割，为视频索引、浏览提供了组织框架，能快速的指向用户所查找的视频片断，具有较高的时效性。 ( 4 ) 开发基于内容的新闻视频语义分析实验检索系统，为商业系统开发提供实践基础。 1 3 当前国内外研究现状及研究难点自1 9 5 1 年c a l v i n 首次提出信息检索( i n f o r m a t i o nr e t r i e v a l ，简称i r ) 概念以来，视频检索技术得到了广泛研究。进入9 0 年代，基于内容的视频检索以及语义提取技术成为检索领域重要的研究内容，在语义提取算法理论研究方面取得了丰富成果，主要表现在：2 0 0 1 年h a r r y 和m a r i o s 从各方面分析了物体、事件和行为的语义模型，提出了视频语义层的语义模型。接着 r n a p h a d e 提出了 2 1 视频检索训练语义概念的三步骤：标注集的界面；基于标号样本的语义概念的表示框架；基于关键词的查询系统。同时，n g u y e n 提出了基于运动相似度的合并区域的鲁棒性方法。2 0 0 0 年w e r n i c k e 和 l i e n h a r t 提出 3 1 了一种新的具有鲁棒性的多分辨率的视频文本的定位、分割和识别方法等。 2 第l 章引言当前的视频检索系统主要有三类【4 】：一是基于目录型文本数据的检索方案，通过文本匹配实现检索。二是基于视频结构数据的检索方案，通过为原始数据建立一个在语义上和结构上的层次结构，实现对视频数据的检索。三是基于特征数据的检索方案，通过比较关键帧的相似度实现视频检索。目前开发的基于内容的视频检索原型系统主要有：i b m 的q b i c ，c m u 的 i n f o r m e d i ad i g i t a lv i d e ol i b r a r y ，哥伦比亚大学的v i d e o q ，浙江大学的 w e b s c o p e c b v r 和清华大学的t v f i 等。 q b i c 5 系统提供了对静止图像及视频信息基于内容的检索手段，允许用户使用例子图像、用户构建的草图和图画及其选择的颜色和纹理模式、以及镜头和目标运动等图形信息，对大型图像和视频数据库进行查询。i n f o r m e d i a d i g i t a lv i d e ol i b r a r y 包括视频分段、视频文字识别、语音分析与识别、自然语言处理、人脸检测等多个方面的内容，实现对视频资料的检索与概括 ( s u m m a r i z a t i o n ) 。v i d e o o 4 是一套全自动的面向对象基于内容的视频查询系统。它拓展了基于关键字和主题浏览的传统检索方式，提出了全新的基于丰富视觉特征和时空关系的查询技术，可以帮助用户查询视频中的对象。 w e b s c o p e c b v r 是浙江大学开发的一个面向w w w 基于内容的视频检索系统。它包含了视频获取，视频处理和视频查询三个子系统t v f i 系统( t s i n g h u a v i d e o f i n di t ) 是清华大学开发的视频节目管理系统。该系统可以提供视频数据入库、基于内容的浏览、检索等功能，并提供多种数据访问模式，包括基于关键字查询、示例查询、按视频结构浏览及按用户自定义类别进行浏览。当前基于内容的视频检索系统主要利用视频图像的基本特征，以及综合各种视觉特征进行联合检索，其缺点是不能有效地提取并利用视频流中语义信息实现检索。如何定义及理解视频语义，计算机如何自动提取视频的语义信息，使其尽可能与人对视频内容的理解保持一致，使计算机检索视频的能力接近于人的理解水平，从而达到视频检索语义处理的最终目标，是当前基于内容的视频检索技术研究的关键问题。计算机如何有效地自动分析并提取视频图像中所含的字幕、台标语义、人物语义、场景语义、情感语义等，最终实现视频的有效检索是本课题研究的难点和重点 6 。 1 4 本文的主要研究内容和章节安排本课题来源于宜宾学院2 0 0 6 年校级重点项目“基于内容的视频检索语义提取技术及系统设计”( 编号：2 0 0 6 2 0 4 ) ，课题主要针对基于内容的新闻视频检索语义提取过程以及实验分析系统设计中的若干问题进行探讨，主要内容及章节按排如下：成都理i ：人学硕十学位论文 ( 1 ) 分析并建立新闻视频的层次化语义模型。( 2 ) 分析关键帧提取技术，较快、较完整的提取出视频关键帧。( 3 ) 分析台标及字幕区域的分割方法，实现台标及字幕语义的提取。( 4 ) 以新闻视频为对象，分析人物语义、场景语义、情感语义的提取方法，实现计算机自动分析、提取新闻视频语义。( 5 ) 设计基于内容的新闻视频语义分析检索实验系统。结合以上研究内容，对论文做如下结构安排：第一章主要分析了课题的研究背景及意义、以及当前的研究现状及研究难点等内容。第二章主要分析了视频数据的特点并提出了视频语义的层次化模型。第三章主要分析了关键帧提取技术，提出了基于帧问似然比的关键帧提取算法和利用自适应阈值的聚类算法实现关键帧提取。第四章主要分析了基于文本信息的视频语义提取技术。重点分析了字幕提取技术和台标分割与识别技术。第五章分析了基于知识的语义提取技术。主要分析了“人物”语义、场景语义、情感语义的提取技术。第六章设计开发了基于语义的新闻视频检索实验分析系统，系统主要包括新闻视频语义分析与提取子系统和视频查询子系统。最后在第七章对文章所做的工作做了总结。 4 第2 章视频语义模型及提取技术第2 章视频语义模型及提取技术 2 1 视频数据特点分析多媒体信息资源已成为人们获取资讯的重要来源，其组成主要包括数字化的文本信息、图形与图像信息，以及数字化的视频与音频信息等。数字视频作为多媒体信息资源的一种，与传统的文本、图像信息不同，有其自几身的特点，主要表现为内容的多样性及其解释的模糊性等。在本节中，首先将视频数据与文本图像数据进行对比分析，然后总结出视频数据的特点。 2 1 1 视频与文本图象特点对比分析视频数据是一种非字符数值型数据( n o na l p h an u m e r i c ) ，以非格式化形式表示，文本图像则以结构化记录形式表示。视频数据与文本及图像数据自身特点上有很大的不同，主要体现在以下三个方面 4 3 ： ( i ) 视频数据具有空间( s p a t i a l ) 及时间( t e m p o r a l ) 双重属性。文本数据是一种纯字符数值型数据，没有空间和时间属性：图像数据是一种有空间属性但无时间属性的静态数据：而视频数据则具有空自j 与时间双重属性。空间属性表现在每一帧图像均为空间二维结构：时间属性表现在视频是以图像帧为单位并沿时间轴分布的流结构。视频数据的这种时间及空间多维动态无结构特性，使其表达和建立数据模型更为困难。 ( 2 ) 视频数据逻辑结构复杂。视频数据流主要通过连续的若干帧来刻画发生在一个特定时刻和环境的事件、任务、动作，以表达特定的概念信息，有着复杂的逻辑结构。 ( 3 ) 视频数据单元之间关系不明确。在文本数据库中，各数据单元之间的关系运算是十分明确的，如可以比较两个数据项之间是相等或不相等。然而，视频数据段之间的关系是十分复杂的，难以确切定义和比较。 2 1 2 视频数据特点视频数据主要具有内容信息量大、结构复杂等特点。 ( 1 ) 视频内容信息量大。视频包含了极其丰富的信息内容：电影视频可以讲述一个生动的故事：新闻视频可以表达国内外最新发生新闻事件；体育视频可以表达精彩的体育赛事；监控视频可以记录可疑的场景等。这些都是其他媒体所无法清楚表达的。然而由于其本身巨大的数据量以及复杂的逻辑结构，成都理i ：人学硕十学位论文使得视频数据与其它媒体数据在内容上有着不同的特点。主要表现为：视频数据内容的多样性 4 ：视频数据作为一种表达信息的媒体，其中所含内容可分为两类：一是与视频内容不直接相关但有某种联系的数据，常称为内容无关的元数据，如视频文件格式、路径、文件大小、作者名、同期、所有权等：二是与视频内容信息相关的数据，又可分为两个层次。一层是低层特征的数据，如颜色、纹理、形状、空间关系、运动等以及它们的组合，称为与内容相关的元数据。另一层是高层语义内容的数据，这种数据也常称为内容描述元数据，它关心视频实体和客观世界实体的关系，或者与感觉符号和场景相联系的时间事件、感受和意图的联系，例如描述体育比赛的视频数据，内容描述元数据是指比赛类别、主要动作等。视频内容解释的多样性 4 ：对于字符数值型数据有完全确切的客观的解释，而对于视频数据，由于受个人主观的因素，如感情、心理及生理因素等影响，对信息十分丰富的视频数据，不同的人和不同的环境下对同一段视频可能有不同的识知和解释，使得视频数据内容的解释呈现出多样性。视频数据的模糊性：视频数据无法象字符数值型数据那样，用一个确定的字段进行表征。在视频数据库中，常常只能用相似性进行查询，即用近似匹配来对视频数据进行查询。 ( 2 ) 视频内容结构复杂。由于视频数据具有空间及时问双重属性，并且数据单元之自j 关系不明确，从而导致视频内容结构复杂。 2 2 视频语义模型当前对“视频语义”的理解是：用人可以描述、理解和表达的方式来实“视频内容”的映射，它是用来描述原视频内容的高度概括和抽象的名词。最简单的语义表示方法是利用文本。其优点是可以描述一些高层的抽象的概念，并且比较直观，容易处理。然而由于视频本身内容的复杂性和多样性，在现有技术条件下不容易自动获取完整视频内容的文本描述，视频语义信息的提取和描述需要基于特定的模型。本文在总结分析了基于镜头的模型和基于对象的模型以及视频语义信息层次化表示模型，通过视频语义信息层次化表示模型可以在不同层次对视频语义信息进行概括。 2 2 1 基于镜头的模型对于一个视频序列可以分解为多个镜头的组合，镜头则包含一组连续的视频帧，用来记录一个连续的行为，镜头内的视频图像一般具有相似的视觉属性。由于镜头内各帧之间的内容具有相似性，因此可以用关键帧表示镜头的内容，关键帧指镜头内有代表性的一帧或者几帧图像，基于镜头的模型如图2 - 1 所示。 6 第2 章视频语义模型及提取技术在图2 - 1 中，关键帧、镜头构成了视频序列的概括。图2 - 1 基于镜头的模型 2 2 2 基于对象的模型基于对象的视频模型是指将视频对象做为视频表示和索引的基本单元【7 1 。通常情况下，视频对象与现实世界中的语义实体相对应，同时，视频对象在一定的视频序列中具有视觉特征一致性，可以通过其基本特征( 如颜色、纹理和运动) 的时空一致性准则获取视频对象，用于基于对象的视频索引和检索。基于对象的模型如图2 - 2 所示图2 - 2 基于对象的模型与基于镜头的模型相比，基于对象的模型的结构内存在间隙，因为视频对象可能在场景中消失后重新出现，而且由于多个视频对象可能同时出现。基于对象的模型主要适用于在相机静止时捕获的视频场景序列( 如视频监控序列) ，其原因在于摄相机静止，场景没有发生变化，无法将视频序列分为多个镜头，因此无法使用基于镜头的模型。同时，由于背景已知，可以较容易地提取和分割出场景中的视频对象 7 】。 2 2 3 视频语义信息层次化表示模型在基于镜头和对象的视频模型基础上，研究者提出了视频的语义信息层次化表示模型m 。主要包含了镜头( s h o t ) 、语义视频对象s v o ( s e m a n t i cv i d e o o b j e c t ) 、语义视频对象平面s v o p ( s e m a n t i cv i d e oo b j e c tp l a n e ) 、语义视频对象区域s v o r ( s e m a n t i cv i d e oo b j e c tr e g i o n ) 四层结构，如图2 - 3 所示。成都理i ：人学硕士学位论文图2 - 3 视频语义信息层次化模型在视频语义信息层次化模型中将具有相同背景的连续视频帧定义为一个镜头，同时将具有相似性的背景看作是一个特殊的语义视频对象，当一个特定的背景出现时，就是新的镜头的开始，当这个背景消失或者变化时，该镜头结束，以此将基于镜头和基于对象的视频模型结合起来。视频语义信息层次化模型中语义视频对象平面是指语义视频对象在某一时刻的实例【7 ，它包含了视频对象在某一时刻的形状、位置、以及多个视频对象之间的空间位置关系等。语义视频对象区域指对语义视频对象平面包含的具有某种特征( 如颜色、纹理、运动等) 一致性的区域，通常每个语义视频对象平面由多个区域组成。提取区域的特征形成区域描述符，这些区域描述符以及区域之间的空域关系体现了语义视频对象平面的视觉特征。 2 ，2 4 新闻视频的表示模型新闻视频主要表达什么人在什么地点发生了什么事，结合上文提出的视频语义信息层次化模型，本文将一个新闻视频片断作为对象，它包含各种属性和特征，同时组成新闻视频的各个部分也看成独立的对象，具有自身的属性和特征，且这些对象之间具有一定的关系。所有这些属性和关系，就构成了完整的视频描述 4 。其表示模型如图2 - 4 所示。在图2 4 新闻视频语义模型中，虚线外的部分即视频低层特征，主要包括视频的颜色( c o l o r ) 、纹理( t e x t u r e ) 、形状( s h a p e ) 、运动( m o t i o n ) 、响度 ( l o u d n e s s ) 、音调( p i t c h ) 、谐度( h a r m o n i c i t y ) ，m f c c 系数，时间跨度( d u r a t i o n ) 等可通过视频内容分析直接获得。虚线框内的视频内容，则不能通过原始视频直接获得，必须通过相应的语义处理才能获取。 8 第2 章视频语义模型及提取技术厂 i 图2 - 4 新闻视频语义模型 1 j 视频语义的一个重要特征是它的面向用户的特性n 。不同知识背景的人有不同层次和不同粒度的语义需求，例如对一些专业人员来说，他可能希望查询视频中的某一对象( 如政治人物、体育娱乐明星等) ，并对对象进行跟踪，以了解其状态等，而普通用户可能对一些概念级的查询更感兴趣，如查找主持人镜头等。考虑用户对不同层次和不同粒度语义的需求，同时结合语义处理过程的层次关系，进一步提出层次化视频语义模型( h i e r a r c h i c a lv i d e os e m a n t i c m o d e l ，简称h v s m ) ，如图2 5 所示。图2 - 5 新闻视频层次化语义模型 9 成都理1 2 大学硕+ 学位论文图2 - 5 中上一层次通常包含了比下一层次更高级的语义，而更高层次的语义往往通过较低层次的语义推理而获得。例如：要让计算机识别某一类的对象，比如新闻人物，首先必须让计算机“认识”该类对象，即获得对象概念的计算机内部表示，然后找出视频中可能提取对象的区域，再来判定对象的类别，对于对象间的时空关系，则是在识别出了对象的基础上来描述它们之间的位置关系及时间延展性。对于场景语义、行为语义和情感语义则需要通过对所描述的对象和场景的含义和目标结合相应的领域知识进行高层推理和判断才能得到。即这些推理和判断往往是建立在知识和学习的基础上，甚至还要利用心理学和认知科学方面的一系列成果。 2 3 视频语义提取技术视频本质上是由文本、图像、图形、音频等多态媒质交互融合形成的，根据多媒体特征的多层次性，视频图像的内容语义特征同样具有多层次化特点。视频图像特征通常被划分为三个层次，一是低层特征，主要是指视频图像的可视化特征，如颜色、纹理、形状等，主要包括视频图像的对象语义和空间关系语义：二是中间层次的体现图像中包含对象或目标的对象特征，如“人物”、 “树木”、“建筑”等：三是高级层次的场景、主题和情感等抽象特征，如图像整体所表达的涵义，以及渲染出的气氛带给人们的情感体验等。主要包括场景语义、行为语义和情感语义。在这些不同层次的特征中，除了可视化特征的提取一般无需借助外部知识，其它层次的特征在分析和提取过程中，通常都需借助外部知识，采取相应的推理、判断，以保证识别、提取的正确性。根据视频语义来源，将视频语义提取技术分为了两类，一类是基于文本信息的语义提取技术，另一类是基于知识的语义提取技术。 2 3 1 基于文本信息的语义提取作为视频高层语义的一种，包含在视频字幕和台标中的语义信息是目前唯一能够利用现有技术直接提取而不必通过语义推理的视频高层语义内容。如何从视频字幕和台标中自动提取文本信息受到了广大多媒体信息处理研究人员的重视。光学字符识别技术和( o c r ) 图象识别技术的同益成熟，为视频文本信息的自动获取提供了可能。为此，将在第4 章对视频流中字幕及台标语义信息的提取方法进行探讨，并将字幕及台标语义提取归类为基于文本信息的语义提取技术。 1 0 第2 章视频语义模型及提取技术 2 3 2 基于知识的语义提取基于知识的语义提取技术，主要特点是需要预先给系统提供必要的知识，如对象模板、场景分类器、事件认知规则等。由于视频语义内容本身的复杂性和多样性，现在大多方法使用多层语义抽取机制来进行视频语义处理，主要包含了特征提取、对象识别和基于领域知识的推理并获取语义这三个方面。基于知识的语义提取主要包括人物识别、场景分类、行为( 事件) 识别以及情感语义分析等，本文将在第5 章分析讨论基于知识的语义提取方法。成都理i ：人学硕十学位论文第3 章关键帧提取所谓关键帧是指在视频图像帧序列中具有代表性，能够反映一个镜头序列内容梗概的图像帧。它能有效地表示视频节目的主题和内容并反映其共同特征。关键帧提取技术是视频分析和视频检索的基础，是实现基于内容的视频检索( c b v r ) 关键技术之一。视频检索中使用关键帧可简洁有效地表达镜头的主要内容，大大减少视频操作的数据处理量，同时，用关键帧来代表镜头，为视频索引、浏览提供了合适的摘要，也为视频检索提供了组织框架。提取关键帧能将动态视频的研究转换到对静态图像的分析上，借助图像分析的方法从关键帧中提取颜色、纹理和形状等特征作为视频摘要和数据库索引的数据源，使视频检索的问题研究更为简化。关键帧的提取原则主要表现在两个方面1 8 ，一是保守的原则，即“宁愿错选，不能少选”；二是关键帧提取技术应尽量简洁，数据处理量尽量小，能快速实现视频分析和检索。 3 1 主要关键帧提取技术分析当前，国内外学者对关键帧提取技术进行了大量的研究，取得了一定的成果。关键帧提取的主要方法可归纳为以下几类： ( 1 ) 基于镜头的方法。基于镜头的方法主要将镜头切分的第一帧或最后一帧或中间帧作为关键帧，其优点是算法简单，运算量小，适合于内容活动性小和保持不变的镜头。其缺点是不能很好的适用于摄像机不断运动的镜头，限制了关键帧帧数，无法有效表达内容较长的镜头；同时，关键帧的优劣取决于镜头分割的结果，有较大的局限性。 ( 2 ) 基于聚类的方法。基本思路是 9 计算当前帧与已存在的每个聚类中心之间的距离，同预先指定的阈值相比较，若当前帧与所有聚类中心间的距离均大于该阈值，则从该帧开始形成一个新类别，否则将其分配到离它最近的类中，最后，取各类中离类中心距离最小的帧为关键帧。其优点是能有效地消除镜头间的相关性；其缺点是不能有效地保存原镜头内图像帧的时间顺序和动态信息。 ( 3 ) 基于运动分析的方法。此方法的代表是w o l f 提出的运动极小值算法 1 0 ，通过光流分析来计算镜头中的运动量，在运动量局部最小值处选取关键帧。 1 2 第3 章关键帧提取算法的缺点是依赖于局部信息，鲁棒性不强，而且计算量大。 ( 4 ) 基于压缩视频流提取的方法。此方法直接利用压缩视频数据中的某些特征来进行分析和处理，通常利用m p e g 压缩视频流中已有的离散余弦变换 ( d c t ) 的d c 系数和运动矢量( m v ) 来提取关键帧。其优点是无需对视频解压。减低了计算的复杂性。其缺点是在镜头渐变情况下算法鲁棒性不强。 ( 5 ) 基于内容分析的方法。基于内容分析的方法主要利用视频每一帧的颜色、纹理等视觉信息的改变来实现关键帧的提取。基本思路是：将第一帧作为关键帧，然后将其后的帧按顺序与这一帧作比较，当第k 帧与前一关键帧的帧差特征信息距离超过阈值p 后，则将第k 帧作为新的关键帧，按此进行，直至最后一帧。 3 2 基于帧问似然比的关键帧提取算法基于内容分析的方法直接由视频序列的图像帧依次进行比较，避开了镜头的分割，获得的关键帧有效地保持了原视频图像帧的时间顺序和动态信息，有利于实现视频分析和检索，是提取关键帧的一种有效方法。借助基于内容分析的关键帧提取算法的基本思想路，提出了一种基于帧间似然比的关键帧提取算法。基于帧间似然比的关键帧提取算法主要包含了帧间相似性的度量( 即帧间似然比的计算) 和关键帧提取等内容，算法的实现思路是：首先将视频颜色空间统一转换至l j y c b c r 颜色空间，在输入的视频序列v = f 。，f ：f 。中，将第一帧f 作为关键帧，然后依次取下一帧f n 。，与当前关键帧计算两帧的帧间似然比，如果大于给定的阈值，则将f 。作为新的关键帧，再向后继续取下一帧与新的关键帧进行比较，直至最后一帧，完成关键帧的提取。 3 2 1 颜色空间分割及特征选取当前，肝e g 一7 标准支持的颜色空间包括r g b ，y c b c r 等。考虑到人的视觉特性和y c b c r 颜色空间在亮度表示及分割方面的优点，算法选择了y c b c r 颜色空间， r g b 转换n y c b c r 颜色空间的公式如式3 1 所示 1 2 】。同时，为减少计算量，将y 、c b 、c r 三个颜色分量相应分割为1 6 、8 、8 个等级，即将y 、c b 、c r 三个颜色分量等分为1 6 块、8 块、8 块。】， c 6 c ， l 0 2 9 9 0 0 1 6 8 7 0 5 0 0 0 0 0 5 8 7 0 - 0 3 3 1 3 - 0 4 1 8 7 o 0 1 1 4 00 0 5 0 0 01 2 8 - 0 0 8 1 31 2 8 0 1 尺 g b 1 ( 3 1 ) 成都理f ：大学硕士学位论文本文采用当前帧( 第i 帧) y 、c b 、o r - - - 颜色分量的均值e y ( f f ) 、e c r ( f ，) 、 e c b ( f ，) 和方差s y ( f j ) 、s c r ( f 。) 、s c b ( f ，) 作为当前帧的特征参数参与帧间似然比的计算。由于采用颜色分量的均值和方差，避开了颜色分量的二维空间属性，使得算法对镜头突变和渐变有较强的鲁棒性，实验表明选取的特征参数能有效地描述帧间相似性 3 2 2 帧间似然比在基于内容分析的关键帧提取算法中，帧间相似度的描述对关键帧选取的结果有重要影响，为此，算法采用了y 、c b 、c r - - - 颜色分量的均值e y ( f t ) 、e c r ( f t ) 、 e c b ( f i ) 和方差s y ( f 。) 、s c r ( f ；) 、s c b ( f 。) 计算出帧自j 似然比来描述相邻两帧的相似度，帧间似然比的计算方法如下：设相邻两帧为f l 和f + ，用e y ( f 1 ) 、e y ( f j + 。) 、s y ( f i ) 、s y ( ) 表示相邻两帧( 第i 和i + l 帧) 在y 颜色分量的均值和方差，两帧间y 颜色分量的似然比计算如式3 2 所示： d i f f 一，= ( s y ( f ，) + s y ( f 。+ 。) ) 2 + ( ( e y ( f 。) - e y ( f 。) ) 2 ) 2 2 ( 3 2 ) 同理，两帧间c r 和c b 颜色分量的似然比计算如式3 3 、式3 4 所示： d i f f - 。= ( s c r ( f 。) + s c r ( f ；，) ) 2 + ( ( e c r ( f 。) 一e c r ( f 。+ 。) ) 2 ) 2 2 ( 3 3 ) d i f f - - c b = ( s c b ( f ；) + s o b ( f 。+ 。) ) 2 + ( ( e c b ( f 。) 一e c b ( f ；+ 。) ) 2 ) 2 2 ( 3 - 4 ) 根据计算出的y 、c b 、c r 三颜色分量的似然比得到帧间似然比的计算公式如式3 - 5 所示： d i f f = ( i * d i f f y + ( i 2 * d i f f 一( ：，+ 3 * d i f f c b ) 3 ( 3 - 5 ) 式3 - 5 中，u 。，u 。，。为相应的权值。 3 2 3 关键帧提取算法基于帧间似然比的关键帧提取算法步骤为： ( 1 ) 设输入的视频序列为v = f ，f 。f 。，提取f 。帧为关键帧，同时将 f 。帧作为当前关键帧k f 一。= f 。 ( 2 ) 抽取下一帧f 。，利用式( 3 2 ) 至式( 3 - 5 ) 计算f 。帧与当前关键帧k f 一。的帧间似然比。如果大于阈值p ( 阈值p 为经验值，根据视频序列的长度及变化程度设定) ，则f 。为所要提取的关键帧，同时将f 。帧作为新的当前关键帧k f 一，= f n 。如果小于阈值p ，则不作处理。 ( 3 ) 如果视频帧序列未处理完，转第( 2 ) 步继续判断。直到所有帧处理完毕，得到该视频的关键帧序列。 1 4 第3 章关键帧提取 3 3 利用自适应阈值的聚类算法实现关键帧提取聚类算法已广泛应用于模式识别、语音分析和信息检索等多种领域，也是关键帧提取采用的主要方法。然而，在聚类算法中，关键帧数由类别数确定，而类别数又取决于指定的阈值，因此，阈值的选取对关键帧提取的结果影响较大，而视频中镜头长短不一，内容干差万别，在对视频内容一无所知的情况下，要预先确定阈值是一个很困难的问题。对此提出了一种利用自适应阂值的聚类算法来实现关键帧的提取。算法首先根据视频内容的变化程度，自适应地确定聚类所需的阈值，然后采用聚类算法自动提取关键帧。 3 3 1 颜色空间分割及特征选取首先按第3 2 节中的式( 3 - 1 ) 将r g b 转换至l j y c b c r 颜色空间，同时将y 、c b 、 c r 三个颜色

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机应用技术专业论文）基于内容的新闻视频检索语义提取技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档