（通信与信息系统专业论文）基于内容的视频检索中的视频文本分析.pdf

上传人：扣*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：54 大小：1.60MB 积分：0 举报 版权申诉

已阅读5页，还剩49页未读，继续免费阅读

（通信与信息系统专业论文）基于内容的视频检索中的视频文本分析.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

基于内容的视频检索中的视频文本分析摘要视频中的文本所包含的信息对于视频的内容或语义是很有价值的，特别是对新闻视频，视频文本表达了整个新闻的中心意思。通过检测、定位和识别视频中的文字能有效地对视频的内容进行自动索引，并帮助用户通过文字检索的手段来查找他所需要的视频片断。如何从视频中检测文字，并进行文字识别等是视频文本分析的关键问题。本文将就基于内容的视频检索中的视频解码技术和视频文本分析技术这两方面对我们的工作进行介绍。本文一方面的工作是对h 2 6 4 的新特性及其解码技术进行了深入分析的基础上，结合基于内容的视频检索系统对解码器的要求，提出了基于m p e 9 4 i p 的两种解码器方案，讨论两种解码方案的实现，并对两种方案的解码性能进行了比较。另一方面的工作是分析了视频文本的图像特点，针对新闻视频中的文本大多是静止的特点，设计了基于时空分布特征的新闻字幕提取算法。算法实现时使用了两种算子，对这两算子的检测结果进行比较分析。该算法的贡献是利用多帧融合技术增强图像质量，提高了文字检测性能。最后将整个算法的实验结果送入商业的o c r 软件中识别，给出实验结果分析。关键词视频搜索视频文本分析h 2 6 4 解码文字检测 a n a l y s i s0 f d e ot e x ti n c o n l e n t _ b a s e dv i d e or e t r i e 、7 a l a b s t r a c t t h ec o n t e n to ft e x t si n d i g i t a l v i d e o sp r o v i d e sv a l u a b l e i n f o r m a t i o nf o rp e o p l et ou n d e r s t a n dt h es e m a n t i cc o n t e n to fv i d e o s s p e c i a u yf o rn e w sv i d e o s ，t e x t si nv i d e o si n c l u d et h em a i ni d e ao fn e w s o n c et e x t si nv i d e o sa r ed e t e c t e d , l o c a t e da n dr e c o g n i z e d ，t h er e s u l t sc a n b eq u i t eu s e f u lf o ri n d e x i n gt h ec o n t e n to fv i d e o sa u t o m a t i c a l l ya n d h e l p i n gp e o p l ef i n dt h ev i d e oc h i pt h e yn e e db yt h ew a yo ft e x tq u e r y h o wt od e t e c tt h et e x t sa n dr e c o g n i z et h e mi nv i d e oi st h ek e yp r o b l e mo f a n a l y s i so fv i d e ot e x t t h i sp a p e rd e s c r i b e so u rw o r ko nv i d e od e c o d i n g a n da n a l y s i so f v i d e ot e x ti nc o n t e n t - b a s e dv i d e or e t r i e v a l o n ea s p e c to f o u rw o r ki st op r o d u c et w os c h e m e so fv i d e od e c o d e r s b a s e dt h em p e 9 4 i pa c c o r d i n gt ov i d e od e c o d e r sr e q u i r e m e n to fs y s t e m s o f c o n t e n t - b a s e dv i d e or e t r i e v a l ，a f t e ra n a l y z i n gn e wf e a t u r eo f h 2 6 4a n d i t sd e c o d i n gt e c h n o l o g y t h e nw ed i s c u s sh o wt or e a l i z et w os c h e m ea n d c o m p a r et h ed e c o d i n gp e r f o r m a n c eo f t w os c h e m e t h eo t h e ra s p e c to fo u rw o r ki st oa n a l y z et h ei m a g ec h a r a c t e r i s t i c s o fv i d e ot e x t f o rt e x t si nn e w sv i d e oa r ea l m o s ts t a b l e ，w ep r o d u c et h e m e t h o do fn e w sl o c a l c a p t i o ne x t r a c t i o nb a s e do na p a t i o - t e m p o r a l d i s t r i b u t i o nf e a t u r e i nt h ea l g o r i t h m sr e a l i z a t i o n ，t w ok i n d so fo p e r a t o r s a r eu s e da n dt h ec o m p u t i n gr e s u l t so ft w oo p e r a t o r sa r ec o m p a r e da n d a n a l y z e d t h ea l g o r i t h m u s e s m u l t i p l e f r a m ei n t e g r a t i o n ( m f i ) t o e n h a n c ei m a g e se f f e c ta n di m p r o v et h eq u a l i t yo ft e x t sd e t e c t i n g a tl a s t ， w es h o wt h ea l g o r i t h m se x p e r i m e n t a lr e s u l t so ft e x tr e c o g n i t i o nu s i n g b u s i n e s s so c rs o f t w a r e k e yw o r d sv i d e or e t r i e v a l ，v i d e ot e x ta n a l y s i s ，h 2 6 4d e c o d e r ， t e x td e t e c t i o n 独创性( 或创新性) 声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢中所罗列的内容以外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处，本人承担一切相关责任。本人签名：日期：关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定，即：研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许学位论文被查阅和借阅；学校可以公布学位论文的全部或部分内容，可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释：本学位论文属于保密在一年解密后适用本授权书。非保密论文注释：本学位论文不属于保密范围，适用本授权书。本人签名：日期：导师签名：日期： 1 1 课题背景及意义第一章绪论 1 1 1 基于内容的视频检索背景【l 】随着各种数字影像设备的发展与普及，以及电影电视行业、计算机技术、通信技术、多媒体技术、压缩编9 1 7 3 小时、电影达1 5 4 部；仅美国有线新闻网( c n l 町在过去2 0 多年中，收集的档案资料长达1 2 0 0 0 0 小时以上，且每年新增1 5 2 0 0 0 0 小时资料。面对如此巨量的视频信息，人们要想在所有节目中寻找自己感兴趣的视频片段变得越来越困难，因此人们迫切需要一种视频检索技术，以便从大量的视频节目资源中查询自己感兴趣的节目，例如足球比赛中的射门镜头、一个演员的所有作品等。传统的视频检索技术方案常使用文字标识符，例如，对一段视频的查询是借助对视频的编号即标签来进行的。为实现检索，先给视频加上一个对其描述的文字或数字标签，然后在索引时对标签进行检索。这样，对视频的查询就变成了基于标签的查询。典型的传统视频检索系统框图如图1 - 1 所示：图1 - ! 传统视频检索系统的工作框图【l l 传统视频检索是注解员在离线状态通过手工方法对数据库内容进行注解，提供出在线应用时所需的索引。而用户借助文字查询方法利用搜索引擎进入索引进行检索，返回的结果以可视化的手段显示给用户，用户借助相关反馈开始新一轮查询。这样的方法很简单，但是由于标签主要是靠视频观看者选择添加的，标签的生成受主观因素影响很大，不同的观看者或同一个观看者在不同条件下观看同一段视频可能给出不同的描述，没有统一的标准，因此，标签生成的不客观性就会影响到对视频的有效检索。当然，也可以使用一些客观的描述来生成标签，如视频获取的日期，关键字等，但是这些又都不足以反映视频的内容，只适合特定的查询，不能满足实用的需求。而且，人工注解需要大量的劳动力，对目前海量的视频数据用此法很不现实。此外，这种基于人工文本注记的视频检索的基本结构单元一般都是整部视频，要想得到所需的视频片断，还必须通过快进或快退等顺序查找的方法进行人工查找，非常繁琐、耗时。可见，传统的视频检索方法不能自动、客观、完整地概括视频内容，在很多情况下不能满足用户的需求。比如，足球比赛中的射门镜头非常精彩，要从一场2 小时的录像带中迅速检索提取出射门镜头，就不是那么容易了。另一方面，人们利用视频并不是仅根据其视听觉质量而更重要的是根据它们所表达的内容，所以只有根据内容进行检索才可能有效地获取人们所需的视频，同时也只有在掌握视频内容的基础上才有可能对数据库中的视频资料进行有效的管理。比如对数字化足球比赛录像的管理，如能根据球赛比赛场景的情况建立索引，那么提取射门镜头就非常容易了。为此进入 9 0 年代以来，基于内容的视频检索成为一个非常活跃的研究领域。基于内容的视频检索技术是借助对视频从低层到高层进行处理、分析和理解的过程获取视频内容并根据内容进行检索。我们将与视频内容相关的信息数据分为两层：低层特征数据和高层内容语义数据。低层或中层特征的数据，如视频中图像的颜色、纹理、形状、空间联系、运动等，以及它们的组合( 也常称为与内容相关的元数据) ，一般来说，这种数据与感觉因素有关。高层内容语义的数据，这种数据也称为内容描述元数据。它关心视频中图像实体和客观世界实体的关系，或者与视觉符号和场景相联系的时自j 事件、感受和意图的联系。现有的基于内容的视频检索技术主要特点是首先通过视频分析提取视频本身包含的客观视听觉特征，主要包括颜色、纹理、形状、时空关系、运动信息、时间顺序、时间跨度等低层特征数据来描述视频内容。这些视频特征是一些可以独立、客观地直接从视频中获得的信息，通常用各种统计方法来描述。然后在视频分析的基础上建立数据模型提供一种非线性的视频浏览框架，典型内容包括关键帧抽取、视频目录表征和场景表征等。最后用视频片段相似性比较来进行感兴趣视频片段查询、检索，如检索相似视频、定位相似视频段和检索相似镜头等。上述方法是2 0 世纪9 0 年代视频检索技术研究的主流。这类系统主要支持基于范例检索( e x a m p l e - b a s e dr e t r i e v a l ) 、基于草图检索( s k e t c h - b a s e dr e t r i e v a l ) 和随机浏览及其组合的工作方式。基于内容的检索中的视频相似性体现在视觉相似性上，不需要人来解释，也就不需要或者仅需要少量的人工干预，尤其是在需要自动化的场合取得了一些应用。上述的查询检索方式在视频内容管理系统中可以允许用户选择一种或者多种特征组合的查询方式，它的优点是特征提取简单、容易实现。但在实际使用中，用户难 2 以自然地使用这种表达查询，因为选择哪种模型和哪些特征组合用于检索是不直观的，不符合人们习惯，尤其在选择多特征组合模型时特征参数之间的加权参数调整更难。由于人的感觉范围很大，即使在特征理解方面具有良好直觉的专家也难以从几个固定的特征表达模型中选择出最佳的模型和组合。因此，目前虽然基于内容的视频检索作为一项倍受关注的技术在研究和商业方面都取得了一定成果，但它只在特定的应用领域，如视频监控、目标跟踪等方面获得较好的应用。而要使视频检索技术真正满足用户普遍性、个性化的需要，必须把视频检索看作一个系统，考虑包括人在内的各种因素对于系统的影响。因为，人们判断视频的相似性并非仅仅建立在视频视觉特征的相似性上。用户在进行视频检索时总是存在一个大致概念，这个概念建立在视频所描述的对象、事件、情节以及表达的情感等含义上。理想的状况下，用户主要根据视频的含义，即一些高层的抽象的概念性的内容，而不仅仅是颜色、纹理、形状等低层特征数据，直观地进行分类并判别视频满足自己的需要程度。这些视频的高层的抽象的概念性含义就是视频的高层语义，它包含了人对视频内容的理解，这种理解是无法直接从视频的视觉特征获得的，而要根据人的知识来判断。人与计算机的本质不同就在于人观看视频时结合了日常生活中积累的大量的经验，观看视频的过程同时也是一个利用知识推理视频语义的过程。因此，基于视频内容中的高层语义内容的视频检索是更合理的视频检索方式。视频必须附加上包括语义在内的各种内容信息，才能真正支持基于高层语义检索，而前提则是要能够提供建立这些语义内容信息的过程。利用计算机视觉和机器学习的方法来让系统对于某些特定情况做出特定反应，是长期以来很多研究者努力的方向，对象识别和场景识别即是其中的一部分。使计算机检索视频的能力接近人的理解水平，这就是基于高层语义内容的视频检索的目的。为了更为有效的描述视频中的内容，需要从低层次的视觉听觉特征中提取高层次的语义信息，如何建立这些底层的特征与高层语义概念的关联，使计算机自动抽取视频语义是目前研究的难点所在：怎样综合运用各种知识指导及用户反馈，不断提高视频检索的有效性，是基于内容的视频检索系统设计和实现过程中的又一难点；第三个难点则是如何在视频镜头分段的基础上，进行不同层次不同目的的基于语义的分段，如足球视频中基于比赛事件的分段，再如视频监控中基于异常事件的分段等。而这三个方面的难点归根溯源就是一个问题，即有效的视频语义分析理论和方法。目前关于视频内容的语义分析或者是针对于特定领域的应用研究，或者是通过人机交互来提高性能。这方面研究工作主要集中在视频分类、亮点检测和视频语义分析等。使用的低级特征往往是多种信息的融合，包括视觉信息、音频信息、文字信息、运动信息等。为了语义概念建模，常常采用语义模板、隐马尔可夫模型( h m m ) 、支持向量机( s v m ) 、神经网络、b a y e s i a n 准则等建模方法，在用户交互的基础上，建立从底层特征到高级语义的映射，进而实现有效的基于内容的视频分析和检索。 1 1 2 基于内容的视频检索与视频压缩编码标准视频数据与字符数值类数据不同，它有巨大的数据量。这主要是由于产生数据的方式不同所致。字符类数据库中的数据均是由人工干预交互输入，而视频数据常常是由某种自动化手段产生的，如用摄像机或图像采集设备把各图像帧自动输入计算机中，此时数据不是以结构化记录形式表示，而是以数字视频形式的非格式化形式表示。一般来说，数字视频的数据量大约比结构化数据大七个数量级。为节省传送的带宽和存储空间，视频源均经过压缩编码后再存储传送，比如一路高清电视信号，不压缩时需要l g b i v s ，用m p e g - - 2 压缩后，只要2 0 m b i t s 。显然，要实现基于内容的视频检索，在对视频处理分析生成检索信息之前，必须先解决的关键问题就是视频的数据压缩编码和解码。总的来说，视频压缩编码是在充分掌握了图像信息的统计特性的基础上，利用其中相邻图像间及图像内相关性强的特点，寻求去除或减少这种相关性或改变图像信源概率分布不均匀的方法和手段，从而实现视频数据量的压缩。由制定视频压缩标准的组织的不同，目前的视频压缩标准主要有m p e g 系列和h 系列。 m p e g 系列是由国际标准化组织i s o i e c 下的一个制定动态视频压缩编码标准的组织制定的，该组织为视频压缩编码技术的标准化和实用化做出了很多的工作。先后提出了m _ p e g 1 、m p e g - 2 、m p e g - 4 等视频标准。 m p e g - 1 ：制定于1 9 9 1 年，为工业级标准而设计，目标比特率大约为1 5 m b p s ，典型的图像格式为c i f , 不支持交织。帧率从2 4 0 s 到3 0 f p s ，主要应用于多媒体视频存储。m p e g - i 也被用于数字电话网络上的视频传输，如非对称数字用户线路( a d s l ) ，视频点播( v o d ) ，以及教育网络等。 m p e g 2 ：制定于1 9 9 4 年，设计目标是高级工业标准的图象质量以及更高的传输率。考虑到视频信号隔行扫描的特点，m p e g 2 专门设置了”按帧编码”和”按场编码” 两种模式，并相应地对运动补偿和d c t 方法进行了扩展，从而显著提高了压缩编码的效率。考虑到标准的通用性，增大了重要的参数值，允许有更大的画面格式、比特率和运动矢量长度。除此之外，m p e g - 2 视频压缩编码还进行了以下扩展： ( 1 ) 支持4 ：2 ：0 ，4 ：2 ：2 ，4 ：4 ：4 等几种取样格式。 ( 2 ) 在空间分辨率、时间分辨率、信噪比方面的可分级性适合于不同用途的解 4 码图像要求。并可给出传输上不同等级的优先级。 ( 3 ) 码流结构的可分级性，比如头部信息、运动矢量等部分可以给予较高的优先级，而对于d c t 系数的高频分量部分则给予较低的优先级。 ( 4 ) 输出码率可以是恒定的也可以是变化的，以适应同步和异步传输。 m p e g - 4 ：是一种多媒体应用技术规范，它包含了四个重要的部份：系统、视频、音频、电脑合成资料，目标就是要实现通过互联网实时传输视频信号。视频部分的框架与m p e g - 2 类似。 m p e g - 7 与m p e g 2 1 ：m p e g - 7 是多媒体内容描述接口，用于信息表示，是基于语义的表示。m p e g - 7 定义了一个描述符标准集，用于描述各种类型的多媒体信息，与之相应的描述方案可以用于规范多媒体描述符的生成和不同描述符之间的有机联系。m p e g - 7 的目的在于提供一个标准化的核心集，以便描述多媒体环境下的视频和音频内容，最终使视频和音频搜集像文本搜集一样简单方便。新标准m p e g 2 1 是一个支持通过异构网络和设备，使用户透明方便地使用多媒体资源的标准，其目的是建立一个交互的多媒体对象，实现多种业务模型，包括对版权和交易的自动管理，对内容使用者隐私的尊重等。 h 系列是由国际电报电话咨询委员会( c c i t r ) 的第1 5 研究组1 9 8 4 年成立的一个专家组制定的，该组织专门研究电视电话和会议电视的编码问题，先后提出了 h 2 6 1 ，h 2 6 3 等视频标准。 h 2 6 1 ：采用帧间预测编码和帧内d c t 的混合编码方法，在帧问编码时采用了基于1 6 x 1 6 的宏块和整像素精度的运动估计，而在帧内编码时采用了8 x8 数据块的 d c t 运算。通过利用帧间预测去除时间上的冗余度，利用变换编码减少预测余量信号空问上的冗余度。因此当时的h 2 6 1 具有较高的压缩比，适用于p 6 4 k b p s 的视听业务，也可以用于i s d n 。 h 2 6 3 ：公布于1 9 9 6 年3 月，是h 2 6 1 的发展，重点在于改善低码率下( 小于 3 8 4 k b p s ) 的图像编码质量。在结构上仍沿用h 2 6 1 的帧间预测编码和帧内d c t 的混合编码方法。为了适应极低码率传输的要求，h 2 6 3 在相对于h 2 6 1 作了一些改进： ( 1 ) h 2 6 1 定义了q c i f 和c i f 两种图像格式，而在h 2 6 3 中有5 种标准的图像格式：s u b q c i f , q d cc i f , 4 c i f 和1 6 c i f o 出于对图像质量、成本和对h 2 6 1 的兼容性等方面的考虑，h 2 6 3 要求所有解码器能以q c i f 和c i f 格式工作。 ( 2 ) 在h 2 6 1 中，运动估计的精度为整像素间隔，运动矢量范围为( 1 6 + 1 5 ) 。而在h 2 6 3 中采用半像素精度运动估计，取值范围为( 1 6 o + 1 5 5 ) 。而且运动矢量是以差分预测的方式编码传输。对于半像素精度采用双线性内插来得到它的预测值。 5 ( 3 ) h 2 6 3 优化了可变长编码表( v i z ) 。同时，还提供了以下选项：无限制运动矢量模式、高级预测模式、p b 帧模式、基于句法的算术编码模式( s a c ) 。 1 9 9 8 年r r u - t 推出的h 2 6 3 + 是h 2 6 3 建议的第二版，它提供了1 2 个新的可协商模式和其他特征，进一步提高了压缩编码性能。如h 2 6 3 只有5 种视频源格式， h 2 6 3 + 允许使用更多的源格式，图像形状和时钟频率也有多种选择，拓宽了应用范围；另一重要的改进是可扩展性，它允许多显示率、多速率及多分辨率，增强了视频信息在易误码、易丢包异构网络环境下的传输。另外，h 2 6 3 + 的图像分段依赖性也可以是受限的，以减少差错传播。h 2 6 3 + 对h 2 6 3 中的不受限运动矢量模式进行了改进，加上1 2 个新增的可选模式，不仅提高了编码性能，而且增强了应用的灵活性。 2 0 0 3 年国际标准化组织( i s o ) 和国际电信联盟( 删) 共同提出的继m p e g 4 之后的新一代数字视频压缩格式h 2 6 4 ，h 2 6 4 又称作m p e g - 4 高级视频编码，是一种视频压缩标准，同以往的视频编码标准相比，压缩率显著提高。这项标准的压缩率大概是现有的m p e g - 4 a s p ( m p e g - 4 高级简易版本1 的两倍，另外在视频的清晰程度上也有所增加。在小于i m 带宽的条件下，h 2 6 4 标准可以达到d v d 的成像质量，适于不同的网络视频传输，比如无线网、卫星网、以及d s l 连接。 1 1 3 视频文本分析背景所谓视频文本指的是视频本身所含有的文本信息，而非后期给视频额外加上的文字描述信息等，比如电影中的对白文本，新闻视频中的字幕信息，都称为视频文本。视频文本往往含有大量的信息，如地点、说话者名称、节目介绍、运动比分、特别消息、日期和时间等等，这些信息可用于对相应视频流所表达的事件、情节以及情感等进行高级语义标注，它与视频内容同步，对视频内容的分析与理解有重要的作用，是视频高层语义内容的重要来源。特别对于新闻视频，字幕所表达的是新闻故事的中心意思，所有这段新闻的台词都是围绕这段字幕进行发挥，识别了这段字幕就相当于基本把握了这段新闻。视频文本分析就是直接从视频中提取出文本信息，用其对视频流进行标注，生成视频摘要的过程。因为视频文本不仅能够描述视频的内容，而且它比其他语义内容更容易获取，同时还可以支持基于关键字的视频搜索，故可利用视频文本分析，对视频资源建立高级的语义索引，实现基于高层语义内容的视频检索。因为文字搜索技术发展很完善，有大量检索算法可用，所以将视频文本分析应用到基于高层语义内容的视频检索中，具有方法简单，计算量小，搜索速度比较快，准确度比较高的特点。采用了视频文本分析的基于高层语义内容的视频检索方法，与传 6 统的用文字进行视频检索相比，其文字索引不是由注解员人工生成，不受主观影响，而是从视频中直接产生，能够直接获取视频的语义信息，客观反映视频内容，有效地提供用户所需的信息，同时避免了人工标注的繁琐性；与利用其他的高层视频语义内容进行检索相比，避免了难以建立从底层视频特征到高层语义的联系和检索的准确性比较低的缺点。因此，在基于内容的视频检索中，视频文本分析受到较多的关注，也是本文的主要研究内容之一。 1 2 主要工作及内容安排本文的主要工作是探讨了基于内容的视频检索框架，就基于内容的视频检索系统框架下的h 2 6 4 视频解码器的实现进行分析，给出解码方案，并针对新闻视频，研究基于内容的视频检索中的视频文本分析技术，设计实现了基于时空分布特征的提取算法。论文内容安排如下：第一章为绪论，介绍了本课题的研究背景及意义，包括基于内容的视频检索和视频文本分析的研究背景，还有视频编码标准的发展。第二章介绍了基于内容的视频检索框架，最新视频编码标准h 2 6 4 的新特性以及视频文本分析的基本理论。第三章介绍h 2 6 4 的解码技术，给出了用在基于内容的视频检索系统中的h 2 6 4 解码器的两种实现方案，分析了m p e 9 4 i p 的结构及其解码插件的选择和实现，并给出实验结果。第四章介绍视频文本分析技术中的关键部分字幕提取，设计了基于时空分布特征的字幕提取算法，并给出实验结果。第五章工作总结及展望，对现有的工作做出总结，并给出进一步的研究工作建议。 7 第二章基于内容的视频检索 2 1 基于内容的视频检索介绍 2 1 1 基于内容的视频检索的几个关键步骤1 2 j 基于内容的视频检索是对视频数据所蕴涵的物理的( 低层特征数据) 和语义的( 高层语义数据) 内容进行计算机分析理解，以便用户查询，其本质是对无序的视频数据流结构化，提取语义信息，保证多媒体内容能被快速检索。视频的语义内容是通过视频图像和文字共同表达与补充的。对视频内容进行分析就要对蕴涵在视频数据流内的媒质特征进行分析，这些媒质包括视频流中的图像帧，从视频图像中提取的字幕等信息。在对这些媒质提取特征后，就可以使用这些提取的特征来表征原有媒质，进而将连续的视频数据流分割成有语义的信息单元( 如镜头和场景等) ，最后将这些语义单元识别分类成先前定义的模版类型，为它们建立索引，方便检索与浏览。故一般的视频分析检索含有以下几个步骤：视频解压缩、视频特征提取、视频流数据分割、视频数据分类和视频数据索引结构的构造与检索，如图2 1 所示：图2 - l 视频分析与检索流程由于视频数据有着数据量大的特点，在视频数据存储和传输的过程中，视频数据都是以压缩形式存在。所以一般来说，在对视频进行分析处理前，要先对视频进行解压缩，因为视频图像的颜色等特征数据是定义在像素基础上的，也就是非压缩域上的。通过解压缩，将压缩视频数据还原成原始数据的形式，然后再将其送去视频分析处理。视频特征提取是指寻找原始信号表达形式，提取出能代表原始信号的数据形式。与文本分析中的特征是关键字不同，视频数据的特征可以是从图像与视频中提取的视觉特征，如色彩、纹理、运动和字幕等。由于视频信息是时间序列数据流，如同不能对1 0 0 m b 大小的纯文本信息直接分析而要把它分成不同的主题子段一样，也不能对几个小时长的视频直接处理，而是在其特征发生突变的地方进行分割，把连续视频数据流分割成不同长度的数据片段，这是视频流数据分割完成的任务，然后对分割好的数据片段进行处理。视频数据流分割基本是根据所提取的视频低层物理特征完成的，所分割出来的视频数据只是些物理单元，如把视频流分割成镜头单元，使每个镜头单元的视频数据特征基本保持一致。视频数据流分割得到视频低级语义后，进一步实现高层语义：使用视频目录方法对视频流进行结构化，建立由关键帧、镜头、组、场景组成的层次化视频目录结构，通过视频目录结构，用户可以方便对视频数据进行浏览和检索，好比每本书中书目所起到的作用。在得到每个物理单元后，要把这些物理单元归属到先定义好的不同语义类别中去。这便是视频识别分类需要解决的问题。 2 1 2 视频特征提取视频数据流是由图像序列( 图像帧) 构成的，一般而言，如果一秒钟播放2 5 3 0 秒张图片，就可以形成动画效果，而这2 5 3 0 张图片就构成了一秒钟的视频流。故视频特征是通过图像或连续图像视觉分析得到的，主要图像视觉特征有颜色、纹理、形状和运动等。一般用颜色直方图来表示颜色特征。所谓颜色直方图指一幅图像中不同色彩的分布，按色彩划分区间后，每个区间像素点总数就是颜色直方图了。颜色直方图具有与图像旋转、平移和视点变化无关等很好特性，但是颜色直方图计算结果与所使用的色彩空间有关，并且它不能反映同一色彩在图像空间中的位置，导致每个像素点在空间的位置信息丧失，所以即使两幅图像的直方图很相似，其本身的差异可能很大。为了克服这个困难，采用颜色聚合向量( c o l o r c o h e r e n c e v e c t o r ，c c v ) 直方图求精算法，此算法基于空闻连贯性对图像像素点进行分割。一个像素点如果属于一个大小可变的连续区域，并且其色彩与这个区域相似，则此像素点被称为空间连贯。c c v 计算图像中色彩相似区域数目和每个相似区域中相似点的数目来弥补传统直方图丢失像素点空间位置造成的缺陷。纹理是另一个重要的视觉特征。常用图像纹理有共生灰度矩阵纹理和t a m u r a 纹理。共生灰度矩阵纹理是有共生灰度矩阵得到，共生灰度矩阵表示了图像像素点之间的方向和距离，从共生灰度矩阵可以计算诸如粗糙度和同一性等纹理特征。t a m m 纹理结合视觉心理感知学，计算出粗糙度、对比度和方向性等图像纹理。由于t a m u m 纹理符合人的视觉感知习惯，所以在图像检索中很有效。其他的图像纹理还有马可夫随机场( m a r k o vr a n d o mf i e l d ) ，g a b o r 变换和小波变换等。形状特征可以通过运动矩( m o m e n ti n v a r i a n t ) 、傅立叶描述算子( f o u r i e r d e s c r i p t i o n s ) 、自相关模型( a u t o r e g r e s s i v em o d e l ) 和几何特征( g e o m e t r ya t t r i b u t e s ) 来表 9 达。形状特征可以分为全局和局部特征。全局特征从整个图像形状提取，如圆润性和中心力矩等。局部特征是对一个形状进行空间处理得到，不依赖于整个图像形状外观，如曲线点和转移角度等。最流行的全局形状表示是用傅立叶描述算子和运动矩。其他的形状表示还有有限元方法( f i n i t ee l e m e n tm e t h o d ) 、t u m i n g 函数和小波变换算子。上面所谈到的颜色直方图和形状都是从单幅图像中提取得到的，而运动特征则从图像序列中通过块匹配( b l o c km a t c h i n g ) 和光流场( o p t i c a lf l o w ) 计算获得。视频检索中，常用的运动特征有运动场力矩、运动直方图和全局运动参数( 仿射变换与双线性变换) 和相位相关( p h a s ec o r r e l a t i o n ) 等。更进一步，可以从这些运动获得反映高层运动的特性，如镜头摇摆和伸缩等。字幕是视频中另外一个可以利用的媒质。它是内嵌在视频流中的一种特殊信息，我们称为视频文本。视频文本为相应的视频流提供了高度概括的语义，在原始视频流的分析理解中发挥有效作用，它可以在自动定位、提取和识别后对相应视频流进行分割标注，从而实现基于高层语义内容的视频流的浏览和检索。例如，在视频新闻报道中，视频文本一般都概括叙述了所报道新闻发生的，时间、地点、人物和主要事件等重要信息。所以，视频文本分析也就成为视频检索的研究分支。一般从视频字幕中提取的特征有颜色、纹理和小波系数等。具体的视频文本分析方法介绍见后面的第四章。从上面看到，可以从视频数据流中提取出多个特征去表达视频内容。需要指出的时，在实际特征计算中，并不是对视频流中的每个图片帧均进行处理，而是从视频图像流中先提取出“关键帧”，从“关键帧”提取特征，“非关键帧”不进行任何处理。这种做法是出于视频内容时空连续相关性考虑，即前一帧和后续帧在内容上变化很少。比如，新闻联播主持人在播新闻时候，前一帧和后一帧只是主持人嘴巴区域位置会略有变化，其他区域保持静止。所以，没有必要对所有帧进行处理，而是选取那些有代表性的图片帧进行处理。关键帧提取是视频内容分析很重要的一步。 2 1 3 视频数据流分割根据提取出来的视频特征，把连续的视频数据流在特征发生突变的地方分割成不同的物理单元，进而由这些不同的物理单元组成高级语义场景( 即故事单元、故事片断和视频段落) ，是视频分割要完成的任务。早期的视频分割工作多集中在使用视觉特征( 如色彩、运动和纹理等) 等对数据流进行切分，当相邻两帧的视觉特征发生变化时，就将视频数据流从这两帧切分开来，成为镜头边界切分。一旦得到镜头边界，就可以很方便选取关键帧，通常方法是把每个镜头的第一帧和最后一帧作为关键帧。常常我们在观看视频的时候，都伴随有音频 1 0 信号，音频流信号也蕴涵了相当语义，因此，在视频流数据切分时，还可以考虑将视频特征和音频特征结合起来进行考虑。在将视频特征和音频特征联合起来考虑进行视频数据流切分的时候，一般基于这样的假设：如果视频场景发生变化，则视频特征和音频特征都会发生变化；而如果只是镜头发生转换，则只是视频特征发生变化。因此，如果数据流中视频特征和音频特征都发生了显著变化，则意味着发生了场景突变，新的场景出现；而如果只有视频特征发生变化，则意味着镜头边界出现，对视频流在镜头边界处进行切分。可知，判断相邻视频帧之间是否存在特征突变是视频数据流分割的关键。 2 1 4 视频识别分类在相邻视频数据发生特征突变时，对视频数据进行切分，所得到的只是视频数据的最小物理单元。而用户对视频信息进行检索是基于一定语义的，所以还必须通过视频分类识别把分割出来的多媒体物理单元标注成预定义的语义类，也就是赋予这些物理单元一定的语义场景概念。对分割出来的视频单元数据分类标注可以基于不同级别的语义层次：一是高级语义，这种语义内容是不同时间和空间的几个事件高度抽象概念化的结果，如“厄尔尼诺气候的形成”，它需要把不同时间和不同地点发生的事件有机组合起来进行表达。二是中级语义，是对某个事件的描述，不涉及几个事件的交叉，如“某个主持人的某类新闻报导”；最后是低级语义，它是分割检测出来的不同视频镜头。低级语义可以通过所提取的视频特征得到。在得到低级语义基础上，进一步实现中层语义：如，使用视频目录方法对视频流进行结构化，建立由关键帧、镜头、组、场景组成的层次化视频目录结构，通过视频目录结构，用户可以方便对视频数据进行浏览和检索，好比每本书中书目所起到的作用。在得到每个物理单元后，要把这些物理单元归属到事先定义好的不同语义类别中去，是模式识别需要解决的问题。在识别匹配时，预先定义一个语义模板，然后使用训练样本得到语义模板的。对于切分出来的未知视频物理单元数据，将它们与定义好的模板比较，如果两者能够匹配，则将要未知物理单元归属到这个语义类。 2 2 基于内容的新闻视频检索介绍 2 2 1 新闻视频的结构特点新闻视频在内容安排上较其它视频有相对规范的结构，以新闻联播为例，首先是片头，然后是标题新闻和主持人序列，接下来是国内新闻、国际新闻等，其中，国内图2 - 2 新闻视频检索的系统结构 1 2 在对新闻视频进行视频结构分析时，我们可以将视频文本分析与其他图像特征提取相结合，得到包含新闻字幕在内的视频特征信息，然后据此对新闻视频进行视频流分割和识别分类，从而实现新闻视频的结构化处理。视频流分割和识别分类的过程可以划分成三个阶段：镜头检测和分段、关键帧提取和新闻故事分段。由于新闻视频的特点，新闻视频的关键帧提取可以采取以下原则：一是包含字幕的帧，用户通过观看新闻标题字幕可以迅速掌握该段新闻大意；二是对没有字幕的镜头，选连续2 5 帧变化小于域值的即相当于镜头定格的帧作为关键帧；三是对纯音乐镜头不选关键帧。不论新闻故事是否出现主持人镜头或现场报道，每一个独立新闻故事在对应视频画面上都会出现一新闻标题字幕，包括新闻标题以及什么电视台是谁报道，且这一字幕一般为非滚动字幕，多出现在画面底部，标题字幕和标题字幕间的间隔较对话字幕要长得多，更重要的是它与新闻故事一一对应的，为此可以利用视频文本分析定位新闻标题字幕出现的位置，并进一步确定新闻故事边界，步骤如下： s t e p l ：首先利用视频文本分析对新闻字幕进行检测，提取相关字幕信息； s t e p 2 ：根据字幕位置信息、运动状况、相邻字幕间隔长度，剔除滚动字幕、对话字幕以及非标题字幕； s t e p 3 ：以标题字幕所在的镜头的前端边界作为独立新闻故事的边界。经视频分割和识别分类后最终形成对新闻视频的分层目录结构表示，并得到基于标题条的文本摘要和基于关键帧的浏览摘要作为视频摘要以供检索。 2 3 视频压缩标准h 2 6 4 2 3 1h 2 “标准概述 h 2 6 4 ， v c 是r r u - t 和i s 伽e c 联合制定的最新编码标准，它最先由r r u _ t 的 v c e g 于1 9 9 7 年提出，目标是提出一种更高性能( 相对于当时的h 2 6 3 ) 的视频编码标准。与先前的一些编码标准相比，h 2 6 4 标准继承了h 2 6 3 和e g l ，2 4 视频标准协议的优点，但在结构上并没有变化，只是在各个主要的功能模块内部使用了一些先进的技术，提高了编码效率。其主要表现在：编码不再是基于8 x 8 的块进行，而是在4 x 4 大小的快上，进行残差的变换编码。所采用的变换编码方式也不再是d c t 变换，而是一种整数变换编码。采用了编码效率更高的上下文自适应二进制算术编码 ( c a b a c ) ，同时与之相应的量化过程也有区别。h 2 6 4 标准具有算法简单易于实现、 1 3 运算精度高且不溢出、运算速度快、占用内存小、削弱块效应等优点，是一种更为实用有效的图像编码标准。 2 3 2h 2 “的档次 h 2 6 4 标准可分为三个档次【4 】： ( 1 ) 基本档次( b a s e l i n e ) ：是其简单版本，主要应用于视频会议和视频电话。选项包括：i 帧和p 帧；环路滤波器；帧编码( 不支持场编码) ；采用z i g - z a g 扫描，不支持交替扫描( a l t e r n a t es c a n ) ；不支持宏块的帧场自适应编码；运动补偿采用i 4 像素精度；树状运动补偿块划分模式( 至4 x 4 大小) ；基于v l c 的熵编码模式；任意片组排序( a r b i t r a r ys l i c eo r d e r , a s o ) ；灵活宏块排序( f l e x i b l em a c r o b l o c ko r d e r , f m o ) ；4 ：2 ：0 取样格式；冗余帧( 或冗余片组) 。 ( 2 ) 主要档次( m a i n p r o f i l e ) ：采用了多项提高图像质量和增加压缩比的技术措施，主要用于视频广播，如s d t v 、h d t v 和d v d 等。选项包括：支持b 帧；熵编码模式采用c a b a c ：自适应双向预测( 加权预测) ；其他所有b a s e l i n e 的选项，除 a s o 和f m o 外；支持场编码；支持宏块的帧，场自适应编码；当b a s e l i n e 不采用f m o 、 a s o 和冗余帧( 片组) 时，解码器能够解码b a s e l i n e 码流。 ( 3 ) 扩展档次( e x t e n d e dp r o f i l e ) ：应用于各种网络的视频流传输。选项包括：支持b 帧；支持s p ，s i 帧；可采用数据分割；自适应双向预测( 加权预测) ；其他所有b a s e l i n e 的选项；支持场编码；支持宏块的帧场自适应编码。 2 3 3h 2 6 4 的新特性 h 2 6 4 提出的目的是为了获得很好的图像压缩效果并能适应不同的网络环境。 h 2 6 4 有许多新的特点，如帧内预测、多参考帧运动估计、不同形状的宏块和子宏块的运动补偿模式、1 4 和1 8 像素精度、4 x 4 块的整数变换、环路滤波器、基于上下文的自适应二进制算术编码( c a b a c ) 等。为了提高视频传输的鲁棒性和更好的适应不同的网络，h 2 6 4 在系统级进行了概念性分层，视频编码层( v i d e oc o d i n gl a y e r ， v c l ) 和网络适配层( n e t w o r ka d

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于内容的视频检索中的视频文本分析.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于内容的视频检索中的视频文本分析.pdf

文档简介

温馨提示

最新文档

评论

相关文档