(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf_第1页
(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf_第2页
(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf_第3页
(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf_第4页
(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(信号与信息处理专业论文)基于内容的视频检索系统研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 秉承学校严谨的作风和优良的科学道德,本人声明所呈交的学位论文 是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知, 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表 或撰写过的研究成果,不包含本人或他人已申请学位或其他用途使用过 的成果。与我一同t 作的同志对本研究所做的任何贡献均已在论文中作 r 明确的说明并表示致谢。 申请学位论文与资料若有不实之处,本人承担一切相关责任 论文作者签名啼鸭磊 1 。_ 。 _ _ - _ _ _ 掌吗年3 月。1 日 保护知识产权声明 本人完伞了解西安理i :人学有关保护知识产权的规定,u l l :研究生在 校攻渎学位期问,论文一r 作的知识产权单位属西安理工大学。本人保证 毕业离校后,发表论文或使用论文成果时署名单位仍然为丙安理工大学。 学校有权保留送交论文的复印件,允许论文被查阅或借阅;学校可以公 布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论 文。 ( 保密的学位论文在解密后应遵守此规定) 论文作者签名:啦导师签名_ = 鲤毋n 3 年3h - 2 1h 摘要 论文题目:基于内容的视频检索系统研究 学科名称:信号与信息处理答辩日期:2 0 0 3 3 作者姓名:师鸣若签名:雪塑垄 导师姓名:胡涛教授刘畴副教授签名: 幽u 蜜 摘要 随着视频信息的人规模引入,基于关键字的传统检索技术已不能适应人们的需 要近年来,基于内容的检索成为研究的热点。本课题分析了现有的视频检索理论 框架,并对传统的文字识别算法加以改进,实现了视频帧中复杂背景下的实时文字 检测与数字识别。对视频中文字的丰富的语义信息加以分析,在镜头分割、场景聚 类的基础上形成镜头描述的特征空间,建立了以文字信息为主要特征的视频检索系 统。 本课题以篮球比赛的视频片断为例,主要进行了以下儿个方面的研究:1 ) 针对 视频中的“闪动”年| | “急跳”现象提出了“_ 二级镜头分割算法”,解决了镜头边缘 的误识别问题。2 ) 对所检测出的视频片断或整个视频流进行播放。3 ) 基本解决了 复杂背景下文字检测与定位问题提高了数字的识别速度与正确率。4 ) 文字区域的 检测分为固定区域和非固定区域的文字检测本文采用“双阈值窗! z 1 检测法”算法 讨论了对固定区域的探测。5 ) 使用改进了的模板匹配方法实现对印刷体文字进行识 别,在传统的模板匹配基础上。提出了“二值化掩码模板”和“三灰度加权匹配” 的算法。 本系统以m i c r o s o f tw i n d o w2 0 0 0p r o f e s s i o n a l 为操作平台采用m i c r o s o f t v i s u a ls t u d i oc 6 0 为工具开发出“n b a 篮球比赛视频检索系统”( 简称n b v r s ) 。 该系统采川模块化改计,层次分明,界面友蚶,识别正确率高,且基本满足了州户 西安琏工大学硕士学位论文 实时性检索的要求。同时该软件还具有视频的播放功能。最后对系统所采用的算 法进行了变验验证,并指出了后续研究的方向。 本漂溅在爨毒静程频援索摆懿上霹裁簇片段夔语义内褰鸯羹滚了理解,基本遮劐 依靠融分柬进行疆救的磊的。虽然每实用阶段还有距离,但对于其它研究寄着赣罄 意义,并热肖良好的应用前景。 关键词 :视频检索镜头分割模板匹配文字识别帧 摘要 r e s e a r c hi nc o n t e n t - b a s e dv i d e or e t r i e v a ls y s t e m s u b j e c t :i g 旦垒! 垦卫垂i 翌! q ! 堡垒! i q 堕乜! q ! ! ! i 翌g s u p e r v i s o r sn a m e :4 生i 世 s t u d e n t sn a m e a b s t r a c t d a t e :2 0 0 3 3 a st h ev i d e oi n f o r m a t i o ni n t r o d u c e dc o s m i c a l l y ,t h et r a d i t i o n a lr e t r i e v a l t e c h n o l o g yb a s e do nk e yw o r d sc a nn o ta c h i e v et h es a t i s f y i n gg o a l s ,i n s t e a d , c o n t e n t b a s e dv i d e or e t r i e v a ls y s t e mh a sb e e nt h ef o c u so fs t u d yo nv i d e oi n r e c e n ty e a r s t h es u b j e c tm a k e sa na n a l y s i so nt h et h e o r yf r a m eo fn o w a d a y s v i d e er e t r i e v a l ,a d dt h ei m p r o v e m e n t st ot h et r a d i t i o n a la l g o r i t h i n so fp r i n t e d c h a r a c t e rr e c o g n i t i o n ,a n dr e a l iz et h er e a l t i m et e x td e t e c t i o na n dc h a r a c t e r r e c o g n i t i o n o nt h ec o m p l e xb a c k g r o u n d t h ep a p e ra n a l y z e st h ef r u i t f u l i n f o r m a t i o no ft h et e x ti nv i d e o d e v e l o p st h es y m b o l i cs p a c et od e s c r i b et h e s h o tb a s e do nt h ev i d e os e g m e n t a t i o na n ds c e n e sg r o u p i n g ,a n de s t a b l i s h e st h e v i d e er e t r i e v a ls y s t e mc h a r a c t e r i z e dt h et e x ti n f o r m a t i o n t h es t u d yo nq u e r ys y s t e mu s i n gt h eb a s k e t b a l l v i d e of r a g m e n t sa sa n e x a m p l ei si n v o l v e di ns u c ha r e a s :f i r s t 。i nt h ec o n d i t i o no f “v i d e o f l a s h ” a n d “j u m p ”p h e n o m e n o n t h e “t w o l e v e lv i d e os e g m e n t a t i o na l g o r i t h m s o l v e st h em is t a k e nd e t e c t i o no ft h es h o te d g e :s e c o n d ,t h ep a r to rt h ew h o l e v i d e oa st h er e s u l to fd e t e c t i o nc a nb ew e l lp l a y e d :t h i r d ,t h et e x to nt h e c o m p l e xb a c k g r o u n dc a nb ed e t e c t e da n df i x e d ,n o to n l yt h es p e e db u ta l s ot h e r i g h tp r o p o r t i o nh a v e b e e ni m p r o v e d :f o r t h ,t h et e x tc a nb ed i v i d e di n t o “r e g u l a rd e t e c t i o n ”a n d “i r r e g u l a rd e t e c t i o n ”t h e “d o u b l et h r e s h o l d 西安理工大学硕士学位论文 w i n d o wd e t e c t i o na l g o r i t h m ”i sa p p l i e di nt h ef o r m e r ,a n da n o t h e ru s e st h e p r o g r e s so f “c r u d ed e t e c t i o na l g o r i t h m ”a n d “d e l i c a t ed e t e c t i o n ”:f i f t h u s i n gt h ei m p r o v e dt e m p l a t e sm a t c h i n gm e t h o dt or e a l i z et h ep r i n t e dc h a r a c t e r r e c o g n i t i o n “b i n a r y m a s kt e m p l a t e s m a t c h i n g ” a n d “t r i g r a y s c a l e m a t c h i n g ”a l g o r i t h m sa r ei n t r o d u c e d “n b av i d e or e t r i e v a ls y s t e m ”h a sb e e nd e v e l o p e du s i n gt h em i c r o s o f t v i s u a ls t u d i oc + + 6 0u n d e r “m i c r o s o f tw i n d o w2 0 0 0p r o f e s s i o n a l ”t h es y s t e m i sd e s i g n e do nt h em o d u l es t r u c t u r e ,s ot h ea r r a n g e m e n ti sc l e a r l yd e m a r c a t e d a n dt h ei n t e r f a c ei sh a n d l e df r i e n d l y i tc a nr e a l i z eh i g h l yr i g h tr a t eo f r e c o g n i t i o n ,a n d s a t is f i e d t h eu s e r sr e a l t i m er e t r i e v a l a tl a s t ,t h e a l g o r i t h misv e r i f i e d a n dt h el a t e rr e s e a r c hd i r e c t i o n sa r ea ls op o i n t e do u t k e yw o r d s :v i d e or e t r i e v a l v i d e os e g m e n t a t i o n ,t e m p l a t e sm a t c h i n g ,t e x t d e t e c t i o n ,f r a m e 第一章绪论 1 1 基于内容视频检索技术( c b v r ) 的提出 9 0 年代以来,多媒体技术发展突飞猛进,多媒体数据呈现出爆炸性 地增长,包括视频、音频、图象等的多媒体信息大量涌现。而在各种多 媒体素材( 包括文本、图形、图象、音频、视频和动画) 中,视频信息以其 直观性、生动性和极大的亲合力倍受人们的亲睐。尤其是近年来,随着 计算机技术、网络技术、通信技术、信息编解码技术及大规模集成电路 技术的飞速发展,数字视频的存储和传输技术都取得了重大的进展,因 而对这些海量的而且包含大量非结构化信息的数据如何组织、表达、管 理、查询和检索就成为迫切的需求。基于内容的视频信息检索技术 j l ( c o n t e n t b a s e dv i d e or e t r i e v a l 简称c b v r ) 始终是视频研究领域的 一个热点问题,也成为未来信息高速公路,数字图书馆等项目中的关键 技术bj 。 视频中的文字表达了丰富的语义,这些信息将直接有助于图象内容 的理解。视频中复杂背景下的文字识别是真正实现基于内容检索的重要 方面。我们希望能够着眼于视频本身的组织结构,充分利用视频中文字的 特点,提出基于视频的文字提取与识别,从文字中获取有关图象内容的信 息,达到检索视频的目的。 1 2 基于内容的视频检索综述 1 2 1 基于内容检索 基于内容的检索( 3 1 ( c b r ,即c o n t e n t - b a s e dr e t r i e v a l ) 是多媒体数 据库信息检索中的一门新兴的技术。它是指从多媒体数据中直接提取出 l 西安理工大学硕士学位论文 对象的语义、特征( 如图象的颜色、纹理、形状,视频中的镜头、场景、 镜头的运动,声音的音色、音调、响度等) ,然后根据这些线索对大量存 储在数据库中的媒体信息进行查找,检索出具有相似特性的媒体数据来。 c b r 能从大型分布式数据库中,以用户可以接受的响应时间,查询到所要 求的信息。 1 2 2 基于内容的检索在视频中的应用【4 h ” 人们总是希望可咀直接检索到一段包含特定信息的视频片段,例如: 足球比赛中的射门镜头、含有日出景色的片断等。在传统的数据库系统 中,信息的检索一般以数值和字符型为主。视频数据库中集成了大量的 非格式化信息,它们具有数据量大、信息不定长、结构复杂等特点。这 些媒体数据都有一些难以用字符和数字符号描述的内容线索,如某帧图 象中某一对象的形状、颜色和纹理,视频中的运动等。当用户要利用这 些线索对数据进行检索时,首先要将其人工转化为文本或关键词形式。 这种转换带有一定的主观性,且极其费时。因而仅仅基于关键词的检索 已不能满足用户的检索要求。数据库及其它信息系统不仅要能对图象、 视频等媒体进行存储以及基于关键字的检索,而且要对多媒体数据内容 进行自动语义分析、表达和检索,基于内容的视频检索正是这样一种应 运而生的检索方法。 基于内容的视频检索提供了这样一种算法:在没有人工参与的情况 下,自动提取并描述视频的特征和内容。这是一门交叉学科,以图象处 理、模式识别、计算机视觉、图象理解等领域的知识为基础,从认知科 学、人工智能、数据库管理系统及人机交互、信息检索等领域,引入新 的媒体数据表示和数据模型,从而设计出可靠、有效的检索算法、系统 结构以及友好的人机界面。目前,基于内容的视频检索研究,除了识别 和描述图象的颜色、纹理、形状和空间关系外,主要的研究集中在视频 绪论 分割、特征提取和描述( 包括视觉特征、颜色、纹理和形状及运动信息 和对象信息等) 、关键帧提取和结构分析等方面。 a 基本概念 帧视频可以看作是一个连续静态图象的序列,其中的每一幅静 态图象称为一帧。 镜头由摄像机记录下来的一段连续的帧序列,它是一段视频的 物理组成单元。 关键帧一幅能描述镜头主要内容的帧。根据内容的复杂程度, 一个镜头可以有一个或多个关键帧。 - 场景由一些语义相关的镜头组成,这些镜头不一定在时间上连 续。场景描述了一个独立的故事单元( 或者说是一个高层概念) ,它是一 段视频的语义组成单元。一段视频的典型结构如图卜1 所示。 图卜l 视频结构 一般来说,一段视频由一些描述独立故事单元的场景构成;一个场 景由一些语义相关的镜头组成:而每个镜头是由一些连续的帧构成,它 可由一个或多个关键帧表示。 基于内容的视频分析,就是要从所有的帧中提取主要内容,并从下 至上地对视频内容进行结构化描述。为了实现这个目标,我们须对视频 进行如下处理:视频分割、特征提取和视频内容的组织。 图卜2 描述了基于内容的视频处理的主要过程。视频首先被分割成 3 西安理工大学硕士学位论文 各个镜头,并对每个镜头进行运动分析( 主要针对摄像机运动和物体运 动) 。基于运动分析,我们可以提取并跟踪镜头中的对象,同时选择或构 造关键帧,来描述视频内容。然后,根据提取镜头、关键帧和对象的视 觉特征,进行索引。通过视觉特征的相似度计算,镜头被组织成场景。 最终,用户可以通过一种简单方便的方法浏览和检索视频。 用户 b 关键技术 浏览卜视频结构 查询 索g 图1 - 2 基于内容的视频处理过程 运动信 关键帧 对象信 息 镜头分割、特征分析、关键帧提取、视频结构分析 c 前景展望 基于内容的多媒体检索技术,将会在以下领域中得到更广泛的应用 数字图书馆、网络多媒体搜索引擎、交互电视、远程教育,远程医疗, 远程购物、多媒体编辑( 个人电子新闻业务、媒体写作) 等。 1 2 3 基于内容检索的特点o ( 1 ) 以综合性学科为基础:基于内容检索属于多媒体的综合集成技 术。它利用图象处理、模式识别、计算机视觉、图象理解等学科中的一 些方法作为基础技术,从认知科学、用户模型、图象处理、模式识别、 宦 扭盐e盐 耋 培论 知识库系统、计算机图形学、数据库管理系统,以及信息检索等领域中 获得启发,引入新的媒体数据表示和数据模型,产生出有效、可靠的查 询处理算法和可视化查询接口,以及与领域无关的检索技术和系统结构。 ( 2 ) 客观性:从媒体内容中提取信息线索。基于内容的检索突破了传 统的基于表达式检索的局限,它直接对图象、视频、音频内容进行分析, 抽取媒体语义和视觉、听觉等特征,利用这些内容特征建立索引,并进 行检索。由于突破了传统的基于文字表达式的局限,避免了用字符标识 图象的转化过程,从而大大提高了检索过程的效率和适应性。 ( 3 ) 相似性比较:基于内容的检索是一种近似匹配。由于对内容的表 示不是一种精确描述,因此,c b r 采用相似性匹配的方法逐步求精,以获 得查询结果,即不断减小查询结果的范围,直到定位于要求的目标,这 是一个迭代过程。这一点与常规数据库检索中的精确匹配方法不同。 ( 4 ) 交互性查找:c a r 系统充分发挥人和计算机各自的长处,利用人 对于物体的内容特征比较敏感,而计算机善于从大量数据中标识对象和 从事重复性的工作,把交互操作引入到查询过程中。 ( 5 ) 直观的查询方式。 ( 6 ) 应用于大型数据库( 集) 的快速检索。 1 3 课题研究的内容及难点所在 1 3 1 课题研究的内容 本课题以n b a 篮球比赛中的比分识别为研究材料,最终建立起一个 以比分查询为主的视频检索系统n b v r s 。视频的来源可以是光盘,网上播 放的视频片断,以及各种电子数码装置的输出流等等。研究材料的选择 有以下三个依据: 西安理工大学硕士学位论文 a 对于运动比赛的视频分析与理解具有很好的应用前景及商业契 机。 b n b a 篮球比赛相对于其它比赛( 如足球等) 其字幕背景更加复杂, 有利于提高文字检测及识别算法的适应面和可移植性。 c 我们选用的是一段经过人工剪辑的视频,它相对于一般的现场直 播,镜头转换频繁,且镜头间切换形式多样,视频的结构化难度提高, 这就需要提出更加快速、有效的镜头分割算法。 整个系统主要有视频检索和文字识别两个模块构成,图卜3 显示了 其工作过程。 篮 建 吧旦堕 卜斗 球 立 抽 视 比 过 取 虻! 堕 _ 斗 视 频 赛 滤+ 缸 频 检 媒 器 帧结 索 体 图 图 + i 塑兰堡墨 +构 和 表 象 放 虻玉塑匝 _ 斗 圈1 - 3n b a 篮球比赛视检索系统结构图 系统对压缩的m p e g 图象序列进行检索,找到关键的图象帧或镜头,进 行播放,以帧为单位来进行识别,并考虑到相邻帧的特性,以得出比赛中的 得分情况。同时有效地提高文字识别的准确率和识别速度,并力图使数字 识别准确率达到1 0 0 。 1 3 2 课题研究的难点 n b v r s ( n b av i d e or e t r i e v a ls y s t e m ) 是以篮球比赛为题材的视频 检索系统,系统的建立涉及以下两个主要方面:一是视频流中文字的识 培论 别;二是以镜头分割为基础的视频结构的建立。 针对视频流中文字识别,由于视频流本身是一个动态变化的过程, 如何对视频流中文字进行检测与定位,进行文字与背景的分割,找到一 种抗干扰能力较强的文字识别算法是研究的难点。针对文字的探测,提 出了“双阈值局部窗口检测法”,针对文字识别,提出了“二值化掩码 模板”和“三灰度加权匹配”,以有效地进行检测。 由于视频的内容极其丰富,因而传统的镜头分割算法往往出现较高 的误检测现象,如何对误检测进行较正,提高镜头分割的精确度是建立 n b v r s 的另一个难点。我们提出了“二级镜头分割算法”,解决了视频中“闪 动”和“急跳”的误检测现象。 同时还须考虑以下的几个因素: ( 1 ) 基于内容的检索在理论上只是一个框架,不甚成熟,同时要把它 应用于实际,需要不断尝试,从技术上讲,系统开发的工作量极大,并 以求在理论及算法上有所创新。 ( 2 ) 视频流需要进行实时性的识别,在保证一定的正确率的情况下, 如何提高速度也存在一定的困难。速度和正确率始终是一对矛盾,我们 可以利用一些“局部处理”的观点来提高搜索速度,同时提高识别的j 下 确率。 ( 3 ) 不论是分割算法还是识别算法都应该考虑到时间成本,也就是算 法本身运算不能过于复杂,必须是简单有效,以保证整个过程的实时性。 1 4 国内外研究现状】【1 :, 基于内容的检索倍受关注,虽有一些共识,但大家的见解也不甚相 同,其中微软中国研究院的多媒体计算组( m e d i ac o m p u t i n gg r o u p ) 在 新一代多媒体的自适应性研究方面特别是“智能搜索引擎”和“智能视 频浏览器”方面取得的重大突破。目前,他们的研究致力于解决多媒体 内容的自动分析、有序化和可视化、以及自适应的内容传递。在完善多 西安理工大学硕士学位论文 媒体的内容分析和编目新技术的同时,还提出了“机器学习”的方法。 利用“相关反馈”的原理,使基于内容的图象检索率达到更高。开发出 了新一代互联网的智能搜索引擎,能够对自然语言提出的问题进行搜索, 并通过系统学习,形成记忆,真正实现了人机对话。这项技术将为开创 智能化的新一代超级门户网站提供强大的技术支持,带来多媒体技术的 一次飞跃。 国内外已研发出了多个基于内容的视频检索系统,主要有: q b i c 系统( q b i cq u e r yb yi m a g ec o n t e n t )是由i b ma l m a d e n 研究中心开发的,是“基于内容”检索系统的典型代表。q b i c 系统允许 使用例子图象、用户构建的草图和图画及其选择的颜色和纹理模式、以 及镜头和目标运动等图形信息,对大型图象和视频数据库进行查询。视 频方面主要利用了颜色、纹理、形状、摄像机和对象运动来描述内容。 v i s u a l s e e k 系统v i s u a l s e e k 是美国哥伦比亚大学电子工程系与 电信研究中心图象和高级电视实验室共同研究的一种在互联网上使用的 “基于内容”的检索系统。它实现了互联网上的“基于内容”的图象视 频检索系统,提供了一套供人们在w e b 上搜索和检索图象及视频的工具。 我国在文字识别特别是数字识别方面已有长足的发展,如清华紫光 在印刷体文字识别方面处于领先地位,汉王科技公司在手写体汉字识别 及产品方面已有良好的成绩。但他们的识别对象大多是背景单一的静态 图象,并且其产品存在识别率和识别速度等方面还有待提高。目前,对 于复杂背景下的动态图象的实时文字识别研究并不多,本课题正是针对 以上的矛盾而提出的,文字识别作为本题理论上的突破点,同时也是对视 频进行处理的一个重要手段。尤其需要指出的是,我们这里的文字识别是 在基于内容检索的基础上提出的,文字识别的结果是理解视频内容的特 征空间的重要组成部分,并作为划分场景的依据,可以实现更有效地检 索。因此我们在文字识别时不仅会考虑到一帧图象的静态信息,同时也会 注意到相邻帧中有价值的动态信息。 系统总依设计 第二章系统总体设计 “n b a 蓬球眈赛稷颓捡索系统”( 篱豫n 群瑟) 戳m i c r o s o f tw i n d o w 2 0 0 0p r o f e s s i o n a l 为操作平台,采用m i c r o s o f tv i s u a ls t u d i oc + 十6 0 为开发工麒。该系统总体设计如图2 1 所示,从总体上讲,系统须实现 以下四大功能: ( 1 ) 撵放视频滚,劳纛媛频援放过程中,溺步地裁取视频椟,镪 括褪频竣的数据漉帮筏额赣瓣穆式,鞋侵遘霉亍秘颡结梅分褥。 ( 2 ) 在视频流中进行文字识别,将得到的信息存入数据表中作为 视频的一个重要特征; ( 3 ) 视频结构分析,包括镜头分割、划分场景和特征提取,建藏 一令蠡疆爨下鹳褪凝特 歪攒逐窆阉; ( ) 完善视频的检索和浏览接口,方便用户的交互,按照蕊予内 容的要求对视频进行检索私浏览。 图2 l 援壤检索系统总薅漫诗黼 9 西安理工大学硕士学位论文 视频描述空间的重要特征都存放在视频检索数据库( 表) 中,以便检 索用户通过本系统提供的接口来提取。从结构上看,本系统可分为四大模 块,即视频帧捕获模块,文字识别模块,镜头分割模块和视频播放和浏览 模块。 2 1 视频帧捕获模块d 2 - t 1 5 本系统所用视频流的来源为本地文件或为来自i n t e r n e t 的多媒体 流。媒体流的压缩编码方式多种多样,按用途可分为以下两类: ( 1 ) 用于局域网、c d r o m 或d v d 的,特点为图象质量好,码率较 高。m p e g i ( m o t i o np i c t u r ee x p e r t sg r o u p ) 是v c d 的压缩标准、m p e g 2 是d v d 的压缩标准、a v i ( a u d i ov i d e oi n t e r l e a v e ) 是微软的多媒体标 准。 ( 2 ) 用于i n t e r n e t 的,图象质量略逊于前者,码率较低。r m ( r e a l m e d i a ) 是最早采用的直接在网上观看视频节目的压缩格式、 a s f ( a d v a n c e ds t r e a m i n gf o r m a t ) 是微软推出的与r m 类似的流媒体格 式,采用了m p e g 4 的压缩算法,m p e g 4 是一种面向对象的新型压缩算法, d i v x 视频编码技术是一种对d v d 造成威胁的新生视频压缩格式。 m o v ( q u i c k t i m e ) 是a p p l e ( 苹果) 公司创立的一种视频格式,无论是 在本地播放还是作为视频流格式在网上传播,都是一种优良的视频编 码格式。 如上所述,由于视频流可能为多种格式的视频文件,因而要完成 对视频帧的捕获时必须要考虑每一种文件格式的特点,精通每一种格 式的规范,并能按规范对每一种视频进行解码,而后得到待处理的每 帧静态图象。视频压缩格式规范复杂,解压缩的工作量很大,这是 多媒体应用都须解决的关键问题,而且对于视频检索系统来说,处理 的对象不可能局限于某一种格式或规范,对于视频结构分析又是一个 非常复杂的多媒体应用,必须具体考虑到每一帧图象。因此,如何找 系统总体设计 到一种通用的方法来实现多媒体文件的解压缩和视频帧的捕获就成为 系统构建的第一步。 组件技术的出现为多种类型帧捕获的实现提供了技术依据,而 d i r e c t s h o w 使这种想法成为可能。组件技术,也称为软总线技术,是 一种二进制代码级标准,它不依赖于任何特定的编程语言,并以组件 为发布单元,组件的访问必须通过接口( i n t e r f a c e ) 来完成,组件规定 的接口不变性保证了组件的兼容性。常用的组件模型由三种:c o m 组件, c o r b a 组件、j a v ab e a n s 组件。其中,c o m 组件是微软推出的标准,当 c o m 组件被注册到系统后,应用程序可通过组件的名称或i d 号来得到 该组件的接口指针,并能通过访问该组件的方法来调用组件的功能。 d i r e c t s h o w 是微软公司推出的d i r e c t x 套件中的一部分,它提供了基于 本地或网络的各种格式( a v i 、m p e g 、q u i c k t i m em o v i e 以及w a y ) 的媒 体流回放以及基于v i d e of o rw i n d o w s 和w d m ( w i n d o w sd r i v e rm o d e l ) 的视频采集。 d i r e c t s h o w 组件的a c t i v e x 形式即我们熟悉的a c t i v e m o v i e 。 d i r e c t s h o w 的实质是以“过滤器”( f i l t e r s ) 组件为核心的模块化系统。 用各种过滤器组合成不同的“过滤器图表”( f i i t e rg r a p h ) 就可以完 成回放、采集等不同任务。一个称为“过滤器图表管理器”( f i l t e rg r a p h m a n a g e r ) 的组件负责f i l t e r 之间的连接和媒体流的调度,应用程序通 过它来控制f i l t e rg r a p h 。 d i r e c t s h o w 的技术基础是c o m 技术,所有的d i r e c t s h o w 组件,如 f i l t e r 、f i l t e rg r a p h 、f i i t e rg r a p hm a n a g e r 等都是用c o m 对象实 现的,因此,应用程序可以利用对象f i l t e rg r a p hm a n a g e r 所提供的 c o m 接口来访问f i l t e rg r a p h 。采用这种访问方式,应用程序可以获 得对f i l t e rg r a p h 的完全控制,包括f i i t e rg r a p h 的构建、媒体流 的控制以及接收由f i l t e r 发出的消息等。而当只需对媒体进行回放时, 应用程序也可以通过a c t i v e m o v i e 或媒体控制接口( m c i ) 对f i l t e r 西安理工大学硕士学位论文 g r a p h 进行间接访问( 如图2 - 2 所示) 。 m e d i ad e s t i n a t i o n 图2 - 2 应用程序与d i r e c t s h o w 的交互方式 d i r e c t s h o w 用以下两种方法实现对视频帧的实时捕获: ( 1 ) 定制实时分析和处理的专用f i l t e r 。流程如下: ( a ) 定制实现分析和处理的专用f 儿t e r ; ( b ) 将专用f i l t e r 与通用的f “t e r 组合成能完成特定功能的 f n t e rg r a p h ,并通过f i l t e rg r a p hm a n a g e r 与应用程序交互。 d i r e c t s h o ws d k 提供了一个c c + + 类库,类库中的基类c b a s e f i i t e r 已经实现了f i i t e r 所要求的c o m 接口,并提供了f i i t e r 的基本框架。 我们可采用面向对象的方法,重载必要的虚函数,就派生出自己的专 用f i i t e r 。最后,将f i l t e r ( 一个c o m 组件) 注册至w i n d o w s 的注册 表中,完成定制f i l t e r 工作。在不同的系统中,专有过滤器需要重新 注册,而且只能针对特定的媒体格式,直接操纵媒体数据,通用性不 好。 ( 2 ) 使用d i r e c t s h o w 提供的特殊转换过滤器一一抓帧过滤器 ( s a m p l e g r a b b e rf i l t e r ) 。s a m p l e g r a b b e rf i i t e r 是d i r e c t s h o w 内 置的完成实时分析和处理的通用过滤器,当它被插入f i i t e rg r a p h 时, 根据设定媒体的主类型和子类型自动插入到f i i t e rg r a p h 的适当位 辱筑总雄设计 置,且不改变其它f i l t e r 的行为。当数据从该过滤器流过时,调用本 系统定义的回调函数,通过回调函数完成实时分析和处理。这种方式 不需要开发过滤器,工作量小,避免了直接操纵数据,对于我们的视 频检索应用来说是一种更合适的开发模式。 本系统采用的研究素材是一张采用m p e g l 压缩标准d a t 格式的光 盘文件,我们将其捕获的每一帧视频保存为b i t m a p 格式,再利用数字 图象处理的方法对其进行处理,对应的f i i t e rg r a p h 如图2 3 所示。 值得一提的是,该方法适合任何压缩格式且具有视频流的媒体文件和 网络媒体流。 i 一二 图2 - 3 加入s a m p l e g r a b b e r 过滤器后的f i1t e rg r a p h 示例 在图2 3 中,为源过滤器,为转换过滤器,为表现 过滤器,为抓帧过滤器,为对应的回调函数。实线表示f i i t e r 之间的数据流向,虚线表示对回调函数的的调用。 2 2 视频结构建立模块 基于内容的视频检索包括很多技术,如视频结构的分析、视频数据 的自动索引和视频聚类。视频结构的分析是指通过镜头边界的检测, 把视频分割成基本的组成单元一一镜头;视频数据的自动索引包括关 键帧的选取和静止特征与运动特征的提取;视频聚类就是根据这些特 西警壤工大学硕士学位, 文 征进行的。其视频处理的一般过程如图2 - 4 所示。 图2 - 4 视频结构的建立过程 从视频检索的过程可以糟出,最重要、最根本的问题是镜头边界棱 测,因为它是实现视频检索的第一步,检测的糖发和准确度将直接影 响翼整个媛颓检索豹戒效积壤发。镜头捡嚣葵法缀多,毒戆对突变蠢 效,有的对渐变有效,其核心处理是识别镜头闻的切换。僵由于视颁 内容的丰寓性,尚存在许雾问题,如大物体的邂幼和镜头的运动难以 区分,光照改变条件下的检索效果不理想,算法的通用性不强等,由 于视频数攒鳖大,算法处理筑速度也缀重要。镜头数捡测直接关系剿 漏裣葙诿捻攀,恧盈镜头狻测质震到懿颜色、纹瑗、运动等特餐可敷 用于最聪的检索处理。所阱镜头的检测算法悬研究的重点之一。撩予 此,本义提出了“镜头的二级检测算法”,它能邋威视频的渐变,突激, “闪动”茅口对象的快速运动,它是本课题的一个研究重点。 视频分割袋镜头蓐,要致簿个镜头孛撞取l 弋袋羧,爱寒爱获一个镜 头的主要内容。本文选取代淡帧的方法采用分浚赣平均值法,它将镜 头中的每一帧分成8 8 的块并统计取平均,然臌选择与该平均值帧最 接近的帧作为代表帧。该方法计算比较简单,所选取的帧具有平均代 表意义。 骧一邑述援劐瓣镶头分塞l 释健袭犊鼹选取教钤,还送幸亍了特征捉淑, 系统总体设计 它包括动态特征和静态特征,在本系统中通过在视频流中定位和识别 文字来确定比分,并采用篮球比赛中的比分作为检索的重要特征。 2 3 文字识别 从球类比赛的比分和影视字幕中获取相应的文本,可为体育影视 节目的片段检索提供一种重要手段。本系统将比分的识别分为三大处 理步骤,如图2 5 所示,即文字定位,预处理和文字识别。本文就篮 球比赛中的比分的识别方案进行了探讨,提出了比分区域的确定、背 景的滤除、图象二值化等预处理的一系列算法和识别算法。实验结果 表明,提出的算法正确、可行,处理效果良好。 预处理算法 义字榆测算法 义字识别箅法 图2 - 5 文字识别的步骤 2 4 视频检索与浏览 视频被抽象为关键帧后,检索就成为按照某种相似度来检索数据库 中与查询描述相似的关键帧。通常使用的检索方法是通过目标特征说 明直接的查询和通过可视实例间接的查询。检索时,用户也可以指定 使用特定的特征集。如果检索到关键帧,用户就可以利用播放功能来 观看它所代表的视频片断。浏览可以跟随检索,作为检验检索到的关 键帧的上下文边界联系。浏览也可以初始化查询,即当浏览时,用户 可以选择一个图象来查询所有与该图象相似的关键帧。 在本系统中,实现了按镜头进行检索和按比分检索两种检索方式。 i5 西安理工大学硕士学位论文 用户选定代表帧后可以根据用户的需要播放代表帧对应的镜头片 断或整段视频。 税频流中的文事识别 第三章视频流中的文字识别 3 。 视频流中文字识舅l 麓步骤 视频流中的文字,无论是后期制作加入的还是场景中出现的,往 往包含了一些重要的信息。例如新闻巾的标题、电影中的字鞯、体育 诗曰 t 的比分甚至球员身上的号码等( 如阁3 - 1 ) 。文亨往往对视频酶 内容有极强骜穰括力,它翻可| 蔓为基予内容的视颧索号| 的霆赢旋供丰 富的信息,然而虽然人们在观看视频的同时可以轻易地识别并理解这 些出现的文字,但对于计算机来说,它们只是淹没在视频流中的一些 象豢而已。人工实现对这些信息的提取不仅费时且主观性强、成本高 罱。因此,磺究如俺从褫频滚中叁动提取文字成为一个十分自+ 意义懿 阔麟。 劁3 一l各种视频中的文字信息 3 1 1 视频中文字的褥点 文字可能会出现在视频中的任何地方,但并不是所有出现的文字 都具有重要的意义。我们将视频中出现的文字分为两种:场景文字和 标题文字 t 6 1 ”l 。场景文字是作为视频巾的添物的一部分出现的,而标 题文字是在程频蜃羹| l 铡份阶段久惫热入戆。场景文字存褪颧。p 随巍鲞 曲安理工大学硕士学位论文 现,出理时的位嚣、角度、孵暗、正反郡不确定,难以叁动识剐,两 盟多数的场景文字没有特定的意义。标题文字剐是人为绝被搁入到视 频中的特定位置,往往包含重要的内容信息,凶此是识别的煎点j 。 它有以下两个特点:印刷体;同类别的文字,字体大小一定。 n b v r s 对视频中文字的处理有以卜几个方丽: ( 1 ) 篮球比赛中驰比分簿是所有文字信息中最重要盼信慧,它罄 位雹怒基本固定静,n b v r s 要对它精确定位与并对其中瀚比分移 别,正 确率1 0 0 。 比分牌有以下几个特点: 1 ) 总是在翦面,少有遮挡,但其背聚非常复杂,巨文字怒透明的; 2 ) 足寸有一定范潮,为便于褒看一黢l i 会太小,僵为了不影g 蠢篦 赛的颟面,也不会占据熬个屏幕; 3 ) 比分牌中字符之f 由j 的距离不会过大,且段文字般存同一水 平或撼赢线上; 4 ) 匕分薄中文字为讵阎; 5 ) 比分簿中文字静形状、足寸稳方向没有发生交纯; 6 ) 连续多帧出现; 7 ) 每次比分牌出现时都会有固定不窝的标志,例如: ( 2 ) 识别的重点集中在数字上。 本系统的文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论