(计算机应用技术专业论文)基于内容视频检索的研究.pdf_第1页
(计算机应用技术专业论文)基于内容视频检索的研究.pdf_第2页
(计算机应用技术专业论文)基于内容视频检索的研究.pdf_第3页
(计算机应用技术专业论文)基于内容视频检索的研究.pdf_第4页
(计算机应用技术专业论文)基于内容视频检索的研究.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机应用技术专业论文)基于内容视频检索的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n v c r s i t y 摘要 随着视频信息的大规模引入,基于关键字的传统检索技术已不能适应人们的 需要,基于内容的视频检索成为了研究的热点。基于内容的视频检索就是指根据 视频的内容及上下文关系,对大规模视频数据库中的视频数据进行检索。目前对 基于内容的视频检索主要集中在如何有效的对镜头进行分割、如何快速提取每个 镜头的关键帧、如何在数据库中建立索引等方面。我们对基于内容的视频检索做 了以下几方面的研究: 1 ) 利用d c 系数对压缩视频进行镜头分割,该算法通过比较m p e g 视频i 帧的d c 图 像直方图距离来判断是否发生镜头分割。和传统算法比较,该算法直接应用 于压缩视频,只需要部分解压,算法精度高,计算量小,不容易发生误判。 2 ) 利用运动矢量来提取每个镜头的关键帧,该算法在镜头分割的基础上,通过 计算b 帧的宏块类型比例,将镜头分割精确到帧,并提取该帧为关键帧。算 法直接利用了m p e g 中的运动矢量信息,实现简单,可以应用于不同c o p 结构 的m p e g 视频,对渐变和突变镜头都有令人满意的检测结果。 3 ) 将基于内容的图像检索的技术应用到视频关键帧的检索,算法通过比较图像 的颜色特征,即颜色直方图的距离,作为判断图像相似度的匹配标准,提取 图像的颜色特征的算法简单易行,提取出来的特征矢量维数低,可以很好得 作为视频数据库的索引。 最后,我们把各方面的研究具体应用到一个实例:基于j a v a 平台开发了符合 s t r u t s 标准的w e b 视频检索系统v r s ,该系统采用模块化设计,包括镜头分割和关 键帧提取以及特征提取的模块,和一个基于w e b 的图像检索模块,可以对用户提 供的示例图像进行关键帧的查询。 本文对基于内容视频检索各方面的传统算法进行了研究,提出了一种改进的 基于内容视频检索算法,虽然离商品化的实际运用还有一段距离,但对视频检索 的其他研究有一定的借鉴意义,并有着相当良好的应用前景。 关键字:关键帧镜头分割视频检索运动矢量 圭望查兰堡主堂堡望兰里! ! 竺塑! ! 竺竺! 堕堡! ! ! ! 竺塑! 坐! ! ! 塑 a b s t r a c t a st h ev i d e oi n f o r m a t i o ni n t r o d u c e dc o s m i c a l i f ,t h et r a d i t i o n a l r e t r i e v a lt e c h n o l o g yb a s e do nt e x tc a n n o ta c h i e v et h es a t i s f y i n gg o a l s i n s t e a d ,c o n t e n t b a s e dv i d e or e t r i e v a ls y s t e mb e c o m e st h ef o c u so f r e s e a r c hi nr e c e n ty e a r s c o n t e n t b a s e dv i d e or e t r ie v a lt e c h n i q u e sc o m p o s e do fs e v e r a lp a r t s , s u c ha ss c e n ec h a n g ed e t e c t i o n ,k e yf r a m ee x t r a c t i o ni ns h o t sa n di n d e x c o n s t r u c t i o ni nv i d e od a t a b a s e s o u rr e s e a r c hw o r k so ft h i sd i s s e r t a t i o n f o rv i d e or e t r i e v em a i n l yi n c l u d ef o l l o w i n gp a r t s : p r j p o s e da na l g o r i t h mt h a ts e g m e n ts h o tu s i n gd cc o e f f i c i e n t v i a c a l c u l a t et h ed i s t a n c eo fc o l o rh i s t o g r a mo ft h ei f r a m ei nm p e gf o r m a t s t r e a m s ,s h o tc a nb es e g m e n t e db yp a r t l yd e c o d i n go nb its t r e a m e x p e r i m e n t a lr e s u l t ss h o wt h a tt h ea l g o r i t h mc a np r o v i d es a t i s f a c t o r y r e s u l t sw i t hr e d u c e dc o m p u t a t i o n a lc o m p l e x i t y p u tf o r w a r dam e t h o dt oe x t r a c tk e yf r a m eo fs h o t sb a s e do nm o t i o n v e c t o r s t h i sa l g o r i t h mi sb a s e do nc o m p a r i s o no ft h em a j o r i t yo f i n t r a - m a c r o 。b l o c k sa n dt h em a c r o 。b l o c kt y p eo fb 。f r a m e sf r o mt h eb i t s t r e a m p r o p o s e da na p p r o a c ht ok e yf r a m ei m a g er e t r i e v a l t h i sm e t h o du s e s c o l o rh i s t o g r a mi nh s vs p a c ea st h et e x t u r ev e c t o r so fk e yf r a m ei m a g e a n du s e st h eo n ed i m e n s i o nv e c t o ra st h ei n d e xi nk e yf r a m ed a t a b a s e s t h em e t h o di ss i m i l a rt ot h ew a y si nc o n t e n t b a s e di m a g er e t r i e v e w ed e v e l o p e das y s t e mc a l l e dv r st op u tr e s e a r c hi n t or e a la p p l i c a t i o n t h es y s t e mi sd e s i g n e do n et h em o d u l es t r u c t u r ea n di ta c c o r d st h ej a v a s t r u t ss t a n d a r d i tc a ns e g m e n ts h o t sa n de x t r a c tk e yf r a m ea u t o m a t i c a l l y i ta l s oi n c l u d e sam o d u l et h a tc a np r o v i d ew e b b a s e di m a g er e t r i e v a l f u n c t i o d a tl a s t ,o u ra l g o r i t h mi sv e r i f i e da n di sp u ti n t oa p p l i c a t i o n t h e i a t e rr e s e a r c hd i r e c t i o n sa r ep o i n t e do u ti nt h ee n do ft h ep a p e r k e yw o r d s :k e yf r a m e ,m o t i o nv e c t o r s ,s c e n ec h a n g ed e t e c t i o n ,v i d e o c o n t e n t b a s e dr e t r i e v a l 。 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:身j 撕日签名:塑! 塑日 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留 论文及送交论文复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部 分内容。 ( 保密的论文在解密后应遵守此规定) 、 签名:刍! 訇盐导师签名:臣簦! 玉日期: v 海人学坝f 擘位论文t h ep o s t g r a d u a t e t h e s i so f s h a n g h a iu n v e r s i t y 第一章绪论 1 1 研究背景和意义 近年来,视频处理技术获得了长足的发展,由于视频具有很强的信息表达能 力,一直受到高度重视。全球每天都在产生越来越多的视频数据,视频数据库的 数 t - b f t t 舰模也在高速增长。由于视频信息数据量大,抽象程度低,为了能够有效 地管耻和利用视频信息,视频数据库开始得到应用,以实现对视频数据的检索, 从而能够灵活地组织视频数据,并进行视频查询。传统的视频检索例如一些搜索 i 擎y a h o o 、( ;o o g l e 等都是采用基于文本即关键字和描述文本进行查询,这种方 法虽然取得了成功的应用,同时也存在着一些无法避免的问题: 人工建立视频的内容描述,带有很强的主观性,当数据库规模很大时,费 jj :刚扎 视频中可能存在多个需要描述的对象,随着数据库规模的增大,字符集合会 变僻庞大、复杂,而且关键字只对某一个具体应用有关,其通用性不好。 m 拊自然语言理解技术还不成熟,限制了基于文本描述检索的应用。 据于内容的视频检索丁f 是为了克服上述问题而产生的一种新型检索方法。这 种方法充分利用了视频中的各种信息,包括颜色、纹理、形状、运动矢量、亮度 等。检索的过程不再依赖于手工标注和关键字匹配,而是能够自动或半自动地从 视频t1 1 提取视觉特征( 或其他特征) ,并进行视觉特征的匹配。这项新技术具有 客观、省力、通用性好和应用前景广阔等优点行以受到了广泛的重视并得到了 迅速n 0 发展。 1 2 基于内容的视频检索综述 i :1 堪于内容检索 j 占于内容的检索( c o n t e n 卜b a s e dk e t r ie v a l ) 是多媒体数据库信息检索中 的一fj 新兴的技术。它是指从多媒体数掘中直接提取出对象的语义、特征( 如图 像f f f j 颈色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音色、音调、 响j 耍等) ,然后根据这些线索对大量存储在数掘库中的媒体信息进行查找,检索 ji 订相似特性的媒体数据来。基于内容的检索能从大型分布式数据库中,以用 户- 。以接受的响应时间,查询到所要求的信息。 j 态于内容的视频检索提供了这样一种算法:在没有人工参与的情况下,自动 摊收并扪述视频的特征和内容。这是一门交叉学科,以图像处理、模式识别、计 h 帆视觉、图象理解等领域的知识为基础,从认知科学、人工智能、数据库管理 乐统及人十l 交互、信息检索等领域,引入新的媒体数据表示和数据模型,从而设 ”j 靠、有效的检索算法、系统结构以及友好的人机界面。 1 2 2 耀于内容的检索在视频中的应用 ! :塑生兰塑! 兰些堡苎旦! ! ! ! ! 受! ! ! ! ! ! ! 型! ! ! ! ! ! ! g ! ! ! ! 竺型! 第一章绪论 1 1 研究背景和意义 近年柬视频处理技术获得了长足的发展,出于视频具有很强的信息表达能 力,一直受到高度重视。全球每天都在产生越来越多的视频数据,视频数据库的 数 和m 模也在高速增长。由于视频信息数据量大,抽象程度低,为了能够有效 地管理币【i 利用视频信息,视频数据库开始得到应用,以实现对视频数据的检索 从面能够灵活地组织视频数据,并进行视频查询。传统的视频检索例如一些搜索 0 i 擎、a h o o 、( ;o o g l e 等都是采用基于文本即关键字和描述文本进行查询,这种方 法虽然取得了成功的应用,同时也存在着一些无法避免的问题: 1 1 1 人工建立视频的内容描述,带有很强的主观性,当数据库规模很大时,费 力 e 时i 。 视频中可能存在多个需要描述的对象,随着数据库规模的增大字符集合会 变僻庞大、复杂,而且关键字只对某一个具体应用有关,其通用性不好, 讨自然语言理解技术还不成熟,限制了基于文本描述检索的应用。 j * 于内容的视频检索丁f 是为了克服上述问题而产生的种新型检索方法。这 种方法充分利用了视频巾的各种信息,包括颜色、纹珲、形状、运动矢量、亮度 等。检索的过程不再依赖1 二手工标注和关键字匹配,而是能够自动或半自动地从 视频中,提取视觉特征( 或其他特征 ,并进行视觉特征的匹配。这项新技术具有 客观、省力、通用性好和应用前景广阔等优点,所以受到了广泛的重视井得到了 巡速t , 4 j 发展。 1 2 基于内容的视频检索综述 1 2 1 - 4 i ! i 于内容检索 j 于内容的检索( c o n t e n t b a s e dr e t r ie w l ) 是多媒体数据库信息检索中 的f 1 新兴的技术。它是指从多媒体数掘中直接提取出对象的语义、特征( 如图 像瓤色、纹理、形状,视频中的镜头、场景、镜头的运动,声音的音色、音调、 度等) 然后根据这些线索对大量存储在数掘库中的媒体信息进行查找,检索 f 有相似特性的媒体数据来。基于内容的检索能从大型分布式数据库中,以用 、t 以接受的响应时间,查询到所要求的信息。 2 于内容的视频检索提供了这样一科算法:在没有人工参与的隋况下,自动 摊墩并拙述视频的特征和内容。这是一fj 交叉学科,以图像处理、模式识别、计 件机视觉、图缘理解等领域的知识为基础,从认知科学、人工智能、数据库管理 系统及人机交互、信息检索等领域,引入新的媒体数据表示和数捅模型从而设 出”j 靠、有效的检索算法、系统结构以及友好的人机界面。 i 2 2 摧于内容的检索在视频中的应用 1 2 2 艇于内容的检索在视频中的应用 生堡查兰竺! ! 兰些笙苎! ! ! 竺! 竺! ! ! 堡婴! ! ! ! ! ! ! ! ! 业竺! ! ! ! 翌! ! : 人们总是希望可以直接检索到一段包含特定信息的视频片段,例如足球比赛 i t 的射门镜头、含有某些特定景色的片断等。而视频数据库中集成了大量的非格 式化信息,它们具有数据量大、信息不定长、结构复杂等特点。这些媒体数据都 仃刮羔难以用字符和数字符号描述的内容线索,如某帧图像中某一对象的形状、 l 坝包和纹理,视频中的运动等。提供的检索服务如果要满足用户的检索要求,数 越t :j 乍系统必须要对多媒体数据内容进行自动语义分析、表达和检索,基于内容的 视频检索币是这样一种应运而生的检索方法。 基于内容的视频检索技术可以广泛地应用于数字图书馆的多媒体资料检索、 f 乜视台的广告节目监控、视频点播系统中的媒体检索、i n t e r n e t 上视频资料查询 等许多方面。 j j 然,虽然内容检索技术已经取得了很大的进展,但距离真正的实用和商品 化还有很长的路要走。 1 :3 国内外研究现状 1 : i 内容检索的主要研究内容 纵观大量介绍内容检索文献,我们认为内容检索的研究应包括一下几个主要 方腼: 1 建立合适的内容特征描述 特征描述是内容检索的核心问题,描述的好坏对检索的效果有直接影响,它 涉及的问题有: 确定描述剥象和层次。视频包括段落、故事单元、镜头、帧和视频对象 等多个层次。 特征的选择和提取。可选择的特征范围广泛,不但局限于颜色、纹理和 形状等视觉特征,还包括文本和人脸等高级语义特征。 特征的组织和表达。 特征描述间的相似度度量。 2 分析与组织视频结构化 指将视频内容组织为镜头和故事单元以及更高级描述的过程。视频结构化是 峡脱视频检索的核心问题,也是将静念图像检索技术应用于动态视频的重要前 提。 : 实现内容检索系统 系统主要涉及: 友好的人机界面。要求具有多种模式的查询提交方式,检索结果的显示 婴直观、明了。 用户与系统的交互性。目前研究最多的是通过相关技术使系统可以依据 j 日户对检索结果的评价,调整算法,提高检索准确度。 2 多维特征索引。主要目的是通过建立索引减小系统的相应时间,索引是 使检索适应海量数据应用需求的必要手段。 :1 评价检索性能 土要研究建立视频数据库和选择行之有效的评价标准。 1 文2 研究现状 针对以上四项研究内容,下面讲述目前的研究现状。 l j 0 有关特征描述的研究侧重于如何选择更符合人的感知特性的特征,如颜 包、纹理等。即使特征选择相同,拙述方式不同,对检索结果也有很大的影响。 i :ii l l s 人们对颜色特征的组织形式研究较多,提出了颜色直方图、颜色矩、颜色集 等描述方式,这些研究侧重于某特征的组织子形式,而较少研究多类特征的组 纵形式。 视频检索不可避免的要将视频序列划分成若干个结构单元柬处理,这就是所 州m 频结构化的过程。结构单元存在镜头和故事单元等多个层次,目前对视频结 构化的研究多集中在镜头这一层次上,很多系统女i j q b i c ,都是采用分割镜头、提 取天键帧、建立关键帧索引的方法束实现对视频的检索。在这一领域里,针对压 f f i 说频s n :t b - 压缩视频,人们提出了大量有效的镜头分割算法,对于“突变”镜头 的检测已经达到了很高的准确率,但对“渐变”的检测准确性还有待提高。有关 税频故事单元提取的研究较少,现有的方法虽然取得了很好的效果,但普遍存在 一蝗缺点。 】口已有许多很有特色的内容检索系统,q b i c 、m a r s 、p h o t o b o o k 等,它们 椰仃值得倦鉴的地方,但是如何有效的实现多特征索引和相关反馈,仍然是系统 i 殳m i - r 值得研究的重要问题。 欠j :性能评价主要借鉴了文本检索中的一些方法,目前检索性能的评价还处 十假不成熟的阶段,需要进一步研究。 1 1 小研究的目的 墙1 二内容的视频检索包括很多技术,如视频结构的分析( 镜头检测技术) 、视 频数据的i 刍动索引和视频聚类。视频结构的分析是指通过镜头边界的检测,把视 频分削成 。# 本的组成单元镜头,视频数据的自动索引包括关键i 贞的选取和静 i h 锄f 与运动特征的提取,视频聚类就是根据这些特征进行的。 为了剥视频进行有效的组纵,需要将视频分解为基本单元,即镜头。一个镜 头l 一个摄像机连续拍摄得到的时问上连续的若干帧图像组成。基于内容检索的 桃频处耻,首先要把视频自动地分割为镜头。视频镜头分割是进一步对视频进行 分析的基础。目前对视频图像的时域分割大都是采用基于边界的方法,即设法确 定从镜头到镜头的转换处。从视频检索的过程可以看出,最重要、最根本的问题 址镜头分割,因为它是实现视频检索的第一步,检测的精度和准确度将直接影响 海人学坝i ? 学位论史t h ep o s t g r a d u a t e t h e s i so f s h a n g h a iu n v e r s i t y 5 ;ij j 个视频检索的成败和精度。现在虽然已经育不少技术能够进行镜头边界捡 洲似是存在一些问题,例如,基于运动矢量的算法可以获得较高精度的检测结 粜,毗避速度较慢。基于直方图比较的算法虽然实现简单但检测不太准确,而 i 的算法都比较特殊,通常只适用于某种特定的环境,或者只适用于检测突 变场景叫换,或者只适用于检测渐变场景切换,即使能够同时检测突变和渐变场 疑训掀,效果也不理想。本文旨在提出一种基于m p e g 国际标准压缩视频流的镜头 r | z 讪分算法通过利用m p e g 数据流中可利用的信息,如离散余弦变换( d c t ) 系 数刷运动向量,只进行最小程度的解码,来检测镜头问的分割边界,从而实现镜 头叫分。 在镜头检测的基础上可对每个镜头提取关键帧,并用关键i 帧简洁地表达镜 头。l j j 于视频数据量巨大,在存储容量有限的情况下,通常仅存储镜头关键帧, q 以收到数据压缩的效果。重要的是用关键帧束代表镜头,使得对视频镜头可以 川j j 二内容的图像检索技术来进行检索。正是由于关键帧的提取在基于内容的分 折、检索以及查询中具有如此重要的地位,近年来受到了研究者的广泛关注,也 收褂了一定的研究成果。传统的提取关键帧算法有很多,但大多计算量大,实现 雉,或者对大块物体的运动太过敏感。本文旨在提出一种基于m p e g 的提取算法, 特,i i 址分析简便,计算复杂度低,并且提取出来的关键帧能很好的表示镜头的内 棒。 如口v 建立基于特征的索引,即如何对关键帧建立索引,包括不带时问延展性 川铜像特征和带时间延展性的视频特征。基于特征的索引模式正是利用可自动识 ! j j 的i 舀法内容建立部分视频索引,最大限度地减少手工操作的工作量,也是基于 内弈视频检索的重要组成部分。如何对海量的关键帧数据库建立索引,直接影响 剖眦频检索的质量。本文旨在提出一种基于内容图像检索的一种特征提取方法, 刈哭键帧进行快速、有效的特征提取,使提取的特征矢量可以很好得作为关键帧 数撕j 蜘n 索引。 1 j 本形f 究所作的工作 小研究所作的具体_ e l t 锄i i 卜: i 】 竹先,本研究提出了一个基于m p e g 压缩域视频的快速分割镜头的方法,该方 ;:j 。f 接提取m p e g 的i 帧d c 图像,并进7 7 4 :r l c r j 两个i 帧d c 图像直方图的比较,作为判 断镜又足甭分割发生的标志。在发生镜头分割的基础上利用分析每个g o p 结构内b 帧的 牛类型宏块所占比例作为判断依据,将镜头分割精确到帧,并提取关键帧。 迎过。实验证【蚰该算法提取的关键帧具有代表性。和传统基于i 帧的分割镜头算法 川比较,本文的算法同样快速有效,而传统算法容易产生误判的缺点,在本算法 i l 得到了改进。 2 j 外,本研究提出了一种简便的方法来对关键帧进行特征的提取,并对特征 久h f 建立索引,然后利用基于内容的图像检索技术方面的有关知识,综合了图像 4 海人学坝l :学位论立t h ep o s t g r a d u a t et l ! e s i so f s h a n g h a iu n v c r s i t y 的 见觉特征,比较了各种图像相似度匹配算法提出以对h s v 空间图像亮度直方 比较的方法来判断示例图像和关键帧的相似性。和传统的图像检索算法相比, 水文的算法特别适合描述那些难以进行自动分割的图像,算法实现起来简单,还 ,i r 以通过降低维度来使检索匹配更为快速有效。 1 3 i 其次本研究给出了一个基于w e b 提交示例图像的关键帧检索系统,该系统 采用了a v as t r u t s 技术,比较图像相似度的核心算法采用了h s v 空间的颜色直 乃图算法。浚系统通过对示例图像和数据库中关键帧集合的相似度比较进行查 咖,给出一定相似度的关键帧图像的集合。 f 4 】最后,探讨了研究的局限,并对未来的研究做出了展望。 海大学顺i :学位论史t h ep o s t g r a d u a t e t h e s i s o f s h a n g h a iu n v e r s l t y 第二章m p e g 视频文件结构 2 im p e g l 概述 ”e ( ;一l ( 以下简称m p e g ) 标准于1 9 9 3 年发布,它的设计思想是在1 5 m b i t s 的低带宽条件下,提供尽可能高的图像质量。m p e g 包含m p e g 系统、m p e g 视频、m p e g 酱频、m p e ( :一致性测试平1 3 m p e g 软件模拟等部分,在本研究中主要考虑m p e g 视频部 分。 i p e g 中所规定的部分是比特流的结构和其解码方法,其中不包括编码方法。 采用不同的压缩算法,例如不同的运动预测方法,使得m p e g 的帧结构并不统一, 这为视频结构处理带来了一定的难度,在研究镜头分割算法时,必须考虑不同的 视频结构。 2 2r p e ( ;视频压缩 一股蜕来,在帧内以及帧与帧之问,众多的视频序列均包含很大的统计冗余 度和主观冗余度。视频压缩的最终目标是通过挖掘统计冗余度和主观冗余度,来 l 洚低存储和传送视频信息所需的比特率,并采用熵编码技术,以便编制出“最小 f 荒想组”的一个实用编码方案,是在编码特性( 具有足够质量的高压缩) 与实施复 杂性之间的种折衷。m p e g 中主要采用了以下的一些压缩算法: 1 帧内压缩算法 采用了和j p e g 压缩算法大致相同的算法,即基于d c t 变换( 离散余弦变换) 的编码技术。d c t 变换是有损压缩,它利用了人的视角系统的特性,使用量化和 尤损压缩编码相结合来去掉视觉的冗余信息和数掘本身的冗余信息。压缩编码分 为二个步骤: 使用变换( f o r w a r dd i s c r e t ec o s i n et r a n s f o r m ,f d c t ) 把空间域表示的图 变换成证向离散余弦率域表示的图,具体在m p e g 中是将8 x 8 的象素块中的二 元的图像数据s ;,( x ,y = o ,i ,7 ) 变换成二元的d c t 系数数据s 。,( u ,v = 0 1 ,7 ) ,每一象素块对应6 4 个d c t 变化系数s 。,其中s 。称为d c ( 直流) 系数,剩下的6 3 个称为a c ( 交流) 系数。 使用量化步长( s t e ps i z e ) 对d c t 系数进行量化,这个量化步长对于人 f f f j 视觉系统是展佳的。每个d c t 系数的量化系数是由d c t 系数除以规定的量化 步长,然后取整得到的。 使用霍夫曼可变字长编码器对量化系数进行编码。对d c 系数而言,熵编 鹏的对象是当前的d c 系数和前一个象素块d c 系数的差分值。 存m p e ( ;中,d c t 系数的基本解码方法是和静态图像i p e g 相类似的,唯一的 k 刖是只有1 帧的d c 分量爿被处理,i 帧的a c 分量和b 、p 帧的全部d c t 系数 _ 址川i e 他的方法进行编码的。可见,m p e g 中i 帧的d c 系数是对视频进一步处理 n 一个可利用的重要信息。 海人学坝i :学位论文t h e p o s t g r a d u a t e t h e s i so f s h a n g h a iu n v e r s i t y 帧中d c t 压缩、解压缩的流程如图2 一l 所示: d c r 解码器8 x 8 1 5 象块 图2 - 1d c t 压缩解压缩步骤 2 帧| h 压缩算法 帧问压缩主要采用运动补偿算法。运动补偿( m o t i o nc o m p e n s a t i o n ) 其原 川! 足利用帧间的空间相关性,来减小空问冗余度。帧问编码为什么可以减小冗余 膻,返足因为相邻两帧之问有很大的相似性。如果将前后两帧相减( 移动物体作 川应位移) 得到的误差作编码,所需比特要比帧内编码所需的比特少,帧间差集 l i l 九j 零附近,可以用短的码字传送。实现帧间编码的方法是靠运动估计和运动补 修。 ”1 l i l j l , j t 在过去帧的窗口中寻找匹配部分,从中找到运动矢量,根掘运动矢量, 将过去一| ! ; 位移,求得对当静嘲的估计,将这个估计和当i j 仃帧相减,求得估计的误 篪位,将运动矢量和估汁的误差值送到接收端去,接收端根据收到的运动矢量将 过上 l j i 1 :- 位移( 也就是对当前帧的估计) ,再加上接收到的误差值,就是当前帧了。 1 丈际l ,在做运动估汁和运动补偿时,是以1 6 x1 6 的块( 称宏块) 逐个进行的, 这越:i 蟹当| j i 帧划分为n n ( 1 6 1 6 ) 的块。列每一块在过去帧中范围为( n + 2 w ,) x ( n + 2 w 、) f | ,j 范围内进行搜索,以求得最优匹配从而得到运动矢量的估值 ( c i x ,d y ) 。衡量匹配好坏的准则可以是均方误差最小准则。搜索方法可以是全局 搜索法,即对搜索范围内的每一点都计算均方误差,选最小值即对应最优匹配。 运动矢量表现了帧与帧之问的逻辑关系,是视频中运动特性的体现,所以也 址j :j 见| t g j ( , jm p e g 视频流结构进一步分析的可利用信息。 海人学顺l 学位论文t h ep o s z g r a d u a t ct h e s i so f s h a n g h a iu n v e r s i t y 2 : m p e g 视频结构 根掘m p e g 压缩标准m p e g 比特流具有如图2 - 2 所示的层次结构,下面简单介 “择个层次: 图2 - 2m p e g l 视频结构 i ) ( :( ) p ( 图像组g r o u po fp i c t u r e s ) :便于编解码的一组图像,可以从视频 序列,+ i 随机存取。在m p e g 一1 中,( ;o p 层是必须的,而且g o p 的中断是像镜头分割 一 r 使用在运动补偿无效的情况下。g o p 有两个参数n 和m ,编码时可以确定参数 的圾值。n 代表两个i 帧之间| - 日j 隔距离,电就是g o p 的长度,单位为帧。m 代表i 帧 利川j ! j f 之l 、r j 的间隔距离。本文算法对象的g o p 结构为n = 1 2 ,m = 3 ,b p m p e g 视频显 示f f 歹d 为p b b l 8 b p b b p b b p b b i b b 。 2 ) 帧图像:编码的主要单元,注意帧序列的解码顺序和显示顺序是不同的,因 为州”- f 1 存在前向和后向进行运动补偿的b 帧图像。在本研究中我们只考虑显示 i j l 【j i l h m p h ( ;将帧按照不同的编码方式分为以下三种格式: i 帧( 帧内图像) :利用图像自身相关性压缩,编码时不需要其他帧 作参考。 p 帧( 预测图像) :采用向前预测的帧间编码,以前一个i 帧或p # i f i - - 为参考帧。 b 帧( 双向预测图像) :采用双向预测的帧问编码。 j 驯一川喷和p 帧称为锚帧( a n c h o rf r a m e ) ,i 帧中可利用的信息是d c t 中 n 1 【) c 系数。而p 帧和b 帧主要可利用的信息是编码时进行运动预测用的运动矢 砒( i ( ) li o rv e c t o r ) 。 : ) 宏块:每个帧被分成1 6 x 1 6 象素的块( br o c k ) 。 拒m p e ( ;。| j 运动预测是在宏块一级工作的,目的是消除p 帧和b 帧的时i 日j 冗余 性。根掘不同的宏块编码方式划分了宏块的不同类型,对于b 帧而言,宏块有4 种类型: 帧内宏块( i n t r am a c r oh l o c k ) :简称i 块。 河向预测宏块( f o r w a r dp r c d i c t e dm a c r ob l o c k ) :简称f 块。预测时参照 8 海人学坝i :学位论立t h ep o s t g r a d u a t e t h e s i s o f s h a n g h a iu n v e r s i t y l 矿一个锚帧。 后向预测宏块( b a c k w a r dp r e d i c t e dm a c r ob l o c k ) :简称b 块。预测时参 照后一个锚帧。 平均宏块( a v e r a g em a c r ob l o c k ) :简称a 块。预测时参照的后两个锚帧。 其中剥。于i 块均采用d c t 处理技术对于f 、b 、a 块,m p e g 都采用了基于块的 运动补偿技术。对于p 帧,其宏块只包含i 块和f 块。 们块:块是一个8 x 8 的象素域,是构成m p e ( ;流的最小单位,它包含了d c t 的亮度 利色度的系数。6 个块按照4 :1 :i 的比例通过采样得到各分量值,构成一个宏块, 即每个宏块由4 个亮度块( y 。y ,y :,y :。) 和两个色度块( c h 和c ,) 组成。 2 4m p e g 比特流结构 1 ) 起始字符 为实现比特流的层次结构,需要具体表示比特流内的各个标识和参数属于哪 个层次的标记。负责这个标记任务的就是起始字符( s t a r tc o d e ) ,起始字符本 身h 比特,在前面补充2 4 比特的前缀o x 0 0 0 0 0 1 ,一共是3 2 位字符。 从比特流读出起始信号后,继续读出的参数是按照起始信号的意义来进行解 释旧。例如,读出十六进制表示的“0 0 0 0 0 1 0 0 ”比特类型时,可以判断其为 p ic t u r e s t a r t c o d e ,可以解释接在其后的是关于新图像的一系列数据。表2 1 为常用的m p e g 起始字符。 表2 一im p e g 起始字符 名称起始字符( 1 6 进制)意义 i ic 【l l f e sl a r t c o d e0 ( 】表示幽像信息的开始 s p ( i t l c * l l c o h e a d e r c o d e b :j 表示序列信息的开始 s e q u e n c e e n d 。c o d e b 7 表示序列信息的结束 ( ;v o u p s t a r tc o d e b 8表示g o p 层的开始 2 ) 比特流的记述方法 考虑到多种编码器输出的比特流,为了确保编码器和解码器的连续性,有必 嘤刘比特流的结构进行严密的规定。因此,m p e g 比特流中包含了沿袭c 语言风格 n o i 等法( 参数的顺序和长度) 以及语义( 参数的意义) 。 ) 比特流序列 比特流序列主要包括以下几个: 序列信头( s e q u e n c e h e a d e r ) :包含图像亮度分量的水平、垂直方向象 索数、使用的参数、d c t 系数量化矩阵等。 ( ;( ) p 信头( g r o u p o f p ic t u r e s h e a d e r ) :和图像的地位是相同的,包含 视频数据的时间码等。 海人学哒上学位论立= n c p o s t g r a d u a t e t h e s i s o f s h a n g h a iu n v e r s i t y 图像信头( p i c t u r e h e a d e r ) :表示图像内编码数据的刀:始。包含输入 图像顺序的参数、表示图像编码类型的参数等。 图像数据( p i c t u r e d a t a ) :包含d c t 系数解码、运动矢量解码等的编 码参数。 1 0 第三章镜头分割 : 1 概述 虽然视频是出一系列的图像帧构成的,但却不可以将基于内容的静念图像检 索技术直接推广到视频检索上来,这是因为视频所包含的帧数往往很多,而且各 f l + f i i i j 的内容存在着很强的相关性。如果对每一帧进行处理,不仅耗时,而且会带 米极大的冗余性,对视频内容的结构性也没有考虑。虽然视频在形式上没有结构 - 陀,但从它所包含的内容的上看,它具有很强的逻辑结构。所以在检索视频数据 l m 如果按照逻辑结构将视频分解为合适的基本构成单位如镜头、场景和故事 ! :| l 元等,并通过索引这些体现视频内容结构的逻辑单位,会提供更高的视频检索 效率。 视频结构化又常称为视频分段。视频分段的标准多样、复杂,对于不同类型 的税频和具体应用的环境,所采用的视频分段的标准也相应不同。其中镜头位于 结构的最底层,它是视频制作、剪辑、索引和查询的最基本单位,也是建立更高 层次视频描述的基础。故事单元是比镜头更高一级的结构单元,它由一系列时间 适续的镜头组成,往往描述发生在一个地点的一个事件,与镜头相比,它表达了 巫为完整丰富的语义信息。情节则是更大的结构单元,描述视频中一个独立完整 的内窑,相当于一本书中的一章,通常包含多个故事单元。在本文中,主要研究 幔j 二镜头的提取、描述和检索问题。 镜头内的各帧闽存在很强的相关性,可以用一帧或几帧概括镜头内容,称之 为关键i 坎( k e yf r a m e ) 。关键l 陨为视频检索提供了合适的索引对象,也有助于 快述浏览视频。镜头对应摄像机的一次记录起停操作,是指单个摄像机一次连续 搬制的视频图像序列,代表一个场景在时i + u j 上和空州上连续的动作,它是视频操 作的龋本单元。镜头分割是指不同镜头之间的切换,典型的镜头分割方式包含表 : 二旧i 示: 表:3 - l ! | i 型的镜头分割方式 嫂粜描述 突变前一镜头尾t i i 贞铍r 一镜头首帧快述代替 淡入、淡l l l前一镜头尼帧缓慢消火,r 一镜头首帧缓慢山现 隐现前一镜头尾帧缓慢变成r 一镜头首帧 洲v i 前一镜头尾帧从屏幕拉! j 井逐渐显示r 一镜头首帧 泔入前一镜头尾帧逐渐穿过并覆薷f 一镜头莆帧 虽然镜头分割方式很多,但是在实际的视频中,9 9 的镜头分割可以用突变、 淡入淡出和隐现三种方式描述,实际应用中通常又把淡入淡出和隐现统称为 渐变。 海人学顺i ? 学位论立:t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n v c f s i l y :j 2 镜头分割方法研究现状 依据机理不同,镜头分割方法主要可以分为两大类:基于统计特征的自底向 i :万法和基于视频编辑模型的自顶向下方法。在本研究中只考虑基于统计特征的 j j i k 。 i j 前,镜头分割方法主要有两个研究方向,一是在像素域中,一是在压缩域中。 所f 丹像素域,视频数据以人们同常所见的形式存在,具有人们习惯的特征,例如: j 颠笆、纹删、形状、亮度等。在像素域中进行镜头分割实际上就是利用这些特征 术获收一段视频序列的剪辑。下面列举了一些用于像素域镜头分割的技术和方 案。 1 ) 像素亮度匹配 在这种方法中,镜头分割是通过比较两个相邻帧像素亮度差异来实现的。例 如,为了检测在第m 和m + l 帧之间的是否发生场景改变,可以通过计算两帧之间的 距离。如果距离超过预先设置的闽值,就说在第m + l 帧场景发生了改变。这种方 法对运动和摄像机操作很敏感,在有较剧烈运动的情况下可能导致错误的镜头分 :刊检测。 2 ) 直方图比较 在这种方法中,比较是在两个连续帧的直方图基础上进行的。有两种方法: 一种是计算两帧直方图的差值( d o h ) ,另一种则是计算两帧差值的直方图( h o d ) 。 如粜订很多像素改变了位置,那么两喷之州变化的程度就会很大。d o h 技术对局 瑚:划象运动不敏感,但是对全局的摄像机运动很敏感。而h o d 技术对局部对象运 动的敏感程度要高于对全局摄像机运动的敏感程度。直方图技术会在两种情况下 庀效:在不同镜头问的直方图类似,一个镜头内部的直方图因为光照条件的改变 i f l 订所不同,例如火焰的突然出现。 : ) 占于块的技术 首先,每一帧被分成k 个块,连续帧之问的相似性通过单独比较对应的块来 仙汁。在求块直方图差值( b h d ) 技术中,块是通过直方图进行比较的。如果两帧 之m 的不相似性超过了阈值,就蜕场景发生了变换。基于块的技术强调的是局部 心一盹,并且降低了噪声的影响。山于这种技术比较能够忍受摄像机和对象的低速 运z 巩,因此可以降低过度检测。然而,对于像素值类似但是密度函数不同的两帧, 会j u 现漏判的情况。 i ) 二次比较 上【面的分割技术都是基于闽值的,而利用一个闽值,难以检测出突变和渐变 这两种类型的场景检测。如果闽值过小,就会出现过检测,而如果闽值过大,就 尤法检测出渐变的场景切换。于是人们提出了两通道双闽值算法即两次比较算法 来斛决这个问题。在第一个通道中使用高阈值柬检测突变切换。在第二个通道中 1 2 海人学顺l 学位论立t h ep o s t g r a d u a t et h e s i so f s h a n g h a iu n v c r s i t y f 止川较低的闽值,任何差值大于这个闽值的帧都被认为是潜在的镜头转换处。 4 占于像素域的镜头分割,必须经过大量的解压缩计算步骤,显然算法的效率 f i 高。而直接使用压缩格式的视频数掘利用压缩数据中的某些特征来进行分析 用j 处理,将大大减低计算的复杂性。因此,基于压缩域的镜头分割算法是目前研 究的重点。下面列举了一些用于压缩域镜头分割的技术和方案。 1 ) d c ,r 系数 j 0 ,图像和视频压缩方面的国际标准,例如j p e g 、m p e g 、h 2

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论