(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf_第1页
(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf_第2页
(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf_第3页
(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf_第4页
(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于运动信息的视频分类和检索.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

重庆邮电大学硕士论文摘要 摘要 视频检索和分类是未来多媒体应用的一个重要方面,而运动信息作为视频 所独有的信息,是视频检索的研究重点。总体来说,视频的运动可以分为两类, 一类是全局运动信息,一类是局部运动信息。前者是由于摄像头的运动所造成 的,后者是指场景中的目标运动。传统的基于运动信息的视频检索是分别针对 这两类运动进行的检索,在特定的应用领域能取得较好的实验效果,但是对于 运动比较复杂的视频。它们就会由于镜头的运动类型不符和运动估计不准确造 成错误的运动估计和模型建立。本文结合数据挖掘理论对视频的运动信息进行 分析,提出了一种鲁棒的视频分类方法,使得视频检索更为有效。 本文首先介绍了相关的课题背景,包括数据挖掘理论和视频编码标准,在 此基础上提出了基于粗糙集的视频预分类技术,并设计实现了一个基于运动信 息的视频检索的原型系统。视频预分类技术是通过提取视频的特征属性,由粗 糙集算法挖掘出分类规则,实现对视频帧的分类。视频预分类的结果被进一步 的应用于镜头的分类。视频检索的原型系统正是基于此项技术的具体应用,它 根据查询镜头的运动类型检索数据库中对应类型的镜头,避免了运动估计和上 层分析不准确所带来的误差,因此可以更有效的实现基于运动信息的视频检索。 仿真实验表明基于粗糙集的视频预分类具有很好的实验效果,最后在视频检索 原型系统中的检索结果也说明该系统能有效的实现基于全局运动的视频检索, 有一定的实用价值。 关键词:视频检索,全局运动,局部运动,数据挖掘,粗糙集 重庆邮电大学硕士论文 摘要 a b s t r a c t v i d e or e t r i e v a la n dc l a s s i f i c a t i o ni si m p o r t a n ti nm u l t i m e d i aa p p l i c a t i o n si nt h e f u t u r e m o t i o ni n f o r m a t i o n , a st h eu n i q u ef e a t u r eo f v i d e o i se s s e n t i a li nt l l er e s e a r c h o fv i d e or e t r i e v a l g e n e r a l l ys p e a k i n g ,v i d e om o t i o n sc a r lb ed i v i d e di n t ot w ot y p e s , g l o b a la n dl o c a l t h ef o r m e ri sc a u s e db yc a m e r am o v e m e n t s a n dt h el a t t e rr e f e r st o m o t i o n so fo b j e c t si nt h es c e n e t r a d i t i o n a lr e t r i e v a ls c h e m e sa r ed e s i g n e df o rj u s t o n et y p eo f v i d e o t h e yo b t a i ng o o de x p e r i m e n t a lr e s u l t si nc e r t a i nv i d e oa p p l i c a t i o n d o m a i n s h o w e v e r , i f v i d e ow i t l lc o m p l i c a t e dm o t i o n sa l ea p p l i e d o ri f m o t i o nt y p e s o fs h o t sa r en o tt h et y p et h a tt h es y s t e m sd e a lw i t h , o rt h e r ea r ec o d i n ge r l o l s , t h e y a r eu n r e l i a b l e i nt h et h e s i s ,m o t i o ni n f o r m a t i o ni sa n a l y z e d 、) l i i t hd a t am i n i n gt h e o r y , a n dar o b u s tv i d e oc l a s s i f i c a t i o nm e t h o di sp r o p o s e dt om a k ev i d e or e t r i e v a lm o r e e f f e c t i v e i nt h et h e s i s , w i t ht h ei n t r o d u c t i o no fd a t am i n i n gt h e o r i e sa n dv i d e oc o d e c s t a n d a r d s ,w ep r o p o s ear o u g h - s e t - b a s e dv i d e op r e - c l a s s i f i c a t i o nm e t h o d ,a n dd e s i g n am o t i o n - i n f o r m a t i o n - b a s e dv i d e or e t r i e v a l p r o t o t y p es y s t e m v i d e o p r e - c l a s s i f i c a t i o ni st oe x t r a c tf e a t u r ea t t r i b u t e so fm o t i o ni n f o r m a t i o na n dt oo b t a i n c l a s s i f i c a t i o nr u l e sw h i c ha r cu s e dt oc l a s s i f yf l a 1 l l e so fv i d e o t h er e s u l to fv i d e o p r e - e l a s s i f i c a t i o ni s 如m 嗡u s e df o rs h o tc l a s s i f i c a t i o n n 圮v i d e or e t r i e v a lp r o t o t y p e s y s t e mi s b a s e do nt h em e t h o d i tr e u i e v e ss h o t si nt h ed a t a b a s ew i t ht h es a m e m o t i o nt y p ea st h es u b m i t t e ds h o t i t sa b l et oa v o i dr e t r i e v a le i t o i sc a u s e db y m o t i o np r e d i c t i o ne r r o r sa n du n e x a c t i n gp r o c e s s i n gr e s u l t si nt h eh i g hl a y e r s ot h e m o t i o n - i n f o r m a t i o n - b a s e dv i d e or e t r i e v a lc a l lb em o r ee f f e c t i v e 1 1 s i m u l a t i o n s d e m o n s t r a t et h er o u g h - s e t - b a s e dv i d e op r e - c l a s s i f i c a t i o ni sp e r f e c t t h er e t r i e v a l r e s u l t si nt h ev i d e or e t r i e v a lp r o t o t y p es y s t e ma l s os h o w st h a tt h es y s t e mc a ne x a c t l y t 硎e v es h o t sw i t hs i m i l a rm o t i o nt y p e s a sar e s u l kt h e r ei sc e r t a i np r a c t i c a l i t yo f t h es y s t e m k e yw o r d s :v i d e or e t r i e v a l ,g l o b a lm o t i o n , l o c a lm o t i o n , d a t am i n i n g , r o u g hs e t 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得 的研究成果据我所知,除了文中特别加以标注和致谢的地方外,论文中不包 含其他人已经发表或撰写过的研究成果,也不包含为获得重庆邮电太堂或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均己在论文中作了明确的说明并表示谢意。 学位论文作者签名:象錾 签字日期:渤薛钿矿日 学位论文版权使用授权书 本学位论文作者完全了解重鏖篚虫盘堂有关保留、使用学位论文的 规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文 被查阅和借阅。本人授权重鏖整虫太堂可以将学位论文的全部或部分内 容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇 编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:裘哲 签字日期:刃形年歹月8 日= 二麓日签字日期:弦c 年6 月7 日 重庆邮电大学硕士论文 第一章绪论 1 1 引言 第一章绪论 随着网络、计算机和多媒体技术的发展,各行各业对视频的需求越来越大, 人们在寻找一种快速获取感兴趣的素材信息的方法。显然,传统的基于文本的检 索已不能满足这种多元化需求,于是人们提出了基于内容的视频检索【l 】所谓基 于内容的视频检索,就是查询时针对的是对象而不是标识,它需要从媒体数据中 提取指定的特征( 如颜色、纹理、运动方式等) ,据之从媒体数据库中检索相似的 或者视频内容。 视频作为一类重要的视觉信息源,它不仅包含静止图像所包含的内容,还包 含场景中目标运动的信息和客观世界随时问变化的信息。基于内容的视频信息访 问覆盖各种应用领域,并包含多项技术,比如收集信息,对数据结构化和进行处 理,在视频数据库中找寻信息,并发送和显示给用户等。 由于视频数据与其它数据在形式、结构、内涵等方面都不同,与图像相比, 视频的结构更为复杂,数据量也更大,对基于内容的视频检索的要求也就更高【2 l 。 事实上,视频中除了包括从每幅帧图中可得到的视觉特征,如颜色、纹理、 形状和空间关系等,还有运动的信息。静止图像的特征信息在基于内容的图像检 索中已有大量的研究p - 6 ,而视频中目标和背景的运动信息作为视频所独有的特 征,则是基于内容的视频检索中研究的重点。运动信息表达了视频图像内容在时 间轴上的发展变化,它对于描述理解视频内容具有相当重要的作用。基于运动信 息可对视频内容进行分类,也可以用于视频内容的检索 正因为如此,基于运动信息的视频检索得到了广泛的关注。 1 2 视频检索技术的发展状况 “信息检索”一词早在半个世纪之前就出现了忉。它用来描述信息用户将一 个对信息的要求转换成一个参考集合的过程,在此基础上,用户将有可能快速的 搜索并提取相关的信息。 , 视觉信息的检索是信息技术的一个新的重要的研究领域,它是传统的信息检 索的扩展,它将视觉媒体也包含在信息检索中。最早的图像检索概念早在2 0 多 年前就提出来了 重庆邮电大学硕士论文 第一章绪论 视频是运动的图像,视频实际上属于图像的范畴,而图像和视频的检索同属 于信息检索的范畴。 第一代视频检索允许通过字符串属性来访问图像和视频。一个典型的搜索例 子就是发现“某人某个时间段的所有作品的图像”。它们用字符串表达与内容无 关的元数据,使用如相关模型、框架模型、面向目标的模型等表达方案。 新一代的视频检索系统支持根据视频内容的检索。对视频的访问不再是概念 层次上利用关键字进行,而且也在感知层利用对视频内容的客观测量和合适的相 似模型进行。在离线状态下,不仅注解员可以通过一定的方法对数据库内容进行 注解,而且系统也能够自动的对数据库的视频进行分析,提取特征,从而提供出 在线应用时所需的索引。用户不仅可以借助文字查询方法,也可以借助视频的浏 览和范例的查询方法利用搜索引擎进入索引进行检索,返回的结果仍可以用可视 化的手段显示给用户,使得用户能够借助相关反馈开始新一轮的查询。 当前的视频检索主要有以下几种方式: 1 基于关系型数据库的方式。根据特征字段检索出所需的素材,然后通过浏 览关键帧来定位目标视频。比如通过节目标题、拍摄地点和制作时间等字段进行 检索。但是特征字段所能描述的视频属性是有限的,而且手工标记的效率很低。 2 基于大段视频注释的全文检索。视频注释一般以文本字段形式存放在关系 型数据库中,通过编号和视频文件相联系。它虽然最大限度的保留了视频的高层 语义信息,但是却丢失了宝贵的底层视觉信息,不能为用户提供灵活的多维检索。 3 基于内容的视频检索。它直接对图像、视频的内容进行分析,抽取特征和 语义,利用这些内容特征建立索引,用户可以通过指定模版视频,检索出和模版 在颜色、纹理、运动等特征上相类似的素材。虽然目前特征提取的技术仍然不成 熟,但是基于内容的视频检索是视频检索领域的研究热点。 伴随着基于内容的视频检索的兴起,基于运动特征的视频检索成为了视频检 索的一个重要方面。现在已有一些视频检索系统如q b i c 、j a c o b 采用运动特征 索引和检索视频嗍同时为了获得更好的效果,也常常将各种特征结合起来进行 视频检索,如对体育比赛的视频,可以将运动特征和颜色特征结合起来进行检索 1 9 1 目前网络上可用的视频搜索引擎都是基于文本关键字进行的,包括 a l l t h e w e b o a t t p :w w w a l l t h e w e b e o m ) ,a l t a v i s t a ( h t t p :w w w a l t a v i s t a e o m ) 等。在 基于内容的视频检索方面,经过多年的深入探索和研究,已经开发出了一些有价 值的原型系统包括: 1 q b i c 系统。m ma l m a d e n 研究所开发的该系统是基于内容的视频检索的 典型代表它允许用示例图像、用户构建的草图和见图选择的颜色和纹理模式, 2 w _ _ 重庆邮电大学硕士论文 第一章绪论 镜头和目标运动和其他图形信息等,对大型的图像和视频数据库进行查询q s i c 对用户输入的图像、简图或者视频片断的颜色、形状、纹理以及运动变化等特征 进行分析和抽取,然后根据用户选择的查询方式分别进行不同的处理,并给出相应 结果。 2 c o r e 系统。新加坡国立大学开发的一个基于内容的检索系统。它包括多 种特征提取算法,多种基于内容的检索方法、使用自组织神经网络对复杂特征的 度量、建立基于内容索引的新方法以及对多媒体信息进行模糊检索的技术。 3 v i s u a l s c e k 系统。美国哥伦比亚大学图像和高级电视实验室开发的基于内 容的图像,视频检索系统。它的显著特点是实现基于互联网的应用,即提供了一 套供普通网络用户在w e b 上检索图像和视频信息的解决方案。 4 f i 系统清华大学开发的视频节目管理系统。功能包括:视频数据入 库,基于内容的浏览和检索等。它提供多种模式访问视频数据,包括基于关键字 的查询,基于示例的查询,按视频结构进行浏览和按用户自己预先定义的类别进 行浏览。 5 v i d e o 系统。中国科学院计算机技术研究所数字化技术研究室开发的视频 检索系统,基于j 2 e e 平台构架,具有视频分析、内容管理、基于w e b 检索和浏 览等功能。该系统参照m p e g 7 标准描述视频数据,采用高层语义特征与底层视 觉特征相结合以及相关反馈等手段提高检索结果的准确度,并能够根据不同的终 端设备自适应的显示查询结果。 1 3 论文背景及工作内容 视频检索技术是- f o 以多学科理论为基础,融合了多种技术方法的综合性技 术,它主要涉及计算机图形学“o l 、模式识别【1 、认知科学【1 2 1 、图像处理【1 3 】、数 据库1 1 4 1 、信息检索【1 5 1 等理论,所以目前要真正实现对视频信息内容的描述和检 索是相当困难的。本文以视频信息检索的关键技术之一,即基于运动信息的视频 分类和检索作为研究课题。 基于运动特征的视频检索的研究主要包括运动轨迹、运动特征的提取和描 述、全局运动向量检测、局部运动向量检测和视频目标分割以及基于运动特征的 视频检索实现等。对于全局运动和局部运动的视频检索各有大量的研究工作正在 开展并取得了一定的成果。前者是由于摄像头的运动所造成的,m p e g 7 0 6 1 标准 定义从摄像头操作角度进行了详细的规定,一共有6 大运动类型:扫视、倾斜、 变焦、跟踪、升降、推拉。后者是指场景中的目标运动,可以看作与全局运动模 型不相符合的部分。m p e g 7 标准推荐了一种运动描述符一参数运动,主要是以 2 d 几何变换来刻画视频中任意形状的目标区域随时间的变化情况,可以描述视 重庆邮电大学硕士论文 第一章绪论 频中的目标运动。实用的全局运动模型都是简化参数模型,如考虑了扫视俯仰缩 放和摇摆的8 参数运动模型,只考虑扫视和缩放的简化4 参数模型,以及用m p e g 的运动向量进行快速估计的的4 参数模型等。近几年来,针对未压缩视频序列中, 提出了一些基于镜头运动模型参数来估计全局运动的方法【1 刀【埔】【1 9 】。而在压缩域 内,t a n 和s a u r 等通过抽取m p e g 码流中宏块的运动矢量,提出了一种快速的 镜头运动参数检测算法 2 0 1 。另外,俞天力等人建立了一个基于全局运动信息的视 频检索系统1 2 l 】。局部运动向量场的的研究上主要有三种策略,包括先对视频帧分 割之后再计算运动信息吲,先计算运动信息后分割【2 3 1 ,以及同时求得运动向量 场和进行运动区域分割刚。 然而此类研究工作一般都是针对某类特殊领域的视频应用而进行的,或者只 能处理较为简单的视频片断,缺乏普遍应用的意义和前景。对于诸如互联网应用 的视频检索,需要有这样一种视频检索工具,能够对各神类型的视频应用都能够 提供高效的检索,这真是本文针对基于运动信息的视频检索所要研究的工作。 但是对于运动比较复杂的视频,上述就会由于镜头的运动类型不符和编码错 误造成错误的运动估计和模型建立。因此实现鲁棒的基于运动信息的视频检索, 首先要对视频的内容进行自动的分类,对不同运动类型的视频采用不同的检索策 略。分类技术则是数据挖掘领域的一种分析方法首先从数据中选出已经分好类 的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分 类的数据进行分类。但是这种分类会产生一定的不确定性和不致性,例如有些 全局运动的帧图和局部运动有近乎相似的运动特征 、 粗糙集理论瞪】是波兰科学家z p a w l a k 在1 9 8 2 年提出的。处理不完整数据和 不精确知识的强有力的数学工具,目前已经成为人工智能领域的一个新的学术热 点,在知识获取、知识分析和决策分析等方面得到了广泛的应用闭。其优点是不 需要预先给定检测对象的某些属性或特征的数学描述,而是直接从给定问题的知 识分类出发,通过不可分辨关系和不可分辨类确定对象的知识约简、导出问题的 决策规则。因此我们可以利用粗糙集理论的数据处理方法来进行视频镜头的预分 类 本文在这样的研究背景下开发一个基于运动信息的视频检索原型系统。这个 系统将粗糙集理论应用于视频检索中。论文的主要研究内容包括:基于粗糙集理 论的视频预分类模型的建立、以及算法实现以及仿真试验验证;基于运动信息的 视频检索系统的研究背景、研究思想以及具体设计思路;系统中的视频帧图预分 类、镜头分割、镜头分类、镜头检索等主要主要模块的设计与实现。 本论文工作得到国家自然科学基金项目( n o 6 0 3 7 3 1 1 1 ) 、重庆市教委科学技 术研究项目( n o 0 5 0 5 0 9 ) 、重庆市自然科学基金( n o 2 0 0 5 b b 2 0 6 3 ) 的资助,以 4 重庆邮电大学硕士论文第一章绪论 及是这些项目整体研究工作中的一部分本人在该项目中负责完成视频数据的搜 集,基于租糙集的视频预分类的设计测试比较、镜头分割的实现、基于运动信息 的视频检索系统的整体编码设计与实现等工作。 1 4 论文结构 本人在现有基于运动信息的视频检索系统的研究基础上,提出种鲁棒的视 频预分类的方法,在镜头分割的基础上利用该方法进一步的对镜头进行分类,并 将该方法运用到基于运动信息的视频检索系统中,实现对视频的检索。 本论文的组织结构如下: 第一章:绪论:介绍了视频检索技术及其发展状况,以及本论文的研究背景 和研究工作 第二章:主要理论基础:包括视频编码技术,基于运动信息的视频检索技术, 数据挖掘的基本理论。 第三章:基于粗糙集的视频预分类技术:详细讲述了提取视频中的运动特征 的方法,通过粗糙集平台建立分类模型,仿真实验以及和其他平台所做的比较。 第四章:基于运动信息的视频检索系统:介绍了系统的整体框架,镜头切边 检测算法的实现,镜头检索算法的实现以及在该系统下进行的实验的测试结果。 第五章:结论与未来工作:对本论文的主题进行讨论,总结研究的贡献,并 探讨其中的问题、限制与未来的研究方向。 5 重庆邮电大学硕士论文 第二章主要理论基础 第二章主要理论基础 2 1m p e g 视频压缩标准 2 1 1m p e g 概述 m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ) 是i s o 为制定有关动态图像压缩标准 而成立的一个专家组,现已经工部了多个版本的标准:m p e g l ,m p e g 2 , m p e g 4 等。其中m p e g l 是m p e g 标准集的基础,m p e g 2 和m p e g 4 都是在 m p e g l 的基础上所作的改进和扩展,以满足不同的应用要求和环境。 肝e g 标准是一个通用标准,既考虑了应用要求,又独立于具体的应用。 i p e g 标准可以用于下列数字存储媒体上 2 7 1 :光盘( c d r o m ) 、数字录音带( d a t ) 、 磁盘以及通信网络( 综合业务数字网、分组交换网以及局域网等) 。 肝e g 标准不仅考虑了视频数据压缩,而且还考虑了音频数据压缩以及两者 之间的同步问题。作为m p e g 视频压缩算法,必须具有和存储相适应的性质,即 能够随机访问、快退跨进检索、倒放、音像同步、容错能力、延时限制、可编 辑性以及灵活的视频窗口格式,实现这些特性对各种应用都是非常重要的,因 而也构成了m p e g 视频压缩算法的基本特征。 , 2 1 2m p e g 2 图像组织结构 m p e g 2 是一组用于视音频压缩编码及其数据流格式的国际标准。它定义了 编解码技术及数据流的传输协议;制定了m p e g 2 解码器之间的共同标准 ( m p e g 2 编码器之间尚无共同标准) 本文以m p e g 2 的系统、m p e g 2 的编码、 及m p e g 2 的应用为题,讨论m p e g 2 压缩编码技术。 m p e g 2 的图像帧分为三类:i 帧( i n t r o c o d e df r a m e ) 、p 帧( p r e d i c t i v e l y c o d e df r a m e ) 和b 帧( b i d i r e c t i o n a l l yp r e d i c t i v e l yc o d e df r a m e ) i 帧采用何j p e g 类似的编码方法进行编码,并且编码时不需要参考其它的 帧,其压缩比时最低的,可以作为随即访问点和其他图像编码帧的参考帧。 p 帧需要利用前面的i 帧或p 帧信息进行编码和解码,同时又是后续p 帧的 参照帧,它利用了瞬时冗余特性,获得较高的压缩比。然而只有对所参照的i 帧和p 帧完成解码后才能访问p 帧 b 帧需要利用前面和后面的i 帧、p 帧信息进行编码和解码,但它本身不可 6 重庆邮电大学硕士论文 第二章主要理论基础 以作为参照帧,由于它采用了双向运动补偿预测技术,故它的压缩比时最高的。 在m p e g 2 视频压缩算法中采用一种叫做画面组( g o p ) 的数据结构,如图2 所示。 口口口口口口 ,图2 1m p e g 视频流的数据层次 g o p 中有固定数目的连续帧集合,并保证g o p 的第一帧就是i 帧。一帧图片是 由若干组块成的。一个组块是一系列任意数目的宏块,它按照光栅扫描顺序从 上到下、从左到右在视频流中出现。组块又是由若干宏块构成,宏块包含一部 分亮度分量和一部分色度分量。宏块有三种类型的色差格式:4 :2 :0 ,4 :2 :2 : 和4 :4 :4 一个4 :2 :0 宏块由六个块组成。这种结构包括四个y 块,一个c b 块 和一个c r 块;一个4 :2 :2 宏块田八个块组成。这种结构包括4 个y 块,两个 c b 块和两个c r 块。个4 :4 :4 的宏块由1 2 个块组成这种结构包括四个y 块, 四个c b 块和四个c r 块。块是源图像数据和重构数据,是d c r 变化单元,而宏 块则是运动补偿和预测的基本单元。 2 1 3m p e g 2 压缩算法 i d p e g 2 视频压缩算法采用两种基本技术:一是基于块的运动补偿预测,以 缩减时间冗余;二是基于d c t 的变换编码,以缩减空间冗余。运动补偿预测技 术采用纯预测编码和插值预测编码两种编码方法剩余的信号在缩减空间冗余 时进一步的被压缩。与运动相关的信息包含在1 6 1 6 块中,与空间信息一起进 行d c t 变换。为了获得最大限度的编码效率,使用可变长熵编码器来压缩运动 信息 运动补偿预测是一种降低时间冗余度的有效方法,在许多视频压缩算法中 得到了广泛的应用运动补偿预测技术假设每一帧图像都是过去某个帧图像为 原型并经过变换得到的。这种变换是局部的,即图像上各点的位移方向和大小 7 重庆邮电大学硕士论文 第二章主要理论基础 不必相同。运动向量值必须正确编码,因为它是重建图像所必须的 m p e g 2 的一个重要特点就是采用了运动补偿插值编码技术。它改善了随机 访问性能,提高了运动视频图像的质量。在时问范畴内,通过对一路低速率的 子信号编码,附加修正项插值,可获得全分辨率信号。而且通过插值编码,可 以获得极高的压缩比。 m p e g 2 的视频编码和解码步骤如下: 1 每个g o p 的第一帧总是i 帧,它是按照块顺序编码的,即使用d c t 变 换、量化过程和熵编码方法进行中度压缩,并作为参照帧和随机访问点。 2 当c o p 出现b 帧或者p 帧时,将启动运动补偿预测过程,以获得最佳的 压缩比。 3 对于p 帧的编码,运动补偿预测算法使用最近的一个i 帧或者p 帧作为 参考帧如果在当前帧的宏块与参考帧的宏块之间找到了一个较好的匹配,则 对当前帧的宏块的运动向量和得到的预测误差进行编码;否则,只对该宏块进 行帧内编码。 , 4 对于b 帧的编码,其处理过程比较复杂。因为必须考虑到四种可能性: 正向预测、反向预测、插值和宏块的帧内编码。如果使用插值预测,则必须使 用前后两个最近的i 帧和p 帧作为参照帧,并产生两个运动向量和一个预测误 差酷块,并且应当首先传输p 帧和b 帧的参照帧。 5 m p e g 2 标准采用了两种结构的量化器,根据帧内编码和帧间编码不同的 d c r 系数性质采用不同的量化矩阵,通过q 系数来控制编码,以适应编码器的 输出数码率。由于预测误差块主要是高频信号,可以采用粗粒度的量化器,以 降低数码率;帧内编码块的信号频率范围较宽,则应当采用细粒度的量化器进 行精确编码;否则,对于那些光滑边界的块,很小的误差都会产生可察觉的块 边界。因此,为了适应人的视觉特性,必须对量化器进行修正,重点对图像中 的视觉效应敏感部分进行精确编码,以消除块效应现象这样,既可以满足图 像数码率的要求,又能改善图像质量, 6 m p e g 2 的熵编码过程是通过v l c 熵编码表来实现的。d c t 系数的编码表 示h 2 6 1 标准中所使用的变长码的一个超集。如果在一个处理器中同时实现这 两个标准,则使用一个变长码既可,以减少开销。 在参考帧之间增加一定数量的b 帧,既可以降低b 帧与参考帧之间的相关 性。也可以降低参考帧之间的相关性,b 帧的数量随着视频内容的变化而变化, 但对于大多数视频内容而言,以1 1 0 秒的间隔插入b 帧是合适的。 m p e g 2 标准对解码过程进行了规定,但是实现解码的方法有很多种。典型的解 码过程是先对位流进行解码,将位流分解成运动信息、量化器步长、块和量化 3 重庆邮电大学硕士论文第二章主要理论基础 d c t 系数几个部分。量化d c t 系数经过解码后送入i d c t ,从i d c t 输出的重建波 形还要叠加上预测结果。 。 2 1 4m p e g 发展状况 m p e g 的任务是开发运动图像及其声音的数字编码标准,目前已提出 m p e g 1 、m p e g - 2 、m p e g - 4 、m p e g 7 和m p e g 2 1 标准。 m p e g 1 标准于1 9 9 3 年8 月公布,用于传输1 5 m b p s 数据传输率的数字存 储媒体运动图像及其伴音的编码。m p e g 组织于1 9 9 4 年推出m p e g - 2 压缩标 准,以实现视音频服务与应用互操作的可能性。 m p e g 2 标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方 案和系统层的详细规定,编码码率从每秒3 兆比特l o o 兆比特,特别适用于 广播级的数字电视的编码和传送,被认定为s d t v 和h d t v 的编码标准。 m p e g - 4 标准专家组成立于1 9 9 3 年,该标准的目标为:支持多种多媒体应 用( 主要侧重于对多媒体信息内容的访问) ,可根据应用的不同要求现场配置解 码器。m p e g - 4 于2 0 0 0 年年初正式成为国际标准该标准旨在为视音频数据的 通信、存取与管理提供一个灵活的框架与一套开放的编码工具。这些工具将支 持大量的应用功能( 新的和传统的) 尤为引人注目的是,m p e g - 4 提供的多种 视音频( 自然的与合成的) 的编码模式使图象或视频中对象的存取大为便利。 这种视频、音频对象的存取,常被称作基于内容的存取。基于内容的检索是它 的一种特殊形式 随着i n t e r a c t 的普及和网络带宽的增加,产生了大量的多媒体数据,如何在 浩如烟海的信息中快速、准确地获得自己所需的内容则成为当前必须解决的问 题。在此需求下,m p e g - 7 应运而生。规定一个用于描述各种不同类型多媒体 信息的描述符的标准集合被称为“多媒体内容描述接口”该标准于1 9 9 8 年l o 月提出,于2 0 0 1 年最终完成并公布。m p e g - 7 标准可以独立于其它m p e ( 3 标 准使用,但m p e c “中所定义的音频、视频对象的描述适用于m p e g 7 。 m p e g 7 的目标是支持多种音频和视觉的描述,包括自由文本、n 维时空结 构、统计信息、客观属性、主观属性、生产属性和组合信息;是根据信息的抽 象层次,提供一种描述多媒体材料的方法以便表示不同层次上的用户对信息的 需求;是支持数据管理的灵活性、数据资源的全球化和互操作性最终的目的 是把网上的多媒体内容变成文本内容,具有可搜索性 m p e g 7 由以下几部分组成: ( 1 ) m p e g 7 系统:它保证m p e g - 7 描述有效传输和存储所必须的工具, 并确保内容与描述之间进行同步,这些工具有管理和保护的智能特性; 9 重庆邮电大学硕士论文第二章主要理论基础 2 ) m p e g 7 描述定义语言:用来定义新的描述结构( 说明成员之问的结 构和语义) 的语言: ( 3 ) m p e g - 7 音频:只涉及音频描述的描述子( 定义特征的语法和语义) 和描述结构; ( 4 ) 4 p e g - 7 视频:只涉及视频描述的描述子和描述结构;视频描述符包含 视频内容的基本结构及其描述,同时包含颜色( c o l o r ) 、纹理( t e x t u a l ) ,形状 ( s h a p e ) 、运动( m o t i o n ) 、定位( l o c a l i z a t i o n ) 和人脸识别( f a c er e c o g n i t i o n ) 等六种基本可视特征。基本结构包括区域分布( g r i dl a y o u t ) 、时间序列( t i m e s e r i e s ) 、多视图( m u l t i p l ev i e w ) 、二维空间坐标( s p a t i a l2 dc o o r d i n a t e s ) 及时间插值( t e m p o r a li n t e r p o l a t i o n ) 五种。颜色是图像内容组成的基本要素, 是识别图像的主要感知特征之一基于颜色的检索过程涉及图像颜色空间的定 义、颜色空间的量化及颜色的再现过程。m p e g - 7 颜色描述符包括颜色空间、颜 色量化,主导颜色、g o f g o p ( g r o u po ff r a m e s g r o u po fp i c t u r e s ) 、颜色一 结构、颜色布局及分级颜色直方图( s c a l a b l ec o l o rh i s t o g r a m ) 。纹理通常定 义为图像的某种局部性质,或是对局部区域象素之间关系的一种度量。纹理特 征可用来对图像中空间信息的定量描述。纹理描述符有均匀纹理( h o m o g e n e o u s t e x t u r e ) 、纹理浏览( t e x t u r eb r o w s i n g ) 和边缘直方图( e d g eh i s t o g r a m ) 描述 符三种在人的视觉感知、识别和理解中,形状是一个重要参数在实现图像 或视频分割的基础上,物体的几何形状或轮廓可作为一个独立的准则对某一类 图像或视频进行描述形状描述符包括:基于区域的形状、基于轮廓的形状和 3 d 形状描述符,以及后来加入的形状变化描述符。上述颜色、纹理和形状特征 都是静止图像的基本特征,或者说是视频内容中基于帧的静止特征。对于视频 序列来说,还有运动信息,在目前技术水平下,视频特征提取的主要任务是: 从图像序列中检测运动信息、识别与跟踪运动目标和估计三维运动和结构参数 等。运动描述符主要有四种:摄像机运动、物体运动轨迹、参数化运动和运动 活动性。定位包含区域定位器和时空定位器。前者通过指定的可度量的方框或 多边形,定位到图像或视频帧的某些区域;后者用来描述视频序列中时空区域, 比如运动对象的区域。人脸识别描述符能够用来检索匹配人脸图像。首先从人 脸图像中提取一维亮度矢量,然后将之投影到由一套基础向量生成的向量空间 中,计算出人脸识别特征描述符。 ( 5 ) m p e g - 7 属性实体和多媒体描述结构; ( 6 ) m p e g - 7 参考软件:实现m p e g - 7 标准相关成分的软件; ( 7 ) m p e g 7 一致性:测试m p e g - 7 执行一致性的指导方针和程序 n i p e g 7 标准可以支持非常广泛的应用,具体如下: 重庆邮电大学硕士论文第二章主要理论基础 ( 1 ) 音视数据库的存储和检索; ( 2 ) 广播媒体的选择( 广播、电视节目) ; ( 3 ) 因特网上的个性化新闻服务; ( 4 ) 智能多媒体、多媒体编辑: ( 5 ) 教育领域的应用( 如数字多媒体图书馆等) ; ( 6 ) 远程购物; ( 7 ) 社会和文化服务( 历史博物馆、艺术走廊等) ; ( 8 ) 调查服务( 人的特征的识别、辩论等) ; ( 9 ) 遥感; ( 1 0 ) 监视( 交通控制、地面交通等) ; ( 1 1 ) 生物医学应用: ( 1 2 ) 建筑、不动产及内部设计: ( 1 3 ) 多媒体目录服务( 如,黄页、旅游信息、地理信息系统等) ; ( 1 4 ) 家庭娱乐( 个人的多媒体收集管理系统等 。 互联网改变了物质商品交换的商业模式,这就是“电子商务”。新的市场必 然带来新的问题:如何获取数字视频、音频以及合成图形等“数字商品”,如何 保护多媒体内容的知识产权,如何为用户提供透明的媒体信息服务,如何检索 内容,如何保证服务质量等。m p e g - 2 1 就是在这种情况下提出的 m p e g - 2 1 的正式名称是多媒体框架,又称数字视听框架( d i g i t a la u d i o - v i s u a l f r a m e w o r k ) 。它的目标就是理解如何将不同的技术和标准结合在一起,需要什 么样的新标准以及完成不同标准的结合工作。简言之,制定m p e g - 2 1 标准的目 的是:( 1 ) 将不同的协议、标准、技术等有机地融合在一起;( 2 ) 制定新的标准; ( 3 ) 将这些不同的标准集成在一起。m p e g 2 1 标准其实就是一些关键技术的集 成,通过这种集成环境就对全球数字媒体资源进行透明和增强管理,实现内容 描述、创建、发布、使用、识别、收费管理、产权保护、用户隐私权保护、终 端和网络资源抽取、事件报告等功能。 2 2 数据挖掘理论 2 2 1 数据挖掘理论介绍 随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储 的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些 重庆邮电大学硕士论文第二章主要理论基础 信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据 库中挖掘信息的技术,就称之为数据挖掘。 t 数据挖掘的任务主要是关联分析、聚类分析,分类,预测、时序模式和偏 差分析等。 关联分析( a s s o c i a t i o na n a l y s i s ) :关联规则挖掘是由r a k e s ha p w a l 等人首先 提出的。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据 关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时 序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支 持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性 等参数,使得所挖掘的规则更符合需求。 聚类分析( c l u s t e r i n g ) :聚类是把数据按照相似性归纳成若干类别,同一 类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念, 发现数据的分布模式,以及可能的数据属性之间的相互关系。 分类( c l a s s i f i c a t i o n ) ;分类就是找出一个类别的概念描述,它代表了这类数 据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或 决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分 类可被用于规则描述和预测。 预测( p r e d i c a t i o n ) :预测是利用历史数据找出变化规律,建立模型,并由此 模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常 用预测方差来度量。 时序模式( t i m e - s e r i e sp a t t e r n ) :时序模式是指通过时间序列搜索出的重复发 生概率较高的模式。与回归一样,它也是用己知的数据预测未来的值,但这些 数据的区别是变量所处时间的不同 偏差分析( d e v i a t i o n ) :在偏差中包括很多有用的知识,数据库中的数据存在 。 很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的 基本方法就是寻找观察结果与参照之间的差别。+ 。 根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数 据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库 以及i n t e r n e t 等。 数据挖掘的流程包括: 1 定义问题:清晰地定义出业务问题,确定数据挖掘的目的。 2 数据准备:数据准备包括:选择数据一在大型数据库和数据仓库目标中 提取数据挖掘的目标数据集;数据预处理一进行数据再加工,包括检查数据的 完整性及数据的一致性、去噪声,填补丢失的域,删除无效数据等。 重庆邮电大学硕士论文第二章主要理论基础 3 数据挖掘:根据数据功能的类型和和数据的特点选择相应的算法。在净 化和转换过的数据集上进行数据挖掘。 4 结果分析:对数据挖掘的结果进行解释和评价,转换成为能够最终被用 户理解的知识。 5 知识的运用:将分析所得到的知识集成到业务信息系统的组织结构中去。 数据挖掘的方法有神经网络方法、遗传算法、决策树方法、粗集方法、覆 盖正例排斥反例方法、统计分析方法、模糊集方法等。本文中采用了其中的一 些方法进行视频分类的分析。包括粗糙集和s v m 。 2 2 2 粗糙集理论 粗糙集理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和 处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭 示潜在的规律。 粗糙集理论是波兰科学家z p a w l a k 在1 9 8 2 年提出的一种处理不确定性和 不精确性问题的一种新型数学工具。它近年来受到了国际上越来越多的学者的 关注,目前己举办了几届粗糙集的国际学术会议,成立了粗糙集的国际学术团

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论