(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf_第1页
(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf_第2页
(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf_第3页
(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf_第4页
(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf_第5页
已阅读5页,还剩55页未读 继续免费阅读

(计算机应用技术专业论文)智能检索技术在媒体资产管理系统中的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东轻t 业学院硕士学位论文 摘要 随着数字存储技术和多媒体技术的发展,对海量的音视频资料进行存储、管 理、检索和再利用成了摆在人们面前一个严峻的课题。媒体资产管理系统中的智 能化检索技术克服了传统文本检索的缺陷,成为当前的一个研究热点。本文从媒 体资产管理系统对智能化检索的要求出发,系统的研究了数字图像底层特征提取、 视频镜头切割、关键帧提取、视频场景合成( 视频镜头聚类) 以及基于模糊集的 模糊聚类分析等方面的内容。 对子视频镜头切割,本文采用了基予全局的直方匿的方法。在视频镜头分割 的基础上,需要对镜头抽取关键帧来表征视频镜头。常见的关键帧的选取算法, 有的选取的关键帧的数目固定,不能完全反映视频镜头内容的变化;有的则存在 关键帧选取过多的缺点。本文利用信息论中熵的含义,设计了一种基于图像灰度 熵的关键帧提取算法,试验证明浚算法能够克服传统的基于内容分析的关键帧提 取算法中存在的关键帧提取过多的缺点,同时又能根据镜头内容的变化保留合适 数目的关键帧。 关键帧仅仅反映了一个镜头的内容。单个的视频镜头往往不簏完备的反映视 频的语义信息,因此需要在视频镜头的基础上合成更高层次的视频单元,从而建 立以场景为单位的语义表示级视频结构。本文研究了常见的聚类算法,| 司时利用 模糊数学为理论工具,设计了种基于模糊聚类的视频语义分析算法,该算法能 够提供不同精度的聚类输出。 关键词:媒体资产管理;智能检索;视频镜头分割;关键帧;模糊聚类 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fd i g i t a ls t o r a g et e c h n o l o g ya n dm u l t i m e d i at e c h n o l o g y , t h e d a t as t o r a g e ,m a n a g e m e n t ,r e t r i e v a la n dr e u s ea b o u taf l o o do fa u d i oa n dv i d e oh a s b e c o m eas e r i o u si s s u e t h e i n t e l l i g e n tr e t r i e v a lt e c h n o l o g yo fm e d i aa s s e t m a n a g e m e n ts y s t e mo v e r c o m et h es h o r t c o m i n g so ft r a d i t i o n a lt e x tr e t r i e v a l ,a n d b e c o m ear e s e a r c hf o c u s i nt h i sp a p e r , t h em e d i ac a p i t a lo f i n t e l l i g e n tr e t r i e v a ls y s t e m r e q u i r e m e n t so ft h es y s t e mo nt h eg r o u n df l o o ro ft h ed i g i t a li m a g ef e a t u r ee x t r a c t i o n , v i d e oc a m e r ac u t t i n g ,ak e yf r a m ee x t r a c t i o na n dv i d e os c e n e so f ( v i d e oc a m e r a c l u s t e r i n g ) ,a n db a s e do nf u z z ys e t so ff u z z yc l u s t e r i n ga n a l y s i s c u t t i n gt h ev i d e oc a m e r a , t h ep a p e ri sb a s e do nt h eo v e r a l lh i s t o g r a mm e t h o d i n v i d e os h o td e t e c t i o no nt h eb a s i so fv i d e ok e yf r a m ee x t r a c t i o nt h r o u g ht h el e n s c h a r a c t e r i z e dv i d e oc a m e r a c o m m o nk e yf r a m es e l e c t i o na l g o r i t h m ,a n ds o m es e l e c t e d k e yf r a m et h en u m b e ro ff i x e dv i d e oc a m e r ac a nn o tf u l l yr e f l e c tt h ec h a n g e si nt h e c o n t e n t ,w h i l et h e r ea r es o m ek e yf l a m es e l e c t i o nt o om a n ys h o r t c o m i n g s b yu s i n g i n f o r m a t i o nt h e o r y , t h em e a n i n go ft h ee n t r o p y , d e s i g n ,w h i c hi sb a s e do ng r a y 。s c a l e i m a g ee n t r o p yk e yf r a m ee x t r a c t i o na l g o r i t h ma n dt e s ts h o w st h a tt h ea l g o r i t h mw i l lb e a b l et oo v e r c o m et h et r a d i t i o n a lc o n t e n t b a s e da n a l y s i so ft h ek e yf l a m ee x t r a c t i o n a l g o r i t h mi nt h ek e yf l a m ee x t r a c t i o nt o om a n ys h o r t c o m i n g s ,w h i l et h ec o n t e n t so ft h e l e n si na c c o r d a n c ew i t ht h ea p p r o p r i a t en u m b e ro fc h a n g e st or e t a i nk e yf l a m e k e yf l a m er e f l e c t so n l yt h ec o n t e n t so fas c e n e as i n g l ev i d e oc a m e r ao f t e nd on o t r e f l e c tt h ec o m p l e t ev i d e os e m a n t i ci n f o r m a t i o n ,t h e r e f o r e ,r e q u i r e st h el e n so nt h eb a s i s o fah i g h e rl e v e lo fv i d e ou n i tt oe s t a b l i s hau n i tf o rt h es c e n es a i dt h es e m a n t i cl e v e l v i d e os t r u c t u r e t h i sp a p e rs t u d i e st h ec o m m o nc l u s t e r i n ga l g o r i t h m ,a n du s i n gf u z z ym a t ht h e o r y t o o l s ,ad e s i g nb a s e do nf u z z yc l u s t e r i n gv i d e os e m a n t i ca n a l y s i sa l g o r i t h m s t h e a l g o r i t h mc a np r o v i d ed i f f e r e n tc l u s t e r i n ga c c u r a c yo ft h eo u t p u t k e y w o r d s :m e d i aa s s e tm a n a g e m e n t ,i n t e l l i g e n ti n f o r m a t i o nr e t r i e v a l ,v i d e os h o t d e t e c t i o n ,k e yf r a m e ,f u z z yc l u s t e r i n g i i 学位论文独创性声明 本人声明,所呈交的学位论文系在导师指导下本人独立完成的研究成果。文 中引用他人的成果,均已做出明确标注鼓得到许可。论文内容未包含法律意义上 已属于他人的任何形式的研究成果,也不包含本人己用于其他学位申请的论文或 成果,与我一闻工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文知识产权权属声明 本人在导师指导下所完成的论文及相关的职务作品,知识产权归属山东轻工 业学院。由东轻工监学院享有以任何方式发表、复制、公开阅览、借阅以及申请 专利等权利,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 本人离校后发表或使用学位论文或与该论文直接褶关的学术论文或成果时,署名 单位仍然为山东轻工业学院。 论文侔者签名:銎二丕l 缉 隰丝巫年五月丝日 导师签名: 山东轻工业学院硕十学位论文 第1 章绪论 1 1 引言 随着数字化时代的到来和多媒体技术的发展,电视螽和音像资料馆积累了海 量的音视频素材,尤其是那些时代久远具有历史价值的素材,更是成为电视台等 所有者宝贵的财富。如何对这些海量的音视频资料进行存储、管理、检索和再利 用就变成了一个棘手的问题。传统的方法是将记录有内容的录像带羹占上标签,存 放于带库架子上。等需要时,再根据标签上的内容进行相应的查找。媒体资产管 理( m e d i aa s s e tm a n a g e m e n t ) 系统h 五引,正是针对这一麓题提高的一整套解决方 案,是套完整的数字媒体资产存储、管理、发布的解决方案。 ( 1 ) 构建媒体资产管理系统所要解决的现实问题 瞄前大多数电视台的节目资料基本还是以模拟形式保留在磁带上,因此遇到 很多闯题。 资料保存寿命受到制约。原因l :由模拟录像带本身的缺陷造成。模拟录像 带由于不可避免磁粉脱落,其寿命与使用的次数成反比。越是重要的节目,保存 时闻反而越短。由于使用中对录像带的损坏程度是无法量他的,所以无法精确的 估计录像带的真正寿命。原因2 :由录像带播放设备的更新换代造成。目前许多电 视台在设备升级换代的同时,还不得不保留一些老式录像机读取老式磁带上的信 息。 资料检索困难。在现有节目存储系统查找素材主要分两步,一是要首先找 到存储相关节舀的录像带,然艏再从录像带中找到相应的信息。为了制作一个新 的节豳,通常需要从几十盘录像带中截耿片段。找到了所需要的录像带,只是完 成了检索工作量的2 0 ,然焉就需要顺序查找每盘录像带的节冒片段,通常一个 小时的录像带上有用的节目只有几十秒。由于有用的节网片段可能在录像带的任 何位置,为了找到这个片段所需要的平均时闻在理论上应该是录像带总长度的一 半,但实际上用户经常需要反复查找、比较之后才能找到有用的片段,所以实际 上找到这片段所需要的时间经常是录像带总长度的一点五至两倍。 资料共攀不方便。目前电视台现实音视频信息的共享途径主要有两种:使 用最多的是借用录像带,这是最不可取的一种方式,因为每个用户在一段时间内 需要独占地使用他们新借阅的录像带,褥且录像带每借阕一次,寿命都会缩短。 另外种方式是复制录像带,这种方式的优点是可以多个人同时使用,而且可以 延长录像节冒的寿命,这还是隧前不同的电视台之闽交流录像节躁的主要方式。 ( 2 ) 电视台媒体资产管理的特点 电视台的主要业务是节目生产,因此音视频信息是电视媒体信息的最主要部 第l 章绪论 分,当然还包括文稿、解说词、图片、拍摄脚本、编目信息等。 保存价值高。音视频信息是用来记录重大事件和人物的最重要的手段。我 国的各级电视台在其各自发展历史中,都积累了一定数量的珍贵素材。音视频资 料拍摄制作编辑设备复杂,生产成本远大于文字资料。另外许多十分珍贵的历史 镜头和声音均无法重新制作,重复利用要求较高。这些历史资料随着时间的推移, 应用次数越多,应用所产生的价值增量越大,重复利用价值越高,甚至可能超过 电视台固定资产的价值。电视台的现有音像节目主要通过再利用体现其价值。 数据存储量大。数字化后的音视频数据存储量= 节目时长术压缩码率,其中 压缩码率主要由质量要求和编码格式决定。例如:2 0 0 0 小时的节目素材,采用 m p e g 压缩码率定为2 5 m b s ,总存储量约为2 0 t b 。全国大中型电视台都已积存 了万级以上小时的素材资料。另外由于数据量大从而给传输、存储、检索带来极 大的压力。从技术实现角度考虑这是音视频媒体数据区别于其他类型数据的最主 要特点。 数据关系复杂。每一个电视节目其相关信息都涉及到视频、音频、图文、 检索等信息,各种数据之间构成了很复杂的关系。 ( 3 ) 媒体资产管理系统的核一t 3 功能及工作流程 媒体资产管理系统的核心功能: ( i ) 通过采集和对素材源进行数字化,创建不同格式、不同应用码率的数 字素材。 ( i i ) 通过自动化的分析比较系统( 手动辅助) ,提取素材中的关键帧信息。 ( i i i ) 通过中央数据库系统,管理提取出来的关键帧、重要的元数据和描述 关键字信息。 ( i v ) 通过分类编目系统,对素材进行分层次的分类编目工作,层次化的工 作至少要保证该素材在以后需要时可以方便准确的被检索出来。 ( v ) 通过浏览检索端,以搜索引擎的方式方便、准确的查找到所需要的素 材。 ( v i ) 通过浏览检索端,浏览所找到的素材,标志入出点,准备重复使用符 合要求的素材。 ( v i i ) 导出选择好的素材,通过在线精编辑工作站点或者离线软编辑工作站 点进行制作。 ( v i i i ) 通过存储系统和分级存储管理,存储媒体资产。 。媒体资产管理系统的工作流程: 产生阶段一应用阶段一结束阶段 媒体资产管理系统是针对媒体资产整个生命周期进行管理形成闭环,尽可能 延长应用期的时间,以发挥媒体资产的价值。 2 山东轻工业学院硕十学位论文 电视台媒体资产管理系统是从“频道管理到“内容管理 的变革。这种业 务实现手段的提升和业务管理思想的变革,为电视台带来的结果是以内容为商务 核心的运营模式。媒体资产管理的实质是:只须创建资产内容一次,然屠就可以 以不同的形式,在不同的环境下进行管理,使内容被重用和再销售的机会大大增 加。在信息为王的时代,当这种资源被充分发掘时,必将成为广播电台、电视台 图书资料音像馆的一笔非常庞大的理想资产。 1 2 传统检索方法在媒体资产管理系统中的应用 1 2 1 传统检索方法简介 传统的检索方法即:基于文本的检索( t b r ) 。 通常,媒体资产管理系统在检索节因、素材、片段、场景、镜头时都是采用 基于文本检索( t e s t b a s e d r e t r i e v a l ) 的方式,也就是针对节目、素材、片段、场 景、镜头等视频资料运用数据库技术,并结合广播电视音像资料编目规范进行人 工标注。查询时,根据查询关键词去精确地匹配人工标注。其检索过程如图l 。l 所 示: 图1 1 传统媒资管理系统的检索流程 1 2 2 传统检索方法豹局限性 传统的检索方法有其自身难可以克服的局限性【4 】,在查询相关的视频信息时仅 仅使用了文字或标签,面没有使用底层或中层与感知相关的信息。但是用文字描 述与感知相关的信息是很难的,文字标签难以表达蕴藏在多媒体数据中丰富的内 容,在查询图像、视频时常会出现错误。 其次,文字描述是种特定的抽象,如果描述的标准改变,则标签也得重新 制作么能适合新查询的要求,即:特定的标签只适合特定的查询要求。 辩次,目前这些文字标签是靠观察者选出来加上去的,因此受主观因素影响 很大,不同的观察者或同一观察者在不同条件下对同一幅图像可能给出不同的描 第1 章绪论 述,因此不够客观,没有统一标准。 最后,采用这种方式,标注工作量巨大,不适用于大规模的数据集合。 1 3 智能检索技术在媒体资产管理系统中的应用 1 3 1 媒体资产管理系统中智能检索技术的定义 近年来,智能化检索技术开始用于多媒体信息的检索【5 ,6 】。所谓智能化检索技 术,是根据媒体对象的内容语义及上下文联系的特征进行检索,如图像的颜色、 纹理、形状,视频中的镜头、场景、镜头的运动,声音的音调、响度、音色等, 简言之,就是根据媒体对象内容的各种特征进行直接检索,找到具有指定特征或 含有特定内容的音视频资料。它区别于传统的基于文本的检索手段,融合了图像 理解、模式识别、计算机视觉处理等技术,具有如下特点: ( 1 ) 不需要额外的人工添加大量的文本注释信息,而且可以克服t b r 中的主观 性和不完备性,它直接从视频内容中提取信息线索,比如提取视频数据关键帧的 形状、颜色、纹理等特征,而后对特征进行匹配。 ( 2 ) 与基于文本的t b r 常规检索去精确地匹配关键词有明显不同,基于内容的 智能化检索是一种近似匹配,通过采用近似性匹配逐步求精,以不断逼近查询目 标。 ( 3 ) 特征提取和索引建立可由计算机自动实现,避免了人工描述的主观性,也 大大减少了工作量。 ( 4 ) 检索结果通常是按匹配程度以从大n d , 的顺序返回给用户的结果集。对原 始视频信息中提取的特征进行定义和描述,从而能对数据进行分类和检索,是实 现智能化检索技术的关键。 在媒体资产管理的智能化检索系统中,一方面,编目人员可以在离线状态下 通过一定的方法对数据库内容进行注解,另一方面系统也可自动地对数据库图像 或视频进行分析,提取特征,从而提供出在线应用时所需的多位索引。用户不仅 可以借助文字查询方法,也可以借助视觉浏览和视觉范例查询方法利用搜索引擎 进入索引进行检索,返回的结果仍可以用可视化的手段显示给用户,使用户能借 助相关反馈开始新一轮查询。其工作流程如图1 2 所示; 4 山东轻工业学院硕士学位论文 图1 2 媒资管理系统孛智麓化检索麓流程 1 3 2 国内外冬系统的应用现状 媒体资产管理系统中的智能检索技术是一项新起的技术,目前基于内容的智 能检索系统正逐步进入实用阶段,国际国内上相应的公司已开始对其进行研究并 开发出相应的系统,比较成型的有: ( 1 ) i b m 公司的q b i c q b i c ( q u e r yb yi m a g ec o n t e n t ) 是由美国l b m 公司著名的a l m a d e n 实验室 开发的。它是因前应用最多的图像检索系统,如旧金山现代艺术博物馆以及法国 的文化部的机构等。 q b i c 提供了三种属性检索功能:颜色属性、纹理属性和形状属性,检索效率 非常离。颜色属性的检索包括颜色百分比检索和颜色分布检索。利用颜色的酉分 比检索,用户可以检索到具有相似颜色或者比例的图像,而利用颜色分布检索, 可以进一步检索到不仅颜色相似而且颜色分布也相似的图像。纹理检索是对图像 中线条的粗糙性、对比性、方向性三者的综合考虑。形状属性检索包括对象形状 检索和轮廓检索。 q b i c 除了上面的基于态容的检索外,还辅以文本检索手段。例如为 瑟金由现 代艺术博物馆的每件作品给以标准信息描述:作者、标题、曰期等等。许多作品 还有内容的鸯然描述。 ( 2 ) v i r a g e 公司的v i r 图像引擎 v i r a g e 公司的v i r ( v i s u a li n f o r m a t i o nr e t r i e v a l ) 图像引擎提供了网项可视 图像属性弓l 擎检索( 颜色、成分、纹理和形状) 。每种属髓被赋予0 1 0 的权值。通 过颜色检索是最简单明了的,该软件对选出的基础图像的色调、色彩以及饱和度 进行分析,然蔗在图像库中查找与这些颜色属性最接近的图像。成分( c o m p o s i t i o n ) 特性指相关颜色区域的近似程度。 用户可以设置一个或者多个属性权值来优化检索。要达到最往平衡度要经过 5 第1 章绪论 多次反复试验,但检索过程是相当快的。在结果显示矩阵中可以选择查看3 、6 、9 、 1 2 、1 5 或者1 8 幅简图。通过对四个属性值的调整,显示出不同的检索结果。简图 是根据相似度降序排列。点击简图标题将得到该图的详细说明,包括v i r a g e 计算 出的相似度。 ( 3 ) t v - f i 系统 t v - f i ( t i n g h u av i d e of i n di t ) 是由清华大学开发的一套视频节目管理系统。 该系统提供如下几个功能:视频数据入库、基于内容的浏览、检索等。t v - f i 提供 多种视频数据访问模式,例如基于关键字的查询、基于示例的查询、按视频结构 浏览等等。 ( 4 ) c o k e 系统 新加坡国立大学开发的一个基于内容的检索系统。其显著技术特色包括:多 种特征提取方法、多种基于内容检索方法、使用自组织神经网络对复杂特征度量、 建立基于内容索引的新方法以及对多媒体信息进行模糊检索的新技术。 1 4 本文的主要研究工作 媒体资产管理系统中的智能检索技术涉及多方面的技术:多媒体技术、数字 图像处理技术、数据库技术等等。本文从媒资管理系统对智能化检索的要求出发, 系统的研究了数字图像底层特征提取、视频镜头切割、关键帧提取、视频场景合 成( 视频镜头聚类) 以及基于模糊集的模糊聚类分析技术等。 对于视频镜头切割,本文采用了基于全局的直方图的方法。在镜头切割的基 础上,提出了一种基于图像灰度熵的关键帧提取算法。该算法在传统的基于内容 分析的关键帧提取算法的基础上,利用图像熵的概念,克服了传统的基于内容分 析的关键帧提取算法存在的关键帧数目提取过多的缺点。 在完成关键帧提取后,通过聚类技术将单个的没有意义的镜头关键帧合成为 具有语义信息的视频场景。本文通过对现有的聚类算法的研究,以模糊数学为工 具,提出了一种基于模糊集的视频语义分析算法。 1 5 本文组织结构 论文共分六章,具体章节安排如下: 第1 章绪论。该章系统的介绍了本文研究背景,分析了媒资管理系统中对智 能化检索技术的要求,同时介绍了现有的智能化的媒资管理系统。 第2 章视频结构分析。该章给出了数字视频的定义,同时详细介绍了常用的 m p e g 视频结构,包括m p e g 视频帧类型、帧编码原理等。 第3 章视频镜头检测及关键帧的抽取。本章介绍了常见的视频镜头检测的切 割算法以及镜头关键帧的提取算法,同时在前人的基础上提出了一种基于图像熵 6 山农轻工业学院硕一卜学位论文 的关键帧提取算法。 第4 章视频镜头聚类与视频分析。本章详细介绍了现有的聚类算法以及模糊 数学的相关知识,同时利用模糊数学中的模糊聚类分析技术,提您了一种基于模 糊聚类的视频语义分析算法。 第5 章系统设计与实现。本章根据媒体资产管理系统对检索煦务的要求,对 系统进行了实现,并详细介绍了各个模块的功能。 第6 章总结与展望。该章对论文的工作做了系统的总结,同时指出了迸一步 研究的方向。 7 第2 章视频结构分析 第2 章视频结构分析 2 1 视频定义 视频 7 , 8 , 9 , 1 0 , i i , 1 2 】( v i d e o ) 是一个来自于广播电视行业的术语,原来主要指模拟 的、快速更新( 利用人的视觉停留效应产生动感) 的画面,与静止图像不同视频 是活动的图像。当以一定的速率将一幅幅画面投射到屏幕上时,由于人眼的视觉 暂留效应,我们的视觉就会产生动态画面的感觉,这就是电影和电视的由来。对 于人眼来说,若每秒播放2 4 格( 电影的播放速率) 、2 5 帧( p a l 制式电视的播放 速率) 或3 0 帧( n t s c 制式电视的播放速率) 就会产生平滑和连续的画面效果。 简单的说,视频就是一系列活动的图像。现在所说的视频是指能够被计算机识别 和处理的数字视频。正如像素是一幅数字图像的最小单元一样,一幅幅图像组成 了视频,图像是视频的最小和最基本的单元,每幅图像称为一帧( f l a m e ) 。视频是 一类重要的视觉信息源,它不仅包含静止图像所包含的内容,还包含场景中目标 运动的信息和客观世界随时间变化的信息。由于视频数据与其它数据在形式、结 构、内涵等方面都不同,所以视频数据有许多特点。与静止图像相比,视频的结 构更为复杂,数据量也更大,对于基于视频内容的智能检索的要求也更高。 2 2 数字视频压缩 2 2 1 视频结构描述 对于视频的结构化划分,所采用的标准不统一,所使用的名称也不尽相同, 但是总的来说,视频数据的划分是采用分层结构,结构粒度从上到下逐渐减小。 顶层是粒度最粗的视频,即一段视频流。最底层是粒度最细的帧,即单个的组成 视频的一幅图像。镜头是一组时间上连续的帧序列,它代表一个场景中在时间上 和空间上连续的动作,对应着摄像机一次记录起停操作,也称剪裁或者拍摄。场 景( s c e n e ) 是一组语义上相关联及在时间上相邻的镜头的集合。也有人从语义理 解的角度出发,将场景或者若干场景的组合称为情节或者故事单元( s e q u e n c e ) : 也有人提出在语义场景层和物理镜头层之间加入组层,作为连接两者的纽带,比 如时间上临近的镜头,或视觉上相似的镜头,由不同的组层组合成语义联系的场 景。视频数据的结构化层次表示如图2 1 所示。 8 山东轻t 业学院硕士学位论文 图2 1 视蕨数据的结构他缮次表示 2 2 。2 视频压缝的方式 未经压缩的视频文件,其数据量是臣大的。以一幅7 2 0 * 5 7 6 分辨率的图像为 倒,假定图像的像素比特为2 4 b i t s 像素,每秒传送2 5 帧图像,那么需要传送的数 据率达3 1 1 0 4 m b s ,即2 4 8 8 3 2 m b i t s ,而存储1 分钟这样的数据则需要1 8 6 6 2 4 m b 的存盘空间,现有的网络和存储设备都是无法承受的。为此,在不太明显影响画 面质量的情况下,需要对视频文件进行雁缩雏引。 图像压缩实际上就是尽可能的减少原始图像数据的信息冗余,这些冗余主要 包括编码冗余、像素冗余和心理感知冗余等。编码冗余,指在对图像进行编码过 程中,没有考虑像素灰度值的分布,对所有像素采用相同长度的码字编码。采用 变长码编码v l c ( v a r i a b l el e n g t hc o d i n g ) 技术( 如哈夫曼编码) 可以去除这样的冗余 信息。编码的基本思路是:统计图像中各个灰度值的出现概率,对于出现概率大 的灰度值采用短字长的码,对于出现概率小的灰度值采用长字长的码,以达到缩 短平均码长、压缩编码数据的目的。像素冗余,指图像数据中各像素在空间上高 度相关性,存在大量的冗余信息,挖掘这类冗余信息的方法是将像素间的关联信 息转换为可反应这种关联关系的形式,如离敖余弦变换d c t ( d i s c r e t ec o s i n e t r a n s f o r m ) 。心理感知冗余,指人们的视觉对所有可视信息的感知程度并非完全一 样,比如对d c t 变换结果中直流成分和低频交流成分的感知强,诱对高频交流成 分的感知弱,因此,可以消除这样的冗余以求进一步提高压缩程度。 ( 1 ) 峻闻压缩 9 第2 章视频结构分析 帧间压缩又称时间压缩。视频帧可以看作为图像集在时间序列上的有序组合, 视频图像除了图像本身特有的冗余信息以外,还包括图像间的冗余信息,即相邻 的视频图像往往具有相同或相似的空间和视觉特征分布,因此后一帧图像在很大 程度上可以通过前面的图像数据进行预测和还原,从而达到视频数据高度压缩的 目的。反之,经压缩编码后的视频数据,其压缩信息既反应了视频图像本身的冗 余信息,也反应了视频图像间的冗余信息,这样的压缩信息非常有助于视频图像 的特征分析。 ( 2 ) 帧内压缩 对视频图像序列进行了帧间压缩之后,数据量还是巨大,这就需要用帧内压 缩技术来对每一帧图像进行压缩。帧内压缩又称空间压缩,是对图像帧中的数据 进行压缩,所以帧内压缩时只考虑本帧的数据而不考虑相邻帧问的冗余关系,各 帧之间没有相互关联,所以压缩后的视频数据仍要以帧为单位进行编辑。帧内压 缩一般很难达到高的压缩比。帧内压缩采用是有损压缩,通过牺牲画面的质量来 达到降低视频数据大小的目的。 ( 3 ) 运动补偿 对视频压缩而言,移动视频图像要比重新编码一个图像帧容易的多,很多时 候往往采用运动补偿技术来降低数据编码量。实现运动补偿时,首先将视频帧划 分成一个个的小方块( 每个方块的大小从4 * 4 到1 6 1 6 不等) 。编码解码器比较 相邻的图像块,判断它是否发生移动。当编码解码器探测的结果是匹配的或者是 近似匹配的,它将重复使用前一帧的数据,而不是重新进行编码。该方法可以显 著降低编码量,但是计算复杂,运算量大,因为每个小块都要同其他的相邻小块 进行比较,这就增加了运算开销。 2 3m p e g 视频数据格式定义 2 3 1m p e g 简介 国际标准化组织i s o ( i n t e r n a t i o n a ls t a n d a r d so r g a n i z a t i o n ) 和国际电工委员会 i e c ( i n t e r n a t i o n a le l e c t r o n i cc o m m i t t e e ) 于1 9 8 8 年联合成立了动态图像专家组 m p e g ( m o v i n g p i c t u r eg r o u p ) 专门从事运动图像( m p e g 视频) 及其伴音( m p e g 音频) 编码的标准化工作。m p e g 是运动图像压缩算法的国际标准,现已被几乎 所有的p c 机平台共同支持。 m p e g 是一个成员众多的标准集合【1 4 , 1 5 , 1 6 , 1 7 ,包括: ( 1 ) 运动图像及其伴音编码国际标准m p e g 1 m p e g - 1 标准制定于1 9 9 2 年,是为1 5 m b i t s 以下传输率的数字存储媒体设计 的运动图像及其伴音标准,主要用于在c d r o m 存储彩色的同步运动视频图像。 l o 山东轻工业学院硕十学位论文 同时,它还被用于数字电话网络上的视频传输,如非对称数字用户线( a d s l ) 、视 频点播( v o d ) 等。 m p e g l 的数据流由系统流、视频流和伴音流三个部分组成。系统流实现图像 和伴音的同步:视频流描述视频图像的压缩信息;伴音流描述伴音的压缩信息。 入们熟知的m p 3 郎为该标准部分,由于其良好的音质特性,m p 3 已经独立于 m p e g 1 的视频部分而得到广泛的应用。 m p e g - 1 的视频部分规定了视频数据的合法码流输入格式,指定了编码数据流 的表示语法和编码方法。该标准采用了三种基本压缩技术:视频图像帧与帧问在时 域上的运动补偿m c ( m o t i o nc o m p e n s a t i o n ) ;帧内空域上基于块的离散余弦变换 d c t ;变长码编码v l c ( 当前采用的是哈夫曼编码) 。m p e g 1 中没有定义产生编 码数据流所需的详细算法,也没有对运动估算算法和压缩模式选择统一的准则。 另外褐流解码时所需的解码参数也包含在码流自身中,这些特点为编码器设计提 供了大量灵活性。 臻) 高质量运动图像编码国际标准m p e g 一2 m p e g 1 的制定主要针对音视频数据的存储,没有顾及数据的传输需要,其码 流数据对信道的容错性能不是很好。m p e g - 2 ( i s o f l e c1 3 8 18 ) 标准制定于1 9 9 6 年,是针对3 - 8 0 m b p s 的视频数据传输制定的运动图像及其伴音编码国际标准。 由于m p e g 2 可以在一个较广的范围内改变压缩比,以适应不同画面质量、 存储内容和带宽的需求,因此m p e g 一2 除了具备m p e g 。l 的所有编码特点以外, 还具有其本身的优越性,体现在: m p e g 2 数据可以在高噪声的媒体中存储或在容易丢失数据包的傣道中传 送。 m p e o 2 可以在一个较广的范围内改变压缩比,以适应不同域面质量。 m p e g 2 除了支持接收类似于m p e g 1 中图像逐行扫描的输入( 也称为帧 图) ,也支持接收隔行扫描的输入( 也称为场图) 。 为了适应网络传输的需要,m p e g 2 支持蹰种方式的可扩展视频编码:时域 可扩展编码,空间域可扩展编码,s n r 可扩展编码和数据分割。 ( 3 ) 面向音褫对象的编码标准m p e g 4 m p e g 1 2 的视频部分都是基于运动补偿和块编码的视频数据压缩标准, m p e g 2 在某种程度上可以认为是m p e g 1 的增强版,与其完全兼容。1 9 9 9 年l o 月正式公布的m p e g 4 标准与m p e g 1 2 的设计理念很大程度的不同,它们完全 不兼容。m p e g 4 ( i s o i e c1 4 4 9 6 ) 引入了一个关键概念:音视对象a v ( a u d i ov i d e o o b j e c t s ) 。a v 对象的提出是为了使新标准支持基于内容的编码,a v 对象的编码 是m p e g 一4 的核心编码技术。在m p e g 4 中所见的视频音频已经不再是过去 m p e g 1 2 中的图像帧或音频帧概念,丽是听觉、褫觉、或视听内容的表示单元。 第2 章视频结构分析 m p e g 4 中最基本的单元是a v 对象,它可以是自然的或合成的声音、图像,原始 a v 对象又可以进一步组成复合a v 对象,整个m p e g 4 就是围绕如何高效编码 a v 对象、如何有效组织、传输a v 对象而制定的。a v 对象的提出,使多媒体通 信具有高度的交互能力和很高的编码效率。 ( 4 ) 多媒体内容描述接口m p e g 7 继m p e g 4 之后,视频压缩标准要解决的问题是对日益庞大的图像、声音信 息的有效管理和快速查询,针对这样的需求,m p e g 组织提出了解决方案m p e g 7 , 并于2 0 0 1 年9 月发布了该标准。 m p e g 一7 是对多媒体内容( 重点为音视频a v 信息) 描述和管理的标准化内容 描述接口,用以实现多媒体信息的索引、选择、过滤、检索等。m p e g 7 既非用于 特征提取的标准,也非类似于m p e g 一1 2 4 的多媒体压缩标准,而是各种音视频信 息的内容描述。 m p e g 一7 建立了各种类型多媒体信息的标准描述方法,这种描述与内容关联在 一起,支持使用者对感兴趣的材料的快速、高效检索,包括静止画面、图形、声 音、运动视频以及这些元素合成的多媒体信息,还包括上述数据类型中的特例如 图像中人的面部表情、人物特点等。 ( 5 ) 多媒体框架m p e g 一2 1 2 0 0 0 年6 月正式批准制定。正式名称为多媒体框架( m u l t i m e d i af r a m e w o r k ) 。 m p e g 2 1 的任务是创建一个开放的多媒体传输和消费框架,使用者可以是任何个 人、组织、团体或公司。在其中,使用者拥有自己的权力,包括用户出版发行内 容的保护、使用权和隐私权等。 m p e g 21 建立在其他标准基础之上,集成了m p e g 系列的其他标准。该标准 使用户对多媒体的处理更加方便和有效,最终为多媒体信息的用户在全球范围内 提供透明而有效的多媒体通信应用环境。m p e g 2 1 和现有的标准统一起来,消费 者将可以自由使用多媒体内容而不会被不兼容的格式、编解码器、媒体数据类型 等等诸如此类的干扰。 m p e g 2 1 目前正与其它相关标准论坛合作寻求尽可能多地使用现有的标准, 使其达到综合应用的目的。 2 3 2m p e g 视频结构描述 m p e g ( 只限m p e g 1 、m p e g 一2 ) 视频流是一个逐级分层结构。表2 1 列出 了m p e g 2 视频比特流的体系层。 1 2 山东轻工业学院顾十学位论文 表2 1m p e g - 2 视频比特流的体系层 体系层功能 视频序列层 图像组( g o p ) 层 图像层 片层 宏块层 微块层 内容单元 随机访问单元:视频编码 主要编码单元 再同步单元 运动补偿单元 d c t 单元 最外一层的视频序列层包含了基本的全局信息,比如帧的大小、比特率和帧 数等等。图像组( g o p ) 层由不同类型的编码帧构成。包括帧内图l ( i n t r ap i c t u r e s ) 、 预测图p ( p r e d i c t e dp i c t u r e s ) 和插补图b ,即双向预测图( b i d i r e c t i o n a lp r e d i c t i o n ) 。 g o p 是能对视频流任意存敬的基本块。每一个g o p 的首帧是l 帧,接着p 和 b 帧交织放入其后,直至g o p 末尾。g o p 的长度是任意的,能够实现视频的快速 搜索和随机访闯。 图像层就是独立的被编码的帧,其头部用来定义帧的类型( i 、b 、p ) 和在 g o p 中帧的信息位置。i ,b ,p 帧可以分解成较小单元的1 6 1 6 像素的宏块( m a c r o b l o c k ) 和8 * 8 ( m i c r ob l o c k ) 像素的微块。同一行内有2 个或者更多的连续的宏块 组合在一起,就形成片( s l i c e ) 层。片用来预示它里面每个d c t 块的成分。宏块 是基本的运动补偿单元,每个宏块有4 个微块组成,微块是基本的d c t 单元。在 一个i 帧中,所有块都按离散余弦变换( d c t ) 进行编码。而p 帧和b 帧是在宏 块层级的编码,通过对单个宏块估算其运动向量来进行。 各层级间的关系如图2 2 所示。在每一层开始包含一个头,里面包含有说明参 数。 第2 章视频结构分析 卜卜一运动图象序列一 卜一图片组一 口 图片 图2 2m p e g 分层结构图 8 像 素 2 3 3m p e g 帧图像的类型 在m p e g 中帧图像分成3 种类型【1 8 , 1 9 】,下面详细介绍: ( 1 ) i 图像( i n t r a p i c t u r e s ,帧内图像) i 图像是利用图像自身的相关性压缩,提供压缩图像数据流中的随即存取的 点,采用基于d c t 的编码技术,编码不需要其他帧的图像做参考,这些帧图像为 译码器提供随机存取点,是预测图像( p ) t p s 和双向预测图像( f ) f p s 的参考图 像,所以压缩率不高,压缩后,每个像素为l b i t - - 2 b i t 。 ( 2 ) p 图像( p r e d i c t e dp i c t u r e s ,预测图像) p 图像是参考过去的帧内图像或者过去预测得到的图像用运动补偿预测技术 进行编码,这些预测图像通常作为进一步预测的参考,预测图像的编码效率较高。 ( 3 ) b 图像( b i d i r e c t i o n a lp r e d i c t i o n ,差补图或双向预测图像) b 图像在预测时,既可以使用前一个图像做参考,也可以使用下个图像作参照 或者同时使用前后两个图像作为参照图像( 双向预测) ,它的压缩效率最高,但双 向预测图像不作为预测图像的参考图像。 图2 3 中用箭头表示了3 种图像之间的关系。 1 4 山东轻工业学院硕上学位论文 前向 f 瓷妊n 黜 lb转 pb转bp 前向 图2 3m p e g 码流图像缎 图2 3 中,i 帧为一个图像组的第一帧,为完全帧内编码方式,可以单独解码。 p 帧和剐 贞为帧问编码。p 帧以i 帧或前一个p 帧为参考帧而形成预测编码帧,如图2 。3 中,第8 帧是以第1 帧( i i f p 9 ;i ) 和第4 帧( p 帧) 为参考帧。b 帧则是根据一定判据自 适应地选择其静或其后的l 帧或p 帧进行预测,如图2 3 中,第5 帧可以选择第l 帧( 王 帧) 和第4 帧( p 帧) 为前向参考帧,选择第8 帧( p 帧) 为后向参考帧。p 帧或b 帧 中每个1 6 x 1 6 象素的宏块都在相应的参考帧中寻找最佳匹配宏块,然后用d c t 编码 进一步压缩运动补偿预测误差,同时传送一个或两个运动向量。如果p 帧的宏块与 前一参考帧相似性不大,那么就不能用运动补偿得到,需要进行帧内编码。因此p 帧中包括帧内编码宏块和前向预测宏块,同时还有s k i p ( 跳过) 宏块。类似地,b 帧中的宏块类型包括l j 向预测、后向预测、双向预测、帧内编码种i s k i p ( 跳过) 五 种。 2 3 4m p e g 帧内编码 帧内编码用于压缩图像的空间冗余信息。离散余弦变换d c t 技术是m p e g 用 来进行图像的帧内压缩的基本方法,这与j p e g 标准,h 2 3 6 标准的压缩处理方法 是相同的。d c t 分为d c t ,变换系数量化和熵编码三个阶段。 ( 1 ) 离散余弦变换( d c t ) 。先把图像分成8 8 的小块,再对每个8 8 块的图像 采样数据或者预测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论