(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf_第1页
(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf_第2页
(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf_第3页
(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf_第4页
(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机软件与理论专业论文)基于mpeg2标准的非线性编辑关键技术的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于m p e g - 2 标准的非线性编辑 关键技术的研究与实现 学位论文完成日期: 指导教师签字:穆顿玄p 1 答辩委员会成员签字:嚷雌 锰砌 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 l 注! 翅遗查甚他嚣要犍 别直盟的:奎拦豆窒2或其他教育机构的学位或证书使用过的材料。与我一同 工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:涨砍赜7 签字日期:别d 年5 月弓口日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:涨黼 签字日期:础年5 月弓d 日 导师签字: 签字日期: n 1 弓 心 月撇年 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 摘要 随着数字化的时代的来临,各种媒体机构正在由传统的模拟信号方式转变为 数字化处理方式。m p e g 2 图像压缩标准适用于高质量数字视频压缩,在h d t v 、 s d t v 和d v d 等标准中有着重要的地位。m p e g 2 的标准具有开放性、实用性, 它利用视频节目的空间和时间相关性,进行了帧内和帧间压缩,利于存储和传输, 并保证了图像的质量。m p e g 2 编码中帧间相关的特性使得基于其i p b 帧标准结 构的视频图像非线性编辑存在一定的困难。 本文提出一套多媒体音视频非线性编辑系统,主要由基于微软公司的d e s 开发工具包与v i s u a lc + + 、l v l f c 开发环境的通用编辑预览模块和基于m p e g - 2 i p b 标准码流的拼接转换模块组成。d e s 是一套基于d i r e e t s h o w 核心框架的非 线性编辑编程接口,它基于时间线模型,可以对多种媒体格式进行自动解码编码 操作,从而实现各种媒体格式的统一。基于d e s 的编辑预览模块包括媒体素材 导入管理、媒体信息获取、时间线创建编辑管理、实时预览回放定位、音视频分 离整合、项目信息结构和保存和恢复、输出具体文件等内容。对于常见的媒体文 件,通过d i r e c t s h o w 中解码器f i l t e r 的支持,使得可以将各种不同的格式文件进 行统一处理。对m p e g 2 标准码流直接拼接的实现与d i r e e t s h o w 系统模块结合, 使两者无缝融合在一起。在使用中无须用户设定,只需输入的素材格式符合 m p e g 2 标准,即能自动检测到,并调用相应的模块进行处理。 关键词:m p e g - 2 ,非线性编辑,dir e c t s h o w ,d e s r e s e ar c ha n dim pie m e n t a tio no fn o n iin e are ditin g s y s t e mf o rm p e g - 。2s t a n d a r df o r m a t a b s t r a c t w i t ht h ed i g i t a le r a , s e v e r a lo fm e d i a p u b l i s h e r sa r eg e t t i n gad i g i t a la p p r o a c h i n s t e a do ft h et r a d i t i o n a la n a l o gs i g n a lw a y m p e g 一2s t a n d a r di ss u i to f h i g l lq u a l i t y d i g i t a lv i d e oc o m p r e s s i o n ,a n dp l a y sa ni m p o r t a n tr o l ei nt h eh d t v ,s d t va n dd v d f i e l d s m p e g 一2i sa l lo p e n ,p r a c t i c a ls t a n d a r d ,i tu s e ss p a c ea n dt i m ec o r r e l a t i o n , c a r r i e do u ti n t e r - f r a m ea n di n t r ac o m p r e s s i o n ,w h i c hh e l p ss t o r a g ea n dt r a n s m i s s i o n a n de n s u r e st h ei m a g eq u a l i t y t h ec h a r a c t e r i s t i c so f t h er e l a t e df r a m e ss t r u c t u r ei n m p e g - 2m a k e si td i f f i c u l ti nn o n - l i n e a re d i t i n gb a s e do ni p bf r a m ev i d e oi m a g e s t h i sp a p e rp r e s e n t sas e to fm u l t i m e d i aa u d i oa n dv i d e on o n l i n e a re d i t i n g s y s t e m ,m a i n l yc o m p o s e db yg e n e r a l p u r p o s ee d i t o rp r e v i e wm o d u l eb a s e do nd e s b a s e do nm i c r o s o f f sd e v e l o p m e n tt o o l k i ta n dv i s u a lc + + tm f c d e v e l o p m e n t e n v i r o n m e n ta n db i ts t r e a ms p l i c i n gc o n v e r s i o nm o d u l e sb a s e do nm p e g 一2i p b s t a n d a r d s d e si saf r a m e w o r kb a s e do nt h ec o r en o n - l i n e a re d i t i n gd i r e c t s h o w p r o g r a m m i n gi n t e r f a c e ,w h i c hi sb a s e do nt h et i m e - l i n em o d e l ,c a nb eav a r i e t yo f m e d i af o r m a t sa u t o m a t i c a l l yd e c o d e e n c o d e do p e r a t i o n , i no r d e rt oa c h i e v et h eu n i t y o fav a r i e t yo f m e d i af o r m a t s d e s b a s e de d i t i n gf r a m e w o r ki n c l u d e st h e m a n a g e m e n to ft h em e d i am a t e r i a l ,m e d i ai n f o r m a t i o na c c e s s ,e d i t o r i a la n dc r e a t i o n c o n t r o lo ft h et i m e l i n e ,l o c a t e dr e a l - t i m ep r e v i e wp l a y b a c k , s e p a r a t ea u d i oa n dv i d e o i n t e g r a t i o n ,t h ep r e s e r v a t i o na n dr e s t o r a t i o no f t h ep r o j e c ts t r u c t u r e ,t h eo u t p u tf o r s p e c i f i cd o c u m e n t sa n ds oo n f o rt h ec o m m o nm e d i af i l e s ,t h r o u g ht h ed i r e c t s h o w d e c o d e rf i l t e ri ns u p p o r to fm a k i n gav a r i e t yo fd i f f e r e n tf o r m a t sc a nb ef i l e s c e n t r a l l y f o rm p e g - 2s t a n d a r db i ts t r e a mr e a l i z a t i o no ft h ed i r e c ts p l i c i n gs y s t e m m o d u l ei n t e g r a t i o nw i t hd i r e e t s h o w , s ot h a tt h et w oc a nb es e a m l e s s l yt o g e t h e r w i t h n ou s e rs e t t i n g s ,j u s tm a k es u r et h ei n p u t t i n gv i d e of o r m a tc o n f o r mt h em p e g 一2 s t a n d a r d ,t h e ni tc a l lb ea u t o m a t i c a l l yd e t e c t e d ,a n dc a l l sa p p r o p r i a t em o d u l e sf o r m k e y w o r d s :m p e g 一2 ,n o n - l i n e re d i t i n g ,d i r e c t s h o w ,d e s 目录 摘要i a b s t r a c t i i i 目 录v i 课题研究的目的和意义1 1 1 引言1 1 2 国内外研究现状1 1 3 主要研究内容2 1 4 论文组织结构3 2 m p e g 一2 概述5 2 1 背景介绍:5 2 2 m p e g 一2 标准规范+ 6 2 3 m p e g 一2 的类与级7 2 4 m p e g - 2 视频编码原理7 2 5 m p e g 一2 视频流的六层结构1 0 2 6 帧图和场图1 1 2 7 m p e g 一2 编码过程中的技术要素1 2 3 非线性编辑工具d e s 概述1 4 3 1 d i r e c t s h o w 和d e s 概述1 4 3 2 时间线模型1 5 3 2 1 时间线中的时间:1 6 3 2 2 播放速率与帧率1 7 3 3 输出控制引擎1 7 3 4 d e s 项目管理”1 9 v 3 4 1 x m l 文档管理1 9 3 4 2项目管理的其它关键知识1 9 3 5 自定义视频缩放器2 0 3 6 d i r e c t s h o w 对m p e g - 2 的支持2 0 4m p e g - 2 拼接算法的关键问题研究2 2 4 i 视频基本流结构解析2 2 4 1 1组层( p a c k e tl a y e r ) :2 3 4 1 2p e s 分组层( p a c k e t i z e de l e m e n t a r ys t r e a ml a y e r ) 2 5 4 1 3视频压缩层2 7 4 2拼接算法边界帧类型的影响2 9 4 3帧转换算法的研究3 0 4 4音频帧的同步编辑3 2 5 系统设计思路与实现3 4 5 1总体模块划分3 4 5 2基于d e s 的交互编辑界面实现3 5 5 2 1环境配制( v s 2 0 0 5 ) 3 5 5 2 2播放功能的实现3 7 5 2 3视频列表的剪辑4 1 5 3预览功能的实现4 3 5 4输出剪辑到文件4 6 5 4 1两种输出方式4 6 5 4 2两种输出方式的选择4 8 5 5项目工程的保存与恢复4 9 6 工作总结与展望5 1 6 1工作总结5 l 6 2工作展望j5 2 v i 参考文献5 3 致谢5 6 个人简历5 7 发表的学术论文5 7 研究成果5 7 v v 珊 基于m p e g - 2 标准的非线性编辑关键披术的研究:j 实现 1 课题研究的目的和意义 1 1 引言 随着信息科技的不断发展,网络多媒体技术的更新换代,我们正在进入一个 数字化的时代。包括广播电视等各种媒体正在由传统的模拟信号方式转变为数字 化处理方式n 1 ,这种数字化趋势的发展导致了数字化多媒体标准的重要性嘲。为 了解决数字媒体的传输和存储等问题,国际标准化组织制定了m p e g 标准广泛应用 于广播电视多媒体应用。其中的m p e g - 2 标准适用于广播级高质量数字视频压缩, 在h d t v 、s d t v 和d v d 等标准中有着重要的地位。m p e g 一2 标准具有开放性、实用性, 它利用了节目的空间和时间相关性,进行了帧间和帧内压缩,利于存储和传输及 保证了图像质量。m p e g - 2 比m p e g - 1 支持更广的分辨率和比特率,而m p e g - 4 在图像 质量方面也不能与之相比,达不到专业视频领域的应用开发要求。其分级模式使 得自身可以适应多种不同标准的应用环境。尽管一些新的压缩技术的出现在各个 领域与m p e g - 2 标准进行竞争,但由于c d 存储、多媒体数字广播、高清晰度电视等 应用的长久发展已使得m p e g - 2 的应用非常成熟,成为一种不可替代的核心标准。 而m p e g - 2 本身帧间相关的特性使得基于其i p b 帧标准结构的视频图像非线性编辑 存在一定的困难,对其进行帧精度的编辑应用成为一种技术难题。在国内还没有 纯基于软件的完善的m p e g 一2 非线性编辑系统。 目前国内的系统开发商,如大洋、新奥特、索贝、奥维讯等所开发的非线性 编辑系统都是基于国外公司( 如m a t r o x 、p i n n a c l e 等) 生产的视频卡系统架构 的口1 。为了使我国在核心竞争力上不受制于国外公司的技术,市场需要自主研发 的t p e g - 2 标准码流格式非线性编辑系统。 1 2 国内外研究现状 随着多媒体技术日新月异的发展,世界各国不断推出各种新技术标准。各种 媒体编码标准层出不穷,如h 2 6 1 、h 2 6 3 、h 2 6 4 、m - j p e g 、m p e g - 1 、m p e g 一2 、 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 m p e g 一4 等。m p e g - 2 在数字电视、电影、d v d 等方面的广泛应用及其自身具备的高 质量、高效率的优势使其在市场上占有重要的地位1 。市场对于m p e g 一2 标准非线 性编辑技术的需求越来越高。目前国内技术较先进的非线编系统开发公司,如索 贝、新奥特、大洋、奥维迅等企业,所使用的系统都是基于m a t r o x 、p i n n a c l e 等国外公司研发的硬件板卡的即1 ,并非采取独立的软硬件环境或自主的纯软件 处理系统。这种开发方式具有一定商业价值,但同时也使我国的m p e g 一2 线性编辑 技术受制于国外企业,降低了国内产业的可持续发展性和技术核心竞争力。 此外,尽管当前m p e g - 2 的非线性编辑系统已在市场中得到广泛的使用,但很 多企业的编辑系统所编辑的视频并不是标准的m p e g - 2i p b 帧编码结构魄盯。由于 m p e g - 2 格式帧间相关的特性,基于其标准格式的非线性编辑存在着很大的技术困 难“。针对这种情况,有些厂家使用独自研发的码流格式标准,有些则将m p e g - 2 中对非线性编辑影响最大的b 帧或p 帧格式删除,只保留i 帧或i p 帧格式。比如世 界著名的非线编板卡制造商m a t r o x 和p i n n a c l e 所研发的基于硬件设备的m p e g - 2 非线性编辑系统,也没有采用标准的m p e g - 2i p b 帧结构。使用非标准格式的系统, 虽然能够简化编辑的运算工作,节约编辑时间,但会使视频存储空间急剧增大, 无法发挥m p e g - 2 压缩编码的优势;同时还会给基于网络媒体传输的交互应用带来 一定的障碍。而以软件开发的厂商来说,两款最流行的专业视频编辑软件a d o b e 公司的p r e m i e r e 和友立的会声会影,也不支持直接导入编辑v o b 格式的m p e g - 2 文 件。 可见,采用单一格式的m p e g - 2 码流标准,实现基于软件的m p e g 一2 非线性编 辑工作是当今市场的迫切需求。为此,我们决定以m i c r o s o f td i r e c t s h o w 技术 和m p e g - 2 标准码流格式为基础,开发独立的m p e g - 2 的非线性编辑软件。 1 3 主要研究内容 本系统是一套多媒体音视频非线性编辑系统,主要由基于微软公司的d e s 开 发工具包和v i s u a lc + + m f c 开发环境的通用编辑预览模块和基于m p e g - 2i p b 标准 码流的拼接转换模块组成。d e s ( d i r e c t s h o we d i t i n gs e r v i c e s ) 是一套基于 d i r e c t s h o w 核心框架的非线性编辑编程接口,它基于时间线模型,可以对多种媒 体格式进行自动解码编码操作,从而实现各种媒体格式的统一。但是其自带的智 2 薹主竺! 兰鱼:! 堡壅塑! ! 丝壁塑塑茎堡丝查堕型壅:! 壅堡 能引擎虽然可以编辑非解码模式的视频输入,但由于自身一些稳定性因素,对于 特定格式( 包括m p e g 一2 标准) 的支持存在一些问题。其默认渲染引擎可以支持包 括m p e g - 2 在内的任何格式的媒体,但在效率和质量保持上无法保证。因此,将d e s 开发的编辑系统与m p e g - 2 标准码流编辑模块相结合是解决m p e g - 2 编辑任务最好 的方案。 本系统主要研究的具体内容有: 1 m p e g - 2i p b 标准码流格式的分析。m p e g 2 格式分为传送流和程序流格式, 一般存储媒体上进行存储编辑多采用程序流格式。m p e g - 2 编码码流格式的包括系 统层、p e s 层、视频基本层、视频序列层、图组层、图像层、组块层、宏块层、 和块层。 2 基于d i r e c t s h o we d i t i n gs e r v i c e s 的编辑框架的实现。包括媒体素材导 入管理、媒体信息获取、时间线创建编辑管理、实时预览回放定位、音视频分离 整合、项目信息结构和保存和恢复、输出具体文件等内容。 3 对m p e g - 2 标准码流直接拼接的实现与d i r e c t s h o w 系统模块的结合,使两 者无缝融合在一起。在使用中无须用户设定,只需输入的素材格式符合m p e g - 2 标准,即能自动检测到,并调用相应的模块进行处理。 4 实现剪辑编辑的记录管理。对用户各种可恢复的操作进行记录,设置缓 冲区,实现撤消和重做操作,使系统在非法关闭时能进行项目工程操作的恢复。 5 通过d e s 实现多种不同格式的合成操作。使此系统具有更好的扩展性,对 于常见的媒体文件,通过d i r e c t s h o w 中解码器f i l t e r 的支持,使得可以将各种不 同的格式文件进行统一处理而不需额外编写代码。 1 4 论文组织结构 本文的组织结构如下: 第一章课题研究的目的和意义 主要介绍了本课题的研究背景、国内外研究现状和主要研究内容。 第二章m p e g - 2 概述 本章介绍了国际视频压缩标准i s o i e c1 3 8 1 8 中描述的m p e g - 2 媒体格式。主 要对其产生背景、文档内容、编码层次及m p e g - 2 视频码流中与非线性编辑相关的 3 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 各种重要元素。 第三章非线性编辑工具d e s 概述 本章主要介绍了微软d i r e c t s h o w i 具集中的非线性编辑模块d i r e c t s h o w e d i t i n gs e r v i c e 。着重叙述了关于时间线模型的概念和输出控制引擎的原理与 应用。 第四章m p e g - 2 拼接算法的关键问题研究 本章的主要内容基于m p e g - 2 标准码流的拼接算法。对其关键的边界帧处理及 帧转换的问题进行了研究。 第五章系统设计思路与实现 本章主要介绍了基于m p e g - 2 拼接算法与d e s i 具集的非线性编辑系统的结构 组成和各模块的实现过程。 第六章工作总结与展望 本章总结了本文所做的工作和仍然存在的不足,以及今后研究的方向。 4 慕于m p e g 2 标准的1f 线性编辑关键技术的研究i 实现 2m p e g - 2 概述 2 1 背景介绍 m p e g ( m o v i n gp i c t u r ee x p e r t sg r o u p ,活动图像专家组) 成立于1 9 8 8 年。隶 属于国际标准化组织( i s 卜i n t e r n a t i o n a lo r g a n i z a t i o nf o r s t a n d a r d i z a t i o n ) 、国际电工委员会( i e c ) 和联合技术委员会( j t c ) 。m p e g 组 织最初的任务是制定对活动图像编码的各种标准n 1 1 ,后来对其任务范围进行了扩 充,增加了对其伴随的音频的组合编码n 习。现在成为制定活动图像及其伴音编码 标准的组织。m p e g 系列标准包括m p e g - 1 、m p e g - 2 、m p e g - 4 、m p e g - 7 和正在制定的 m p e g 一2 1 标准。其中m p e g - 2 标准是在1 9 9 4 年为了数字电视应用而制定的,规范文 件编号为i s o i e c l 3 8 1 8 ,支持隔行扫描和多种色度子采样格式。 m p e g 一2 标准是1 9 9 4 年为了标清晰度和高清晰度数字电视而制定的,主要针对 高清晰电视( h d t v ) 的需要,并广泛应用于d v d 视频领域n 3 1 们。m p e g - 2 解决了m p e g - 1 在多媒体、数字电视等应用中对分辨率和传输率等的技术要求的不足。m p e g - 2 的传输率更高,达蛰 3 - 1 0 m b i t s 每秒。m p e g - 2 标准支持隔行扫描,并且除了m p e g - 1 的4 :2 :0 还支持4 :2 :2 和4 :4 :4 色度子采样格式。m p e g - 2 的音频支持最多7 个伴音声道,可满足d v d 多语言配音的需求,另外还有多个环绕声道和低音声道。 m p e g 一2 标准在制定时考虑了向下兼容的问题,使得大部分m p e g - 2 解码器可以解码 m p e g 一1 格式的视频数据。 原本为了h d t v 的需要而设计的m p e g - 3 ,由于在质量和性能方面都不如m p e g - - 2 的效果,而被m p e g 委员会放弃了。可见m p e g - 2 的适用范围非常广泛,可以达到各 种传输存储环境的需求。它不仅可以作为d v d 标准,还可用于广播、有线电视网、 点播电视( v o d ) 、数字音频广播( d a b ) 、电缆网络电视( c a t v ) 和卫星直播( b b s ) 等场合的数字视频传播。针对各种不同的画面质量、存储容量、传输带宽,m p e g 一2 的分辨率和压缩比可以大范围的变化。 5 基于m p e g 2 标准的非线性编辑关键技术的研究j 实现 2 2m p e g - 2 标准规范 m p e g - 2 标准规范文档编号为i s 0 i e c l 3 8 1 8 ,文档共有9 部分,各部分规定的 内容按以下划分: 第一部分系统n 司 此部分文档定义了m p e g - 2 系统层次的结构,说明如何将一个或更多的音视频 基本数据流合成单个或多个系统数据流,包括传送流和程序流,以适应传输或存 储的需要。数据流主要包括程序数据流( p s ,p r o g r a ms t r e a m ) 和传输数据流( t s , t r a n s p o r ts t r e a m ) 。保证编码的正确性和解码的同步性,同时确保解码缓冲区 不发生上溢和下溢。 i 电视图像 数据输入 声音数据 输入 珏伽眦3 8 1 8 d k 匹o i e c1 3 8 1 8 - 1 广叫 l 叫 图2 - 1m p e 6 - 2 系统 第二部分视频1 町 。 提供向前兼容的视频编码描述和解码过程。目的是将运动视频数据存储为一 种计算机可处理的数据形式,可以在网络、广播信道上传播。 第三部分音频n 刀 提供m p e g - 1 音频标准的扩展,用于低频采样、广播、传输和存储的多通道高 质量音频的编码方式和解码过程。 第四部分为系统符合性测试描述,说明如何对m p e g - 2 码流的正确性进行测 试。第五部分具体介绍如何以软件的形式实现前面所述的规范。第六部分是关于 交互式网络数字存储的会话指令控制( d s m 顿,d i g i t a ls t o r a g em e d i ac o m m a n d a n dc o n t r 0 1 ) 规范。前六部分是已获得通过的正式国际标准。第七部分是多声 道音频编码算法标准( 即e g 一2a a c ,a d v a n c e da u d i oc o d i n g ) ,与m p e g 一1 非兼容 的音频编码。第八部分已停止制作。第九部分规定了传送码流的实时接口。 6 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 2 3m p e g - 2 的类与级 m p e g 一2 按不同应用的需求和编码工具的集合定义了7 个类( p r o f i l e s ) ,这7 个类依次为:简单类( s p ,s i m p l ep r o f i l e ) ,主类( m p ,m a i np r o f i l e ) ,信噪 比扩展类s n r p ( s n r ,s c a l a b l ep r o f i l e ) ,空间可扩展类( s s p ,s p a t i a l l y s c a l a b l ep r o f i l e ) ,高类( h p ,h i g hp r o f i l e ) ,4 :2 :2 类和多视图类( m u l t i v i e w p r o f il e ) 。各个类使用的压缩编码集合各不相同。每个类对应着一个或多个级 ( l e v e l s ) 。不同的级的图像输入格式不同,共有4 个不同的级:低级( l l ,l o w l e v e l ) ,主级( m l ,m a i nl e v e l ) ,1 4 4 0 高级( h i g h 一1 4 4 0l e v e l ) 和高级( h l , h i g hl e v e l ) m ,1 & 1 9 】。 m p e g 一2 的四个级对应着不同的分辨率,比如低级的最大分辨率是3 5 2x2 8 8 , 帧速率为3 0 f p s ,最高码率为4 m b s ;高级的最大分辨率是1 9 2 0 1 1 5 2 ,帧速率为 6 0 f p s ,最高码率为8 0 m b s 。 m p e g 一2 将所有的编码工具组成一个工具集,使用不同类代表其不同子集。较 高级别的类使用的编码工具更多,对图像的处理更加精细,以更高的处理代价来 在相同码率下得到更好的图像质量。m p e g - 2 的编码工具具有类的向下兼容特性, 即用于最高类的编码工具可以实现较低类的视频编码。简单类中用到的是最基本 的编码工具,主类除了包括简单类中的编码工具外,还附带可进行双向预测的工 具,更高级的类中包括扩展分层的编码方法,可以将图像分为基本层和扩展层, 可实现广播传输中的分层组播功能。分层组播是视频广播通信中的重要功能,其 实现的基础是传输信息的分层编码。其中基本层的信息可以进行独立编码、传输 和解码,以此可获得最基本的图像质量;增强层数据的编码、解码过程是建立在 基本层或低级增强层数据的基础上的。高级类包含可以进行色差信号处理的工 具。 m p e g 一2 主类 主级( m p 酬l ) 的标准与目前数字电视采用的标准相符合,主类 高级( m p 酬l ) 的标准符合高清电视h d t v 的技术标准。 2 4m p e g - 2 视频编码原理 动态图像中存在着大量的冗余,为了节约存储空间并且提高传输效率,需要 7 基于m p e g 2 标准的非线性编辑关键技术的研究! j 实现 对数字视频信号进行压缩。最理想的状态是压缩中丢失的数据能够在接收端完全 的恢复,或是使人眼感觉不到图像的差别。这便要求在压缩过程中根据视频信号 的特点和人眼的视觉特点,将信息中与图像相关性小的数据进行压缩。视频信号 中的冗余包括几种: 1 空间冗余 即一帧图像中存在的数据冗余。在一般的视频图像中都会出现大面积的信息 相同或相近的像素,如果进行适当的压缩,可大大减少传输和存储的数据数量。 2 时间冗余 即动态图像中出现的冗余信息。在电视、电影等动态影像中,一秒种会记录 几十幅连续的图像,相邻的两幅图像间往往有大面积的相似画面,或微小的位移。 对这种时间上的冗余进行压缩,通过传输差值的方法,可以减少大量的重复信息。 这种方法是数字视频压缩,特别是网络流媒体中的压缩编码最主要的方法之一。 3 视觉冗余 人类在观看动态图像时,收到和过滤后的信息是非线性的数据。在人眼识别 范围之外的或难以进行精确识别的信息可以作为冗余来对待。例如,人眼对图像 的亮度和色度的敏感程度有很大差别;人的视觉对高亮度中细节的分辨能力低于 低亮度的画面,视觉系统在过滤图像边界和图像内部时采取不同的方法。这也是 对图像进行压缩的主要方法之一。 4 结构冗余和知识冗余 某些图像分布存在规律的画面,如方格花纹、地板图案等,其规律性形成了 结构冗余。通过分布的规律和单位图像,可以通过扩展得到完整的结构图像。而 人本身的经验知识可以节省对图像辨别的时间,如对人脸特征的认识在我们辨别 图像中的人脸过程中有很大帮助,由于这种已知的信息产生的冗余信息为知识冗 余。利用结构冗余和知识冗余进行数据压缩的算法复杂度过高,难以在视频流媒 体压缩中应用。 m p e g 一2 图像压缩技术主要分两种嘲:一种是在空间上的压缩,采用i c t 压缩 算法;一种是时间上的压缩,采用运动补偿( m c ,m o t i o nc o m p e n s a t i o n ) 算法。 时间压缩算法的原理即利用连续图像的时间相关性,使视频存储或传输时使 用传输差值的方法减少数据传输。最简单的时间压缩即将当前帧图像与参考帧图 8 基于m p e g 2 标准的非线性编辑关键技术的研究丁实现 像的所有像素求差,但在实际的视频中往往存在画面中对象的位移动作,如果不 考虑这种运动的话,时间压缩的压缩率是很小的。因此我们需要使用算法对相应 对象的位移进行检测,这就是运动补偿算法乜1 1 。它的主要步骤为: 一运动估计( m e ,m o t i o ne s t i m a t i o n ) ; 基于运动补偿的预测; 计算预测误差。 运动补偿的基本单位为宏块。m p e g - 2 将图像中n n 像素的子块定义为宏块。 比如亮度分量的图像信息中,宏块为1 6 1 6 像素,包含4 个8 8 的块。宏块是运 动补偿运算的基本单位。在参考帧中搜索与目标帧相应宏块像素最匹配的宏块作 为参考宏块,将这两个宏块的位移向量记录为运动矢量( m v ,m o t i o nv e c t o r ) , 就是运动估计( m e ,m o t i o ne s t i m a t i o n ) 的过程,如图2 - 2 所示。得到运动矢 量后,利用m c 预测器,得到目标宏块的预测值,与目标宏块的实际值相比较蚴, 求得两者的差值,即预测误差。 参考帧目标帧 图2 2 搜索宏块得到运动矢量 为了平衡时间压缩的高效性和视频流的高质量,同时为了提高随机存取的性 能,m p e g 依运动编码的方法定义了三种图像帧: 一i 帧( i n t r ap i c t u r e s ) 使用帧内编码的方式独立编码,没有预测帧。通常作为图像序列的起始帧和 视频流的随机访问起始帧,用来对接收端初始化,或实现随机存取。i 帧的压缩 比相对较小,在视频序列中出现周期一般较有规律,其出现频率的高低影响视频 质量的好坏。 p 帧( p r e d i c t e dp i c t u r e s ) 使用前向预测编码的方式,以前一个i 帧或p 帧作为参考帧。p 帧内的宏块即 可是预测编码,也可是帧内编码,数据量远小于i 帧。 9 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 b 帧( b i d i r e c t i o n a lp r e d i c t i o n ) 使用双向预测编码方式,以前后相邻的i 帧或p 帧作为参考帧。每个宏块最多 可有两个运动矢量,在预测时先进行平均,在进行比较,如果搜索不到匹配的宏 块,可以只依据一个运动矢量进行预测。由于b 帧使用显示顺序在其后的帧作为 参考帧,因而使得m p e c , - 2 中编码码流的帧顺序与显示的帧顺序不同乜屯捌。b 帧具 有最高的压缩比,在传输中的保护级别最低,容易被丢弃。b 帧也不能作为参考 帧。其数量过多会降低视频质量,过少则会增加码率。 以这三种图像组成的一组具有相互预测关系的图像称为图像组( g o p ,g r o u p o fp i c t u r e s ) 。一个图像组中至少包含一个i 帧,并且一般以i 帧作为第一帧图像。 一个典型的图像组如下:i op 3b 1b 2p 6b 4b 5p 9 b 7b 8p 1 2b i ob 1 l 。 2 5m p e g - 2 视频流的六层结构 m p e g 一2 的视频编码码流具有分层的结构,从上到下分为六层。 图像序列层( v s l ,v i d e os e q u e n c el a y e r ) : 图像序列构成一个节目序列。图像序列由数据头和一系列图像组数据组成。 在序列头信息里包含了图像大小、宽高比、图像帧速率、量化矩阵、视频校验器 大小、层号( l a y e r - i d ) 、分级法( s c a l a b l em o d e ) 、码率等视频信息,图像序 列有逐行扫描和隔行扫描两种。在m p e g - 2 的图像序列中还包含序列扩展部分,定 义了一些特有的数据信息。在序列头和扩展后面包含一个或多个图像组。 图像组层( g o p l ,g r o u po fp i c t u r e sl a y e r ) : 图像组由一组相互间存在预测参考关系的图像帧组成,包括数据头和若干幅 图像。图像组层可实现解码过程的随机存取和编辑功能,图像组头部中包含着控 制码、码表选择、图像编码类型、时问信息,还包括图像组最开始的几个b 帧的 相关信息嗍。图像组的第一帧一定为i 帧,已保证图像组的独立性。 图像层( p l ,p i c t u r el a y e r ) : 图像层属于独立显示的单位,是基本的编码单元,其编码类型分为i 、p 、b 三种。图像层包含数据头和一帧图像的内容。当m p e g - 2 的扫描方式为隔行扫描时, 图像可以采用逐场压缩的方式,一般应用在场景变化剧烈的地方。在图像头部包 含图像时间基准、帧类型、视频缓存检验器延迟,可以包含图像编码扩展、图像 l o 基于m p e g 一2 标准的非线性编辑关键技术的研究实现 显示扩展、图像空间分级扩展和图像时间分级扩展等扩展信息。视频图像的分量 包括亮度值和色度值。 组块层( s l ,s 1 i c el a y e r ) : 组块包括一个或多个宏块,最长为图像的宽度,是离散余弦变换中重新同步 的最小单元。分割的组块可被解码器跳过,以保证能够解码出整个图像,不受传 输误差的影响。分割的组块数量越多,对差错的纠正功能越好。组块中包含组块 位置信息、默认全局量化参数、变量优先切换点( p b p ,p r i o r i t yb r e a kp o i n t ) 。 宏块层( m l ,m a c r o b l o c kl a y e r ) : 宏块是运动估计和运动补偿的基本单位,结构包括4 :2 :0 、4 :2 :2 、4 :4 : 4 - - - 种。亮度分量为1 6 x1 6 像素,色度分量包含的块的个数取决于宏块结构。比 如4 :2 - 2 的宏块包括四个8 8 亮度块、两个8x8 红色分量块和两个8 8 蓝色分 量块。宏块层中包含运动矢量的信息,还包含宏块量化参数、宏块地址、宏块编 码模式、d c i 编码方式等数据。 块层( b l ,b l o c kl a y e r ) : 、 块层是d c t 编码的处理单元,包含8 8 像素,其数据是统一的亮度或某一色 度分量值。 2 6 帧图和场图 m p e g 一2 的扫描方式有逐行扫描和隔行扫描。在编码和解码时也要判断帧的压 缩格式。如果使用逐行扫描方式,那么运动预测方式只有帧预测一种模式。而在 隔行扫描时,图像帧的预测方式因场景的运动剧烈程度而不同,在运动不剧烈的 场景中,可以采用基于帧模式的运动补偿方式,因为当画面位移比较小时使用帧 模式,相邻行间的相关性更大,可以去除更多的冗余度,在运动较剧烈的场景, 可以采用基于场模式的运动补偿方式,因为在场模式下,相邻行为隔行图像,利 于较大位移的场景进行匹配搜索,从而更好的去除冗余。即帧模式和场模式的选 择取决于相邻帧的相关程度。在d c t 转换前进行两者系数的比较,选择相关较高 的模式来编码。 基于m p e g 2 标准的非线性编辑关键技术的研究与实现 2 7m p e g - 2 编码过程中的技术要素 1 离散余弦变换( d c l ,d i s c r e t ec o s i n et r a n s f o r m ) d c t 变换的作用是将空间域表示的图像变换到频率域。可以将能量集中到直 流分量和低频分量中,高频分量中的系数很小,使数据更易于压缩。对二维的信 号,进行二维d c t 变换。在m p e g - 2 中的变换对象是8 x 8 的块数据,变换后生成8 x8 1 拘i d c t 系数块。 2 量化 量化是一种通过舍弃数字精确度而达到数据压缩目的的过程。量化步骤在 d c t 变换之后进行,运算的对象是d c t 系数。量化是图像质量下降的最主要的原因。 量化步距即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论