




已阅读5页,还剩82页未读, 继续免费阅读
(控制理论与控制工程专业论文)基于tm1300的mpeg-4视频编码器的实现及其优化.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于 t m 1 3 0 0 的 m p e g 4 视频编码器的实现及其优化 摘 要 随着人们进入信息社会多媒体技术也得到了突飞猛进的发展 它的应用也越来越广大量的音视频数据被广泛使用由于音视 频数据量非常大 若未经处理 其存放 网络传送都存在很大的问题 为此需要对它们进行压缩为了压缩音视频数据出现了各种不同 的压缩算法并取得了一定的成效在诸多的压缩算法中m p e g 4 可以用最少的数据获得最佳的图像质量因而m p e g 4 视频逐渐取 代 h . 2 6 3 成为视频监控的主流 但目前 m p e g 4 的编码压缩大多通过 p c 平台的软件实现其压 缩效率不高而且成本比较高通过多媒体专用 d s p 实现 m p e g 4 编 码压缩是诸多应用中的一个不错的选择 在 d s p 上实现 m p e g 4 视频 编码压缩是当今的一个研究热点之一本文研究的主题就是在 p h i l i p s公司的 t m 1 3 0 0 d s p上实现 m p e g 4的视频编码压缩并对 编码进行优化处理提高压缩效率由于 t m 1 3 0 0 d s p有别于一般的 通用 d s p 它有专门的视频接口音频接口网络接口和相应的处理 单元所以在多媒体处理中具有很大的优势此外在 t m 1 3 0 0 d s p 上运行的 p s o s实时嵌入式操作系统可以创建多任务使得视频的采 集压缩传输变得更加简便 在本文中首先大致介绍了视频技术和 d s p 技术的发展与现状 接着讲述了 t m 1 3 0 0 d s p 的特点运行在它上面的 p s o s 实时操作系统 及其开发环境然后介绍了 m p e g 4 的特点标准视频编码压缩的 关键技术 最后在上海神宏软件股份有限公司提供的视频采集压缩卡 上实现 m p e g 4 视频的编码压缩并针对 m p e g - 4 编码的各个算法模 块结合 t m 1 3 0 0 d s p芯片的特点做了一些优化通过优化m p e g 4 视频编码的帧率进一步提高满足现实应用的需要此外文末还对 m p e g 4 的应用做了一些展望 关键词m p e g 4 视频编码t m 1 3 0 0 p s o s , 优化 r e a l i z a t i o n a n d o p t i m i z a t i o n o f m p e g - 4 v i d e o e n c o d e r b a s e d o n t m 1 3 0 0 a b s t r a c t w i t h t h e s o c i e t y o f i n f o r m a t i o n c o m i n g , t h e t e c h n o l o g y o f m u l t i m e d i a c o m e s i n t o b e i n g a n d d e v e l o p e s f a s t l y . t h e a p p l i c a t i o n o f m u l t i m e d i a a l s o g r o w e s w i d e r a n d w i d e r , a n d m u c h d a t a o f a u d i o a n d v i d e o i s u s e d . b e c a u s e t h e d a t a o f a u d i o a n d v i d e o i s l a r g e , i f n o t c o m p r e s s e d , t h e r e e x i s t s m a n y p r o b l e m s w h e n s t o r a g e d a n d t r a n s f e r e d b y n e t w o r k . t h e r e f o r e t h e d a t a s h o u l d b e c o m p r e s s e d . n o w t h e r e a r e m a n y a l g o r i t h m s f o r c o m p r e s s i n g t h e d a t a o f a u d i o a n d v i d e o . a m o n g t h e s e a l g o r i t h m s , m p e g - 4 i s t h e b e s t , f o r i t g e t s b e t t e r v i d e o q u a l i t y b y l e s s d a t a . t h e r e f o r e , m p e g - 4 t a k e s t h e p l a c e o f h . 2 6 3 g r a d u a l l y a n d b e c o m e s t h e m a i n s t r e a m o f v i d e o m o n i t o r i n g . h o w e v e r e , a t p r e s e n t , t h e e n c o d e r o f m p e g - 4 m o s t l y i s r e a l i z e d b y t h e s o f t w a r e o f p c . b y t h i s w a y , t h e e f f i c i e n c y o f c o m p r e s s i n g i s l o w , a n d t h e c o s t i s h i g h . i t i s a g o o d c h i o c e t h a t t h e v i d e o o f m p e g - 4 i s e n c o d e d a n d c o m p r e s s e d b y s p e c i a l m u l t i m e d i a d s p . p r e s e n t l y t h e v i d e o e n c o d i n g a n d c o m p r e s s i n g o f m p e g - 4 b y d s p i s o n e o f h o t r e s e a r c h e s . i n t h i s p a p e r , t h e r e s e a r c h s s u b j e c t i s t h a t t h e v i d e o e n c o d i n g a n d c o m p r e s s i n g o f m p e g - 4 i s r e a l i z e d o n p h i l i p s d s p o f t m 1 3 0 0 , a n d t o i m p r o v e t h e e f f i c i e n c y , s o m e o p t i m i z a t i o n i s a l s o d o n e . t h e d s p o f t m 1 3 0 0 d i f f e r s f r o m g e n e r a l d s p s , f o r i t h a s s p e c i a l p o r t s o f v i d e o i n / o u t , a u d i o i n / o u t , n e t w o r k a n d c o r r e s p o n d i n g p r o c e s s u n i t . t h e r e f o r e t h e d s p o f t m 1 3 0 0 h a s l a r g e r a d v a n t a g e f o r m u l t i m e d i a p r o c e s s i n g . w h a t s m o r e , b a c a u s e t h e r e a t i m e e m b e d d e d o p e r a t i o n s y s t e m o f p s o s o n t m 1 3 0 0 c a n c r e a t e m u l t i t a s k , i t m a k e s t h e c a p t u r e , c o m p r e s s i n g , t r a n s f e r i n g o f v i d e o e a s i e r . i n t h e p a p e r , f i r s t l y , t h e t e c h n o l o g y o f v i d e o a n d d s p i s i n t r o d u c e d a p p r o x i m a t e l y ; s e c o n d l y , t h e m p e g - 4 s c h a r a c t e r i s t i c , s t a n d a r d , a n d t h e k e y t e c h n o l o g y o f v i d e o e n c o d i n g i s a l s o i l l u m i n a t e d . f i n a l l y , t h e v i d e o e n c o d i n g a n d c o m p r e s s i n g o f m p e g - 4 i s r e a l i z e d o n t h e v i d e o c a p t u r e a n d c o m p r e s s i n g c a r d o f s h a n g h a i s e e w o r l d s o f t w a r e c o . , l t d . . a n d c o m b i n i n g w i t h t h e c h a r a c t e r i c o f t m 1 3 0 0 , t h e o p t i m i z a t i o n o f m p e g - 4 e n c o d i n g a l g o r i t h m s i s d o n e . b y t h e o p t i m i z a t i o n , t h e f r a m e r a t e i s i m p r o v e d f a r t h e r , a n d t h e p r a t i c a l n e e d i s a c h i e v e d . w h a t s m o r e , t h e a p p l i c a t i o n o f m p e g - 4 i s s h o w e d a t t h e e n d o f t h e p a p e r . k e y w o r d s :m p e g - 4 , v i d e o e n c o d i n g , t m 1 3 0 0 , o p t i m i z a t i o n 1 上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外, 本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。 对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式 标明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名:余致春 日期:2004年 1月 14日 2 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规 定,同意学校保留并向国家有关部门或机构送交论文的复印件和电 子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学 位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、 缩印或扫描等复制手段保存和汇编本学位论文。 保密,在 年解密后适用本授权书。 本学位论文属于 不保密。 (请在以上方框内打“”) 学位论文作者签名:余致春 指导教师签名:杨煜普 日期: 2004年 1月 14日 日期: 2004年 1月 14日 上海交通大学硕士学位论文 1 第一章 绪论 本章主要对视频编码技术的发展 现状 趋势及相关标准进行概要性的介绍 然后介绍当前流行的 d s p 技术最后对本论文所做的主要工作作了说明 1 . 1 引言 随着我国信息化进程的推进和人民物质生活水平的提高 传统铁栅栏式的安 全防盗系统的缺陷越来越明显既不美观在发生事故时也不便于有效处理目 前在建造智能大厦和选购住房时安全防范系统越来越受到人们的重视结合多 媒体信息技术的视频监控系统便应运而生 视频监控系统的发展大致经历了三个阶段在九十年代初以前主要是以模 拟设备为主的闭路电视监控系统称为第一代模拟监控系统九十年代中期随 着计算机处理能力的提高和视频技术的发展 人们利用计算机的高速数据处理能 力进行视频的采集和处理利用显示器的高分辨率实现图像的多画面显示从而 大大提高了图像质量这种基于 p c 机的多媒体主控台系统称为第二代数字化本 地视频监控系统九十年代末随着网络带宽计算机处理能力和存储容量的快 速提高以及各种实用视频处理技术的出现视频监控步入了全数字化的网络时 代称为第三代远程视频监控系统第三代视频监控系统以网络为依托以数字 视频的压缩传输存储和播放为核心以智能实用的图像分析为特色引发了 视频监控行业的技术革命受到了学术界产业界和使用部门的高度重视 目前的视频监控系统对视频的压缩大多是用 d s p实现的这样不仅节约成 本而且也提高了压缩的效率但由于压缩编码标准不一样各种视频监控系统 的图像质量也不一样本文将对视频编码进行广泛的研究与分析并对视频编码 基于 d s p 的实现和优化进行了探讨 1 . 2 视频编码技术的发展与现状 视频信号经过数字化以后如果不进行压缩其数据量十分巨大表 1 - 1 所示为常见视频信号在未经过压缩时每秒的数据量 1 : 上海交通大学硕士学位论文 2 表 1 - 1 常见的视频信号每秒数据量 类型 图像尺寸 帧率 比特/ 像 素 比特率未压 缩 典型应用 q c i f 1 7 6 1 4 4 3 0 1 2 9 . 1 m b p s 电视电话 c i f 3 5 2 2 8 8 3 0 1 2 3 6 . 5 m b p s 会议电视 i t u r 6 0 1 7 2 0 5 7 6 2 5 1 6 1 6 5 . 9 m b p s 普通电视 e d t v 9 6 0 5 7 6 2 5 1 6 2 2 1 . 2 m b p s 增强型电视 i t u r 7 0 9 1 9 2 0 1 1 5 2 2 5 1 6 8 8 4 . 7 m b p s 高清晰度电 视 显然以现有的网络带宽以及现有的存储介质和手段传输和存储这样浩大 的数据几乎是不可能的 因而视频数据压缩成为解决多媒体通信和存储问题的一 个关键环节 s h a n n o n在创立信息论时提出把数据看作是信息和冗余的组合 2 这些冗 余对于信息的表达意义不大 所以去除数据中的冗余就成为多媒体数据压缩的根 据各种数据压缩技术与方法的提出都是与多媒体数据中数据冗余类型相关的 一般多媒体数据中存在着以下几种数据冗余: 1 空间冗余: 用来表示图象数据中存在的某种空间上的规则性 2 时间冗余: 这是视频数据中经常包含的冗余视频序列中前一帧图象和 后一帧图象之间存在较大的相关这反映为时间冗余 3 信息熵冗余( 编码冗余) : 信息熵冗余是一组数据所携带的信息量冗余 它是在信源的符号表示过程中由于未遵循信息论意义下最优编码而造成的冗 余 4 结构冗余: 有些图象有非常强的纹理结构我们称之为结构上存在有冗 余 5 知识冗余: 许多图象的理解与某些基础知识有相当大的相关性这类规 律性的结构可由先验知识和背景知识得到我们称之为知识冗余 6 视觉冗余: 人类的视觉系统对于图象的感知是非均匀和非线性的特别 是视觉系统并不是对于图象的任何变化都能感知和察觉 我们对于图象的编码和 上海交通大学硕士学位论文 3 解码处理时尽管由于数据的压缩而使图象发生了一定变化 如果这些变化不能被 视觉系统察觉的话我们仍认为图象是完好的或是足够好的这样的冗余我们 称之为视觉冗余 这些冗余的存在就为我们进行视频数据的压缩提供了可能 因此产生了各种 各样的视频编码方法 1 . 2 . 1 视频编码技术的发展 1 9 4 8年o l i v e r提出了第一个编码理论脉冲编码调制( p u l s e c o d i n g m o d u l a t i o n 简称 p c m ) 同年s h a n n o n 的经典论文通信的数学原理首 次提出并建立了信息率失真函数概念1 9 5 9 年s h a n n o n 进一步确立了码率失真 理论以上工作莫定了信息编码的理论基础主要编码方法有预侧编码变换编 码和统计编码也称为三大经典编码方法 3 1 预侧编码: 预测编码根据数据的统计特性得到预侧值然后传输图象像 素与其预测值的差值信号使传输的码率降低达到压缩的目的 2 变换编码: 由于数字图象像素间存在高度相关性因此可以进行某种变 换来消除这种相关性 3 统计编码: 统计编码主要针对无记忆信源根据信息码字出现概率的分 布特征而进行压缩编码寻找概率与码字长度间的最优匹配 以上三种经典编码技术可以称为第一代图象编码技术它们都是非常优 秀的纹理编码方案能够在中等压缩率的情况下提供非常好的图象质量但在 非常高压缩率的情况下无法为一般序列提供令人满意的质量 近年来相继出现了一些利用人类视觉特性的多分辨率编码方法如子 带编码塔形编玛和基于小波变换的编码这类方法使用不同类型的一维或二维 线性数字滤波器 对图象进行整体的分解然后根据人类视觉特性对不同频段的 数据进行粗细不同的量化处理 以达到更好的压缩效果这类方法原理上仍属于 线性处理属于波形编码 ( 1 ) 子带编码: 子带编码是一种高质量高压缩比的图象编码方法它早已在 语音信号压缩编码中获得广泛的应用其基本依据是: 语音和图象信号可以划分 为不同的频域段人眼对不同频域段的敏感程度不同子带编码的基本思想是利 用一滤波器组通过重复卷积的方法经取样将输入信号分解为高频分量和低频 上海交通大学硕士学位论文 4 分量然后分别对它们进行量化和编码 ( 2 ) 基于小波变换的编码: 基于小波变换的编码不仅为多分辨分析时频分析 和子带编码建立了统一的分析方法提供更合理的表示框架而且它体现着小波 分析这一新型分析方法的优越性 为了克服 第一代 图象编码技术的局限性 k u n t 等人于 1 9 8 5 年提出了 第 二代图象编冯技术第二代编码技术不局限于信息论的框架它充分利用 人的视觉生理心理和图象信源的各种特征实现从波形编码到模型编 码的转变以便获得更高压缩比其压缩比多在 3 0 : 1 至 7 0 1 之间有的甚至 高达 1 0 0 : 1第二代编码方法主要有: 基于分形的编码基于模型的编码 基于区域分割的编码和基于神经网络的编码等 1 基于分形的编码: 基于分形的编码是一种不对称的编码技术适于自相 似性较强的自然景物图象咧如: 海岸线云彩大树等 2 基于模型的编码: 基于模型的编码在编码端通过各种分析手段提取所 建模型的特征与状态参数在解码端依据这些参数通过模型及相关知识生成所 建模的信源 3 基于区域分割的编码: 基于区域分割的编码是根据图象的空域特征将图 象分成纹理和轮廓两部分然后分别对它们进行编码这种方法较好地保存了对 人眼十分重要的边缘轮廓信息因此在压缩比很高时解码图象质量仍然很好 4 基于神经网络的编码: 基于神经网络的编码模仿人脑处理问题的方法 通过各种人工神经元网络模型对数据进行非线性压缩 第二代编码方法充分利用了计算机图形学计算机视觉人工智能与模 式识别等相关学科的研究成果为图象压缩编码开拓出了广阔的前景但是由于 第二代编码方法增加了分析的难度所以大大增加了实现的复杂性从当前 发展情况来看第二代编码方法仍处于深入研究的阶段 视频编码技术是在以上所述的图象编码技术的基础上 引入了帧间预测与运 动补偿技术从而减少视频数据在时间域上的冗余对于视频图象而言由于相 邻帧之间相隔时间很短仅 1 / 2 5 s 1 / 3 6 s , 相对应位置的像素值差别不大即 视频信号在时间轴上相关性很大因此和帧内预测类相似可以用前一帧相应位 置的象素值预测当前帧的象素这就是所谓的帧间预侧在此基础上为了进一 上海交通大学硕士学位论文 5 步提高预测精度引入了运动补偿技术这时不是简单地传送邻近两帧间对应 象素的侦间差值而是按一定准则先估计一个象索或一个子块的运动然后利 用估计出的运动位移确定对应象素从而获得相邻两帧间的帧间差值这种方法 估计了运动后的帧间相应象素之差 比只是简单地求邻帧相应象素之帧差要小得 多准确性高主编码端称为运动估计在解码端则称为运动补偿一般简称为 运动补偿m c 技术 1 . 2 . 2视频编码的国际标准 随着视频编码技术的广泛应用和各国高度的重视 为适应全球二业与经济的 飞速发展 国际标准化组织加快了将图象和视频编码的研究成果制定为相应的标 准 一 i t u t h . 2 6 1 h . 2 6 3 h . 2 6 3 + h . 2 6 3 + + h . 2 6 l 于 1 9 8 8年形成草案1 9 9 0年通过的 i t u t h . 2 6 1标准是视频编码技术之 间实用化的里程碑被誉为图象编码 4 0 年经验之总结 4 h . 2 6 1 标准适用 于比特率小于或等于 2 m b p s p x 6 4 k b p s , p l3 0 的可视电话和电视 会议应用该标准采用了离散余弦变换d c t , 帧间 d p c m和运动补偿等混合编 码技术 1 9 9 6年i t u - t又制定了用于低比特率通信的 h . 2 6 3视频编码标准 5 最 初的 h . 2 6 3 草案主要是为了支持 6 4 k b p s 以下视频数据流编码但不久这个限制 又被取消了使得 h . 2 6 3 可以支待大范围变化的视频比特流编码从而可以完全 取代 h . 2 6 1 h . 2 6 3 使用的算法同 h . 2 6 1 相似都采用了 d c t 加运动补偿的编码 方法但 h . 2 6 3 对 h . 2 6 1 作了以下改进: 1 运动补偿采用了半象素精度并使用了环形滤波器 2 数据流的一些层次结构内容是可选的使编码器的参数配置达到最优 以取得更低的码率并能进行有效的差错掩盖和恢复 3 增加了四种可选择的编码模式以提高执行效率无限制的运动矢量模 式基于语法的算术编码模式高级预测模式p b 帧模式这些选项使得 h . 2 6 3 编码器能够只用 h . 2 6 1 一半的码率就能获得同 h . 2 6 1 相同的图象质量 4h . 2 6 3 支持五种分辨率的图象格式 q c i f , c i f , s u b - q c i f , 4 c i f , 1 6 c i f 对 4 c i f 和 1 6 c i f 格式的支持意味着 h . 2 6 3 编码器在高比特率视频编码中也能够 上海交通大学硕士学位论文 6 同 m p e g 标准编码器一争高下 h . 2 6 3 v e r s i o n 2 ( 又称 h . 2 6 3 + ) 是 i t u - t 于 1 9 9 8 年 1 月颁布的低码率视频 通信 国际标准 6 h . 2 6 3 是 h . 2 6 3 的扩展 它的整体结构和基本算法与 h . 2 6 3 相同 同时在 h . 2 6 3 的基础上做了一些新的改进h . 2 6 3 + 支持更多种的自定义图 象格式并且图象尺寸宽高比和时钟频率等都可以作为 h . 2 6 3 + 数据流的一部 分与 h . 2 6 3 相比它增加了 1 2 个可选的编码模式先进的帧内编码除块滤 波片结构附加增强信息改进的 p b 帧参考图象选择时空及 s n r 可伸缩 性参考图象再抽样减少分辨率更新独立分段解码可替换的帧内 v l c 修 改的量化模式 h . 2 6 3 + 中的无限制运动矢量模式与 h . 2 6 3 中的无限制运动矢量模 式也有所不同 h . 2 6 3 + + 一是对 h . 2 6 3 + 进一步改进的标准 7 h . 2 6 3 + + 在 h . 2 6 3 + 标准的基础 上再加上若干个可选编码模式: 增强参考帧选择模式 误码恢复的数据划分模式 i d c t误匹配减少模式另外仿射运动补偿选择系数扫描误码控制编码及 头信息重复等方法也是标准所考虑采纳的技术 h . 2 6 l 是 t t u 正在制定的新的视频编码标准预计在 2 0 0 2 年颁布 8 它采用 与 h . 2 6 3 不同的编码技术以期待获得比 h . 2 6 3 最佳版本还要高的编码性能 所采 用的技术有在预测编码方法中采用自适应运动精度方法和仿射模型来提高运 动估计的精度对于预测误差编码采用矢量量化和小波进行编码为了增强帧 间编码的性能采用了小波编码的方法同时采用高效的变长码表的索引提 高熵编码的效率h . 2 6 l 主要的特点是: 1 高的压缩比性能与 h . 2 6 3 + 标准相比h . 2 6 l 编码比特数将节省 5 0 % 以上 2 编码方法的简单化如采用基本的基于块的编码方法 3 不同的时延性来满足不同业务的需求如对实时的通信业务的低时延 ( 没有 b 帧) 和基于服务器的视频流的中等时延特性 4 算法健壮性能够有效进行包丢失的恢复和移动信道中的误码恢复 5 采用 f g s ( f i n e g r a n u l a r i t y s c a l a b l e ) 技术编解码的复杂度具有 灵活性用来满足不同应用对编码质量的要求 6 同样适合高质量的业务应用在高比特条件下有高的编码质量可 上海交通大学硕士学位论文 7 以应用于娱乐业务中 7 适合网络上的传输比特流结构易于打成数据包同时提供信息优先 权控制等 二 i s o / i e c m p e g - 1 / - 2 / - 4 / - 7 / - 2 1 针对运动图象压缩编码标准化国际标准化组织 i s o / i e c 于 1 9 8 8 年成立了 运动图象专家组( m p e g ) 致力于视频压缩标准化研究工作该专家组先后制定了 m p e g - 1 , m p e g - 2 和 m p e g - 4 标准并正在致力于 m p f g - 7 和 m p e g - 2 1 标准的制定 1 9 9 3年 8月通过的 m p e g - 1 ( 即 i s o / i e c 1 1 1 7 2 ) 是 1 . 5 m b p s数据传输率的数 字存储媒体运动图象及其伴音编码的国际标准 9 它的视频部分与 h . 2 6 1及 h . 2 6 3 原理图大致相同然而m p e g - 1 主要是针对存储媒体的视频编码标准而 h . 2 6 1和 h . 2 6 3主要是针对传输的视频编码标准故 m p e g - 1在顾及图象质量 压缩比的同时还要考虑对序列图象进行随机访问和编辑的方便 m p e g - 1 在充分参考 h . 2 6 1 以及 j p e g 的基础上 加入了双向预测帧b 帧 从而提高了压缩比对随机访问和编辑的支持由每秒 2 个 i 帧来支持它不需依 赖 p 帧和 b 帧而独立解码 1 9 9 4 年 1 1 月通过的 m p e g - 2 即 i s o / i e c 1 3 8 1 8 主要是针对数字视频广 播( d v b ) , 高清晰度电视( h d t v ) 数字视盘( d v d ) 等制定的高于 1 . 5 m b p s运动图象 及其伴音的国际标准 1 0 m p e g - 2 的制定充分地考虑了对 m p e g - 1 兼容对图象 质量和数据率的多层次需求因此其最大的特点在于支持格式多兼容性好并易 于扩展m p f g - 2 不仅支持帧编码而且支持场编码不仅支持 m p e g - 1 比特流而 且支持更高时域和空域分辨率m p e g - 2 另一特点是其可伸缩性 m p e g 4 标准的第一版已于 1 9 9 9 年 1 月正式公布标准的第二版也在 1 9 9 9 年 1 2月公布 1 1 m p e g - 4最初的目标是极低比特率的音/ 视频编码压缩标准主 要适用于 p s t n上的视频通信或移动通信网络但是随着研究工作的深入它所 包含的内容和将要起的作用己经远远超出了最初的设计思想m p e g - 4目的是寻 求支持数字音/ 视频数据通信存取和管理的新途径它为多媒体数据压缩提供 了一个更为广阔的平台它更多定义的是一种格式和框架而不是具体的算法 以支持各种各样新颖的和高效的功能 m p e g - 4最显著的特点是基于内容的编码即场景由若干音视频对象组成 上海交通大学硕士学位论文 8 如背景图片或音乐处在焦点区的音视频内容文本和图形等对场景的编解码 建立在这些音视频对象上这样用户可以对这些对象分别进行解码和重建使得 使用者对原始场景能够以一种灵活的方式来操作 基于对象的编码除了能提高数 据的压缩比还能实现许多基于内容的交互性功能 基于对象的可伸缩性功能是 m p e g - 4提供的又一个新的功能同时兼容于 m e p g - 2标准中的图象可伸缩性可伸缩性工具主要用于互联网和无线网等窄带 的视频通信多质量视频服务和多媒体数据库预览等服务m p e g - 4支持三种伸 缩性: 时间可伸缩性空间可伸缩性和对象可伸缩性视频序列都可以分为基本 层和增强层两层基本层提供了视频序列的基本信息增强层提供了视频序列更 高的分辨率和细节基本层可以单独传输和解码而增强层则必须与基本层一起 传输和解码 由于移动通信的迅速发展通过无线网传输多媒体信息变得越来越重要了 这需要提供在易错的通信环境下实现安全的低码率编码和传输m p e g - 4通过重 同步数据恢复错误隐藏技术来实现鲁棒的传输和纠错在本文后面的章节将 详细讨论 m p e g - 4 视频编码标准的内容关键技术及其实现 随着人们对多媒体信息需求的日益增长 基于内容的多媒体搜索引擎取代现 有的基于文本的搜索引擎将是大势所趋 为了推动由文本信息时代向多媒体信息 时代的过渡继 m p e g 1 m f e c - 2和 m p e g - 4之后又推出了 m p e g - 7 1 2 其正式 名称为多媒体内容描述接口( m u l t i m e d i a c o n t e n t d e s c r i p t i o n i n t e r f a c e ) 它提出了一种适用于现实生活中的各种多媒体内容的标准化描述方案 这种描述 以提取特描述对象的各方面特征为基础便于人们对所需的多媒体材料进行快 速有效的检索m p e g - 7描述的多媒体已经脱离了传统意义的图象声音文 本的局限而与现实生活结合更为密切它所定义的多媒体含义十分广泛 包括: 1 客观世界: 图象文本图表三维模型音频语音视频 2 主观世界对事物的概括人的感性色彩价值取向 3 合成法则: 各种元素之间的有机结合以构成一个真正意义上的多媒体 演示在这里人的面部表情性格特征以至一段电影的主题思想都是 m p e g - 7 中的数据类型之一 上海交通大学硕士学位论文 9 为此 m p e g - 7 定义了一个 标准描述符集合 ( s t a n d a r d s e t o f d e s c r i p t o r s ) 用于描述各种类型的多媒体数据与之相应的描述方案( d s d e s c r i p t i o n s c h e m e s ) 用于规范多媒体描述符的生成和不同描述符之间的有机联系 这些描述 符与所指定的多媒体对象的内容紧密联系 采用提取对象特征的方法为实现基于 内容和语义的准确检索提供接口在此基础上m f e g - 7定义了一种新的语言 描述定义语言( d d l d e s c r i p t i o n d e f i n i t i o n l a n g u a g e ) 用于指定和生成 描述方案d d l 语言是 m p e g - 7 的核心从功能角度来看d d l 提供了 d s / d 建立 的机制d s / d 则构成了多媒体描述生成的基础 m p e g - 2 1 1 3 是 1 9 9 9 年底才开始的一个有关多媒体框架的标准活动 这个活动 的目的是为了达到对支持电子内容传送的多媒体框架的共同理解以期指定 s c 2 9 能力范围内的新标准它是一个与多媒体内容传送有关的标准 严格说来m p e g - 7 和 m p e g - 2 1 不是视频编码标准而是多媒体标准 三 i t u 与 i s c / i e c 的融合 j v t 不久前i t u 与 i s 0 / i e c 联手成立了一个新的组织 j v t ( j o i n t v i d e o t e a m ) , j v t囊括了这两个组织中曾经设计出 m p e g - 2和 h . 2 6 2的精英将有力地推动视 频标准的发展现在 j v t 己经接手 i t u 原有的 h . 2 6 l 并将在此基础上创造新一 代的视频编码标准这个标准将被采纳为 m p e g - 4 标准的一部分( p a r t 1 0 ) 同时 也将成为 t i u - t 的建议之一( h . 2 6 4 ) 2 0 0 2 年 1 月 2 9 日 j v t 在日内瓦召开了 一次大会在这次大会上参会各方共提出了 1 0 0 多个建议有效地促进了标准 的发展 j v t 在h . 2 6 l 的基础上提出的视频编码标准对已有的编码标准在以下方面作 了改进 1 4 1改变了对块进行变换的尺寸 将以往 8 8 的变换块缩小到 4 4 , 2 2 2 使用了整数变换来近似传统标准中的 d c t 变换 3 对 z i g z a g 扫描方式进行了改进 4 对量化方式进行了改进 5 在熵编码方面采用了 u v l c ( u n i v e r s a l v a r i a b l e l e n g t h c o d i n g ) 和基 于上下文的自适应二进制算术编码可以将比特率降低 2 0 6 改变了对块进行运动估计的形状和尺寸从以往的 1 6 x 1 6 或者 8 x 8 的 上海交通大学硕士学位论文 10 块匹配缩小到 1 6 8 , 8 1 6 , 8 4 , 4 8 , 4 4等有效的提高了运动估计与 补偿的精度可以将比特率降低巧 2 0 7 使用 1 / 4 像素精度运动矢量可以将比特率降低 2 0 8 可以使用 5 种不同的参考帧可以将比特率降低 54 0并且利于 错误隐藏 9 利用块消除滤波器消除块效应提高主观视频质量 我们通过对几种编码标准的测试软件进行比较j v t的效果明显好于 h . 2 6 3 和 m p e g 4 在现阶段j v t的测试软件效率还较低但是己经有很多公司在提 高其编解码效率方面作出了成果美国的 u b v i d e o己经发布其在基于 t i公司 t m s 3 2 0 c 6 4 x开发的 h . 2 6 l编码器相信凭借其卓越的性能不久的将来j v t 的新标准会被广泛的认同 1 . 3 d s p 技术 伴随着信息社会的数字化浪潮 数字信号处理技术成为数字化社会的最重要 技术之一数字信号处理系统是接受模拟信号将其转化为数字信号以进行实 时的数字技术处理d s p 可以代表数字信号处理技术( d i g i t a l s i g n a l p r o c e s s ) 也可以代表数字信号处理起( d i g i t a l s i g n a l p r o c e s s o r ) , 其实两者不可分割 前者是理论上的技术后者是前者的实时实现二者结合起来就成为解决实际问 题的方案数字信号处理解决方案( d s p s ) 1 . 3 . 1 d s p芯片概述 d s p 芯片也称数字信号处理器是一种特别适合于进行数字信号处理运算的 微处理器其主要应用是实时快速地实现各种数字信号处理算法根据数字信号 处理的要求d s p 芯片一般具有如下主要特点 1 在一个指令周期内可完成一次成乘法和一次加法 2 程序和数据空间分开可以同时访问指令和数据 3 片内具有快速 r a m 通常可通过独立的数据总线在两块中同时访问 4 具有低开销或无开销循环及跳转的硬件支持 5 快速的中断处理和硬件 i / o 支持 上海交通大学硕士学位论文 11 6 具有在单周期内操作的多个硬件地址产生器 7 支持流水线操作使取值译码和执行等操作可以重叠执行 8 可并行执行多个操作 当然与通用微处理器相比d s p 芯片的其它通用功能相对弱些 1 . 3 . 2 d s p芯片的发展 1 5 世界上第一个单片 d s p 芯片应当是 1 9 7 8 年 a m i 公司发布的 s 2 8 1 1 1 9 7 9 年 美国 i n t e l 公司发布的商用可编程器件 2 9 2 0 是 d s p 芯片的一个主要里程碑这 两种芯片内部都没有现代 d s p 芯片所必须有的单周期乘法器1 9 8 0 年日本 n e c 公司推出的 u p d 7 7 2 0 是第一个具有乘法器的商用 d s p 芯片 在这之后最成功的 d s p 芯片当数美国德州仪器公司t e x a s i n s t r u m e n t 简称 t i的一系列产品 t i 公司在 1 9 8 2 年成功推出其第一代 d s p 芯片 t m s 3 2 0 1 0 及其系列产品 t m s 3 2 0 1 1 t m s 3 2 0 c 1 0 / c 1 4 / c 1 5 / c 1 6 / c 1 7 等之后相继推出了第二 代d s p 芯片t m s 3 2 0 2 0t m s c 3 2 0 c 2 5 / c 2 6 / c 2 8第三代d s p 芯片t m s 3 2 0 c 3 0 / c 3 1 / c 3 2 , 第四代 d s p芯片 t m s 3 2 0 c 4 0 / c 4 4 第五代 d s p芯片 t m s 3 2 0 c 5 x / c 5 4 x , 第二代 d s p 的改进型 t m s 3 2 0 c 2 x x 集多片 d s p芯片于一体的高性能 d s p芯片 t m s 3 2 0 c 8 x以 及目前速度最快的第六代 d s p 芯片 t m s 3 2 0 c 6 2 x / c 6 7 x 等t i 将常用的 d s p d s p 芯 片归纳为三大系列 即 t m s 3 2 0 c 2 0 0 系列 包括 t m s 3 2 0 c 2 x / c 2 x x t m s 3 2 0 c 5 0 0 0 系列包括 t m s 3 2 0 c 5 x / c 5 4 x / c 5 5 xt m s 3 2 0 c 6 0 0 0 系列t m s 3 2 0 c 6 2 x / c 6 7 x如 今t i 公司的一系列 d s p 产品已经成为当今世界上最有影响的 d s p 芯片t i 公 司也成为世界上最大的 d s p 芯片供应商其 d s p 市场份额占全世界份额近 5 0 第一个采用c m o s 工艺生产浮点d s p 芯片的是日本的h i t a c h i 公司 它于1 9 8 2 年推出了浮点 d s p 芯片1 9 8 3 年日本 f u j i s u 公司推出的 m b 8 7 6 4 其指令周期为 1 2 0 n s 且具有双内部总线从而使处理器吞吐量发生了一个大的飞跃而第一 个高性能浮点 d s p 芯片应是 a t 灰度级形状 信息可取值 0 2 5 5 , 类似于图形学中的一平面的概念0 表示非 v o p 区域1 2 5 5 表示 v o p 区域透明程度的不同2 5 5 表示完全不透明灰度级形状信息的引入主 要是为了使前景物体叠加到背景上时不至于边界太明显太生硬进行一下模 糊处理 在 m p e g - 4 中有两种形状编码方式如图 3 - 9 所示 2 3 : 一二值形状编码方法 二值形状编码是基于 1 6 1 6 的 b a b ( b i n a r y a l p h a b l o c k ) 块的形状编 码主要有以下步骤: 1 对于给定 v o p 的二值形状图重新确立形状边界 灰度形状编码 预处理成二值的形状编运动估计预测得到纹理图 二值形状 cae 编码 纹理编码 图 39 形状编码方法 f i g u r e 3 9 s h a p i n g e n c o d i n g m e t h o d 上海交通大学硕士学位论文 42 2 在上一步已经确定 b a b 块后如果该 v o p 是 b - v o p 或 p v o p 那么就 对待编码的 b a b 进行运动估计得到运动矢量如果该 v o p 是 i - v o p 则不必进 行运动估计 3 对该 v o p 中待编码的 b a b 块确定编码方式 4 对该 v o p 中待编码的 b a b 块确定分辨率 5 在 b a b 确定分辨率之后就可以对 b a b 块进行编码了 二灰度级的形状编码 灰度级的 a l p h a平面的编码由两部分组成: 一个是它的形状轮廓编码另一 个是在轮廓中的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论