(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf_第1页
(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf_第2页
(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf_第3页
(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf_第4页
(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf_第5页
已阅读5页,还剩75页未读 继续免费阅读

(通信与信息系统专业论文)基于dsp的mpeg4视频编码器研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商京理工大学硕士学位论文 荃于dsp 的州 子 e g 刁视频谊码器研究与实砚 ab s t r a c t h 份 .t n 叨 m 州cal a g es , the v id 印扣 e g 4com p r e ss i on劝 ad ds 记w i th,。 俪 七 itr at e , 址 gh com p “ 架 洛 i bil勺 tosa l i s 厅n u m 周 旧 i multi 一ed运in fo n n ation to业li ver n icals.ltis 即 p l iedinn um面cal te levis i on,v is i b le te l e p h o n e ,尚】. t i m e m u l t i m edi a s u 声rv i s i o n , m o t i o ” muit i m edi a一pon d e n ce, 比 已n 改 w 。 比v i 山 幻, , v o r 瑰.mu tl . 】 m 川 ti 一ediasyst e m 。 d 即幼 v e l y. 玩th isth e s i s , fi rstl y,ani ” 加 记 u ct iontovi d eocom p 找 绍 si onp ri n c i p a l , m ethods 朗d 。 泊 。 . 1 如 招 rn at i o n a l vi d eo cc 刁 in gs 扭 川 d ar dsisd o n e , 朋目 州ng th e c o r et ec h n lquesof 翻 于 e g 礴朗d p r ol ” s ing a sc h elne ofn p e g 碑s p e n c oder,gi v in g a fl ow c h art, 朗dinthe v c + + 印 v lr o n m ent n p e g 礴s p vi d eocom p 找 治 5 加 n ction俪thth e cl angua g e p r o 以 月 u 邝 15。 副 rr .edo u 仁 ado p t i ngs ta n d . dte st in g se q uen cec odin g and d ec oding asa v e 约 fi 侣 at i on, . n . n 姚 功 山 , stud y in g d c t i q u a n ta t i o 可 m otione 币m atio 可 m o t i onc o m p ensati ona l g o d th m ind e ta l l ; s e c o n dl y ,combi net h e in st ru c t i o n st ru ct u 代明d th e h ardw a 了 e ch出 知 ct e 到 sticsof th ec 6 7 l l , do as y st e m h a r d w ar ep r oj ect 云 . m ed i a g 冠 m on th i sfo u n d a t i o n ,and 仃 印 ” p l ant th i s c ode su cces s fu l lyc c s , c a rr yon so ft w 别 限to如itate real l y , v e r i 斤th e 嫂fu lnes s o f th e c oder .the com p 1ement e xpl a in edp arts o f al g o d t h mo f e xcei l ent t u ma p r oj ec 朋 dai matthe al g o ri th mt n 盯 sp l anta t i 佣withimi tated奴 p r o b l em inth e tyue p 戏 x 笔 s s tdc ar ryone luci dati onto邝 a c h a 乡 陀 e m en t d e fi n 讹i y ;thi rd l y , m o t ionestimation 旧成 加 e l y con sum edt 阮. inthe al g o ri t h m ,thentos 加 d y fu rthery 州ous , 二 ” h ai g o r ith m , and doa ki ndofbett e r th andi amo nd, , ” h al g o 行 山 m , it isa hi gh一 ffici eny s 伐 玛 h al gori - 劝 . ,eml 时ing 助d comparein g its腼币oninth . m 峨 t l a b . inth e end , th e s u m m 颐乙 时 i on a bou t w h ath asl 已 鱿 刀 edand ari咖 p robl e m s isgl ven ; m . 坦 w h i le , 山 。 加 t ur e 代 5 . 叮 c h poi ntand d eve l opm ent a bou t vi d eoc o d 1 n g isp ms pec 囚. k 叮 , 0 川: vid eoc o . lp re ss i on seaj rc h alg o ri t 知 m ccsmat lab 声明 本学位论文是我在导师的指导下取得的 研究成果, 尽我所知,在 本学位论文中,除了加以 标注和致谢的部分外,不包含其他人己经发 表或公布过的研究成果,也不包含我为获得任何教育机构的学位或学 历而使用过的材料。与我一同工作的同 事对本学位论文做出的贡献均 己在论文中作了明确的说明。 研 究 生 签 名 :赞明霞 沪 9 年7 月 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电 子和纸质文档, 可以借阅 或上网公布本学位论文的部分或全部内容,可以向有关部门 或机构送 交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名:曾 明 农 声夕 年7 月 日 南京理工大学硕士学位论文荃于dsp 的州 子 e g 闷视预编码县研究与实现 1 .绪论 世界正迈进数字化、网络化、全球一体化的信息时代。人类的生活也将进入更 商品质的数字化。视觉信息作为人们最赏心悦目的信息将大放异彩,一些高质量传 播视频信息将很大程度上依赖于数字视频压缩。州 甲 e g 一因其具有交互性、压缩比 高、节省存储空间和图 像质量好的特征而发挥着重要的作用,成为流媒体应用中压 缩视频流的首选标准。 l l 视频压缩编码的必要性和可行性 众所周知, 人类所获取的信息有70%来自 于视觉,视觉信息因为具有直观性、 形象性、确切性、高效率和应用广泛等优点,在多媒体信息中占有重要地位,把视 觉信息纳入通信和网络领域,为人们提供多渠道、多方位的信息来源成为了 现代人 迫切的需求。但是数字化了的未压缩视频信号的数据量之大是惊人的,如: 用于可视电 话q c i f :1 7 6 x1 44x 3 /2x 8 x 3 0 七9 . i n lb p s 用于视频会议c i f :3 5 2 x 2 8 8 x 3 /2x 8 x 3 0 “3 6 k b p s 而用于传输通信的网 络带宽是非常有限的; l a n :1 011 00n lb p s 6 p r s icd m a : ( 9 .0 6 1 3 .4 1 5 ,6 一2 1 4 ) k b 阔 ( 641 科3 8 4 ) k b p s 用于存储信息的存储媒质容量也是非常有限的: c d. r om:6 5 0 州 旧 u 盘:s l z mb 从以上列举的例子可以看出,数字化信息的庞大数据量给存储器的存储容量、 通信干线的信道传输率以及计算机的速度都增加了极大的压力.这个问题也是多媒 体技术发展中的一个非常棘手的瓶颈问 题,解决这一问题的方法,单纯用扩大存储 器容里、增加通信干线的传输率的办法是不现实的。数据压缩技术是一个行之有效 的方法,通过数据压缩把信息数据量降下来,以压缩形式存储和传输,既节约了存 储空间,又提高了 通信千线的传输效率,同时也使计算机实时处理视、 音频信息, 保证播放高质量的视、音频节目 成为可能。同时, 上述数据压缩过程不仅是必要的 而且也是可能的,原因是: 首先,原始图像数据是高度相关的, 存在很大的冗余度 ( 如空间冗余、时间 冗 余、 统计冗余、 人眼视觉冗余、 结构和知识冗余等) . 通过压缩编码去相关, 即可以 南京理工大学硕士学位论文 基于o sp的翻 田 d o 闷视频编码器研究与实砚 通过减少视频序列间的相关性,用较少的比 特数来表示视频内容,降低视频内容中 的冗余,从而实现对视频的压缩。 其次,允许图像编码有一定的失真也是视频可以压缩的一个重要原因。在许多 应用场合, 并不要求压缩后的图 像复原后和原图完全一致, 而是允许有一定的失真, 因为这些失真可以利用人的视觉特性,在图像变化不被觉察的条件下减少t化信号 的灰度级之类,来提高数据压缩比。 与此同时, 视频数据压缩技术的飞 速发展也有硬件方面的原因。随着高速的数 字信号处理器 ( d s p )、超大规模集成电路 ( v l s d 、超高速集成电路 ( v h sl c ) 以及大容量静态动态存储器的出现, 使复杂的算法不再停留于理论阶段, 实现了实 时地处理更高分辨率和更精美的画质。 l z 视频压缩编码技术的发展 视频压缩技术的研究己有几十年的历史,从基本原理看可以分为两大类: 第一类方法是基于速率一失真理论的。 此类方法中,视频图 像序列利用在空间 上和时间上取样得到一组象素( 灰度、 彩色) 值来表示;而压 缩的方法则是采用一般 信号分析的方法来消除数据中的冗余,最终使得用来表示图像的一组数据是互不相 关的。对于这些方法,重要的是了解信源的统计特性,而不关心图像的具体内容, 也不考虑或很少考虑人眼的视觉特性。 因此, 此类方法被称为基于象素的压缩方法, 也称为第一代图 像压缩编码方法【 5. 第二代图像压缩编码方法是在80年代中期正式出现的。这类方法充分利用人眼 的视觉特性和图像信息源的各种特征来进行编码。 根据人眼对物体轮廓比 对物体内 部细节敏感的 特点, 利用内 容( 对象 ) 来表示图像, 而不再是单纯的象素.并 且对象 是按轮廓信息将某一特定图像分割成的若干区域,每一区域可以看成一个整体,其 内 部细节具有相同的 特性( 灰度信息、纹理信息、 运动速度、 运动矢量等) , 然后对 这些分割的小区域再分别进行编码。 这类编码技术比第一代编码技术要有效的多, 目 前正处于研究发展中, 近年来, 由于视频市场的大力牵引和电子技术的飞速发展, 各种各样视频压缩和数据压缩的算法应运而生.国际运动图 像编码专家组洲p e g ) 是is o l le c 下负责开发运动图像, 音频及其组合的压缩, 解压缩, 处理和编码的国际 标 准的 一个工作组,开发了 m 】 , e g 一 1 ( 视 频及其伴 音存储标准15 0 八 e c l ll 72, 其码率 约1 5 m u s ) , m p e g . 2 ( 数字电 视标准15 0 八 e cl3 b1 8 , 其码率可 达i o m 眺) 及m p e g -4 视频压 缩标准。另一个国际化组织i tu( 前国际电 报电话咨询委员会c c it)也 制定了 面向通信的h.261 ,h.2 63,h.2 64等视频压缩标准。 南京理工大学硕士学位论文 鉴于o s p 的州 田 d 口 闷视频编码器研究与实现 在mp e g 礴制定之前, m p e g . 1 , 侧 印 e o-2 , h.2 61, h.263 都是采用第一代压缩 编码技术,着眼于图像信号的统计特性来设计编码器,属于波形编码的范畴。这些 编码标准把视频序列按时间先后分为一系列帧,每一帧图像又分成宏块以进行运动 补偿和编码,这种编码方案存在以下缺陷:将图像固定地分成相同大小的块,在高 压缩比的情况下会出 现严重的块效应,即马赛克效应:不能对图像内容进行访问, 编辑 和回 放等操作; 未充分利用人类视觉系统似v s : hum an vis uai s y st em) 的 特性。 加 于 e g 礴属于基于模型/ 对象的第二代压缩编码技术, 它充分利用了人眼视觉特 性,抓住了图像信息传输的本质,从轮廓,纹理思路出发,支持基于视觉内容的交 互功能,这适应了多媒体信息的应用由 播放型转向 基于内 容的 访问,检索及操作的 发展 趋势, 它采用面向 对象的压缩方式, 根据图 像内 容, 将其中的 对象( 物体、 人物、 背景 ) 分离出 来分别进行 帧内、 帧间编码压缩, 并允 许在不同的 对象之间灵活分配 码 率, 对重要的对象分配较多的字节, 对次要的对象分配较少的字节,从而大大提高 了压缩比,使其在较低的码率下获得较好的效果。州 田 e g 4 是一种崭新的低码率、 高压缩比的视频编码标准,传输速率为4. 8 掩 讲 k b 姚. i j 视频压缩编码的方法 视频压缩编码可分为两类,一种叫做无损压缩,另一种叫做有损压缩。无损压 缩是指使用压缩后的数据进行重构,重构后的数据与原来的数据完全相同:有损压 缩是指重构后的数据与原来的数据有所不同,但不会对原始资料表达的信息造成误 解1121。 视频 编 码中 主要 压 缩 技术有如 下 几种: ( 1) 统计编码 根据香农信息论的观点,信源冗余度来自 信源本身的相关性和信源内 部事件概 率分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算术编码, 以及基于相关性的游程长度编码三类。 霍 夫曼 编 码( huff 泊 anc od in g ) 是 一 种变长编 码 v l c ( v 叭ab le l 忍 n gth c odin g). 霍夫曼编码将信源符号按概率大小重新排序, 通过二叉树算法, 依次将两个概率最 小的节点合并, 直至根结点。完成树的构造后, 给所有的树枝分配0 和1 ,这样就可 以 给高概率符号分配短码, 而小概率符号分配长码,去除符号间的 统计冗余。在己 知信源符号概率时, 可以给出极好的编码性能。 另一方面虽然v l c 提高了编码效率, 但不利于硬件实现。 算 术 编 码( a 石 th m eti c c odin g ) 和霍 夫曼 编码 理 论上都是 最 佳的, 但在 信源概率 分布未知的 情况下, 算 术编码优于霍夫曼编码。 算术编码的 基本原理是用0, 11 之间 南京理工大学硕士学位论文基于o s p 的侧 于 e o 闷视频编码器研究与实砚 的 一 个 概 率区间 来 表示 数 据序 列. 将信 源x的 一 个 给定 状 态x气戈, :. , 芍 与 0 , 1 间的 一 个由 大 概 率p 和小 概率q 限 定 的 概率 子区间 相 联系, 区间的 长 度等于 序 列的 概率夕 。 ) . 编 码 器从n= 1 开 始, 逐位的 处 理输入的 符号 流。 每 辘入一 位, 更新当 前符号的 条件概率, 并以 此调整p 和q 限 定的 概率子区间. 随 着n增加, 和输入符 号序列相联系的 概率子区间就变得越来越小。最后用这个表示概率子区间的小数给 符号序列编码。 游程 长 度编 码 rl.c( r u n 一 l 忍 n gth c od i ng) 是 将 符 号值 相同 的 连续符号串 用一 个 游程长度 ( 符号数)和一个代表值 ( 值) 描述。这样可以 用更紧密的序列代替原有 的相同值符号串. 在视频压缩中,量化后的数据常常出 现大量的连零系数, 利用游 程长度编码可以有效的降低表示零码的比特数。 (2)预测编码 预测编码不是对一个象素直接编码,而是用同一帧 ( 帧内预测编码)或相邻帧 ( 帧间预测编码)中的象素值来进行预测,然后对预测残差进行量化和编码。显然 预测编码实际是利用了图像数据中的空间和时间冗余。其中线性预测编码又称为差 分脉冲编码调制d p c m ( dife 茂 n t ialpul sec o d e mo d ul ation),由于算法简单,易于 硬件实现,己被各种视频编码标准采纳. ( 3 )变换编码 使图像数据在变换域上最大限度的不相关。尽管图像变换本身不能带来数据压 缩,但由于变换后系数之间的相关性明显降低,图像的大部分能量只集中到少数几 个变换系数上,采用适当的量化和嫡编码后可以有效的压缩图像的数据量。变换编 码通常是将空间域相关的象素点通过正交变换映射到另一个变换域上,使变换后的 系数之间的相关性降低。在变换域上应满足:所有的系数相互独立,能量集中 于少数几个系数上,这些系数集中于一个最小的区域内。保留少数重要的系数就 能够很好的恢复图 像, 而人眼几乎觉察不出 那些损失的系数。 常见的变换有k 一 l 变 换、d f t变换和d c t 变换等。 1 . 4 1 . 4 . 1 课题方案和工作安排 设计方案选择 本课题是用于某试验基地的论证方案中视频监控系统中视频压缩编码模块的设 计验证。经前期查阅资料研究发现,通常有以下几种实现方案: ( 1)直接采用p c 机实现 这种方案以 p c 机或工作站为平台, 利用现有的声卡、 南京理工大学硕士学位论文基于d s p 的m p e g 闷视频编码器研究与实现 视频采集卡作为系统的输入输出设备, 用纯软件方式实现视频压缩协议的全部内容。 其特点是:面向p c 机多媒体系统, 硬件系统设计简单,软件开发环境好,灵活的程 序代码可动态加载以实现多种视频压缩标准。易于移植和升级,而且支持的网络协 议也独立于硬件。 但是一个摄像头就要配备一台pc机,成本较高, 特别在监控站点 很多的远程监控系统设计中,其成本开销是无法接受的。 (2)采用多媒体专用芯片此方案优点是d s pc p u 提供了极强大的多媒体流 水线操作, 而且往往具有强大的多媒体接口, 开发包和辅助资源也较多。 如p h i u p s t ri m edi a 应用于实时监控网络中。其缺点是成本较高,功耗较大,不适合应用于便 携式设备中. (3)采用直接硬件a si c 压缩如华邦 ( winb o n d)的w9 9 2 0 0f。此方案的 优点是方便集成,利于应用,开发周期短.但其缺点也很明显:由于视频压缩算法 全部由硬件实现,不便于产品功能更新和升级,成本也不占优势。 (4)采用通用d s p 实现。如a di的b l a c kfin、tl的c 6000系列。其优点是集 合多媒体专用芯片与普通mc u 的优势, 价格较低, 而且功耗小,体积小, 便于升级 和移植,适合于网络摄像机、无线手持设备和现场监控系统中。 综合以上考虑,决定采用第四套方案实现本压缩编码系统。 l 4. 2 论文所做工作 视频压缩编码系统主要由视频采集、视频编码和编码数据通信模块组成,本设 计中我的任务主要是视频编码模块的研究与设计,而视频采集和通信模块的部分留 待以后研究。课题的理论和实现准备工作: 首先是全面了解n 田 e g 礴 视频编码标准,对其基本思想、整体框架以及关键技 术等有个完整的认识, 深入剖析网 上提供的州 田 e g 礴 编码器源代码( 以 xvid c o r . 户 1 . 1 .0 代码为基础),深入分析、整合、改进mp e g 礴s p 框架的软件视频压缩编码功能。 课题主要完成了以 下几个方面的工作: ( 1) 州 p e g 4 s p 视频编码器的软件实现,以下载的源代码为基础,实现 w in d ows 平台 下 c 版 本 的 视 频 编 码 器原 型, 采 用标 准 测 试序 列( .y u v 格式) 验 证无 误, 针对编码前和解码后任一帧图像的性能进行分析,为后一步视频压缩算法的选择和 优化提供侧试平台。 (2)对mp e g 礴sp视频编码的关键技术一d c t 正交变换、 h.2 6 3 量化和运动估 计补偿技术进行了研究和改进。分析了 d c t 变换原理和运动估计技术的详细技术及 改进的快速搜索算法. 南京理工大学硕士学位论文签于dsp 的州 田 仑 0 4 视须编码器研究与实现 (3) 熟悉和掌握d sp及通常视频压缩系统的主要结构, 结合实际的应用, 设计 符合本课题的视频压缩编码系统的硬件原理框图, 并详细分析各部分的组成和功能。 (4)结合软件开发的基础,将前述c 版本视频编码器原型移植到d s p 开发环境 c csz. o 中 编译通过, 并着中 分析了 程序移植过程中 注意的问 题, 总结了 软 件优化的 一些问题。 ( 5) 针对运动估计中搜索算法进一步研究,并在m atlab中仿真对比性能。 论文共分五部分: 第一部分介绍了视频压缩编码的原理及国际视频压缩标准发展:阐明了课题的 选择方案及内容安排。 第二部分介绍n 印 e g 礴 视频标准的基本框架及主要编码特点。 第三部分对m p e g 4 标准中视频压缩部分深入分析,重点介绍其核心算法和核 心内容。 第四部分介绍了开发使用的 硬件设计方案及软件环境, 在此基础上进行软件的 移植和仿真,并对常见软件优化思想进行介绍。 第五部分进一步研究经典搜索算法并用m atlab仿真对比其性能。 第六部分是总结和展望。 最后是致谢和参考文献。 l s 小结 本章首先介绍了视频压缩编码的必要性和可行性,然后阐述了视频压缩编码标 准的发展历程及现状,并简单介绍了一些视频压缩编码方法, 其次对本课题的研究 方案进行了 选择,最后对论文的主要结构框架进行编排。下章将重点介绍 mp e g 礴 压缩标准的主要原理和技术。 南京理工大学硕士学位论文 荃于o s p 的剐 田 e o 闷视频编码器研究与实现 2 .mp e g -4校验模型的编码技术 2. 1州 p e g . 4 标准的 主要功能和特点 2. l i m p e g 刁标准主要功能 m p e g 礴 不再是一个单纯的视频音频编解码标准, 它将内容与交互性作为核心, 从而为多 媒体数据压缩提供了一个更为广阔的平台。 它提供了一系列技术来满足视 听内容的提供者,网络服务商和最终用户的要求。它的主要目标在于提供用于 砚k b i珑以 下甚低比 特率的 音视频编码. 不仅适用于移动通信和个人通信, 也适用于 固定公用通信网和电视电话。适用于窄带多媒体通信等广泛的应用.实现基于内容 的 压 缩 编 码 tls l , 具 有良 好的 兼容 性、 伸 缩 性和可 靠性。 m p e g 4 支 持的 功 能 114 l 6 可分为 三类: ( 1) 基于内容的交互性 基于内 容的 操作和码流编辑: 使用者可在图 像或比 特流中 选择一具体的 对象( 例 如:图像中的某个人、 建筑物等等) , 随后改变它的某些特性。自 然与合成数据的混 合编码: 提供将自 然视频图 像与合成数据有效结 合的方式( 如文本、图 形等) ,同时 支持交互性操作。 随机存取: 提供有效的随机存取方式, 在有限的时间间隔内,可按 帧或任意形状的对象, 对音频、 视频序列进行随机存取。 例如以一序列中的某个音、 视频对象为目 标进行 “ 快进”搜索. ( 2 )高压缩率 高编码效率:mp e g 礴提供的主观视频质量要优于己有的或是其它在制定中的 标准. 一般的说, mp e g 礴的 压缩倍数高达1 的倍。 这一功能可望在迅速发展的移动 通信网中获得应用。对多个并发数据流编码:mp e g 刁 将提供对一景物的有效多视 角编码,加上多伴音声道编码及有效的视听同步。 ( 3 )通用存取 m p eg礴 将提高抗误码能力,尤其是 在易发生严重错误的低比 特应用环境下 ( 移 动通信链路 ) 。基于内 容的 尺度可变性: 给图 像中的 各个对象分配优先级,比 较重要 的 对象用较高的时间或空间分辨率表示。 基于内 容的尺度可变性是mp e g 礴 的核心, 因为图像中所含对象的目 录及相应的优先级确定后,其他的基于内容的功能就比较 容易实现了。 对甚低比 特率应用来说,尺度可变性是一个关键的因素,它提供了自 适应使用可用资源的能力,可以最有效的利用有限资源。 南京理工大学硕士学位论文墓于d s p 的mp e g -4视颐编码目 研究与实砚 2. i j 侧 ip e g 礴标准的特点 mp e g 一 1 、 n 印 e g 一技术当初制定时, 它们定位的标准均为高层媒体表示与结构, 但随着计算机软件及网络技术的快速发展, m p e g 一 1 、 mp e g 一 2 技术的弊端就显示出 来了:交互性及灵活性较低,压缩的多媒体文件体积过于庞大,难以实现网 络的实 时传输。 而m p e g 礴技术的标准是对运动图像中的内容进行编码,其具体的 编码对 象就是图像中的音频和视频,术语称为 “ a v对象” ,而连续的a v对象组合在一起 又可以形成a v场景。 因此, mp e g 碑标准就是围绕着a v对象的编码、 存储、 传输 和组合而制定的,高效率地编码、组织、 存储、传输a v对象是n 于 e g 礴标准的基 本内容。 m p e g 4 标准与m p e g 一 1 . m p e g 一 2 , h.26x 相比 具有以下的创新点: ( l)m p e g 礴 标准的 编码是基于对象的。 这样就便于操作和控制对象, 而传统 的压缩方法是基于象素的,无法操作对象。当传输带宽受限时,必须对压缩比进行 控制,这个因素会直接影响图像的压缩质量.过去在比 特率低时,整帧图像的质量 都要受到影响,没有灵活性可言,而m p e g 礴可以控制比特率,在低带宽时利用码 率控制算法,为用户感兴趣的对象多分配一些比特率,对用户不太感兴趣或者不太 敏感的区域分配少一些比 特率,这样可以保证在视觉接受的范围内图像的主观质量 不受太大影响。 (2) m p e g 一 的 面向 对象的操作, 可以 使用户在用户端对各种不同 对象 进行合 成,不同于传统方法中的只能对自 然图像进行操作。 (3) f 于 e g 礴 可以灵活地进行时域和空域的 扩展。 可以根据传输带宽客观条件 和误码率的要求,在时域和空域上进行扩展.时域扩展是指在带宽允许时可以在图 像基本层之上的增强层中再增加帧率,加强主要对象的编码效果,在带宽较窄时在 基本层中减少帧率。空域扩展是指对基本层中的图像进行采样插值,根据带宽的大 小进行图像空间分辨率的增加或减少。通过扩展,可以充分利用带宽,使图像质量 达到更好。 在视频编码方面, n 印 e g 碑支持对自 然和合成的视觉对象的 编码,由于m 死g 礴 只处理图像帧与帧之间有差异的元素,而舍弃相同的元素,因此大大减小了 合成多 媒体文件的体积。 应用mp e g 礴技术的影音文件最显著特点就是压缩比高且成像清 晰。 一般来说, 一小时的影像可以被压缩为3 50m左右的数据, 而一部高清晰度d v d 电 影 , 可以 压缩到两张甚至一张6 50mc d . r o m内 。 而且采用m p e g 碑编码技术的 影片, 仅需要3 00mh z以上c p u 、 64m内存和一个s m显存的显卡就可以播放了: 南京理工大学硕士学位论文多于刃 6 p 的翻 于 e o 闷视预编码摇研究与实现 在播放软件方面, 它的 要求也非常宽 松, 只需要安 装一个5 00k左右的栩 田 e g 礴编 码驱动,用 win d o ” 份自带的媒体播放器就可以流畅的播放。 2 .2 州 p e g 闷视频流语法 mp e g 礴视频编码的结构是按层组织的,但是,对于一系列串行的0 、1 码流, 解码器如何判断哪部分是v o p呢?mp e g 4和mp e g . 1 左一样, 使用关键起始码字 ( 劝 川 心 团e ) 来区分标记每层的码流数据, 使解码器能够正确解码。 在拟 田 e g 礴中, 每个起始码都有一个24 比特的前缀 “ oxo00 0ol ” 。 其后的sbit是起始特征码值。为 了维持起始码唯一性,所有的 起始码都必须以字节对齐,为此编码时可在其前面加 上填充码字112 1 。表2 . 1 和表2. 2 分别列出了 码流的填充码字和起始码值。 表21 填充码字 填充比特数填充码字 l0 20 l 3 0 1 1 4 0 1 1 1 5 0 1 1 1 1 60 1 1 1 1 1 7 0 1 1 1 1 1 1 sl10 1 1 1 1 1 1 1 表2. 2起始码特征值 名称 起始码 特征值 作用 明d us 】 曲 。 bj 州. 哟u 岭 . 劝 州 , ode b0 表示以下是视频序列,以区别于 音频信号 巧, 回- p 句 川夕国沙侧. b5 一个视频对象的开始, 后紧跟对 象框架( profil e) 巧d 即-obj 州 咖rt-l加。 00 i f视频对象码流的开始,后接一个 或多个视频对象层的码流数据 仍d 哟-o句 伙 uaye r- 冲 川 es 以 泪 . 2 0 z f 视频对象层码流的开始,后面包 括一个或多个视频目 标层 劝d 印-obj 州少1 助e-由zt-cc山 b6 视频对象平面 码流的开始, 后面 包括一个或多个视频目 标平面 南京理工大学硕士学位论文羞于d s p 的栩 田 e g 闷视频编码器研究与实现 2 j z j. 1 m 田 e g 礴校验模型 州 田 e g 刁校验模型 ( v 五 度 )的编解码结构 为了支持前面提到的各种功能:高效压缩、基于内容交互以及基于内容分级扩 展 ( 空域分级和时域分级),必然要求mp e g 礴 要以基于内容的方式表示视频数据. 因此, n 于 e g 礴 引入了 v o( vid eoo bj ect)的 概念来实现基于内 容的表示. v o 的构 成依赖于具体应用和系统实际所处环境: 在要求超低比特率的情况下, v o 可以是一 个矩形帧 ( 即传统mp e g 一 1 12 、h. 2 64中的矩形帧), 从而与原来的标准兼容;对于 基于内容的表示要求较高的应用来说, v o 可能是场景中的某一物体或是层面, 如新 闻节目中的解说员的头肩像;v o 也可能是计算机产生的二维、三维图形等等。在 v m中, v o 主要被定义为画面中分割出来的不同物体,每个v o 由三类信息来描述: 运 动 信 息 、 形 状 信 息 和 纹 理 信 息 112 . 图2 . iv m中的编码器和解 码器框图 图2 . 1 为v m中的编码器和解码器框图。 第一步是v o 的形成, 先要从原始视频流 中分割出v o ,然后由 编码控制机制为不同的v o 以及各个v o 的三类信息分配码率, 之后各个v o 分别独立编码, 最后将各个v o 的码流复合 ( mu x ) 成一个位流。 其中, 在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制.解码 器基本上是编码器的逆过程. 南京理工大学硕士学位论文荃于d sp 的翻 口 e g 确视频编码招研究与实现 z j .z v m中的数据结构 n 丁 e g 4 的 视频流 提 供了 对视 频 场 景的 分 层描 述112 1 , 如图 2 .2 所示。 分 层的 每 一 级都可以 通过码流中被称为初始码的特性码值进行访问。其中有以下五个层次的数 据结 构, 它 们都以 类的 形 式定 义ilsj: v s ( v id eo s es s ion):视频场景, 它位于数据结构层次的最高层, 包含其它 三个类,一个完整的视频序列可以由 几个v s 组成。它对应于一段完整的视频场景, 可以包括任何二维或三维、自 然或合成对象以 及它们的增强层, 一个v s 包括了一个 或多个v o ; v o ( vid eoo bj ect): 视频对象, 它是场景中的某个对象, 可以 是任意形状的 对象,也可以是个矩形帧。它是有生命期的,由时间上连续的许多帧构成; v o l ( vid eoo bj ectl a y e r ): 视频对象层, v o 的三种属性信息编码于 这个类 中,这个类的引入主要用来扩展v o 的时域或空域分辨率; v o g( 份。 upofvid eoo bj ectpl ane ): 视频对象平面组, 是可选的 数据结构, 它可以提供对码流的随机访问点; v 0 p ( vid eoo bj ect pl an e) : 视频对象平面,它可以 看作是v o 在某一时刻的 抽样,即某一帧v o 。以上五个类的关系可以用图 2. 2 表示。 v 油 . 目0 坛 . 口5 叫晰 伪(v5) vi . .】 0 封 “t (v0 ) v i . 囚0 封 . dl 卿er代o l ) o m 仰ofv o p g o 哟 v 该囚0 材 “它 p 】 a n 仪o p 】 图2. 2 翻 p e o 礴视频编码器中的数据结构 由图可见,每个v s( 即一段完整的视频序列)由一个或多个v o 构成,而每个 v o 可能有一个或多个v o l 层次,如基本层、增强层,每个层就是v o 的某一分辨率 的 表示。 在每个层中, 都有时间 上连续的 一系列v op。 南京理工大学硕士学位论文墓于d s p 的mp e o 闷视频 编码器研究与实现 2. 4 州 p e g 闷基于v o p的编码原理 拟 田 e g 礴编码器是针对任意形状的v o p进行的,v o p经过形状编码,运动编 码和纹理编码后产生对应的形状信息、运动信息和纹理信息,复合器将三类信息复 合成编码比 特流。 编码框图1z 1 如图2. 3 所示: 级 理 1 画 视频输入 一 锡熟犷 薪 对象分割 图2. 3 m p e o 礴基于v o p 的编 码原理框图 上面的编码器主要包括两部分:v o p 形状编码和传统的运动和纹理编码部分。 对于各个 v o p ,mp e g 礴和 m peg 一的编码是相似的。首先将 v o p从上到下,从 左到右分成 16xl6 大小的宏块 m b( m a c r o b l ock ) ,具体的形状、运动和纹理编码 仍然是基于mb进行的, 一个m b的 信息是形状+ 运动+ 纹理的总和。 而在对宏块进 行编码时, 我们把一个宏块分成了4 个s xs 子块的亮度 ( y ) 分量, 2 个8 x8 块的 色度分童 ( c b, c r ) ,从而进行编码,如图2. 4 是宏块的分割结构。 01 23 图2. 4基于宏块的编码 2. 4. 1 视频对象分割 对自然场景,通常采用半自 动或自 动的方法分割视频对象,视频序列中的每一 帧都采用同样的方法进行分割。视频序列的每一帧可分割为一些任意形状的图像区 南京理工大学硕士学位论文墓于dsp 的m p e g 闷视烦编码招研究与实现 域,即视频对象平面v o p 可以是任意形状的。 一个v o p 可用纹理变量 ( 一系列亮度 和色度值) 和形状描述来完全表示。 每个v op的颜色、 形状、运动及纹理信息都是 独立地进行编码、存储和传输的。v o p 标识以及多个v o p 在接收端如何重新组合为 原始序列等相关信息也要传给解码器。有了这些相关信息,解码器不仅可以对己压 缩的信息解压缩,而且还可以进行场景合成。因此在传送mp e g 礴 视频编码码流的 同 时, 必 须 把 合成的附 加 信息 传 送到 接收 端, 这 种附 加信息 被称为 ai油a 通 道。 图 2. 5 是将一个场景分割成多 个单独的v o p 的示意图, 这个场景由 两个对象 ( 一 个人的头肩像和一个徽标)和背景组成.采用自 动和半自 动的方法将对象分割成 v o p , 和 v op: , 去 掉了 对 象的 背 景 被 分 割 成 v 0 p 。 . 因 此, 这个 分 割 后的 视 频序 列 中 包 括 一 系 列 的 v o p 。 、 v o p , 和 v o p , . 图2. 5视频分割示意图 2. 4. 2 形状信息编码 相对于以前的压缩标准而言,m p e g 礴是第一次引入形状编码的压缩算法。形 状信息的获得首先要对图像进行分析和分割,把各个代表不同内容的目 标分割后再 用形状表示。在mp e g 礴标准中,v o的形状信息有两类:二值形状信息和灰度形 状 信息, 这 两种 信息 都 可以 采用 位图 法( b itm即 ) 来表 示。 二值形 状信息就 是用。 、 1 的方式来表示被编码的v o p的形状,0 表示非v o p 区域,1 表示v op 区域,它 的编码采用基于运动补偿的技术,可以是无损或有损的;灰度形状信息则是在 0 255 之间 取 值, 其中0 表示完全透明, 2 55表示完全不透明, 它的编码采用基于块的 运动补偿d c t方法 ( 同纹理编码相似),属于有损编码。 南京理工大学硕士学位论文荃于d s p 的州 乎 d g 闷视倾编码器研究与实砚 2. 4 ) 运动信息编码 mp e g 礴 采用运动估计和补偿技术来去除帧间的冗余,与其他标准的主要区别 在于mp e g 碑 采用的是v o p 结构, 而不是基于块的技术。 在m p e g 礴视频标准中, 有 三种基本v o p 形式: 帧内 编码v o p(i v 0 p) 、 帧间预测编码v o p(p. v o p) 和帧 间双向预测编码v o p( b 一o p )模式,其中p . v o p 和b . v o p 编码时孺要根据该帧前 面和后面的1 刃o p 或者p . v o p ,利用运动估计和运动补偿技术来实现。图2. 6 体现出 了编码类型1 、p 、b 帧的结构。 编码时,将v o p 窗分割为16x1 6 的宏块或8 x 8 的块, 它可以基于宏块也可以基于块进行。 如果一个宏块完全位于一个v o p 内,就采用一般的基于16x1 6 象素宏块或 是8 x 8 象素块运动估计, 运动矢 量以 半精度进行运算 卜 如果一个宏块只有部分位于v o p 内,就采用修正的块匹配技术估计运动矢 童 当参考块位于v o p 边界上时,采用重复填充技术给位于v op边界外的象素 指定值, 然后运用填充后的 象素值估计运动矢量。 这样在v op边界上搜索 预测所需的候选象素时就有了更多的选择,从而提高了效率 对于完全在v op外,但在边框内的宏块, 不做运动补偿 b l l p 图2. 6 i p b帧结构 2. 4. 4 纹理信息编码 v o p 的纹理信息包含在视频信号的亮度分量y 和两个色度分量u 和v 中.对于 1 一o p ,纹理信息直接包含在亮度和色度分量中,而对于运动补偿后的v op,纹理 信息包含在运动补偿后的残差中。为了达到简单、高性能、容错性好的目的,仍采 用基于分块的纹理编码,v o p 的边框仍被分为16xl6的宏块。图2. 7 说明了 mp e g -4 南京理工大学硕士学位论文甚于d s p 的翻 e g 闷视频偏妈器研究与实现 纹理编码的原理: 图1 7 v 0 甲纹理编码过程 编码方法上基本仍采用基于8 丫 8 象素块的d c t 变换。在帧内编码模式中,对于 完全位于v o p 内的象素块,则采用经典的d c t 方法;对于完全位于v o p 之外的象素 块则不进行编码:对于部分在v o p 内,部分在v o p 外的象素块则首先采用图像填充 技术来获取v o p 之外的象素值, 之后再进行d c t 编码。帧内编码模式中还将对d c t 变换的d c 及a c 因子进行有效的预测。在帧间编码模式中,为了对b . v o p 和p-v o p 运动补偿后的预测误差进行编码,可将那些位于v o p 活动区域之外的象素值设为 1 28。 此外, 还可采用 s a d c t (s h ape. 翻 叩 t ived c t ) 方 法 对v o p 内 的 象素 进行编码, 该方法可在相同码率下获得较高的编码质量,但运算的复杂度稍高. 变换后的d c t 系数还要经过量化、扫描、游程及霍夫曼嫡编码。量化有两种: 类似于h 2 63那样用一个量化参数对块内所有a c 系数,这个值可以根据要求质量和 目 标码率变化;或类似于m p e g . 2 那样使用量化矩阵,这些过程与现有标准基本相 同。对d c t 系数的量化是关键的操作,因为量化器结合行程编码可使大部分数据得 以压缩。 在进一步编码之前,系数要通过扫描从二维数据转换成一维数据。通常用的扫 描方式 有 3 种: 21 9 户 za g 扫描、 水 平 交替 扫 描 和垂直交 替扫描。 m p e g 礴 视频 编码标 准规定了如何选择扫描方式,对于帧内 宏块,如果没有进行a c 系数预测,则使用 2 1 9 . 劝 9 扫描: 如果预测了 a c 系数, 且是水平预测方式, 则进行垂直交替扫描, 反之 采 用了 垂 直 预测方 式, 则 进 行水 平交 替 扫 描。 对于 帧间 宏块, 采用 zi g- zag扫描. 对纹理编码的最后一步是可变长编码,编码数据不同,要使用不同的v l c 表。 经过v l c 编码, 响。 可以进一步提高d c t 固有的压缩性和减少运动信息对整个位率的影 南京理工大学硕士学位论文 基于o s p 的州 田 e g 目 4 视频编码器研究与实现 2. 5 州 tp e g 闷的框架和级 m p e g 4 是一个非常庞大的系统, 要完全实现是一项非常巨大的工程。 m p e g 4 提供了大量的工具对视频对象编码,为了有效地推进mp e g 礴的发展,针对不同的 应用需求, 定义了一些拟 j e g 礴 系统、 视频、 音频的子集。 这些子集称为框架( p r o 灯 1 曰 每一个框架中又定义了多个级 ( l 总 v e l ), 用来限制计算的复杂度。具有很大的灵活 性,在实际中m p e g 并 视频标准应用最多的是对完整的矩形视频帧的编码。编码矩 形 v o p 用到的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论