（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-10 格式：PDF 页数：80 大小：3.48MB 积分：0 举报 版权申诉

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf_第2页

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf_第3页

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf_第4页

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf_第5页

已阅读5页，还剩75页未读，继续免费阅读

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

商京理工大学硕士学位论文荃于dsp 的州子 e g 刁视频谊码器研究与实砚 ab s t r a c t h 份 .t n 叨 m 州cal a g es ， the v id 印扣 e g 4com p r e ss i on劝 ad ds 记w i th，。俪七 itr at e ，址 gh com p “ 架洛 i bil勺 tosa l i s 厅n u m 周旧 i multi 一ed运in fo n n ation to业li ver n icals.ltis 即 p l iedinn um面cal te levis i on，v is i b le te l e p h o n e ，尚】. t i m e m u l t i m edi a s u 声rv i s i o n ， m o t i o ” muit i m edi a一pon d e n ce，比已n 改 w 。比v i 山幻，， v o r 瑰.mu tl . 】 m 川 ti 一ediasyst e m 。 d 即幼 v e l y. 玩th isth e s i s ， fi rstl y，ani ” 加记 u ct iontovi d eocom p 找绍 si onp ri n c i p a l ， m ethods 朗d 。泊。 . 1 如招 rn at i o n a l vi d eo cc 刁 in gs 扭川 d ar dsisd o n e ，朋目州ng th e c o r et ec h n lquesof 翻于 e g 礴朗d p r ol ” s ing a sc h elne ofn p e g 碑s p e n c oder，gi v in g a fl ow c h art，朗dinthe v c + + 印 v lr o n m ent n p e g 礴s p vi d eocom p 找治 5 加 n ction俪thth e cl angua g e p r o 以月 u 邝 15。副 rr .edo u 仁 ado p t i ngs ta n d . dte st in g se q uen cec odin g and d ec oding asa v e 约 fi 侣 at i on， . n . n 姚功山， stud y in g d c t i q u a n ta t i o 可 m otione 币m atio 可 m o t i onc o m p ensati ona l g o d th m ind e ta l l ; s e c o n dl y ，combi net h e in st ru c t i o n st ru ct u 代明d th e h ardw a 了 e ch出知 ct e 到 sticsof th ec 6 7 l l ， do as y st e m h a r d w ar ep r oj ect 云 . m ed i a g 冠 m on th i sfo u n d a t i o n ，and 仃印 ” p l ant th i s c ode su cces s fu l lyc c s ， c a rr yon so ft w 别限to如itate real l y ， v e r i 斤th e 嫂fu lnes s o f th e c oder .the com p 1ement e xpl a in edp arts o f al g o d t h mo f e xcei l ent t u ma p r oj ec 朋 dai matthe al g o ri th mt n 盯 sp l anta t i 佣withimi tated奴 p r o b l em inth e tyue p 戏 x 笔 s s tdc ar ryone luci dati onto邝 a c h a 乡陀 e m en t d e fi n 讹i y ;thi rd l y ， m o t ionestimation 旧成加 e l y con sum edt 阮. inthe al g o ri t h m ，thentos 加 d y fu rthery 州ous ，二 ” h ai g o r ith m ， and doa ki ndofbett e r th andi amo nd，， ” h al g o 行山 m ， it isa hi gh一 ffici eny s 伐玛 h al gori - 劝 . ，eml 时ing 助d comparein g its腼币oninth . m 峨 t l a b . inth e end ， th e s u m m 颐乙时 i on a bou t w h ath asl 已鱿刀 edand ari咖 p robl e m s isgl ven ; m . 坦 w h i le ，山。加 t ur e 代 5 . 叮 c h poi ntand d eve l opm ent a bou t vi d eoc o d 1 n g isp ms pec 囚. k 叮， 0 川: vid eoc o . lp re ss i on seaj rc h alg o ri t 知 m ccsmat lab 声明本学位论文是我在导师的指导下取得的研究成果，尽我所知，在本学位论文中，除了加以标注和致谢的部分外，不包含其他人己经发表或公布过的研究成果，也不包含我为获得任何教育机构的学位或学历而使用过的材料。与我一同工作的同事对本学位论文做出的贡献均己在论文中作了明确的说明。研究生签名 :赞明霞沪 9 年7 月日学位论文使用授权声明南京理工大学有权保存本学位论文的电子和纸质文档，可以借阅或上网公布本学位论文的部分或全部内容，可以向有关部门或机构送交并授权其保存、借阅或上网公布本学位论文的部分或全部内容。对于保密论文，按保密的有关规定和程序处理。研究生签名:曾明农声夕年7 月日南京理工大学硕士学位论文荃于dsp 的州子 e g 闷视预编码县研究与实现 1 .绪论世界正迈进数字化、网络化、全球一体化的信息时代。人类的生活也将进入更商品质的数字化。视觉信息作为人们最赏心悦目的信息将大放异彩，一些高质量传播视频信息将很大程度上依赖于数字视频压缩。州甲 e g 一因其具有交互性、压缩比高、节省存储空间和图像质量好的特征而发挥着重要的作用，成为流媒体应用中压缩视频流的首选标准。 l l 视频压缩编码的必要性和可行性众所周知，人类所获取的信息有70%来自于视觉，视觉信息因为具有直观性、形象性、确切性、高效率和应用广泛等优点，在多媒体信息中占有重要地位，把视觉信息纳入通信和网络领域，为人们提供多渠道、多方位的信息来源成为了现代人迫切的需求。但是数字化了的未压缩视频信号的数据量之大是惊人的，如: 用于可视电话q c i f :1 7 6 x1 44x 3 /2x 8 x 3 0 七9 . i n lb p s 用于视频会议c i f :3 5 2 x 2 8 8 x 3 /2x 8 x 3 0 “3 6 k b p s 而用于传输通信的网络带宽是非常有限的; l a n :1 011 00n lb p s 6 p r s icd m a : ( 9 .0 6 1 3 .4 1 5 ，6 一2 1 4 ) k b 阔 ( 641 科3 8 4 ) k b p s 用于存储信息的存储媒质容量也是非常有限的: c d. r om:6 5 0 州旧 u 盘:s l z mb 从以上列举的例子可以看出，数字化信息的庞大数据量给存储器的存储容量、通信干线的信道传输率以及计算机的速度都增加了极大的压力.这个问题也是多媒体技术发展中的一个非常棘手的瓶颈问题，解决这一问题的方法，单纯用扩大存储器容里、增加通信干线的传输率的办法是不现实的。数据压缩技术是一个行之有效的方法，通过数据压缩把信息数据量降下来，以压缩形式存储和传输，既节约了存储空间，又提高了通信千线的传输效率，同时也使计算机实时处理视、音频信息，保证播放高质量的视、音频节目成为可能。同时，上述数据压缩过程不仅是必要的而且也是可能的，原因是: 首先，原始图像数据是高度相关的，存在很大的冗余度 ( 如空间冗余、时间冗余、统计冗余、人眼视觉冗余、结构和知识冗余等) . 通过压缩编码去相关，即可以南京理工大学硕士学位论文基于o sp的翻田 d o 闷视频编码器研究与实砚通过减少视频序列间的相关性，用较少的比特数来表示视频内容，降低视频内容中的冗余，从而实现对视频的压缩。其次，允许图像编码有一定的失真也是视频可以压缩的一个重要原因。在许多应用场合，并不要求压缩后的图像复原后和原图完全一致，而是允许有一定的失真，因为这些失真可以利用人的视觉特性，在图像变化不被觉察的条件下减少t化信号的灰度级之类，来提高数据压缩比。与此同时，视频数据压缩技术的飞速发展也有硬件方面的原因。随着高速的数字信号处理器 ( d s p )、超大规模集成电路 ( v l s d 、超高速集成电路 ( v h sl c ) 以及大容量静态动态存储器的出现，使复杂的算法不再停留于理论阶段，实现了实时地处理更高分辨率和更精美的画质。 l z 视频压缩编码技术的发展视频压缩技术的研究己有几十年的历史，从基本原理看可以分为两大类: 第一类方法是基于速率一失真理论的。此类方法中，视频图像序列利用在空间上和时间上取样得到一组象素( 灰度、彩色) 值来表示;而压缩的方法则是采用一般信号分析的方法来消除数据中的冗余，最终使得用来表示图像的一组数据是互不相关的。对于这些方法，重要的是了解信源的统计特性，而不关心图像的具体内容，也不考虑或很少考虑人眼的视觉特性。因此，此类方法被称为基于象素的压缩方法，也称为第一代图像压缩编码方法【 5. 第二代图像压缩编码方法是在80年代中期正式出现的。这类方法充分利用人眼的视觉特性和图像信息源的各种特征来进行编码。根据人眼对物体轮廓比对物体内部细节敏感的特点，利用内容( 对象 ) 来表示图像，而不再是单纯的象素.并且对象是按轮廓信息将某一特定图像分割成的若干区域，每一区域可以看成一个整体，其内部细节具有相同的特性( 灰度信息、纹理信息、运动速度、运动矢量等) ，然后对这些分割的小区域再分别进行编码。这类编码技术比第一代编码技术要有效的多，目前正处于研究发展中，近年来，由于视频市场的大力牵引和电子技术的飞速发展，各种各样视频压缩和数据压缩的算法应运而生.国际运动图像编码专家组洲p e g ) 是is o l le c 下负责开发运动图像，音频及其组合的压缩，解压缩，处理和编码的国际标准的一个工作组，开发了 m 】， e g 一 1 ( 视频及其伴音存储标准15 0 八 e c l ll 72，其码率约1 5 m u s ) ， m p e g . 2 ( 数字电视标准15 0 八 e cl3 b1 8 ，其码率可达i o m 眺) 及m p e g -4 视频压缩标准。另一个国际化组织i tu( 前国际电报电话咨询委员会c c it)也制定了面向通信的h.261 ，h.2 63，h.2 64等视频压缩标准。南京理工大学硕士学位论文鉴于o s p 的州田 d 口闷视频编码器研究与实现在mp e g 礴制定之前， m p e g . 1 ，侧印 e o-2 ， h.2 61， h.263 都是采用第一代压缩编码技术，着眼于图像信号的统计特性来设计编码器，属于波形编码的范畴。这些编码标准把视频序列按时间先后分为一系列帧，每一帧图像又分成宏块以进行运动补偿和编码，这种编码方案存在以下缺陷:将图像固定地分成相同大小的块，在高压缩比的情况下会出现严重的块效应，即马赛克效应:不能对图像内容进行访问，编辑和回放等操作; 未充分利用人类视觉系统似v s : hum an vis uai s y st em) 的特性。加于 e g 礴属于基于模型/ 对象的第二代压缩编码技术，它充分利用了人眼视觉特性，抓住了图像信息传输的本质，从轮廓，纹理思路出发，支持基于视觉内容的交互功能，这适应了多媒体信息的应用由播放型转向基于内容的访问，检索及操作的发展趋势，它采用面向对象的压缩方式，根据图像内容，将其中的对象( 物体、人物、背景 ) 分离出来分别进行帧内、帧间编码压缩，并允许在不同的对象之间灵活分配码率，对重要的对象分配较多的字节，对次要的对象分配较少的字节，从而大大提高了压缩比，使其在较低的码率下获得较好的效果。州田 e g 4 是一种崭新的低码率、高压缩比的视频编码标准，传输速率为4. 8 掩讲 k b 姚. i j 视频压缩编码的方法视频压缩编码可分为两类，一种叫做无损压缩，另一种叫做有损压缩。无损压缩是指使用压缩后的数据进行重构，重构后的数据与原来的数据完全相同:有损压缩是指重构后的数据与原来的数据有所不同，但不会对原始资料表达的信息造成误解1121。视频编码中主要压缩技术有如下几种: ( 1) 统计编码根据香农信息论的观点，信源冗余度来自信源本身的相关性和信源内部事件概率分布的不均匀性。统计编码主要有基于概率分布特性的霍夫曼编码和算术编码，以及基于相关性的游程长度编码三类。霍夫曼编码( huff 泊 anc od in g ) 是一种变长编码 v l c ( v 叭ab le l 忍 n gth c odin g). 霍夫曼编码将信源符号按概率大小重新排序，通过二叉树算法，依次将两个概率最小的节点合并，直至根结点。完成树的构造后，给所有的树枝分配0 和1 ，这样就可以给高概率符号分配短码，而小概率符号分配长码，去除符号间的统计冗余。在己知信源符号概率时，可以给出极好的编码性能。另一方面虽然v l c 提高了编码效率，但不利于硬件实现。算术编码( a 石 th m eti c c odin g ) 和霍夫曼编码理论上都是最佳的，但在信源概率分布未知的情况下，算术编码优于霍夫曼编码。算术编码的基本原理是用0， 11 之间南京理工大学硕士学位论文基于o s p 的侧于 e o 闷视频编码器研究与实砚的一个概率区间来表示数据序列. 将信源x的一个给定状态x气戈， :. ，芍与 0 ， 1 间的一个由大概率p 和小概率q 限定的概率子区间相联系，区间的长度等于序列的概率夕。 ) . 编码器从n= 1 开始，逐位的处理输入的符号流。每辘入一位，更新当前符号的条件概率，并以此调整p 和q 限定的概率子区间. 随着n增加，和输入符号序列相联系的概率子区间就变得越来越小。最后用这个表示概率子区间的小数给符号序列编码。游程长度编码 rl.c( r u n 一 l 忍 n gth c od i ng) 是将符号值相同的连续符号串用一个游程长度 ( 符号数)和一个代表值 ( 值) 描述。这样可以用更紧密的序列代替原有的相同值符号串. 在视频压缩中，量化后的数据常常出现大量的连零系数，利用游程长度编码可以有效的降低表示零码的比特数。 (2)预测编码预测编码不是对一个象素直接编码，而是用同一帧 ( 帧内预测编码)或相邻帧 ( 帧间预测编码)中的象素值来进行预测，然后对预测残差进行量化和编码。显然预测编码实际是利用了图像数据中的空间和时间冗余。其中线性预测编码又称为差分脉冲编码调制d p c m ( dife 茂 n t ialpul sec o d e mo d ul ation)，由于算法简单，易于硬件实现，己被各种视频编码标准采纳. ( 3 )变换编码使图像数据在变换域上最大限度的不相关。尽管图像变换本身不能带来数据压缩，但由于变换后系数之间的相关性明显降低，图像的大部分能量只集中到少数几个变换系数上，采用适当的量化和嫡编码后可以有效的压缩图像的数据量。变换编码通常是将空间域相关的象素点通过正交变换映射到另一个变换域上，使变换后的系数之间的相关性降低。在变换域上应满足:所有的系数相互独立，能量集中于少数几个系数上，这些系数集中于一个最小的区域内。保留少数重要的系数就能够很好的恢复图像，而人眼几乎觉察不出那些损失的系数。常见的变换有k 一 l 变换、d f t变换和d c t 变换等。 1 . 4 1 . 4 . 1 课题方案和工作安排设计方案选择本课题是用于某试验基地的论证方案中视频监控系统中视频压缩编码模块的设计验证。经前期查阅资料研究发现，通常有以下几种实现方案: ( 1)直接采用p c 机实现这种方案以 p c 机或工作站为平台，利用现有的声卡、南京理工大学硕士学位论文基于d s p 的m p e g 闷视频编码器研究与实现视频采集卡作为系统的输入输出设备，用纯软件方式实现视频压缩协议的全部内容。其特点是:面向p c 机多媒体系统，硬件系统设计简单，软件开发环境好，灵活的程序代码可动态加载以实现多种视频压缩标准。易于移植和升级，而且支持的网络协议也独立于硬件。但是一个摄像头就要配备一台pc机，成本较高，特别在监控站点很多的远程监控系统设计中，其成本开销是无法接受的。 (2)采用多媒体专用芯片此方案优点是d s pc p u 提供了极强大的多媒体流水线操作，而且往往具有强大的多媒体接口，开发包和辅助资源也较多。如p h i u p s t ri m edi a 应用于实时监控网络中。其缺点是成本较高，功耗较大，不适合应用于便携式设备中. (3)采用直接硬件a si c 压缩如华邦 ( winb o n d)的w9 9 2 0 0f。此方案的优点是方便集成，利于应用，开发周期短.但其缺点也很明显:由于视频压缩算法全部由硬件实现，不便于产品功能更新和升级，成本也不占优势。 (4)采用通用d s p 实现。如a di的b l a c kfin、tl的c 6000系列。其优点是集合多媒体专用芯片与普通mc u 的优势，价格较低，而且功耗小，体积小，便于升级和移植，适合于网络摄像机、无线手持设备和现场监控系统中。综合以上考虑，决定采用第四套方案实现本压缩编码系统。 l 4. 2 论文所做工作视频压缩编码系统主要由视频采集、视频编码和编码数据通信模块组成，本设计中我的任务主要是视频编码模块的研究与设计，而视频采集和通信模块的部分留待以后研究。课题的理论和实现准备工作: 首先是全面了解n 田 e g 礴视频编码标准，对其基本思想、整体框架以及关键技术等有个完整的认识，深入剖析网上提供的州田 e g 礴编码器源代码( 以 xvid c o r . 户 1 . 1 .0 代码为基础)，深入分析、整合、改进mp e g 礴s p 框架的软件视频压缩编码功能。课题主要完成了以下几个方面的工作: ( 1) 州 p e g 4 s p 视频编码器的软件实现，以下载的源代码为基础，实现 w in d ows 平台下 c 版本的视频编码器原型，采用标准测试序列( .y u v 格式) 验证无误，针对编码前和解码后任一帧图像的性能进行分析，为后一步视频压缩算法的选择和优化提供侧试平台。 (2)对mp e g 礴sp视频编码的关键技术一d c t 正交变换、 h.2 6 3 量化和运动估计补偿技术进行了研究和改进。分析了 d c t 变换原理和运动估计技术的详细技术及改进的快速搜索算法. 南京理工大学硕士学位论文签于dsp 的州田仑 0 4 视须编码器研究与实现 (3) 熟悉和掌握d sp及通常视频压缩系统的主要结构，结合实际的应用，设计符合本课题的视频压缩编码系统的硬件原理框图，并详细分析各部分的组成和功能。 (4)结合软件开发的基础，将前述c 版本视频编码器原型移植到d s p 开发环境 c csz. o 中编译通过，并着中分析了程序移植过程中注意的问题，总结了软件优化的一些问题。 ( 5) 针对运动估计中搜索算法进一步研究，并在m atlab中仿真对比性能。论文共分五部分: 第一部分介绍了视频压缩编码的原理及国际视频压缩标准发展:阐明了课题的选择方案及内容安排。第二部分介绍n 印 e g 礴视频标准的基本框架及主要编码特点。第三部分对m p e g 4 标准中视频压缩部分深入分析，重点介绍其核心算法和核心内容。第四部分介绍了开发使用的硬件设计方案及软件环境，在此基础上进行软件的移植和仿真，并对常见软件优化思想进行介绍。第五部分进一步研究经典搜索算法并用m atlab仿真对比其性能。第六部分是总结和展望。最后是致谢和参考文献。 l s 小结本章首先介绍了视频压缩编码的必要性和可行性，然后阐述了视频压缩编码标准的发展历程及现状，并简单介绍了一些视频压缩编码方法，其次对本课题的研究方案进行了选择，最后对论文的主要结构框架进行编排。下章将重点介绍 mp e g 礴压缩标准的主要原理和技术。南京理工大学硕士学位论文荃于o s p 的剐田 e o 闷视频编码器研究与实现 2 .mp e g -4校验模型的编码技术 2. 1州 p e g . 4 标准的主要功能和特点 2. l i m p e g 刁标准主要功能 m p e g 礴不再是一个单纯的视频音频编解码标准，它将内容与交互性作为核心，从而为多媒体数据压缩提供了一个更为广阔的平台。它提供了一系列技术来满足视听内容的提供者，网络服务商和最终用户的要求。它的主要目标在于提供用于砚k b i珑以下甚低比特率的音视频编码. 不仅适用于移动通信和个人通信，也适用于固定公用通信网和电视电话。适用于窄带多媒体通信等广泛的应用.实现基于内容的压缩编码 tls l ，具有良好的兼容性、伸缩性和可靠性。 m p e g 4 支持的功能 114 l 6 可分为三类: ( 1) 基于内容的交互性基于内容的操作和码流编辑: 使用者可在图像或比特流中选择一具体的对象( 例如:图像中的某个人、建筑物等等) ，随后改变它的某些特性。自然与合成数据的混合编码: 提供将自然视频图像与合成数据有效结合的方式( 如文本、图形等) ，同时支持交互性操作。随机存取: 提供有效的随机存取方式，在有限的时间间隔内，可按帧或任意形状的对象，对音频、视频序列进行随机存取。例如以一序列中的某个音、视频对象为目标进行 “ 快进”搜索. ( 2 )高压缩率高编码效率:mp e g 礴提供的主观视频质量要优于己有的或是其它在制定中的标准. 一般的说， mp e g 礴的压缩倍数高达1 的倍。这一功能可望在迅速发展的移动通信网中获得应用。对多个并发数据流编码:mp e g 刁将提供对一景物的有效多视角编码，加上多伴音声道编码及有效的视听同步。 ( 3 )通用存取 m p eg礴将提高抗误码能力，尤其是在易发生严重错误的低比特应用环境下 ( 移动通信链路 ) 。基于内容的尺度可变性: 给图像中的各个对象分配优先级，比较重要的对象用较高的时间或空间分辨率表示。基于内容的尺度可变性是mp e g 礴的核心，因为图像中所含对象的目录及相应的优先级确定后，其他的基于内容的功能就比较容易实现了。对甚低比特率应用来说，尺度可变性是一个关键的因素，它提供了自适应使用可用资源的能力，可以最有效的利用有限资源。南京理工大学硕士学位论文墓于d s p 的mp e g -4视颐编码目研究与实砚 2. i j 侧 ip e g 礴标准的特点 mp e g 一 1 、 n 印 e g 一技术当初制定时，它们定位的标准均为高层媒体表示与结构，但随着计算机软件及网络技术的快速发展， m p e g 一 1 、 mp e g 一 2 技术的弊端就显示出来了:交互性及灵活性较低，压缩的多媒体文件体积过于庞大，难以实现网络的实时传输。而m p e g 礴技术的标准是对运动图像中的内容进行编码，其具体的编码对象就是图像中的音频和视频，术语称为 “ a v对象” ，而连续的a v对象组合在一起又可以形成a v场景。因此， mp e g 碑标准就是围绕着a v对象的编码、存储、传输和组合而制定的，高效率地编码、组织、存储、传输a v对象是n 于 e g 礴标准的基本内容。 m p e g 4 标准与m p e g 一 1 . m p e g 一 2 ， h.26x 相比具有以下的创新点: ( l)m p e g 礴标准的编码是基于对象的。这样就便于操作和控制对象，而传统的压缩方法是基于象素的，无法操作对象。当传输带宽受限时，必须对压缩比进行控制，这个因素会直接影响图像的压缩质量.过去在比特率低时，整帧图像的质量都要受到影响，没有灵活性可言，而m p e g 礴可以控制比特率，在低带宽时利用码率控制算法，为用户感兴趣的对象多分配一些比特率，对用户不太感兴趣或者不太敏感的区域分配少一些比特率，这样可以保证在视觉接受的范围内图像的主观质量不受太大影响。 (2) m p e g 一的面向对象的操作，可以使用户在用户端对各种不同对象进行合成，不同于传统方法中的只能对自然图像进行操作。 (3) f 于 e g 礴可以灵活地进行时域和空域的扩展。可以根据传输带宽客观条件和误码率的要求，在时域和空域上进行扩展.时域扩展是指在带宽允许时可以在图像基本层之上的增强层中再增加帧率，加强主要对象的编码效果，在带宽较窄时在基本层中减少帧率。空域扩展是指对基本层中的图像进行采样插值，根据带宽的大小进行图像空间分辨率的增加或减少。通过扩展，可以充分利用带宽，使图像质量达到更好。在视频编码方面， n 印 e g 碑支持对自然和合成的视觉对象的编码，由于m 死g 礴只处理图像帧与帧之间有差异的元素，而舍弃相同的元素，因此大大减小了合成多媒体文件的体积。应用mp e g 礴技术的影音文件最显著特点就是压缩比高且成像清晰。一般来说，一小时的影像可以被压缩为3 50m左右的数据，而一部高清晰度d v d 电影，可以压缩到两张甚至一张6 50mc d . r o m内。而且采用m p e g 碑编码技术的影片，仅需要3 00mh z以上c p u 、 64m内存和一个s m显存的显卡就可以播放了: 南京理工大学硕士学位论文多于刃 6 p 的翻于 e o 闷视预编码摇研究与实现在播放软件方面，它的要求也非常宽松，只需要安装一个5 00k左右的栩田 e g 礴编码驱动，用 win d o ” 份自带的媒体播放器就可以流畅的播放。 2 .2 州 p e g 闷视频流语法 mp e g 礴视频编码的结构是按层组织的，但是，对于一系列串行的0 、1 码流，解码器如何判断哪部分是v o p呢?mp e g 4和mp e g . 1 左一样，使用关键起始码字 ( 劝川心团e ) 来区分标记每层的码流数据，使解码器能够正确解码。在拟田 e g 礴中，每个起始码都有一个24 比特的前缀 “ oxo00 0ol ” 。其后的sbit是起始特征码值。为了维持起始码唯一性，所有的起始码都必须以字节对齐，为此编码时可在其前面加上填充码字112 1 。表2 . 1 和表2. 2 分别列出了码流的填充码字和起始码值。表21 填充码字填充比特数填充码字 l0 20 l 3 0 1 1 4 0 1 1 1 5 0 1 1 1 1 60 1 1 1 1 1 7 0 1 1 1 1 1 1 sl10 1 1 1 1 1 1 1 表2. 2起始码特征值名称起始码特征值作用明d us 】曲。 bj 州. 哟u 岭 . 劝州， ode b0 表示以下是视频序列，以区别于音频信号巧，回- p 句川夕国沙侧. b5 一个视频对象的开始，后紧跟对象框架( profil e) 巧d 即-obj 州咖rt-l加。 00 i f视频对象码流的开始，后接一个或多个视频对象层的码流数据仍d 哟-o句伙 uaye r- 冲川 es 以泪 . 2 0 z f 视频对象层码流的开始，后面包括一个或多个视频目标层劝d 印-obj 州少1 助e-由zt-cc山 b6 视频对象平面码流的开始，后面包括一个或多个视频目标平面南京理工大学硕士学位论文羞于d s p 的栩田 e g 闷视频编码器研究与实现 2 j z j. 1 m 田 e g 礴校验模型州田 e g 刁校验模型 ( v 五度 )的编解码结构为了支持前面提到的各种功能:高效压缩、基于内容交互以及基于内容分级扩展 ( 空域分级和时域分级)，必然要求mp e g 礴要以基于内容的方式表示视频数据. 因此， n 于 e g 礴引入了 v o( vid eoo bj ect)的概念来实现基于内容的表示. v o 的构成依赖于具体应用和系统实际所处环境: 在要求超低比特率的情况下， v o 可以是一个矩形帧 ( 即传统mp e g 一 1 12 、h. 2 64中的矩形帧)，从而与原来的标准兼容;对于基于内容的表示要求较高的应用来说， v o 可能是场景中的某一物体或是层面，如新闻节目中的解说员的头肩像;v o 也可能是计算机产生的二维、三维图形等等。在 v m中， v o 主要被定义为画面中分割出来的不同物体，每个v o 由三类信息来描述: 运动信息、形状信息和纹理信息 112 . 图2 . iv m中的编码器和解码器框图图2 . 1 为v m中的编码器和解码器框图。第一步是v o 的形成，先要从原始视频流中分割出v o ，然后由编码控制机制为不同的v o 以及各个v o 的三类信息分配码率，之后各个v o 分别独立编码，最后将各个v o 的码流复合 ( mu x ) 成一个位流。其中，在编码控制和复合阶段可以加入用户的交互控制或由智能化的算法进行控制.解码器基本上是编码器的逆过程. 南京理工大学硕士学位论文荃于d sp 的翻口 e g 确视频编码招研究与实现 z j .z v m中的数据结构 n 丁 e g 4 的视频流提供了对视频场景的分层描述112 1 ，如图 2 .2 所示。分层的每一级都可以通过码流中被称为初始码的特性码值进行访问。其中有以下五个层次的数据结构，它们都以类的形式定义ilsj: v s ( v id eo s es s ion):视频场景，它位于数据结构层次的最高层，包含其它三个类，一个完整的视频序列可以由几个v s 组成。它对应于一段完整的视频场景，可以包括任何二维或三维、自然或合成对象以及它们的增强层，一个v s 包括了一个或多个v o ; v o ( vid eoo bj ect): 视频对象，它是场景中的某个对象，可以是任意形状的对象，也可以是个矩形帧。它是有生命期的，由时间上连续的许多帧构成; v o l ( vid eoo bj ectl a y e r ): 视频对象层， v o 的三种属性信息编码于这个类中，这个类的引入主要用来扩展v o 的时域或空域分辨率; v o g( 份。 upofvid eoo bj ectpl ane ): 视频对象平面组，是可选的数据结构，它可以提供对码流的随机访问点; v 0 p ( vid eoo bj ect pl an e) : 视频对象平面，它可以看作是v o 在某一时刻的抽样，即某一帧v o 。以上五个类的关系可以用图 2. 2 表示。 v 油 . 目0 坛 . 口5 叫晰伪(v5) vi . .】 0 封 “t (v0 ) v i . 囚0 封 . dl 卿er代o l ) o m 仰ofv o p g o 哟 v 该囚0 材 “它 p 】 a n 仪o p 】图2. 2 翻 p e o 礴视频编码器中的数据结构由图可见，每个v s( 即一段完整的视频序列)由一个或多个v o 构成，而每个 v o 可能有一个或多个v o l 层次，如基本层、增强层，每个层就是v o 的某一分辨率的表示。在每个层中，都有时间上连续的一系列v op。南京理工大学硕士学位论文墓于d s p 的mp e o 闷视频编码器研究与实现 2. 4 州 p e g 闷基于v o p的编码原理拟田 e g 礴编码器是针对任意形状的v o p进行的，v o p经过形状编码，运动编码和纹理编码后产生对应的形状信息、运动信息和纹理信息，复合器将三类信息复合成编码比特流。编码框图1z 1 如图2. 3 所示: 级理 1 画视频输入一锡熟犷薪对象分割图2. 3 m p e o 礴基于v o p 的编码原理框图上面的编码器主要包括两部分:v o p 形状编码和传统的运动和纹理编码部分。对于各个 v o p ，mp e g 礴和 m peg 一的编码是相似的。首先将 v o p从上到下，从左到右分成 16xl6 大小的宏块 m b( m a c r o b l ock ) ，具体的形状、运动和纹理编码仍然是基于mb进行的，一个m b的信息是形状+ 运动+ 纹理的总和。而在对宏块进行编码时，我们把一个宏块分成了4 个s xs 子块的亮度 ( y ) 分量， 2 个8 x8 块的色度分童 ( c b， c r ) ，从而进行编码，如图2. 4 是宏块的分割结构。 01 23 图2. 4基于宏块的编码 2. 4. 1 视频对象分割对自然场景，通常采用半自动或自动的方法分割视频对象，视频序列中的每一帧都采用同样的方法进行分割。视频序列的每一帧可分割为一些任意形状的图像区南京理工大学硕士学位论文墓于dsp 的m p e g 闷视烦编码招研究与实现域，即视频对象平面v o p 可以是任意形状的。一个v o p 可用纹理变量 ( 一系列亮度和色度值) 和形状描述来完全表示。每个v op的颜色、形状、运动及纹理信息都是独立地进行编码、存储和传输的。v o p 标识以及多个v o p 在接收端如何重新组合为原始序列等相关信息也要传给解码器。有了这些相关信息，解码器不仅可以对己压缩的信息解压缩，而且还可以进行场景合成。因此在传送mp e g 礴视频编码码流的同时，必须把合成的附加信息传送到接收端，这种附加信息被称为 ai油a 通道。图 2. 5 是将一个场景分割成多个单独的v o p 的示意图，这个场景由两个对象 ( 一个人的头肩像和一个徽标)和背景组成.采用自动和半自动的方法将对象分割成 v o p ，和 v op: ，去掉了对象的背景被分割成 v 0 p 。 . 因此，这个分割后的视频序列中包括一系列的 v o p 。、 v o p ，和 v o p ， . 图2. 5视频分割示意图 2. 4. 2 形状信息编码相对于以前的压缩标准而言，m p e g 礴是第一次引入形状编码的压缩算法。形状信息的获得首先要对图像进行分析和分割，把各个代表不同内容的目标分割后再用形状表示。在mp e g 礴标准中，v o的形状信息有两类:二值形状信息和灰度形状信息，这两种信息都可以采用位图法( b itm即 ) 来表示。二值形状信息就是用。、 1 的方式来表示被编码的v o p的形状，0 表示非v o p 区域，1 表示v op 区域，它的编码采用基于运动补偿的技术，可以是无损或有损的;灰度形状信息则是在 0 255 之间取值，其中0 表示完全透明， 2 55表示完全不透明，它的编码采用基于块的运动补偿d c t方法 ( 同纹理编码相似)，属于有损编码。南京理工大学硕士学位论文荃于d s p 的州乎 d g 闷视倾编码器研究与实砚 2. 4 ) 运动信息编码 mp e g 礴采用运动估计和补偿技术来去除帧间的冗余，与其他标准的主要区别在于mp e g 碑采用的是v o p 结构，而不是基于块的技术。在m p e g 礴视频标准中，有三种基本v o p 形式: 帧内编码v o p(i v 0 p) 、帧间预测编码v o p(p. v o p) 和帧间双向预测编码v o p( b 一o p )模式，其中p . v o p 和b . v o p 编码时孺要根据该帧前面和后面的1 刃o p 或者p . v o p ，利用运动估计和运动补偿技术来实现。图2. 6 体现出了编码类型1 、p 、b 帧的结构。编码时，将v o p 窗分割为16x1 6 的宏块或8 x 8 的块，它可以基于宏块也可以基于块进行。如果一个宏块完全位于一个v o p 内，就采用一般的基于16x1 6 象素宏块或是8 x 8 象素块运动估计，运动矢量以半精度进行运算卜如果一个宏块只有部分位于v o p 内，就采用修正的块匹配技术估计运动矢童当参考块位于v o p 边界上时，采用重复填充技术给位于v op边界外的象素指定值，然后运用填充后的象素值估计运动矢量。这样在v op边界上搜索预测所需的候选象素时就有了更多的选择，从而提高了效率对于完全在v op外，但在边框内的宏块，不做运动补偿 b l l p 图2. 6 i p b帧结构 2. 4. 4 纹理信息编码 v o p 的纹理信息包含在视频信号的亮度分量y 和两个色度分量u 和v 中.对于 1 一o p ，纹理信息直接包含在亮度和色度分量中，而对于运动补偿后的v op，纹理信息包含在运动补偿后的残差中。为了达到简单、高性能、容错性好的目的，仍采用基于分块的纹理编码，v o p 的边框仍被分为16xl6的宏块。图2. 7 说明了 mp e g -4 南京理工大学硕士学位论文甚于d s p 的翻 e g 闷视频偏妈器研究与实现纹理编码的原理: 图1 7 v 0 甲纹理编码过程编码方法上基本仍采用基于8 丫 8 象素块的d c t 变换。在帧内编码模式中，对于完全位于v o p 内的象素块，则采用经典的d c t 方法;对于完全位于v o p 之外的象素块则不进行编码:对于部分在v o p 内，部分在v o p 外的象素块则首先采用图像填充技术来获取v o p 之外的象素值，之后再进行d c t 编码。帧内编码模式中还将对d c t 变换的d c 及a c 因子进行有效的预测。在帧间编码模式中，为了对b . v o p 和p-v o p 运动补偿后的预测误差进行编码，可将那些位于v o p 活动区域之外的象素值设为 1 28。此外，还可采用 s a d c t (s h ape. 翻叩 t ived c t ) 方法对v o p 内的象素进行编码，该方法可在相同码率下获得较高的编码质量，但运算的复杂度稍高. 变换后的d c t 系数还要经过量化、扫描、游程及霍夫曼嫡编码。量化有两种: 类似于h 2 63那样用一个量化参数对块内所有a c 系数，这个值可以根据要求质量和目标码率变化;或类似于m p e g . 2 那样使用量化矩阵，这些过程与现有标准基本相同。对d c t 系数的量化是关键的操作，因为量化器结合行程编码可使大部分数据得以压缩。在进一步编码之前，系数要通过扫描从二维数据转换成一维数据。通常用的扫描方式有 3 种: 21 9 户 za g 扫描、水平交替扫描和垂直交替扫描。 m p e g 礴视频编码标准规定了如何选择扫描方式，对于帧内宏块，如果没有进行a c 系数预测，则使用 2 1 9 . 劝 9 扫描: 如果预测了 a c 系数，且是水平预测方式，则进行垂直交替扫描，反之采用了垂直预测方式，则进行水平交替扫描。对于帧间宏块，采用 zi g- zag扫描. 对纹理编码的最后一步是可变长编码，编码数据不同，要使用不同的v l c 表。经过v l c 编码，响。可以进一步提高d c t 固有的压缩性和减少运动信息对整个位率的影南京理工大学硕士学位论文基于o s p 的州田 e g 目 4 视频编码器研究与实现 2. 5 州 tp e g 闷的框架和级 m p e g 4 是一个非常庞大的系统，要完全实现是一项非常巨大的工程。 m p e g 4 提供了大量的工具对视频对象编码，为了有效地推进mp e g 礴的发展，针对不同的应用需求，定义了一些拟 j e g 礴系统、视频、音频的子集。这些子集称为框架( p r o 灯 1 曰每一个框架中又定义了多个级 ( l 总 v e l )，用来限制计算的复杂度。具有很大的灵活性，在实际中m p e g 并视频标准应用最多的是对完整的矩形视频帧的编码。编码矩形 v o p 用到的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf

文档简介

温馨提示

最新文档

评论

（通信与信息系统专业论文）基于dsp的mpeg4视频编码器研究与实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档