MPEG-4编码技术的研究与仿真毕业设计.doc

上传人：带*** IP属地：江西上传时间：2020-04-12 格式：DOC 页数：47 大小：919.50KB 积分：20 举报 版权申诉

免费预览已结束，剩余42页可下载查看

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

MPEG 4 编码技术的研究与仿真毕毕业业设设计论计论文文任务与要求任务与要求本课题的任务是研究现有的 MPEG 4 编码技术利用 Matlab 对算法做相应得仿真本课题要求学生首先熟悉 Matlab 仿真工具理解并掌握 MPEG 4 编码系统的工作原理在此基础上研究 MPEG 4 的编码技术并利用 Matlab 对基于内容的编码算法进行仿真要求优化 Matlab 仿真程序探讨 MPEG 4 编码技术的新特点及优势 1 本课题所涉及的问题及应用现状综述本课题所涉及的问题是 MPEG 4 编码系统的工作原理及主要技术并且会用 Matlab 仿真工具对 MPEG 4 基于内容的编码算法进行相应的仿真 MPEG 4 标准将广泛运用于数字电视动态图像万维网 www 实时多媒体监控基于内容存储和检索的多媒体系统互联网上的视频流与可视游戏基于面部表情模拟的虚拟会议 DVD 上的交互多媒体应用基于计算机网络的可视化合作实验室场景应用演播电视等它将推动电信计算机广播电视三大网络的最终融合从而成为今后一段时间压缩标准的主流 MPEG4 的应用前景将是非常广阔的它的出现将对以下各方面产生较大的推动作用数字电视动态图象万维网 WWW 实时多媒体监控低比特率下的移动多媒体通信内容存储和检索多媒系统 Internet Intranet 上的视频流与可视游戏基于面部表情模拟的虚拟会议 DVD 上的交互多媒体应用基于计算机网络的可视化合作实验室场景应用演播电视等因应市场的需求我们将会看到更多更灵活的 MPEG 4 应用比如手机机顶盒电视的互动有线无线多媒体内容的传送节目制作与增值服务业的串联等等都将会是 MPEG 4 的贡献 2 本课题需要重点研究的关键问题解决的思路及实现预期目标的可行性分析本课题需要重点研究的关键问题就是通过对 Matlab 软件以及 MPEG 4 编码系统的工作原理及主要技术的研究提出利用 Matlab 软件进行基于内容的编码算法仿真的一般性方法用 Matlab 能够准确的分析 MPEG 4 基于内容的编码算法同时 MPEG 4 基于内容的编码算法又具有较为复杂的特性因此必须解决好关于 Matlab 软件的学习使用以及对 MPEG 4 编码系统的工作原理及主要技术掌握这一关键问题进而完成本课题本课题要求熟悉 MPEG 4 编码系统的工作原理及主要技术理解并掌握 MPEG 4 基于内容的编码算法同时对 Matlab 仿真软件进行开发通过相关的书籍及 Matlab 的联机帮助学习掌握 Matlab 的仿真机制熟练使用 Matlab 在此基础上对 MPEG 4 基于内容的编码算法进行仿真课题研究的可行性分析对于 Matlab 软件以及 MPEG 4 基于内容的编码算法的了解都有可参考的书籍和资料最后仿真的实际操作及分析也可在计算机上完成通过研究 MPEG 4 编码技术运用扎实的通信基础知识独立思考努力接受新知识培养一定的动手能力用 Matlab 仿真工具对基于内容的编码算法进行相应的仿真实现预期目标说明本报告必须由承担毕业论文设计课题任务的学生在毕业论文设计正式开始的第 1 周周五之前独立撰写完成并交指导教师审阅西西安安邮邮电电学学院院毕毕业业设设计计论论文文成成绩绩评评定定表表学生姓名骞尧性别男学号24 专业班级通工通工 0205 附件 14 课题名称MPEG 4 编码技术的研究与仿真课题类型理论研究难度较难毕业设计论文时间 2006 年年 3 月月 20 日日 6 月月 25 日日共共 1414 周周指导教师杨武军杨武军职称副教授课题任务完成情况论文千字设计计算说明书千字图纸张其它含附件指导教师意见说明成绩评定参照本科毕业设计论文评分标准分项得分开题调研论证分课题质量论文内容分创新分论文撰写规范分学习态度分外文翻译分指导教师审阅成绩指导教师签字年月日评阅教师意见说明成绩评定参照本科毕业设计论文评分标准分项得分选题分开题调研论证分课题质量论文内容分创新分论文撰写规范分外文翻译分评阅成绩评阅教师签字年月日验收小组意见说明成绩评定参照本科毕业设计论文评分标准分项得分准备情况分毕业设计论文质量分操作回答问题分验收成绩验收教师组长签字年月日答辩小组意见说明成绩评定参照本科毕业设计论文评分标准分项得分准备情况分陈述情况分回答问题分仪表分答辩成绩答辩小组组长签字年月日成绩计算方法填写本系实用比例指导教师成绩指导教师成绩评阅成绩评阅成绩验收成绩验收成绩答辩成绩答辩成绩学生实得成绩百分制指导教师成绩指导教师成绩评阅成绩评阅成绩验收成绩验收成绩答辩成绩答辩成绩总评总评答辩委员会意见毕业论文设计总评成绩等级系答辩委员会主任签字系签章年月日备注西安邮电学院毕业论文设计成绩评定表续表目目录录摘要 2 ABSTRACT 3 引言 4 第一章 MPEG 4 标准简介 5 1 1 概述 5 1 2 MPEG 4 与 MPEG 1 MPEG 2 的比较 6 1 3 MPEG 4 标准的特点及优势 7 1 3 1 基于内容的交互性 7 1 3 2 高效的压缩性 7 1 3 3 通用的访问性 8 1 3 4 灵活的可扩展性 8 1 4 MPEG 4 的框架和级别 8 1 5 MPEG 4 的主要技术 9 1 5 1 多媒体传输集成框架 DMIF 9 1 5 2 语法描述 9 1 5 3 音频对象编码 9 1 5 4 视频对象编码 10 1 5 5 场景描述及其它 12 第二章基于 MPEG 4 的数字视频编码 13 2 1 MPEG 4 视频编码中的数据结构类 13 2 2 MPEG 4 视频编码的关键技术 13 2 2 1 视频对象提取技术 14 2 2 2 VOP 视频编码技术 15 2 2 3 视频编码可分级性技术 16 2 2 4 运动估计与运动补偿技术 17 2 3 MPEG 4 视频编码原理 19 2 3 1 形状编码 19 2 3 2 运动信息编码 22 2 3 3 纹理编码 23 2 3 4 容错和纠错 26 2 3 5 可扩展性编码 26 2 4 基于 MPEG 4 数字视频编码的实现模型 27 第三章基于 MPEG 4 编码的软件仿真 29 3 1 DCT 编码概述 29 3 2 用 MATLAB 实现 DCT 变换用于图像压缩 31 第四章 MPEG 4 的应用前景 33 4 1 虚拟演播室 33 4 2 视频编辑 34 4 3 视频电话会议 34 4 4 电视购物 35 4 5 交互式多媒体业务 35 4 6 基于 MPEG 4 的 VOD 业务 36 结论 37 致谢 38 参考文献 39 附录 40 摘要 21 世纪的人类社会是信息化的社会就通信内容来说它己不局限于简单的语音文字信息更进一步地将图像视频信息亦纳入其中数字化后的信息尤其是视频和音频信息具有数据海量性它们给存储和传输造成较大的困难 MPEG 4 是商业界最重要最有影响的多媒体数据压缩编码国际标准之一它的全称为音频和视觉对象的通用编码它定义了音频视频等多媒体数据语法结构和解码过程互联网上的传输以及人与媒体交互的一整套框架覆盖了多媒体的绝大部分应用领域它的基于对象思想使其具有高压缩比灵活性好可扩展性和可交互性强等优点 MPEG 4 是最重要的多媒体数据压缩编解码国际标准之一在工业控制国防建设和家庭娱乐等领域有广阔的应用前景本文首先对 MPEG 4 数字视频标准的基本原理和实现算法进行了深入的研究分析了 MPEG 4 与 MPEG 1 MPEG 2 的主要区别探讨了 MPEG 4 编码技术的新特点及优势并展望了 MPEG 4 的应用前景然后改进了传统的运动估计算法实现了一个基于 MPEG 4 视频压缩标准的实验模型用 MATLAB 仿真工具进行了相应的软件仿真关键词 MPEG 4 数字视频视频编码 ABSTRACT With the development of information technology in 21st century the communication contents do not only have simple aural and literal information and people also hope to be provided indubitable intuitionistic and effective visual information But the digital video and audio is too huge to store and transmit it As one of the multimedia compression and coding standards MPEG 4 plays an important role in multimedia field MPEG 4 standard is officially called the general coding of audio and video objects MPEG 4 defines a set of frameworks including syntax and decoding of multimedia dada transmission on Internet and interaction between human and media Due to its object based idea it has the virtues of high compression ratio scalability interactivity with users and so on For this reason it is applied in many fields such as mobile wireless communication MPEG4 is one of the most significant mufti medium compressions of data coding and decoding international standard there is the wide application foreground in the territorys such as the industry control and building up of national defense and household amuse and so on MPEG 4 is one of the most significant mufti medium compressions of data coding international standard there is the wide application foreground in the territorys such as the industry control and building up of national defense and household amuse and so on First of all this article has deeply researched the theory and the realization algorithm for digital video based on the MPEG 4 Analyze the main difference between MPEG 4 and MPEG 1 MPEG 2 Explore the new characteristic and advantage of MPEG 4 encoding technology And prospects application future of MPEG 4 Afterwards the motion estimation algorithm has been improved and the experimental pattern based on MPEG 4 has been achieved the software emulation has been implemented by MATLAB Key Words MPEG 4 digital video video coding 引言近年来随着生产力和经济的快速发展人们的社会生活发生了许多改变人们之间的流动性增加迫切需要打破地域对交流设置的樊篱为了适应这种变化各家厂商不仅在大力开发各种通信设备和通信器材而且对通信内容进行了扩充使其不再局限于简单的语音文字信息提供确切直观高效的图像视频信息已成为电信运营商的一个重要追求然而图像视频信号经过数字化处理之后形成的数据量非常庞大如此庞大的数据量不仅存储开销很大而且在传输中使得通讯设备的负荷量很重甚至承受不了采用压缩技术可以把这些数据压缩几倍几十倍甚至几百倍因此研究如何去除冗余数据高效地表示图像进行数据压缩具有重大的实用价值数字图像压缩技术己成为目前国内外的研究热点之一为了保证不同厂商设备和产品之间的可交换性国际标准化协会 International Standardization Organization ISO 国际电子学委员会 International Electronics Committee IEC 国际电信协会 International Telecommunication Union ITU 等国际组织于 90 年代领导制定了许多重要的多媒体数据压缩标准从 H 261 MPEG 1 H 263 到 MPEG 2 再到现在的 MPEG 4 MPEG 7 MPEG 21 H 264 标准越来越成熟覆盖的应用领域愈来愈广泛尤其是 MPEG 4 和 H 263 等面向低码率高质量的标准对于实时视频传输处理有着非常重要的意义同时通信技术也在飞速发展各种宽带网络的出现使得实时视频传输成为可能目前在商业界发展最迅速影响最大技术较成熟的多媒体数据压缩编码国际标准是 MPEG 4 它的全称为音频和视觉对象的通用编码是伴随着互联网而产生和发展起来的它定义了音频视频等多媒体数据的码流语法和解码过程互联网上的传输以及人与媒体交互的一整套框架覆盖了多媒体的绝大部分应用领域它的基于对象思想使其具有高压缩比灵活性好可扩展性和可交互性强等优点 MPEG 4 正在蓬勃发展及时了解和跟踪它的发展动向掌握其核心技术结合实际应用是一项很有意义的事情本课题的理论依据是 MPEG 4 视频编码原理实验基础的硬件环境是微机环境软件环境为 WindowsXP 操作系统平台 MATLAB 程序开发环境本课题的意义在于研究改进了 MPEG 4 视频压缩标准的实验模型掌握了视频压缩编码的核心技术为 MPEG 4 在通信设备上的实际应用和开发奠定了基础第一章 MPEG 4 标准简介 1 1 概述近年来多媒体技术飞速发展在社会生活的许多领域得到了广泛的应用人们对网络信息的多样化提出了更高的要求表现在媒体质量媒体交互能力方面尤为突出原有的 MPEG 1 2 由于一些局限已经不能适应发展的需要为了适应数字视频技术的发展有必要组织制定新的数字视频编码标准 MPEG 4 就是在这种背景下应运而生的它是伴随着互联网的产生而发展起来的 ISO 的 MPEG 4 标准的第一版于 1999 年 1 月正式公布标准的第二版于 1999 年 12 月公布 MPEG 4 的初衷是针对视频会议视频电话的超低比特率编码但在调查过程中发现高能通用芯片性价比的提高使得基于软件平台的压缩编码方法具有实用可能人们对视频信息的应用要求由播放型转向基于内容的访问操作型这使得 MPEG 组织不得不修改计划针对应用定义一种新编码概念基于内容的压缩编码方法将基于内容的检索与编码结合起来考虑在压缩数据中加入描述视频内容的信息从而使对多媒体信息的内容的访问可以直接针对压缩数据进行这种新的编码方法最大好处之一是可以基于通用芯片打破了基于专业硬件的限制且还可以加入新的有效的算法模块甚至涉及到图像分析的较复杂算法这对于以前基于专用硬件的压缩编码方法是不可想象的较之 MPEG 前两个图像压缩标准而言 MPEG 4 为多媒体数据压缩提供了一个更为广阔的平台它更多定义的是一种格式和框架而不是具体的算法 MPEG 4 定义了多媒体编码和解码网络传输以及人与媒体交互的一整套框架涵盖了多媒体的绝大部分应用领域从结构上看 MPEG 4 标准分为十个部分系统层视频音频 DMIF 一致性测试参考软件优化的视频编码参考软件用 IP 网络承载 MPEG 4 内容参考硬件描述和高级视频编码前四个模块为 MPEG 4 的核心模块从层次上来讲可划分成三个层次压缩层同步层传输层压缩层对应视频音频核心部分对传输部分是不可知的 MPEG 4 要实现的目标有 1 再现被称为媒体目标的听觉视觉或视听内容单元这些媒体目标可以是自然的或人造的 2 能够把音效视觉自然合成的对象组合成音频视频场景且能允许单独对这些对象进行访问控制和重用 3 切换和同步媒体目标的数据以便它们能在网络通道上传送提供适合特定媒体目标的 QoS 4 在接收端产生交互的视听景物满足多种业务的需要 MPEG 4 被称为面向对象的编码技术它基于对象的编码思想使其具有高压缩比可扩展性可交互性等许多优点在网络视频通信中具有广阔的应用前景其传输速率要求较低可用于传输速率低于 64kb s 的实时图像最高分辨率为 768 X 576 MPEG 4 利用很窄的带宽通过帧重建技术压缩和传输数据以最少的数据获得最佳的图像质量 MPEG 4 采用了包括小波变换等多种变换可以获得更小的硬盘空间占用更高的清晰度基于 MPEG 4 的技术正在蓬勃发展代表着未来多媒体数据压缩编码的发展趋势及时跟踪和了解 MPEG 4 的发展动态掌握其核心技术并结合实际应用在某些关键方向上有所创新和发展是一项很有意义的工作 1 2 MPEG 4 与 MPEG 1 MPEG 2 的比较解决视频音频数字化后数据量大与数字存储媒体和通信网容量小的矛盾的主要途径之一就是压缩为此国际标准化组织先后于 1993 年和 1995 年制定了视频音频编码的国际标准 MPEG 1 和 MPEG 2 MPEG 1 MPEG 2 都是采用第一代压缩编码技术着眼于图像信号的统计特性来设计编码器属于波形编码的范畴第一代压缩编码方案把视频序列按时间先后分为一系列帧每一帧图像又分成宏块以进行运动补偿和编码这种编码存在以下缺陷 1 将图像固定地分成相同大小的块在高压缩比的情况下会出现严重的块效应即马赛克效应 2 不能对图像内容进行访问编辑和回放等操作 3 不能充分利用人类视觉系统 HVS Huaman Visual System 的特性 MPEG 4 在 MPEG 2 基础上作了很大的扩充主要目标是多媒体应用 MPEG 4 标准与 MPEG 1 和 MPEG 2 标准最根本的区别在于 MPEG 4 是基于内容的压缩编码方法它突破了过去 MPEG 1 和 MPEG 2 以矩形或方形块处理图像的方法这些方法将整帧图分割成固定尺寸固定开头的子块进行处理而 MPEG 4 是对一幅图像按内容切分块即在编码时将一幅景物分成若干在时间和空间上相互联系的视频音频对象分别编码后再经过复用传输到接收端然后对不同的对象分别解码从而组合成所需要的视频和音频这样既方便对不同的对象采用不同的编码方法和表示方法利用不同数据类型间的融合并且可方便地实现对于各种对象的操作及编辑 1 3 MPEG 4 标准的特点及优势 MPEG 4 与 MPEG 1 和 MPEG 2 相比在交互性抗误码性和高效压缩上都有巨大的优势 1 3 1 基于内容的交互性基于内容功能的核心是支持对独立内容即某场景中的物理对象的编解码它把一个视听场景定义成了一系列可再现的视听对象这些视听对象在时间和空间上具有某些相关联的成分对场景中的各个对象分别进行编码是一种很有效的编码方法可实现同场景中有意义的对象的交互这是对今天模拟和数字系统中具有交互功能的视频播放器的很好的扩展例如它允许信息和场景中的运动对象相连接可将资源定位器 URL 关联上场景中的足球运动员当用户在足球运动员上点击鼠标时即可启动 URL 从而得到关于这个运动员的详细信息传统的基于帧的视频系统要实现上述功能十分困难除非这个人是固定的预先定义好位置又如在一个大型的交响音乐会的现场转播中发现了一陌生的乐器它奏出的旋律被其他乐器的声音所淹没通过对音频对象的操纵可以让这场大型交响音乐会变成这个陌生乐器的独奏音乐会从而好好欣赏它的音色一但单独访问或存储对象成为可能就可很容易地实现数据的再利用根据个人意愿随意合成各种场景 MPEG 4 标准的 SNHC 部分允许不同来源的视音频对象集成到一起各种对象可以自然的也可以是人工的还可以是图片或文字内容视音频对象可以是平面的或二维立体的用户在编辑某一多媒体图像时可以从不同的数据库中获取素材进行加工合成生成自己的场景 1 3 2 良好的鲁棒性 MPEG 4 具有出色的压缩效率它基于对象进行形状分割把描述运动或变化的区域进一步缩小并把空间和时间上处理的冗余范围进一步扩大编码时只针对有用的信息而去除冗余所以显著地提高了压缩效率 MPEG 4 的压缩倍数高达 100 倍可以用最少的数据获得最佳的图像质量因此满足了低码率的应用要求 MPEG 4 出色的压缩效率在解决存储容量上具有明显的优势采用 MPEG 4 的视音频同步录像所需的硬盘空间约为相同质量的 MPEG 1 所需空间的 1 10 MPEG 4 因能根据场景变化自动调整压缩方法对静止图像一般运动场景剧烈活动场景均能保证图像质量 1 3 3 通用的访问性 MPEG 4 提供了易出错环境的鲁棒性来保证其在许多无线和有线网络以及存储介质中的应用在纠错能力上当网络进行传输有误码或丢包现象时 MPEG 4 受到的影响很小并且能够很快恢复例如在误码达到 1 时 MPEG 1 己无法播放而 MPEG 4 只会有轻微的边缘模糊又如当网络传输出现瞬间丢包现象时 MPEG 1 恢复至少需要 10 多 s 而 MPEG 4 只需 1 3 s 此外 MPEG 4 还支持基于内容的可分级性即把内容质量复杂性分成许多小块来满足不同用户的不同需求支持具有不同带宽不同存储容量的传输信道和接收端 1 3 4 灵活的可扩展性可根据现场带宽和误码率的客观条件在时域和空域进行扩展时域扩展是在带宽允许时在基本层上的增强层中增加帧率在带宽窄时在基本层中减少帧率空域扩展是指对基本层中的图像进行插值增加或减少空间分辨率以达到充分利用带宽使图像质量更好 1 4 MPEG 4 的框架和级别 MPEG 4 提供了大量的丰富的音视频对象的编码工具能够满足各种各样的应用需要对于某一特定的应用只有一部分系统视频和音频的编码工具被采用框架 Profile 就是针对特定的应用确定要采用的编码工具它是 MPEG 4 提供的工具集的一个子集每一个框架又有一个或多个级别 Level 来限制计算的复杂度 MPEG 4 共有 4 类框架视频框架音频框架图形框架和场景描述框架其中视频框架又包括 5 个级别如下 1 Simple Visual Profile 提供矩形视频对象高效有容错能力的编码功能适合用于移动网络 2 Simple Sealable Visual Profile 在 Simple Visual Profile 基础上增加了对象时域和空域扩展编码功能应用于提供多级服务质量的应用如 Internet 和软件解码 3 Core Visual Profile 在 Simple Visual Profile 基础上增加了任意形状对象编码和时域扩展编码功能适用于相对简单的内容交互应用如 Internet 多媒体应用 4 Main Visual Profile 在 Core Profile 基础上增加了 Sprite 对象编码功能适用于交互和娱乐质量广播和 DVD 应用等 5 N Bit Visual Profile 在 Core Profile 基础上增加了具有不同像素深度视频对象编码功能适于监控应用 1 5 MPEG 4 的主要技术 1 5 1 多媒体传输集成框架 DMIF DMIF Delivery Multimedia Integration Framework 主要解决交互网络中广播环境下以及磁盘中多媒体应用的操作问题通过传输多路合成比特信息建立客户端和服务器端的握手和传输传输接口层在 MPEG 4 中使用 DMIF 传输基本流面向应用将网络实现的细节包装 DMIF 使用服务和会话的概念通过信道处理媒体基本流对信道的处理是由 DMIF 所产生的信道标识器决定的即告诉用户在哪里能得到所需的信息使用复接器将几路同步的基本流通过一个信道进行传输因此 MPEG 4 系统处理媒体流而 DMIF 处理传输它不需要知道媒体流的特性对客户与服务器之间的控制是通过 DMIF 应用接口 DAI 实际上 DMIF 相当于 OSI 的会话层的功能 DAI 表示会话服务存取点传输接口层对媒体不透明而对传输是透明的 1 5 2 语法描述 MPEG 4 定义了一个句法描述语言来描述 AV 对象比特流表示和场景描述信息这个句法描述语言是对 C 的扩展不仅易于表达其 AV 对象特性而且也易于软件仿真实现与模型验证与 MPEG 4 相比 MPEG 1 和 MPEG 2 则采用一种类 C 语言的描述 MPEG 4 描述语言反映了面向对象技术来描述对象 1 5 3 音频对象编码视频音频的压缩编码自然仍是 MPEG 4 的核心所在不过与以前的 MPEG l MPEG 2 不同的是 MPEG 4 不仅支持自然的声音如语音和音乐而且支持基于描述语言的合成声音如 MIDI 之类而且支持音频的对象特征即一个场景中同时有人声和背景音乐它们也许是独立编码的音频对象 a 自然声音编码 MPEG 4 研究比较了现有的各种音频编码算法支持 2 64 K 的自然声音编码如 8 KHz 采样频率的 2 4Kbps 的语音编码以及 8 KHz 或 16 KHz 采样频率 4 16 Kbps 的音频编码一般采用参数编码 6 24 Kbps 的语音编码一般采用码激励线性预测 CELP Code Excited Linear Predicitive 编码技术 16 Kbps 以上码率的编码则可采用时频 T F 变换编码技术这些技术实质上借鉴了己有的音频编码标准如 G 723 G 728 以及 MPEG I 和 MPEG 2 等图 1 1 是 MPEG 4 的可伸缩自然音频编码器示意图包括三种编码技术图 1 1 通用 MPEG 4 音频编码方框图 b 合成声音在合成声音编码当中 MPEG 4 引入了两个极有吸引力的编码技术文本到语音 Text to Speech 编码和乐谱驱动合成编码技术这为网络上低比特率下交互的带有语音的游戏铺平了道路事实上合成声音编码技术即是一种基于知识库的参数编码特别值得一提的是 MPEG 4 的乐谱驱动合成技术在该技术中解码器是由一种特殊的合成语言结构化的音频管弦乐团语言 SAOL Structured Audio Orchestra Language 驱动的其中的管弦乐团是由不同的乐器组成的当解码器不具有某一乐器时 MPEG 4 还允许解码器从编码器下载 Download 该乐器到解码器以便正确恢复合成声音可见 MPEG 4 不是提供一组角 MIDI 音乐标准中的乐器而是提供了一个可随时扩充的管弦乐团因此其可演奏乐谱自然更加丰富多彩 1 5 4 视频对象编码同样 MPEG 4 也支持对自然和合成的视频对象编码合成的视频对象如 2D 3D 动画人的面部表情动画等这些合成图像单独编码不仅可有效压缩而且还便于操作对自然视频对象的编码也是 MPEG 4 的重点比对于静止图像 MPEG 4 采用零树小波算法 Zerotree Wavelet algorithm 以提供高压缩比同时还提供多达 11 级的空间分辨率和质量的可伸缩性对于运动视频对象的编码 MPEG 4 采用了如图 1 2 所示的编码框图以支持图像的编码图 1 2 MPEG 4 视频编码方块图可见 MPEG 4 为了支持基于对象的编码引入了形状编码模块为了支持高效压缩 MPEG 4 仍然采用了 MPEG l MPEG 2 中的变换预测混合编码框架对于一般的任意形状的视频对象 MPEG 4 编码后的码流结构见图 1 3 图 1 3 通用 MPEG 4 视频编码对于实时的极低比特率的应用如可视电话 MPEG 4 视频编码采用 VLB V 极低比特率视频核进行编码类似于 ITU 的 H 263 直接对矩形视频编码而不采用形状编码模块因而编码后的码流结构见图 1 4 图 1 4 类 H 263 的 VLBV 核编码可见 MPEG 4 采取了向前兼容 H 263 同时也提供了一些高层特性如基于内容的编码其扩充的方式如图 1 5 与此同时 MPEG 4 还支持有误码信道传输下的健壮性提供了更好的同步和误码恢复机制图 1 5 MPEG 4 的视频功能扩充 1 5 5 场景描述及其它场景描述主要用于描述以上单个的 AV 对象如何在一具体 AV 场景座标下的组织与同步等问题同时还有 AV 对象和 AV 场景的知识产权保护等问题最后就是我们如何欣赏 MPEG 4 为我们提供的丰富多彩的 AV 场景了第二章基于 MPEG 4 的数字视频编码 2 1 MPEG 4 视频编码中的数据结构类 MPEG 4 中有以下四个层次的数据结构它们都以类的形式定义 VS Video Session 视频场景它位于数据结构层次的最高层一个完整的视频序列可以由几个 VS 组成 VO Video Object 视频对象它是场景中的某个物体最简单的情况下就是矩形框它是有生命期的由时间上连续的许多帧构成 VOL Video Object Layer 视频对象层 VO 的三种属性信息编码于这个类中这个类的引入主要用来扩展 VO 的时域或空域分辨率实现分层编码 VOP Video Object Plane 视频对象平面它可以看作是 VO 在某一时刻的采样即某一帧 VO 以上几个类的关系可以用图 2 1 表示图 2 1 MPEG 4 数据结构示意图 2 2 MPEG 4 视频编码的关键技术 MPEG 4 除采用第一代视频编码的核心技术如变换编码运动估计与运动补偿量化熵编码外还提出了一些新的有创见性的关键技术并在第一代视频编码技术基础上进行了卓有成效的完善和改进下面重点介绍其中的一些关键技术 2 2 1 视频对象提取技术 MPEG 4 实现基于内容交互的首要任务就是把视频图像分割成不同对象或者把运动对象从背景中分离出来然后针对不同对象采用相应编码方法以实现高效压缩因此视频对象提取即视频对象分割是 MPEG 4 视频编码的关键技术也是新一代视频编码的研究热点和难点视频对象分割涉及对视频内容的分析和理解这与人工智能图像理解模式识别和神经网络等学科有密切联系目前人工智能的发展还不够完善计算机还不具有观察识别理解图像的能力同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解因此尽管 MPEG 4 框架已经制定但至今仍没有通用的有效方法去根本解决视频对象分割问题视频对象分割被认为是一个具有挑战性的难题基于语义的分割则更加困难目前进行视频对象分割的一般步骤是先对原始视频图像数据进行简化以利于分割这可通过低通滤波中值滤波形态滤波来完成然后对视频图像数据进行特征提取可以是颜色纹理运动帧差位移帧差乃至语义等特征再基于某种均匀性标准来确定分割决策根据所提取特征将视频数据归类最后是进行相关后处理以实现滤除噪声及准确提取边界图 2 2 是一种典型的视频运动对象分割系统框架图 2 2 一种典型的视频运动对象分割系统框架在视频分割中基于数学形态理论的分水岭 Watershed 算法被广泛使用它又称水线算法其基本过程是连续腐浊二值图像由图像简化标记提取决策后处理四个阶段构成分水岭算法具有运算简单性能优良能够较好提取运动对象轮廓准确得到运动物体边缘的优点但分割时需要梯度信息对噪声较敏感且未利用帧间信息通常会产生图像过度分割 2 2 2 VOP 视频编码技术视频对象平面 VOP Video Object Plane 是视频对象 VO 在某一时刻的采样 VOP 是 MPEG 4 视频编码的核心概念 MPEG 4 在编码过程中针对不同 VO 采用不同的编码策略即对前景 VO 的压缩编码尽可能保留细节和平滑对背景 VO 则采用高压缩率的编码策略甚至不予传输而在解码端由其他背景拼接而成这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应而且使用户可与场景交互从而既提高了压缩比又实现了基于内容的交互为视频编码提供了广阔的发展空间 VOP 视频编码主要包括形状编码运动信息编码和纹理编码其简化原理图如图 2 3 所示图 2 3 MPEG 4 中 VOP 视频编码简化原理图 MPEG 4 支持任意形状图像与视频的编解码对于任意形状视频对象 MPEG 4 编码后的码流结构如图 2 4 所示对于极低比特率实时应用如可视电话会议电视 MPEG 4 则采用 VLBV Very Low Bit rate Video 极低比特率视频进行编码其编码后的码流结构如图 2 5 所示图 2 4 MPEG 4 通用编码器图 2 5 MPEG 4 基本编码器传统的矩形图在 MPEG 4 中被看作是 VO 的一种特例这正体现了传统编码与基于内容编码在 MPEG 4 中的统一 VO 概念的引入更加符合人脑对视觉信息的处理方式并使视频信号的处理方式从数字化进展到智能化从而提高了视频信号的交互性和灵活性使得更广泛的视频应用及更多的内容交互成为可能因此 VOP 视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探索 2 2 3 视频编码可分级性技术随着因特网业务的巨大增长在速率起伏很大的 IP Internet Protocol 网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多在这种背景下视频分级编码的重要性日益突出其应用非常广泛且具有很高的理论研究及实际应用价值因此受到人们的极大关注视频编码的可分级性 Scalability 是指码率的可调整性即视频数据只压缩一次却能以多个帧率空间分辨率或视频质量进行解码从而可支持多种类型用户的各种不同应用要求 MPEG 4 通过视频对象层 VOL Video Object Layer 数据结构来实现分级编码 MPEG 4 提供了两种基本分级工具即时域分级 Temporal Scalability 和空域分级 Spatial Scalability 此外还支持时域和空域的混合分级每一种分级编码都至少有两层 VOL 低层称为基本层高层称为增强层基本层提供了视频序列的基本信息增强层提供了视频序列更高的分辨率和细节 MPEG 4 通用可分级编解码框图如图 2 6 所示图 2 6 MPEG 4 通用可分级编解码框图在随后增补的视频流应用框架中 MPEG 4 提出了 FGS 精细可伸缩性 Fine Granularity Scalable 视频编码算法以及 PFGS 渐进精细可伸缩性 Progressive Fine Granularity Scalable 视频编码算法 FGS 编码实现简单可在编码速率显示分辨率内容解码复杂度等方面提供灵活的自适应和可扩展性且具有很强的带宽自适应能力和抗误码性能但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足 PFGS 则是为改善 FGS 编码效率而提出的视频编码算法其基本思想是在增强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿以使运动补偿更加有效从而提高编码效率 2 2 4 运动估计与运动补偿技术 MPEG 4 采用 I VOP P VOP B VOP 三种帧格式来表征不同的运动补偿类型它采用了 H 263 中的半像素搜索 Half Pixel Searching 技术和重叠运动补偿 Overlapped Motion Compensation 技术同时又引入重复填充 Repetitive Padding 技术和修改的块多边形匹配 Modified Block Polygon Matching 技术以支持任意形状的 VOP 区域此外为提高运动估计算法精度 MPEG 4 采用了 MVFAST Motion Vector Field Adaptive Search Technique 和改进的 PMVFAST Predictive MVFAST 方法用于运动估计对于全局运动估计则采用了基于特征的快速鲁棒的 FFRGMET Feature based Fast and Robust Global Motion Estimation Technique 方法在 MPEG 4 视频编码中运动估计相当耗时对编码的实时性影响很大因此这里特别强调快速算法运动估计方法主要有像素递归法和块匹配法两大类前者复杂度很高实际中应用较少后者则在 H 263 和 MPEG 中广泛采用在块匹配法中重点研究块匹配准则及搜索方法目前有三种常用的匹配准则 1 绝对误差和 SAD Sum of Absolute Difference 准则 2 均方误差 MSE Mean Square Error 准则 3 归一化互相关函数 NCCF Normalized Cross Correlation Function 准则在上述三种准则中 SAD 准则具有不需乘法运算实现简单方便的优点而使用最多但应清楚匹配准则的选用对匹配结果影响不大在选取匹配准则后就应进行寻找最优匹配点的搜索工作最简单最可靠的方法是全搜索法 FS Full Search 但计算量太大不便于实时实现因此快速搜索法应运而生主要有交叉搜索法二维对数法和钻石搜索法其中钻石搜索法被 MPEG 4 校验模型 VM Verificatioia Mode1 所采纳下面详细介绍钻石搜索 DS Diamond Search 法以搜索模板形状而得名具有简单鲁棒高效的特点是现有性能最优的快速搜索算法之一其基本思想是利用搜索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性在搜索最优匹配点时选择小的搜索模板可能会陷入局部最优选择大的搜索模板则可能无法找到最优点因此 DS 算法针对视频图像中运动矢量的基本规律选用了两种形状大小的搜索模板如图 2 7 所示 a 大钻石搜索模板 b 小钻石搜索模板图 2 7 钻石搜索模板 1 大钻石搜索模板 LDSP Large Diamond Search Pattern 包含 9 个候选位置 2 小钻石搜索模板 SDSP Small Diamond Search Pattern 包含 5 个候选位置 DS 算法搜索过程如下开始阶段先重复使用大钻石搜索模板直到最佳匹配块落在大钻石中心由于 LDSP 步长大因而搜索范围广可实现粗定位使搜索不会陷于局部最小当粗定位结束后可认为最优点就在 LDSP 周围 8 个点所围菱形区域中然后再使用小钻石搜索模板来实现最佳匹配块的准确定位以不产生较大起伏从而提高运动估计精度此外 Sprite 视频编码技术也在 MPEG 4 中应用广泛作为其核心技术之一 Sprite 又称镶嵌图或背景全景图是指一个视频对象在视频序列中所有出现部分经拼接而成的一幅图像利用 Sprite 可以直接重构该视频对象或对其进行预测补偿编码 Sprite 视频编码可视为一种更为先进的运动估计和补偿技术它能够克服基于固定分块的传统运动估计和补偿技术的不足 MPEG 4 正是采用了将传统分块编码技术与 Sprite 编码技术相结合的策略 2 3 MPEG 4 视频编码原理 MPEG 4 视频部分是 MPEG 4 标准的核心内容之一既提供传统的基于帧的编码方法又提供基于视频对象 VO 的编码方法在某一时刻视频对象以视频对象平面 VOP 的形式出现编码也主要针对该时刻视频对象的形状运动和纹理这三类信息来进行 2 3 1 形状编码 MPEG 4 同时支持二进制和灰度格式的形状信息形状信息又称为阿尔法 alpha 平面阿尔法平面的大小与其对应的 VOP 边界矩形相等二进制阿尔法平面中的点只能取 0 和 255 两个值而灰度阿尔法平面中的点则可以在 0 到 255 之间取任意整数值 0 表示对应的像素完全透明 255 表示对应的像素完全不透明灰度阿尔法平面实际上包含形状和透明度两种信息其中形状信息采用二进制阿尔法平面的编码算法透明度信息采用亮度信息的编码算法与传统的视频编码算法类似 MPEG 4 采用的形状编码算法也是基于块的算法也分为帧内和帧间两种编码块帧间块仍然采用基于块

人人文库> 全部分类> 应用文书 > 产品手册

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

MPEG-4编码技术的研究与仿真毕业设计.doc

文档简介

温馨提示

最新文档

评论

MPEG-4编码技术的研究与仿真毕业设计.doc

文档简介

温馨提示

最新文档

评论

相关文档