MPEG-4编码技术的研究与仿真毕业设计.doc_第1页
MPEG-4编码技术的研究与仿真毕业设计.doc_第2页
MPEG-4编码技术的研究与仿真毕业设计.doc_第3页
MPEG-4编码技术的研究与仿真毕业设计.doc_第4页
MPEG-4编码技术的研究与仿真毕业设计.doc_第5页
免费预览已结束,剩余42页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

MPEG 4 编码技术的研究与仿真 毕毕 业业 设设 计 论计 论 文 文 任务与要求 任务与要求 本课题的任务是研究现有的 MPEG 4 编码技术 利 用 Matlab 对算法做相应得仿真 本课题要求学生首先熟悉 Matlab 仿真工具 理解并掌握 MPEG 4 编码系统 的工作原理 在此基础上研究 MPEG 4 的编码技术 并利用 Matlab 对基于内容 的编码算法进行仿真 要求优化 Matlab 仿真程序 探讨 MPEG 4 编码技术的新 特点及优势 1 本课题所涉及的问题及应用现状综述 本课题所涉及的问题是 MPEG 4 编码系统的工作原理及主要技术 并且会用 Matlab 仿真工具对 MPEG 4 基于内容的编码算法进行相应的仿真 MPEG 4 标准 将广泛运用于数字电视 动态图像 万维网 www 实时多媒体监控 基于内 容存储和检索的多媒体系统 互联网上的视频流与可视游戏 基于面部表情模 拟的虚拟会议 DVD 上的交互多媒体应用 基于计算机网络的可视化合作实验 室场景应用 演播电视等 它将推动电信 计算机 广播电视三大网络的最终 融合 从而成为今后一段时间压缩标准的主流 MPEG4 的应用前景将是非常广 阔的 它的出现将对以下各方面产生较大的推动作用 数字电视 动态图象 万维网 WWW 实时多媒体监控 低比特率下的移动多媒体通信 内容存储和 检索多媒系统 Internet Intranet 上的视频流与可视游戏 基于面部表情模 拟的虚拟会议 DVD 上的交互多媒体应用 基于计算机网络的可视化合作实验 室场景应用 演播电视等 因应市场的需求 我们将会看到更多 更灵活的 MPEG 4 应用 比如手机 机顶盒 电视的互动 有线 无线多媒体内容的传 送 节目制作与增值服务业的串联等等 都将会是 MPEG 4 的贡献 2 本课题需要重点研究的关键问题 解决的思路及实现预期目标的 可行性分析 本课题需要重点研究的关键问题 就是通过对 Matlab 软件以及 MPEG 4 编 码系统的工作原理及主要技术的研究 提出利用 Matlab 软件进行基于内容的编 码算法仿真的一般性方法 用 Matlab 能够准确的分析 MPEG 4 基于内容的编码 算法 同时 MPEG 4 基于内容的编码算法又具有较为复杂的特性 因此必须解决 好关于 Matlab 软件的学习使用以及对 MPEG 4 编码系统的工作原理及主要技术 掌握这一关键问题 进而完成本课题 本课题要求熟悉 MPEG 4 编码系统的工作原理及主要技术 理解并掌握 MPEG 4 基于内容的编码算法 同时对 Matlab 仿真软件进行开发 通过相关的 书籍及 Matlab 的联机帮助学习掌握 Matlab 的仿真机制 熟练使用 Matlab 在 此基础上对 MPEG 4 基于内容的编码算法进行仿真 课题研究的可行性分析 对于 Matlab 软件以及 MPEG 4 基于内容的编码算 法的了解都有可参考的书籍和资料 最后仿真的实际操作及分析也可在计算机 上完成 通过研究 MPEG 4 编码技术 运用扎实的通信基础知识 独立思考 努 力接受新知识 培养一定的动手能力 用 Matlab 仿真工具对基于内容的编码算 法进行相应的仿真 实现预期目标 说明 本报告必须由承担毕业论文 设计 课题任务的学生在毕业论文 设计 正 式开始的第 1 周周五之前独立撰写完成 并交指导教师审阅 西西安安邮邮电电学学院院毕毕业业设设计计 论论文文 成成绩绩评评定定表表 学生姓名 骞尧 性别男学号24 专 业 班 级 通工通工 0205 附件 14 课题名称MPEG 4 编码技术的研究与仿真 课题 类型 理论 研究 难 度 较 难 毕业设计 论文 时 间 2006 年年 3 月月 20 日日 6 月月 25 日日 共共 1414 周周 指导教师 杨武军杨武军 职称 副教授 课题任务 完成情况 论文 千字 设计 计算说明书 千字 图纸 张 其它 含附件 指导教师意见 说明 成绩评定参照本科毕业设计 论文 评分标准 分项得分 开题调研论证 分 课题质量 论文内容 分 创新 分 论文撰写 规范 分 学习态度 分 外文翻译 分 指导教师审阅成绩 指导教师 签字 年 月 日 评 阅 教 师 意 见 说明 成绩评定参照本科毕业设计 论文 评分标准 分项得分 选题 分 开题调研论证 分 课题质量 论文内容 分 创新 分 论文撰写 规范 分 外文翻译 分 评阅成绩 评阅教师 签字 年 月 日 验 收 小 组 意 见 说明 成绩评定参照本科毕业设计 论文 评分标准 分项得分 准备情况 分 毕业设计 论文 质量 分 操作 回答问题 分 验收成绩 验收教师 组长 签字 年 月 日 答 辩 小 组 意 见 说明 成绩评定参照本科毕业设计 论文 评分标准 分项得分 准备情况 分 陈述情况 分 回答问题 分 仪表 分 答辩成绩 答辩小组组长 签字 年 月 日 成绩计算方法 填写本系实用比例 指导教师成绩指导教师成绩 评阅成绩评阅成绩 验收成绩验收成绩 答辩成绩答辩成绩 学生实得成绩 百分制 指导教师成绩指导教师成绩 评阅成绩评阅成绩 验收成绩验收成绩 答辩成绩答辩成绩 总评总评 答 辩 委 员 会 意 见 毕业论文 设计 总评成绩 等级 系答辩委员会主任 签字 系 签章 年 月 日 备 注 西安邮电学院毕业论文 设计 成绩评定表 续表 目目 录录 摘要 2 ABSTRACT 3 引言 4 第一章 MPEG 4 标准简介 5 1 1 概述 5 1 2 MPEG 4 与 MPEG 1 MPEG 2 的比较 6 1 3 MPEG 4 标准的特点及优势 7 1 3 1 基于内容的交互性 7 1 3 2 高效的压缩性 7 1 3 3 通用的访问性 8 1 3 4 灵活的可扩展性 8 1 4 MPEG 4 的框架和级别 8 1 5 MPEG 4 的主要技术 9 1 5 1 多媒体传输集成框架 DMIF 9 1 5 2 语法描述 9 1 5 3 音频对象编码 9 1 5 4 视频对象编码 10 1 5 5 场景描述及其它 12 第二章 基于 MPEG 4 的数字视频编码 13 2 1 MPEG 4 视频编码中的数据结构类 13 2 2 MPEG 4 视频编码的关键技术 13 2 2 1 视频对象提取技术 14 2 2 2 VOP 视频编码技术 15 2 2 3 视频编码可分级性技术 16 2 2 4 运动估计与运动补偿技术 17 2 3 MPEG 4 视频编码原理 19 2 3 1 形状编码 19 2 3 2 运动信息编码 22 2 3 3 纹理编码 23 2 3 4 容错和纠错 26 2 3 5 可扩展性编码 26 2 4 基于 MPEG 4 数字视频编码的实现模型 27 第三章 基于 MPEG 4 编码的软件仿真 29 3 1 DCT 编码概述 29 3 2 用 MATLAB 实现 DCT 变换用于图像压缩 31 第四章 MPEG 4 的应用前景 33 4 1 虚拟演播室 33 4 2 视频编辑 34 4 3 视频电话会议 34 4 4 电视购物 35 4 5 交互式多媒体业务 35 4 6 基于 MPEG 4 的 VOD 业务 36 结论 37 致谢 38 参考文献 39 附录 40 摘要 21 世纪的人类社会是信息化的社会 就通信内容来说 它己不局限于简单 的语音 文字信息 更进一步地 将图像视频信息亦纳入其中 数字化后的信 息 尤其是视频和音频信息具有数据海量性 它们给存储和传输造成较大的困 难 MPEG 4 是商业界最重要最有影响的多媒体数据压缩编码国际标准之一 它的全称为音频和视觉对象的通用编码 它定义了音频 视频等多媒体数据语 法结构和解码过程 互联网上的传输以及人与媒体交互的一整套框架 覆盖了 多媒体的绝大部分应用领域 它的基于对象思想使其具有高压缩比 灵活性好 可扩展性和可交互性强等优点 MPEG 4 是最重要的多媒体数据压缩编 解码国 际标准之一 在工业控制 国防建设和家庭娱乐等领域有广阔的应用前景 本文首先对 MPEG 4 数字视频标准的基本原理和实现算法进行了深入的研究 分析了 MPEG 4 与 MPEG 1 MPEG 2 的主要区别 探讨了 MPEG 4 编码技术的新特 点及优势 并展望了 MPEG 4 的应用前景 然后改进了传统的运动估计算法 实 现了一个基于 MPEG 4 视频压缩标准的实验模型 用 MATLAB 仿真工具进行了相 应的软件仿真 关键词 MPEG 4 数字视频 视频编码 ABSTRACT With the development of information technology in 21st century the communication contents do not only have simple aural and literal information and people also hope to be provided indubitable intuitionistic and effective visual information But the digital video and audio is too huge to store and transmit it As one of the multimedia compression and coding standards MPEG 4 plays an important role in multimedia field MPEG 4 standard is officially called the general coding of audio and video objects MPEG 4 defines a set of frameworks including syntax and decoding of multimedia dada transmission on Internet and interaction between human and media Due to its object based idea it has the virtues of high compression ratio scalability interactivity with users and so on For this reason it is applied in many fields such as mobile wireless communication MPEG4 is one of the most significant mufti medium compressions of data coding and decoding international standard there is the wide application foreground in the territorys such as the industry control and building up of national defense and household amuse and so on MPEG 4 is one of the most significant mufti medium compressions of data coding international standard there is the wide application foreground in the territorys such as the industry control and building up of national defense and household amuse and so on First of all this article has deeply researched the theory and the realization algorithm for digital video based on the MPEG 4 Analyze the main difference between MPEG 4 and MPEG 1 MPEG 2 Explore the new characteristic and advantage of MPEG 4 encoding technology And prospects application future of MPEG 4 Afterwards the motion estimation algorithm has been improved and the experimental pattern based on MPEG 4 has been achieved the software emulation has been implemented by MATLAB Key Words MPEG 4 digital video video coding 引言 近年来 随着生产力和经济的快速发展 人们的社会生活发生了许多改变 人们之间的流动性增加 迫切需要打破地域对交流设置的樊篱 为了适应这种 变化 各家厂商不仅在大力开发各种通信设备和通信器材 而且对通信内容进 行了扩充 使其不再局限于简单的语音 文字信息 提供确切 直观 高效的 图像视频信息已成为电信运营商的一个重要追求 然而 图像视频信号经过数 字化处理之后形成的数据量非常庞大 如此庞大的数据量不仅存储开销很大 而且在传输中使得通讯设备的负荷量很重 甚至承受不了 采用压缩技术 可 以把这些数据压缩几倍 几十倍 甚至几百倍 因此 研究如何去除冗余数据 高效地表示图像 进行数据压缩 具有重大的实用价值 数字图像压缩技术己 成为目前国内外的研究热点之一 为了保证不同厂商设备和产品之间的可交换 性 国际标准化协会 International Standardization Organization ISO 国际电子学委员会 International Electronics Committee IEC 国际电信 协会 International Telecommunication Union ITU 等国际组织于 90 年 代领导制定了许多重要的多媒体数据压缩标准 从 H 261 MPEG 1 H 263 到 MPEG 2 再到现在的 MPEG 4 MPEG 7 MPEG 21 H 264 标准越来越成熟 覆盖的应用领域愈来愈广泛 尤其是 MPEG 4 和 H 263 等面向低码率高质量的标 准对于实时视频传输处理有着非常重要的意义 同时 通信技术也在飞速发展 各种宽带网络的出现使得实时视频传输成为可能 目前在商业界发展最迅速 影响最大 技术较成熟的多媒体数据压缩编码国际标准是 MPEG 4 它的全称为 音频和视觉对象的通用编码 是伴随着互联网而产生和发展起来的 它定义了 音频 视频等多媒体数据的码流语法和解码过程 互联网上的传输以及人与媒 体交互的一整套框架 覆盖了多媒体的绝大部分应用领域 它的基于对象思想 使其具有高压缩比 灵活性好 可扩展性和可交互性强等优点 MPEG 4 正在蓬 勃发展 及时了解和跟踪它的发展动向 掌握其核心技术 结合实际应用 是 一项很有意义的事情 本课题的理论依据是 MPEG 4 视频编码原理 实验基础的硬件环境是微机环境 软件环境为 WindowsXP 操作系统平台 MATLAB 程序开发环境 本课题的意义在于 研究 改进了 MPEG 4 视频压缩标准的实验模型 掌握 了视频压缩编码的核心技术 为 MPEG 4 在通信设备上的实际应用和开发奠定了 基础 第一章 MPEG 4 标准简介 1 1 概述 近年来 多媒体技术飞速发展 在社会生活的许多领域得到了广泛的应用 人们对网络信息的多样化提出了更高的要求 表现在媒体质量 媒体交互能力 方面尤为突出 原有的 MPEG 1 2 由于一些局限已经不能适应发展的需要 为 了适应数字视频技术的发展 有必要组织制定新的数字视频编码标准 MPEG 4 就是在这种背景下应运而生的 它是伴随着互联网的产生而发展起 来的 ISO 的 MPEG 4 标准的第一版于 1999 年 1 月正式公布 标准的第二版于 1999 年 12 月公布 MPEG 4 的初衷是针对视频会议 视频电话的超低比特率编 码 但在调查过程中发现 高能通用芯片性价比的提高使得基于软件平台的压 缩编码方法具有实用可能 人们对视频信息的应用要求由播放型转向基于内容 的访问 操作型 这使得 MPEG 组织不得不修改计划 针对应用定义一种新编码 概念 基于内容的压缩编码方法 将基于内容的检索与编码结合起来考虑 在压缩数据中加入描述视频内容的信息 从而使对多媒体信息的内容的访问可 以直接针对压缩数据进行 这种新的编码方法最大好处之一是可以基于通用芯 片 打破了基于专业硬件的限制 且还可以加入新的有效的算法模块 甚至涉 及到图像分析的较复杂算法 这对于以前基于专用硬件的压缩编码方法是不可 想象的 较之 MPEG 前两个图像压缩标准而言 MPEG 4 为多媒体数据压缩提供 了一个更为广阔的平台 它更多定义的是一种格式和框架 而不是具体的算法 MPEG 4 定义了多媒体编码和解码 网络传输以及人与媒体交互的一整套 框架 涵盖了多媒体的绝大部分应用领域 从结构上看 MPEG 4 标准分为十个部分 系统层 视频 音频 DMIF 一 致性测试 参考软件 优化的视频编码参考软件 用 IP 网络承载 MPEG 4 内容 参考硬件描述和高级视频编码 前四个模块为 MPEG 4 的核心模块 从层次上来 讲 可划分成三个层次 压缩层 同步层 传输层 压缩层对应视频 音频核 心部分 对传输部分是不可知的 MPEG 4 要实现的目标有 1 再现被称为 媒体目标 的听觉 视觉或视听内容单元 这些媒体目标 可以是自然的或人造的 2 能够把音效 视觉 自然合成的对象组合成音频 视频场景 且能允许 单独对这些对象进行访问 控制和重用 3 切换和同步媒体目标的数据 以便它们能在网络通道上传送 提供适合 特定媒体目标的 QoS 4 在接收端产生交互的视听景物 满足多种业务的需要 MPEG 4 被称为面向对象的编码技术 它基于对象的编码思想使其具有高压 缩比 可扩展性 可交互性等许多优点 在网络视频通信中具有广阔的应用前 景 其传输速率要求较低 可用于传输速率低于 64kb s 的实时图像 最高分辨 率为 768 X 576 MPEG 4 利用很窄的带宽 通过帧重建技术压缩和传输数据 以最少的数据获得最佳的图像质量 MPEG 4 采用了包括小波变换等多种变换 可以获得更小的硬盘空间占用 更高的清晰度 基于 MPEG 4 的技术正在蓬勃发展 代表着未来多媒体数据压缩编码的发展 趋势 及时跟踪和了解 MPEG 4 的发展动态 掌握其核心技术 并结合实际应用 在某些关键方向上有所创新和发展 是一项很有意义的工作 1 2 MPEG 4 与 MPEG 1 MPEG 2 的比较 解决视频 音频数字化后数据量大与数字存储媒体和通信网容量小的矛盾 的主要途径之一就是压缩 为此 国际标准化组织先后于 1993 年和 1995 年制 定了视频 音频编码的国际标准 MPEG 1 和 MPEG 2 MPEG 1 MPEG 2 都是采用 第一代压缩编码技术 着眼于图像信号的统计特性来设计编码器 属于波形编 码的范畴 第一代压缩编码方案把视频序列按时间先后分为一系列帧 每一帧 图像又分成宏块以进行运动补偿和编码 这种编码存在以下缺陷 1 将图像固定地分成相同大小的块 在高压缩比的情况下会出现严重的块 效应 即马赛克效应 2 不能对图像内容进行访问编辑和回放等操作 3 不能充分利用人类视觉系统 HVS Huaman Visual System 的特性 MPEG 4 在 MPEG 2 基础上作了很大的扩充 主要目标是多媒体应用 MPEG 4 标准与 MPEG 1 和 MPEG 2 标准最根本的区别在于 MPEG 4 是基于内容的压缩编码 方法 它突破了过去 MPEG 1 和 MPEG 2 以矩形或方形块处理图像的方法 这些 方法将整帧图分割成固定尺寸 固定开头的子块进行处理 而 MPEG 4 是对一幅 图像按内容切分块 即在编码时将一幅景物分成若干在时间和空间上相互联系的 视频音频对象分别编码后 再经过复用传输到接收端 然后对不同的对象分别解 码 从而组合成所需要的视频和音频 这样既方便对不同的对象采用不同的编码 方法和表示方法 利用不同数据类型间的融合 并且可方便地实现对于各种对 象的操作及编辑 1 3 MPEG 4 标准的特点及优势 MPEG 4 与 MPEG 1 和 MPEG 2 相比 在交互性 抗误码性和高效压缩上都有 巨大的优势 1 3 1 基于内容的交互性 基于内容功能的核心是支持对独立内容 即某场景中的物理对象 的编解码 它把一个视听场景定义成了一系列可再现的视听对象 这些视听对象在时间和 空间上具有某些相关联的成分 对场景中的各个对象分别进行编码是一种很有 效的编码方法 可实现同场景中有意义的对象的交互 这是对今天模拟和数字 系统中具有交互功能的视频播放器的很好的扩展 例如它允许信息和场景中的 运动对象相连接 可将资源定位器 URL 关联上场景中的足球运动员 当用户在 足球运动员上点击鼠标时即可启动 URL 从而得到关于这个运动员的详细信息 传统的基于帧的视频系统要实现上述功能十分困难 除非这个人是固定的 预 先定义好位置 又如 在一个大型的交响音乐会的现场转播中 发现了一陌生 的乐器 它奏出的旋律被其他乐器的声音所淹没 通过对音频对象的操纵 可以 让这场大型交响音乐会变成这个陌生乐器的独奏音乐会 从而好好欣赏它的音 色 一但单独访问或存储对象成为可能 就可很容易地实现数据的再利用 根 据个人意愿随意合成各种场景 MPEG 4 标准的 SNHC 部分允许不同来源的视音 频对象集成到一起 各种对象可以自然的 也可以是人工的 还可以是图片或 文字内容 视音频对象可以是平面的或二维立体的 用户在编辑某一多媒体图 像时 可以从不同的数据库中获取素材 进行加工合成 生成自己的场景 1 3 2 良好的鲁棒性 MPEG 4 具有出色的压缩效率 它基于对象进行形状分割 把描述运动或变 化的区域进一步缩小 并把空间和时间上处理的冗余范围进一步扩大 编码时 只针对有用的信息而去除冗余 所以 显著地提高了压缩效率 MPEG 4 的压缩 倍数高达 100 倍 可以用最少的数据获得最佳的图像质量 因此满足了低码率 的应用要求 MPEG 4 出色的压缩效率在解决存储容量上具有明显的优势 采用 MPEG 4 的视音频同步录像所需的硬盘空间约为相同质量的 MPEG 1 所需空间的 1 10 MPEG 4 因能根据场景变化自动调整压缩方法 对静止图像 一般运动 场景 剧烈活动场景均能保证图像质量 1 3 3 通用的访问性 MPEG 4 提供了易出错环境的鲁棒性 来保证其在许多无线和有线网络以及 存储介质中的应用 在纠错能力上 当网络进行传输有误码或丢包现象时 MPEG 4 受到的影响很小 并且能够很快恢复 例如在误码达到 1 时 MPEG 1 己无法播放 而 MPEG 4 只会有轻微的边缘模糊 又如当网络传输出现瞬间丢 包现象时 MPEG 1 恢复至少需要 10 多 s 而 MPEG 4 只需 1 3 s 此外 MPEG 4 还支持基于内容的可分级性 即把内容 质量 复杂性分成许多小块来满足不 同用户的不同需求 支持具有不同带宽 不同存储容量的传输信道和接收端 1 3 4 灵活的可扩展性 可根据现场带宽和误码率的客观条件在时域和空域进行扩展 时域扩展是 在带宽允许时在基本层上的增强层中增加帧率 在带宽窄时在基本层中减少帧 率 空域扩展是指对基本层中的图像进行插值 增加或减少空间分辨率 以达 到充分利用带宽 使图像质量更好 1 4 MPEG 4 的框架和级别 MPEG 4 提供了大量的 丰富的音视频对象的编码工具 能够满足各种各样 的应用需要 对于某一特定的应用 只有一部分系统 视频和音频的编码工具 被采用 框架 Profile 就是针对特定的应用确定要采用的编码工具 它是 MPEG 4 提供的工具集的一个子集 每一个框架又有一个或多个级别 Level 来 限制计算的复杂度 MPEG 4 共有 4 类框架 视频框架 音频框架 图形框架和 场景描述框架 其中视频框架又包括 5 个级别 如下 1 Simple Visual Profile 提供矩形视频对象高效有容错能力的编码功能 适合用于移动网络 2 Simple Sealable Visual Profile 在 Simple Visual Profile 基础上增加了对象时域和空域扩展编码功能 应用于提供多级服务质量的应用 如 Internet 和软件解码 3 Core Visual Profile 在 Simple Visual Profile 基础上增加了任意形状对象编码和时域扩展编 码功能 适用于相对简单的内容交互应用 如 Internet 多媒体应用 4 Main Visual Profile 在 Core Profile 基础上增加了 Sprite 对象编码功能 适用于交互和娱乐 质量广播和 DVD 应用等 5 N Bit Visual Profile 在 Core Profile 基础上增加了具有不同像素深度视频对象编码功能 适于 监控应用 1 5 MPEG 4 的主要技术 1 5 1 多媒体传输集成框架 DMIF DMIF Delivery Multimedia Integration Framework 主要解决交互网络中 广播环境下以及磁盘中多媒体应用的操作问题 通过传输多路合成比特信息 建立客户端和服务器端的握手和传输 传输接口层在 MPEG 4 中使用 DMIF 传输 基本流 面向应用将网络实现的细节包装 DMIF 使用服务和会话的概念 通过 信道处理媒体基本流 对信道的处理是由 DMIF 所产生的信道标识器决定的 即 告诉用户在哪里能得到所需的信息 使用复接器将几路同步的基本流通过一个 信道进行传输 因此 MPEG 4 系统处理媒体流 而 DMIF 处理传输 它不需要知 道媒体流的特性 对客户与服务器之间的控制是通过 DMIF 应用接口 DAI 实 际上 DMIF 相当于 OSI 的会话层的功能 DAI 表示会话服务存取点 传输接口 层对媒体不透明 而对传输是透明的 1 5 2 语法描述 MPEG 4 定义了一个句法描述语言来描述 AV 对象比特流表示和场景描述信 息 这个句法描述语言是对 C 的扩展 不仅易于表达其 AV 对象特性 而且也 易于软件仿真实现与模型验证 与 MPEG 4 相比 MPEG 1 和 MPEG 2 则采用一种 类 C 语言的描述 MPEG 4 描述语言反映了面向对象技术来描述对象 1 5 3 音频对象编码 视频音频的压缩编码自然仍是 MPEG 4 的核心所在 不过 与以前的 MPEG l MPEG 2 不同的是 MPEG 4 不仅支持自然的声音 如语音和音乐 而且支持 基于描述语言的合成声音 如 MIDI 之类 而且 支持音频的对象特征 即一个 场景中 同时有人声和背景音乐 它们也许是独立编码的音频对象 a 自然声音编码 MPEG 4 研究比较了现有的各种音频编码算法 支持 2 64 K 的自然声音编 码 如 8 KHz 采样频率的 2 4Kbps 的语音编码 以及 8 KHz 或 16 KHz 采样频率 4 16 Kbps 的音频编码 一般采用参数编码 6 24 Kbps 的语音编码 一般采用 码激励线性预测 CELP Code Excited Linear Predicitive 编码技术 16 Kbps 以上码率的编码 则可采用时频 T F 变换编码技术 这些技术实质上借鉴了 己有的音频编码标准如 G 723 G 728 以及 MPEG I 和 MPEG 2 等 图 1 1 是 MPEG 4 的可伸缩自然音频编码器示意图 包括三种编码技术 图 1 1 通用 MPEG 4 音频编码方框图 b 合成声音 在合成声音编码当中 MPEG 4 引入了两个极有吸引力的编码技术 文本到 语音 Text to Speech 编码和乐谱驱动合成编码技术 这为网络上低比特率下 交互的带有语音的游戏铺平了道路 事实上 合成声音编码技术即是一种基于 知识库的参数编码 特别值得一提的是 MPEG 4 的乐谱驱动合成技术 在该技术 中 解码器是由一种特殊的合成语言 结构化的音频管弦乐团语言 SAOL Structured Audio Orchestra Language 驱动的 其中的 管弦乐团 是由不 同的 乐器 组成的 当解码器不具有某一 乐器 时 MPEG 4 还允许解码器 从编码器下载 Download 该 乐器 到解码器 以便正确恢复合成声音 可见 MPEG 4 不是提供一组角 MIDI 音乐标准中的 乐器 而是提供了一个可随时扩 充的 管弦乐团 因此 其可 演奏 乐谱自然更加丰富多彩 1 5 4 视频对象编码 同样 MPEG 4 也支持对自然和合成的视频对象编码 合成的视频对象如 2D 3D 动画 人的面部表情动画等 这些合成图像单独编码 不仅可有效压缩 而且还便于操作 对自然视频对象的编码 也是 MPEG 4 的重点 比对于静止图像 MPEG 4 采用零树小波算法 Zerotree Wavelet algorithm 以提供高压缩比 同时还提 供多达 11 级的空间分辨率和质量的可伸缩性 对于运动视频对象的编码 MPEG 4 采用了如图 1 2 所示的编码框图 以支 持图像的编码 图 1 2 MPEG 4 视频编码方块图 可见 MPEG 4 为了支持基于对象的编码 引入了形状编码模块 为了支持 高效压缩 MPEG 4 仍然采用了 MPEG l MPEG 2 中的变换 预测混合编码框架 对于一般的任意形状的视频对象 MPEG 4 编码后的码流结构见图 1 3 图 1 3 通用 MPEG 4 视频编码 对于实时的极低比特率的应用 如可视电话 MPEG 4 视频编码采用 VLB V 极低比特率视频 核进行编码 类似于 ITU 的 H 263 直接对矩形视频编码 而 不采用形状编码模块 因而 编码后的码流结构见图 1 4 图 1 4 类 H 263 的 VLBV 核编码 可见 MPEG 4 采取了向前兼容 H 263 同时 也提供了一些高层特性 如 基于内容的编码 其扩充的方式如图 1 5 与此同时 MPEG 4 还支持有误码信道传输下的健壮性 提供了更好的同步 和误码恢复机制 图 1 5 MPEG 4 的视频功能扩充 1 5 5 场景描述及其它 场景描述主要用于描述以上单个的 AV 对象如何在一具体 AV 场景座标下的 组织与同步等问题 同时还有 AV 对象和 AV 场景的知识产权保护等问题 最后 就是我们如何欣赏 MPEG 4 为我们提供的丰富多彩的 AV 场景了 第二章 基于 MPEG 4 的数字视频编码 2 1 MPEG 4 视频编码中的数据结构类 MPEG 4 中有以下四个层次的数据结构 它们都以类的形式定义 VS Video Session 视频场景 它位于数据结构层次的最高层 一个完整 的视频序列可以由几个 VS 组成 VO Video Object 视频对象 它是场景中的某个物体 最简单的情况下 就是矩形框 它是有生命期的 由时间上连续的许多帧构成 VOL Video Object Layer 视频对象层 VO 的三种属性信息编码于这个 类中 这个类的引入主要用来扩展 VO 的时域或空域分辨率 实现分层编码 VOP Video Object Plane 视频对象平面 它可以看作是 VO 在某一时刻 的采样 即某一帧 VO 以上几个类的关系可以用图 2 1 表示 图 2 1 MPEG 4 数据结构示意图 2 2 MPEG 4 视频编码的关键技术 MPEG 4 除采用第一代视频编码的核心技术 如变换编码 运动估计与运动 补偿 量化 熵编码外 还提出了一些新的有创见性的关键技术 并在第一代 视频编码技术基础上进行了卓有成效的完善和改进 下面重点介绍其中的一些 关键技术 2 2 1 视频对象提取技术 MPEG 4 实现基于内容交互的首要任务就是把视频 图像分割成不同对象或 者把运动对象从背景中分离出来 然后针对不同对象采用相应编码方法 以实 现高效压缩 因此视频对象提取即视频对象分割 是 MPEG 4 视频编码的关键技 术 也是新一代视频编码的研究热点和难点 视频对象分割涉及对视频内容的分析和理解 这与人工智能 图像理解 模式识别和神经网络等学科有密切联系 目前人工智能的发展还不够完善 计 算机还不具有观察 识别 理解图像的能力 同时关于计算机视觉的研究也表 明要实现正确的图像分割需要在更高层次上对视频内容进行理解 因此 尽管 MPEG 4 框架已经制定 但至今仍没有通用的有效方法去根本解决视频对象分割 问题 视频对象分割被认为是一个具有挑战性的难题 基于语义的分割则更加 困难 目前进行视频对象分割的一般步骤是 先对原始视频 图像数据进行简化以 利于分割 这可通过低通滤波 中值滤波 形态滤波来完成 然后对视频 图像 数据进行特征提取 可以是颜色 纹理 运动 帧差 位移帧差乃至语义等特 征 再基于某种均匀性标准来确定分割决策 根据所提取特征将视频数据归类 最后是进行相关后处理 以实现滤除噪声及准确提取边界 图 2 2 是一种典型 的视频运动对象分割系统框架 图 2 2 一种典型的视频运动对象分割系统框架 在视频分割中基于数学形态理论的分水岭 Watershed 算法被广泛使用 它又称水线算法 其基本过程是连续腐浊二值图像 由图像简化 标记提取 决策 后处理四个阶段构成 分水岭算法具有运算简单 性能优良 能够较好 提取运动对象轮廓 准确得到运动物体边缘的优点 但分割时需要梯度信息 对噪声较敏感 且未利用帧间信息 通常会产生图像过度分割 2 2 2 VOP 视频编码技术 视频对象平面 VOP Video Object Plane 是视频对象 VO 在某一时刻的采 样 VOP 是 MPEG 4 视频编码的核心概念 MPEG 4 在编码过程中针对不同 VO 采 用不同的编码策略 即对前景 VO 的压缩编码尽可能保留细节和平滑 对背景 VO 则采用高压缩率的编码策略 甚至不予传输而在解码端由其他背景拼接而成 这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的 方块效应 而且使用户可与场景交互 从而既提高了压缩比 又实现了基于内 容的交互 为视频编码提供了广阔的发展空间 VOP 视频编码主要包括形状编码 运动信息编码和纹理编码 其简化原理 图如图 2 3 所示 图 2 3 MPEG 4 中 VOP 视频编码简化原理图 MPEG 4 支持任意形状图像与视频的编解码 对于任意形状视频对象 MPEG 4 编码后的码流结构如图 2 4 所示 对于极低比特率实时应用 如可视电 话 会议电视 MPEG 4 则采用 VLBV Very Low Bit rate Video 极低比特 率视频 进行编码 其编码后的码流结构如图 2 5 所示 图 2 4 MPEG 4 通用编码器 图 2 5 MPEG 4 基本编码器 传统的矩形图在 MPEG 4 中被看作是 VO 的一种特例 这正体现了传统编码 与基于内容编码在 MPEG 4 中的统一 VO 概念的引入 更加符合人脑对视觉信 息的处理方式 并使视频信号的处理方式从数字化进展到智能化从而提高了视 频信号的交互性和灵活性 使得更广泛的视频应用及更多的内容交互成为可能 因此 VOP 视频编码技术被誉为视频信号处理技术从数字化进入智能化的初步探 索 2 2 3 视频编码可分级性技术 随着因特网业务的巨大增长 在速率起伏很大的 IP Internet Protocol 网络及具有不同传输特性的异构网络上进行视频传输的要求和应用越来越多 在这种背景下 视频分级编码的重要性日益突出 其应用非常广泛 且具有很 高的理论研究及实际应用价值 因此受到人们的极大关注 视频编码的可分级性 Scalability 是指码率的可调整性 即视频数据只压 缩一次 却能以多个帧率 空间分辨率或视频质量进行解码 从而可支持多种 类型用户的各种不同应用要求 MPEG 4 通过视频对象层 VOL Video Object Layer 数据结构来实现分级 编码 MPEG 4 提供了两种基本分级工具 即时域分级 Temporal Scalability 和空域分级 Spatial Scalability 此外还支持时域和空域的混合分级 每一 种分级编码都至少有两层 VOL 低层称为基本层 高层称为增强层 基本层提 供了视频序列的基本信息 增强层提供了视频序列更高的分辨率和细节 MPEG 4 通用可分级编解码框图如图 2 6 所示 图 2 6 MPEG 4 通用可分级编解码框图 在随后增补的视频流应用框架中 MPEG 4 提出了 FGS 精细可伸缩性 Fine Granularity Scalable 视频编码算法以及 PFGS 渐进精细可伸缩性 Progressive Fine Granularity Scalable 视频编码算法 FGS 编码实现简单 可在编码速率 显示分辨率 内容 解码复杂度等方 面提供灵活的自适应和可扩展性 且具有很强的带宽自适应能力和抗误码性能 但还存在编码效率低于非可扩展编码及接收端视频质量非最优两个不足 PFGS 则是为改善 FGS 编码效率而提出的视频编码算法 其基本思想是在增 强层图像编码时使用前一帧重建的某个增强层图像为参考进行运动补偿 以使 运动补偿更加有效 从而提高编码效率 2 2 4 运动估计与运动补偿技术 MPEG 4 采用 I VOP P VOP B VOP 三种帧格式来表征不同的运动补偿类型 它采用了 H 263 中的半像素搜索 Half Pixel Searching 技术和重叠运动补偿 Overlapped Motion Compensation 技术 同时又引入重复填充 Repetitive Padding 技术和修改的块 多边形 匹配 Modified Block Polygon Matching 技术以支持任意形状的 VOP 区域 此外 为提高运动估计算法精度 MPEG 4 采用了 MVFAST Motion Vector Field Adaptive Search Technique 和改进的 PMVFAST Predictive MVFAST 方法用于运动估计 对于全局运动估计 则采用了基于特 征的快速鲁棒的 FFRGMET Feature based Fast and Robust Global Motion Estimation Technique 方法 在 MPEG 4 视频编码中 运动估计相当耗时 对编码的实时性影响很大 因 此这里特别强调快速算法 运动估计方法主要有像素递归法和块匹配法两大类 前者复杂度很高 实际中应用较少 后者则在 H 263 和 MPEG 中广泛采用 在块 匹配法中 重点研究块匹配准则及搜索方法 目前有三种常用的匹配准则 1 绝对误差和 SAD Sum of Absolute Difference 准则 2 均方误差 MSE Mean Square Error 准则 3 归一化互相关函数 NCCF Normalized Cross Correlation Function 准则 在上述三种准则中 SAD 准则具有不需乘法运算 实现简单方便的优点而 使用最多 但应清楚匹配准则的选用对匹配结果影响不大 在选取匹配准则后就应进行寻找最优匹配点的搜索工作 最简单 最可靠 的方法是全搜索法 FS Full Search 但计算量太大 不便于实时实现 因此 快速搜索法应运而生 主要有交叉搜索法 二维对数法和钻石搜索法 其中钻 石搜索法被 MPEG 4 校验模型 VM Verificatioia Mode1 所采纳 下面详细介 绍 钻石搜索 DS Diamond Search 法以搜索模板形状而得名 具有简单 鲁 棒 高效的特点 是现有性能最优的快速搜索算法之一 其基本思想是利用搜 索模板的形状和大小对运动估计算法速度及精度产生重要影响的特性 在搜索 最优匹配点时 选择小的搜索模板可能会陷入局部最优 选择大的搜索模板则 可能无法找到最优点 因此 DS 算法针对视频图像中运动矢量的基本规律 选用 了两种形状大小的搜索模板 如图 2 7 所示 a 大钻石搜索模板 b 小钻石搜索模板 图 2 7 钻石搜索模板 1 大钻石搜索模板 LDSP Large Diamond Search Pattern 包含 9 个 候选位置 2 小钻石搜索模板 SDSP Small Diamond Search Pattern 包含 5 个 候选位置 DS 算法搜索过程如下 开始阶段先重复使用大钻石搜索模板 直到最佳匹 配块落在大钻石中心 由于 LDSP 步长大 因而搜索范围广 可实现粗定位 使 搜索不会陷于局部最小 当粗定位结束后 可认为最优点就在 LDSP 周围 8 个点 所围菱形区域中 然后再使用小钻石搜索模板来实现最佳匹配块的准确定位 以不产生较大起伏 从而提高运动估计精度 此外 Sprite 视频编码技术也在 MPEG 4 中应用广泛 作为其核心技术之一 Sprite 又称镶嵌图或背景全景图 是指一个视频对象在视频序列中所有出现部 分经拼接而成的一幅图像 利用 Sprite 可以直接重构该视频对象或对其进行预 测补偿编码 Sprite 视频编码可视为一种更为先进的运动估计和补偿技术 它能够克服 基于固定分块的传统运动估计和补偿技术的不足 MPEG 4 正是采用了将传统分 块编码技术与 Sprite 编码技术相结合的策略 2 3 MPEG 4 视频编码原理 MPEG 4 视频部分是 MPEG 4 标准的核心内容之一 既提供传统的基于帧的 编码方法又提供基于视频对象 VO 的编码方法 在某一时刻 视频对象以视频 对象平面 VOP 的形式出现 编码也主要针对该时刻视频对象的形状 运动和 纹理这三类信息来进行 2 3 1 形状编码 MPEG 4 同时支持二进制和灰度格式的形状信息 形状信息又称为阿尔法 alpha 平面 阿尔法平面的大小与其对应的 VOP 边界矩形相等 二进制阿尔 法平面中的点只能取 0 和 255 两个值 而灰度阿尔法平面中的点则可以在 0 到 255 之间取任意整数值 0 表示对应的像素完全透明 255 表示对应的像素完全 不透明 灰度阿尔法平面实际上包含形状和透明度两种信息 其中形状信息采 用二进制阿尔法平面的编码算法 透明度信息采用亮度信息的编码算法 与传统的视频编码算法类似 MPEG 4 采用的形状编码算法也是基于块的算 法 也分为帧内和帧间两种编码块 帧间块仍然采用基于块

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论