(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf_第1页
(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf_第2页
(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf_第3页
(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf_第4页
(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf_第5页
已阅读5页,还剩66页未读 继续免费阅读

(计算机应用技术专业论文)流媒体音频与视频同步的优化设计.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南京理工大学硕士学位论文 abs tract 从 个 h 血 山 讹 帅住 巴 口ofl o fo r ll . t 玩 予 戈 加 ” fo gy, e s 户 沁 词】 y 血 pop u 如i t y ofn e t w 0 rkt ec hi ” b gy, co n ” ” u d i 。 劝 汕 t ec 加 拍 如 gy 出 dmu血 i m ed纽伽】 ” 幻 fo gy, 血 比 价 蒯 巨 b 七 m 甲 m v . 比 比 nts 恤ve b 哭 nac 场 e 训 月加 血 n 胜 田 现 唱, 讲 目 of co兹 甲 ut er, w 记 t h of扮 o ad加 川 田 ddataco 兹 甲 传 5 5 沁 几v i 血 翔 力 几 re 比 . 淆 , d ist 田 般 冶 1 倒而飞 即d l 址 el , etli v 腼 目 贬 以 吨 h 曰 月加 加 1 川 湘 m 以w h k b all 找 月 u 叮 6 场 g h q ua l血 y 沐 rfory 钊 鱿 e 耽 搜 电 e a fo 目份ingt e “ 加 加 , 5 ” c hron 过 at 沁 n e 巧 比 t ofaud 沁留 日, 记 加份 叫 u e 谧 y b as卜 姆 n 加的宜 .血 b 时 邢 幻 t 朝血b 加s b 沈 ” 川 山 双 坛 月少 喇 加 卯衍 血 伪几 甲 以 e r . 幻m 亡 d 认co n t rd 】 l in g 脚 企 胭 如 加 扫 ; co双 甲 盯 m g 俩 血 b 血 七 目 而 耐 口 址 d is枉 沁 h 均 拓 幻 s tr 已 . nm 目 运t 耽 加 幻 b 盯 肠 助爬convement出 川c 幻 周 阴 ive fo re gr o 山 幻 t 坛 d e vefopmentofst 已 山 nm ed加 奴 尤 恤 犯 l o gy l 幽留 喇幼 g na】 衍inc h 初 以 w 场 比can re 】. 眼 姆此 吕 洲 公 b 旧 恤 以沁 。 e 任 改 t of此 爪 r e 日 比 口 ofa u d io山 劝访 d eop 拍 b 卜 兹 . 口 业 目勿. 沈 w o rktr 别 ” m is s 沁 n 山 日腼目 伪 以 吨 七 。 址 m 加 le nt 二 at 血 , 立 . t汕 e , 盆 . 助 州 韶to川 甲 ro 讹加 s tr 已 ” n m ed 运湘 r v l c e q ual 衍ofp-qos 加 肚 月 娜 沁 n n e t werk硫houtqo, 。 乙 年 1 1 月 1一! 日 学位论文使用授权声明 南京理工大学有权保存本学位论文的电子和纸质文档,可以借阅 或上 网 公布本学位论文的全部或部分内容,可以向有关部门或机构送 交并授权其保存、借阅或 1 几 网公布本学位论文的全部或部分内容。对 于保密论文,按保密的有关规定和程序处理。 研究生签名: 泣 兄 c 6 年 !月 日 南京理工大学硕士学位论文流媒体音频与视颇同步的优化设计 1 . 绪论 本章说明了 课题的由 来, 介绍了 课题相关的网络多 媒体应用的发展历史 和研究现状, 对目 前影响网 络流媒体同步的因素 作了分 析, 并给出 本课题的 研究内容和文章的组织结构。 l l网 络流媒体的 现状 传统的 因特网 虽然有了 交互、 24 小时 不间 断等不同于传 统媒体的 特点, 但传输的主要是静态为主的图象和文字内容,严重影响了其媒体作用的充分 发挥。 人们也曾尝 试在互联网 上播放多媒体, 但多媒 体文件通常体积都很大, 下载需要很长时间, 因此只能先下 载,存 储在硬盘上之后再播 放。 流 媒 体 ( 5 饥 别 址 叩m ed 运 ) 的 出 现 改 变 了 这 种 状况 , 它 不 需 要 下 载 整 个 文件就可以 在向 播放器传输的过程中开始播 放升 .尸边下载一边播放, 实现了 在网 上点播或观看实况电 影、 、 龟视的梦想。 现在,以“ 流 ”( s t 洲” ” )的形式 进行数字媒体的 传送, 使人们在从2 8 k b 陌到几m u s 的带宽环境下都可以在 线欣赏到连续不断的高品质的音频和视频节目。 . 在互联网大发展的时代,流媒体技术的 产生和发 展必然会给我们的日 常 生活和工作带来深远的影响.。 随着技 术的 发展, 流媒体的定义已 不再是 指单 一的 流式传输技术 它衍生出 了适合流式 传输的网 络通信技术v多媒体数据 采集技术了 多媒体数据压缩技术奋多 媒体数 据存储技术 等更多的基础 技术。 现在的流媒体已 经逐渐发展成为 一个产业。 专家预言,流媒体将成为未来因 特网 上应用的主流,实现 沟通和 传播的 多向 性、使传播不再受到时间和空间的限 制公 在美国, 近两年宽带用户日益增加,目 前宽带普及率己达 2 以 冷 一 刁0 , , 而 且 上 网 的 时 间 越 来 越 长 , 如 图1 .1 所 示 脚 1, 到2 创 刀年 , 宽 带 用 户 的主 要 时 间将在上网,其中流媒体业务的用 户也越来越多妇 绪论硕士论文 满, . 则 丢弃该分组。只要数 据分组没有按时 到达播放 器,甚 至数据丢失, 都 会破坏同步。 万 、网 络传输条件的变化。 】 传输条件变化不是由 抖动引 入的, 它是指网 络连续性质的变化。 一些重 要的网 络, 如ip网, 户 j m网 等, 网 络的平均延时、 数据的 丢失率与网 络的 负 载有关, 通信起始时已 经同 步的 数据流, 一段时间 后可能 因网 络条件的变 化而失去同 步。 6 、播放的时间偏差。 肖 媒 体 流 传 输 到 接 收 端 处 理 解 包、 解 压 、 回 放等 模 块时 、 由 于 各 种 媒 体 流 数据 ( 如音频和视频)的 数据量以及 编码算法各不 相同 会引起时间差而导 致不同步。 i j本 文内 容 简 介 本课题就是在现有流 媒体同 步控制技术的 基础上, 一次 音视频同 步的设 计尝试。探讨了在目前的网络条件下实现流媒体同步的优化方案,实现一个 具有较好的媒体流内部连续性和媒体间同步性的流媒体应用系统。 第一章, 绪论。介绍了 流媒体的 相关概念和发展概况。 简单地分析了流 媒体系 统中 影响同步的主 要因素。 并介绍了 本文 所探讨的 音视频同 步的优化 方案。 . 第二章,分析流媒体 在网 络中应用的 全过程, 介绍了 在流媒体应用系统 中所涉及的相关技术. 第三章, 简述了音视 频同 步概念以 及传统的同 步方案, 并就现有方案分 析其优缺点。 第四 章,根据整个 音视频传输流程提出 了分步优化音视频同步的具体 方 案,重点介绍了接收端缓冲区的设计。 第五章,对提出的 优化音视频同步具体方 案进行实验 验证, 南京理工大学硕士学位论文流拱体音频与视频同步的优化设计 在低速率的网 络上实时 传输活动视频影像,可以根据不同的网络数据 传输速 率采用不同的 压缩比 率, 在数据传 输过程中边下载边 播放视频 影像, 从而实 现影像数据的实时 传送和播放。 客户端通过re姗加 y er播放器进行播放. l m i a 旧 50 丘 m 贻 ro so n m ed运 t 伐 如 叻 拓 盯的asf 也是一种流行的网上 流媒体 格式。它的使 用与w 触 面w s 操 作系统是分不开的,其播放器m 沁 ro so 且 m 曰 扭 p h y er已 经 与从 伍 d ” 旧 捆 绑 在 一 起, 不 仅 能 够 用 于, 七 b 方 式 播 放 , 还 可以 用 于在浏览器以外的地方播放影音文件。 柳p k quic k 丁 访 笠 mo讹 的 .单格 式 是人 种 卜 公 司 开 发 的 一 种 音 频 、 视 频 文 件 格 式 , 用 于 保 存 音 频 和 视 频 信 息 , 由 包 括a p p k m 朗 0 5 、 m icr o so 众 从 勺 川 。 ws 9519 8 j n i , 在内的主 流计算机操作系统支持. q c kt in . 文件 格式支持25位彩 色, 支持rlc 、 jp e g等集成压缩技 术,能 够提 供 15 0 多种视频效果。 加 臼 。 勺 m 曰 运 s w f 是基于m 如 加m 比 运公司s h 兄 幻 阴 扮 e 技术的流式 动画格 式, 是用f k 比 h 软件制 作的一 种格式, 源文件为. 血格式。由 于具有体积小、 功能 强、 交互能力 好、支 持多 个层和时间线程等特点,它被越来越多 地应用 到网 络动画 中。s w f 文件是f 卜 is h 的一种 发布格式,已 广泛用于1 山 翔 m et上, 客户端安装s h 沁 幻 胡 脚 e 的插件即可 播放。目 前, f la 由在l 皿 e 功 d的应用 很普 遍。 2. i j流媒体文 件格式 , 无论是 流式的, 还是非流式的多 媒体文件格式, 在传输与播放时都需要 进行一定比例的压缩,以期得到品质与尺寸的平衡。 . 流媒体的压缩 格式有时被 称为压缩媒体格式,包含了 描述一段声音和图 象的同 样信息,尽管它的文件大 小被处理得更小。 很明显, 压缩过程改变了 数据 位的 编排。 在压缩媒体文件再次 成为 媒体 格式前, 其中 数据需要解压缩。 由于 压缩过程自 动进行,并内嵌 在媒体 文件格式中, 通常我们在存储文件时 没有 注意到 这点。 该过程如图2. 1 .2. 1 所示。 表2. 1 .2 . 1 列 举一些视频和音频文 件格式 阴 。 流媒休的网络应用过程硕士论文 表么 2 。 1常用音视频压缩文件类型 文件格式扩展名 媒 体 类 型 与 名 称 压缩情况 m o v q 山c 如口. 场deo v z .0可以 m 四 mp e 01场d eo 有 .p 3m p e g 加 y er 3 a 瞄。 ” 有 咖 w a , 。 a 时 10 没有 aif a u 山 。 】 口 份 抽 川 g e f “ m at 没有 耐1 s o u n dau d l ofil ef 0 r 比 . t 没有 au au d l ofi 贻f or 叮 旧 . ( s u n o s)没有 幽: ., 讲 , 。 : 八 ” d i o 叭 彻 咖 l ea v “vl尹 ( mi。 众 沁血 win ) 可 峨 ,。 夕 , 1 嘿昌 兮. 一一矿扫幻甩 仲巾一肠门甲 尔 赶 n 创 时 朋e o 二 f 朋 . f or m 日 t 台 心 .闷”.的 口 、 洲 . d 访 r 翻 ron 侧 山1 图2 . 1 . 2 . 1文件 怅缩过程 流式 文件格 式经过 特殊编码, 使其适合在网络上边下载 边播放, 而不是 等到下载 完整 个文 件才能 播放. 可以 在网 上以流的方式播放 标准媒体文件, 但 效 率 不 高 。 将压 缩 媒 体 文 件 编 码 成 流 式 文 件 , 、 必 须 假 如 一 些附 加 信 息, 如 计时、 压缩和版权信息。 编码过程如图2. 1 .2 .2 所示。 表2 . 1 . 2 2列举了常用的 流式文件类型。 南京理工大学硕士学位论文流媒体音频与视频同步的优化设计 . 月 口 如 护 初 山幼 e 奸记晚 n ts tr二 m 翻 b妞 0口日 乒 产兰。 渔若奎 : 佳三 口e口二1一工lflll三111三一 月f比二三三1三一f三11一 l|,1-111一11111朴1111一一一1一 日 1 盆 n d 吕 r d 助 . d l.f 加 fo r r n . t 翻r . . n ” ” 口日 比 口 比r 加f o n ” 对 so f ., 翎 份 of 州 泊r 廿 份翻 月 图2 . 1 . 2 . 2流 式文件 编码过程 表2 . 1 . 2-2 常 用流式文 件格式 文件格式扩展 媒 体 类 型 与 名 称嘿 as f a d v anced s tr eamin r f o m曰 1 ( mlc r 。 o ft ) r 扣 d r ea l 劝 d 曰 夕 a udi。 文 件( h 。 , “ s i ven et w or ks ) 扭 r eal a ud io文 件 ( p r o 乎 essi ven e t w or ks ) rpr ea l p 议文件 ( r 创 歹 出i ven e two r 七 ) rt- -一 r ea 】 介 劝文 件 份。 哪1 姆n e twor ks ) 洲 哎 s h ock w铆e f l ash ( ma c r o 兹 比 d 认 ) 竹v 讥 vom ov 贻 文 件 ( 劝 v o s o ft w ar . ) 2 2 多媒体的采集 采集模块为音视频流 传输提供数据源,因 此音视 频数 据采集的 实时性非 常重要。在实现方 法上, 采用系统开销较小的 方式。以从 龟 记 。 叭 心 系统为 例, 可以采用m 白 v e fo n n内 目 沁s d k来完 成音频 采集, 用v f ws d k来完成视 频 采集,而不选用 d 认 成5 加w。同样地,音视频的播放也可通过上述两类 s d k 来完成。 2 2 .l视频采集 在多媒体技术中,获取数字视频是关键的技术。常用的视频捕获方式有 两种:一是直接调用 视频 卡厂商提供的库函 数,这是 一种与 具体设 各有关的 开发技术;另一种是使用基 于操作系统的 视频开发软件包, 这是在一 种和 设 备无关的开发技术,应用 较多的如 h 石 。 ” 50 几会司的 巧 d eo 伽 , 几 “ 场 , 门 ( vfw) , d 扮 ec t x等。 v f w提供的 视频捕获是一种w 汹 如, 门 操作系统中较为常用的 视频采 集 流媒体的网络应用过程 方法, 它简单易用。 v f w的 关键思想就是抛开具 体的 硬件进行视频开发。 在 v 石 。 d o 叭 旧 系统中,当 用户 安装系统时,安装 程序会自 动安装配置视频所需的 组件, 如设 备驱动程序、 视频压 缩程 序等。 v is u a l c 升在支持v t w方面 提供有训 切 3 2 . 肠等库。 特别是它提供了 功 能强大、 简单易行的窗口 类a v i c 叩。 通过八 y l c a p 窗口 类, 程序员只要发送 接收消息并设 置相关 属性来进行视频捕获、 播放和编辑的操作。 冉 v i c 即支 持 实 时 的 视 频 流 捕 获 和 单 帧 捕 获. 它能 直 接 访问 视 频 缓 冲 区 , 不需要生成中间 文件, 实时性很强,效率高。 使用人 v i c a p 可以 很轻易 地将视频捕获 和应用程序相结合。 冉 v i c a p 给应 用程序提供了 一 个非常简 单的、基于消息的从硬件访问视 频的 接口, 使得应 用程序可以 控制视频 从捕获 到存盘的整个过程。 一般的vf w视频捕获流程大致为: 图 2 , 2 . 1 . 1 视 频捕获流程图 南京理工大学硕士学位论文流 媒休音频与视频同步的优化设 计 z j .2音频采集 音 频 采 集模 块在 收 到 采 集 启 动消 息 后, 将 待 采 集 数 据 块嵘 为 了 保 证 采 集 的连续性, 这里需要是多个数据 块) 的 地址告知驱动, 并通知驱动开始采集; 当 一块数据块采集完成后,数据发送 线程将采集的 数据取出发 送给 音频编码 实体,并申 请下一块数据送给驱 动, 音频采集线程还拥有一个 子线程,即 数据发送线程,该 线程的 任务是实 时地将采集完毕的音频数据发送至音 频编码模块。 从 1 记 。 稀 提供了一 套独立于硬件层 之上的 声音采集软件。我们可以 通过 调用一组从 触 忱开头的函数或是 发送相关的v 占 因。 ws 消息来进行声音的采 集 和回放工作,只要调用一个肠 铂 . 位四 的 动态库就可以。 以 下是在声音的采集中 涉及到的 声音格式和数据缓存格 式: 八 习 d 沁格式: 饥闷e f st n 玲 t 毛 w 0 rdw fo n n 时 毛 铭 川数 据 格 式, 般 为w 阶 尼 p 。 侧 m a 了p o m 1/ 即 脉冲 编码 wo r d 优h 时 1 1 . 15 ;11 声道数 d w o r d ns助 叩肠p er s 留 浏采样频率 d w d r d 田 如 g b yt es p e r s 沁 浏每秒数据量 wo r i 】 nb 】 以 几ai坛 n ; w 0 r d w b 妞 s p er s a l l , p le 刃 样本大小 肠 dr d c 昭1 加; 从 俏 ye f o r m 月尼x ; 节 加 v e 肠 n ” a u d 沁缓存格式, t ypede f 时 nj 以 lps tr知 da俄11 内 存 指 针 d w o rdd w b u ffer址 理 劝 刃 长 度 d w o rd廿 w b yt e s r 以 幻 rd ed ;ll已 录 音 的 字 节 长 度 dwo r d d 认j 翻 , ; d wo r d d w f 城 95; d 脚 亡 r d d w b 扣 满 11 循环次数 流拱体的网络应用过程硕士论文 成 刊 以湘佣m 习阳 * 】 p n e xt ; d wo r d 欢 冶 口 , 目; 研 从 夕e h d 凡 录音 操作的 过程为: 1 、 打 开 录 音 设 备wave l n q 阵 n ; 2 、 为 录 音 设 备 准 备 缓 存价 1以 山肠 甲 峨h ea 山 r : 3 、 给输入设备增加缓存钊 即 爬 1 . 虹 记 b u ffer , 可以 使用多 个缓存保证声音 的质量; 一4 、 开始录音叭 旧 v e l nst art; 5 、 清除缓存叭 . 代 i nu公 城 拼 此 h 。 日 er ; 6 、 停止录音叭 傲 瑰 1 o r e 喊; 、 7 、关闭录音设备叭 旧 讹1 成fo se。 回放的过程相对于录音要简单些: 1 、 打 开 回 放 设 备w 即 限 o ut 仇 。; 2 、 为 回 放 设 备 准 备缓 存w a v “ 沁 之pr 即 也 . h 。 日 “ ; 3 、写数据 ( 放音)w a v c o 旧 t 认 八 it e : 4 、停止放音叭 旧 代c以 砒朋 t ; 5 、关闭放 音设备物代 c 也 c b 鹅 气 由 于人类对声 音比 较敏感, 所以 为了 保证音 频采匆 播放的 连续性与 均匀 性, 音频采集和播放都应申 请一个环形缓冲区以 存放待编码/ 播放的 音频数据 块 地 址 . 之 所以 存 放 数 据 块 地 址 而 不 直 接 将 音 频 数 据 撼 入, 是因 为 若 直 接 填 入数据, 采集时每次 将数据发送至编码模 块时, 需 要将数据从级 冲区内 拷出; 同时播放端每次 从同 步模块接收音频数 据时, 亦需要将数据从消息中 拷入缓 冲区。这样 做对性能有一定的影响。为了 减少拷贝, 可在缓冲区内 仅存放数 据块的地址, 在音频采集模块向音频编 码模块, 或者是同 步模 块向 音频播放 发 送数 据 时 , 只 需 指 出 该 数 据 块的 地 址 及 音 频 数 据 偏 移 量 即 可 、 而 不 需 要 重 复拷贝。 z j 流 媒体的 编码 采集的 媒体数据将发 送至音柳视频编码部分 为了 避免反复申 俏解 放内 存, 编码模块应尽可能地 在采集模块发送的数据块内 就地编码, 而不是另申 请一块数据存放编码后的 数据 ( 在视频编码中,若某帧与上 祯差别 太大, 该帧编码后的数据量可能 无法装入一个r t p 包当电 必须分为多 个r t p 包发 南京理工大学硕士学位论文沈媒休音频与视频同步的优化设计 送, 这种情况下 另外申 请空间无法避免) 。 同时, 由 于编码后的 数据还会做 r r p 封装, 为了 避免反复 拷贝, 采集模 块发 送至编码模块的 数据块 应为r t p 包头留有余地。 2 3 .1 视频压缩 多 媒体数据必须进行预处理 才能适合流式 传输, 这是因为目 前的网 络带 宽 对 多 媒 体 巨 大 的 数 据 流 量 来 说 还显 得 远 远 不 够。 预 处 理 主 要 包 括 两 方 面: 一 是降 低 质 量 ; 二 是 采 用 先 进高 效 的 压 缩 算 法 . 在 由 音 频 和 视 频 构 成 的 流 媒 体网 络传输中,视 频传输的 相关 技术尤为关 键。 其根本的原 因在于 相同时 间 区 域的 视频采集信号量要远 远大于音频采集信号 量, 因此数字视频的 压缩编 码 技 术 成 为inl o ry 姆 t 视 频 传 输中 的 关 键技 术 之 一 。 传统的压缩编码是建立在香 农 ( 5 址 目 阳 动 信息 论基础上的, 它以经典的 集合论为基础,用 统计概率模型 来描述信源, 但它未考虑信息 接受者的 主观 特性及事件本身的具体含义重要程度和引 起的 后果。 因此, 压缩编码的 发 展历程实际上是以香农信息论为出 发点, 、 一 个不断完善的过 程。 目 前的 视频图像压缩算法主 要分为两种类 型: 有损压缩算法和无损 压缩 算 法。 在网 络流媒体应用系统中,为了在尽可能 满足用户的视听需 求情况下 保 证 媒 体 播 放 的 流 畅 性 我 们 必 须 减 少 传 输 数 据 量 , 往 往 采 用 的 都 是 有 损 压 缩 算法. 不视 频 传 输 中 最 为 重 要 的 编 解 码 标准 有 国 际 电 联 的从 2 61和il 2 63 , 运 动 静止图 像专家组的m . 犯 e o和国际标准化组织 运动图 像专家的州 田 e o系列 标 准, 此外在互联网 上被广 泛应 用的 还有r . 踌 n et 肠 . rks 的及 比 i v i d eo、徽软公 司 的w 州 叮以 及八 p p le 公 司 的你 血 灯 加 哆等 。 1 .il2 6 1 h.261 最初是针 对在is d n上实现电 信会议 应用, 特别是面对面的可视电 话 和视频会议而设计的。实际的 编码类似于m p e o算法, 但不能 与其兼 容。 h.261 在实时编 码是比拟 于 e o占 用的c p u运算要 少的多。 此算法为了 优化 带 宽占 有量, 引进了在图像质量与运动幅度之间的 平衡折中 机制, , 也就是旅 剧烈运动的图像比相对静 止的图 像质量要差。因 此这种方法是 属于 恒定 码流 可 变质量编码而非恒定质量可变 码流编 码。 2 . h.2 63 h.263 是国际电联i t u 一的 一个标准草案, 是为了 低码流通信而设计的。 但实际 上这个标准可 用在 很宽的码流范围内,而 非只限于低码流, 它在很 多 应用中 可以 取代h.2 61。 视频分辨率为3 52x 2 88(ci d 和 1 76xl 科( q 仁 1 玛 等。 l 3 流媒体的网络应用过程硕士论文 它主要用于电 视会议和可视电 话等压 缩标准. h 2 63 的编码算法和h.2 61 二 样,但做了一 些改善 弘以提高 性能和 纠错能力.1 998 年i u t -t推出的h . 2 曰 + 是h. 2 63 建 议的 第2 版, 它提 供了12个新的可 协商模 式和其他特征, 进州 步提高了压缩编 码性能。 州 田 e g 是 活 动 图 像 专 家 组 ( m 。 城 吧p ic 姗 e xl 沁 rtsg io up)的 缩 写 , 于1 98 合 年成立, 是为数字初音频 制定压缩标准的专家组, 目 前己 拥有3 00多名成员, 包 括ib m 、 s un、 b b c 、 nec 、 班tel 、 声 了 被 认定力s d t v 和h d t v的编 码标准。 . , . 材 p e g 碑标准 运 动图 像 专家 组 于1望 冲津泛 为 正 式 公 布 了mpe o4 标 准 第 版 本 同 年年底 州 于 e 0 4 第二版亦告 完成,且于 泛 以 沁年年初正式成为国际标准 州 田 e g 礴是48 00 b 自 1 0 m 叻 下的 可 变码 率 的 音 频 和 视频 压 缩 编 码 标 准. 视 频 分 辨 率为3 52x 2 88( o f) 和17 6 x l 科( 试功等 它主 要 用 于 可 视电 话 、 视 频电子邮件等的压缩标准。 州 田 e o 一 4 标 准 将 众 多 的 多 媒 体 应 用 集 成 于 一 个完 整 的 框 架内 , 旨 在 为 多 媒 体 通 信 及 应 用 环 境 提 供 标 准的 算 法 及 工具 , 从而 建 立 起 一 种 能 被 多 媒 体 传 输、 存储、 检索等应用普 遍采用的 统一数据格式, 并根据不同的应用需求, 南京理工大学硕士学位论文流媒体音颇与视颇同步的优化设计 现场配置解码器,开放的 编码系统也可随时加入新的有效的算 法模块。 为支持 对视频内 容的 访问, 州 于 e g 一 4 提出了“ 视频对象” 的 概念。 翻 于 e o 一 4 具有很多 优点。 它的 压缩率可以超过 1 00 倍, 而仍保有极佳的音 质和画 质:它可利用最少的数据,获取最佳的图像质量,满足低码率应用的需求: 它更适合于交互式 八 v服务 及远程监控。为了 满足各种应用的需求, 州 口 e g 一 4 标准的使 用范围 相当 庞大,具有广泛的适应性 和可扩展 性。 m p e g 闷的编码理念是: 州 田 e g 礴 标准同以前 标准的 最显著的差别在于 它是采用基于对象的编码 理念,即 在编码时 将一幅景物分成若千在时间 和空 间 上相互联系的视频音频 对象, 分别编码后, 再经过复用传输到接收 端,然 后再对不同 的对象分别解码, 从而组合成所需要的 视频和音 频191 、 这样既方 便我们对不同的对象采用 不同的 编码方法和表示方法,又 有利于不同数 据类 型间 的融合, 并且这样也可以方 便的实现 对于各 种对象的 操作及编辑。 例如, 我 们可以 将一个卡通人物 放在真实的 场景中, 或者 将真人置于一个虚拟的演 播室 里, 还可以 在互联网 上方 便的实 现交互, 根据自 己的 需要有选择的组合 各 种 视 频 音 频以 及图 形 文 本 对 象 。 其 编 码器 如 图2. 3 . 1 . 1 所 示 阴 流媒体的网络应用过程 硕 士 论 文 图2 . 3 . 1 . 1 即比- 4 视频 信号的编码器框图 m p e g 礴的主 要技术有191, 1 、形状编码 形状信息的获得首先要对图 形进行分析 和分割, 把各个代表不同内 容的 目 标分割后再用形 状表示。形 状信息 通常 用二值月p ha平面和灰度a 知 恤平 面 来 表 示。 二 值a lp ha平 面 可 用 临 近 信 息 进 行算 术 编 码 ( c a 卫 ) ; 灰 度川 p ha 平 面可用运动补偿加d c 飞 , 变换方式类似纹理编码一样进行编码。 2 、 运动估计和 补偿 n 田 e g -4中 提供了 基于块的运动估计和补偿技术来有效 地利 用各个v o p 中视频内容上的时间冗余。一般,运动估计和补偿可以看作针对任意形状图 像 序列的 块匹配技术的延伸。 块匹配过程对 于标准 宏块使用; 预测误差和 用 于 预测的 宏块运动向 量一起被 编码; 高 级运动补偿模式 支持重 叠块运动补偿, 可 对8 x 8 块运动向量 进行 编码。 为了 使运 动估计 得到高 编码效率, 预侧图像 和被预 测图 像越相似越好,所以在运动估计 之前要 先进行补偿。 在目 标边界 上的m b先用 水平 填补而后用垂直填补, 其余完全在v o p之 外的m b用 扩 张填补。 1 南京理工大学硕士学位论文流媒体音颐与视频同步的优化设计 3 、 纹理编码 纹理 指的 是1 . v o p 图像和p 八 卜 v o p 经运动补偿后残留的图 像信息。 纹理 一 般在变换 域进行压缩编码和嫡编 码。 其中用于图像压缩的变换有离散 f o r 吮 变换 ( d f t ) 、离散小波变换 ( d v r f ) 、 奇 异值分解( svd ) 、 k-l 变换、 m 白 ish 变 换、 h 改 ia m ar d 变换、 h arr 变换, s la ” t 变换、离 散余弦 变换 印c】 , ) 。 其中k-l 变换的 去相关 性最好, 而 d c t是 接近 k , l变换效果的最便于实现的 变换。和 m p e g-1 忍 一样, 州 于 e g 4 也选择了 d c t 。通常,用于数据压缩的嫡编码方法有霍夫曼 ( 枷伍皿 n ) 编码、 矢量量 化、算 术编码、游程编码、lzw编码等。 对于纹 理 编码, mp e g 闷选择了 把游程编码、矢量量 化和h u 场 圈 坦编码进行混合编 程 编码 ( v l c ) 。 纹理编码要经过d c r 变换、 量化、 d c iac 预测、扫描、 基 于h u 丘 以 m的v l c编码。 4 、伸屈性 视频的 伸屈 性, 包括空间伸屈性和时间伸屈 性。空间 伸屈性可以 得到 不 同的空间分辨率 , 时间 伸屈 性可得到不同的时间分辨率。 每种伸屈都有多层, _ 在只有高低2 层的情况下,底层指的是 基本 层,而高 层指的是增强层。 5 、 差错回避 兮v l c 码中 的 一 个 比 特 错 误 会 引 起同 步 丢 失 , 而 运 动 补 偿 则 会 引 起错 误 传 、 递 ,肥 e “ 的 差 错 回 避 有 三 个 方 面 : 重 同 粼 数 据 恢 复 和 错 误 隐 藏 重同步, 是指差错被检侧后,解码器和码流 之间重新同步的技 术。 甲般 来说,这种方法 会将错误之前的同 步点到重建的同步点之间的数据丢弃。 不 过这些丢弃的数 据可以 用其他的技术进行恢复和实施 错误隐 藏. 数据恢复工具 在解码器和码流重新建立起同步后用来恢复丢弃的数据。 这 些 工 具 不 是 简 单 的 用 容 错 码 恢 复 , 而 是 用 一 种 差 错 回 避 手 段 : 即 用 可 逆 v l c码字进行v lc 编码。 、 错 误 隐 藏, 在 重 同 步 有 效 地 将 错 误 定 位 后 可以 很 容 易 处 理 。 为了 进 二 步 提高错误隐匿的能力, 有必要 增加错误定位能力,特别是数据分割可以 用来 提 高 错 误 定 位 能 力 . 月 前,. n 田 e o专 家 组 又 推出 了 专 门 支 持 多 媒 体 信 息 且 基 于内 容 检 索 的 编 码方案n 于 e g ? 及多 媒体框架标准拟 于 e g , 2 】 , 另外,由】 t u . t 和栩 于 e g联 合开 发的 新标准h.2 64是最新的视频编码算 法。 为了降 低码率, 获得尽可能 更 好图 像 质 量, h. 264 标 准 吸 取 了州 于 e o 碑的 长处 , 具 有 更 高 的 压 缩比 、 : 更 好的 信道适应性,必将在数字视频的 通信和存储领域得到广泛的应甩, 其发 展潜力不可限量。 沈媒体的网络应用过程硕士论文 表 2 . 3 . 1 . 1 视 频压缩编码标准比较 编码标准 1.。 百 于 翻 e ( 卜 1 侧乎 日斗2 , “甲 厂 f 2 侧旧以上带宽 的德定信退备皿 洒n , 卉 “ 宽带网络、有线 电视、数字电视等 子 f. r 汀侣 . 仆 交互式多媒体系 统以及各种基于对象 的应用亡卜 表2. 3. 1 . 1 是各 种常用的 视频编解码标准的比 较。 在我们的优化系统申, 考虑到 编码适 用范围、 视频图 像传输质量和压缩比、比 特率,以 及网 络流媒 体 格式 的 应 用 趋 势 , 最 终 选 定州 于 e 。 确 标 准。 它 是 一 种目 前 在 视 频 会 议中 应 用 较 广、 相 对比 较 成 熟的 标 准 : z j j音频压缩 近些年来 随着语音编码技术的不断发展, c c i t t 对公 用电 话网 及公用网 制订了 一些音频压缩标准, 现介绍如下: 1 .q7 l l 1 972年c ci tr为 电 话 质 量 和 语 音 压 缩 指定 了pcm标 准q 7 1 1 . 其 速 率 .食 为64州5 ,使 用p 律或a律的非线性量化 技术,主 要用于公共电话网中. 2 . q7 2 2 1 95 9 丫c c 爪 为 调 幅 广 播 质 量 的 音 频 信号 压 缩 制 定了 q 72 么它 使 用 子 带编码( sbc)方案 ; 其 滤波器组将输入信号分成高低两 个子带信号, 然后分别 使用a d p c m进行编码。 g 722 能将22 4 k 创 , 的调幅 广播 质量的音频信号压缩 为“ k 创 公主 要 用 于 视 听 多 媒 体 和 会 议 电 视 等; 今 二e7 2 3 1 9 9 6 年i t u . t 通过了q 723 标准一 “ 用于多媒体 传输的5. 3 k b 坛 或6. 3 k u 自 l 南京理工大学硕士学位论文 流棋休音顺与视频同步的优化设计 双速率语音编 码、 它 采用多 脉冲激励最大 似然 量化 ( 州 田 引压 q ) 算法 此标 准可应用于视频电 话以 及ip电 话等方面 、 今 l 住7 2 8 为了 进一步降 低压缩的速率, c c i t t 于1 992 年指定了q 7 2 8 标准, 使用 基于 低 时 延 码 本 激 励 线 性 预 测 编 码( l o ce廿) 算 法 , 其 速 率 为1 6 k u s ,主 要 用 于公 共电 话网 中 。 5 .g729 1 996 年i t u . t通过了q 72 9 标准, 它 使用s k 杖 5 的 共扼结构代数码激励 线性预侧 ( c s . a c e lp)算法, 此标 准将在无线移 动网、数字多路复用系统 和计算机通信系统中应用。 q 729 编码器是为低时 延应用设计的,它的 帧长只有 1 0 n , 处理时延也 是 】 o n . ,再加上 5 心 的前视, 这就使得 q 729产生的点到点的时延为 25血 , 比 特率为 s k bps .这些时延性能 在互 连网中 很重要,因为我们知道任何能减 少时延的因素都是非常重要的。本优化系统将采用 q7 29 编码方式。 几 种音频 压缩标准的比 较如表2. 3. 2. 1 所示: 表 2 . 3 . 2 . 1 音频编码标 准比 较 标准 比 特 速 率 编码技术应用 g 7 l l64kb j 写氏 二 m 公共电话网 q7 22科 七 b 抽s bc+ ad p cm 视听多媒体和 会议电话 g 72 35.3k b 抽 或 6 .3k b 抽 翻 田 制压 q 视频电话及 ip 电话等 g 72 吕1 6k b /sld( e l p 公共电话网 q 72 98目 国5cs- acdl p 无线移动网、 计 算 机通信系 统等 1 4流媒体的 传物 2. 4. 1 流媒体传 输的 过程 流式传输的 过程一般是这样的: 用户选择某一流媒体服务后,节 七 b 浏览 器与研 触 b 服务器之间使用h t t p 汀 c p 交换控制信息, 以 便把需要 传输的 实时 数 据从 原 始 信 息 中 检 索出 来 : 然 后 客 户 机 上 的, 触 b 浏 览 器 启 动川v 价lp 留 程 序, 使 用h , 即从, 触 b 服 务 器 检索 相 关 参 数 对h e 珍 er 程 序 初 始 化。 这 些 参 数 可能包括 目 录信息、习v数据的编码类型或与 川v检索相关的服务器地址。 流媒体的网络应用过程 , 刀v he】 per 程序及a z v服务器运 行实时流 控制协议( rtsp) , 以交换内 叩 传输 所需的 控制信息。 与c d 播放机或v c p 匕 所提供的 功能相似, 盯s p 提供 了操纵播放、 快 进、 快倒、 暂停及录制等命 令的 方法. 内 ,服务器使用又 印 川d p 协 议 将a 尹v数 据 传 输 给九 ,客 户 程 序 ( 一 般 可 认为 客 户 程 序 等同 于h e l沛 程 序 ) , 山 旦a / v 数 据 抵 达 客 户 端 , 习 喻 客 户 程 序 即 可 播 放 输出 。 需要说明的是, 在流式传愉中 , 使用r t p iud p 和盯s p 汀 c p 两种不同的 通信协议与a / v 服务器建立联系, 是为了 能够把服务器的 输出 重定向到一个 不 同 于 运 行a 闪 月 e l两 程 序所 在客 户 机 的目 的 地 址. 实 现 流 式 传 输 一 般 都需 要专用服务器和播放 器, 其基本原理如图1 4. l i 所示。 图2.4 : 1 _ 1 流式传 输基本原 理 2.4 )流媒体传输协议 流媒 体在因 特网上的传输必然涉 及到网 络传输协议, 其中 包括 1 址 . 毛 et 本身的多媒体 传输协议,以 及一些实时流式 传输 协议等, 只有采用合适的 协 议才能更好的发挥 流媒体的 作用,保证传 输质量qos. 1 址 . , 改所普遍使用的是t c p/ ip传输协议切 但是这种可靠传输协议并不 适合 视音频的实时 传输、 主要有以 下几个原因 卜 t c p 的 重传机制 我 们知 道, 在tc即p 协议中, 、 当发送方发现数据丢失时, 它将要求重传 丢失的数 据包。 然而 这将需要一个甚至更多的 周期 ( 根据t c p ll p的 快速重传 南京理工大学硕士学位论文沈拱体音频与视频同步的优化设计 的多 媒体数据,由于容错保 护和数据重传 可能不能恢复所有的错误数据, 错 误掩藏模块可以利用重构的多 媒体数据的 相关性来掩盖这些错误, 最后 这些 数据就根据音视频的不同分别 存放到各自 的 播放缓冲区中, 等待播放给用户。 2. 幻 流媒体的播 放方式 2 . 5 盘1 单播 在客户端与媒体服务器 之间需要建立一 个单独的 数据通道,从一台 服务 器送出的 每个数据包只能传送给一个客户 机, 这种传送方式称为单播。 每个用 户必须分别对媒体服务器发送单独的查询, 而媒体服务器必须向 每个用 户发 送所申 请的数据包拷贝。这种巨大冗余首 先 造成 服务器 沉重的 负担,响应需 要 很长时间, 甚至停止播放:管理人员 也被迫购买 硬件和带宽来保证一定的 服务质量。 2 乃 j j组播 ip组播 技术构 建一种具 有组播能力的网 络, 允许路由 器一次 将数据包复 制到多 个通 道上。 采用组播方式,单台 服务器能够对几 十万台 客户机同 时发 送连续数据流而无延时。媒体服务器只需要发送一个信息包,而不是多个; 所有发出 请求的客户 端共享同 一信息包。 信息 可以 发送到任意 地址的 客户机, 减少网络上传 输的信息包的总量。网 络利 用效率大大提高, 成本大为下降. 2. s j j点播与 广播 点播连接是客户端与服务器之间的主动的 连接。 在点播连接中, 用户 通 过选择内 容项目 来初始化客户端连接。用户可以 开始、 停止、 后退、 快进或 暂停 流。 点播连接提供了 对流的最大控制, 但这种方式由 于每个客户端各自 连接服务器,却会迅速用完网络带宽。 广播指的是用户被动接收流。 在广播过程中,客户 端接收流, 但不能控 制流。 例如,用户不能暂停、快进或后退该流。 广播方式中 数据包的单独一 个拷贝 将发送给网 络上的 所有用户。使用单播发 送时, 需要 将数据包复制多 个拷贝,以 多个点 对点的 方式分别发送到需要它的 那些用户, 而使用广播方 式发 送, 数据包的 单独一个拷贝 将发送给网络上的 所有 用户, 而不管用户是 否需要, 上述两种传输方式会非常浪费网 络带宽。 组播吸收了 上述两种发送 流姚体的网络应用过程硕士论文 方式的长处,克 服了 上述两种发 送方式的弱点, 将数 据包的 单独一个拷贝 发 送给需要的 那些 客户 组播不会复 制数 据包的多 个拷贝 传输到网 络上,也不 会将数据包发送 给不需 要它的那些客户. , 保证了网络上多媒 体应用占 用网络 的最小带宽。 南京理工大学硕士学位论文流媒休音频与视频同步的优化设计 3 . 音视频同 步的概念 多 媒体 通信中 ,音频和视频同步播放,以 及 控制单 个媒体的传输和播放 延时, 这两个问 题是相互联系的。 , 音频信息需要保持其 连续性,而视频信息 的变 化不应过于超前或滞后于 音频信息的 变化。因此, 我们这里的音视频同 步方案是建立在单个媒体内同步的基础上的。 1 1流 媒体同 步的 标准 泞同 步 要 求 可以 用 感 知 服 务 质 量 ( 件哪加 间q ua l血 y of, , , ice , p -( 沁 5 ) 来 表达, 感知服务质量决定于媒体及其应用。为了 描述同步 要求,实现相关的 控 制 机 制, 定 义了 一 些p 石 qos 参 数, 这 些 参 数 包 括 单 个 媒 体 流 中 相 邻 媒 体 单 元所 经历的时 延抖动力 ( 血 娜 j 袱 er ) 以 及音频和视频的相关媒 体单元的时间 差,即偏移 ( 业洲 ) 。 , 人体 对 抖 动 和 偏 移的 感 知 测 量 结 果 表明 , . 如 果 抖 动 和 偏 移 限 制 在 一 个 合 适的范围内, 则媒体是同步的 , 对于单 个媒体和两个相关媒体的qos 定义了 可以 接受的同步 边界。 研究表明 ,对于音频或t v品 质的视频,时 延抖动小 于 0. 015 时,音频或视频播 放处于同步 状态, 否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论