视音频编码技术.ppt_第1页
视音频编码技术.ppt_第2页
视音频编码技术.ppt_第3页
视音频编码技术.ppt_第4页
视音频编码技术.ppt_第5页
免费预览已结束,剩余34页可下载查看

视音频编码技术.ppt.ppt 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

视频编码技术,运动图象的三要素,帧分辨率(dvd图象: 704x576像素/帧) 像素(颜色的位深,真彩24位) 三原色(红绿篮rgb) 亮度y、色度cb,cr 帧率(pal:25帧/秒;ntsc:30帧/秒),像素的数字化:色彩模型,rgb模型(红绿兰) 红:8bit 绿:8bit 兰:8bit rgb模型计算机上常用 ycrcb 模型(亮度加色差) 亮度: 8bit 红色差: 2bit(色差压缩) 兰色差: 2bit(色差压缩) ycrcb 模型更适合图形压缩,数字图象格式:帧分辨率,像素、帧率两要素在数字视频图像格式中为隐含要素。,运动数字图象采集数码量,1帧4cif(dvd)图象像素:704x57640万/帧 1像素(红绿蓝): 3x8位编码=24bit码率 pal制dvd图象帧率: 25帧/秒 每秒图象采集数码量: 40万/帧x 24bit x 25帧/秒=240000000bit/秒 dvd图象原始数码量:240mbit/秒( rgb模型) vcd图象原始数码量:60mbit/秒 即使是vcd图象如不压缩编码也无法在2m专线(e1专线)上传输,关键技术,视频压缩(视频编码) 音频压缩(音频编码) 交换方式与控制方式,视频压缩(视频编码),图象固有的统计规律 空间的相关性(空间冗余) 时间的相关性(时间冗余) 视觉、心理 录入和显示设备,8,国际标准组织 itu (vceg) 更悠久、更专注于传统的视频编码目标(例如,更好的压缩和包丢失/误码恢复) iso/iec(mpeg) 更大、更具有雄心勃勃的目标(例如,“面向对象视频编码”、“自然分析合成混合编码”和数字电影) 两者有时合作制定标准(例如,iso、iec and itu 协作制定了 mpeg-2/h.261 和 mpeg avc/h.264) 活跃的产业联盟和协会 dvd、3gpp、3gpp2、 smpte、ietf, etc. 中国的 avs 游离于正式标准之外的厂商,事实上的工业标准: microsoft real networks quicktime,视频编码标准:视频编码标准组织,9,h.264 / mpeg4 avc,h.263+,h.263 +,mpeg1,mpeg4,视频编码标准:历史,jpeg,jpeg200,10,视频编码算法,运动矢量,量化的变换系数,运动矢量,内嵌解码器,预测图像,量化参数,t,q,iq,it,运动估计,+,过去、当前、 未来图像帧,运动 补偿,块大小 可变预测,增强的熵编码,4x4 整数 “dct”,vlc & 比特流 打包,头信息,h.264 视频流,多参考帧 预测,;,去块效应滤波,帧内 预测,4x4 整数“idct”,当前帧,原始图像,变换&量化去除空间冗余 预测(运动补偿)去除时间冗余 熵编码去除变换系数的冗余,11,运动补偿:去除时间冗余,例: 序列图象,视频编码技术:运动补偿,动机:运动/固定目标的大小是可变的 许多小块也可能需要花费许多比特来编码 不同块大小和形状的运动补偿,12,运动估计匹配块的尺寸不断缩小 h.261:1616 h.263:88 h.264:7 种可变块大小,最小 44 avs:4 种可变块大小,最小 88 节省了15%以上的比特率,foreman 30fps qcif,运动补偿:发展趋势,13,运动估计参考帧的数量不断增加 i 帧(帧内编码)、p 帧、b 帧 多参考帧预测:假设为5个参考帧预测,相对于一个参考帧来说,可节省 5% 到 10% 比特率。 h.264 p 帧、b 帧前后最多 16 帧 avs p 帧前后 2 帧、b 前后 1 帧,运动补偿:发展趋势,14,变换编码:去除空间冗余。变换后,在变换域中,低频系数的能量远大于高频系数的能量,变换系数的相关性将大大去除。,视频编码技术:变换编码,15,变换编码:dct(离散余弦变换),dct 快速算法是中国人陈文雄 (1977) 提出,llm 快速 dct 算法 (loeffler, ligtenberg and moschytz,1989) 此算法需要 11 次乘法和 29 次加法,16,变换编码: dct 变换的尺寸,dct 编码效率和尺寸之间的关系是单调曲线,其拐点在44、88、1616 区段 需要根据图像分辨率(qcif、cif、sdtv、hdtv或数字电影)选择 dct 变换块的大小。 44 更适宜于小尺寸图像,相应的块效应主观感觉也会减弱 44 更好的运动补偿,意味着更小的空间相关性 h.264 有 44、88 变换块 avs 有 88 变换块,17,变换编码: dct 变换的复杂度,传统的 dct 变换 dct 需要实数运算,反变换中引起了精度的损失。 h.264、avs 等使用了非常简单的44或88 整数变换: 对传统 dct 非常精巧的逼近 变换矩阵只包含 +/-1 和 +/-2 计算只需要加法、减法和移位 结果显示仅有可以忽略不计的质量损失 (0.02db),差值图像基于 4x4 整数变换: 主类:自适应块大小变换(8x4, 4x8, 8x8) 对于 8x8 色度和 16x16 帧内亮度块dc 系数再次变换(repeated transform),18,获得好的性能,源于: 通过上下文选择模型 基于本地统计的自适应估计 算术编码减少计算复杂度,视频编码技术:熵编码,h.264 cabac 熵编码,19,视频编码技术:帧内预测,动机:i 帧是自然图像,具有很强的空间相关 h.261、mpeg2 没有帧内预测,只有帧间预测 h.263+ 和 mpeg4 中,在变换域中根据相邻块对当前块的某些系数做预测 h.264 在空域内,依据与当前块相邻的象素,对当前块进行预测。 宏块或块基于先前编码的块进行预测: 先前编码的块位于当前块的上面和/或左面的块 亮度块有两类帧内预测方式: 9 种 44 帧内预测模式,用于纹理区域 4 种 1616 帧内预测模式,用于平滑区域 色度样值只有 4 种 88 帧内预测模式,类似于亮度样值的 1616帧内预测模式 avs 同样思想: 5 种 88 帧内预测模式,用于纹理区域 4 种 88 帧内预测模式,用于平滑区域,20,h.264 去块效应环路滤波器 高压缩解码的帧间图像 显著地减小预测残留图像,视频编码技术:去块效应环路滤波器,21,视频编码技术:主要视频编码标准的技术比较,22,h.264 编解码器的实现意味着放宽通常的复杂度(存储和计算)限制,相对于 mpeg2编解码器,粗略估计: 解码能力需要增加 4-5x 编码能力需要增加 10x 折中:最好的质量和最小的带宽消耗,高度复杂计算使得 asic 昂贵,实现复杂。,视频编码实现:h.264,md:模式判决 tq:变换和量化 mc:运动补偿 me:运动估计 vlc:变字长码,23,ip 视频电话、会议,dtv h.264,istb,vod,h.264 视频应用环境,ip 视频流,dtv,mpeg2 over ip,stb,3gpp,vod,sip / h.264 over ip,转码,视频监控,hfc,转码,转码,视频编码应用:领域,24,小结,现代视频编码体系结构没有革命性的改变,基于混合视频编码方案,但不断改进,越来越精巧和完善,使得压缩率和图像质量不断提高,复杂度也大大增加: 新的关键技术特征: 增强的运动补偿 小尺寸的整数变换 增强的熵编码 cavlc 和 cabac 其它:增强的去块效应滤波器等 在相同质量下,节省比特率 50 以上,主观质量感觉比客观 psnr 指标更好。 复杂度增加,编码器 3-10x,解码器 2-5x 最新发展的标准有 h.264/mpeg avc、smpte vc1/ms wmv9和我国的 avs。 研究方向是可伸缩的视频编码(scalable video code,svc),不同的应用可以由一个共同的码流来实现,目前已经公布的视频编码标准都没有这个功能。,数字音频压缩技术 digital audio compression,26,引言数字音频的数据量,数字化是趋势 信息量非常大,高传输带宽或存储容量 5.1 声道环绕立体声: 648khz18bits.184mbit/s,减少代表原始声音信号的信息量 更好利用现有频率资源 便于计算机处理和存储 宽带网中高质量传输,27,波形编码 将波形直接变换成数字码流。特点:比特率较高、解码后质量较高、延时较小。可以分为:时域波形编码,如pcm、adpcm、m等;频域波形编码,如:子带编码(sbc)、自适应变换编码(atc)等。 pcm原理(1937年,法alec reeres) 电子管 pcm(46年,bell实验室) 晶体管 pcm(62年,市话扩容,64kb/s) 单片ic pcm(70年代,微波、卫星、光纤) 增量编码原理(1946年,法 de loraine) 自适应增量 cvsd(60年代末,军用,32、16kb/s) cvsd(continuously variable slope delta modulator) (连续变化斜率增量调制器) 其他编码(70年代,adpcm、subband、atc、apc等) 在16kb/s以上得到较好的话音质量。 特点:话音质量好,但编码速率高。,音频编码历史:数字语音(1),28,参数编码 从信源信号的某个域中提取特征参数,并变换成数字码流。如:各种声码器。 波形编码通道声码器(39年,dudly,二次大战保密电话) lpc声码器(67年,atal、schroeder) 同态声码器(69年,oppenheim) 共振峰声码器(71年,rabiner、schafer、elanagan) mbe声码器(88年,griffin、lim) 波形插值(91年,w.b. kleijn) 2.4kb/s、1.2kb/s、较好;600-800b/s可懂。 特点:编码速率低,自然度差、解码后质量较低、延时较大。,音频编码历史:数字语音(2),29,混合编码器 将以上二种方法混合,利用线性预测、vq、a-b-s、感觉加权、后滤波等技术。如:g723.1,g728,g729,gsm的语音编码,is-95的语音编码等。 多脉冲激励线性预测(mpelp 1982 atal、remde) 规则脉冲激励线性预测(rpelp 1985 deprettere、kroon) 码本激励线性预测(celp 1985 manfred、schroeder、atal) 8-16kb/s,高质量。特点:话音质量高、编码速率低,但算法复杂。,音频编码历史:数字语音(3),30,主要应用于娱乐与鉴赏,对于重建信号的音质有很高的要求,目前采用比特率较高的波形编码技术进行压缩。可以直接在时域进行,也可以转到频域或其他变换域进行。 1982年激光唱盘 (cd: compact disk)上市。md:mini-disk,日本索尼公司采用atracadaptive transform acoustic coder压缩技术。 1987数字音频磁带录音 (dat: digital audio tape) 问世。 dab (digital audio broadcasting) 源于欧洲。 ac3 来自 dolby 公司 ,音频编码历史:宽带音频,31,音频编码性能评价(1),编码速率(kbps、kb/s) 信号带宽:可懂度、自然度、透明度。 2003400hz、507000hz、2015000hz、1020000hz。 采样速率:8khz、16khz、32khz、44.1/48khz。 样值比特数(b/样点),总速率 r(kb/s)。 固定码率及可变码率。 重建语音质量 客观评价: 信噪比 分段信噪比 (一般15db以上较好,20db以上相当好),32,音频编码性能评价(2),编解码延时(ms) 公众网(25ms)、点对点、广播、存储 回声控制或回声抵消 正常通话秩序 与重建质量关系 算法复杂度 硬件、成本 浮点、定点 mips、ram、rom 其他 抗随机误码和突发误码能力 抗丢包和丢帧能力 对不同信号编码能力 级联或转接能力,语音压缩(音频编码),itu-t g.711(1988) 语音pcm编码标准,64kbit/s g.722(1988) 7khz音频编码标准,64kbit/s g.728(1992) ld-celp语音编码标准,16kbit/s g.723.1 低速率语音编码建议,具有两种速率6.3kbit/s和5.3kbit/s。,mpeg mp3:mpeg1 audio layer-3的简称从mpeg-1标准衍生的、开放的编码方案50k-100kbit/s acc mpeg2音频压缩 mp4,34,声音压缩编码理论基础,冗余(redundance) 信号一部分可由另一部分重建或另外表达形式简单说明,称为信号有冗余 去除冗余实现压缩编码 信号冗余是变化的,故不能产生恒定码流输出 不相关 (irrelevance) 听觉不能感觉的那部分信号,它对声音信号的确定或音色和发音位置没有贡献 不相关信号部分不传输 利用掩蔽效应来掩盖量化失真 人耳听觉特性 人耳分辨能力 人耳对不同频段声音的敏感程度不同,通常对低频比对高频更敏感 人耳对语音信号的相位不敏感 人耳掩蔽效应 masking effect ,35,现有标准:语音编码标准 (1),36,pcm:脉冲编码调制 adpcm:自适应差分脉冲编

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论