[精品]高清avs视频编码芯片结构设计与fpga验证北京大学数字媒...96_第1页
[精品]高清avs视频编码芯片结构设计与fpga验证北京大学数字媒...96_第2页
[精品]高清avs视频编码芯片结构设计与fpga验证北京大学数字媒...96_第3页
[精品]高清avs视频编码芯片结构设计与fpga验证北京大学数字媒...96_第4页
[精品]高清avs视频编码芯片结构设计与fpga验证北京大学数字媒...96_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

高清AVS视频编码芯片结构设计与FPGA验证北京大学数字媒体研究所,高清AVS视频编码芯片结构设计与FPGA验证,设计要求设计方案系统结构,应用前景,SmartphonePDA,DV,PMP MP4,IPTV,IPCAM,DVB-T,DVR,Videophone,设计要求,支持AVS-P2 基准档次。实时高清编码器:1920x108030fps/1280x72030fps支持I、P、B 帧支持所有帧内预测模式(采用重构像素作为参考像素)支持所有帧间预测模式整像素搜索范围达到256x192(分层全搜索),支持1/4 像素运动补偿. B 帧前后向各一个参考帧,P 帧2 个前向参考帧。 支持前向、后向、对称双向、直接、跳过等全部模式。 支持所有可变大小块模式16x16, 16x8, 8x16, 8x8。,设计要求,支持率失真优化(RDO)模式选择仅支持帧模式,不支持场模式。支持去块效应滤波。码率控制算法由嵌入式处理器软件实现。,设计方案,编码芯片前端设计开发流程:,系统模型,RTL(寄存器传输级),netlist生成,FPGA/ASCI,.,VHDL/VerilogHDL,细化,C/C+描述,综合,更底层设计,载入,AVS视频编码结构图,熵编码,反量化反变换,运动补偿预测,控制数据,量化后的变换系数,运动数据,帧内/帧间,编码控制,解码器,运动估计,变换/量化,-,0,环路滤波,帧内预测,针对ASIC设计的AVS标准算法优化大窗口全搜索IME;全模式支持1/4像素精度FME,IME FME高效共享的片上搜索窗缓存结构;基于率失真优化的模式选择算法;对数据倚赖流水作业阻塞免疫的帧内预测算法;结构优化的宏块级和块级流水线结构设计;EC和MD复用的游程编码 码表切换 码变复用;适合VLSI实现的结构归整的运动矢量预测,硬件系统结构,系统流水线结构:,VLSI实现系统关键参数分析,系统流水结构实时吞吐瓶颈 基于RDO模式选择代价函数RDcost复杂度分析: DCT-H,DCT-V,Q,IQ, Zigzag Scan, VLC IDCT-H,IDCT-V候选模式复杂度分析 帧内模式 Intra :5x4 + 4x2 = 28次RDcost计算。 帧间模式 :运动预测方向+可变大小块分割模式 运动预测方向(前,后,双向对称)由IME FME完成选择 RDO MD仅仅选择可变大小块分割模式和直接模式 Inter :6x6=36 次RDcost 计算。,RDO模式选择的可能性 H.264 颗粒度更小,模式更多 AVS相对颗粒度适中,模式相对比较少 AVS DCT IDCT块8x8比H.264的4x4块大,硬件消耗也大 权衡有实现RDO模式选择的可能性RDO模式选择算法简化思路:I帧intra模式选择不简化, RDO模式选择P,B帧中intra模式采用基于SAD判据P,B帧内inter模式中的预测方向(前,后,双向对称)由IME FME完成选择P,B帧内inter模式中的可变大小块模式选择由RDO模式选择实现,I帧 Intra :5x4 + 4x2 = 28次RDcost计算。P,B帧 8x8, 8x16, 16x8, 16x16, skip/direct, intra 这些模式需要7x6 = 42 次RDcost计算RDcost计算 DCT-H,DCT-V,Q,IQ, Zigzag Scan, VLC, MD IDCT-H,IDCT-V, MD MD块级流水周期T=25cycles 如果不作简化,需要42+6=48T1200cycles 那么720P 30fps需要的系统时钟频率大约为: 108000MBs/sx1200 = 129.6Mhz 那么1080P 30fps需要的系统时钟频率大约为: 244800MBs/sx1200 = 293.7Mhz,简化: P.B帧 8x8(1), 8x8(2), 8x16, 16x8, 16x16, skip/direct, intra- skip/direct, intra, 3种候选模式实际系统时钟频率: 设RDO块级流水周期为25cycles,则RDO一级MB处理时间为25x37=925 cycles. MB级流水周期系统时钟频率:1920x1088x30/256 = 244800MB/s 244800 x 925 = 226.44Mhz 1280x720x30/256 = 108000MB/s 108000 x 925 = 99.9Mhz,流水线结构,第一级:整像素运动估计(IME):第二级:分像素运动估计(FME):第三级:编码模式选择、intra预测(DB/IP):第四级:可变长编码、去块效应滤波(EC/DB):,流水线结构,流水线结构(1),第一级:整像素运动估计(IME):算法描述:采用分层全搜索算法(3层)。搜索窗为256x192。搜索中心(0,0)点。P帧前向2个参考帧,B帧前后各1个参考帧。,整像素运动估计,需求分析:假设采用并行256 个PE 结构,每个时钟搜索一个侯选 MV,需要256192=49152个时钟完成整个窗口的搜索,如 果采用并行结构保证搜索速度,付出的硬件代价是无法接 受的。三层全搜索算法:分层搜索思路可以快速实现搜索收敛。分层搜索的思想是:将当前帧和参考帧按照一定比例降采样,然后逐层搜索。,整像素运动估计,三层全搜索:,4:1,4:1,整像素运动估计,16:1降采样:,整像素运动估计,level-2层搜索: 搜索全部 -32 32 x-24 24区间64x48=3072个MV,选择SAD最小的3个 MV,以及预测得到的一个MV,保存这4个MV作为Level-1层搜索中心。,整像素运动估计,level-1层搜索:在第Level-1层分别以level-2得到的四个MV为中心,在-8,8的范围内搜索,完成了4次迭代后,得到一个最优的点mv1,用于初步确定level-0层实际运动的大致范围,即mvp= mv1。,整像素运动估计,level-0层搜索:在第Level-0 层上以Level-1层得到的mvp这个点为中心在-12 12的范围内搜索,最后得到合适的MV。然后以这个点为中心进行亚像素运动估计。,On-chip Search Window Buffer Structure Optimization,DDR SDRAM bandwidth consumption analysis 166MHz 64-bit DDR 2656MB/s available 1080P30Hz SW 256160 YUV Image input 94 MB/sCurrent MB read 94 MB/sLuminance SW reference pixels read 1504MB/sBit Stream (VBV) W/R 40 MB/sChrominance displaced block read 94 MB/s Reconstructed Reference Image write 94 MB/sCAS, RAS, and bank activation, Auto refreshment,流水线结构(2),第二级:分像素运动估计(FME):以整像素得到的运动向量为中心,当前宏块与1/2、1/4像素插值图象进行再度匹配,以寻找编码性能更好的运动向量。难点: 整帧插值生成1/2,1/4像素分别是整像素的4倍和16倍数据量。如果以这样的方式进行亚像素计算和保存,则片外存储器的带宽和容量将是芯片设计的严重挑战。解决方案: 采用即用即算的策略,因此FME中将包括两个功能:像素插值和像素匹配。,分像素运动估计,即算即用的方案:只对整像素搜索到的最佳MV所对应的匹配块进行亚像素插值,插值出一个8x8块周围的所有1/2和1/4像素点需要一个14x14的整像素块。,分像素运动估计,1/2像素插值:,一行14个整像素,垂直滤波器,水平滤波器,水平/垂直滤波器,分像素运动估计,1/2、1/4像素FME搜索全过程:PE1PE8实现8个1/2 精度MV 的代价函数计算(SAD +bits_MVD),流水线结构(3),第三级:率失真模式选择(RDO MD):帧内模式决策(采用重构像素作为参考像素预测) 帧内块预测方法 I帧的帧内模式决策方法 (基于RDO模式选择) P,B帧的帧内模式决策方法(基于SAD模式选择)帧间模式决策: 简化的模式决策方法,帧内模式决策,帧内块预测方法:采用原始像素替代重构像素,可以提高计算速度,但在一定程度带来编码失真。(PSNR损失高达0.2-0.5dB),蓝色曲线为:I帧和PB帧的Intra块都采用原始像素值预测。粉色曲线为:I帧和PB帧的Intra块都采用重构像素值预测。,帧内模式决策,I帧的帧内模式决策方法: 采用传统率失真优化的模式决策方法。PB帧的帧内模式决策方法:采用SAD判别的方法。,帧间模式决策方法,模式组合 = 时域预测方向 + 可变大小块分割模式,预测方向由IME FME选择,帧间模式决策方法,简化的模式决策方法: 为了减小时钟资源,采用基于SAD和率失真优化联合判别的模式决策方法。 减少候选模式 (1)skip/direct模式发生的概率比较大,必选 (2)16x16 16x8 8x16 8x8-1 8x8-2 利用SAD判据选择出最优的三种模式, (3)基于SAD判据选择出的最优intra模式 基于RDO判据从5种可能模式中选择最优模式,代价函数RDcost复杂度分析: DCT-H,DCT-V,Q,IQ, Zigzag Scan, VLC IDCT-H,IDCT-V候选模式复杂度分析 帧内模式 Intra :5x4 + 4x2 = 28次RDcost计算。 帧间模式 :运动预测方向+可变大小块分割模式 运动预测方向(前,后,双向对称)由IME FME完成选择 RDO MD仅仅选择可变大小块分割模式和直接模式 Inter :6x6=36 次RDcost 计算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论