




已阅读5页,还剩12页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本科生研究发展计划(OUC-SRDP)项目基于移动视频编解码的研究 调研报告指导教师:魏志强撰写人:焦文健 崔元芳目录1. 调研背景32. 发展历程42.1编码器结构42.2解码比特流描述42.2.1编码视频序列52.3编解码关键技术62.3.1 熵编解码和块编解码62.3.2整数变换和量化72.3.3 帧内预测72.3.4 帧间预测82.4编解码过程92.4.1 环路滤波 92.4.2宏块模式及几种宏块模式选择算法比较102.5 宏块模板选择算法102.5.1 算法步骤10 2.5.2 门限值的确定及分析102.6 DSP处理器及开发平台112.6.1 TMS320C6416 DSP芯片特点分析112.6.2 TMS320C6416芯片特点112.6.3 TMS320C6416芯片结构112.6.4 实验系统的实现122.6.5 PC平台到DSP平台的移植123.调研总结163.1目的及意义163.2 AVS-M移动工具概述 173.3视频编解码主要功能181. 调研背景随着无线网络技术和音视频技术的发展,移动多媒体应用在人们的生活中扮演越来越重要的角色。为有效利用有限的带宽资源,多媒体数据在传输之前必须进行压缩,同时为保证网络多媒体信息能够共享,数据压缩必须满足一定的规范,即编码标准。AVS-M是我国专门针对移动多媒体应用自行制定、拥有自主知识产权的数字音视频编解码标准。AVS-M标准产品可以应用于宽带网络流媒体、移动视频会议与移动视频监控等领域。其中AVS的第七部分移动视频(AVS-M)标准是为了数字存储媒体、网络流媒体、多媒体通信等应用中,针对运动图像压缩技术的需要而制定的。AVS-M编解码器的结构和核心算法,将改进的人眼对比灵敏度模型应用到编码器的帧间预测宏块模式选择算法中,得到该算法的快速算法并在PC平台上验证,使编码器在保证视觉质量的前提下,速度提高了53。在正常运行的前提下,应用C语言优化、汇编优化、存储器优化和本设计提出的针对插值算法结构的优化这几种方法,使QCIF格式的最终解码速度是优化前的3倍多,达到46帧/秒,满足了实时要求。现阶段国际两大组织(ISO和ISTT)分别制订了MPEG系列标准和H.26x的标准,伴随着新标准的提出,新产品、新应用也随之发展。MPEG1标准带来了VCD的兴起,MPEG2标准带来了DVD和HDTV的商机,而H.261应用在ISTN、H.263应用在PSTN成为可视电话标准一部分,也将视频标准推向网络化应用的新时代,而MPEG4和H.264使视频压缩技术发展到了一个更高的阶段,能够在较低带宽上带来更高质量的传输,为移动视频及视频通信领域带来了新的解决方案。AVS标准是我国自主制定的数字音视频编解码技术国家标准,AVS标准包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。它是我国拥有自主知识产权的技术,避免了国外专利收费的问题。AVS标准有着很广阔的应用前景,包括交互存储媒体、宽带视频业务、多媒体邮件、分组网络的多媒体业务、实时通信业务(视频会议,可视电话等)、远程视频监控等。其中AVS标准的第七部分移动视频(AVS-M)是为了适应数字存储媒体、网络流媒体、多媒体通信等应用中对运动图像压缩技术的需要而制定的。AVS-M主要是针对小画面显示的3G应用,它是一个面向新一代移动通信的视频编码标准。DSP是数字信号处理器的简称,作为众多电子信息产品的核心引擎,借助其在高速实时信号处理中的优势和后数字时代对高速大吞吐量数字处理的需求,在通信市场占据主导地位的同时,DSP的应用也拓展到数字媒体和数字消费类产品领域,同时更以其完全软件可编程的灵活性,在数字视频领域发挥着越来越大的作用。在视频应用方面,DSP平台和ASIC是两个应用较多的解决方案,DSP平台相对ASIC有以下优势:1、可以根据市场需求,第一时间增加新的功能,改善产品性能,开发周期短;2、很多厂家提供专门用于视频的DSP平台,现在DSP芯片的功能非常强大,速度很快,可以处理多路的视频信号,功耗也越来越低,可降低产品成本;综上所述,现代视频应用的范围越来越广,要求也越来越高,而DSP平台的高速发展也为视频应用提供了一个很好的硬件平台。由于有限的网络带宽条件和对视频应用的实时性要求,所以在DSP平台实现视频解码器算法有着很广泛的市场发展前景和研究价值。常用视频压缩标准MPEG系列:1991年12月,该组织提出MPEG1,以VCD和MP3为代表产品,在CDROM上的音视频存储可达到1.5-2Mbit/s。1994年又推出MPEG2,针对数字电视、高清电视和DVD的视频压缩,针对HDTV应用的编码率为4-9Mbit/s。1998年又推出了MPEG4,比MPEG2在保证画面质量的情况下有着惊人的数据压缩比,多用于手机等消费电子产品,也开始应用在监控设备上,并在MPEG4中首次提出一种基于内容的视频编码形式,有别于MPEG1中基于矩形块的帧结构,在需要超低比特率的时候使用基于块的结构,在有比较高要求的场合使用基于内容的结构。MPEG系列的平均压缩率在1:50,最高可达1:200。1993年,ITU提出H.261,为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、视频会议)而制定的,速率为64kb/s的整数倍。H.261只对CIF和QCIF两种图像格式进行处理。1996年,提出H.263,是最早用于低码率视频编码的ITU-T标准,随后出现的第二版(H.263+)及H.263+增加了许多选项,使其具有更广泛的适用性,在PSTN上至少有64kb/s。H.264是由ISO/IEC与ITU-T组成的联合视频组(JVT)制定的新一代视频压缩编码标准,已经被纳入MPEG4的第十部分,它具有相当高的数据压缩比,在同等的图像质量条件下,H.264的数据压缩比能比MPEG-2高2-3倍,比MPEG-4高1.5-2倍。正因为如此,经过H.264压缩的视频数据,在网络传输过程中所需要的带宽更少。在相同的重建图像质量下,H.264比H.263+和MPEG-4减小50%码率。但是H.264有着较高的计算复杂度。AVS的编码效率理论上比MPEG2国际标准高2-3倍,可节省一半以上的无线频谱和有线信道资源,降低传输和存储的复杂度,也可以兼容MPEG-4 AVC/H.264国际标准基本层,有着广阔的应用前景。视频算法开发现状MPEG2、MPEG4标准,在软件、DSP及ASIC开发应用方面都比较成熟。关于H.264标准,产业化的产品相对比较少,但是对于它的算法和应用的研究却已经相当广泛。AVS-M编码器算法作为我国拥有自主知识产权的国家标准,许多方面都有着自己的优势,而且也有着国内的产业化联盟为其尽早实现产业化做强大的后盾。帧间预测宏块模式选择算法发展现状视频编码器的算法中,运动估计和运动补偿两种算法的研究比较广泛。2. 发展历程2.1编码器结构AVS-M编解码器的结构根据AVS-M的标准1描述,将编解码器的结构和编解码过程描述如下:(图)编码器结构编码器结构编码过程分为以下几个步骤:1、 首先确定当前帧是I帧还是P帧,I帧做帧内预测,P帧做帧间预测(也可以选择做帧内预测),预测结束进行运动补偿。帧内预测有九种预测模式,根据帧内已经编码的像素计算选择最佳预测;帧间预测是在参考帧中在整数和分数插值位置做搜索,找到代价函数值最小的块作为参考块,得到运动向量。2、 对于运动补偿后的残差,进行整数变换和量化。3、 对量化的后的数据分为两种计算,一种进行反变换反量化,再根据第一步的预测值重建,重建帧作为下一帧或下几帧编码时的参考帧;一种是对量化后的数据进行变长编码,然后对结果进行哥伦布编码,再将向量(P帧)和头信息也进行哥伦布编码,形成输出比特流。(图)解码器结构解码器结构解码过程分为以下几个步骤:1、 熵解码对经过编码压缩的比特流进行解码提取出每帧、条带和宏块的头信息,包括图像是I帧还是P帧;宏块和子宏块类型;帧内预测模式;帧间预测时每个子块的运动向量;量化参数等等。这里采用的是不同阶数的哥伦布码。2、 对一帧中每个宏块逐次进行块解码、反量化反变换,块解码包括变长码解码得到level(非零量化系数的幅值),run(当前非0量化系数前的连续0的个数)值,再由这两个值生成量化系数,通过逆扫描将量化系数按顺序放入块中。3、 对量化系数经过反量化和反变换得到宏块系数残差值,采用44整数反变换反量化。4、 根据熵解码得到的帧内或帧间预测模式对每个宏块进行解码,帧内预测共有9种预测模式,帧间需要结合熵解码中得到的运动向量以及在参考帧中进行半像素或1/4像素的运动估计。5、 最后根据预测得到的参考块和反量化和反变换后得到的残差块进行一帧的重建。6、 对重建帧根据滤波模式进行环路滤波。 2.2解码比特流描述2.2.1编码视频序列1、 编码视频序列由一个IDR(即时刷新存储单元)图像即I帧开始,后面跟着零个或多个非IDR图像,直到但不包括下一个IDR图像或直到比特流结尾。编码图像在比特流中按比特流顺序排列,比特流顺序应与解码顺序相同。2、 帧帧由三个样本构成,包括一个亮度样本(Y)和两个色度样本(Cb和Cr)。AVS-M版本支持4:2:0格式的图像。支持两种解码图像,帧内解码图像(I帧)和前向帧间解码图像(P帧)。P帧最多可参考前向的两帧。运动矢量所指的参考像素可超出参考图像的边界,在这种情况下对超出参考图像边界的整数样本应使用距离该整数参考样本所指位置最近的图像内的整数样本进行边界扩展。对亮度样本矩阵,参考块的像素在水平和垂直方向均不应超出参考图像边界外16个像素。对色度样本矩阵,参考块的像素在水平和垂直方向均不应超出参考图像边界外8个像素。3、 宏块图像划分为宏块,宏块左上角的点不应超出图像边界。这种划分用于运动补偿。图中矩形里的数字表示宏块划分后运动矢量和参考索引在码流中的顺序。(图三)亮度帧内预测模式方向图2.3编解码关键技术2.3.1熵编解码和块编解码在AVS-M熵编码过程中,所有的语法元素和量化后数据都是以指数哥伦布码的形式映射成二进制比特流。对预测残差的块变换系数,经扫描形成(level、run),level、run相互关联最终可以还原每块的残差。1、 哥伦布编解码解析k阶指数哥伦布码时,首先从比特流的当前位置开始寻找第一个非零比特,并将找到的零比特个数记为leadingZeroBits,然后根据leadingZeroBits计算CodeNum。用伪代码描述如下:leadingZeroBits+kCodeNum=2k +read _bits( leadingZeroBits +k)K是哥伦布码的阶数,read_bits(n)是返回比特流的随后n个比特。2、块编解码中的变长编解码:这部分解码是由哥伦布解码后的元素生成量化系数值数组(Level数组)和量化系数游程数组(Run数组)的过程。Level数组包含非0量化系数的幅值,Run数组包含当前非0量化系数前的连续0的个数。首先根据是亮度数据还是色度数据来确定查找表,然后根据trans_coefficient_4值的决定查表还是其他运算来得到level和run。由这两个值填充了量化系数数组QuantCoeffArraynum,再通过逆扫描将量化系数数组中的值放在一个二维的块空间中。图中逆扫描块内的字母表示量化系数数组的num。(图四)逆扫描2.3.2整数变换和量化与以往的编码标准中DCT变换不同的是AVS-M,使用类似于H.264的一种整数变换,其基本编码特性与44点的二维DCT变换相似,将二维整数变换分解为一维整数变换,先进行行整数变换,再进行列整数变换。在变换过程中系数均为整数,保证了编解码端的数据可以精确匹配。整数变换是和量化紧密结合在一起的,在整数变换过程中,所有的系数都会扩大相应的倍数,结合量化可以减少复杂度和提高量化精度。而整数运算又比传统的88DCT的浮点数运算更加方便,易于实现。下面以反变换反量化来介绍这部分的原理,变换和量化是一个相反的过程。AVS-M反量化、反变换都是整数运算,降低了硬件实现复杂度,针对的是44的数据块,降低了块效应,以下是一个44块的算法处理的流程的描述:(图五)反量化反变换流程反量化反变换流程反量化是由二维量化系数阵QuantCoeff转化为二维变换系数阵Coeff。首先确定量化参数QP,AVS-M的量化参数取值为063,QP的值越大,精度越低。二维变换系数阵元素由下式得到:xij=(q equantTable(QP)+2 ShiftTable(QP)1)ShiftTable(QP)i,j=0,1,2,3,4。量化系数的取值范围为210(2101),变换矩阵系数的取值范围为211(2111)反量化过程只是乘法、移位、加法的整数运算,没有除法操作,易于实现。反变换是由二维变换系数阵Coeff转化为二维残差样值阵Residue,是基于DCT的整数变换,下面介绍反变换的过程:首先先得到44反变换矩阵HW=TCoeffH=WTT为反变换矩阵,T为T的转置矩阵,最后由反变换矩阵得到残差样值阵Re siduei,j=(Hi,j+24)5i,j=0,1,2,3以上过程之所以能实现整数运算,是因为在正向变换时对变换系数有一个缩放的过程,得到一个整数元素的变换矩阵,再将缩放因子放到量化过程中处理,形成了一个整数的运算。2.3.3 帧内预测为了提高I帧的编码效率,引入了帧内预测(Intra Prediction)的方法,它使用相邻的宏块对待编码宏块像素值进行预测,利用了宏块间的相关性,对预测块与待编码块残差进行变换编码。AVS-M对亮度块的帧内预测方式有9种,对色度块采用44的块方式预测有三种。下图待编码块与预测所需邻块的像素的关系如图所示:图(六)帧内预测的编码块与领块像素帧内预测的编码块与领块像素亮度块9种帧内预测模式除了预测模式8外都带有方向性色度块的帧内预测有三种预测模式,除模式0外,有垂直和水平两种方向,如下图:(图七)色度帧内预测模式方向图这种帧内的预测模式最大的去除了空间的冗余,对于第一块即上和左方向都没有邻块的情况,初始化预测块为,每一个预测像素值为128。预测结束后,将每个预测值与对应位置待编码块的像素值做差值,即形成I帧的残差。解码时,根据熵解码和变换解码得到的残差和根据帧内预测模式得到的预测值相加,得到I帧的重建帧。帧内预测效果的好坏也直接关乎编码效果和效率。2.3.4 帧间预测帧间预测和编码主要是利用视频信号的时域相关性,通过运动估计和插值算法把视频信号的时域冗余信息去掉,从而达到压缩视频数据的目的。由于视频信号的时域相关性远远大于其空域相关性,所以,通过采用帧间预测和编码,可以更大的降低编码码流。AVS-M对P帧的亮度块提供最小是1/4精度的运动估计,而色度块是1/8精度的运动估计。1、亮度块的1/4精度运动估计运动估计就是在参照帧中寻找一个与当前块最匹配的块,作为当前块的估计值。解码器设计中,根据熵解码得到的运动向量及其他运动估计信息来确定最佳匹配块,如果不是整数象素位置,则要经过滤波器插值来得到参考块。下图中给出了整数位置、1/2位置、1/4位置。灰色点为整数位置,其他为分数位置。下图中给出了整数位置、1/2位置、1/4位置。灰色点为整数位置,其他为分数位置。(图八)/精度的运动估计像素位置2、亮度块的1/8精度运动估计(图九)/精度的运动估计像素位置针对AVS-M编码器中计算量最大的运动估计模块,研究如何从整数像素运动矢量搜索和分数像素运动矢量搜索两个方面分别进行改进。2.4编解码过程 AVS-M采用了两个参考帧,即在编码时,帧间预测需要在两个参考帧中寻找参考块。搜索方法有许多种,最原始也是标准组代码提供的搜索方式是,针对每个宏块根据AVS-M编码器算法研究和解码器DSP移植及优化,逐个针对每个子块分别在两个参考帧中做整数和分数位置的运动搜索,如果是选择88的分割方式还要对其每个子块再作搜索,然后分别计算率失真函数的值,选取最佳的分割方式记下分割方式,参考帧的标志,在参考帧参考帧中的位置即运动向量,运动向量中包含了是整数的运动估计还是分数的运动估计,然后将待编码块与参考块做残差,对残差和各种帧间预测信息进行编码。解码时候,根据读出的宏块分割方式,针对每个子块和其运动向量,计算在参考帧的插值,完成帧间预测,再将这个宏块的残差和帧间预测值相加,完成对帧间帧的重建。2.4.1 环路滤波 环路滤波的作用就是用来消除解码图像中的块效应,缓和块边界差别。块效应产生的原因是由于各个宏块分别进行量化,这样在相邻宏块的交界处,由于量化步长不同导致原本取值很接近的像素重构后产生了较大的差异,形成明显的块边界,AVS-M环路滤波以宏块为单位,对亮度和色度分别做环路滤波,帧内和帧间有不同的滤波模式,对于帧间模式,如果当前宏块量化系数小于某QP,则不进行环路滤波。 研究MPEG-2,MPEG-4,H.264,AVS-M等近年来出现及广泛应用的视频编解码标准都是采用以宏块为基本单位的编解码方式,标准中引入不同的宏块模式,根据运动搜索计算代价函数值,选取值最小的那种宏块模式作为最终模式,这种方法能够良好的保证解码后的图像质量,但是计算量很大,使运动估计成为整个视频编码最费时的部分之一。一种新的快速算法,针对视觉特征,根据宏块边缘信息选择分割方式,所以提高了整个帧间预测的速度,且保证了视觉效果。2.4.2 宏块模式及几种宏块模式选择算法比较 在帧间预测中,AVS中都有七种宏块模式,宏块大小为1616,每种宏块可按照1616,168,816,88分割,若选择88模式,还可以细分为88,84,48,44。传统的选择方法是对1616,168,816,88四种模式分别进行搜索寻找最佳匹配块再计算代价函数,选择代价函数值最小的模式作为最终模式,并记下每个子块的运动矢量。若选择的88模式,还要对模式57分别进行计算,选取代价函数值最小的模式。这种方法对每一种模式都要搜索和计算代价函数,计算量很大。下面是几种快速算法:1、优化率失真模型 通过优化率失真模型,得到更加高效的率失真模型,使用优化后的模型来产生代价函数,通过这样的代价函数得到的分割模型有些良好的编码效果,SNR值会有一定的提高,计算量很大。应用在对视觉效果要求比较高的场合。针对DCT的DC系数和AC系数量化后需要的bit数的特点提出了优化率失真模型,得到决定宏块分割模式的代价函数。这种优化算法比原算法需要的计算量更大,需要一些额外的计算。2、基于邻块的分割模式的算法 该种算法针对降低运算复杂度提出的算法。根据相邻已编码宏块的模式类型、运动信息和比特率信息来决定当前的宏块模式的选择方式,选择按常规方法计算还是优化方法计算。这种算法比较依赖于邻块宏块模式选择的正确性,并且对于邻块参考意义不大的情况,计算量还是相当大的。3、基于预搜索的算法 该种首先通过一次宏块级的运动搜索预处理得到需要的残差信息;然后根据得到的残差纹理大小及分布情况对帧间块的划分尺寸做出快速选择。这种算法在速度和效果改进比较均衡。2.5宏块模板选择算法2.5.1 算法步骤第一步,对当前宏块进行模式1的搜索,Rdcost的门限值满足门限准则的,确定当前宏块采用模式1分割,记下最后的SAD值和Rdcost值。第二步(预判部分),如果不满足第一步要求,先进行预判确定是否能选用模式2或3中的一个做搜索计算,预判方法为确定2区或3区是否有一个根据对于的预判准则1能满足含有较多的水平或垂直边缘点数目,满足记下此模式,不满足再根据预判准则2判断是否可根据边缘点总数判断最终是何种模式,能够通过两个预判准则选定模式的使用选定的模式根据SAD门限准则和Rdcost门限准则进行搜索计算,能够在满足门限条件准则的确定当前宏块采用此种模式,记下最后的SAD值和Rdcost值,不满足门限准则的,选择模式4,进入第三步。不能满足两个预判准则的选择模式4,进入第三步。第三步,选用模式4,含有两种情况,第一种是在第二步没有满足两个预判准则确定为模式4的,第二种是确定的模式没有满足门限要求的。对于模式4根据SAD门限准则经过搜索判断得到匹配块位置记下SAD值。第四步,对于采用模式4的宏块,采用近似上面三步的方法,确定模式47中的一种作为最终选定的模式。2.5.2 门限值的确定及分析1、Rdcost门限准则:对每种模式确定一个Rdcost初始值Rdcost_INT,一个校正值Rdcost,如果当前宏块的RdcostRdcost_INT+Rdcost,记下Rdcost代替Rdcost_INT,作为下一个对此种模式宏块搜索的门限值。分析:这种判断方式是在前一个以此种模式为最终分割的Rdcost,在一定的范围内来确定当前宏块的门限值,是根据当前帧的情况,自适应确定门限值的方法,Rdcost决定了解码后的失真度,Rdcost越大失真度就越大。2、 SAD门限准则:对于非模式1的模式,将当前宏块当前模式的前一个进行过搜索的模式的最终SAD作为SAD_OLD,如果当前模式当前位置SADSAD_OLD,才用SAD代替SAD_OLD,继续下一位置的判断。分析:第二步所用到的SAD_OLD是第一步处理完记下的,第三步中第一种情况的SAD_OLD为第一步处理完记下的,第二种情况的SAD_OLD为第二步处理完记下的。建立这种门限准则是因为每一步的模式都要比前一步的模式多存储一些运动向量,所以当前模式只有获得更少的残差值才能获得更好的Rdcost,才有更好的预测效果。3、 预判准则1:2号子块或3号子块含有水平方向边缘或垂直方向边缘数目占到所有边缘点总数的一定比例以上(总数要达到一个最低限)或大于一个门限值认定可按照模式2或3分割。对于模式5或模式6的确定也是按同样的方法。4、 预判准则2:模式2或模式3中两个子块边缘总数出现一个子块大于一大门限值T1一个小于另一小门限值T2,则选定此模式。2.6 DSP处理器及开发平台2.6.1 TMS320C6416 DSP芯片特点分析 由于实时多媒体信号处理算法比较复杂,运算量大,而通常又希望有实时的处理,它对处理器的处理能力有比较高的要求,普通计算机的CPU无法达到这样的要求。因此,往往需要专门的数字信号处理芯片来实时处理多媒体信号。DSP芯片则是专门用于数字信号处理的芯片。DSP芯片是一种具有特殊结构的微处理器。DSP芯片的内部采用程序和数据分开的哈佛结构,具有专门的硬件乘法器,广泛采用流水线操作,提供特殊的DSP指令,可以用来快速地实现各种数字信号处理算法。2.6.2 TMS320C6416芯片特点该款芯片的VelociTI.2结构功能强大,适应视频计算量大的特点,也是视频DSP应用多选的芯片,所以本文选择该款芯片作为视频处理芯片。这种高性能、超长指令字VLIW的结构使得其成为多信道、多功能应用的首选对象。VLIW通过提高指令级的并行性获得高性能。VelociTI结构灵活,对如何及何时取指令、执行指令或存储指令的限制很少。VelociTI结构的突出特点包括:指令打包减少代码大小、可并行执行所有指令提高灵活性、根据数据类型指令的宽度可变、完全流水线的跳转。TMS320C6416建立在德州仪器(TI)开发的第二代高性能VLIW架构(VelociTI.2)基础之上。该器件具有VLIW架构、2级存储器/高速缓存层次结构以及EDMA引擎等关键特性,8个功能单元,A、B共64个寄存器高效执行代码,最多一次可8条指令并行执行,功能强大的乘法器(一个时钟周期执行2个1616位或4个88位的乘法),并且增加了专用的汇编指令,计算功能更加强大,成为视频应用较常用的平台之一。2.6.3 TMS320C6416芯片结构 图2.1为芯片结构。TMS320C6416的片内存储器包括两级:第一级空间比较小,包括指令存储器和数据存储器,该存储单元其中片内指令存储器也可被配置成高速缓存;第二级是空间稍大的存储单元,该存储单元有程序和数据存储器共同使用。由于TMS320C6416两级片内空间比较小,所以通过EMIF接口(外部存储器接口),对多种不同的片外存储器提供进行读写。C6416的EMIF有两条:EMIF-A和EMIF-B。其中,EMIF-A是64位宽的,EMIF-B是16位宽的。 AVS-M编码器算法研究和解码器DSP移植及优化19存储器、片外存储器或是外部器件之间,C64x系列是扩展直接存储器访问(EDMA)。后面章节对EMIF、EDMA有比较详细的应用叙述。程序取指、指令分配、指令解码寄存器文件A寄存器文件B四个功能单元四个功能单元中断仿真控制数据路径A数据路径B辅助外设:定时器、串行接口数据存储器/数据缓冲存储器程序存储器/程序缓冲存储器DMA、EMIF图2.1 TMS320C6416芯片结构图图2.1阴影部分为CPU部分。TMS320C6416的CPU包括程序加载单元、指令分配单元、指令译码单元、64个32比特寄存器、两条数据通道(A和B)、8个功能单元(.L1,.L2,.S1,.S2,.M1,.M2,.D1,和.D2)、控制寄存器、控制逻辑和测试、仿真及中断逻辑等。功能单元有四种,分别是逻辑运算、移位、乘法和数据寻址操作单元。每四个不同的功能单元加上一个由32个32比特寄存器组成的寄存器组共同构成了一个数据通道。每个数据通道内部的功能单元和寄存器组之间有独立通路相连,可以实现无冲突的访问。两个数据通道之间则是通过两条交互总线相连。本文采用的是合众达公司的SEEDDEC6416开发平台,该平台具有以下的特点:32-位定点DSP,工作主频高达1GHz,处理性能达到8000MIPS。计算能力很强,所以选为本文的视频处理平台。2.6.4 实验系统的实现 本实验系统使用合众达公司的SEEDDEC6416开发平台、XD560仿真器,其结构框图如下:(图十一)实验系统图实验经过如下的步骤进行:输入经AVS_M编码程序编码后得到的比特流,存于PC,*.AVS文件,编码帧数由编码时确定。通过PC上串口工具读出文件中的比特流经过串口将比特流读入DSP开发板存储器的输入存储区,由解码程序解码,当一帧解码完毕,再由DSP开发板的UART接口连接到PC机的串口传回PC,由串口工具写到*.YUV文件中,然后解码下一帧,即而完成解码。然后由*.YUV文件中检测解码的正确性。第一阶段:在PC平台针对DSP特点及CCS编译系统的特点对C源代码进行精减优化。第二阶段:将适合DSP运行的代码移植到DSP平台上面,合理安排内存以及应用DSP上面的EDMA功能,将片外存储器据经过EDMA方式传输到片内存储器,这样避免直接读片外存储器造成的延迟。第三阶段:在DSP平台上针对C语言和软件流水进行优化。第四阶段:一个使用线性汇编写反变换部分,线性汇编是c6000系列独有的,简单有效的一种汇编,一个是对插值算法结构进行优化。2.6.5 PC平台到DSP平台的移植TMS320C6416是一款32位的定点芯片,对DSP的环境使用TI公司的CCS,使用标准组提供的wm2.4版本源代码。3.2.1 PC平台上的简单优化 首先在PC平台上对代码做简单的优化,需要注意到DSP平台的一些特点,包括TMS320C6416是32位的芯片,CCS的软件环境和PC上的稍有区别等。在以下几个方面进行优化:1、对源代码去掉所有SNR的计算,计时部分(由CCS底下的profiler进行统计),对文件读写,屏幕显示部分的程序,以及所有供选择而本文中没有选择的功能,因为DSP实现不需要或CCS不支持这部分的功能。2、对于YUV数据在存储空间中以unsigned char的形式存储和读取,因为这些数据的幅值为0255,用unsigned char表示仅使用8位就可以表示,节省的存储器空间,这样的好处是更多的数据可以放在片内内存,而且编译器翻译成汇编指令有可能可一次读取4个数据,也加快运行速度。3、合并一部分函数,精减整个程序结构,减少因为函数调用而进行堆栈操作浪费的时钟周期。4、进行针对DSP平台简单的C语言优化:if(X)AB;的结构分支语句用AB(X1);来代替,去掉一些不必要的跳转。因为每个if.else会造成5个时钟周期的延时,进而会影响整个流水线。5、对长for循环使用循环展开,比如在整个帧的一个循环过程中,N次循环使用N/2次循环,循环次数使用递减循环,为的是充分利用DSP软件流水。while()用dowhile()来代替,这些都可以减少时钟的延时。6、使用高效的C语句,充分利用汇编语言的强大计算功能,将数据读取和加/减/乘运算放在一条语句,乘加乘减放在同一语句,尽量用移位来替代除法或做一些优化操作。 7、存储空间的分配使用CMD文件去分配存储器空间,CMD告诉链接程序怎样计算地址和分配空间,分两部分MEMORY和SECTIONS。MEMORY是用来指定存储器划分几个区间及每个空间的大小及开始位置。SECTIONS指定每一段放在哪个空间底下。分配存储空间前要弄清片内外存储器的大小及需要的每段的大小,否则将造成对不正确的存储空间进行读写,造成最后结果的错误。在PC上有足够的内存空间,编译器会为我们分配好所有的程序空间和数据空间,我们不用具体关心哪个变量,哪段程序分配到哪段空间,但是,在DSP上,需要我们要手动分配内存空间,指定相应的程序存储区和数据存储区,才能使程序合理的、快速的运行。3.调研总结3.1目的及意义AVS(Audio Video Coding Standard)标准是我国自主制定的数字音视频编解码技术国家标准。其中AVS的第七部分移动视频(AVS-M)标准是为了数字存储媒体、网络流媒体、多媒体通信等应用中,针对运动图像压缩技术的需要而制定的。AVS-M标准产品可以应用于宽带网络流媒体、移动视频通信、移动视频会议与视频监控等领域。为实现这些应用,一方面必须有高效、稳定的硬件编码器产品对数据源进行实时处理,另一方面解码器必须尽可能多地支持各种类型的移动终端。目的:目前手机的3G功能已经实现大流量传输数据的发展,使得图像传输,视频聊天的实现有了物质基础,本项目可以实现手机移动视频
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 63211-3-2:2025 EN Durability test methods for electronic displays - Part 3-2: Mechanical tests - Static stress
- 2025年职场沟通与表达能力测试试卷及答案
- 2025年现代教育理念与实践考试卷及答案
- 2025年新媒体传播专业考试试卷及答案
- 2025年人类成长与发展心理学考试试题及答案
- 2025年安全生产管理与职业健康考试试卷及答案
- 2025年全国法律职业考试真题及答案
- 房产公关的社交媒体策略
- 出资合作合同协议书模板
- 招投标与合同管理专项考核试题
- 《红高粱》典型人物形象分析与影视比较-课件
- 《雾化吸入疗法合理用药专家共识(2024版)》解读
- 2024-2025学年新教材高中政治 第三单元 全面依法治国 9.1 科学立法教案 部编版必修3
- 2024年新北师大版一年级上册数学课件 第四单元第7课时 可爱的企鹅
- 烘焙食品厂生产员工手册
- 2023年湖北数学高考卷-理科(含答案)
- 农业现代化背景下智能种植基地建设方案
- 2024年福建泉州惠安县互联网网格员招考聘用(高频重点复习提升训练)共500题附带答案详解
- 医院污水处理培训教学
- 机务维修作风课件讲解
- 垃圾清运服务投标方案技术方案
评论
0/150
提交评论