




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第7期余宁梅等:PDVQ图像压缩芯片的设计与实现99PDVQ图像压缩芯片的设计与实现余宁梅,王冬芳,廖裕民,符运强(西安理工大学 电子工程系,陕西 西安 710048)摘 要:研制了基于图像块动态划分矢量量化的图像压缩芯片。编码前芯片预测系统可根据图像平滑程度及相邻图像块的空间相关度自动调节待压缩的子图像块尺寸,在保证恢复图像画质的前提下,与恒定图像块尺寸矢量量化相比,图像压缩率平均提高27%,最大提高64%。芯片中码书为256阶16维矢量,并采用方向性分类及码字和值升序排列结构,有效减小了码字搜索范围。芯片的设计与实现基于Charter0.35mm标准 CMOS工艺,最终芯片尺寸为2.08mm2.08mm。测试结果表明,工作电压为3V时,PDVQ图像压缩芯片工作频率可达到100MHz,在该工作条件下芯片功耗为295mW,并可以满足512512灰度图像在30frame/s下的实时编码要求。关键词:信息处理技术;图像编码;矢量量化;CMOS中图分类号:TP302 文献标识码:B 文章编号:1000-436X(2009)07-0091-08Design and implementation for partition dynamically vector quantization chipYU Ning-mei, WANG Dong-fang, LIAO Yu-min, FU Yun-qiang(Dept. Electronics Engineering, Xian University of Technology, Xian 710048, China)Abstract: Partition dynamically vector quantization (PDVQ) chip was researched and produced to encode images. Before encoding, it first judged the correlation of the encoding image block, and then decided to choose the size of the image blocks. Test result shows that PDVQ chip can improve the compression rate to 27% in average by contrasting with the normal VQ, even to 64%.The size of the codebook in PDVQ chip was 25616 byte, and all codevectors in the codebook were categorized by direction, in each category codebook codewords were sorted in the ascending order of their sum, this kind codebook architecture could reduce search range largely. The VLSI architecture of PDVQ chip was implemented based on Charter 0.35mm CMOS standard cell technology, its chip area was 2.08mm2.08mm. Test result shows that, at 3.0V power supply, PDVQ chip can operate up to 100MHz. At this operation,its power dissipation is 295mW, and it can support real-time encoding application for 512512 gray images at 30fame/s.Key words: information processing technology; image coding; vector quantization; CMOS 1 引言收稿日期:2008-01-10;修回日期:2009-04-21基金项目:陕西省自然科学基础研究计划基金资助项目(2006F 29);应用材料创新基金资助项目(XA-AM-200714);陕西省教育厅科学计划基金资助项目(08JK380)Foundation Items: The Natural Science Basic Research Plan of Shanxi Province (2006F 29); Xian Applied Material Innovation Foundation (XA-AM-200714); The Special Scientific Research Program of Shanxi Provincial Education Bureau (08JK380)随着多媒体通信技术和互联网技术的高速发展,越来越多的场合需要用到视频图像的实时传输。为了实现图像的实时传输,就必须对图像数据进行实时压缩。因此,图像实时压缩方法的研究必不可少。矢量量化(VQ, vector quantization)技术1由于具有较高的压缩率和简单的解码算法被广泛地应用于图像压缩系统中。但由于矢量量化算法的计算量非常大,所以在矢量量化的实际应用中,关键问题是快速编码算法的实现。为此,近年来文献中提出了如哈德码变换域等均值等方差最近邻搜索算法(equal-average equal variance nearest neighbor search algorithm based on Hadamard-transform)等各种快速矢量量化编码算法27,但这些文献大多只是介绍了它的算法,都没涉及到算法的硬件实现。因为压缩算法是图像编码的关键,而基于VLSI技术的压缩算法的硬件实现则是实现图像实时传输的重要手段,因此研究能够易于VLSI技术实现的压缩算法很有必要。虽然很早就已有基本的矢量量化器的硬件实现8,但由于硬件开销较大,故其应用受到限制。到目前为止,矢量量化算法比较有效的VLSI实现主要是基于2种方法:脉动阵列结构(systolic architecture)9和DA(distributed arithmetic)算法10。近年来,国内对矢量量化的VLSI实现结构也有不少研究1115,其中文献14提出了将全搜索矢量量化算法的计算转换成内积运算,并介绍了它的VLSI实现结构。但是迄今为止国内并未有文献报道矢量量化算法VLSI结构的芯片结果。而开发能够快速编码的矢量量化编码芯片,对最终开发实用的矢量量化产品有着重要的意义。本文将结合图像块动态划分矢量量化、方向性分类编码算法以及EBNNS搜索等3种算法,提出完整的矢量量化编码器的设计方案,并给出了编码器在0.35m CMOS工艺下的ASIC设计及投片。为了兼顾速度和芯片面积,电路结构采用了串并结合的设计方法。对电路中占用面积较大的失真测度计算单元采用了模块复用设计,从而提高了芯片资源利用率,减少了芯片面积。2 算法介绍矢量量化可以定义为从k维欧几里德空间Rk到其一个有限子集C的一个映射,即Q:RkC,其中C=y0, y1, , yN1|yiRk称为码书,N为码书长度,该映射满足:Q(x|xRk)=yp。其中x=(x0,x1,xk1),yp=(yp0,yp1,yp(k1),并满足(1)其中,d(x, yi)为矢量x与码字yi之间的失真测度,本文采用MAE计算失真测度,该测度只有加法运算,易于硬件实现。其定义为(2)2.1 图像块动态划分矢量量化(PDVQ)算法简介PDVQ16算法是根据图像中细节区域与非细节区域的像素灰度值的变化程度不同,分别选取不同的图像块尺寸进行VQ编码,细节区域采用较小的图像块尺寸,而在非细节区域采用较大的图像块尺寸。如图1所示,CV(current vector)代表的是当前要编码的子图像块构成的目标矢量,DV(down vector)代表与CV相邻的下方向的子图像块构成的目标矢量,RV(right vector)则是相邻的右方向的子图像块构成的目标矢量,RDV(right_down vector)代表相邻的对角方向的子图像块构称的目标矢量。对于非细节区域,可以认为CV、DV、RV与RDV 4个图像块对应的都是同一个码字,所以它们的匹配地址是相同的,这样就只需要对图像块CV进行VQ编码即可,输出时也只需要传输一个地址码。而对于细节区域,CV、DV、RV与RDV对应的是不同的码字,所以它们的匹配地址也是不相同的,因此需要对每一个子图像块进行VQ编码,输出时同样需要传输每个地址码。为了便于解码端对这2种图像块的匹配地址码进行判断,需要多加一位标志位进行区别。图1 相邻图像块标示2.2 基于方向分类编码算法简介基于方向性分类的矢量量化编码算法17采用了分类码书,该码书在使用过程中由于其内容的可知性,可以通过分析图像块矢量特征来简化码字匹配过程。如图2所示,在实际的图像块中,像素的排列往往具有一定的方向性,对于分类码书的码字来说,可以按照这种方向性,将码书中的码字按类分成4个区域:无变化区域(S类)、垂直方向变化区域(V类)、水平方向变化区域(H类)和对角方向变化区域(D类)。图2 图像块的方向性分类码书的构建,可以为VQ图像编码提供一种更加有效的匹配方式。在进行失真测度计算之前,首先对图像块矢量进行方向性判断,从而确定图像块矢量属于哪个区域,这样就将匹配的范围缩小了。2.3 等和值块扩展最近邻矢量量化码字搜索算法(EBNNS)简介等和值块扩展最近邻矢量量化码字搜索算法(EBNNS, equal-sum block-extending nearest neighbor search)是一种快速码字搜索算法18。该算法将码书按和值大小排序分块,将每一块中间或中间附近的码字的和值作为本块码书的特征和值。编码时,查找与输入矢量和值距离最近的码书块,并作为初始匹配码书块。然后在该码书块附近上下扩展搜索相邻码书块中距输入矢量最近的码字。2.4 PDVQ图像编码系统的工作原理综合以上3种算法,本文提出了如图3所示的PDVQ图像压缩编码系统19。该系统由6个子模块构成,其中图像块动态划分模块对输入的88图像块进行相关性判断,决定参加编码的图像块尺寸;图像块类型判断模块对待编码图像块进行类型判断,确定子图像块矢量对应的码书类型;码字块和值匹配模块可以根据特征和值模块提供的和值确定码字范围;矢量量化模块在分类码书中对选好范围内的码字进行穷尽搜索,找到最匹配的码字及其相应的地址。对于矢量量化算法,一般来说,码书容量越大,重构图像效果也越好,但是在对算法进行VLSI实现时,码书容量越大,芯片成本越高。由于本文对PDVQ图像压缩系统的VLSI实现,主要目的是试制一个能实现图像实时压缩的图像芯片,该芯片由于是第一次试流片,所以为降低试制芯片的成本,在设计编码系统时,选用尺寸为256的码书。该码书按照分类编码的要求分成4个子码书,每一类子码书中的码字按照和值递增的顺序排列。通过实验确定了在PDVQ编码系统中,采用EBNNS搜索算法在各类子码书中需要进行码字匹配的个数。在平缓和不规则子码书中每8个码字为一个码字块,码字匹配数是16个。在水平和垂直子码书中由于含码字较少,不匹配码字容易删除,所以每4个码字为一个码字块,码字匹配数是8个。这时解码图像的PSNR趋于平稳,并且接近最大值。测试图像分别选择较多细节程度(Man和Peppers)、中等细节程度(Airplane、Boats和Lena)、较少细节程度(Splash)以及灰度方块图和均一灰度图(gray1、gary2)大小为512512的静止图像。表1显示了这些图像的测试结果,并与选用同样码书全搜索时的图像进行了比较。对于全搜索VQ算法平均编码时间为51.39s,而本算法对一幅图像的编码最长不超过13s,在预测全部成立的状态下,只需要4.48s,因此,如果只是使用软件编码,本文算法的编码速度平均可以提高45倍。同时,与恒定图像块尺寸矢量量化相比,图像压缩率平均提高27%,最大提高64%,达到1/57。从表1可以看出,与全搜索时相比,重建图像PSNR值的降低平均不超过5。图4分别列出了原始图像和全搜索时VQ压缩后的重建图像以及经本文算法编码压缩后的重建图像,经过比较可以看出,对于采用256尺寸码书的PDVQ重建图像的质量是可以接受的。图3矢量量化图像编码系统的构成表1VQ图像编码算法的PSNR、编码时间及压缩率比较图像全搜索的PSNR/dB全搜索的压缩率全搜索的编码时间/s本文算法的PSNR/dB本文算法的压缩率本文算法的编码时间/sMan27.441/1650.5025.851/16.3814.75Peppers28.801/1650.7827.431/17.7415.75Airplane28.191/1652.9126.691/21.5211.70Boats27.791/1653.7026.341/19.9012.67Lena29.461/1650.9427.731/19.1912.09Splash31.201/1650.7330.001/27.248.41Gray129.81/1650.9728.571/43.075.55Gray2Inf1/1650.55Inf1/56.94.48(a) 标准测试图(b) 全搜索算法重建图像(c) 本文算法重建图像图4 VQ图像编码系统重建图像质量对比3 PDVQ图像压缩编码系统的ASIC结构根据实现图像实时传输这个目标,为提高系统的处理速度,确定每个时钟输入2个像素点,这样可以使系统同时处理2个像素的数据,保证了较高的编码速度,又不至于浪费过多的面积。因此,数据线位宽为16bit,即2个像素的位宽。一般来说,100MHz以内的时钟容易实现。为此,确定时钟频率为100MHz。系统按照每秒处理30帧512512的灰度图像进行设计,大约需要2s内完成对一个44图像块编码。当数据线位宽为16bit时,采用并行结构,一个码字匹配过程至少要用8个时钟。由于完成一个图像块的码字匹配最多要用168个即128个时钟,因此,即使考虑其他编码过程需要预留一部分时钟周期,PDVQ系统也应该可以在200个时钟(即2s)内完成一个图像块编码。根据确定的电路参数和图3提供的PDVQ图像编码系统构成图,PDVQ图像编码系统的硬件结构如图5所示。整个系统包括8个部分,其中分类码书(ROM_CB)与特征和值存储器(ROM_CBSUM)分别存储了分类码书和分类子码书中各分块的特征和值,这两部分在硬件系统中以ROM的形式存在,它们作为该系统的一部分固化在电路中。另外码书用ROM实现,码书大小选用了256阶16维的码字,所以,ROM大小为25616字节。控制单元负责协调整个系统的正常运行。该模块采用状态机来设计完成。状态转换如图6所示,图像编码过程共分为8个状态完成,结合图5的电路结构,下面介绍系统对一个88图像单元块进图5 VQ图像编码系统的硬件结构行编码的整个过程,其中控制单元的相应工作状态也在括号中给出。图6 PDVQ图像编码系统的状态转换系统复位(状态Idle_State)后开始从数据线data_im上装载88图像单元块数据进入数据缓冲器模块(状态Load_CV和Load_XV),并同时启动分类模块Sort_Function,分类模块同时完成图像块方向判断以及和值匹配。然后在MAE失真度计算模块和相关度分析模块对CV和XV(XV代表RV、DV、RDV)进行图像块相关度预测(状态Pred_State);预测完成后在数据缓冲器中的移位寄存器中调节CV数据存放的顺序(状态CV_Adjust),然后在MAE失真度计算模块和分块编码控制器中对CV进行量化编码(状态Encd_State)。编码完CV后,根据相关度的预测结果确定是否需要对XV(RV、DV、RDV)进行量化编码,如果不需要,则该编码块编码完成;如果需要,则逐次将数据缓冲器RAM中存储的数据XV(RV、DV、RDV)转入移位寄存器(状态Load_CV_XV)中进行量化编码(状态Encd_State)。RV、DV、RDV编码都完成后装载新的88图像单元块(状态Load_CV)。从上述系统的工作流程图6可以看出,为提高系统处理速度,在系统设计时采用了分布式计算的设计思想,在装载CV或XV(RV,DV,RDV)进入移位寄存器时(Load_CV和Load_CV_XV状态),同时启动了分类编码模块Sort_Function进行图像块方向分类和和值匹配。这样节省了系统处理数据的时间。对于整个系统来说除了常用的求和电路以外,最主要的运算单元就是MAE失真度(distortion)计算单元。由于量化和相关度计算在不同的阶段进行,所以为降低芯片面积,系统设计时通过中央控制器Controller控制在状态Pred_State和状态Encd_State分时复用了MAE失真度计算模块。其他时间则通过使能信号使失真度模块处于空闲状态,以降低功耗。这样通过复用失真度计算模块,大大降低了系统的硬件规模。因为PDVQ系统主要的编码时间都分配在码字匹配模块中,也就是失真度计算模块。因此,失真度计算的速度基本决定了整个系统的速度。所以,为提高编码速度,在该模块内部采用了五级流水线方式,如图7所示,每一级分别用寄存器组输出。同时为了提高计算速度,采用并行方式计算失真度,即一次同时进行两组数据的计算,如式(3)所示。这样只需要8个时钟就可以完成一次失真度的计算。图7 MAE失真度计算模块电路(3)4 芯片实现与测试结果分析根据上述提出的VLSI结构,设计采用四层布线工艺,并在Charted 0.35m 标准CMOS 数字工艺线上流片。得到的PDVQ芯片照片如图8所示。图8 PDVQ图像压缩芯片实际照片为了分析芯片性能,本文对芯片的工作电压及频率进行了扫描分析。测试过程为先固定工作频率,然后逐渐降低工作电压,观测编码输出结果。测试结果如图9所示。图中横轴为芯片的工作频率,纵轴为工作电压,斜线所示区域为芯片正常工作区域。结果表明,当工作电压降到2V时,芯片可以稳定工作于100MHz,而当工作频率为10MHz时,工作电压降到1.4V时芯片依然可以正常工作。在工作电压为3V,工作频率为100MHz时,测得芯片功耗为295mW。图9 PDVQ图像压缩芯片工作频率与电压的关系图10所示为PDVQ芯片性能测试平台。通过测试平台上的FPGA芯片发送控制信息到PDVQ芯片(图10中已标识出),经过PDVQ芯片编码后的编码结果输出到示波器和逻辑分析仪。通过分析逻辑分析仪采到的数据,对PDVQ芯片的编码性能进行分析。图10 PDVQ芯片测试平台本文首先测试了PDVQ编码一个44图像块的编码时间是否超过2s,测试方法是将一组88的平滑数据(全0)在100MHz的工作频率下送入PDVQ图像压缩芯片进行压缩,PDVQ编码时序如图11所示。从rst信号由低到高无效后,PDVQ芯片开始工作,到Encd_end信号出现高电平,此时编码结束,addr信号线上显示的数据即为PDVQ芯片输出的编码结果。从图11可以看出,整个编码过程经过的时间显示小于10格(一格代表200ns)。所以,PDVQ芯片编码一个44的子图像块的时间小于2ms。因此,PDVQ芯片可以满足在30frame/s下的实时编码512512图像的要求。另外需要说明的是由于逻辑分析仪采集信号的通道有限,所以,相关编码结果的输出flag标志位,没有采集。图11 PDVQ芯片在100MHz工作时序为了验证芯片的编码功能,将标准测试图送入芯片,经芯片压缩编码后的输出数据利用MATLAB进行还原。图12所示即为芯片压缩后重构图。与图4中的软件压缩后重构图进行对比,对于同一幅测试图,芯片压缩后重构图与相同算法软件压缩后重构图效果相当,没有明显差别。同时,表2给出了6幅标准图软件压缩与芯片压缩后的压缩率与重构图的信噪比。从表6中可以看出,芯片压缩结果与软件压缩结果相比只有微小的差别,说明芯片能够正常工作。图12 PDVQ 芯片的重建图像表2PDVQ芯片的测试结果图像芯片实现的压缩率芯片实现的PSNR/dBMan1/16.4125.74Peppers1/17.8027.31Airplane1/21.5126.64Boats1/19.9726.54Gray11/43.128.45Gray21/57Inf5 结束语论文首先介绍了自动调节子图像块尺寸的PDVQ图像压缩算法。相对于普通矢量量化,此算法可以在提高压缩率和编码速度的同时对重建图像的质量影响很小。根据算法设计了硬件结构,并将该结构基于Charter的0.35m CMOS工艺标准单元库实现,实际测试中,该芯片可以稳定工作于100MHz,并且工作于100MHz时可以满足编码512512图像在30frame/s下的实时编码要求,完全达到设计要求。参考文献:1孙圣和, 陆哲明. 矢量量化技术及应用M. 北京: 科学出版社, 2002.SUN S H, LU Z M. Vector Quantization Technology and ApplicationsM. Beijing: Science Press, 2002.2石敏,谢胜利.基于小波变换的矢量量化快速码字搜索算法J.华南理工大学学报(自然科学版),2005,(9):10-14.SHI M, XIE S L .Vector-quantized fast codeword search algorithm based on wavelet transformJ.Journal of South China University of Technology(Natural Science), 2005,(9):10-14.3方涛,郭达志.基于小波变换的空间约束矢量量化方法J. 电子学报, 1998,(4):12-14.FANG T, GUO D Z. Space-conatrained vectorquantization using wavelet transformJ. Acta Electronica Sinica, 1998,(4): 12-14.4BEGUM M, NAHAR N, FATIMAH K,et al. An efficient wavelet-VQ method for image codingA. Proceedings of the 2003 International Symposium on Circuits and SystemsC. 2003. II-428-II-431.5LIANG Y Q, BUDGE S E. Classified vector spiht forwavelet image codingA. 2006 IEEE International Conference on Image ProcessingC. 2006.1865-1868.6LU Z M, XU D G, SUN S H. Fast codeword search algorithm for image vector quantization based on ordered hadamard transformJ. IEICE,2003 ,E286D(7):1318-1320.7姜守达,陆哲明,裴慧.哈德码变换域等均值等方差最近邻码字搜索算法J.电子学报,2004,32(9):1543-1545.JIANG S D, LU Z M, PEI H. Equal-average equal-variance nearest neighbor search algorithm based on hadamard transformJ. Acta Electronica Sinica, 2004, 32(9):1543-1545.8KOBAYASHI K, NAKAMURA N, TERADA K, et al. An LSI for low bit-rate image compression using vector quantizationJ. IEICE Trans, on Electron, 1998, E81-C(5):718724. 9DAVIDSON G A, CAPPELLO P R, GERSHO A. Systolic architectures for vector quantizationJ. IEEE Trans on ASSP, 1988, 36(10): 1651-1664.10CAO H Q, LI W P. VLSI implementation of vector quantization using distributed arithmeticJ. IEEE International Symposium on Circuits and Systems,ISCAS,1996,2: 668-671.11周汀,陈旭昀,章倩苓等.一种矢量编码器的VLSI结构J.电子学报,1998,26(5):51-55.ZHOU T, CHEN X Y, ZHANG Q L, et al. A VLSI architecture for vector quantizationJ. Acta Electronica Sinica, 1998, 26(5): 51-55.12江科,章倩苓,汤庭鳌. 一种极低码率视频压缩编码算法的VLSI结构J.电子学报, 1999, 27(11):53-56.JIANG K, ZHANG Q L, TANG T A. VLSI architecture for a very low bit rate video codingJ. Acta Electronica Sinica, 1999,27(11):53-56.13刘丽娟,邹雪城.快速编码算法的VLSI体系结构设计J. 华中科技大学学报(自然科学版),2006,34(1):46-49.LIU L J, ZOU X C. Design of architecture of fast encoding algorithm for vector quantizationJ. Journal of Huazhong University of Science and Technology(Nature Science) ,2006,34(1):46-49.14王妙锋,郭立,刘璐.矢量量化算法的VLSI实现结构J.电路与系统学报,2006,11(6):61-64.WANG M F,GUO L, LIU L. VLSI architectures for vector quantizationJ. Journal of Circuits and Systems, 2006,11(6):61-64.15王冬芳,余宁梅,王馨梅等. 基于FPGA的EBNNS矢量量化码字搜索算法的电路设计J.电子器件,2007,30(3):1057-1060.WANG D F
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 同在阳光下活动策划方案
- 台州学生管理咨询方案
- 咨询顾问战略方案
- 新年服装主题活动方案策划
- 辽源医疗建筑方案设计公司
- 2025版司法局《解除强制措施申请书》(空白模板)
- 元旦公司激励活动方案策划
- 特仑苏营销策划方案
- 南京雨水收集池施工方案
- 郴州地下酒窖施工方案
- 地质灾害风险评估与防治
- 物理实验安全培训
- 小区物业管家管理制度
- T/DZJN 168-2023废旧动力电池有价金属回收率计算与检测方法
- 第三届全国技能大赛竞赛-无人机驾驶(植保)选拔赛备考试题库(附答案)
- 危险性较大的分部分项工程专项施工方案严重缺陷清单(试行)2025解读
- 《烹饪营养与安全》考试复习题库(含答案)
- 加快建设教育强国-2025年上半年形势与政策
- 一例急性胰腺炎患者的个案护理课件
- 2024四川省水电投资经营集团有限公司员工公开招聘1人笔试参考题库附带答案详解
- 中考古文整合复习主题五治国类
评论
0/150
提交评论