(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf_第1页
(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf_第2页
(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf_第3页
(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf_第4页
(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf_第5页
已阅读5页,还剩64页未读 继续免费阅读

(计算机应用技术专业论文)基于avsm的帧内预测算法研究及程序优化.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于a v s - m 的帧内预测算法研究及程序优化 摘要 随着我国3 g 技术的发展,多媒体通信将成为新一代通信系统的显著特征 和主要业务,而视频编码技术是多媒体技术的基础和核心。a v s m 标准是中国 自主制定的数字音视频编码系列标准( a v s ) 中的第七部分:移动视频编码标 准。可广泛应用于交互存储媒体、宽带视频业务、多媒体邮件、远程视频监控、 视频会议、可视电话等多个领域,是我国面向下一代移动通信的视频编码标准。 a v s m 标准仍基于以前视频编码标准的运动补偿混合编码方案,有效提高 了编码效率。本文首先分析a v s m 标准的技术特点,如新型帧内预测、多尺寸 编码块模式、多参考帧预测、1 4 像素精度运动矢量、整数变换量化、去方块效 应滤波器等。a v s 标准工作组提供的a v s m 参考编码器软件虽然编码质量高, 易读性好,但复杂度高、代码运行效率较低。本文从实时的角度对编码器进行 了优化。 重点分析了a v s m 标准帧内预测编码的基本原理。a v s m 采用空域上9 种模式预测和拉格朗日率失真优化( i m o ) 模型来进行帧内预测模式选择,算 法复杂度很高。本文对其中计算量较大的预测模式选择部分进行了深入研究, 通过实验分析提出了两种针对帧内预测的改进算法。 一种通过分析和验证视频图像的空间相关性和时间相关性,利用自然图像 固有的边缘方向信息,针对帧内预测9 种亮度模式提出了快速模式选择算法。 以r d o 为判决依据,使用经验阈值自适应的停止全搜索过程,快速进行帧内模 式选择。实验结果表明,本算法可有效降低运算复杂度,提高编码效率而p s n r 和输出码率均无明显变化。 另一种是基于前向和后向的双向选择算法。传统的单方向预测方法导致了 相同方向上的样本点被赋以相同的预测值,然而在视频图像中一个样本点与它 相邻点的亮度值通常都是不同的。此外,一个样本点与其相邻环绕样本点的中 值很接近,双向预测的结果通常比单向预测要好。所以本文结合加拿大学者t e n g 提出的双向预测思想,把4 x 4 块分成三个区域分别编码。实验证明,本算法有 效的提高了预测准确度,减少了变换量化系数。 除去对算法的研究之外,本文还对a v s m 参考模型从代码结构上进行优 化。通过分析,指出了优化的方向和途径,优化后速度得到显著提高。详细介 绍了多媒体指令集,有效地运用m 呱) ( ,s s e s s e 2 技术在p c 上对a v s m 编码 器中的运算密集度大的模块进行优化,并对优化过程和关键技术做出说明。 本文在最后一章对全文进行了总结,并且对今后进一步的研究方向进行了 展望。 关键词:视频编码;a v s m ;帧内预测;多媒体指令集 i i r e s e a r c ho nin t r a f r a m eo fa v s ma n dt h eo p timiz a tio n o fe n c o d e r a b s t r a c t w i t ht h e3 r dg e n e r a t i o na n dt h er a p i dg r o w t ho fm u l t i m e d i as e r v i c e ,t h er o l e p l a y e db ym u l t i m e d i ac o m m u n i c a t i o nh a sb e c o m ei n c r e a s i n g l yi m p o r t a n ta n d e s s e n t i a li nn e x tg e n e r a t i o nc o m m u n i c a t i o ns y s t e m t h e r e i n , v i d e oc o d i n gi st h e f u n d a m e n t a la n dk e r n e lt e c h n i q u ei ne m e r g i n gm u l t i m e d i a v i d e oc o m m u n i c a t i o n a v s mi st h el a t e s tv i d e oc o d i n gs t a n d a r dd e v e l o p e db yc h i n af o rm o b i l e a p p l i c a t i o n , w h i c hi st h ep a r t7o fd o m e s t i ca v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) s e r i e ss t a n d a r d a v s mi sd e s i g n e dt og i v eat e c h n i c a ls o l u t i o nf o rab r o a dr a n g eo f a p p l i c a t i o n s ,s u c h a si n t e r a c t i v e s t o r a g em e d i a , b r o a d b a n d v i d e o s e r v i c e , m u l t i - m e d i am a i l ,l o n gd i s t a n c ev i d e os u r v e i l l a n c e ,v i d e oc o n f e r e n c e ,a n dv i d e o p h o n e ,e t c i ti s t h ev i d e oc o d i n gs t a n d a r do r i e n t i n gn e x tg e n e r a t i o nm o b i l e c o m m u n i c a t i o ni nc h i n a t h e d e s i g n o fa v s - mi s b a s e do nc o n v e n t i o n a lb 1 0 c b b a s e d m o t i o n - c o m p e n s a t i o nh y b r i dv i d e oc o d i n gc o n c e p t s f o rt h ee n h a n c e m e n to ft h e c o d i n ge f f i c i e n c y , a v s - ma d o p t sn e w t o o l sa sf o l l o w e d :n e wi n t r af r a m ep r e d i c t i o n , v a r i a b l eb l o c k - s i z e 、舫ms e v e nb l o c ks i z e si nm o t i o np r e d i c t i o n , m u l t i p l er e f e r e n c e p i c t u r e ,q u a r t e r - p i x e la c c u r a c yf o rm o t i o nv e c t o r s ,i n t e g e rt r a n s f o r ma n dl o o p d e b l o c k i n gf i l t e r t h ei n t r a - p r e d i c t i o nm e t h o di s a n a l y z e di nd e t a i l i tu s e sl a g r a n g er a t e d i s t o r t i o no p t i m i z a t i o n ( r d o ) t e c h n i q u et od e c i d et h eb e s ti n t r a - c o d i n gm o d ei n n i n em o d e t h ec o m p l e xp a r t - p r e d i c t i o nm o d es e l e c t i o ni sr e s e a r c h e dd e e p l y , t h e n t w of a s ti n t r a - p r e d i c t i o nm e t h o & a r cg i v e n af a s ti n t r a p r e d i c t i o n m o d es e l e c t i o n a l g o r i t h m i s p r o p o s e d i tu s e s s p a t i o t e m p o r a lc o r r e l a t i o no fi n t r ap r e d i c t i o nm o d e sa n dt h ei n f o r m a t i o no fe d g e d i r e c t i o ni nt h ec u r r e n tc o d i n gm a c r ob l o c ka n dt of a s td e t e r m i n et h eb e s tm o d e 、析t h t h er d 0c r i t e r i o n i i i t h ea n o t h e ri n t r a p r e d i c t i o n i s b i - d i r e c t i o n a l ( f o r w a r da n db a c k w a r d ) p r e d i c t i o n w ef o u n dt h a t t h eo n e d i r e c t i o n a l p r e d i c t i o n r e s u l t si ni d e n t i c a l p r e d i c t i o nv a l u e sf o ra l ls a m p l e si nt h es a m ed i r e c t i o n h o w e v e ri nan a t u r ev i d e o f r a m e ,o n es a m p l eu s u a n yh a sd i f f e r e n tv a l u ef r o mi t sn e i g h b o r s ,e v e ni nas m o o t h r e g i o n f u r t h e r m o r e ,t h ev a l u eo f as a m p l el i e sh i g h l yl i k e l ya m o n gt h ev a l u e so fi t s s u r r o u n d i n gn e i g h b o r s ,a n dt h u sb i - d i r e c t i o n a lp r e d i c t i o nu s u a l l yb r i n g sab e t t e r r e s u l tt h a no n e - d i r e c t i o n a lo n e s ot h eb i d i r e c t i o n a lp r e d i c t i o nm e t h o di sd i s c u s s e d a n di m p r o v e db a s e do nt h ei d e ap r o p o s e db y t e n gf r o mc a n a d a a f t e ro p t i m i z i n ga v s - me n c o d e ra ta l g o r i t h ml e v e l ,w e l lf u r t h e ro p t i m i z et h e c o m p u t a t i o n a l l y i n t e n s i v em o d u l e si ne n c o d e ru s i n gi n t e l sm m x s s e s s e 2 i n s t r u c t i o ns e ta n ds i g n i f i c a n t l ys p e e du pt h ee n c o d e r t h ec o n c l u s i o n sa n dd i r e e t i o n sf o rf u t u r er e s e a r c hw o r ka led i s c u s s e di nt h el a s t c h a p t e ro ft h i st h e s i s k e y w o r d s :v i d e oc o d i n g ;a v s - ms t a n d a r d ;i n t r ap r e d i c t i o n ;s i m d i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含 其他人已经发表或撰写过的研究成果,也不包含未! 逵! 垫遗查墓丝益墨挂别 直明鲍:奎拦亘窒2 或其他教育机构的学位或证书使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。 学位论文作者签名:t 亮 签字日期:2 叨g 年牛月f ,日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留 并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。 本人授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学 技术信息研究所将本学位论文收录到中国学位论文全文数据库,并通过网络 向社会公众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:王会 签字日期:2c n d g 年4 月侈日 导师签字: 签字日期:2 叨g 年夸月陟日 基于a v s m 的帧内预测算法研究及程序优化 1 绪论 1 1 课题研究背景 随着半导体、微电子、大规模集成电路等技术的快速发展,计算机性能得 到大幅度提高,通信技术和存储技术的发展使得网络的带宽和存储容量得到大 幅的增加。在此基础上,消费类电子、通信、广播、计算机技术日益紧密结合 起来,世界进入了数字化网络化的信息时代。在计算机、通信、娱乐相融合的 应用背景下,数字多媒体技术迅速发展,数字音视频在各种场合通过各种渠道 开始影响人类的传统生活方式。人们对以图像视音频编解码技术为基础的数字 存储媒体、数字电视广播、视频会议、互联网无线网宽带流媒体等一系列应用 的需求广泛而强烈【1 1 【2 】。 数字音视频编解码技术是数字音视频产业的共性基础。数字音视频,尤其 是数字视频内容,数据量大,对带宽和处理能力要求极高。如不进行压缩,其 巨大的数据量是网络带宽和存储空间难以承受的。对数字音视频进行有效的压 缩可以使音视频服务在一定的系统资源下,为更多的人提供更优质的视频服务。 我国是人口大国,数字音视频产业有着巨大的市场。2 0 0 8 年,中国数字音视 频产业年产值将达到9 0 0 0 亿元,超过通信产业跃居信息产业首位。到2 0 1 0 年, 音视频产业将达1 5 万亿元,成为国民经济的第一大支柱。目前,国际上比较 通用的音视频编解码标准有m p e g 11 3 、m p e g - 2 4 1 、m p e g - 4 n 、h 2 6 3 1 6 1 、h 2 “忉 等,我国多数企业应用的也是这几个标准,但是由于这些标准涉及到众多专利 技术,因此每年要交纳数十亿甚至上百亿相关的专利费,对我国信息产业的发 展非常不利,已严重阻碍了我国的信息产业的发展。 我国在音视频产业领域已经具备较强的产业基础,学术界和应用领域也一 直都在致力于音视频技术的研究和相应标准的制定。但由于没有掌握核心技术 标准,相关企业长期受制于国外持有标准化专利技术的企业和组织。为适应发 展的需要,由国家信息产业部科学技术司批准,我国于2 0 0 2 年6 月成立了数字 音视频编解码技术标准化工作组,自主提出了数字音视频编解码标准a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 【8 】,包括系统、视频、音频、数字版权管理等 基于a v s m 的帧内预测算法研究及程序优化 四个主要技术标准和一致性测试等支撑标准。其中针对高清视频的压缩标准即 a v s 第二部分f 9 】已批准为国家标准。a v s m 是标准的第七部分 1 0 1 ,是面向新一 代移动视频通信的编码标准。对视频编码标准进行深入的研究,提高编码效率, 将进一步推动数字视频编码技术的发展,为信息产业的进步注入了强大的动力。 1 2 视频压缩技术及其发展现状 1 9 4 8 年,o l i v e r 提出了第一个编码理论脉冲编码调制( p c m ) 1 1 1 ;同 年,在s h a n n o n 等人发表的经典论文“通信中的数学原理 中,首次提出并建 立了信息率失真函数的概念;1 9 5 9 年,s h a n n o n 进一步确立了率失真理论【i 列, 由此奠定了信息编码的理论基础。5 0 多年来,视频编码已经发展成为一个独立 的研究领域。图像编码压缩技术的基本思想是去除图像数据中各种相关性带来 的冗余。一般视觉数据存在以下几种冗余【1 3 】:空间冗余、时间冗余、信息熵冗 余、结构冗余、知识冗余、视觉冗余等,各种图像编码技术就是与这些视觉数 据冗余类型有关。根据编码技术利用的冗余类型,图像编码可分为第一代编码 技术和第二代编码技术两个阶斟1 4 1 。 第一代的编码技术仅考虑图像及图像序列中的空间冗余、时间冗余和信息 熵冗余。其编码方法主要以象素或象素块作为编码实体,没有或较少考虑人类 视觉系统。第一代编码方法主要有:预测编码、变换编码、统计编码、矢量编 码、小波编码等【1 3 】。第一代编码方法在数字通信系统的信源编码中得到广泛应 用。其中,预测编码主要根据信号的的统计特性,利用先前信号对当前信号进 行预测,然后将实际信号与预测信号的差值进行编码,从而达到数据压缩的目 的。变换编码通过数学变换,将原始信号的空间域变换到另一个信号空间域, 从而降低信号的内在相关性。然后,对变换域中的信号进行量化,压缩图像的 视觉冗余。统计编码又称为熵编码,根据信源出现的概率分布特征,实现数据 的压缩。目前,在已经制订的与视频编码相关的国际标准中,基本上都采用了 以上三种经典的编码方法。而小波编码是一种利用人类视觉特性的“多分辨率 编码方法,其主要改进是将小波分析理论用于视频编码中1 5 】【1 6 1 。多分辨率分析 方法将输入信号分解为高频分量和低频分量,然后根据人类视觉特性,分别对 高频和低频分量进行量化和编码,以达到更好的压缩效果。小波编码也是一种 基于a v s m 的帧内预测算法研究及程序优化 变换编码技术,但是目前主要仅应用于图像分析和静态图像压缩。 由于第一代编码技术已经发展到了顶点,进一步提高编码效率已经很困难。 因此在上世纪八十年代初,在第一代编码技术的基础上,进一步考虑视觉数据 中的结构冗余、知识冗余和视觉冗余,开始产生第二代编码技术,以期获得更 高的压缩效率和更好的视觉效果。代表性的第二代编码方法主要有:基于分割 的编码方法【1 7 1 、基于模型的编码方法【1 8 】【1 9 1 和分形编码【2 0 1 等。k u n t 等人于1 9 8 5 年提出了基于内容的编码方法【2 i 】,根据视频场景的内容,分别对不同的图像区 域独立地进行编码。然后在此基础上,先后出现了基于模型和基于区域分割的 编码方法。基于模型的编码是在编码端,通过各种分析手段,提取场景中有意 义模型的特征与状态参数。在解码端根据这些参数,通过相关数据重建信源数 据模型。这类方法将计算机视觉和计算机图形学中的方法应用到了视频图像的 编码中来。基于区域分割的编码是根据图像的空间域特征瞄】,将图像分为纹理 和轮廓两部分,采用不同的方法分别对其进行编码瞄】。分形编码利用图像数内 在的自相似性,用一个函数来表示图像数据,因而具有很高的压缩率。 第一代编码技术是目前编码标准中广泛使用的技术。但它们是基于图像分 块的编码技术,与人类视觉系统的机理是不一致的,特别是在低码率时的效果 很差。第二代图像编码方法建立在图像分析和合成、计算机图形学、计算机视 觉等基础上,其中许多新的编码技术还有待于进一步的研究与探索。 1 3 视频编码相关的国际标准 多媒体产业化成功的前提是视频压缩标准化,目前国际上的视频压缩标准 主要有两个g 一个是国际电信联盟i t u t 的视频编码专家组v c e g ( v i d e oc o d i n g e x p e r tg r o u p ) 制定的h 2 6 x 系列,另一个是国际标准化组织i s o i e c 的运动图 像专家组m p e g ( m o t i o np i c t u r ee x p e r tg r o u p ) $ i j 定的m p e g x 系列。两个标准化 组织基于不同的应用需求,采用了近似的压缩编码技术。 实际上,许多标准是两大国际标准组织合作的产物,如图1 1 所示。如 m p e g 2 是i t u t 与m p e g 共同完成的标准,m p e g 2 在u t 中被称作h 2 6 2 。 h 2 6 4 是i t u t 所属v c e g 和m p e g 组织在2 0 0 1 年合作成立的n 吓( j 0 i n tv i d e o t e a m ) 共同制定的。所以,h 2 6 4 在i s o 中被称作m p e g 4p a r t l 0 a d v a n c e d v i d e o 3 基于a v s m 的帧内预测算法研究及程序优化 c o d i n g ( a v c ) 。 1 3 1h 2 6 1 c 。 l l i i i i i i l l ! 一l 旧叫哐c 图1 - 1 国际标准化组织及其标准 l l l l l l l l l 1 1 h 2 6 1 1 2 4 1 标准发布于1 9 9 0 年,是i t u t 的前身c c i t t 针对可视电话、会议 电视和窄带i s d n 等要求实时编解码和低延时应用提出的一个编码标准,是第 一个成功用于实际的数字视频标准。h 2 6 1 的基于块的运动补偿与d c t 变换相 结合的混合视频编码框架成为后来各种视频编码标准的基础。h 2 6 1 的输出码 率是p x 6 4 k b p s ,当p 小于6 时,只能传输清晰度不太高的图像,可应用于电视 电话;当p 大于6 时,可以传输清晰度较好的图像,适用于电视会议等。 1 3 2m p e g 1 m p e g 1 标准制订的目标码率是1 2 m b p s ,对于c i f ( 3 5 2 x 2 8 8 ) 格式图像 可以达到实时播放,是为只读c d r o m 光盘的视频存储和播放所制订的。类似 于h 2 6 1 标准,m p e g - 1 也采用运动补偿和二维d c t 变换,量化后的d c t 系 数进行变长编码,同时每个数据块的直流分量d c 进行预测差分编码。在 m p e g 1 标准中,图像预测类型可以分为四种情况:帧内预测、前向帧间预测、 双向帧间预测和直接预测。 4 基于a v s m 的帧内预测算法研究及程序优化 1 3 3m p e g 一2 h 2 6 2 m p e g 2 的视频编码部分就是h 2 6 2 ,该标准主要针对数字视频广播d v b ( d i g i t a lv i d e ob r o a d c a s t ) 、高清晰度电视h d t v ( h i g hd e f i n i t i o nt e l e v i s i o n ) 和数字光盘d v d ( d i g i t a lv i d e od i s c ) 等4 - - 9 m b p s 运动图像的编码。m p e g - 2 作为一个得到广泛应用的国际标准,成功之处在于提出了通用的压缩编码方法, 定义了不同的“档次( p r o f i l e ) 和“等级( 1 e v e l ) ,可满足不同图像分辨率及 相应的存储成本和处理速度的需要。与h 2 6 1 视频标准相比,m p e g - 2 开始使 用半像素精度的运动矢量搜索,引入了“帧和“场的编码方法,支持可分 级性技术,包括空间可分级性、时间可分级性和信噪比可分级性等。 1 3 4h 2 6 3 h 2 6 3 是为码率视频压缩提供的新标准,目的是支持码率小于6 4 k b p s 的应 用。在h 2 6 1 建议的基础上,h 2 6 3 进行了重要改进,采用了半像素精度的运 动矢量搜索,增加了非限制运动矢量,提出了基于语法的算术编码、先进预测 模式和p b 帧编码等多个高级选项,从而达到了进一步降低码率和提高编码质 量的目的。h 2 6 3 + 2 5 】和h 2 6 3 + + 【2 q 扩充了h 2 6 3 的编码可选项,提高了编码效 率,适用范围更大,同时支持s q c i f 等多种图像格式。h 2 6 3 在增加编码效率 的同时,增强了抗误码的差错隐藏性能,将信道传输性能问题在信源编码中加 以综合考虑。 1 3 5 田e g 4 m p e g - 4 标准既能够支持低码率的视频应用,也能够支持广播级的视频应 用,与其他标准相比,m p e 叫标准中引入了视昕对象a 矿o ( a u d i o v i s u a l o b j e c t ) 的概念,这种编码模式能有效提高视频通信的交互能力和编码效率。 m p e g - 4 还采用了诸如形状编码和自适应d c t 技术以支持任意形状视频对象的 编码,以及基于内容的可分级性操作。其自然视频编码的基本框架和h 2 6 3 标 准是接近的,但是由于“基于对象的编码 尚有技术障碍,在技术专利保护问 题上迟迟难以找到有效的收费形式,因此该标准目前仍然没有得到普遍应用。 基于a y s m 的帧内预测算法研究及程序优化 1 3 6h 2 6 4 似c h 2 6 4 a v c 是i t u t 和i s o i e c 共同成立的联合视频组t ( j o i n tv i d e o t e a m ) 共同制订的新标准。1 9 9 8 年,i t u tv c e g 提出研究新一代编码标准 ( h 2 6 l ) ,其目的是与已存在的视频编码标准相比能够成倍提高编码效率并可 应用到更广阔的领域。2 0 0 1 年6 月通过i s o i e cm p e g 测试,被确认为是当前 最先进的视频压缩编码方法。在2 0 0 3 年3 月,通过了最终视频编码标准草案, 正式定为h 2 6 4 a v c 。其高编码效率和网络友好性使它成为新一代的国际视频 编码标准。相对于以前的视频编码标准,h 2 6 4 a v c 有如下突出特点】: ( 1 ) 提出n a l ( n e t w o r k a b s t r a c t i o nl a y e r ) ,使之与视频编码层( v c l ) 相分离,能更友好地适应于网络的应用。 ( 2 ) 先进的帧间编码技术:宏块由以前标准的1 6 x 1 6 和8 x 8 模式扩展为7 种不同大小块模式;运动矢量精度由以前的1 2 像素提高到1 4 像素,色度块提 高到1 8 像素,允许多参考帧,允许b 帧作为其它帧的参考帧。 ( 3 ) 多种模式的帧内空间预测编码,有效提高了预测质量,从而提高了帧 内编码效率。 ( 4 ) 采用4 x 4 的整数类d c t 变换,降低变换的计算,减小了d c t 浮点运 算带来的变换与反变换上的漂移。 ( 5 ) 基于上下文的自适应熵编码,包括c a v l c ( c o n t e x t - a d a p t i v e v a r i a b l e - l e n g t hc o d i n g ) 和c a b a c ( c o n t e x t - a d a p t i v eb i n a r ya r i t h m e t i cc o d i n g ) ( 6 ) 将自适应的循环去块滤波器用于编码器,不仅有效提高了去块滤波效 果,而且一定程度上提高了帧间预测效果。 ( 7 ) 提出了包括f m o ( f l e x i b l em a e r o b l o c ko r d e r i n g ) 、a s o ( a r b i t r a r ys l i c e o r d e r i n g ) 、s p s i ( s y n c h r o n i z a t i o n s w i t c h i n gp i c t u r e s ) 等新技术。 1 4a v s 标准组织及知识产权问题 1 4 1 相关知识产权问题现状 在上述各种编解码标准中,目前国际上普遍采用的标准主要有m p e g 2 、 m p e g - 4 和h 2 6 4 。其中,1 9 9 4 年提出的m p e g 2 是第一代压缩标准。随着数 6 基于a v s m 的帧内预测算法研究及程序优化 字编解码技术的进步和芯片集成度、计算速度的发展,m p e g 2 已经落后【2 7 】【2 8 】, 国际标准组织和一些跨国公司纷纷制定新一代数字音视频编解码技术和标准, 以期掌握核心专利,控制产业上游。m p e g - 4 和h 2 6 4 就属于第二代压缩标准, 它们在性能上比第一代压缩标准有了很大的提高,编码效率提高了一倍以上。 目前和将来的高清和移动视音频应用将主要采用第二代数字视音频编解码 标准。然而,m p e g 2 、m p e g - 4 、h 2 6 4 等国外标准有苛刻的专利收费政策, 采用这三种标准都将面临高昂的专利费用问题【2 9 1 3 0 l 。例如,m p e g 2 收费标准 是向终端制造商每个编解码器收费2 5 0 美元,向节目运营商每个节目收0 0 3 美 元;m p e g - 4 收费标准是对于终端制造商来说每个编解码器收费o 2 5 美元,或 者编解码器年封顶费1 0 0 万美元,对于节目运营商每个企业参加费5 0 0 1 0 0 0 万 美元,另外还要按照节目数量、使用时间收费;h 2 6 4 从2 0 0 6 年1 月1 日起开 始收费,终端厂商每制造一个编解码器交费0 2 0 美元,或者缴纳编解码器年封 顶费3 5 0 万美元,p c 厂商编解码器的收费是年封顶费3 5 0 万,对于节目运营商 参加费每年3 5 0 万美元,然后还要按照节目收费,并增加了对广播的收费,按 照编码设备或转发设备收费。面对国外标准的收费政策,从终端制造、节目运 营到普通用户,所有相关的企业、人员没有一个可以“幸免 。 未来1 0 年,我国至少有4 亿台m p e g - 2 设备需要交费,数字超过1 0 亿美 元。如果采用m p e g - 4 或者h 2 6 4 ,除了单个的编解码设备要交费外,我国有 线电视用户数量巨大、转发设备多,节目运营商也要交纳庞大的专利费用。企 业、运营商的利润要拱手让人,消费者要花更多的钱才能欣赏到本来不必花这 么多钱就能欣赏到的娱乐节目。更为重要的是,这些标准的核心技术和专利由 国外机构和企业所控制,知识产权将成为制约我国视频产业未来发展的瓶颈。 2 0 0 2 年以来,我国的d v d 产业经历迅速窜升到迅速衰落的戏剧性变化的直接 原因就是一些国际厂商组成的专利联合体征收高额专利费【3 。 1 4 2a v s 标准简介 为避免专利上受制于人,提高国内视频产业的核心竞争能力,我国抓住了 数字音视频编解码标准更新换代的历史机遇,在长期参与国际标准制定的基础 上,于2 0 0 2 年提出了具有自主知识产权的第二代数字视音频编解码技术标准 7 基于a v s m 的帧内预测算法研究及程序优化 a v s ( a u d i ov i d e oc o d i n gs t a n d a r d ) 。a v s 标准为信息技术先进音视频编码 系列标准的简称,其包括了系统、视频、音频、版权管理、文件格式、网络传 输等从视频压缩技术到系统规范的一整套标准。a v s 标准由中国数字音视频编 解码技术标准工作组( 简称a v s 工作组) 负责制定。该组织由国家信息产业部 科学技术司于2 0 0 2 年6 月批准成立,目前工作组成员几乎涵盖了以中科院计算 所、清华大学、华为、中兴等为代表的国内所有著名科研机构、大学及企业, 同时包括了诺基亚、松下、飞利浦等国际知名跨国公司。其任务是:面向我国 的信息产业需求,联合国内企业和科研机构,制( 修) 订数字音视频的压缩、 解压缩、处理和表示等共性技术标准,为数字音视频设备与系统提供高效经济 的编解码技术,服务于高分辨率数字广播、高密度激光数字存储媒体、无线宽 带多媒体通讯、互联网宽带流媒体等重大信息产业应用。 a v s 标准的技术方案采用国际主流技术方案,主要采纳公开技术和我国的 自主创新技术,把握了技术主动权。a v s 建立了完备的知识产权政策,其基本 原则为:a v s 标准不反对专利技术,以保证标准的先进性,但专利进入a v s 标 准必须遵守公平非歧视性原则、专利许可模式简易可行的原则和有竞争力的许 可费用原则。为避免高额专利费影响,a v s 标准工作组承诺,在授权商业模式 上将奉行“一元人民币 策略。这也就是说,把实施a v s 标准所需的必要专利 组织成a v s “专利池 ,并进行“一站式 许可,欲使用a v s 标准的企业只要 交纳1 元专利费。简言之,a v s 标准既采纳了先进的专利技术,又在标准发布 前将专利的利益索求限制在一个合理的水平,保证了标准的公益性,为标准的 实施提供通畅的最方便的便利条件,有利于标准的快速产业化,把握了发展的 主动权。 a v s 工作组从2 0 0 2 年6 月成立开始,目前已经完成了系统、音频、视频部 分的最终草案,多数部分已经进入国家信息技术标准化技术委员会评审阶段。 其中,第二部分数字电视视频压缩标准信息技术先进音视频编码第2 部分: 视频( a v sp a r t 2 ) 在2 0 0 6 年2 月已经通过国家信息产业部和信息技术标准化 技术委员会的审批,获国家标准化管理委员会正式批准成为国家标准,并于2 0 0 6 年3 月1 日起实施【3 2 1 。 a v s m 是a v s 系列标准的第七部分移动视频压缩标准,正式名称为信息 基于a v s m 的帧内预测算法研究及程序优化 技术先进音视频编码第七部分:移动视频( a u d i ov i d e oc o d i n gs t a n d a r dp a r t 7 , a v s p 7 ) ,通常被称为a v s m ( a u d i ov i d e oc o d i n gs t a n d a r df o rm o b i l e ) ( 本文 统一采用名称a v s m ) 其目的是为迅速发展的无线网络与手机等移动设备提供 视频编解码规范和标准,应用范围包括交互存储媒体宽带视频业务、多媒体邮 件、分组网络的多媒体业务、远程视频监控、视频会议、可视电话等。a v s m 标准开始制定于2 0 0 4 年3 月在深圳举行的工作组第八次会议,在2 0 0 4 年1 2 月 第十一次a v s 工作组会议上形成最终草案及相应的参考编解码软件,并历经三 次修改,于2 0 0 5 年9 月第十四次a v s m 工作组会议确定标准送审稿。目前该 标准的最终文档已经报审,有望被批准成为我国下一代移动通信视频编码国家 标准。与目前国际上其他类似标准相比,a v s 标准具有如下优势【3 3 】【3 4 】: ( 1 ) 基于我国自主创新技术和部分公开技术构建的开放标准,较好地解决 了知识产权许可问题。通过简洁的一站式许可政策和低廉的许可收费,解决了 h 2 6 4 被专利许可问题缠身、难以产业化的死结,易于推广。 。 ( 2 ) 高效率、低复杂度。编码效率比第一代标准( m p e g 2 ) 高2 3 倍, 与h 2 6 4 标准相当,而且技术方案简洁,芯片实现复杂度低,达到了第二代标 准的最高水平。 ( 3 ) 是一套包含系统、视频、音频、媒体版权管理在内的完整标准体系, 为音视频产业提供了完整的信源编码技术方案。 1 5 本文主要研究内容 本文从a v s m 实时视频应用的角度,针对编码过程帧内预测模式,进行研 究,并对程序做出优化,有效的减少编码器的计算复杂度。论文的内容组织如 下: 第一章绪论,简要回顾了视频编码发展的历史和背景,介绍了a v s m 视频 编码标准的形成、特点和应用领域等基本问题,并简述了本文的研究目的和研 究内容。 第二章分析a v s m 的主要技术特征,如新型帧内预测、多尺寸编码块模式、 多参考帧预测、1 4 像素精度运动矢量、整数变换量化、去方块效应滤波器等。 并与已有视频编码标准从技术和性能上分别做出比较。 9 基于a v s m 的帧内预测算法研究及程序优化 第三章对帧内预测算法进行研究。分析了帧内预测编码的复杂性,提出两 种快速选择算法,一种是以率失真优化( r d o ) 为判决依据,利用预测图像的 空间、时间相关性和边缘方向,合理使用经验阈值,快速地进行帧内预测模式 选择;另一种是基于前向和后向的帧内预测算法。 第四章针对程序特点对校验模型进行优化,并介绍i n t e l 的m m x s s e s s e 2 指令集,对优化过程和关键技术做出说明。 第五章为全文的总结和展望。 1 0 基于a v s m 的帧内预测算法研究及程序优化 2a v s - m 关键技术及性能分析 2 1a v s - m 编码原理 在a v s m 的制定过程中,视频组专家以当前国际上最先进的h 2 6 4 a v c 框架为起点,自主制定适合移动视频应用的中国标准,其中强调自主知识产权, 同时充分考虑实现复杂度。 a v s m 是a v s 面向移动的应用标准,在技术细节方面,为了适用于无线 环境,a v s m 根据无线环境和移动设备的特点作了一些改动。例如在帧内预测、 帧间预测、整数变换等编码过程中处理单元都为4 x 4 大小;考虑到手持设备等 的处理能力,编码没有b 帧,只有i 帧和p 帧;熵编码时,a v s m 避开复杂度 较高的c a b a c ( c o n t e x t - a d a p t i v eb i n a r ya r i t h m e d cc o d i n g ) 熵编码【3 5 】,采用 了较简单的指数哥伦布码进行编码,同时又灵活地采用了多阶码表。这些特点 都是针对迅速发展的无线网络和手机等移动设备的需要,能够为其提供高压缩 比、低复杂度的视频编解码器。 2 1 1a v s m 编码比特流的结构 a v s m 比特流为网络抽象层单元流或字节流【1 0 1 。一个网络抽象层单元流包 含一系列按解码顺序排列的网络抽象层单元序列。一个字节流由网络抽象层单 元流组成,网络抽象层单元流包含一系列按解码顺序排列的网络抽象层单元序 列,每个网络抽象层单元前包含起始码前缀。 ( 1 ) 编码视频序列 编码视频序列是比特流的最高层语法结构。编码视频序列由一个 d r 图像 开始,后面跟着零个或多个非d r 图像,直到但不包括下一个k ) r 图像或直到 比特流结尾。编码图像在比特流中按比特流顺序排列,比特流顺序应与解码顺 序相同。 ( 2 ) 图像 a v s m 支持4 :2 :0 格式的图像。一幅图像是一帧。帧由三个样本矩阵构成, 包括一个亮度样本矩阵( y ) 和两个色度样本矩阵( c b 和c r ) 。样本矩阵元素 基于a v s m 的帧内预测算法研究及程序优化 的值为整数。y ,c b 和c r 三个分量与原始的( 模拟) 红、绿和蓝色信号之间 的关系,包括原始信号的色度和转移特性等可在比特流中定义,这些信息不影 响解码过程。 在4 :2 :0 这种图像格式中,c b 和c r 矩阵水平和垂直方向的尺寸都只有y 矩阵的一半。亮度和色度样本位置如图2 1 所示。图中“o ”代表亮度样本,“ 代表色度样本。 oooooo oooooo oooooo oooooo 图2 1a v s m 标准中4 :2 :0 格式下亮度和色度样本位置 a v s m 标准中定义了两种图像:帧内编码图像i 帧和前向帧间编码图像p 帧。p 帧最多可参考前向的两帧。运动矢量所指的参考像素可超出参考图像的 边界,在这种情况下对超出参考图像边界的整数样本应使用距离该整数参考样 本所指位置最近的图像内的整数样本进行边界扩展。对亮度样本矩阵,参考块 的像素在水平和垂直方向均不应超出参考图像边界外1 6 个像素。对色度样本矩 阵,参考块的像素在水平和垂直方向均不应超出参考图像边界外8 个像素。 ( 3 ) 条带 条带是按光栅扫描顺序连续的若干宏块,条带内的宏块不应重叠,条带之 间也不重叠。条带内宏块的解码处理不应使用本图像其它条带的数据。见图2 2 。 a i :薄:簟;j ! j i 麓:蠹i ! ! ;! :土弗= = = :骖:= :薹;:蓐:摹土:蠢:棼刘 巨善:誊善蠹誊:誊

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论