（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-09 格式：PDF 页数：73 大小：1.84MB 积分：0 举报 版权申诉

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf_第2页

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf_第3页

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf_第4页

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf_第5页

已阅读5页，还剩68页未读，继续免费阅读

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要当今世界上存在着多种视频压缩标准，它们针对不同的应用，具有不同的压缩算法和语法。h 2 6 1 、h 2 6 2 、h 2 6 3 适用于低比特率视频，比如视频电话和视频会议。m p e g 2 标准针对高比特率高质量应用，比如数字电视和d v d ，而m p e g 4 的主要针对移动设备上的流媒体应用。视频转码执行一种或几种操作把某个视频流从一种格式转换成另一种格式。这种格式转换包括比特率转换、空域分辨率转换、时域分辨率转换等。随着应用类型的增加和各种各样有线无线网络的互联，不同系统和不同平台问的互相兼容变的越来越迫切。标准内部和标准之间都需要通过转码来实现多媒体流间的互相转换。视频转码器是当前和将来用来实现多媒体互通的关键单元。本文研究了d c t 域h d t v 至s d t v 转码的架构和关键算法。其中，关键算法包括：运动矢量映射算法、d c t 域图像下采样算法、d c t 域运动补偿算法、码率控制算法。通过选择恰当的架构和算法，降低了转码的复杂度，同时保持了转码后的视频质量。与传统的像素域转码相比，d c t 域转码不仅避免了d c t 、i d c t 运算，还通过重用输入h d t v 码流中的运动信息直接构造s d t v 的运动矢量和宏块模式，避免了运算量极大的运动估计过程，有利于实时转码的实现。整个转码系统主要由c 语言实现，并通过s s e 2 汇编指令集以及i n t e l 的软件开发和优化工具进行了优化，最终在p c 平台上实现了h d t v 至s d t v 的快速转码。关键词：视频转码，d c t 域，h d t v ，s d t v ，s s e 2 a b s t r a c t a b s t r a c t c u r r e n t l y ，s e v e r a lv i d e oc o m p r e s s i o ns t a n d a r d se x i s tf o rd i f f e r e n tm u l t i m e d i a a p p l i c a t i o n s t h e s es t a n d a r d s d i f f e rf r o me a c ho t h e ri nt h ec o m p r e s s i o na l g o r i t h m s a n ds y n t a x h 2 6 1 、h 2 6 2 、h 2 6 3a r ea i m e da tl o w - b i t r a t ev i d e oa p p l i c a t i o n ss u c ha s v i d e o p h o n ea n dv i d e oc o n f e r e n c i n g m p e g 一2i sa i m e df o rh i 曲b i tr a t eh i 曲q u a l i t y a p p l i c a t i o n ss u c ha sd i g i t a lt vb r o a d c a s t i n ga n dd v d ，a n dm p e g 一4i s a i m e da t m u l t i m e d i aa p p l i c a t i o n si n c l u d i n gs t r e a m i n gv i d e oa p p l i c a t i o n so nm o b i l ed e v i c e s v i d e ot r a n s c o d i n gp e r f o r m so n eo rm o r eo p e r a t i o n s ，s u c ha sb i tr a t ea n df o r m a t c o n v e r s i o n s ，t ot r a n s f o r mo n ec o m p r e s s e dv i d e os t r e a mt oa n o t h e r a st h en u m b e ro f a p p l i c a t i o n si n c r e a s e sa n d v a r i o u sn e t w o r k ss u c ha sw i r e l i n ea n dw i r e l e s si n t e g r a t ew i t h e a c ho t h e r ，i n t e r - c o m p a t i b i l i t yb e t w e e nd i f f e r e n ts y s t e m sa n dd i f f e r e n tp l a t f o r m sa r e b e c o m i n gh i 曲l yd e s i r a b l e t r a n s c o d i n gi sn e e d e db o t hw i t h i na n da c r o s sd i f f e r e n t s t a n d a r d st oa l l o wt h ei n t e r o p e r a t i o no fm u l t i m e d i as t r e a m s t h u s ，v i d e ot r a n s c o d i n gi s o n eo ft h ee s s e n t i a lc o m p o n e n t sf o rc u r r e n ta n df u t u r em u l t i m e d i as y s t e m st h a ta i mt o p r o v i d eu n i v e r s a la c c e s s t h i sp a p e rs t u d i e st h ea r c h i t e c t u r e sa n dk e ya l g o r i t h m so ft h et r a n s c o d i n gf r o m h d t vt os d t vi nt h ed c td o m a i n t h ek e ya l g o r i t h m si n c l u d e s ：m o t i o nv e c t o r m a p p i n g ，p i c t u r ed o w n s i z i n gi nd c td o m a i n ，m o t i o nc o m p e n s a t i o ni nd c td o m a i n a n dr a t ec o n t r 0 1 b yc h o o s i n gt h ea p p r o p r i a t ea r c h i t e c h t u r ea n da l g o r i t h m s ，t h e t r a n s c o d i n gc o m p l e x i t yi sr e d u c e da n dt h et r a n s c o d e dv i d e oq u a l i t yi sm a i n t a i n e d c o m p a r e dw i t ht h et r a d i t i o n a lp i x e ld o m a i nt r a n s c o d i n g ，o u rt r a n s c o d i n gs c h e m en o t o n l ya v o i d st h ed c ta n di d c to p e r a t i o n sb u ta l s oa v o i d sc o m p u t a t i o n e x p e n s i v e m o t i o ne s t i m a t i o nb yr e u s i n gt h em o t i o ni n f o r m a t i o ni nt h eo r i g i n a lh d t vs t r e a m t h et r a n s c o d i n gs y s t e mi sr e a l i z e do np cw i t hcl a n g u a g e ，a n do p t i m i z e dw i t h s s e 2i n s t r u c t i o n sa n di n t e l ss o f t w a r ed e v e l o p m e n tt o o l s k e yw o r d s ：v i d e ot r a n s c o d i n g ，d c td o m a i n ，h d t v , s d t v ，s s e 2 i i 独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名：查堑孟魄。年争鲫关于论文使用授权的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定，有权保留并向国家有关部门或机构送交论文的复印件和磁盘，允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名：二嫩导师签名：粗 1 9 期： o 占年争月2 ，角第一章绪论 1 1 视频转换编码的背景第一章绪论现今，诸多标准共存，面向不同的应用。每种标准可以在多种场合下使用，但能充分发挥其特点的场合是有限的。i t u 制定的 l 2 6 l 、h 2 6 2 、h 2 6 3 的应用目标是低比特率视频应用，比如视频电话和视频会议。i s o 制定的m p e g 2 标准主要针对高比特率高质量应用，比如数字电视和d v d 。而m p e g 4 主要应用于移动设备以及流媒体。随着各种应用的增加和各种各样的有线无线网络的互联，不同系统和不同平台间的互相兼容性变的越来越迫切。标准内部和标准之间都需要转码来实现多媒体流间的互相转换。如图l 。1 所示，对压缩视频编码参数的调整，空域和时域分辨率的转换，插入新的信息( 数字水印或公司标识等) ，增强抗错能力等都能通过转码得以实现。标识和水印鬻蒸1 ：f r 一：s r i ( v s ，忙比特率：b r ( v s )- l 相。帧率1 ( 、，s )l 一” ) l i一压缩算法：a l l ( v s ) 图1 - 1 视频转码进行的各种操作目标压缩视频流( v t ) 比特率：b r 2 ( v t ) 帧率：f r 2 ( v t l 空域分辨率：s r 2 ( v t ) 压缩算法：a l 2 ( v t l 可分级编码是另外一种调整比特率的方法，传统的可分级有三种类型：s n r 分级、空域分级、时域分级。为得到不同质量等级的视频，视频源首先以较低的 p s n r 、较低的空域分辨率和较低的帧率编码形成基本层。基本层和原始视频之间的残差信息进一步被编码形成一个或多个增强层。但可分级编码不够灵活，其分级层数有所限制，目标视频的比特率不能小于基本层的比特率。所以，仅靠可分级编码并不能解决比特率调整问题。视频转码执行一种或几种操作( 比如比特率和格式转换) 来把一个视频流转换成另一个视频流。转码可以使具有不同能力和格式的多媒体设备在异构网络上互换多媒体内容。一个应用是把高质量的多媒体源( 比如d v d 和h d t v ) 通过有线或无线网络传送到不同的接收端( p d a s 、便携式p c 、台式p c 等) 。转码器放电子科技大学硕士学位论文在发射端，接受端或者网络中某个地方，能够从原始视频流产生与终端匹配的视频流，而无需解码和重编码。为适应网络带宽，视频转码器可动态调整视频流的比特率。另外一个应用是基于因特网的视频会议系统，用户可能使用不同的终端设备，这时，转码器可以提供两项功能：首先，提供格式转换以实现内容交换；其次，实施动态比特率调整以合理的分配网络资源。因此，视频转码是当前和将来用来实现多媒体互通的关键单元【“。 1 2 研究目的和意义高清晰度电视( h d t v l 具有高质量的视觉效果，但其要求的带宽也很大。相对而言，标清电视的视频质量要差一些，但因其对带宽要求较低，在某些场合下更加适用。因此，高清电视和标清电视将长期存在。比如，不愿意购买昂贵的h d t v 显示设备的消费者要在s d t v 显示器上观看h d t v 电视节目，就需要把h d t v 码流转换成s d t v 码流。另外，当信道因发生拥堵等原因而无能力传输h d t v 码流时，如果把h d t v 码流转换成s d t v 码流进行传输，最后可以显示标清图像。本文讨论的虽然是h d t v 到s d t v 的转码，但属于分辨率转码。因此，本文讨论的技术可以应用到很多类似的情形。比如把高质量的多媒体源( 比如d v d 和 h d t v ) 通过有线或无线网络传送到小分辨率的接收端( p d a s 、手机、便携式p c ) 时，也需要这种转码。空域分辨率转码不仅降低了分辨率，同时还降低了比特率，具有广泛的应用范围。视频转码是当前和将来用来实现多媒体互通的关键单元【l 】。 1 3 本文完成的工作本文完成的工作包括：转码框架的研究与选择；h d t v 到s d t v 视频转码关键算法的研究与实现，包括运动矢量的映射、d c t 域的运动补偿、d c t 域的图像下采样等；转码系统的软件实现及优化，主要优化手段包括s i m d 指令优化、汇编优化、编译器优化、使用i n t e li p p 库函数优化。 1 4 论文的组织结构本文包括三部分：视频转码的理论基础，转码策略的制定，系统实现与优化。共分为七章，各章安排如下：第一章绪论第一章：绪论，介绍了视频转码的背景和必要性；第二章：视频编码与压缩标准简介，介绍了视频信源编码的理论基础；第三章：数字电视与m p e g 2 标准，介绍了流行的压缩标准，并对m p e g 2 标准和数字电视做了重点阐述。以上三章属于“视频转码的理论基础”部分。第四章：视频转码架构及其选择，首先介绍了视频转码的主要分类；然后重点对各种降低空域分辨率的转码架构进行比较，选择合适的架构应用于h d t v 到s d t v 转码。第五章；运动矢量映射算法与其它关键算法研究。对第四章确定的转码架构中涉及的算法进行具体研究。包括：运动矢量映量及宏块儿模式的映射、d c t 域图像下采样、d c t 域运动补偿以及码率控制。以上两章属于“转码策略的制定”部分。第六章：转码器软件实现及优化，介绍了转码器软件实现的过程，及在 p e n t i u m 4 电脑上的优化策略，并给出了转码器的性能测试结果。第六章是“系统实现与优化”部分。最后，对全文进行了总结与展望，提出了进一步努力的方向。电子科技大学硕士学位论文第二章视频编码与压缩标准简介视频编码是视频处理的一种重要应用。视频编码的目标是减少视频序列的数据速率，使视频可以在给定的信道上实时传输。不同的应用和不同的传输媒介对应不同的传输速率。根据这种数据速率上的巨大差异，标准化组织开发了不同类型的算法。一类算法不需要分析视频的内容就能对任意视频信号进行有效的编码，另一类算法则识别视频序列中的区域和对象，并对其进行编码。我们称前一种为基于波形的编码，后一种为基于内容的编码。 2 1 编码系统概述一种视频编码算法在很大程度上取决于对视频序列进行建模时采用的信源模型。视频编码器就是通过信源模型来描述视频序列的。信源模型对视频序列中象素间的时域相关性和空域相关性做出假设，同时也可以把物体的形状、运动以及光照效果考虑其中。如果我们使用一种象素间在统计意义上相互独立的信源模型，那么这种信源模型的参数就是每个象素的亮度值和色度值。如果我们使用一种通过物体对象对场景进行描述的模型，相应的参数就是各个物体的形状，纹理和运动。视频编解码框架如图2 - 1 所示。显不器磊面磊一一一一一一一一一一一一一一一一一一一一一一一一一一一一一一：解码器 l 一j 图2 - 1 视频编解码框架示意图 4 摄像机第二章视频编码与压缩标准简介 2 2 视频编码方法的分类 2 2 1 基于波形的编码此类编码方法的目标是尽可能精确地表示每个象素的色彩值，而不考虑一组象素可能会代表一个物体这个事实。假设象素间统计意义上相互独立，将得到最简单的信源模型。这时采用的编码技术叫脉冲编码调制( p c m ) 。这种方法的编码效率很低，所以很少用来表示图像信息。在大多数图像中，相邻象素的色彩是高度相关的，为了减少比特率，可以通过k l t 变换，d c t 变换，小波变换去除原始样值间的相关性，把能量集中到为数不多的几个系数中。被量化和编码的参数就是这些变换后的系数。另外一种去相关的方法是预测编码，要编码的样值首先要从已经解码的样值进行预测。这样得到的预测误差具有较低的相关性和能量，被量化后具有较多的零系数，因此可以进行更有效的编码。变换编码和预测编码与向量量化的本质是一致的( 向量量化就是一次量化一组样值( 一个向量) ) 。实质上，他们都是首先找到信号中典型的块样式，然后使用这个块样式来近似描述任意块。大多数视频编码标准，包括h 2 6 x 和m p e g x ，都采用了预测编码和变换编码结合的混合编码架构，它建立在块儿的平移运动的假设之上。 2 2 2 基于内容的编码上面讲到的基于块儿的混合编码实际上是使用固定大小的块儿来逼近物体的形状，因此在物体边界处的块儿会产生很大的预测误差。这些边界块儿包含的两个物体具有不同的运动向量，因此只用一个运动向量表示是不合适的。基于内容的编码意识到了这样的问题，试图把一帧图像分割成不同的物体，然后对这些物体分别编码。每个物体除了需要传送运动信息和纹理信息外，还要传送其形状信息。在基于对象的分析合成编码( o b j e c t - b a s e da n a l y s i s s y n t h e s i sc o d i n g ，简写为 o b a s c ) 中，一个视频场景中的每一个运动对象由一个对象模型来描述。为了描述物体的形状，o b a s c 使用了一种分割算法。除了形状，还要估计对象的运动和纹理参数。最简单的情形是用二维的轮廓描述物体的形状，一个运动向量场描述它的运动，一个颜色波形表示它的纹理。第k 帧中的物体由第k 1 帧中的一个物电子科技大学硕士学位论文体的形状和颜色以及形状和颜色参数的更新来描述。 2 2 3 其它编码模型如果视频序列中的对象类型属于已知对象类，就可以使用基于先验知识的编码。已经有几种方法通过使用预定义的线框来对人头部进行编码。预定义的线框适应于对象的形状，因此大大提高了编码效率。有时，这种技术也被称为基于模型的编码。当可能的对象类型以及它们的行为已知时，可以使用语义编码。例如，对于一个人脸对象，一种“行为”指与某种表情相关联的一组面部特征点随时间变化的轨迹。人脸可能的行为包括诸如高兴、悲伤、愤怒等典型的面部表情。这种情况下，用来描述一个对象行为的参数被估计并被传输到解码器端。对于一种象人脸这样的一个物体来说，可能的行为数量很少，确定一种表情所需要的比特数比使用传统的方法来描述实际的运动所需的比特数要少的多，因此基于模型的编码可以获得非常高的编码效率。 2 3 视频编码常用的压缩技术 2 3 1 变换编码不管是对静止图像还是视频序列，变换编码都已经被证明是一种特别有效的压缩方法。理想情况下，为充分利用象素间的空间相关性，变换应该应用于整幅图像或视频帧。但为了减少运算复杂度，基于块儿的变换编码( 把图像分成互不重叠的块儿，对各个块儿分别实行变换) 在实际中更为常用。一个好的变换有以下两个特点：( 1 ) 对预量化的信号去相关，以便可以对各个值有效地使用标量量化而不会损失太多的编码效率( 与矢量量化相比) 。( 2 ) 把原始象素块儿的能量压缩到尽可能少的系数上。这样就可以用少数的几个大幅度的系数表示原始块儿。使用k l t 变换可以获得最高的编码效率，但是它与信源的统计特性相关，难以计算。d c t 变换 3 是k l t 变换的一种很好的近似，它与具体的图像信号无关，计算复杂度较低。由于这些原因，d c t 变换被应用于目前所有的图像和视频编码标准中。图2 2 表示了一个典型的变换编码器结构。第二章视频编码与压缩标准简介变换系数系数索引编码比特流被量化系数入样一一值前且向里进进反反变化制制量变换编信道解化换码码图2 2 基于块儿变换的编解码 = a ( j 】 ) c 0 s ( 2 n 2 + 1 ) k z - ， = 。，l ，一l ( 2 1 ) 肌吣，= 腰篡，川 t 。= ：， j 。= = ，l t ；。t 口( 七) 字。s ( 2 n + 1 ) k x 口(七)n。s西f一-0 y n - i 口( 七) f 。c o s ( 2 n + 1 ) k z 萎口( 七) 。s 面一女= 0 ( 2 2 ) ( 2 3 ) 二维m n 点d c t 由一维的m 点d c t 基矢量和一维的n 点d c t 基矢量构成。也就是说，每个m n 基图像是m 点d c t 基矢量与n 点d c t 基矢量的外积。为获得一个二维图像块儿的d c t ，可首先对图像块儿的每一行做对应的一维d c t 变换，然后对经过行变换过后的块儿的每一列实施一维d c t 变换。 d c t 适合图像编码的原因在于一个图像块儿常常能由少数的几个低频d c t 系数表示。这是因为图像中象素的灰度值通常是平滑变化，高频成分仅在边缘附近存在。 2 3 2 预测编码在预测编码中，不是对一个象素直接编码，而是由同一帧或前一帧中的相邻象素值来预测它的值。这样可以充分挖掘相邻像素间的相关性，比独立的编码每一个像素点具有更高的效率。图2 2 示出了一个有损预测编码的编解码系统框图。在编码器端，首先由存储在存储器中的几个先前重建的样点来预测输入样点，然后电子科技大学硕士学位论文量化预测误差，最后再用可变长编码器编码。解码器的重建值是预测值加上经过反量化的残差。为保证编码器和解码器使用完全相同的预测值，编码器必须重复与解码器生成重建样点相同的过程，这称为闭环预测。此类编码叫做差分脉冲编码调制( d p c m ) 。当预测误差值不经过量化而直接编码时，该系统就转化为无损预测编码，这对于要求无失真的场合非常有用。一 i l 一 j ，反量化器 1 三困：( 、 i - 二进制码二进制码 + r 、一5 一二兰! ! ! ! ! 厂竺三兰兰。；f 七 l s ，量化器解码器厂一厂一图2 2 有损预测编码和解码框图空间域线性预测在空间域的线性预测中，当前像素是由它过去的相邻像素预测的。如果己知了各个像素间的相关性，就可以根据尤里一沃克( y u l e w a l k e 0 方程【4 确定最佳的预测器。空间预测可以减低相邻像素间的相关性，提高编码效率。空间预测不仅可以用于原始像素值，也可以应用于变换系数。例如，在块儿变换编码器中，相邻块儿的d c 系数时常是相似的，我们可以由当前块儿的上方和左侧块儿的d c 值来预测当前块儿的d c 值。通常相邻块儿的a c 系数之间的相关性不足以保证预测的有效性。第二章视频编码与压缩标准简介时域预测和运动补偿由于相邻帧之间存在较强的时间域的相关性，通过对预测误差的编码，可以有效地降低这些相关性，从而达到视频压缩的目的。在图像序列中，相邻帧间的变化主要是由构成景物的各运动物体引起的，检测物体的运动参数，称为运动估计( m e ，m o t i o n - e s t i m a t i o n ) ，通过这些运动参数由前一帧预测当前帧，则称为运动补偿( m c ，m o t i o n c o m p e n s a t i o n ) 。物体运动由多种元素构成，包括平移、旋转、缩放、扭曲等，完整的描述物体运动的模型是很复杂的。在目前通用的图像压缩标准中，均使用了简化的运动模型，假设运动由平移构成，这样就可以只用两个平移参数d x ，d v 表征运动。当前帧的原始图像块儿和预测图像块儿间的误差称为帧间运动误差，d f d ( d i s p l a c e m e n t f r a m ed i f f e r e n c e ) ： d f d ( i ，j ，k ) = s ( i ，j ，k ) 一s ( i ，j ，k ) = s ( i ，j ，k ) 一s ( i + d x ，j + 砂，k 一1 ) ( 2 4 ) 因此对当前帧的帧内像素编码变为对d f d 场和运动矢量的编码。如果相邻帧的相关性较高，d f d 能量很低，就可以用很少的码字表示，运动矢量也很稀疏，同样可以用很少的码字表示，从而达到了较高的压缩率。 2 3 3 熵编码预测编码和正交变换编码，都是先把原始图像信号变成去除了相关的另一种信号，然后再对这种己去掉冗余性的信号进行编码传输，从而实现信息压缩。如果换一种观点来看，图像编码可分为两个阶段：前一个阶段就是利用预测模型或正交变换模型之类的某种模型，对图像信号进行信号变换；后一个阶段就是利用已变换信号的统计特性，对其分配适当的代码来进行编码传输。也就是说，后一个阶段的任务是通过给已变换信号分配高效代码来实现数据压缩，称之为熵编码。根据香农信息论的观点，信源冗余度来自信源本身的相关性和信源内部事件概率分布的不均匀性。熵编码主要有基于概率分布特性的霍夫曼编码和算术编码，以及基于相关性的游程长度编码三类。霍夫曼编码( h u f f m a nc o d i n g ) 是一种变长变码v l c ( v a r i a b l el e n g t hc o d i n g ) 。霍夫曼编码将信源符号按概率大小重新排序，通过二叉树算法，依次将两个概率最小的节点合并，直到根节点。完成树的构造后，给所有的树枝分配0 和1 ，这样就可以给高概率符号分配短码，而概率小的符号则分配较长的码字，去除符号间电子科技大学硕士学位论文的统计冗余。在已知信源符号概率时，可以给出极好的编码性能。但霍夫曼编码严重依赖信源的统计特性，编码前必须有信源概率分布的先验知识。对于复杂的视频来说，只能用对大量数据统计后获得的近似分布来代替，因此实际应用时无法达到最佳性能。另一方面，v l c 虽然提高了编码效率，但不利于硬件实现。游程长度编码r l c ( r u n - l e n g t hc o d i n g ) 是将符号值相同的连续符号串用一个游程长度( 符号数) 和一个代表值描述。这样可以用更紧密地序列代替原有的相同值符号串。在视频压缩中，量化后的数据常常出现大量的连零系数，利用游程长度编码可以有效的降低表示零码的比特数。算术编码( a r i t h m e t i cc o d i n g ) 是2 0 世纪8 0 年代发展起来的，理论上，算术编码和霍夫曼编码都是最佳的，但在信源概率分布未知的情况下，算术编码优于霍夫曼编码。算术编码的基本原理是用【0 ，1 之间的一个概率区间来表示数据序列。将信源x 的一个给定状态z = k ，x ，) 与 o ，l 】间的一个由大概率p 和小概率q 限定的概率子区间相联系，区间的长度等于序列的概率p ( x ) 。编码器从n = i 开始，逐位的处理输入的符号流。每输入一位，更新当前符号的条件概率，并以此调整p 和q 限定的概率子空间。随着n 的增加，和输入符号序列相联系的概率子区间就变得越来越小。最后，用这个表示概率子区间的小数给符号序列编码。 2 3 4 量化现实中的景物在空间上和强度上都是连续的。在空间上根据采样定理对图像采样，获得一幅图像在空间上离散幅度上连续的样点集合，这种空间采样并不丢失信息，通过插值可以完全重构原始图像。但是，由于其幅度是连续的，因此不能用有限比特的数字来表示，为了便于计算机处理和存储，必须用有限位的状态来逼近真实值，这就是量化的过程。量化必然产生失真，并且这种失真是不可恢复的，但合理的设计量化器可使失真尽可能小，这是量化设计的一般准则。在信息理论中，率失真函数提供了有关量化器设计和码字表示的一个界限。 1 ) 标量量化一次仅考虑个采样点的量化，就是标量量化。设一个随机变量x 满足概率分布p ( 曲，x 是量化器的输入，输出是主= q ( x ) ，q ( ) 为量化器。若要设计一个量化器，用有限层逼近一个连续区间，则有几个参数必须确定：分层数l ，一组决策值 d l ，d 2 ，d ，一组代表值，r l 。如果x 【d h ，d i ) ，就用表示x 。第二章视频编码与压缩标准简介常见的标量量化器类型有均匀量化和最佳标量量化器。均匀量化器简单且易于实现，但对于信源可能不是最有效的。如果已知信源的概率密度函数和所要达到的比特率，可以设计m m s e 意义下的最佳标量量化器，使量化产生的最小均方误差最小。 2 ) 矢量量化矢量量化编码是近年来图像、语音信号编码技术中颇为流行的一种新型量化编码方法。矢量量化编码方法一般是有失真编码方法。矢量量化的名字是相对于标量量化而提出的。对于p c m 数据，一个数一个数地进行量化叫标量量化。若对这些数据分组，每组k 个数构成一个k 维矢量，然后以矢量为单元，逐个矢量进行量化，称矢量量化。矢量量化的方法是，预先准备好有限个有代表性的量化矢量模型，当输入矢量给定时，选取与该输入矢量最相似的量化模型矢量，并对该量化模型矢量的序号进行编码，在希望以比较低的比特率进行量化时，矢量量化是一种有效的方式。 2 3 5 利用视觉特性 1 ) 可逆编码与非可逆编码传真信号中，原信号本身就是二值化了的量化信号，它的编码无需经过量化，其核心是熵编码。在这种情况下，接收端能够无失真地完全恢复原图像。这样的编码称为可逆编码( r e v e r s i b l ec o d i n g ) 或者信息保持编码( i n f o r m a t i o np r e s e r v i n gc o d i n 曲。医学图像之类的灰度图像应采用可逆编码。与此相反，一般广播电视图像，可视电话图像及会议电视图像的编码，即使接收端没有物理重现原图像，但人在用眼睛观看时，它与原图像看上去却是一致的。人的感官觉察不到的那些成分，从图像编码的观点来看是一种冗余度。这就表明，利用视觉特性也能进行信息压缩，只是编码中必然会包含着失真，而成为非可逆编码( n o n - r e v e r s i b l ec o d i n g ) 。高效信息压缩最初是通过非可逆编码有效地去除了视觉冗余度而实现的。这种非可逆编码进而在如下两个方面获得了广泛应用。一类是广播电视图像编码。广播电视是供人眼来观看的，人们不希望因编码而导致接收端看到的解码图像质量下降，因而，这种情况下的信息压缩是按照眼睛看不出编码失真的原则来进行的。电子科技大学硕士学位论文另类是可视电话与视频会议的图像编码。在可视电话和会议电视中，即使感到了失真存在，但由于它的传输成本费用低，人们也就允许或忍受了。图像通信中，多数情况对传输速率有严格的限制，这种情况下，如何在给定的传输速率下使主观失真达到最小，变成了信息压缩的主要目标。 2 ) 视觉对失真的感知特性人眼视觉有以下特性能为可逆编码所利用【5 】： a ) 失真知觉的频率特性：不易觉察随时间变化的失真和空间高频失真。 b ) 与画面图案的关系：在静止图像的情况下，易于发觉图像平坦部分的失真而不宜发觉轮廓部分的失真。但在运动图像的情况下，轮廓部分的失真将成为一种边缘效应，反而更加显著。 c ) 与图像动作的关系：当图像运动达到一定程度，视线跟不上运动时，视觉对失真的敏感度降低。 d ) 与场景切换的关系：在画面切换的紧后边，即使分辨率下降较大，也不会感到有明显变化。 e ) 与画面亮度的关系：同等级的图像失真，画面越暗，失真越明显。 d 色度信号与亮度信号：与亮度信号相比，色度信号的失真更不易被发觉。因此，间隔地抽掉一些色度信号样本点并不会影响重建图像的彩色质量。 1 2 第三章数字电视与m p e g 2 第三章数字电视与m p e g 2 计算机技术总是承前启后的，所以各种不同标准的出现在所难免。本章首先简单介绍了几种流行的视频压缩标准，然后重点对m p e g 2 标准和数字电视进行了阐述。 3 1 视频压缩标准简介 3 1 1m p e g 系列标准 m p e g 的全称是运动图像专家组( m o v i n gp i c t u r ee x p e r t sg r o u p ) 。m p e g 压缩标准是针对运动图像而设计的，基本方法是在单位时间内采集并保存第一帧信息，然后就只存储其余帧相对第一帧发生变化的部分，以达到压缩的目的，m p e g 压缩标准可实现帧之间的压缩，其平均压缩比可达5 0 ：1 ，压缩率比较高，且又有统一的格式，兼容性好。 m p e g 2 标准是在继m p e g 1 以v c d 和m p 3 为代表的m p e g 1 产品成功受到到肯定后，于1 9 9 4 年所推出压缩标准，以实现视音频服务与应用互操作的可能性。m p e g 一2 标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定，编码码率从每秒3 t l p , 特1 0 0 兆比特，标准的正式规范在 i s o i e c l 3 8 1 8 中。m p e g 一2 不是m p e g 一1 的简单升级，m p e g 一2 在系统和传送方面作了更加详细的规定和进一步的完善，它特别适用于广播级的数字电视的编码和传送，并被认定为s d t v 和h d t v 的编码标准，现有的d v d 影碟里面就是采用的m p e g 一2 压缩标准。、 d v d 作为我们最为熟悉的视频格式，它也采用m p e g 2 进行视频压缩，但这并不意味着能播放d v d 的软件就可以播放h d t v 。因为d v d 采用的m p e g 2 一p s 格式，即m p e g 2 p r o g r a m s t r e a m ，主要用来存储固定时长的节目。而h d t v 采用的是m p e g 2 t s 格式，即m p e g 2t r a n s p o r ts t r e a m ，是一种视频流格式，主要用于实时传送节目。因此要播放h d t v 视频源，不仅需要播放器有m p e g 2 - t s 解码插件，而且还必须有专门的h d t v 分离器。电子科技大学硕士学位论文 m p e g 4 于2 0 0 0 年经国际标准组织i t u 和i s o 审核后，成为国际视频压缩标准之一。m p e g 一4 压缩采用m p e g 一4 的视频压缩方式，配上m p e g 一1 的音频压缩方式( m p 3 ) ，生成了图像质量接近d v d ，声音质量接近c d ，却有着更高的压缩比。与m p e g 一2 相比，m p e g 4 除了具有惊人的数据压缩比，经过m p e g 一4 的压缩的文件尺寸可以达到m p e g 一2 的1 3 ，而仍然保有极佳的音质和画质。可以用最少的数据获得最佳的图像质量，因此满足了低码率应用的需求。但是由于m p e g 一4 标准派生出各种规格，例如d i v x 、x v i d 等等，代表着不同规格利益的商业集团和一些支持免费共享资源的技术团体相互争斗的结果，导致各种m p e g 一4 规格的兼容性很差。 3 1 2 微软公司的w m v - h d w m v - h d 是由软件业的巨头微软公司所创立的一种视频压缩格式。其压缩率甚至高于m p e g 一2 标准，同样是2 小时的h d t v 节目，如果使用m p e g 一2 最多只能压缩至3 0 g b ，而使用w m v - h d 这样的高压缩率编码器，在画质丝毫不降的前提下都可压缩到1 5 g b 以下。 w m v - h d ，基于w m v 9 标准，是微软开发的视频压缩技术系列中的最新版本，尽管w m v - h d 是微软的独有标准，但因其在操作系统中大力支持w m v 系列版本，从而在桌面系统得以迅速普及。在性能上，w m v - h d 的数据压缩率与h 2 6 4 一样，两者的应用领域也极其相似，因此在新一代主流视频编码标准霸主地位的争夺之中，双方展开了针锋相对的斗争，而斗争的焦点集中在下一代光盘规格“h dd v d ” 和数字微波广播电视等领域。 3 1 3h 2 6 4 标准 h 2 6 4 是由国际电信联盟( i t u t ) 所制定的新一代的视频压缩格式。h 2 6 4 最具价值的部分无疑是更高的数据压缩比。在同等的图像质量条件下，h 2 6 4 的数据压缩比能比当前d v d 系统中使用的m p e g 一2 高2 3 倍，比m p e g 一4 高1 5 2 倍。正因为如此，经过h 2 6 4 压缩的视频数据，在网络传输过程中所需要的带宽更少，也更加经济。在m p e g 一2 需要6 m b p s 的传输速率匹配时，h 2 6 4 只需要1 m b p s 一2 m b p s 的传输速率，应用范围从3 g 手机、i c h a ta v 视频会议、h d 广播、h dd v d 等等，目前h 2 6 4 已经获得d v df o r u m 与b l u - r a yd i s ca s s o c i a t i o n 采纳，成为 1 4 第三章数字电视与m p e g 2 新一代h dd v d 的标准，不过h 2 6 4 解码算法更复杂，计算要求比w m a h d 还要高。h 2 6 4 的主要优点如下： 1 ) 在相同的重建图像质量下，h 2 6 4 比h 2 6 3 和m p e g 一4 ( s p ) 减小5 0 码率。 2 ) 对信道时延的适应性较强，既可工作于低时延模式以满足实时业务，如会议电视等；又可工作于无时延限制的场合，如视频存储等。 3 ) 提高网络适应性，采用“网络友好”的结构和语法，加强对误码和丢包的处理，提高解码器的差错恢复能力。 4 ) 在编j 挥码器中采用复杂度可分级设计，在图像质量和编码处理之间可分级，以适应不同复杂度的应用。相对于先期的视频压缩标准，h 2 6 4 引入了很多先进的技术，包括4 4 整数变换、空域内的帧内预测、1 4 象素精度的运动估计、多参考帧与多种大小块的帧间预测技术等。新技术带来了较高的压缩比，同时大大提高了算法的复杂度。 h 2 6 4 标准的推出，是视频编码标准的一次重要进步，它与现有的m p e g 一2 、 m p e g 一4s p 及h 2 6 3 相比，具有明显的优越性，特别是在编码效率上的提高，使之能用于许多新的领域。尽管h 2 6 4 的算法复杂度是现有编码压缩标准的4 倍以上，随着集成电路技术的快速发展，h 2 6 4 的应用己经成为现实。 3 2m p e g 2 标准介绍在m p e g l 标准化进程完成的时候，可以清楚地看到m p e g l 不能以广播级的质量对隔行数字视频进行有效的编码。因此，m p e g 专家组发出了征集针对电视广播应用的音视频数字编码技术建议的通知。其中性能最优的算法是作为m p e g l 扩展的对隔行视频格式的处理。在算法开发的合作阶段，保留了大量的与m p e g l 的相似性。m p e g 2 的主要目的是使使用i t u rb t 6 0 14 ：2 ：0 的隔行图像具有类似 m p e g l 的功能。它的目标是在4 - 8m b p s 的码率下产生电视质量的的图像，在 1 0 - 1 5 m b p s 的码率下产生高质量的图像。 m p e g 2 标准包括9 个部分：系统、音频、视频、一致性、软件、数字存储介质一命令与控制( d s m c c ) 、高级音频编码i 器( a a c ) 、实时接口、和d s m c c 一致性。 3 2 1 系统电子科技大学硕士学位论文 m p e g 2 系统与m p e g l 系统具有某些兼容性，有差错复原能力，支持在a t m 网络上的传输，在一个流里无需共同的时间基准就可以传输多于一个的电视节目等。一个节目流包含来自单一节目的压缩数据，通常以可变长度包的形式存在，包长通常在l 2 k b 到6 4 k b 之间。m p e g 2 传输流与m p e g l 兼容。t s 流使用1 8 8 个字节的数据包，具有对电缆电视或卫星电视的错误恢复能力，可以携带具有独立时间基准的多个节目，易于实现频道跳转访问。 3 2 2 视频 m p e g 2 以电视演播室以及标准电视和高清电视广播为目标，因此，它必须能有效地支持隔行视频编码。m p e g l 和m p e g 2 的主要区别如下： 1 ) 与m p e g l ，h 2 6 1 和h 2 6 3 相比，4 ：2 ：0 格式的色度采样点的位置水平平移 0 5 个像素。 2 ) m p e g 2 能够编码4 ：2 ：0 格式的

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf

文档简介

温馨提示

最新文档

评论

（信号与信息处理专业论文）hdtv到sdtv视频转码关键算法的研究与软件实现.pdf

文档简介

温馨提示

最新文档

评论

相关文档