(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf_第1页
(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf_第2页
(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf_第3页
(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf_第4页
(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf_第5页
已阅读5页,还剩78页未读 继续免费阅读

(通信与信息系统专业论文)多媒体信息压缩技术的研究及mpeg2解码系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江工业大学硕士学位论文 多媒体信息压缩技术的研究及m p e g 一2 解码系统的设计与实现 摘要 计算机网络和通信的高速发展,使多媒体数据如声音、静态图像和 动态图像的存储、传输随着数据量的增大而面临很大的问题。其中数据 压缩是提高存储介质及通信带宽利用率的核心。 本文简介了多媒体信息压缩的必要性和可能性、国内外的研究状况 及其发展趋势。接着介绍了多媒体数据压缩的基本技术,同时从统计编 码、预测编码、变换编码、分析合成编码等方面介绍了常用数据压缩方 法的基本原理。还简要介绍了现存的音频、视频压缩国际标准。 根据实际应用的需要,研制了基于m p e g 2 标准的传输系统。文中 介绍了主芯片的各个功能模块及其外围电路,分析了整个设计过程。还 介绍了自行编制的软件模块,从而系统的功能得到了进一步的扩展。接 着从结构、经济、性能等方面的分析说明了该系统的优越性。 本论文还根据目前多媒体信息压缩发展的趋势,从产生背景、基本 构成、主要内容、功能及应用等方面分析了m p e g 4 标准。同时,在分 析了视频在网络上传输的难点之后,介绍了适合网络传输的编码方案。 最后对全文作了总结和展望。 关键词:数据压缩,m p e g 2 ,m p e g 4 ,解码器 多煤体信息压缩技术的研究及m p e g 2 解妈系统的设计与实现 浙江工业大学硕士学位论文 t h es t u d yo fc o m p r e s s l 0 nt e c h n o l o g y o f m u l t i m e d i ai n f o r m a t i o n a n dt h ed e s i g na n d r e a l i z a t i o no ft h es y s t e mo fm p e g 2d e c o d e r a b s t r a c t h o wt os t o r ea n dt r a n s m i th u g em u l t i m e d i ad a t ai st h em a i nc o n c e r ni n t h ea r e ao f c o m p u t e rn e t w o r ka n dt e l e c o m m u n i c a t i o nt e c h n o l o g i e s o n eo f t h ee f f i c i e n tw a y si sd a t a c o m p r e s s i o n t h i sa r t i c l eg i v e sa no v e r v i e wo ft h en e c e s s i t ya n d f e a s i b i l i t y i nt h e c o m p r e s s i o no f m u l t i m e d i ai n f o r m a t i o n ,t h ea c t u a l i t yo f r e s e a r c hb o t hh o m e a n da b r o a da n di t s d e v e l o p m e n tf i e n d t h e n ,t h eb a s i ct e c h n o l o g yi nt h e c o m p r e s s i o no f m u l t i m e d i ai n f o r m a t i o f fi si n t r o d u c e d a n dt h eb a s i ct h e o r y o i lt h ed a t ac o m p r e s s i o ni sd e s c r i b e di nt h ea r t i c l e ,s u c ha ss t a t i s t i c a lc o d i n g , p r e d i c t i v ec o d i n g ,t r a n s f o r mc o d i n g ,a n a l y s i s s y n t h e s i z ec o d i n g ,a n ds ob n t h ee x i s t e n ti n t e r n a t i o n a ls t a n d a r d si nt h ec o m p r e s s i o no f a u d i oa n dv i d e o a r ea l s op r e s e n t e d t h es y s t e mi nt r a n s m i s s i o nb a s e do f fm p e g 2i s d e v e l o p e du p o nt h e d e m a n d si nu s e t h ea r t i c l ei n t r o d u c e st h em a i nc h i pa n di t s p e r i p h e r y c i r c u i t s ,t h e nd e s c r i b e st h ep r o c e s so f a l ld e s i g n s t oe x p a n dt h ef u n c t i o n so f t h es y s t e m ,s o m es o f t w a r e sa r ew r i t t e n a tt h ee n d o ft h i sp a r t ,t h ea d v a n t a g e o ft h e s y s t e m i sd e s c r i b e df r o m s t r u c t u r e ,e c o n o m ya n dp e r f o r m a n c e b a s e do nt h ed e v e l o p m e n to f c o m p r e s s i o no fm u l t i m e d i ai n f o r m a t i o n , t h ea r t i c l es t u d i e st h es t a n d a r do fm p e g 一4 f o ri t sb a c k g r o u n d ,b a s i cs t r u c t u r e , m a i nc o n t e n t ,f u n c t i o na n da p p l i c a t i o n t h e n ,a f t e ra n a l y s i n gt h ed i f f i c u l t i e s o ft r a n s m i t t i n gv i d e oo nn e t w o r k ,t h ea r t i c l e p u t sf o r w a r dt h es c h e m eo f 浙江工业大学硕士学位论文 c o d i n g w h i c h a d a p t s t ot r a n s m i tv i d e oo nn e t w o r k s u m m a r i s ea n d e x p e c t a t i o n a r ed e s c r i b e da tt h ee n do ft h ea r t i c l e k e y w o r d s :d a t ac o m p r e s s i o n ,m p e g 一2 ,m p e g - 4 ,d e c o d e r 浙江t 业大学硕t 学位论文 i i l l 月f j舌 随着数字化、网络化、全球一体化信息时代的来i 临,多媒体技术成为信息技术 的重要组成部分。它包括声音、图形、数据以及图像在内的多种媒体信息的传送和 处理,其关键在于压缩技术。此外,在多媒体的传输、处理、应用中还有许多j 可题: 如何在网络上传输视频? 如何通过手机上网并接收视频和图像? 如何对多媒体数据 进行快速有效的检索? 如何对多媒体信息进行统一的存取? 等等。m p e g 组织在这 些方面作了充分考虑,给出了完整的规划。对于常规视音频压缩,m p e g 组织制定 了m p e g 一1 和m p e g 2 标准;对基于对象和内容的多媒体压缩制定了m p e g 一4 标准: 对多媒体的信息检索制定了m p e g 一7 标准;近期又针对集成的统一多媒体框架加紧 制定m p e g 一2 l 标准。 随着我国基础建设和信息化进程的快速发展,对远程视频监控类产品的需求也 越来越大。目前国内应用的大多数相关产品都是直接传输非压缩视频,尽管使用了 大容量的光纡传输网络,也难以在单根光纤上传输多路视频。出于m p e g 一2 标准克 服并解决了m p e g 1 标准不能满足日益增长的多媒体技术、数字电视技术、多媒体 分辨率和传输率等方面的技术要求的缺陷,同时又具有较高的压缩率和较好的解码 质量,因而基于m p e g 2 的产品也已确立在消费市场上。我们设计开发的m p e g 一2 编、解码系统视频质量能够达到广播级的清晰度,编码速率可调,系统总体延时小, 抗误码能力强,而且成本可以接受,非常适合实时视频监控的应用,也能适用于基 于d v b c 的机顶盒中。 图像传输是多媒体通信的核心,采用何种图像编码方式是构筑多媒体网络的关 键。特别是在用于要求实时性的电视电话和广播业场合,不能在收发方之问进行信 息重发和到达确认等特殊控制,因此,m p e g 4 图像编码方式是比较理想的,它无 需这种控制,且抗误差性较强。 多媒体信息压缩技术丽丽元及m 面2 解码系统的设计与实现 浙江t 业大学硕士学位论文 第一章绪论 2 1 世纪的人类社会是信息化社会,数字化后的信息,尤其是数字化后的视频和 音频信息具有数据海量性,它给信息的存储和传输造成较大的困难,成为阻碍人类 有效地获取和使用信息的瓶颈问题之一。因此,研究和开发新型有效的多媒体数据 压缩编码方法,以压缩的形式存储和传输这些数据将是最好的选择。 1 ,1 多媒体信息压缩的必要性和可能性 信息时代的重要特征是信息的数字化,数字化了的信息带来了“信息爆炸”。多 媒体计算机系统技术是面向三维图形、立体声和彩色全屏幕运动画面的处理技术。 数字计算机面临的是数值、文字、语言、音乐、图形、动画、静图像、电视视频图 像等多种媒体承载的由模拟量转化成数字量信息的存储和传输的问题。数字化了的 视频和音频信号的数据量之大是非常惊人的。下面列举几个未经压缩的数字化信息 的例子【1 ,5 1 , 5 2 】: ( 1 ) 一页印在b 5 纸上的文件,若以中等分辨率( 3 0 0 d p i 约1 2 像素点r a m ) 的 扫描仪进行采样,其数据量约66 1 m b 页。一片6 5 0 m b 的c d r o m 可存9 8 页。 ( 2 ) 双通道立体声激光唱盘( c d a ) ,采样频率为4 4 i k h z ,采样精度1 6 位样 本,其采样速率为“1 1 0 3 1 6 2 = 1 4 1 ( m b s ) 。一个6 5 0 m b 的c d r o m 可存 约1 小时的音乐。 ( 3 ) 数字电视图像: s i f 格式,n t s c 制、彩色、4 :4 :4 采样; 每帧数据量3 5 2 2 4 0 3 = 2 5 3 ( 1 0 3 ) ; 每秒数据量( 位率) 2 5 3 3 0 = 7 6 0 3 ( m b s ) : 片c d + r o m 可存帧数6 5 0 0 2 5 3 = 1 2 2 6 k ( 帧片) : 一片c d r o m 可存节目时间( 6 5 0 7 6 0 3 ) 6 0 = 1 4 2 ( 分片) 。 c c i r 格式,p a l 制、4 :4 :4 采样; 每帧数据量7 2 0 5 7 6 3 = 1 2 4 ( m b ) ; 每秒数据量( 位率) l ,2 4 2 5 = 3 1 3 ( m b s ) : 一片c d r o m 可存帧数6 5 0 1 2 4 = 0 5 2 4 k ( 帧片) : 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 浙江工业大学硕士掌位论文 一片c d r o m 可存节目时间6 5 0 3 1 3 = 2 0 9 ( 秒片) 。 从以上列举的数据例子可以看出,数字化信息的数据量是何等庞大,这样大的 数据量,无疑给存储器的存储容量、通信干线的信道传输率以及计算机的速度都增 加了极大的压力。这个问题是多媒体技术发展中的一个非常棘手的瓶颈问题,解决 这一问题的办法,单纯用扩大存储器容量、增加通信干线的传输率的办法是不现实 的。数据压缩技术是个行之有效的方法,通过数据压缩手段把信息数据量压下来, 以压缩形式存储和传输,既紧缩节约了存储空间,又提高了通信干线的传输效率, 使计算机实时处理音频、视频信息,保证播放出高质量的视频、音频节目成为可能。 多媒体数据压缩不仅是必要的而且也是可能的,原因是多媒体文、声、静图像、视 频图像等信源数据有极强的相关性,也就是说有大量的冗余信息。数据压缩就是将 庞大数据中的冗余信息去掉( 去除数据之间的相关性) ,保留相互独立的信息分量, 以静图像画面为例,数字图像的灰度信号和色差信号在空域( x ,y 坐标系) 虽然属 于一个随机场分布,但是它可以看成为一个平稳的马尔柯夫场。通俗地理解,图像 像素点在空域中的灰度值和色差信号值,除了边界轮廓外,都是缓慢变化,比如一 螭头肩人像图,背景、人脸、头发等处的灰度、颜色都是平缓改变。相邻像素的狄 度和色差值比较接近,具有强的相关性,直接用采样数据( p c m 码) 表示灰度和色 差,信息有较多的冗余。可以先排除冗余信息,再进行编码,使表示每像素的平均 比特数下降,这就是通常所说的电视图像的帧内编码,以减少空域冗余进行数据压 缩。电视图像是沿时间轴方向的一个帧序列,其帧间图像的相关性也很强,通常用 减少帧间传送帧的数目即降低帧率,以减少时域的冗余信息,采用运动估计和运动 补偿的方法以满足解码图像质量要求。 1 2 国内外研究状况 1 21 国外的研究现状 国外很早就开始了m p e g 2 编码器和解码器的设计和生产,并经历了一个由可 编程芯片设计到使用a s i c 芯片或运算能力强大的处理器构成系统的过程。最早的 m p e g 一2 编码器是用大量的可编程集成电路芯片设计,产品的体积非常大,功耗也 高,系统的可靠性较差。改进后的编码器采用运算功能强大的带有专用处理电路的 处理器设计,系统的集成度有了很大的提高,如c c u b e 公司的基于v r p 1 i 的系统, 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计l j 实现 浙江t 业大学硕士学位论文 采用多片v r p 一1 i 芯片构成一个硬件实时编码器。随后出现了用专用集成电路的编码 器,如i b m 公司的m e 3 0 系统,采用三片集成电路,构成视频处理单元。最近的编 码器系统是采用单片集成电路构成视频编码压缩的设计,如c c u b e 公司的v r p i v 系统和i b m 公司的$ 4 2 0 产品。从运算的复杂性和对硬件要求来看,m p e g 一2 编码 器实现的难度要比解码器大得多,国外在很早以前就有了采用单个芯片实现视频实 时解码的设计,配合分离的语音解码芯片组成产品。目前已经进入到可以把分离的 语音和视频解码集成在一个芯片上配合一起使用的产品【2 】d 1 2 2 国内m p e g 标准的研究情况 多年来,国家信息标准化委员会多媒体分会和8 6 3 3 0 6 专家组一直在跟踪国际 上m p e g 标准和技术的发展,积极开展多媒体技术研究工作。主要活动和进展如下: l 、1 9 9 6 年8 6 3 3 0 6 专家组组长高文教授接受专家组和多媒体分会的委托,参与 国际m p e g 专家组的标准制定工作。 2 、1 9 9 8 年底成立了中国m p e g 论坛,每两个月举行一次研讨会。 3 、1 9 9 9 年7 月,我国首次派出了一个七人代表团参加了在温哥华举行的第4 8 次m p e g 会议,微软( 中国) 研究院、中科院计算所、清华大学、北京工业大学提 交了4 个提案,其中,清华大学计算机系的“运动补偿算法”和北京工业大学的“人 脸粗检测算法”均被采纳,并将上升为国际标准。 4 、2 0 0 0 年2 月建立了m p e g c h i n a 资料站点( w w w m p e g c h i n a c o m c n ) 。 5 、2 0 0 0 年7 月在北京举办了第5 3 次m p e g 国际会议,中国代表团人员增至 3 0 多人。 6 、计划于今年1 0 月在上海举办m p e g 国际会议。 困内在标准的应用方面也取得了令人瞩目的成绩( v c d 首先就是在中国被设计 h 来并迅速普及的) 。 l 、中科院声学所在m p e g 1 解码设备的设计与产业化方面取得突破。 2 、由哈工大和中科院计算所国家智能计算机研究丌发中心联合完成的m p e g 2 解码设备,已经成功地应用到了d v d 和数字卫星电视接收机等产品中,进入产业 化阶段。 3 、四川鼎天公司设计的具有实时m p e g 一1 和m p e g 一2 解码功能的多媒体计算 机于1 9 9 6 年就已经研制成功,并在当年美国秋季计算机展览会上公丌亮相。 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 浙江工业大学硕士学位论文 4 、深圳亿特信息技术有限公司采用m p e g 一4 标准,推出具有自主知识产权的“3 n 技术”用于互联网的直播压缩,轰动网络界,打破了微软、i b m 等大公司对“流媒 体”的技术垄断。 目前国内的主要研究情况如下: 北京航空航天大学计算机系主要研究“运动估计”。 北京工业大学计算机系主要研究“人脸检测”和“多尺度小波形状描述“。 清华大学电子工程系主要研究“m p e g 一4 形状编码的超大规模集成电路实现 及超低比特率编码”。 清华大学计算机系主要研究“运动补偿”。 中科院计算所主要研究“人脸特征抽取和人脸合成”。 哈尔滨工业大学计算机系主要研究“人脸识别、检测和合成”、“基于对象的 编码”等。 微软中国研究院主要研究“分层编码传输”。 此外,参与单位还有国家信标委、海信、华为、中科院自动化所、香港大学、 上海交大、北京邮电大学、北京理工大学、浙江大学等1 3 , 5 2 】。 从目前情况看,我国虽然在m p e g 4 标准中取得一些成绩,但相差还很远; m p e g 7 方面,虽然北京工业大学曾参加过m p e g 国际会议,但由于经费等原因, 进展迟缓;至于m p e g 一2 1 标准的研究还没有得到足够重视。总的来看,形势比较严 峻。 1 - 2 3 我国参与m p e g 标准研究的意义 随着数字化、网络化、全球一体化信息时代的来临,多媒体技术成为信息技术 的重要组成部分,而海量的数据信息不经过压缩进行存储和传输都是不现实的。因 而参与m p e g 标准研究主要有以下几方面的原因: 1 、标准就是知识产权,就是核心竞争力,掌握了标准也就掌握了市场。 2 、可以提高我国在这一领域的学术水平和技术水平。 3 、具有广告效能,能够提升参与单位特别是企业的“社会形象”世界知名 的大公司一般都参与这方面的研究。 4 、把握世界先进技术的发展方向,制定中国在这一高新技术领域的发展规划。 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 i 3 课题研究的意义 1 3 1 信息压缩的需要 有专家说:把握多媒体技术就能进入计算机技术主流;而产品技术能否进入主 流,又将直接影响到计算机的发展方向。 一 在多媒体通信中,信息媒体中多种多样,数据量十分巨大,这就要求多媒体通 信系统存储空问大,传输带宽或传输速率要高。从我们在第一节中所讲到的几个未 经压缩的数字化后的信息的例子可见,必须采用有效的信息压缩技术来压缩庞大的 数据,才能满足信息时代的数字化需求。 1 3 2 发展通信和电视业的需要 多媒体技术已深入到人们生活的每一个角落。动态视频技术作为多媒体技术的 核心部分越来越受到世人的关注,其关键技术m p e g 解码板的研究也越来越深入。 由于m p e g 。2 有非常乐观的应用前景,因而逐渐成为运动图像及其伴音中炙手可热 的关键技术,在各种不同的计算机体系结构中实现m p e g 一2 的编码、解码器也就顺 其自然地成为时尚话题。 m p e g 一2 压缩编码技术是多媒体通信、多媒体存储、交互式视频业务及电视系 统数字化过程中的关键技术,m p e g 标准也是数字视频广播的国际标准。在不远的 未来数字电视将取代现有的模拟电视已经成为共识。数字电视作为一个新兴的、潜 力巨大的市场,吸引了世界上许多国家的参与,纷纷加重对其开发研究的力度,已 提高到战略的高度。随着我国的高清晰度数字电视功能样机系统的研制成功,我国 已成为世界e 全面掌握数字电视系统的第4 个国家,科研成果的产业化是下一个阶 段的主要任务。因此掌握数字电视系统中的关键技术,对生产高质量的产品就显得 。i :常重要。而目前在数字电视系统中的信源部分都建立在m p e g 一2 算法的基础之上 并在m p e g 一2 定义的框架范围内。所以对m p e g 2 编码、解码器的研究与丌发对于 多媒体视频传输和数字电视广播有着非常重要的意义。 提起广播电视的发展趋势,大家会一致认为是:数字化、网络化和信息化。数 字化是网络化的前提,网络化是高速信息交换的基础。通过网络化才能把世界联系 起来,进入全球一体化的信息时代。而广播电视的数字化又促进了通信、计算机和 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 浙江t 业大学硕士学位论文 广播电视( 3 c ) 业相互融合。在网络传送的各种信息中,最令人赏心悦目的莫过 于图像( 静止) 和视频( 活动图像) 信息。但是视频信息的数据速率非常高。普通 清晰度电视( s d t v ) 就已有2 7 0 3 6 0 m b p s ,如此高的速率无论是对网络的带宽还 是对存储硬盘的容量来说,都是个天文数字。显然,为降低码率而开发的数字视频 压缩技术是实现网络化的至关重要技术2 ,8 ,1 0 , 1 2 】。 显然,研究上述环境下的音频和视频压缩标准,其重要性和意义是不言而喻韵。 1 4 多媒体数据压缩的发展趋势 压缩编码的理论基础是信息论。从信息论的角度看,压缩就是去掉信息中的冗 余,即保留不确定的信息,去除确定的信息( 可推知的) ,也就是用一种更接近信息 本质的描述来代替原有冗余的描述。这个本质的东西就是信息量( 即不确定因素) 。 但信息量不是孤立、绝对的,它与信息的传输密切相关。信息接受者知识世界的改 变是信息传输的本质所在。但由于接受者知识结构世界的复杂性,使得很难构造数 学模型,从而只能对其迸行具有普遍意义的某种限定,这就是香农信息论,即以经 典集合论为基础基于某种统计概率模型来描述信源。香农信息论有两个严重缺陷: 第一,未考虑信息接受者的主观特性和主观意义;第二,撇开了事件本身的具体含 义、重要程度和引起的后果。但香农信息论的限定使其具有高度的概括性和综合性, 因此得到了广泛应用。压缩编码的发展历程实际上就是以香农信息论为出发点,并 毛 不断克服其缺陷的过程。编码方法可以分成三类: ( 1 ) 考虑图像信源的统计特性:采用预测编码方法、变换编码方法、矢量量化 编码方法、子带小波编码法、神经网络编码法等。 ( 2 ) 考虑人眼视觉特性:采用基于方向滤波的图像编码法、基于图像轮廓一纹理 的编码法。 ( 3 ) 考虑图像传递的景物特征:采用分形编码方法、基于模型的编码方法。 第( 1 ) 类方法以香农信息论为基础;第( 2 ) 类方法试图克服上面提到的香农 信息论的第一个缺陷:第( 3 ) 类方法则试图克服香农信息论的第二个缺陷。也有人 将图像编码方法分为两代,即第( 1 ) 类方法为第1 代,第( 2 ) 、( 3 ) 类方法为第2 代,这也是合理的,因为基于模型的编码方法就是由轮廓一纹理的思路发展而来的。 这种统一是出于人眼视觉系统是一种最优的图像编码系统,人眼视觉特性应该与图 像中传递的本质特征一致。因此,从逐渐向信息传输本质靠近的程度看,压缩编码 多媒体信息压缩技术的研究及m p e g + 2 解码系统的设计与实现 浙江q - 业人学硕士学位论文 方法又可以分为下面三个层次: 第l 代:基于数据统计( 去掉数据冗余) 低层。 第2 代:基于模型( 去掉内容上的冗余) : 物体基( o b j e c t b a s e d ) 中层: 语义基( s y n t a x b a s e d ) 高层。 基于模型的压缩编码方法代表着新一代的压缩方法,也是目前最活跃的研究领 域。该方法1 9 8 3 年首先由瑞典的f o r c h h e i m e r 提出,随后,日本的h a r a s h i m a 等也 展示了其研究成果。此后的研究主要沿语义基和物体基两个方向发展。 语义基方法:基于限定场景。景物中物体的三维模型严格已知,这样只需对一 些有限的参数编码,压缩比非常惊人。但由于受目前视觉等领域的研究水平所限, 语义基编码的研究主要局限于人的头肩像场景,今后可望应用于视频电话、视频会 议等领域。国外许多学者对此进行了研究,我国学者周峰和李海波在此方面做了许 多有意义的工作。目前仅有少量学者对行走的人体场景进行研究。该方法最大的问 题在于,可以编码的图像场景单一、局限,在实际应用中极不灵活,只要情况稍有 变化,模型就会失效。所以,这种方法只有当计算机视觉研究取得突破性进展之后, 才具有普遍意义和实用价值。因此,可以认为这是一种未来的编码方法m 5 2 1 。 物体基方法:针对未知场景。需要先对图像进行低层分析,将场景中物体和背 景分割出来,分层描述。常用的描述模型有三要素:形状参数、运动参数、内部纹 理( 残差) 参数。国外学者在这方面研究最多,而国内学者很少有人进行这方面的 研究。该方法最大的问题在于分割,这也是视觉中的一个传统问题,难度很大,但 在分割目标明确的情况下,还是有一些办法的。 因此,从接近信息传输本质和技术上的可实现性这两方面综合权衡来看,选择 物体基方法较合适。 1 5 研究工作概要和论文蠢节安排 在攻读硕士期间,作者的主要研究方向是多媒体信息压缩技术的研究及其应用。 在对现有的多媒体信息压缩标准m p e g _ 2 的研究的基础上。应用解码专用芯片, 进行m p e g 一2 实时传输系统解码器部分的设计、调试,最终与编码器一起工作,完 成基于m p e g 一2 的实时传输系统。此外,对基于对象的多媒体数据压络编码标准 一m p e g 一4 以及面向网络传输的视频编码做了理论上的探讨。 多媒体信息压缩技术的研究及m i 巨g - 2 解码系统的设计与实现 浙江t 业大学硕士学位论文 全文共分六章,各章的内容安排如下: 第一章分析了多媒体信息压缩的必要性和可能性,以及国内外在本课题研究中 的现状,总结了本课题研究的意义。 第二章介绍了目前多媒体数据压缩领域常用的各种编码技术,这些编码方法在 多媒体信息系统中的图像、声音、视频数据的压缩中起着十分重要的作用。 第三章研究了现有的各种音频、图像和视频压缩标准,对它们做了总体的概述。 第四章在研究m p e g 一2 标准的基础上,完成了基于m p e g 一2 的实时传输系统解 码器部分的设计,包括硬件模块和软件模块。介绍了系统的设计和实现过程。并从 结构、经济、性能等方面分析了系统的优点。 第五章对m p e g 一4 标准的产生背景、基本构成、功能应用等方面作了进一步的 阐述。进而分析了视频在网络上传输的难点,介绍了错误控制技术,最后提出适合 网络传输的编码方案。 第六章为全文的总结与展望部分。 多媒体信息雎缩技术的研究及m p e g 2 解码系统的设计与实现 浙江工业丈学硕士学位论文 第二章多媒体数据压缩技术 多媒体数据的数据量巨大,如果不对它进行压缩,是无法在计算机中存储和传 输的,也无法在多媒体信息系统中处理。几十年来,人们已经研究了许多种数据压 缩的方法。本章将介绍数据压缩的基本原理和方法,并介绍声音和视频的国际压缩 标准。 7 在多媒体信息系统中,为了达到令人满意的图像、视频画面质量和听觉效果, 必须解决视频、图像、音频信号数据的大容量存储和实时传输问题。数字化了的视 频、音频信号的数据量是非常大的,如果不进行处理,计算机系统几乎无法对它进 行存取和交换。而另一方面,视频、图像、声音这些媒体确实又具有很大的压缩潜 力。以目前常用的位图格式的图像存储方式为例,在这种形式的图像数据中,像素 和像素之间无论是在行方向还是在列方向都具有很大的相关性,因而整体上数据的 冗余度很大,在允许一定限度失真的前提下,能够对图像数据进行很大程度的压缩。 香农在1 9 4 8 年创立的信息论对数据压缩有着极重要的指导意义,它一方面给出 了数据压缩的极限,另方面又指明了数据压缩的技术途径。香农信息论认为信源 中含有或多或少的自然冗余度,这些冗余度既存在于信源本身的相关性中,又存在 二j 二信源概率分布的不均匀性中,找到去除相关性或改变信源概率分布不均匀性的方 法,就可以实现有效的数据压缩。 2 1 数据压缩技术的性能指标 评价一种数据压缩技术的性能好坏主要有三个关键的指标:压缩比、图像质量、 压缩和解压的速度。除此之外还可以考虑压缩算法所需要的软件和硬件。 压缩性能常常用压缩比来定义,也就是压缩过程中输入数据量和输出数据量之 比,希望压缩比尽量的大。值得注意的是,这种度量方法必须指明输入输出的现实 形式,否则就将是不可靠的。例如:压缩系统的输入是5 1 2 4 8 0 分辨率,每一个像 索2 4 位,即输入的数据量是7 3 7 2 8 0 字节。而若输出为15 0 0 0 个字节的位流,则压 缩比大约为4 9 :1 。但如果输出图像只有2 5 6 x2 4 0 个像素,其分辨率只有输入图像 的l 4 ,则在同分辨率的情况下,压缩比应为1 2 :l 。在实际应用中一种更好的定义 是压缩比特流中每个像素所需的比特数( b p p ,位像素) 。例如,上例中输入为2 4 多媒体信息雕缩技术的研究及m p e g 2 解码系统的设计与实现 浙江工业大学硕士学位论文 位每像素,从输出的1 5 0 0 0 字节位流中要再现一个2 5 6 x 2 4 0 像素的图像,则压缩结 果定义为( 1 5 0 0 0 x8 ) ( 2 5 6 2 4 0 ) = 2 位像素。 第二个指标是图像质量,这与压缩的类型有关。压缩方法可以分为无损压缩和 有损压缩。无损压缩是指压缩以及解压过程中没有损失原始图像信息,所以对无损 系统不必担心图像质量。有损压缩则要对原始图像做一些改变,这样压缩前后图像 不完全相同,可是人眼难以察觉。对有损压缩结果的评价分为主观评分和客观尺度 两种。主观评分建立在人跟对图像的视觉感观上,其分值在1 5 之间,如表2 一l 所 示。 表2 - 1尺度评分法项目 评分值妨碍尺度质量尺度 5 丝毫看不出图像质量变坏优 一 4 能看出图像质量变化,但不妨碍观看 良 一 3清楚地看出图像质量变坏,对观看稍有妨碍中 2对观看有妨碍差 l非常严重地妨碍观看劣 而客观尺度通常有以下3 种: 1 、均方误差: t = 吉车( 撕h ( f ) ) 2 2 、信噪比: s n r ( d b ) = 1 0 l o g l o 二争 ( 2 - 2 ) 3 、峰值信噪比: y 2 p s n r ( d b ) = 1 0 l o g 。普 ( 2 - 3 ) 其中,x ( j ) 为原始图像信号序列,2 ( 0 为重建图像信号。z 。为x ( 0 的峰值。 仃:= e x 2 0 ) 】,仃;= 占 j 0 ) 一x ( n ) 】2 ( 2 4 ) 第三个指标是压缩解压速度,希望压缩解压速度要快。在许多应用中,压缩和 解压将在不同的时间、不同的地点、不同的系统中进行,因而必须分别评价压缩和 解压速度。在静态图像中,压缩速度没有解压速度要求严格,处理速度只需比用户 能够忍受的等待时间快一些即可。但对于动态视频的压缩与解压缩,速度问题是至 关重要的。动态视频为保证帧间动作变化的连贯要求,必须有较高的帧速。对于大 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 浙江丁业大学硕j l 学位论文 多数情况来说至少要1 5 帧每秒,而全动态视频则要求有2 5 帧或3 0 帧。在电话线上 传送视频,因受到线路传输速率的限制,帧速率没这么高,但也要达到5 帧秒以上, 否则动态图像就会产生跳动感,使人难以接受。 此外还要考虑软件和硬件的开销。有些数据的压缩和解压可以在标准的p c 硬 件上用软件实现,有些则因为算法太复杂或者质量要求太高而必须采用专门的硬件。 这就需要在占用p c 上的计算资源或者另外使用专门硬件的问题上做出选择。 一 2 2 数据冗余的类型与压缩方法分类 2 2 1 数据冗余的类型 一般而言,图像、视频、音频数据中存在的数据冗余类型主要有以下一些: 1 、空间冗余:在同幅图像中,规则物体和规则背景的表面物理特性具有相关 性,这些相关性的光成像结果在数字化图像中就表现为数据冗余。 2 、时间冗余:时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性, 一帧图像中的某物体或场景可以由其他帧图像中的物体或场景重构出来。音频的前 后样值之间也同样有时间冗余。 3 、信息熵冗余:信源编码时,当分配给第i 个码元类的比特数b ( y 。) = 一l o g p , 才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的 二二 先验概率很难预知,比特分配不能达到最佳。实际单位数据量d h ( s ) ,即存在信 息冗余熵。 4 、视觉冗余:人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所 有变化。事实上人类视觉的一般分辨能力为2 6 狄度等级,而一般图像的量化采用的 足2 8 灰度等级,即存在着视觉冗余。 5 、听觉冗余:人耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率 的变化,对某些频率不必特别关注,因此存在听觉冗余。 6 、其他冗余:包括结构冗余、知识冗余等。 2 2 2 数据压缩方法的分类 针对多媒体数据冗余类型的不同,相应地有不同的压缩方法。根据解码后数据 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 斯江r 业大学硕士学位论文 与原始数据是否完全一致进行分类,压缩方法可被分为有失真编码和无失真编码两 大类。在此基础上根据编码原理进行分类,大致有预测编码、变换编码、统计编码、 分析合成编码、混合编码和其他一些编码方法。其中统计编码是无失真的编码,其 它编码方法基本上都是有失真的编码。 有失真压缩法压缩了熵,会减少信息量,而损失的信息是不能再恢复的,因此 这种压缩法是不可逆的。无失真压缩法去掉或减少了数据中的冗余,但这些冗余值 是可以重新插入到数据中的,因此,冗余压缩是可逆的过程。 无失真压缩法不会产生失真,从信息语义角度讲,无失真编码( 也称熵编码) 是一种泛指那些不考虑被压缩信息的性质的编码和压缩技术,它是基于平均信息量 的技术把所有的数据当作比特序列,而不根据压缩信息的类型来优化压缩。也就是 说,平均信息量编码忽略被压缩信息语义内容。在多媒体技术中一般用于文本、数 据的压缩,它能保证百分之百地恢复原始数据。但这种方法压缩比较低,如l z w 编 码、行程编码、霍夫曼( h u f f m a n ) 编码的压缩比一般在2 :1 5 :1 之间。有失真 压缩法的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等。有 失真编码比严格的平均信息量编码的压缩率更高。当然压缩的程度主要取决于数据 的语义内容,比起平均信息量编码,它的压缩比更大。由于允许一定程度的失真, 可用于对图像、声音、动态视频等数据的压缩。如采用混合编码的j p e g 标准,它 对自然景物的灰度图像,一般可压缩几倍到十几倍,而对于自然景物的彩色图像, 压缩比将达到几十倍甚至上百倍。采用a d p c m 编码的声音数据,压缩比通常也能 做到4 :l 8 :l 。压缩比最为可观的是动态视频数据,采用混合编码的d v i 多媒体 系统,压缩比通常可达5 0 :l 到1 0 0 :1 。可见,数据压缩技术已经处于成熟的应用 阶段【1 ,2 0 2 l ,4 1 4 。 2 3 常用数据压缩方法的基本原理 传统的压缩编码是建立在香农( s h a n n o n ) 信息论的基础上,它以经典的集合论 为基础,用统计概率模型来描述信源,但是,它未考虑信息接受者的主观特性及事 件本身的具体含义、重要程度和引起的后果。压缩编码的发展历程实际是以香农信 息论为出发点,不断完善的过程。 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 2 3 1 统计编码 统计编码包括行程编码( r u nl e n g t hc o d i n g ) 、l z w 编码、霍夫曼编码等,属 于无失真编码。它是根据信息出现概率的分布特性而进行的压缩编码。其方法是: 识别一个给定的信息流中出现概率最高的比特或者字节模式,并用比原始比特更少 的比特数来对其编码,也就是说,出现概率越低的模式,其编码的位数就越多,出 现概率越高的模式编码位数就越少。如果码流中所有模式出现的概率相等,则平均 信息量最大,信源没有冗余。这种编码的宗旨在于,在消息和码字之问找到明确的 对应关系,以便在恢复时能准确无误地再现出来,并总是要使平均码长或码率 压低到最低限度。 1 、行程编码 行程编码是最简单、最古老的压缩技术之一,主要技术是检测重复的比特或者 字符序列,并用它们的出现次数取而代之。它计算信源符号出现的行程长度,然后 将行程长度转换成代码。有多种编码方式,对于0 出现较多,1 较少出现( 或反之) 的信源数据,可以对0 的持续长度( 或l 的持续长度) 进行编码,1 ( 或o ) 保持不 变。而对于0 、1 交替出现的数据,可以分别对0 的持续长度和1 的持续长度编码。 这种编码适合于0 、1 成片出现的数据的压缩。为了保证解压缩时保持颜色同步,所 有的数据行以白色行程代码字集开始。如果实际的扫描线从黑色行程开始,那么假 设起始有白色的0 行程。 、 2 、l z w 编码 l z w 算法在压缩文本和程序数据的压缩技术中唱主角,原因之一在于它的压缩 窭高。在无失真压缩法中,l z w 方式的压缩率是出类拔萃的。另一个重要的特点是 l z w 压缩处理所花费的时间比其他方式要少。 在进行l z w 编码时,首先将原始的数据分成多个条纹,每个条纹都单独进行 压缩。条纹大小的选择依据机器的内存而定,一般大约包含8 k b 。这样压缩的和未 l 缩的条纹都能够保留在内存中,且又能接近最优的压缩比。l z w 算法基于一个转 换表或字串表,它将输入字符映像到编码中,使用可变长代码,最大代码长度为1 2 位。这个字串表对于每个条纹都不同,并且不必保留给解压缩程序,因为解压缩过 程中能自动建立完全相同的字串表。实际上,它是通过查找冗余字符串并将此字符 串用较短的符号标记代替的压缩技术。 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 d 浙江工业大学硕j 一学位论文 3 、霍夫曼( h u f f m a n ) 编码 霍夫曼于1 9 5 2 年提出了对统计独立信源能达到最小平均码长的编码方法,也即 最佳码,它完全依据字符出现概率来构造,各码字长度严格按照所对应符号出现概 率的大小逆序排列。最佳性可从理论上证明。这种码具有即时性和唯一可译性。 霍夫曼编码过程实际上是构造一个向左倾倒的码树,右上端为根,向左伸出枝, 左端各终节点分配着信源符号,所以这种编码方法可以看成从枝到根的编码顺序, 编出的码一定是唯一可译的即时码。当然,这种最佳码并非是唯一的,因为“1 ”和 0 可以任意调换,而且当有的信源符号概率相等时,选择哪两个符号合并也是任 意的。 这种由霍夫曼提出的最佳变长码编码法,当信源符号概率是2 的负幂次方时, 编码效率达到1 0 0 。一般情况下,它的编码效率要比其他编码方法的效率高,是最 佳变长码。但霍夫曼码依赖于信源的统计特性,必须先统计得到信源的概率特性才 能编码,这就限制了实际的应用。通常可在经验基础上预先提供霍夫曼码表,此时 性能有所下降。此外,霍夫曼码缺乏构造性,也即它不能用某种数学方法建立起消 息和码字之间的一一对应关系,而只能通过某种查表的方法建立起它们的对应关系。 如果消息数目很多,那么所需存储的码表也很大,这将影响系统的存储量及编、译 码速度。 4 、算术编码 算术编码把一个信源集合表示为实数线上的0 到1 之间的一个区间。这个集合 中的每个元素都要用来缩短这个区间。信源集合的元素越多,所得到的区间就越小。 当区间变小时,就需要一些更多的数位来表示这个区间,这就是区间作为代码的原 理。算术编码首先假设一个信源的概率模型,然后用这些概率来缩小表示信源集的 区间。 对二进制编码来说,信源符号只有两个。因此在算术编码初始阶段可预置一个 大概率p 和小概率q e ,然后对被编码比特流符号进行判断。设编码初始化子区问 o ,1 ) ,q 从。算起,则只= 1 一q o 。随着被编码数据流符号的输入,子区间逐渐缩 小。 新子区问的起始位置= 前子区间的起始位置+ 当前符号的区阃左端酊予区州长 度。 新子区间的长度= 前子区闷的长度当前符号的概率( 等价于范围长度) 。 最后得到的子区间的长度决定了表示该区域内的某一个数所需的位数,4 1 4 4 ,4 ”。 多媒体信息压缩技术的研究及m p e g 2 解码系统的设计与实现 浙江工业大学硕士学位论文 2 3 2 预测编码 预测编码是根据原始的离散信号之间存在着一定关联性的特点,利用前面的一 个或多个信号对下一个信号进行预测,然后对实际值和预测值的差( 预测误差) 进 行编码。如果预测比较准确,那么误差信号就会很小。这样一来,在同等精度要求 的条件下,就可以用比较少的数码进行编码,达到压缩

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论