(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf_第1页
(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf_第2页
(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf_第3页
(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf_第4页
(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(通信与信息系统专业论文)smartphone上视频采集系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

武汉理工大学硕士学位论文 摘要 视频采集和处理己成为嵌入式系统的重要应用之一,范围从数码相机、p c 视频聊天用的摄像头等消费产品到门禁、数字视频监视等工业控制及安防产品。 在手机领域,业界通常的做法是利用硬件进行视频数据捕获后的后处理,在提 高手机功能的同时,手机的成本也增加不少。i n t e l 公司最近推出了一款专门面 向移动电话和掌上电脑的专用处理器p x a 2 7 0 ,采用了q u i c k c a p t u r e 技术,为 视频捕捉设备提供接口,其高达6 0 0 m 的主频,完全可以使我们使用软件进行视 频数据的后处理,并有助于改进图像质量以及降低产品整体成本。 本文针对具有硬件j p e g 编码功能的a d c m 2 6 5 0s e n s o r 模块,在基于 p 屹7 0 的嵌入式移动终端硬件平台和l i n u x 2 4 内核的软件平台上实现了视频 数据采集( 包括静态图片) 。主要的研究和工作包括以下几个方面: ( 1 ) 分析了嵌入式视频编解码当前的发展状况,选定了j p e g 静态图像编 解码和基于m p e g - 4 算法的视频图像编码作为手机视频采集里的后处理系统。 ( 2 ) 研究了嵌入式l i n u x 内核的特征以及开发调试的环境,裁减了l i n u x 内核。 ( 3 ) 在分析了l i n u x 下驱动程序体系结构后,针对本采集系统,研究了l i n u x 下用于l c d 显示的f r a m e b u f f e r 技术,编程实现了视频采集的驱动以及应用程 序,重点完成了j p e g 文件在s m a r t p h o n e 上软件解码显示以及视频采集数据的 m p e g - 4 编码的实现。 ( 4 ) 针对p x a 2 7 0 的o v e r l a y2 对采集显示系统进行了优化,并实验得出视 频预览在通过o v e r l a y 2 优化后性能明显得到大幅提高。 本课题的难点和工作量主要在于视频捕捉驱动软件的设计实现与性能优 化。为了保证驱动质量,在设计前给出了三个设计准则:可靠性、实用性和可 扩展性,在设计时采用状态机的设计方法,并进行一定的测试保证其性能。最 终本文给出的视频捕捉解决方案满足了最初设计目标,能够完成视频捕捉的预 览;静态图像捕捉并进行压缩存储;进行动态视频捕捉。 文中使用软件进行j p e g 解码和m p e g - - 4 的视频编码,相对比业界的硬件 编解码技术实现而言,能有效降低手机的总体成本,具有很好的实用价值,使 武汉理工大学硕士学位论文 用该技术的智能手机已经量产。 关键词:s f f l a r t p h o n e ;视频采集:嵌入式系统;l i n u x ;q u i c k c a p t u r e 武汉理工大学硕士学位论文 a b s t r a c t t h ev i d e oc a p t u r ea p p l i c a t i o ni ne m b e d d e ds y s t e mh a sb e c a m em o r ea n dm o r e p o p u l a r v i d e oc a p t u r ea n dp r o c e s s i n gh a v eb e c a m eo n eo ft h em o s ti m p o r t a n t a p p l i c a t i o n so fe m b e d d e ds y s t e m n o w , m o s tm o b i l eu s e t h eh a r d w a r et oe n c o d et h e v i d e os t r e a ma n dd e c o d et h ej p e gf i l e , t h i sm a k e st h ep r i c eo f m o b i l em o r eh j g h t h e p x a 2 7 0 p r o c e s s o rw h i c hi n t e lc o r p o r a t i o nb r i n g so u tf o rm o b i l ep h o n ea n dh a n d h e l d p cu 8 e sq u i e k c a p t u r et e c h n o l o g y , i t sf r e q u e n c ec a l lb e6 0 0 m t h et e c h n o l o g yw h i c h g i v e st h ei n t e r f a c et ov i d e oc a p t u r ed e v i c ew i l lh e l pt oi m p r o v et h ev i d e oq u a l i t ya n d t or e d u c et h es y s t e mc o s t h o wt or e a l i z et h ev i d e oc a p t u r ef u n c t i o nw h i c hi n c l u d e s s t i l l p i c t u r es n a p s h o ta n dd y n a m i c - v i d e o o nt h ec o n d i t i o no f t h ea d c m 一2 6 5 0s e n s o rw i t hj p e gh a r d w a r e - e n c o d i n g t h e r e a s e r a c ha n dr e a l i z a t i o no fv i d e oc a p t u r eo ns m a r t p h o n ei sr e a l i z e do nt h e p x a 2 7 0h a r d w a r ea n dt h el i n u x - 2 4k e r n e ls o f t w a r ep l a t f o r m t h em a i nr e s e a r c hi s d e s c r i b e da sf o l l o w : ( 1 ) t h eb a s i cs t r u c t u r eo f t h ee m b e d d e di m a g ee n c o d i n ga n dd e c o d i n gs y s t e mi s a n a l y z e da n do n ee m b e d d e ds t a t i cj p e gi m a g ed e c o d i n ga n dt h ev i d e oe n c o d i n g b a s e do nt h em p e g - 4a l g o r i t h mi ss e l e c t e d ( 2 ) h a ss t u d i e dt h ee m b e d d e dl i n u xe s s e n c ec h a r a c t e r i s t i ca sw e l la st h e d e v e l o p m e n td e b u g g i n ge n v i r o n m e n t , a n a l y z e dt h ee m b e d d e ds y s t e mf i l i n gs y s t e m , m a d et h el i n u xk e m e ls u i t a b l ef o r 璐 ( 3 ) a f t e rh a sa n a l y z e dt h el i n u xd r i v e ra r c h i t e c t u r e ,t h e nr e s e a r c ht h e f r a m e b u f f e rt e c h n o l o g yu s e df o rl c di nl i n u x ,t h ep r o g r a m m i n gh a sr e a l i z e df o rt h e v i d e oc a p t u r ed r i v e ra sw e l la st h ea p p l i c a t i o np r o c e d u r e ,h a sc o m p l e t e dt h ej p e g d o c u m e n td e c o d i n ga n dd e m o n s t r a t i o no ns m a r t p h o n ew i t he m p h a s i sa sw e l la st h e v i d e of r e q u e n c yg a t h e r i n gd a t ae n c o d i n gb a s e do nt h em p e g - 4a l g o r i t h m ( 4 ) f o c u s e d0 1 1t h ed i s p l a ys y s t e m so p t i m i z a t i o ni nv i e wo f t h ep x a 2 7 0o v e r l a y 2p a i r s ,a n dt e s t e dt os h o wt h a tt h ep e r f o r m a n c eo fv i e wo nl c da f t e ro p e nt h e o v e r l a y 2h a so b v i o u s l ye n h a n c e dl a r g e l y 1 1 1 武汉理工大学硕士学位论文 t h ed i f f i c u l t yo ft h et a s kl i e so i lt h es o f t w a r ed e s i g na n dp e r f o r m a n c e o p t i m i z a t i o no fv i d e oc a p t u r ed r i v e r t om a k es u r et h eq u a l i t yo ft h ed r i v e r , t h r e e r u l e sa r eg i v e n :r e l i a b i l i t y , p r a c t i c a b i l i t ya n df l e x i b i l i t ) a n dt h em e t h o do f s t a t e m a c h i n ei su s e d a f t e rs e v e r a lt e s t s ,t h ef i n a lr e a l i z a t i o nh a sm e tt h ed e s i g n e d r e q u i r e m e n t :t h ec a p a b i l i t yo ft h ec a p t u r e dv i d e op r e v i e w , t h ec a p a b i l i t yo fs t i l l p i c t u r ec a p t u r ea n dc o m p r e s s i o n , t h ec a p a b i l i t yo f d y n a m i cv i d e oc a p t u r e i nt h ea r t i c l e ,iu s et h es o f t w a r et oc a r r yo nt h ej p e gd e c o d i n ga n dt h em p e g v i d e oe n c o d i n g , c o m p a r i n gt ot h ef i e l dh a r d w a r e e n c o d i n ga n dd e c o d i n gt e c h n o l o g y r e a l i z a t i o nt os a y , c a nr e d u c et h eh a n d s e te f f e c t i v e l yt h eo v e r a l lc o s t , h a sv e r yg o o d p r a c t i c a lv a l u e t h em o b i l eu s i n gt h i st e c h n o l o g yh a sb e e nm a d e k e yw o r d s :s m a r t p h o n e ;v i d e oc a p t u r e ;e m b e d d e ds y s t e m ;l i n u x ; q u i c k c a p t u r e i v 独创性声明 本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其它教育 机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何 贡献均己在论文中作了明确的说明并表示了谢意。 签名:蝌日期:弓m 一 关于论文使用授权的说明 本人完全了解武汉理工大学有关保留、使用学位论文的规定,即学校有权 保留、送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存论文。 ( 保密的论文在解密后应遵守此规定) 签名: 导师签名;盔:丝日期:螋 武汉理工大学硕士学位论文 1 1 课题研究背景 第1 章概论 随着无线通信技术的不断发展,尤其近年2 5 g 和3 g 通信技术的出现使得 当今的手机功能日益强大。目前市场上集摄像头、彩屏、游戏机于一体的移动 终端比比皆是,但这些终端大多由多个组件构成,价格昂贵,占据着高端市场。 不过,移动终端发展的历史表明:当越来越多的功能被集成到单个芯片上后, 终端的功能将增强,而生产成本将降低。 移动通信业与因特网的融合是移动通信业发展的又一大趋势。加入了移动 性的因特网将会为移动用户带来全新的应用,这些新应用的出现必将对移动终 端的技术含量提出更高的要求。无线因特网业务要求手机在单一应用上结合各 种实时信号处理技术,如视频流和音频流、与位置相关的服务、语音识别、移 动电子商务和安全技术等。 l i n u x 以自由、免费、开放源代码为武器,经过互联网上遍布全球的程序员 的努力,并且有m m 、s u n 等企业的支持,l i n u x 在服务器系统、桌面系统以 及嵌入式系统领域已经广泛地投入应用。但是在手机领域,l i n u x 还是一个新来 者,不过竞争的条件下,全球各大手机厂商纷纷投入l i n u x 的研发,相信嵌入式 l i n u x 操作系统做为智能手机操作系统,前途会很光明。 由于嵌入式处理器的速度有限,在处理图形和多媒体数据方面显得力不从 心,导致嵌入式系统的摄像头分辨率低、色深低、数据传送速度慢,无法满足 人们即时捕捉商质量图片和视频的需求。2 0 0 3 年底i n t e l 公司推出了一款专门面 向移动电话和掌上电脑的专用处理器:p x a 2 7 x 系列。该处理器采用了 q u i c k c a p t u r e 技术【1 j 。q u i c k c a p t u r e 为成像设备提供接口,有助于改进图像质量 以及降低产品整体成本。该项技术包括快速浏览、快速拍照和快速视频拍摄三 种操作模式,使得p x a 2 7 0 处理器得以支持4 0 0 万象素数码镜头,并能提供最 大4 1 6 m b p s 的数据传输速率。 武汉理工大学硕士学位论文 1 2 课题研究来源 本文设计开发的系统是深圳市某公司智能手机开发的一个子模块。比业界 使用u s b 等其它总线结构的视频采集能明显提高帧速率1 2 l ,能达到在3 2 0 * 2 4 0 下,2 0 f p s 的效果。并且能很及时响应来电短信等。c p u 的利用率低。 1 3 主要研究工作 本课题的主要内容是研究如何在基于p x a 2 7 0 的嵌入式移动终端平台中实 现视频捕捉功能。基于的硬件平台是i n t e lx s e a l ep x a 2 7 0 开发板,采用的操作 系统是l i n u x 2 4 。课题的具体研究工作如下: 预研准备: 阅读相关领域论文和技术文档,了解视频捕捉方面国内外技术发展现状; 调研各种视频捕捉的实现方案,初步确定课题的技术路线。 硬软件开发环境搭建: 在参考i n t e lm a i n s t o n e l i 开发板基础上,开发自己的硬件开发板,选定所使 用的摄像头模块,实现最基本的功能;完成l i n u xb o o tl o a d e r 和内核的移植工 作,完成一个基本的硬软件开发平台。 视频捕捉软件设计与实现: 这是本课题的重点和主要工作量所在,它分两部分内容: 1 ) 设计视频捕捉软件驱动框架,编写和调试软件驱动代码,使其达到可靠、 实用、可扩展性强的要求。 2 ) 编写一个视频捕捉应用程序,使用驱动程序提供的接口,完成视频捕捉 的回放、照相和动态捕捉功篚。 3 ) 使用软件进行了视频数据的后处理,具体包括使用j p e g 解码j p e g 文 件,使用m p e g - - 4 编码视频流。 视频回放性能优化和测试数据: 应用p x a 2 7 0 处理器内置l c d 控制器自带的o v e r l a y 2 功能,优化视频捕捉 回放的性能,并给出测试数据。 2 武汉理工大学硕士学位论文 1 4 论文主要章节安排 本论文主要讨论基于i n t e lp x a 2 7 x 和l i n u x 的s m a r t p h o n e 的视频采集系统 的设计与现。本文所讨论的嵌入式系统适用对象广泛,包括远程视频监控、视 频会议等。 全文的内容及章节安排如下: 第一章:视频采集系统中的图象编解码技术,主要介绍了视频图像编解码 理论 第二章:嵌入式l i n u x 操作系统,分析了嵌入式l i n u x 的特点和结构,介绍 了嵌入式l i n u x 下开发环境的建立等 第三章:s m a r t p h o n e 上视频采集系统体系结构的硬件设计 第四章:嵌入式视频采集系统软件综合设计,具体包括用于在l i n u x 下的 l c d 上显示视频的f r a m e b u f f e r 技术;编程实现了l i n u x 下视频驱动程序的设计 以及相应的应用程序;并使用软件进行了视频采集数据的后处理 第五章:视频预览性能优化与测试数据 武汉理工大学硕士学位论文 第2 章视频采集系统的原理及相关编解码技术 2 1 视频采集系统的原理 视频采集系统就是将现实世界中的光学信号转化为电信号,并经过一些简 单的预处理,并进行一定的编码后处理,通过网络传输出去。 视频采集系统主要包括视频捕获模块,以及对于r a wd a t a 进行编码等后处 理等模块。视频采集系统的结构框图如图2 1 。 八祝 甄采集豸:备 数据处理设鲁 圈像 1 1 司 l l j 处理 3 瘟 1 i 黼道 _v 与压 光 _ 预 7 罂 叫 娃 榫 理 缩 = 翘 2 1 1 视频捕获模块 图2 1 视频采集系统的结构框图 视频捕捉系统的实现依赖于视频采集设备,就是将现实世界中的光学信号转 化为电信号,并经过一些简单的预处理。视频捕捉设备一般由光学透镜、感光 器件、预处理电路三部分组成【3 1 : 光学透镜 光学透镜与以前的光学照相机上透镜功能类似,将外界传入的光线汇聚 到一个平面上,供感光器件成像。光学透镜的好坏与成像质量有着密切的联 系,高捕统光学系统的成本占整个系统的很大比例。 感光器件 感光器件可以说是整个视频捕捉系统中核心部分,它本质上是一个传感 器,将汇聚到一个平面上的光转化为电信号。目前用于图像传感的器件主要 有c c d 和c m o s 两大类: 4 武汉理工大学硕士学位论文 c c d :成像质量高,像素分辨率高,但功耗相对较大,一般用于高端视 频捕捉设备中。 c m o s :成像质量相对较差,但功耗较小,其成像质量目前也在逐步提 高,c m o s 器件一般用于低档视频捕捉设备中,如p c 摄像头,手机 摄像头中。 预处理电路 将感光器件传入的电信号进行预处理,使得更加便于传输。由于现在集 成电路的集成度越来越高,这部分预处理功能也越来越强,有的摄像头模块 甚至能直接对图象,视频进行压缩。为了获得良好的视频质量和较高的压缩 率,视频预处理技术在视频处理与通信应用中占据越来越重要的地位。 视频捕获模块如图2 2 。 图2 2 视频捕获模块框图 2 1 2 视频采集的后处理 视频数据的后处理也是视频采集系统中的一个重要模块,具体包括对所捕获 到的数据进行压缩以用于直接在l c d 上显示或者存储为文件。 本文中的后处理主要包括j p e g 解码技术和m p e 6 - 4 编码技术,前者主要用于 武汉理工大学硕士学位论文 在l c d 上显示j p e g 文件,后者用于存储为m p e g - 4 格式视频文件,下面将详细 描述h i 。 2 2 视频采集系统相关的编解码技术 当今时代,多媒体信息已成为人类获取信息的最主要载体,多媒体信息经 数字化处理后具有易于加密、抗干扰能力强、可再生中继等优点,但同时也伴 随海量数据的产生,从而成为阻碍人们有效获取和使用信息的重大瓶颈。研究 高效的多媒体数据压缩编码方法,以压缩形式存储和传输数字化的多媒体信息 具有重要意义。 多媒体数据压缩编码根据功能不同可以分两大部分: 静态编码:即图像编码,当前流行的有j p e g ,g i f ,t i f f 等 动态视频编码:比较流行的有m p e g 系列,h 2 6 x 系列 下面主要讨论一下j p e g 、m p e g 和h 2 6 x 这三种当前主流的图像视频压缩 技术,在本系统中也使用这些压缩算法。 对于运动图象的压缩主要分为两大体系。其一为基于双向运动预测和补偿 的视频压缩算法,如m p e g - i ,m p e g 2 ,m p e g - 4 ,m p e g 7 以及m p e g 2 1 等, 主要用于数字电视广播、影视娱乐、数字录象、网络多媒体服务等,其特点是 适用于多种类型的图象,包括有大量运动物体的图象。另一种是基于前向运动 预测和补偿的超低码率视频压缩算法,如h 2 6 1 、h 2 6 3 和h 2 6 4 等,主要用于 可视电话、电视会议、安全监控等领域,其特点是图象中的运动部分少。 2 2 1j p e g 解码技术 j p e g 是联合图象专家组( j o i n tp i c t u r ee x p e r tg r o u p ) 的英文缩写,是国际标准 化组织( 1 s o ) 和c c i t t 联合制定的静态图象的压缩编码标准。和相同图象质量的 其它常用文件格式( 如g i f ,t i f f ,p c x ) 相比,j p e g 是目前静态图象中压缩比 最高的。我们给出具体的数据来对比一下。例图采用w i n d o w s x p 目录下的 c l o u d s b m p ,原图大小为6 4 0 * 4 8 0 2 5 6 色。用工具s e a ( v c r s i o n l 3 ) 将其分别转成 2 4 位色b m p 、2 4 位色j p e g 、g n u ( 只能转成2 5 6 色) 压缩格式。得到的文件大小 ( 以字节为单位) 分别为:9 2 1 6 5 4 ,1 7 7 0 7 ,1 7 7 1 5 2 。可见j p e g 比其它几种压缩比 6 武汉理工大学硕士学位论文 要高得多,而图象质量都差不多( j p e g 处理的颜色只有真彩和灰度图) 。 j p e g 有几种模式,其中最常用的是基于d c t 变换的顺序型模式,又称为 基线系统( b a s e l i n e ) ,以下将针对这种格式进行讨论。 由于本系统的s e n s o r 模组可以直接输出编码后的j p e g 文件,所以论文中 主要是做j p e g 的解码显示问题。 lj p e g 文件格式 j p e g 的主要作用是用于数字化图像的标准编码技术,它是一种像素文件 格式。j p e g 文件大体上可以分成以下两个部分:标记码( t a g ) 和压缩数据。为了 便于在不同系数间压缩数据文件的交换处理,j p e g 标准中定义了集中标记段。 这些标记段及标记码存在于j p e g 文件中,供解码器解码时识别使用,标记段由 标记及段体组成,标记是以f f 开头的字,第二字节为非0 和1 6 进制数,标记 前可以是若干连续字节的f f ,如果在数据中有f f 则以f f 0 0 表示以便与标记区 别 s l 。 以下是在程序流程图中j p e g 系统用到的一些标记: 图像开始标记s o i ( f f d s ) s 0 1 只有标记没有段体,表示j p e g 数据文件的开始,是j p e g 文件的第一 个标记,也是j p e g 文件的第一个字。 帧开始段s o f ( f f c 0 ) s o f 由f f c 0 及若干字节组成,定义每个色彩分量使用的量化表及其块数。 扫描开始段s o s ( s t a r to fs c a n ) f f d a s o s 由f f d a 及若干字节组成,定义每个色彩分量使用的h u f f m a n 表。 图像结束标记e o i ( e n do f i m a g e ) f f d 9 e o i 紧随压缩数据最后一个字节,也是j p e g 文件的最后一个字,表示j p e g 数据文件的结束。 应用定义段p n ( f f e 0 f f e f ) j p e g 标准允许一幅图像数据中最多有1 6 个a p p 段,a p p 在压缩时插入用 于说明该j p e g 文件的应用场合等,解压缩时直接由解码器读出传递给使用者。 说明段c o m ( f f f e ) c o m 也是在压缩时插入用于该j p e g 文件进行注释、备忘等,解压缩时该 段直接由解码器读出传递给使用者。 量化表定义段d q t ( f f d b ) 武汉理工大学硕士学位论文 记录编码时用到的量化表,解码时传递给解码器使用。 h u f f m a n 表定义段d h t ( f f c 4 ) 记录编码时用到h u f f m a n 表,解码对传递给解码器使用, 在j p e g 图像编码中,我们还经常提到m c u ,它表示最小编码单元,实际 的编码都是以一个一个的m c u 为单位进行的1 6 1 。 2j p e g 解码 解码器为编码过程的逆过程,如图2 3 。 压缩数据吨】霎 卜f 三三至三j f :! i ! i 二 一恢复的图像数据 1f 码表量化表 ( 从压缩数据中得到) ( 恢复的图像数据) 图2 3p e g 解码器流程 由于j p e g 的解码和编码在过程上有很多的相似点,以下仅仅做简单的介绍。 上图是基于d c t 的解码结构图。图中的每一步所完成的工作恰好是相应编 码结构图中对应步骤的逆过程。嫡解码器把“z 序列的量化d c t 系数进行解码。 量化后,把d c t 系数转换为8 x 8 的样本块( 使用逆向d c t 过程i d c t ) 。 在基于o c t 的顺序解码过程中,对8 x 8 块数据单元的解码过程由以下几部 分组成: ( 1 ) 使用在扫描头标中指定的d c 表目标对d c 系数进行解码 ( 2 ) 使用在扫描头标中指定的a c 表目标对a c 系数进行解码 ( 3 ) 使用在帧头标中指定的表目标进行逆量化,并计算8 x 8 i d c t 。 在解码时,使用两个解码过程,一个用于d c 系数z z ( o ) ,另一个用于a c 系数z z 0 ) ,z z ( 2 ) z z ( 6 3 ) 。系数解码时,按照它们在,z 形中出先的次序( 从 d c 系数开始) 。解码后的d i f f 被加到d c ( i 一1 ) 上,d c ( i 1 ) 是同一分量的最新解 码的8 x 8 块中的d c 值,有z z ( 0 ) :d c ( i 1 ) + d i f f 。 在解码时首先得到各点的d c t 系数,然后根据下面的d c t 反变换即可恢 复出原图像。d c t 的逆变换( i d c t ) 公式为: m = i 1f 他+ 击扣蛳s 睁川,h 骞,c 0 , v ) c o s 鼢川,v + 砉喜f c “,v ,c o s 素c z 算+ ,村 c o s 素c z 工+ ,v c z 一, 8 武汉理工大学硕士学位论文 利用上面的式子可以无损的恢复图像【7 】。 完成以后,如果需要从y u v 格式到r g b 格式,转换公式为: r = y + 1 4 0 2 v g = y - 0 3 4 4 1 4 u 一0 ,7 1 4 1 4 v ( 2 - 2 ) b = y + 1 7 7 2 0 0 u 2 2 2m p e c _ r 4 编码技术 由于现有智能手机一般都带有支持m p e g - 4 解码的播放器,也为了回放方 便,本采集系统中的动态视频编码是基于m p e g - 4 编码。 1m p e g - 4 的编码的主要技术 m p e g - 4 的编码思想是:m p e g - 4 标准同以前标准的最显著的差别在于它是 采用基于对象的编码理念,即在编码时将一幅景物分成若干在时间和空间上相 互联系的视频音频对象,分别编码后,再经过复用传输到接收端,然后再对不 同的对象分别解码,从而组合成所需要的视频和音频。这样既方便我们对不同 的对象采用不同的编码方法和表示方法,又有利于不同数据类型间的融合,并 且这样也可以方便的实现对于各种对象的操作及编辑。例如,我们可以将一个 卡通人物放在真实的场景中,或者将真人置于一个虚拟的演播室里,还可以在 互联网上方便的实现交互,根据自己的需要有选择的组合各种视频音频以及图 形文本对象【s l 。m p e g - 4 视频编码框图如图2 - 4 。 图2 4m p e g - 4 视频编码框图 v o p 视频编码主要包括形状编码、运动信息编码和纹理编码。其中运动信 9 武汉理工大学硕士学位论文 息编码中的运动估计和运动补偿部分与m p e g 2 一致,形状编码则是第一次将 其纳入完整的视频编码方案中。在m p e g - 4 视频编码中,对特殊的v o ,例如静 止纹理( s t i l lt e x t u r e ) 、网格( m e s h ) 、入脸( f a c e ) 以及s p r i t e 对象等采用不同 的编码算法,而且还支持可分级编码。 ( 1 ) 形状编码 v o 的形状信息有二值形状信息和灰度形状信息。二值形状信息用0 、1 来 表示v o p 的形状,其中0 表示非v o p 区域,1 表示v o p 区域,其编码技术采 用运动补偿,可以是无损或有损编码;灰度形状信息的v o p 透明度用0 - - 2 5 5 之 间的数值来表示,其中0 表示完全透明,2 5 5 表示完全不透明,其编码技术采用 基于块的d c t + 运动补偿方法,属于有损压缩。目前m p e g - 4 标准中采用矩阵形 式来表示二值或灰度形状信息,称之为位图( b i t m a p ) 。位图表示法具有较高的 编码效率及较低的运算复杂度,但位图法不是v o p 形状编码的唯一方法,也可 以采用梯度图表示。为支持基于对象的编码,m p e g 4 还采用形状自适应d c t ( s a d o t , s h a p e - a d a p t i v e ) 技术以支持对任意形状视频对象编码。 ( 2 ) 运动信息编码 m p e g - 4 采用v o p 运动预测和运动补偿技术去除图像信息时间冗余度,基 本算法与m p e g - i 和h 2 6 3 相同,其主要不同是m p e g - 4 支持任意形状的v o p 。 v o p 编码有三种模式:即帧内编码模式( i - v o p ) 、帧间预测编码模式( p - v o p ) 和帧间双向预铡编码模式( b v o p ) 。 在m p e g - 4 中运动预测和运动补偿可基于1 6 x 1 6 像素宏块,也可基于8 8 像素宏块。如果一个宏块为标准宏块,则运动预测按通常的方式进行,此时根 据需要,一个宏块可以使用一个运动矢量,也可以是宏块的4 个8 x 8 子块各使 用一个运动矢量。为适应任意形状v o p ,m p e g - 4 引入图像填充( i m a g ep a d d i n g ) 技术和多边形匹配( p o l y g o nm a t c h i n g ) 技术。图像填充技术利用v o p 内部的像 素值来外推v o p 外的像素值,以此获得运动预测的参考值;多边形匹配技术则 将v o p 轮廓宏块的活跃部分包含在多边形之内,以此来增加运动估值的有效性。 任意形状的v o p 经过形状编码后,v o p 被分为非重叠的宏块,每个宏块包括4 个8 8 像素的亮度块和2 个8 x 8 像素的色度块。 ( 3 ) 纹理编码 纹理特性是图像在局部区域内呈现出不规则性、在整体上呈现出规律性的 特征,可进一步由粗糙性、方向性及对比度来表示。纹理信息有两种:一种是 1 0 武汉理工大学硕士学位论文 内部编码的i - v o p 的像素值,另一种是帧间编码的p - v o p 和b - v o p 的运动估 计残差值。 v o p 的纹理编码基本上仍采用基于8 x 8 像素块的d c t 方法,有3 种模式: i - v o p 、p v o p 和b v o p 。在i - v o p 中,对于完全位于v o p 内的像素块,则采 用经典的d c t 方法;对于完全位于v o p 外的像素块则不进行编码;对于部分 在v o p 内、部分在v o p 外的像素块则首先采用图像填充技术来获得v o p 之外 的像素值,然后再进行d c t 编码。i - v o p 中还将对d c t 变换的d c 及a c 系数 进行有效预测。在p v o p 中,为了对p v o p 和b w o p 运动补偿后的预测误差 进行编码,可将那些位于v o p 活跃区域之外的像素值设为1 2 8 。此外,还可采 用s a - d c t 方法对v o p 内的像素进行编码,这可在相同码率下获得高编码质量, 但运算复杂度较高。变换之后的d c t 系数还需要经过量化、z i g z a g 扫描、游程 编码等可变字长编码。v o p 纹理编码过程如图2 5 所示。 图2 5v o p 纹理编码过程 m p e g - 4 对静态纹理编码不是采用d c t ,而是采用离散小波变换 ( d w t d i s c r e t ew a v e l e t t r a n s f o r m ) 和算术编码方法。m p e g - 4 中的视觉纹理模 式支持视觉纹理和静态图像编码,这种模式基于嵌入式零树小波( e z w , e m b e d d e dz e r o - t r e e w a v e l e t ) 变换,对a c 子带和d c 子带分别编码,在非常宽 的比特率范围具有很高的编码效率。e z w 编码除具有高压缩率外,还提供了空 间可缩放性、质量可缩放性以及对任意形状的编码 9 1 。 分块d c t 法实现简单,在高、中比特率时图像质量较好,但在低比特率时 有明显的方块效应,而采用d w t 和算术编码的方法可在低比特率时去除方块效 应。 2m p e o 一4 编码的核心技术 m p e g - - 4 编码的核心技术主要包括:视频对象提取技术v o p 视频编码技 术,视频编码可分级技术,运动估计和运动补偿技术。具体分析如下。 ( 1 ) 视频对象提取技术 视频对象分割的一般步骤是:先对原始的视频数据进行简化以利于分割, 这可以通过低通滤波、中值滤波、形态滤波来完成:然后对视频数据迸行特征 提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;最后是确 武汉理工大学硕士学位论文 定分割策略,根据所提取特征将视频数据归类,分割决策一般是基于某种均匀 性标准;分割后应进行相关后处理,以实现滤除噪声及准确提取边界。 ( 2 ) v o p 视频编码技术 m p e g 4 视频编码根据内容把视频分割成不同的视频对象( v o ) ,v o 是 m p e g - 4 视频编码的核心概念。在编码过程中针对不同v o 采用不同的编码策略: 即对前景v o 的压缩编码尽可能保留细节和平滑;对人们不太关心的背景v o , 则采用高压缩率的编码策略,甚至不予传输,而是在解码端用其它背景拼接而 成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产 生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于 内容的交互,视频流的层次结构如图2 - 6 。 图2 - 6 视频流的层次结构 ( 3 ) 视频编码可分级技术 视频编码的可分级性( s c a l a b i l i t y ) 是指编码器的输出数据流中包含一个基 本层以及一个或多个增强层,可同时满足各种不同应用要求。根据信道传输条 件以及解码端处理能力或显示要求等因素,可以恢复满足基本要求的图像质量; 若进一步利用增强层的数据码流,就可得到在分辨率、信噪比以及显示连续性 等方面质量改善的图像质量,m p e g - 4 通用可分级编解码结构如图2 7 。 图2 7m p e g 4 通用可分级编解码框图 ( 4 ) 运动估计和运动补偿技术 m p e g - 4 采用i - v o p 、p - v o p 、b v o p 三种帧格式来表示不同的运动补偿类 1 2 武汉理工大学硕士学位论文 型,其中i - v o p ( i n t r a v o p ) 是不采用参考图像的编码而产生的图像; p - v o p ( p r e d i e t e d v o p ) 是采用上一个i - v o p 或上一个p v o p 来进行运动补偿预 测:b v o p ( b d i r e c t i o n a l l y p r e d i e t e d v o p ) 同时采用前面和后面的i - v o p 或p - v o p 作基准,进行运动补偿预测编码。m p e g 一4 采用了h 2 6 3 中的半像素搜索( h a l f p i x e ls e a r c h i n g ) 技术和重叠运动补偿( o v e r l a p p e dm o t i o nc o m p e n s a t i o n ) 技术, 同时又引入重复填充( r e p e t i t i v ep a d d i n g ) 技术和多边形匹配( m o d i f i e dp o l y g o n m a t c h i n g ) 技术以支持任意形状的v o p 区域。 在m p e g - 4 视频编码中,运动估计相当耗时,对编码的实时性影响很大。 因此要特别强调快速算法。运动估计方法主要有像素递归法和块匹配法两大类, 前者复杂度很高,实际中应用较少,后者则在h 2 6 3 和m p e g - 4 中广泛采用。 在块匹配法中,重点研究块匹配准则及搜索方法。 目前有三种常用的匹配准则:( 1 ) 绝对误差和s a d ( s u mo fa b s o l u t e d i f f e r e n c e ) 准则;( 2 ) 均方误差m s e ( m e a ns q u a r ee r r o r ) 准则;( 3 ) 平均绝 对误差( m a e ) 准则。 3m p e g 一4 编码的码率控制算法 m p e g - 4 的码率控制策略可以分为四个阶段:初始化阶段、预编码阶段、编 码阶段以及后处理阶段。 ( 1 ) 初始化阶段 在初始化阶段,编码器主要完成一些与码流控制相关的准备工作:采用初 始量化参数( q t = 1 5 ) 编码第一个i 帧;从总位数减去第一个i 帧的编码位数,得 到编码当前帧时的剩余位数;将缓冲区初始化到半满状态。 假设视频序列的编码顺序是第一个为i 帧,随后都是p 帧。在该编码阶段编 码器使用初始量化参数编码第一帧,此时编码随后的p 帧可用位数如式2 3 : p0=t+r-i(2-3) 其中,p o 是编码随后的p 帧可用的位数;t 是视频序列持续的周期( 以秒 为单位) ;r 是视频序列的输出码率( 以位秒为单位) ;i 是用于第一个i 帧的位 数。这样,信道输出率是p o n ,其中n 是一个序列或g o p 中的p 帧数。 ( 2 ) 预编码阶段 第一步:目标位数的初步估计 t + l 时刻p 帧的目标位数尽+ 可用下面式2 - 4 ,2 5 估计 武汉理工大学硕士学位论文 且+ l _ 静+ ( 1 一s ) + 4 + s ( 2 - 4 ) 霉= 蜀一4 尽 ( 2 - 5 ) 其中,p t 是t 时刻的剩余位数;n t 是t 时刻的剩余p 帧数;a t 是t 时刻p 帧使用的实际位数( 即前一个p 帧) ;s 是决定前一帧对当前帧目标位数影响的 权重因子,可以动态改变,也可设为一个常数,一般的标准算法中s 的缺省值 被设为0 0 5 。 第二步:目标位数的调整 前面目标位数的估计只考虑了每帧的平均分配位数及两帧之间的相关性对 编码的影响,为了获得更精确的目标位数,还需要考虑缓冲区的填充度。因此, 目标位数可以使用下面的公式2 - 6 进一步调整: 耻鬻呶,( 2 - 6 ) 其中,f t 是t 时刻缓冲区的填充度;丫是缓冲区的大小。式( 1 3 ) 所进行的调 整

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论