(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf_第1页
(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf_第2页
(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf_第3页
(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf_第4页
(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf_第5页
已阅读5页,还剩81页未读 继续免费阅读

(电子科学与技术专业论文)h264视频编码算法并行性研究及其在多核dsp上的实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国防科学技术大学研究生院学位论文 a b s t r a c t i no r d e rt oc o m p r e s sv i d e oi n f o r m a t i o nm o r ee f f e c t i v e l y ,m p e ga n dv c e g d e v e l o p e dh 2 6 4s t a n d a r d i no r d e rt og e tb e t t e rc o d i n ge f f i c i e n c y ,h 2 6 4i n t e g r a t e s m a n yh i g hc o m p l e x i t ye n c o d i n gt o o l s i t n e e d s w i t ht h ee x p a n d i n go fd i g i t a l sh a r df o rs i n g l ep r o c e s s o rt om e e tr e a l - t i m e s i g n a lp r o c e s s o r sa p p l i c a t i o n ,m u l t i c o r e p r o c e s s o r so nc h i pb e c o m e ah o ts p o t t h i sp a p e rs t u d i e sh 2 6 4e n c o d i n ga l g o r i t h ma n dt h es t r u c t u r eo fy h f t q d s p w ed e s i g nt h r e ep a r a l l e le n c o d i n gs c h e m e s m a i nw o r ka n da c h i e v e m e n t so f t h i st h e s i s a lel i s t i n gb e l o w 1 、t h i sp a p e rs t u d i e ds t r u c t u r ea n dw o r k i n gm e t h o d so fy h f t q d s p ,e s p e c i a l l y o i lt h em e t h o d so fd a t at r a n s m i s s i o na m o n g m u l t i c o r e s 2 、w ea l s og i v ead e e pr e s e a r c ht oh 2 6 4s t a n d a r d ,a n da n a l y s i st h ep a r a l l e l i s mo f i t f o c u s i n go nt h ed a t a - l e v e lp a r a l l e l i s m , 3 、w er a i s e dab l o c k b a s e dp a r a l l e la l g o r i t h mb a s e do nt h ea n a l y s i s i n go fd a t a p a r a l l e l i s m o nb a s eo ft h i sp a r a l l e l i s m ,w ed i s c u s st h ek e yp o i n t s :t h ed e m a r c a t i o na n d d i s t r i b u t i o no fi m a g e s ,d a t ac o r r e l a t i o nw h i l ei n t r ap r e d i c t i n g ,d a t ac o r r e l a t i o nw h i l e i n t e rp r e d i c t i n g ,d a t ac o r r e l a t i o nw h i l ef i l t e r i n g ,a n dd a t ac o r r e l a t i o nw h i l ee n t r o p y e n c o d i n g 4 、i nt h i sp a p e r ,w ep r o p o s e dt h r e ep a r a l l e lc o d i n gs c h e m e s :p a r a l l e le n t r o p y c o d i n gp a r a l l e li n t r ac o d e s ;e n t r o p yc o d i n gp a r a l l e li n t r a - c o d i n g a n de n t r o p yc o d i n g p a r a l l e li n t e r f r a m e t h e s es c h e m e sc a np a r a l l e le n c o d ei m a g e s w i t h o u td i s t o r t i o n 5 、w ea l s oi m p l e m e n tt h e s et h r e es c h e m e so nq d s ps i m u l a t o r ,a n dt r a n s f e r c o r r e l a t ed a t at h r o u g hs d pa n dq l i n k i no r d e rt og e tb e t t e rp a r a l l e le f f i c i e n c y ,w e e s t a b l i s hn e wd a t as t r u c t u r ea n ds y n c h r o n o u sm e t h o d sb e t w e e np r o c e s s o r s 6 、a c c o r d i n gt os i m u l a t o ri n f o r m a t i o n ,w ea n a l y s i s t h ep e r f o r m a n c eo fo u r s c h e m e s w ea l s oa n a l y s i st h ep e r f o r m a n c eo fd a t at r a n s m i s s i o nc o m p o n e n t s i no r d e r t og e tb e t t e rp e r f o r m a n c e ,w ea l s og i v es o m ea d v i c e s i nt h ed u a l p r o c e s s o rp a r a l l e lc o d i n ge x p e r i m e n t s ,i n t r ap r e d i c t i o nc o d i n gs p e e d u p a c h i e v e d1 7 i n t e r - f r a m ep r e d i c t i o nc o d i n gs p e e d u pr e a c h e d1 8 ;p a r a l l e lc o d i n g o nf o u r p r o c e s s o r s ,i n t r a a n di n t e r f r a m ec o d i n gs p e e d u p a r ea l la b o v e3 k e yw o r d s : q d s p ,h 2 6 4 ,q d s ps i m u l a t o r 、 p a r a l l e le n c o d i n ga l g o r i t h m 、d a t ap a r a l l e l i s m 一- 一 第i i 页 国防科学技术大学研究生院学位论文 表目录 表4 1并行熵编码的并行帧内编码方案环境配置。4 0 表4 2 方案验证实验结果4 0 表4 3 统一熵编码的并行帧内编码方案编码环境配置4 2 表4 4 方案验证实验结果4 2 表4 5 统一熵编码的并行帧间编码方案编码环境配置4 4 表4 6 编码两帧实验结果4 4 表4 7 编码1 0 帧实验结果4 5 表5 1s d p 中d s p l 、d s p 2 可操作体信息4 7 表5 2s d p 中d s p l 、d s p 2 可操作信号灯信息4 7 表5 3 编码一帧实验结果5 l 表5 4 传输时间统计5 1 表5 55 + 6 划分实验结果5 1 表5 65 + 6 划分时处理器2 s d p 读写时间统计5 2 表5 7s d p 全部存储体地址空间5 4 表5 8s d p 信号灯及d s p 读写权限5 4 表5 9 编码一帧实验结果5 5 表5 1 0 传输时间统计5 5 表5 11 双处理器编码一帧实验结果6 2 表5 1 2 传输时间统计6 2 表5 1 3 四处理器编码一帧实验结果。6 4 表5 1 4 传输时间统计。6 4 表5 1 5 双处理器编码两帧实验结果6 9 表5 1 6 传输时间统计6 9 表5 1 7 编码三帧实验结果7 0 表5 1 8 传输时间统计。7 0 表5 1 9r d 模式下并行帧间编码2 帧模拟器运行结果7 0 表5 2 0 四核并行帧间编码两帧实验结果7 2 表5 2 1 四核并行帧间编码传输时间统计。7 2 表6 1 双核模拟理想加速比和实际加速比比较7 3 第1 v 页 国防科学技术大学研究生院学位论文 图2 1 图2 2 图2 3 图2 4 图目录 q d s p 结构图。1 0 d s p 中e d m a 部件及其互联部件示意图1 1 e d m a 控制器结构。1 2 q d s p 互联结构示意。1 4 图2 5c p u 模拟器工作流程 图2 6c p u 模拟器相关数据结构及其操作过程1 6 图2 7c p u 模拟器指令执行模型。1 7 图2 8e d m a 模拟器工作流程1 8 图2 9s d p 模拟器工作流程1 9 图2 1 0q l i n k 发送器事件状态图2 0 图2 11q l i n k 接收器事件状态图 图3 1 视频编码器原理图2 2 图3 2h 2 6 4 视频编码器原理2 3 图3 34 4 块的z i g z a g 顺序扫描2 7 图3 44 x 4 亮度预测模式2 8 图3 51 6 x 1 6 亮度预测模式2 9 图3 6 对a 进行帧内预测时参考宏块位置示意图2 9 图3 71 帧图像划分示意图2 9 图3 8处理器1 宏块帧内预测相关宏块示意图3 0 图3 9处理器2 宏块帧内预测相关数据示意图3 0 图3 1 0 运动估计搜索域示意图3 1 图3 1 1 处理器1 宏块帧间预测数据相关示意图3 1 图3 1 2 处理器2 宏块帧间预测数据相关示意图3 2 图3 1 3 宏块边界滤波顺序3 2 图3 1 4 垂直和水平边界邻域采样3 3 图3 1 5 对a 进行滤波相关数据示意图。3 3 图3 1 6 统一熵编码相关信息示意图3 4 图4 1 处理器2 宏块帧内预测数据相关示意图3 9 图4 2处理器1 宏块帧内预测相关数据示意图3 9 图4 3 统一熵编码的并行帧内编码方案任务划分示意图。4 l 图4 4 帧同步示意图4 3 图5 1帧内预测相关宏块示意图4 7 第v 页 国防科学技术大学研究生院学位论文 图5 2 并行熵编码的并行帧内编码方案示意图4 8 图5 3 并行熵编码的并行帧内编码方案中处理器1 工作流程图4 9 图5 4 并行熵编码的并行帧内编码方案处理器2 工作流程图5 0 图5 54 处理器并行编码图像划分示意图5 2 图5 6图像划分示意图。5 6 图5 7 统一熵编码的并行帧内编码方案示意图5 8 图5 8 统一熵编码的并行帧内编码方案中处理器l 工作流程。6 0 图5 9 统一熵编码的并行帧内编码方案中处理器2 工作流程。6 1 图5 1 0 统一熵编码的并行帧间编码方案示意图6 6 图5 1 1 统一熵编码的帧间预测方案中处理器1 工作流程图6 7 图5 1 2 统一熵编码的帧间预测方案中处理器2 工作流程图6 8 第v i 页 独创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已 经发表和撰写过的研究成果,也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意。 学位论文题目:旦:! 蛐塑堑互簋遮羞红蛙叠塞趣基查垒遣堕土煎塞丑一一 学位论文作者签名: 一鱼i盛 日期: 山d 占年r 月;日 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留,使用学位论文的规定本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档,允 许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索, 可以采用影印、缩印或扫描等复制手段保存、汇编学位论文 ( 保密学位论文在解密后适用本授权书。) 学位论文题目: 旦:2 塑麴翁盟簋洼羞盘性丑窥超基垄垒挂旦墨呈土盐塞窭 学位论文作者签名:翻逛 储舯蝴始一 日期:p d l 8 1 年 ,月弓日 日期:哲年1 月4 日 国防科学技术大学研究生院学位论文 第一章引言弟一早 jl 石 1 1 多核d s p 概述 d s p 是一种用于数字信号处理的嵌入式专用处理器,与通用微处理器擅长通用计算与 控制不同,d s p 主要用来进行大量的并行数据计算任务。目前,d s p 已经广泛应用于计算 机、网络、移动电话、3 g 通信、雷达以及电子战等民用和军用领域。 1 1 1d s p 芯片发展概述 世界上第一款单片d s p 芯片是1 9 7 8 年a m i 公司发布的$ 2 8 1 1 ,1 9 7 9 年i n t e l 公司发 布的商用可编程器件2 9 2 0 是d s p 芯片的一个里程碑。这两种芯片内部都没有现代d s p 芯 片所必须的单周期乘法器。1 9 8 0 年,日本n e c 公司推出的up d 7 7 2 0 是第一个具有乘法器 的商用d s p 芯片【l 7 。 在这之后,最成功的d s p 芯片当数美国德州仪器公司( t e x a si n s t r u m e n t s ,简称t i ) 的一系列产品。t i 公司在1 9 8 2 年成功推出其第一代d s p 芯片t m s 3 2 0 1 0 及其系列产品 t m s 3 2 0 1 1 、t m s 3 2 0 c 1 0 c 1 4 c 1 5 c 16 c 1 7 等,之后相继推出了第二代d s p 芯片t m s 3 2 0 2 0 、 t m s 3 2 0 c 2 5 c 2 6 c 2 8 ,第三代d s p 芯片t m s 3 2 0 c 3 0 c 31 c 3 2 ,第四代d s p 芯片 t m s 3 2 0 c 4 0 c 4 4 ,第五代d s p 芯片t m s 3 2 0 c 5 x c 5 4 x ,第二代d s p 芯片的改进型 t m s 3 2 0 c 2 x x ,集多种d s p 芯片于一体的高性能d s p 芯片t m s 3 2 0 c 8 x 以及第六代d s p 芯片t m s 3 2 0 c 6 2 x c 6 7 x 等。t i 将常用的d s p 芯片归纳为三大系列,即:t m s 3 2 0 c 2 0 0 0 系列( 包括t m s 3 2 0 c 2 ) ( c 2 x x ) 、t m s 3 2 0 c 5 0 0 0 系列( 包括t m s 3 2 0 c 5 x c 5 4 x c 5 5 x ) 、 t m s 3 2 0 c 6 0 0 0 系列( t m s 3 2 0 c 6 2 x c 6 7 x ) b 7 j 。如今,t i 公司的一系列d s p 产品已经成 为当今世界上最有影响的d s p 芯片。t i 公司也成为世界上最大的d s p 芯片供应商,其d s p 市场份额占全世界份额近5 0 。 美国模拟器件公司( a n a l o g d e v i c e s ,简称a d ) 在d s p 芯片市场上也占有一定的份额, a d 公司相继推出了一系列具有自己特点的d s p 芯片:有a d s h a r c 结构的系列芯片和 t i g e r s h a r c 结构的芯片。 1 9 8 0 年以来,d s p 芯片得到了突飞猛进的发展,从运算速度来看,m a c 运算时间从 8 0 年代初的4 0 0 n s 降到1 0 n s 以下,处理能力提升了几十倍;内部的r a m 容量增加了一个 数量级以上;制造工艺从最初的4 u mn m o s 到深亚微米c m o s 工艺,功耗也有了很大的 下降;同时价格也降低了将近1 0 倍。d s p 技术成为目前集成电路领域发展速度最快、竞 争最激烈的技术。 d s p 芯片的主要应用有:信号处理、通信、语音、图形、图像、军事、仪器仪表、自 动控制、医疗、家用电器等。数字蜂窝电话是d s p 最为重要的应用领域之一。由于d s p 第1 页 国防科学技术大学研究生院学位论文 具有强大的计算能力,使得移动通信的蜂窝电话重新崛起,并创造了一批诸如g s m 、c d m a 等全数字蜂窝电话网。在m o d e m 器件中,d s p 更是成效卓著,不仅大幅度提高了传输速 率,且具有接收动态图像的能力。另外,可编程多媒体d s p 是p c 领域的主流产品。以 x d s lm o d e m 为代表的高速通信技术与m p e g 图像技术相结合,使得高品位的音频和视 频形式的计算机数据有可能实现实时交换。目前的硬盘空间相当大,这主要得益于可定制 d s p 的巨大作用。预计在今后的p c 机中,一个d s p 芯片即可完成全部所需的多媒体处理 功能。d s p 也是消费类电子产品中的关键器件。由于d s p 的广泛应用,数字音响设备的更 新换代周期变得非常短。d s p 还广泛应用于图像处理方面,例如j p e g 标准的静态图像数 据处理和m p e g 标准的动态图像数据处理【i 。 1 1 2 多核d s p 概述 随着流媒体的广泛应用以及高性能并行计算需求的不断增大,现有的单核d s p 结构很 难满足计算性能的需求。以m p e g 4 应用为例,单个t m s 3 2 0 c 6 7 1 1 b 芯片只能勉强满足 c i f 格式的图像压缩需求,如果要同时进行压缩和解压计算,就需要两片d s p 芯片协同工 作。而3 g 移动通信、实时图像处理、雷达信息处理、生物制药、基因排序以及化学演变 等高端应用则需要更大规模的并行数据计算。例如s a r 图像处理需要1 0 0 g f l o p s 以上的 运算能力,3 g 系统需要6 0 1 3 0 g f l o p s 的运算能力,而目前最高端的t m s 3 2 0 c 6 4 xd s p 的浮点运算能力只有4 g f l o p s ,所以必须采用大规模的d s p 芯片阵列才能满足这些应用 的性能需求1 2 副。 开发d s p 阵列的板级通信方式需要设计复杂的控制系统,这明显增加了硬件的成本开 销,也增大了软、硬件开发的难度。由于互连信号线以及i o 管脚数等物理约束,板级通 信带宽很难再进一步提高,这导致了通信系统可扩展性差,限制了应用系统的规模及性能。 应用需求的增大以及d s p 板级通信系统开发的困难促使人们从单核d s p 转向多核d s p 3 l 】。 在进行多处理器体系结构的设计时,需要在多处理器核之间进行任务的映射以及任务 间的通信,如何构建高效多核处理器设计平台,进行有效的软硬件任务划分,然后在多核 上进行任务映射,都是多核d s p 领域的重要研究内容【2 引。 当一个芯片内有多个d s p 核时,核间的数据传递方式也就成为了研究的重要内容。当 处理器核数量不多时,最简单有效的互连方式为基于共享存储器的总线互连;当处理器核 个数越来越多时,为了提高处理器核之间的通信带宽和效率,则需要设计复杂高效的片内 多核互连结构,n o c ( n e t w o r k o n c h i p ) 作为一种高效片上互连系统,得到了广泛的研究【3 1 1 。 从所包含的处理器核结构的角度来看,多核处理器分为同构多核处理器和异构多核处 理器。在同构多核处理器中,所有的处理器核的体系结构都是一致的,而异构多核处理器 中则存在多个不同体系结构的处理器核。同构多核处理器往往针对特征单一的应用,通过 在多个处理器核上运行多个线程来挖掘更多的并行性;异构多核处理器则可将不同类型的 第2 页 国防科学技术大学研究生院学位论文 计算任务分配到不同类型的处理器核上并行处理,从而为不同需求的应用提供更加灵活、 高效的处理机制【2 8 】。 1 1 3 多核d s p 发展现状 同构多核处理器内部集成了若干个结构对等的d s p 核,不存在其他处理器核。 a d 公司的b l a c k f i n t m 嵌入式对称多处理器a d s p b f 5 6 1 内部集成了2 个对称的 6 0 0 m h z 高性能b l a c k f i n t m 内核,片内共享3 2 8 k b 的存储器。该处理器采用类r i s c 的寄 存器和指令模式,易于编程和编译优化,同时具有先进的跟踪、调试和性能监测方式。 b l a c k f i n t m 内核采用动态功耗管理技术,可以改变电压和频率,从而为便携式应用提供更 长的待机时间。 t i 公司的t m s 3 2 0 v c 5 4 4 l 浮点d s p 内部集成了4 个c 5 4 x 核,每个核具有1 9 2 k b 的 局部存储器、3 个多通道缓冲串口、d m a 、定时器等部件。每个子系统都具有独立的程序 和数据空间,可以同时访问指令和数据。该d s p 采用了很多并行访存指令,可以在一拍内 完成2 读1 写操作,从而大大提高了并行性。片内共享5 1 2 k b 的程序存储器。 异构多核d s p 是最常见的一类多核d s p ,其中既包含d s p 核,又包含用于控制的m c u ( 微控制器) 核,从而充分发挥d s p 的处理速度和m c u 的控制功能。 t i 公司的s m j 3 2 0 c 8 0 是世界上第一个单芯片并行m i m d ( 多指令多数据) d s p 。其 中集成了1 个性能为1 0 0 m f l o p s 的3 2 位r i s c 浮点c p u 核、4 个3 2 位并行处理d s p 、1 个传输控制器( t c ) ,一个视频控制器( v c ) 。所有的处理器通过c r o s s b a r 进行耦合, 共享5 0 k b 的片上r a m ,每秒可以完成2 0 亿次运算。 m o t o r o l a 公司针对窄带无线系统( 例如g s m 和t d m a a m p s ) 应用,优化设计出了 结构非常紧凑的双核d s p 产品d s p 5 6 6 5 4 。该处理器内部集成了m o t o r o l a 的3 2 位r i s c 控 制器m c o r e t m 、d s p 5 6 6 0 0 内核以及丰富的外设部件。其中m c o r e t m 内核采用3 2 位 的l o a d s t o r er i s c 架构,1 6 位的定长指令和4 级流水线设计。该处理器具有静态和动态 功耗管理功能,能够在4 0 8 5 。c 温度范围内工作。 1 2 h 2 6 4 视频编码标准概述 广播数字化、网络宽带化、通讯无线化、存储高密度化是当前多媒体和通信技术的趋 势。随着v l s i ( 超大规模集成电路) 技术、无线通信技术的不断进步以及3 g 时代的到来, 人们的娱乐生活更加丰富多彩,人们对多媒体技术的需求日益复杂和迫切。随着网络带宽 的不断增强,存储介质容量的不断增大,人们对多媒体尤其是视频图像信息质量的要求也 不断提高,如何有效的压缩多媒体信息,特别是视频信息,使其可以在有限带宽的网络上 实时传输并能在同等容量的存储介质中存储更多的信息,就成为了极富挑战的热门课题。 信息压缩是信息有效传输和存储的关键,而标准化则是产业化活动成功的前提。为了使视 第3 页 国防科学技术大学研究生院学位论文 频信息及其产品可以在全球交流和使用,有必要制定相应的幽际标准来规范视频压缩编解 码技术及其应用,以保证各种信息设备及服务器可以兼容地工作。 1 2 1 视频编码标准发展 视频压缩编解码标准的制定工作主要由国际标准化组织( i s o ) 和国际电信联盟( i t u ) 完成。2 0 世纪9 0 年代以来,i t u 和i s o 制定了一系列有关视频压缩编解码的国际标准, 极大地推动了多媒体技术的实用化和产业化。这些标准包括:h 2 6 1 、m p e g 1 、m p e g 2 、 h 2 6 3 、m p e g 4 和h 2 6 4 a v c 掣3 ,1 4 ,3 0 1 。 ( 1 ) h 2 6 1 、h 2 6 3 、m p e g 1 和m p e g 2 h 2 6 1 是第一个广泛应用于视频会议的标准,它由i t u t 开发,支持i s d n 电路交换 网络上的视频会议和可视电话。i s d n 网络的数据传输率是6 4 k b p s 的整数倍,h 2 6 1 用于 支持在这些码率下的计算简单的视频编码,它采用整像素精度的运动补偿d p c m d c t 模 型。 为了改善h 2 6 1 的压缩性能,i t u t 工作组开发了h 2 6 3 ,它提供更好的压缩效率, 支持低于3 0 k b p s 的基本视频质量,可在电路交换和包交换网络上运用。h 2 6 3 的基本档次 采用半像素精度运动补偿的混合d p c m d c t 模型,被m p e g 4 标准选为简单档次的核心 框架。 m p e g 1 是第一个m p e g 标准,用于视频存储和c d 播放。一张c d 以1 4 m b p s 地速 度可以播放7 0 分钟。m p e g 1 支持v c d 格式的存储和播放,采用基于分块的运动补偿、 d c t 和量化结构,其最优压缩码率是1 2 m b p s 。m p e g 1 没有取得商业上的成功,其原因 可能是提供的视频质量和v h s 录像相比并没有足够的优势,但是个人电脑和网页上的视 频文件却广泛地采用了m p e g 一1 标准。 m p e g 2 标准致力于数字电视广播的视频压缩,它建立在m p e g 1 的基础上,增加了 对隔行扫描视频的高效编码,采用更灵活的语法、改善了编码效率,系统部分更为灵活和 强大。它第一次引入了档次和级别的概念,以在保持灵活性的同时增强互用性。随着世界 范围内有线电视和卫星电视广播的广泛发展,m p e g 2 取得了巨大的成功。它提供d v d 品质的视频压缩方式,成功代替了v h s 录像带。 ( 2 ) m e p g 4 m p e g 4 视频部分在压缩效率和灵活性方面比m p e g 2 有所改善,为了达到有效压缩 的目的,m p e g 4 采用了更先进的压缩算法,提供了广泛的工具集,在一个核心的编解码 模型基础上提供大量的附加工具。核心模型是混合d p c m d c t 模型,其基本功能通过附 加工具得以扩展,包括更高的压缩效率、更可靠的数据传输、对视频场景中分离形状和对 象的编码以及脸部和人体模型的基本网格压缩等。由于单一应用不太可能需要m p e g 4 视 频框架中的所有工具,因此标准定义了一系列的档次,为不同类型的应用推荐不同的工具 第4 页 国防科学技术大学研究生院学位论文 集。 m p e g 4 不同于以往视频编码标准的主要特性包括:逐行扫描和隔行扫描自然序列视 频的高效压缩;以h 2 6 3 的压缩工具为核心,提供可选的附加工具提高压缩性能;视频对 象编码;为实际网络中的高效容错传输提供支持,它提供的错误恢复工具有助于编码器从 传输错误中恢复,在易产生错误的网络环境中保持视频连续;可分级编码工具支持一定范 围比特率的灵活传输;支持静态纹理( 静止图像) 编码;支持动画视频对象编码,比如二 维和三维的多边形网格、人脸和人体的动画模型;支持专家级的编码,此时视频品质比高 效压缩更为重要。 ( 3 ) h 2 6 4 运动图像专家组和视频编码专家组研究出比早期m p e g 4 和h 2 6 3 标准更好的新标 准,以提供更好的视频图像压缩,分别被i s o 和i t u 命名为先进视频编码a v c ( m p e g 4 第十部分) 和h 2 6 4 。同早期的视频编码标准一样,h 2 6 4 没有明确定义编码器,而是着重 定义了编码视频位流的语法及对这种位码流解码的方法。其基本的功能单元( 预测、变换、 量化、熵编码) 和先前的标准几乎没有什么差别,h 2 6 4 中的重要变化是在每个功能单元 中的实现细节。在此基础上,h 2 6 4 增加了去块效应滤波,以消除基于宏块的变换编码所 带来的块效应问题。 中国数字音视频编解码技术标准工作组( a v s 工作组) 在“8 6 3 ”计划和相关政府部 门的大力支持下,提出了自主的数字音视频编解码技术标准a v s 。a v s 编码效率比传统 的m p e g 一2 国际标准提高了一倍,其视频部分力图定义一个先进、高效、低复杂度、知识 产权清晰的视频编解码系统。其技术特点包括:对帧间编码采用可变块大小的运动补偿技 术:对帧内编码采用多方向的空间预测技术;采用环内滤波器去除块效应;采用8 8 块 整数正交变换及其相应的量化策略;采用改进的运动向量预测编码机制;采用更加高效的 熵编解码器;采用基于率失真的编码优化技术。从技术特点看,a v s 和h 2 6 4 非常类似。 1 2 2h 2 6 4 视频编码算法的特点 为了获得更好的编码效率,h 2 6 4 中集成了很多新的编码工具。它提供两种可选的熵 编码模式:c a v l c ( 基于上下文的自适应变长编码) 和c a b a c ( 基于上下文的自适应二 进制算术编码) 。帧内预测为亮度块定义了1 3 种预测模式,为色度块定义了4 种预测模 式,以增强帧内编码的性能。采用自适应整数变换去除反变换中不匹配的部分,采用自适 应i n 1 0 0 p 去块效应滤波器减少块效应。对帧间预测,无论p 帧还是b 帧,h 2 6 4 最多允许 采用1 6 个参考帧;具有1 6 1 6 像素的宏块可以划分为1 6 x 8 、8 1 6 或8 8 的子块,8 8 的宏块可以进一步划分为8 4 、4 8 或4 4 的子块,用更小的块尺寸进行帧间预测。 在帧内预测模式和帧间预测模式的选择过程中,h 2 6 4 允许采用率失真耗费为标准,综合 考虑重构失真和编码码率。支持四分之一像素精度的运动补偿,提供4 种帧间预测模式, 第5 页 国防科学技术大学研究生院学位论文 分别是前向、后向、直接和双向。采用这些编码技术使得h 2 6 4 的编码效率大大提高,在 相同编码质量的情况下,h 2 6 4 的编码码率仅相当于m p e g 2 的一半,但同时,这些技术 也使得h 2 6 4 编解码算法的计算复杂度变得非常大【3 , 1 2 , 1 4 , 2 3 , 2 9 】。 h 2 6 4 标准定义了三个档次的视频编码,每个档次支持特定的编码功能,并规定了对 相应编码器和解码器的要求。基本档次支持帧内和帧间编码及自适应上下文变长熵编码 c a v l c ;主要档次支持隔行视频、使用bs l i c e 的帧间编码、加权预测的帧间编码和自适 应上下文算术熵编码c a b a c ;扩展档次不支持隔行视频和c a b a c ,但增加了一种模式允 许有效的交换编码位流,即s i 和s p 帧,并改进了错误恢复机制。基本档次可以应用于可 视电话、视频会议和无线通信;主要档次用于电视广播、视频存储;扩展档次在流媒体领 域特别有用1 3 , 1 4 , 27 。 1 - 2 3h 2 6 4 视频编码算法并行性研究现状 由于h 2 6 4 编解码算法计算复杂度非常大,单处理器难以满足实时编解码的要求, h 2 6 4 视频编解码算法的并行性开发就成为了研究热点。h 2 6 4 编解码算法中存在大量不同 层次的并行性,因此其并行算法可以基于不同的并行机制进行。 a m i tg u l a t i 等人将h 2 6 4 编解码算法映射到c r a d l e 的c 3 4 0 0m d s p 系统中,采用2 个r i s c 核和4 个d s p 核实现c i f 格式的h 2 6 4 编码算法,不同的处理器内核执行算法的 不同功能模块,实现处理器核问的任务流水。任务流水是传统的并行算法机制,但对视频 编解码算法尤其是h 2 6 4 编解码算法而言却并不太合适,这是因为:( 1 ) 大量的数据需要从 一个处理器核传输至另外一个处理器核,对系统带宽提出了很高的要求;( 2 ) 算法中不同模 块的计算复杂度差别很大,很难在处理器间进行均衡的任务分配,系统最终的性能往往受 限于计算负荷最大的处理器p j 。 由于视频编解码算法中存在大量不同层次的数据级并行性,因此开发数据级并行算法 成为视频算法研究的一大热点。i n t e l 公司的y k c h e n 等人基于具有超线程技术的4i n t e l x e o n 处理器系统开发线程级并行的h 2 6 4 编码器,以s l i c e 和f r a m e 为粒度,通过数据域 的划分实现多线程编码,最终获得了3 7 4 - - 一4 5 3 倍的加速。但是,这种软件划分的方法增 加了额外的码率:将帧划分为s l i c e ,增加了s l i c e 头信息;而且s l i c e 间的m b 不再进行预 测编码,增加了变换系数的编码码率【6 j 。 u n i v e r s i t yo fc a l i f o r n i a 的z h u oz h a o 和p i n gl i a n g 基于对h 2 6 4 基本p r o f i e 编码中数 据相关性的分析,提出了w a v e f r o n t 并行的数据划分和任务调度方法。不同帧的宏块只有 在其需要的所有参考宏块数据都已经可见时才可以同时处理;相同帧不同行的宏块只有在 其相邻上方和左侧宏块已经编码并重构时才可以同时处理。因此,只要前一帧左上角的2 2 ( 和搜索范围相关,此时搜索窗口尺寸为1 6 ) 个宏块已经编码完毕,就可以启动新一 帧的编码,这是帧间预测最小的搜索范围。同时,每幅图像都首先划分为单独的宏块行, 第6 页 国防科学技术大学研究生院学位论文 由于宏块直到其左侧相邻宏块编码完成后才能开始编码,宏块行所有的宏块将由相同的处 理器或者线程进行处理以减少处理器间的数据交换。为了保证处理器可以得到充足的利 用,定义了2 种层次的优先级:第一种是帧间层次,第二种是帧内层次,帧间层的优先级 比帧内层的要高;帧间层优先级规定在视频源缓冲中,如果几个不同帧的宏块都做好了编 码都准备,具有最小帧号的宏块首先进行编码;帧内层的优先级规定如果几个同帧不同行 宏块都做好了编码都准备,具有最小行号的宏块首先进行编码1 4 1 。 还有研究者采用超线程技术和o p e n m p ,使软件编码器实现线程级并行。超线程技术 把一颗处理器由内部分成了多个虚拟的处理器,操作系统认为自己运行在多处理器状态 下,这是一种类似于多处理器并行工作的技术,但它只是在一个处理器里面多加了一个架 构指挥中心,通过减少空闲时间,提高执行效率。这种方法对任何软件算法都可以适用, 并不特别针对h 2 6 4 编码算法p 3 1 。 在h 2 6 4 编码过程中,通过专门的硬件模块来完成某些复杂度较大的运算过程,可以 提高处理速度和降低处理器的负载。上海交通大学的刘凌志等人设计了一种并行结构的 h 2 6 4 帧内预测器,在分析1 7 种帧内预测值求解算法的基础上,利用其运算上的相似性, 将所有运算单元集中到一个运算单元中,该运算单元可根据预测模式的不同对输入的数据 安排相应的运算模块及数据通路,从而达到资源的最优化利用。当同时安排4 个并行运算 单元,在5 0 5 m h z 时钟时,可以实时处理7 2 0 x 4 8 0 ,3 0 帧s 的图像( 2 引。 在芯片中采用专门的硬件模块来实现h 2 6 4 编码,芯片的通用性不强;采用超线程技 术实现h 2 6 4 编码,没有根据h 2 6 4 的特点,最大限度地发挥芯片的特性。立足于一款芯 片,根据这款芯片的特性开发h 2 6 4 算法的并行性,这样可以最大限度的根据h 2 6 4 算法 的特性加速芯片的编码过程,并保证芯片的通用性。 1 。3 本文研究的主要内容、目的及意义 本课题来源于高性能异构多核数字信号处理器y h f t q d s p 的自主设计。f t q d s p 芯片内集成了4 个超长指令字结构的高性能浮点d s p 核和一个r i s c 核。本人是q d s p 芯 片研制团队成员之一,完成了扩展直接存储器访问( e d m a ) 部件的设计与验证工作,并 完成了e d m a 模拟器的设计。之后因自主创新的异构多核d s p ,需要为其开发一些典型 应用,同时利用一些典型应用来研究其组成结构的合理性,故此开展了本课题的研究。 本课题的内容包括如下几个方面:一、y h f t q d s p 系统结构研究;二、h 2 6 4 视频编 码算法并行性研究;三、h 2 6 4 视频编码算法在异构多核d s p 模拟器上的实现。 h 2 6 4 是国际上最新的视频压缩标准。为了获得更好的编码效率,h 2 6 4 中集成了很多 新的编码工具,这些编码工具极大的增加了h 2 6 4 编解码算法的复杂度,单处理器难以满 足h 2 6 4 实时编解码的需求,h 。2 6 4 的并行研究成为国际研究的热点。研究h 2 6 4 在 y h f t q d s p 上的并行编码,不仅为今后对h 2 6 4 算法的进一步研究做了技术准备,而且 第7 页 国防科学技术大学研究生院学位论文 为y h f t q d s p 的性能评价提供了真实可靠的研究数据。 1 4 论文的主要工作及创新点 本文主要进行了以下几方面的工作: ( 1 ) 对y h f t q d s p 的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论