




已阅读5页,还剩68页未读, 继续免费阅读
(通信与信息系统专业论文)ngn媒体网关中的itut+g7231语音编码器的dsp实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
南京邮电大学硕士研究生学位论文摘要 摘要 g 7 2 3 1 是下一代网络的媒体网关中使用的低速率语音编码算法之一。国际电信联盟 ( i t u - t ) 于1 9 9 6 年推出的该语音编码标准可以将6 4 k b p s 话音p c m 信号压缩到 5 3 6 3 k b p s ,并且保持较好的话音质量。 本文的主要工作就是在高性能的t i 公司的t m s 3 2 0 c 6 4 1 6 ( 以下简称c 6 4 1 6 ) d s p 开发系 统套件( d s k ) 上实现g 7 2 3 1 语音编解码算法,并对其进行优化。文章在研究g 7 2 3 1 编解码器组成和算法原理的基础上,从软硬件两方面论述了编解码器的实现,为了尽可能 减少在d s p 上的指令周期数,本文着重在算法级和代码级上对程序进行了优化,其中,基 于c 6 4 1 6 本身结构进行的汇编级优化是提高编解码性能的关键,也是本文工作的重点所在。 本文的算法优化均在d s k 上得到实现并能通过i t u t 建议规定的测试序列验证。 最后,论文在软件级上对媒体网关中处理多路话音系统的d s p 实现方案给以讨论。 南京邮电大学硕士研究生学位论文 a b s t r a c t a b s t r a c t i t u t ( 2 7 2 3 1w i l lb ea d o p t e da so n eo ft h el o wr a t es p e e c he n c o d i n gm e t h o d si nt h en e x t g e n e r a t i o nn e t w o r k ;i tc a nc o m p r e s s6 4 k b p sv o i c ep c mc o d et ot h er a t eo f5 3 6 3 k b p sa n dk e e p s a t i s f a c t o r ys p e e c hq u a l i t y t h i s p a p e rd e s c r i b e sh o w t oi m p l e m e n t a n do p t i m i z et h e ( 2 7 2 3 1c o d e cb a s e do n h i g h p e r f o r m a n c et m s 3 2 0 c 6 4 16d s pa n di t sd e v e l o p m e n ts y s t e mk i t ( d s k ) o ft ic o r p a f t e r i n t r o d u c t i o nt h ep r i n c i p l eo f ( 2 7 2 3 1e o d e c ,p a p e rd e s c r i b e sg 7 2 3 1c o d e ci m p l e m t a t i o ni n s o f t w a r ea n dh a r d w a r e i no r d e rt ob e s tr e d u c et h en u m b e ro fa l g o r i t h mi n s t r u c t i o np e r i o d s , p a p e rp a y sm a i na t t e n t i o no i lt h eo p t i m i z i n gm e t h o d sa ta l g o r i t h m a n da s s e m b l e rl e v e l s s p e c i a l e f f o r t sh a v eb e e np a i do na s s e m b l yo p t i m i z a t i o n t h em a i na c h i e v e m e n to ft h i sp a p e ri s d e p e n d i n go nt h eb a s e s ,t h a td i g st h ei n t r i n s i ca r c h i t e c t u r ea d v a n t a g eo ft m s 3 2 0 c 6 4 16a sw e l l a sp o s s i b l e a l lo p t i m i z a t i o nr e s u l t so nt h i sp a p e ra r ev e r i f i e do nd s k e x p e r i m e n tb o a r ds y s t e m a n dt h e ya r ea l lp a s s e dt h et h ec h e c k i n gs e q u e n c et e s t i n g ,w h i c hd e f i n e db yi t u t1 3 7 2 3 1 f i n a l l y , t h es o f t w a r es c h e m eo fm u l t i - c h a n n e lv o i c ec o d e c ,w h i c hi su s e f u lo nm e d i ag a t e w a yd e s i g n ,i sp r o p o s e do nt h el a s ts e c t i o n i i 南京邮电大学硕士学位论文 缩略语 缩略语 下一代网络 国际电信联盟 多脉冲最大似然量化 预测分裂矢量量化器 脉冲编码调制 码激励线性预测 自适应码激励线性预测量化 数字信号处理器 每秒百万条指令 线性预测编码 线谱对 矢量量化 有限长脉冲响应 预测分裂矢量量化 滑动平均 无限长脉冲响应 静态随机存储器 双端口随机存储器 单端口随机存储器 串口 缓冲串口 多通道缓冲串口 时分复用串口 信噪比 平均分段信噪比 快速傅立叶变换 删 一 舢 刚 叫 卿 椰 眦 卿 m 姗 姒 m 蚕| 一 一 印 唧 一 一 姗 一 m 南京邮电大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究 工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的 地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包 含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材 料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了 明确的说明并表示了谢意。 研究生签名:萌祠n ,冯 南京邮电大学学位论文使用授权声明 南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留 本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其 他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一 致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布 ( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权 南京邮电大学研究生部办理。 研究生签名:整泗! ! 马 导师签名: 南京邮电大学 硕士学位论文摘要 学科、专业:工学通信与信息系统 研究方离:i p 与宽带网络 作者:2 0 0 4 级研究生鞠鸣指导教师傅永根 题目:n g n 媒体网关中的i t u - tg 7 2 3 1 语音编码器的 d s p 实现 英文题嗣:d s pr e a l i z a t i o no fg 7 2 3 1 v o i c ec o d e ci nm e d i a g a t e w a y 主题词: k e y w o r d s : 下一代网络媒体网关语音编码编解码器 i t u tg 7 2 3 1自适应码激励线性预测量化 多脉冲最大似然量化数字信号处理器 n g nm e d i ag a t e w a y v o i c ec o d i n gc o d e c i t u tg 7 2 3 1a c e l pm p - m l qd s p 南京邮电大学硕士研究生学位论文前言 苷士 刖舌 国际电信联盟标准组织( i t u - t ,t e l e c o m m u n i c a t i o ns t a n d a r d i z a t i o ns e c t o r o f i n t e r n a t i o n a lt e l e c o m m u n i c a t i o nu n i o n ) 于1 9 9 6 年推出了采用共轭结构代数码激励线 性预测( c s a c e l p ) 以及多脉冲激励最大似然量化编码( m p _ m l q ) 技术的具有5 3 6 3 k b p s 码速率的语音编码算法建议g 7 2 3 1 ,该算法是以语音编码方案中的码激励线性预测 ( c e l p ,c o d ee x c i t e dl i n e a rp r e d i c a t i o n ) 技术为基础的,它采用了多种当今语音压 缩编码的先进技术,是i t u - t 广泛推荐的语音压缩编码标准算法之一。 c e l p 虽然能在中低速率上提供较好的合成语音方案,成为目前语音编码算法中最主要 的方案,但是计算复杂和数据存储量大却是它的固有缺陷。这使得一些理论上性能良好的 语音编码方案在实时实现或实际应用中还存在许多困难。因此语音编码算法的实时实现一 直是该领域中的一个具有重大意义的研究课题。 自从2 0 世纪7 0 年代末第一片数字信号处理器芯片( d i g i t a ls i g n a lp r o c e s s o r s , d s p s ) 问世以来,d s p s 就以数字器件特有的稳定性、可重复性、可大规模集成,适合自适 应处理等特点,给数字信号处理( d i g i t a ls i g n a lp r o c e s s i n g ,d s p ) 的发展带来了巨大 机遇,并使信号处理手段更灵活,功能更复杂,其应用领域也拓展到国民经济生活的各个 方面。近年来,随着半导体制造工艺的发展和计算机体系结构等方面的改进,d s p s 芯片的 功能越来越强大,使信号处理系统的研究重点又重新回到软件算法上,而不再象过去那样 过多地考虑硬件可实现性。而且随着d s p s 运算能力的不断提高,能够实时处理的信号带 宽也大大增加,数字信号处理的研究重点也由最初的非实时应用转向高速实时应用。 t i 公司推出的t m s 3 2 0 c 6 0 0 0 ( 以下简称c 6 0 0 0 ) 系列d s p s 将数字信号处理器的处理能 力提高到了一个新的高度。c 6 0 0 0 系列本身在芯片设计上瞄准的是多通道无线通信和有线 通信的应用领域,例如无线3 g 基站、无线局域网、语音识别、多媒体网关、专业音频设 备、m o d e m 池以及x d s l 系统等。c 6 0 0 0 系列包括c 6 2 x 、c 6 4 x 、c 6 7 x 三个子系列,其中c 6 2 x 和c 6 4 x 是3 2 位定点d s p ,c 6 7 x 是3 2 位浮点d s p 。c 6 4 x 的处理速度接近9 0 0 0 m i p s ,总体 性能比c 6 2 x 提高了1 0 1 5 倍。其中c 6 4 1 6 在6 0 0 m h z 主频下,完成1 0 2 4 点定点f f r 只要 l o i j s ,比传统的d s p s 要快1 到2 个数量级,因此在图像处理、语音处理、数据通信的领 域中有广泛的应用前景。 考虑g 7 2 3 1 语音编码器的复杂算法和c 6 4 x 高性能低功耗的优良特性,本课题采用 t m s 3 2 0 c 6 4 1 6 ( 以下简称c 6 4 1 6 ) 定点d s p s 来实现多路g 7 2 3 1 话音系统。 南京邮电大学硕士研究生学位论文前言 本文第1 章对下一代网络及媒体网关进行了简单的介绍,第2 章详细分析了i t u g 7 2 3 1 语音编解码原理,第3 章探讨了c 6 4 1 6 的特性和工作原理,并介绍了d s p 集成软 件开发环境c c s ,第4 章分析了g 7 2 3 1 仿真程序,重点讨论代码优化的关键技术,第5 章提出基于s t - b u s 总线实现多路话音系统的解决方案。 2 南京邮电大学硕士研究生学位论文 第1 章下代网络及媒体网关简介 第1 章下一代网络及媒体网关简介 1 1 下一代网络( n g n ) 传统p s t n 网络是电信网络的核心部分,其业务层与呼叫控制层紧密结合,不可分割。 基于电路交换的程控电话交换机虽然可以为广大用户提供优质的话音及增值服务,但它仍 然存在着巨大的局限性:业务种类单一,当一项新的业务需要提供时,往往需要对全网的 交换机进行改造和升级,实现难度大,周期长,成本高。因此,传统的p s t n 网络不适合传 输种类繁多的数据业务。 随着计算机和宽带网络技术日新月异的发展,芯片技术、软件技术以及计算机通信等 技术革命性地突破,使i n t e r n e t 成为全球最大、发展最快的网络,人们对通信的需求也由 语音变为对数据、图像、语音的综合需求。从市场需求和科学技术发展的角度来看,电路 交换的网络必将由分组网所替代。分组网络的业务的需求将更为复杂、更为丰富、更加个 性化。尽管i p 网络发展很快但p s t n 网络在时延,安全性上尚有比较优势,长期投资的传 统基础设施,如s s 7 信令网、智能网应用等,用户一直在使用并且会继续使用。既然原有 网络近期不会消失,那么就产生了新旧网络融合互通的问题。i p 通信技术及网络融合问题 都大大的促进了下一代网络的发展。 下一代网纠1 1 是发展中的架构,其基本点是一个建立在i p 技术基础之上,将话音、数 据、视频等多种业务集于一体的新型通信网络。它将话音和数据汇聚在同一个无缝网络中, 通过将接入、呼叫控制和电信应用程序分离的三层结构,使运营商利用现有网络提供更灵 活的适应性和更强的管理能力。主要有以下特征嘲叭小5 1 : 首先,下一代网络体系采用开放的网络构架体系,其特点是将传统交换机的功能模块 分离成为独立的网络部件,各个部件按相应的功能划分,各自独立发展,部件间的协议接 口基于相应的标准。 第二,下一代网络是业务驱动的网络,其功能特点是业务与呼叫控制分离以及呼叫与 承载分离。 第三,下一代网络是基于统一协议的分组网络。i p 协议使得各种以工p 为基础的业 务都实现互通。i p 协议也是电信网络、计算机网络及有线电视网络都能接收的通信协议, 三大网将晟终汇集到统一的i p 网络。 与传统的网络不同,下一代网络以在统一的网络架构上解决各种综合业务灵活的提供 能力为出发点,提供诸如业务逻辑、业务的接入和传送手段,业务的资源提供能力和业务 1 南京邸电大学硕士研究生学彼论文第l 章下一代嘲络及媒体阚关简介 的认证管理等服务。除此之外,业务逻辑在应用服务器上统一完成,并可向用户提供开放 的业务应用编程接口( a p i ) 。因此,在n g n 中把业务层筒和业务控制层面从传统的网络 中分离出来,而对于媒体流的传送和接入层面,n g n 将通过各种接入手段将接入的业务流 集中到统一的分组网络平台上传送。 一般认为,下一代网络在功能上可分为四层,层次结构如图1 。1 所示。 业务层 勘接入网关 、 、 图1 1 下代网络分层结构 1 ) 接入层( a c c e s sl a y e r ) 接入层的功能是将用户连接至网络,集中用户业务将它们传递至目的地,包括各种接 入手段。 2 ) 媒体层( m e d i al a y e r ) 媒体层的功能是负责将媒体转换格式,以适应在相应网络上传输,如将话音信息分割 成i p 包。 3 ) 控制层( c o n t r o ll a y e r ) 控制层提供呼叫控制和连接控制功能,实现各种信令协议的互通和转换。 4 ) 业务应用层( n e t w o r ks e r v i c el a y e r ) 业务应用层提供增值业务逻辑、业务开发平台和第三方可编程接口。 上面每个层面均包含多个网络元素,主要有软交换、信令网关、媒体网关、应用服务 器、媒体资源服务器以及智能终端等,其中软交换是下代网络中的核心技术。 4 一必 加 嚣 、一咬 棼若 嗍回 器 、 绷 、 一政 南京邮电大学硕士研究生学位论文第l 章下一代网络及媒体网关简介 目前互联网已发展成为全球的信息网络,其规模和用户数量仅次于电话网( p s t n ) 和 有线电视网,互联网的快速发展极大地改变了人们的社会、政治、经济和文化生活。从其 发展的过程来看,互联网具有覆盖全球、全方位服务、开放型系统,可支持视频、音频多 种业务等方面的特点,而这正是p s t n 所固有的缺陷( 除了覆盖全球之外) ,因此互联网 的快速发展为下一代网络带来机遇和挑战,话音与数据的融合成为网络趋势发展的必然。 1 2 软交换技术 软交换阳1 是下一代网络的控制功能实体,其基本概念是把呼叫控制功能从传输层( 媒 体网关) 中分离出来,主要完成呼叫控制、资源分配、协议处理、路由等主要功能,同时 可以向用户提供现有电路交换( c s ) 所能提供的所有业务,并向第三方提供可编程能力。 软交换支持多种协议和应用,利用开放式体系结构实现分布式通信与管理,具有良好 的结构扩展性,设备占地面积小和机房空间利用效率高。采用软交换后可以卸载或旁路i p 拨号业务,减轻电路交换网的压力,代替传统电路交换网的汇接局和端局。其运营成本将 大幅度降低,投资回报期明显缩短,对业务量变化的敏感性较低,因此抗风险能力比较强。 如果话音网和数据网融合,那么无论是初始成本还是运营成本都会大幅度降低,而且具有 更丰富的呼叫特性和应用以及可扩展性。软交换采用了开放的体系结构,即采用标准接口 和开放式应用编程接口,特别是其上面应用层和媒体控制层已经与媒体层硬件分离并纳入 开放的标准的计算环境。这种独立于硬件的平台可以有利于网络运营商灵活选择网络各层 最佳的设备,实现不同设备兼容与互通操作,极大地加速新业务和新应用的开发、生成和 部署,增强网络运营者和业务提供者的竞争地位和竞争能力 1 3 媒体网关技术 媒体网关是软交换网络中的重要组成部分,在软交换网络中,媒体网关是分组网络和 外部网络( 如p s t n 、移动网络等) 之间的接口,它负责不同类型网络之间的媒体信息交 换。媒体网关的主要作用是将各种用户或网络的媒体流综合地接入到i p 核心网中。媒体 网关处于传输平面,它与处于汇集层的路由器和交换机共同完成话音信号在网络中的传 输。由于课题研究需要,下面就媒体网关的关键技术进行简单介绍。 1 3 1 媒体网关相关技术 媒体网关是n g n 中处理用户终端接入或传统电路交换( c s ) 中继接入的必要接口设备, 所有的业务都要通过它来实现,其性能的好坏直接决定了今后n g n 网络提供业务的服务 质量。下面是媒体网关的几种关键技术。 1 ) 分组话音技术 南京邮电大学硕士研究生学位论文第l 章下一代网络及媒体网关简介 要在基于i p 分组网络上传输话音,终端接入媒体网关必须将模拟的信号转换成一定 长度的数字化话音分组,而中继媒体网关也需要将电话电路时隙信号转化为在i p 网络上 传输的话音格式。媒体网关采用“存储一转发的方法,以分组的形式在分组网络上进行 交换和传输,即为分组话音技术。分组传输特别适合突发特性的数据传送,网络利用率较 高。 2 ) 话音编码技术 下一代网络的核心传输网发展方向是i p 网络。i p 网络是分组网络,网络状况变化比 较大,在分组网络中保证话音的传输质量要靠多种技术来实现。对话音进行编码传输技术 是其中的重要技术之一,不同的话音编码具有不同的传输速率和不同的声音质量。根据网 络状况选择不同的话音编码格式可以改进网络状况,提高话音传输质量。对于视频传输, 也存在同样的情况。 3 ) 高速数据总线技术 中继网关设备一般作为局端设备使用,使用时为了达到高端口密度、支持大容量线速 交换、提高内部数据传输速度、支持热插拔、降低话音包在网关内的传送时延,采用高速 数据总线技术。媒体网关的总线用来提供用户接入模块、d s p 模块、核心网接口模块之间 交换内部数据。目前中继媒体网关采用的总线标准有s c s a 、m v i p 、h i 0 0 、h 1 1 0 等 4 ) i v r 技术 i v r 即交互式话音应答,可用来提高呼叫服务的质量并节省人工费用。采用i v r 技术 可以根据用户输入的内容来传递并处理有关的信息。 集中式i v r 是较早出现的i v r 技术,但由于其在网络上需要往返的传送提示信息造 成了大量的开销,为了保证话音质量,就得提供更多的带宽。而分布式i v r 体系把传统 话音提示的功能分布到基于i p 的网络中,节省了往返传送开销。 6 南京邮电大学硕士研究生学位论文 第2 章i t u ( 2 7 2 3 1 语音编解码原理 第2 章i t ug 7 2 3 1 语音编解码原理 2 1g 7 2 3 1 算法概述 ( 2 7 2 3 1 协议标准【7 】是国际电信联盟( i t u t ) 于1 9 9 6 年推出的面向多媒体通信的低码 率语音编码标准。他采用了目前流行的c e l p 算法,具有参数编码和波形编码的优点,在 低码率下能达到较高的合成语音质量。g 7 2 3 1 算法包含5 3k b i t s 和6 3 k b i t s 两种码速率。 在帧边界处两种速率之间可以进行切换。同时,在附录a 中还提供对无声语音帧的检测, 以及在无声时进行舒适噪声填充的功能,为系统设计者提供了附加的灵活性。g 7 2 3 1 算法 也能对音乐和其他声音信号进行压缩,但是对于语音信号的处理效果最佳。 该算法的主要特点如下: 1 比特率 该编码器是一种双速率语音编码器,可以工作在5 3k b i t s 和6 3 k b i t s 。两种速率的编码 器允许在每帧边界转换速率以实现变比特率传输。 2 帧结构 语音信号的采样率为8 k h z ,3 0 m s 为一帧。共2 4 0 个采样值。编码处理时被分为4 个子 帧,每个子帧为6 0 个样值,时延7 5 m s 。 3 比特分配 表2 - 1 列出了高速率和低速率时的比特分配表。两种编码的主要不同在于固定码本脉冲 的位置和幅度的编码方式 编码参数子帧0子帧1子帧2子帧3总数 l p c 项 2 4 自适应码本延迟 7 2721 8 增益 1 21 21 2 1 24 8 脉冲位置 2 0 1 82 01 87 3 脉冲符号 656 52 2 g r i d 项目 11114 总计 1 8 9 ( a ) 6 3 k b i t s 编码算法的比特分配 编码参数子帧0子帧1子帧2子帧3 总数 l p c 项 2 4 自适应码本延迟 7272 1 8 增益 1 21 21 21 24 8 脉冲位置 1 21 21 21 2 4 8 脉冲符号 4 4441 6 g r i d 项目 11 1 1 4 总计 1 5 8 ( b ) 5 3 k b i t s 编码算法的比特分配 表2 1 ( 2 7 2 3 1 语音编码器的比特分配 7 堕壅坚皇盔堂堡主塑塑生堂垡丝塞箜! 童! 卫! 垒! 望:! 量童塑堡璺堕墨 4 工作原理 编码器采用的是线性预测合成分析法,并使用了矢量量化,感知加权及后滤波等多种 语音信号处理技术。在高速率模式下,其激励信号的固定码本部分采用多脉冲最大似然量 化( m p m l q ) ,在低速率模式下,激励信号的固定码本部分采用自适应码激励线性预测 量化( a c e l p ) 2 2g 7 2 3 1 编码器 编码器采用线性预测合成分析编码方法,使感知加权误差信号最小。一次处理一帧, 共2 4 0 个样点。其处理流程框图如图2 1 所示。输入的语音要经过三部处理。每帧( 2 4 0 个采 样点) 先经过高通滤波以去掉直流分量,然后分成4 个子帧,每子帧6 0 个采样点。用线性预 测分析法对语音信号进行短时预测分析,对每个子帧用加窗后的语音信号计算其l p c 的1 0 阶滤波器系数,这4 个子帧的l p c 系数将用来建立短时感知加权滤波器,这个滤波器作用于 整个帧并且得到感知加权信号。最后一子帧的l p c 滤波器系数还将被转换成l s p 系数,然后 使用预测分裂矢量量化器( p s v q ) ( p r e d i c t i v es p li tv e c t o rq u a n t i z e r ) 量化。 图2 1 编码器 对每两个子帧( 1 2 0s a m p l e s ) ,使用加权语音信号计算开环基音周期。这个基音预测是 在1 2 0s a m p l e s 基础上计算的,此基音周期的搜索范围是4 2 - 1 8 1 个样值。 8 里塞墅皇丕堂婴主婴塑生堂篁望塞 蔓! 童! 型鱼z ! ! :! 重量塑堡塑堕里 计算加权合成滤波器的冲激响应,利用前面计算出的估测基音周期l o l ,建立一个谐波 噪音整形滤波器。将l p c 合成滤波器、感知加权滤波器和谐波噪声整形滤波器级联到一起 得到加权合成滤波器的冲激响应。 使用开环基音周期估值l 和上面得到的合成滤波器响应,建立一个五阶线性闭环基音 预测器,对输入信号进行长时预测分析,其目标矢量是合成滤波器的零输入响应和原始语 音之间的一次残差经共振峰感知加权、谐波噪声整形后的值。闭环基音周期在开环基音周 期的修正范围之内搜索。从最初的目标矢量中减去经过基音周期预测器的输出语音信号得 到残差信号,作为下面随机码本搜索的目标矢量。 对经过长时预测后的二次残差信号进行估测。高速率采用多脉冲最大似然量化激励 ( m p m l q ) ,低速率采用代数码本激励线性预测( a c e l p ) 。此时码本搜索是对固定的随机码 本的搜索。 下面根据图2 1 ,对协议中主要模块的算法进行详细介绍。 2 2 1成帧 声码器的输入信号是连续的1 6 b i t 线性p c m 数字码流,图中用y n 表示,首先将y n 转 化成帧,2 4 0 个样点为一帧,用s n 表示。然后,将帧均分成两部分,每部分1 2 0 个样点, 用来进行基音预测计算。最后,将这两部分再次均分,因此,每帧最终被分为四个子帧, 每个子帧有6 0 样点。 2 2 2 高通滤波器 1 6 b i t s 的线性p c m 数字码流被分帧后。编码器按帧处理数据。每帧数据先通过一个高 通滤波器以去除直流分量。滤波器的传输函数为: 日妒再i - - z - i 1 2 8 ( 2 1 ) 滤波器的输出为x n n | l 玉。3 9 2 2 3l p o 分析 去掉直流成分后,语音需要加窗,此处采用汉明窗,窗长为1 8 0 点,加在每一子帧的 中心。然后计算加窗后的信号的自相关值,共为1 1 个。为了展宽频带,增加信噪比,需要 对自相关系数进行加权处理。对于r i o ,利用白噪声校正因子1 0 2 5 1 0 2 4 进行处理,表达 式为:r 0 = r 0 ( 1 + 1 1 0 2 4 ) 。其余1 0 个自相关系数分别乘以二项窗系数,二项窗系数表 如下所示。 9 南京邮电大学硕士研究生学位论文 第2 章i t u g 7 2 3 i 语音编解码原理 i i2345 67891 0 l0 9 9 9 4 0 9 9 7 80 9 9 5 0o 9 9 l l0 9 8 6 20 9 8 0 20 9 7 3 1 0 5 6 5 00 9 5 5 90 9 4 5 9 表2 2 二项窗系数表 最后,对于每个子帧利用修正后的自相关系数,采用传统的l e v i n s o n d u r b i n 递归算 法计算1 0 个l p c 系数a 。,阳1 并利用这些l p c 系数构造短时加权滤波器。l p c 合成滤波器定义式如 下: e ( z ) = 1 。蔷矿7 3 ( 2 2 ) 其中,i 代表子帧的序号。a 。,代表每一子帧的1 0 个l p c 系数 2 2 4l s p 量化器 : 为了减少编码参数,每子帧只对第三子帧的l p 系数进行量化,其它子帧利用帧间相关 性通过插值得到。由于l p c 系数有较宽的动态范围,并且在合成滤波器中具有不稳定性, 因此它不适合直接量化。l s p 参数在数学角度上完全等价于l p c 系数,但是因为它是频率参 数,能使音质劣变量限制在最小,所以g 7 2 3 1 标准将l p c 参数转换成l s p 参数后,再进行量 化。在计算l p c 时将l p 系数先进行频带展宽,然后将该系数转换为l s p 系数,最后应用预测 分裂矢量量化( p s v q ) 。计算l s p 系数的具体方法如下。 1 ) 通过沿单位圆搜索,并且在零点位置处内插,l p c 系数 a j i - 1 1 0 被转化成l s p 系数 p a 小 求线谱对系数的基本方法如下 p ( z ) = l + a z 一1 + + p s z 一5 + p s z - 6 + + p l z 一1 0 + z 一1 1 q ( z ) = 1 + g l z 一1 + + 9 5 z 一5 + 吼z “+ + 9 1 z 一! 。+ z - 1 1 ( 2 3 ) 其中: a = - a t 一口l l 一,1 f 5 q f = 一a f + a i l l1 i 5 l s p 频率是下面两个方程的根。w 将位于0 与2 5 6 之间。 p ( 们= c o s 5 ( z r w 2 5 6 ) + p :c o s 4 ( n w 2 5 6 ) + + p :c o s ( t r w 2 5 6 ) + p :2 q ( w ) = c o s 5 ( :r w 2 5 6 ) + q :c o s 4 ( z r w 2 5 6 ) + + g :c o s ( z r w 2 5 6 ) + q ;2 其中p 和q 的值如下计算 矗= q := 1 l n 南京邮电大学硕士研究生学位论文第2 劳i t uq ! 垫:l 量童绳堡旦堕堡 a2 一只一1 十乃l f 5 g := g :一i + g l 1 i 5 通过在0 虱j 2 5 6 之间搜索w 可以得至u l s p 参数。如果在这个范围内没有找到1 0 个根,将使 用前一帧的l s p 参数。 2 ) 从l s p 参数p 中减去直流成分p k 。得到去直流的l s p 参数p 3 ) p n 表示当前第n 帧需要量化的l s p 参数,参表示上一次解码后的l s p 矢量:_ n 表示去 直流的预测l s p 参数:e n 表第n 帧i 拘l s p 残差矢量 = p t ,。p 2 ,。卸o n 】 ( 2 4 ) 磊- - 7 = i x ,n 磊n 幅。,】 ( 2 5 ) 露一一p d c 乘以一阶固定的预测因子b = ( 1 2 3 2 ) ,得到瓦。 两= 6 ( a l 一趾) ( 2 6 ) 巳2n n ( 2 7 ) a 一。的初始状态为肠。 4 ) 未量化的l s p 矢量e ,量化的l s p 矢量露,残差矢量,分别被分成3 个子矢量, 它们的维数分别为3 ,3 ,4 。对残差的每个子矢量使用8 b i t s 、含2 5 6 个码字的码本进行量 化。所以l s p 的量化值将是2 4 比特。第m 个子矢量码本的最佳索引z 是使误差均值与。最小的 索引值这里使用的失真测度是欧氏距离加权均方误差 f 3 m - - 0 k = 3 聊= 1 成r = a 咖p 纛哦勘 【4 m - - 2 ( 2 8 ) 磊,7 = 【觅细甄。嚷加】 o 胁21 l 2 5 6 ( 2 9 ) 2 + p o c 2 p m + e r n + p d c ( 2 1 0 ) p t ,肌2p m + p z x :+ e t 。m ( 2 儿) 与,肘= ( 一磊棚) r ( p :一西。肘) = ( 一弓,朋) r 既( 一弓,。) ( 2 1 2 ) 其中,e 。l z 是第m 个分裂残差l s p 码本的第,索引值所对应得码本值,是对角线加权 矩阵,它从未量化的l s p 系数矢量p :得到的。我们知道,加权的目的是为了使得在判别中 起重要作用的项在误差测度式中占较重的比例。由于l s p 参数能反映声道幅度谱的特点, 南京邮电大学硕士研究生学位论文第2 章i t ug 7 2 3 1 语音编解码原理 在幅度大处各z 的分布较密,反之则较疏。这尤其能表现幅度谱中共振峰的特性,所以对 于z 密处加权较大,z 疏处加权较小。 形,2 面再瓦1 而2 9 5 ) 选择的索引值被发送到信道中。 ( 2 1 3 ) ( 2 1 4 ) 2 2 5 共振峰感知加权滤波器 为了获得最佳的主观听觉效果,在语音编码中往往d i a 感知加权滤波器w ( z ) n 们。此时z 变换域的重建语音信噪比可表示为 s n r ( z ) = l s ( z ) 1 2i a ll w ( z ) 1 2 】 ( 2 15 ) 将z = p p 代入上式,得到信噪比的频率表达式: s n r ( p 抄) = i s ( e 少) 1 2 t a i w ( e 一) 1 2 】 ( 2 1 6 ) 式中:( z ) = a ( z y i ) l a ( z r 2 ) ,0 厂2 n 1 ;a ( z ) 为语音的共振峰模型函数,其系 数就是l p c 参数嘞,s ( z ) 为语音信号的频谱,为量化噪声,具有类似高斯白噪声的谱特 性。由此可见,上式中的量化噪声谱l 矿 p ) 1 2 与语音谱i s 归) 1 2 有相似的功率谱结构, 这样就能利用人耳的掩蔽效应,达到理想的感知效果。本系统中的共振峰感知加权滤波器 是一个1 0 阶滤波器,其转移函数为: l 一毛z 形( z ) = 0 i 3( 2 1 7 ) 1 一毛z 吖_ j = i 其中选取= 0 9 ,吃= 0 5 输入语音帧 x 【玎 ) 脚i 2 3 ,被分成四个子帧,每个子帧通过相应的w i ( z ) 滤波器,得到加 权的语音信号 厂 ,2 晓州,- 2 ,。 2 2 6 基音估测器 基音估计器用来确定开环基音估计值,该值表示的是语音信号中的周期分量。由于 g 7 2 3 1 的帧长较长,所以每一帧计算两个基音估计值,前两帧和后两帧各计算一次,可以 使闭环基音搜索的精度更高。计算时,通过求取感知加权语音信号f n 的互相关最大值 1 2 。一一 。一一 = o j o 形 磁 南京邮电大学硕士研究生学位论文第2 章i t ug 7 2 3 1 语音编解码原理 方法,来估算基音周期。 ( ) =1 1 9 f n - j f n - j n = o 1 8 j 1 4 2 ( 2 1 8 ) 基音周期的搜索范围是( 1 8 ,1 4 2 ) ,在该范围内找到使互相关最大的索引j 作为该两个 子帧的开环基音周期。 2 2 7 谐波噪声整形 。 经过感知加权后的语音信号将进行谐波噪声整形, 为了提高合成语音的质量。滤波器的传输函数为: 只( z ) = l - f l z 屯 降低共振峰区的信号幅度,这也是 ( 2 1 9 ) 在这个函数中,需要确定两个参数: 1 ) 确定最佳整形周期l : 取使相关值c 尸矽( ,) 最大的为三,三的搜寻范围是k 前后三个样值内。只考虑平方前 ( ) 取正值的情况。q 矿( _ ,) 的最大值定义为q n ( j ) = 厂【门】印一刀 ( 舻可止 丢厂疗一1 厂甩一】,厶_ 厶( 2 2 1 ) 其中,厶= k - 3 ,厶= k + 3 2 ) 确定b 最佳滤波增益器吒,定义为: f i n f n - l = 昔立一 善m 一讣m 一刀o 1 加权信号 九,2 】) 脚1 5 ,的能量为: 5 9 2 e = 厂( 门) n = o 所以系数: 叶3 1 苫删。篡老兆。 ( 2 2 2 ) ( 2 2 3 ) ( 2 2 4 ) 计算完滤波器系数后,共振峰感知加权语音信号f n g l 过尸( z ) 就获得目标信号w i n 】。 南京邮电大学硕士研究生学位论文第2 章i t ug 7 2 3 1 语音编解码原理 鼻( z ) = l f l z 屯 行】= 厂【刀卜f l f n - l ,0 s n s 5 9 ( 2 2 5 ) ( 2 2 6 ) 2 2 8 冲击响应和零输入响应 我们知道,在c e l p 原理中,合成语音j f 可表示成激励信号与滤波器冲激响应的卷积加 上它的零输入响应s f ( 。h 为合成滤波器。u 是与基音周期有关的激励,v 是非周期性激励。 j f = j 叩+ ( “+ v ) 日i i n ( 2 2 7 ) 为了求解最佳激励参数u ,就必须求s f ( ,然后得到一次残差。 按下面公式计算级联滤波器s ;( z ) ,其中毫( z ) 是量化后的l p c 系数构成的合成滤波器。 形( z ) 是共振峰感知加权滤波器。p :( z ) 是谐波噪声整形滤波器。 s i ( z ) = e ( z ) 彬( z ) ( z ) ,0 i 3 : ( 2 2 8 ) 这样,墨( z ) 可看成考虑了经过感知加权、谐波噪声滤波处理的合成滤波器,其冲激响 应为s ( z ) 。零输入响应为z ( n ) ,即本子帧未输入,但由于滤波器的原始状态不为0 ,而使 得即使没有输入,级联滤波器的各级的状态也并不为0 ,所以仍然有输出响应。目标矢量 t ( n ) = w ( 刀) z ( 万) ,即( s - s f ( o ) ) 木w ( 刀) b ( 甩) 将被用来作闭环基音预测,以得到最佳周期性 激励。闭环基音周期预测的过程也是一个自适应码本搜索的过程。对于两种速率,自适应 码本的建立和搜索方法是相同的。 2 2 9 自适应码本搜索 在自适应码本阶段,所使用的方法是按照最小均方误差准则,在开环基音延迟l 珊的 附近,寻找更为精确的基音延迟,并将闭环基音提取和计算自适应码本的贡献结合在一起, 用一个5 阶预测器完成。基音预测器的使用导致了闭环基音延迟和基音预测器量化增益的 产生,预测器增益采用矢量量化技术 在码本搜索时,首先采用闭环的方法在延迟为开环最佳基音周期的 一1 ,1 范围内搜索 出偶子帧的闭环基音延迟,采用7 位编码。对奇子帧,由于前后帧的相关性,闭环基音延 迟与前一子帧基音延迟可能相差一1 ,0 ,+ 1 或+ 2 ,故仅用2 b i t 进行编码。量化和解码的基音 延迟为厶:,基音预测器增益分别用8 5 或1 7 0 项的码本进行矢量量化,高速率且厶小于5 8 情 况下用8 5 项的码本,其余用1 7 0 项的码本。从目标 f 聆吨= 。巧,中减去基因预测器 p 【n 】) 删1 ,、, 成分,就得到了用于固定码本计算的残差信号 r 【门耽毋。,表示为“刀】- f 【门 - p n 】。 具体的搜寻参数的步骤如下: 1 4 堕室坚皇盔堂夔主婴壅笙堂垡丝塞蔓兰里! 卫! 鱼! 垫:! 堕重塑堑堡堕里 1 ) 利用开环基音估测值作为预测的基准值,寻找最佳闭环基音周期l a g 哪。对于偶帧 ( o ,2 ) 来说,l a g 印t 的搜索范围为l o l 1 ,对于奇帧( 1 ,3 ) 来说,l a g o p t 的搜索范围为 【l o l - 1 ,l o l + 2 】,l o l 为开环基音估测值。 2 ) 对于偶帧,如果l o l 为基音周期允许的最小值1 8 ,则调整l o l ,使l o l = l o l + l :若l o l 为基音周期允许的最大值1 4 2 ,则调整l o l ,使l o l = l o l - 1 3 ) 令搜索l a g = l o l 一1 4 ) 寻找预测器的输入矢量p i t c h e x c n 】。在本算法中,预测器的输入矢量是从本子帧前 己得到的激励参数p r e e x c n 】选择。此激励信号包括自适应码本激励和固定码本激励。五阶 预测器的传输函数为: z 一垤一2 + 届z 一姆一1 + 展z 垤+ a z 一垤+ 1 + p 4 z 一垤“ ( 2 2 9 ) 即预测值p i t c h e x c n 】为: p i t c h e x c n 】= 属p r e e x c n t a g 一2 】+ 屈p r e e x c n - l a g - 1 】+ 殷p r e e x c n l a g + 属p r e e x c n l a g + 1 】+ 屈p r e e x c n l a g + 2 】 = p q p r e e x c o n + p 、p re e x c l n + | b z p re e x c 2 n + f 1 3p re e x c 3 n + 4p re e x c 4 n ( 2 3 0 ) 那么p i t c h e x c n 对经过加权、谐波噪声整形后的合成滤波器的贡献是: p m = p i t c h e x c n 幸w i n 木p m ( 2 3 1 ) 5 ) 寻找d 。,p ,d :,p ,p 。最佳码本矢量量化值,使残差r 【,z 】= t n l p
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初三历史教学工作方案
- 网购促销活动策划方案
- 临床定期考核人文试题及答案2025新版
- 临床病历医学考试题2025新版
- 建筑施工企业代缴社保及安全生产责任书
- 十年情同学聚会活动方案
- 施工设计方案
- 中秋节介绍课件
- 父亲节小学生活动策划方案
- 美术老师学年工作方案
- 2025年四川省高考生物试卷真题(含答案解析)
- 2025年浙江省中考数学试卷真题(含官方标准答案)
- 2025版国家开放大学法学本科《知识产权法》期末纸质考试总题库
- GA/T 947.2-2015单警执法视音频记录系统第2部分:执法记录仪
- 职业技能培训鉴定教材编写规定
- 喷雾干燥器课程设计终稿
- 2023年潍坊市交通投资有限公司招聘笔试题库及答案解析
- 住院医师规范化培训小讲课教学设计课件
- 酸化土壤改良技术规范DB50-T 1146-2021
- 英威腾GD变频器调试说明
- 季节性施工专项施工方案(常用)
评论
0/150
提交评论