(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf_第1页
(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf_第2页
(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf_第3页
(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf_第4页
(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(电路与系统专业论文)g729语音编解码算法及dsps实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 低速率语音编码技术在带宽与功耗有限的应用中 如个人通讯系统 占有很重要的地位 g 7 2 9 代数共扼结构码激励线性预测c s a c e l p 被国际电信联盟 i t u 确定为8 k b s 语音编码标准 它采用了特殊的码 本结构 简化了码本的搜索过程 具有低延迟 低计算复杂度和高语音 质量的优点 本文讨论了g 7 2 9 算法与其在d s p 芯片上的仿真实现 d s p 芯片 也称数字信号处理器 是一种针对数字信号处理而特别设计的微 处理器 与通用微处理器不同 数字信号处理器采用了哈佛总线结构或 改进哈佛总线结构 具有高度的并行性 为了快速完成乘法计算在c p u 中增设了硬件乘法单元 这些特点使它可以胜任实时高速的数字信号处 理任务 在最近十几年中 d s p 芯片技术发展迅猛 芯片的计算能力不 断提高 功耗和成本不断下降 开发环境也日臻完善 在单片d s p 处理 器上实现语音信号编解码是十分便利的 另外 本文还讨论了g 7 2 9 的 附件a n n e xb a n n e xb 提出了一种静音压缩算法 v a d 它将语音信 号分为话音信号和背景噪声信号 对这两种信号采用不同的编码方式可 以进一步降低语音编码速率 关键字 c s a c e l p d s p 处理器 静音压缩 流水线 编码速率 a b s tr a c t l o wb i t r a t es p e e c hc o d i n gt e c h n i q u e sp l a y a n i m p o r t a n tr o l e i n a p p l i c a t i o n w h e r eb a n d w i d t ha n dp o w e ra r el i m i t e d s u c ha s p e r s o n a l c o m m u n i c a t i o ns y s t e me t c g 7 2 9 c s a c e l p h a sb e e ns e l e c t e db yi t u t a s8 k b ss p e e c hc o d e rs t a n d a r d c s a c e l ps p e e c hc o d e ru s eas p e c i a l c o d e b o o ks t r u c t u r et os i m p l i f yt h es e a r c hp r o c e d u r eo fc o d e b o o k h a st h e a d v a n t a g eo fl o wb i t r a t e l o wc o m p l e x i t y a n dh i g hs p e e c hq u a l i t y t h e p r i n c i p l e s a n di m p l e m e n t a t i o no ft h eg 7 2 9 a l g o r i t h mo nd s pp r o c e s s o r s t i m u l a t o ra r ed i s c u s s e di nt h i sp a p e r d s pp r o c e s s o ri sd e s i g n e df o r r e a l t i m ed i g i t a ls i g n a lp r o c e s s d i f f e r e n tf r o mg e n e r a lm i c r o p r o c e s s o r s d s p sh a v eh a r v a r da r c h i t e c t u r eo re n h a n c e dh a r v a r da r c h i t e c t u r ea n du n i t s o fd s p sc a nw o r ki np a r a l l e l t op e r f o r mm u l t i p l i c a t i o ni nh i g hs p e e d d s p sa l s oi n c l u d eh a r d w a r em u l t i p l i e ri ni t sc p u w i t ht h o s ef u t u r e s d s p s c a l lu n d e r t a k er e a l t i m eh i g h s p e e dd i g i t a ls i g n a lp r o c e s st a s k sw i t he a s e i n r e c e n tt e ny e a r s g r e a tp r o g r e s sh a sb e e na c h i e v e di nd s pp r o c e s s o r t e c h n o l o g y c o m p u t a t i o na b i l i t yk e p ti m p r o v i n g c o s ta n dp o w e rf e l l m o r e e f f i c i e n td e v e l o p m e n tt o o l sc o m eo u t i ti sc o n v e n i e n tt oi m p l e m e n ts p e e c h c o d e ra n dd e c o d e ro nas i n g l ed s p sc h i p g 7 2 9a n n e xbi sa l s od i s c u s s e d i nt h ep a p e r a n n e xbi n t r o d u c eav o i c ea c t i v i t yd e c i s i o n v a d a l g o r i t h m w h i c hc l a s ss p e e c hs i g n a la sv o i c es i g n a la n db a c k g r o u n dn o i s es i g n a l c o d i n gt h et w oc l a s s e ss i g n a lw i t hd i f f e r e n tw a yc a nd e c r e a s et h eb i t r a t e f u r t h e r k e y w o r d c s a c e l p d s pp r o c e s s o r s i l e n tc o m p r e s s i o n p i p e l i n e b i t r a t e l l 湖南大学硕士学位论文 1 1d s p 芯片 第一章引言 d s p 芯片 也称数字信号处j 里器 d i g i t a ls i g n a lp r o c e s s o r s 是一种针对数 字信号处理而特别设计的微处理器 它可以实时快速地完成各种数字信号处理 算法 与一般的通用微处理器相比 d s p 芯片在结构上具有的特点 如硬件乘 法器 专门的乘加指令m a c 哈佛总线结构等 使d s p 芯片具有很强的信号 处理能力 在相同的主频下 d s p 芯片的信号处理速度比同一集成度的通用微 处理器快2 3 个数量级 近年来 随着d s p 芯片价格的下降 以及针对d s p s 的高效率c 编译器的 出现 d s p s 获得了广泛的应用 除了在传统的高速实时信号处理领域如雷达信 号处理 图像声音信号处理外 d s p s 也开始应用于电机控制 u p s 电源 p d a 传真等原本由微控制器占据的领域 业内人士预言 d s p s 将是未来集成电路 中发展最快的电子产品之一 并将成为电子产品更新换代的决定因素 本文将 讨论d s p s 在语音信号编码中的应用 1 2 码激励线性预测编码 c e l p 语音编码技术的研究开始于上世纪3 0 年代d u d d l e y 发明声码器 但是直 到上世纪7 0 年代中期 除了p c m 脉冲编码调制 和a d p c m 自适应差分脉 冲编码调制 取得较好的进展外 中低比特率语音编码一直没有大的突破 在 1 9 8 0 年美国政府公布2 4 k b s 的线性预测编码标准算法l p c 1 0 后 线性预测编 码成为研究的焦点 先后出现了m p l p c 多脉冲激励线性预测编码 c e l p 码 激励线性预测编码 算法 目前 c e l p 在低速率语音压缩算法中居于统治地 位 北美的i s 9 5 i s 9 6 日本的j d c 半速率标准以及i t u 的g 7 2 3 g 7 2 8 2 7 2 9 采用的都是c e l p 算法 在后面的章节中将重点讨论c e l p 算法的一种 c s a c e l p 共轭结构代数码激励线性预测编码 与l p c 类似 c e l p 用一个全极点模型模拟人的声道特性 用一定的激励 序列去激励这个声道模型来合成语音信号 它与l p c 的不同之处在于激励信号 的选取 l p c 的激励信号为周期序列或高斯白噪声序列 而c e l p 用一个自适 湖南大学硕士学位论文 应码本中的码矢量来逼近语音的长时周期性 基音 结构 用一个固定的随机 码本的码矢量来逼近语音信号经短时 长时预测后的余量信号 从两个码本中 搜索出来的最佳码矢量 乘以各自的最佳增益相加其和即为c e l p 的激励信号 c e l p 克服了传统声码器的缺点 具有压缩率高 语音质量较好 m o s 评分3 5 以上 的优点 在低速率语音编码中获得广泛的应用 c e l p 编码器需要大约 2 0 m i p s 5 0 m i p s 的计算能力 t i 公司推出的c 5 4 x 系列d s p 芯片的计算能力高 达1 0 0 m i p s 以上 最新的c 6 0 0 0 系列更是高达2 0 0 0 m i p s 可以在一片d s p 芯 片上实现一路或多路语音信号的编解码算法 c e l p 等中低速率语音编码算法的出现使人们梦寐以求的在普通电话带宽 信道中传输数字电话的愿望变成现实 使得移动通讯 v o l p 等应用成为可能 因此研究语音编码技术是很有意义的 它对未来的多媒体通讯以及个人通讯系 统的发展起重要的推动作用 湖南大学硕 学位论文 第二章d s p 数字信号处理器 2 1 d s p s 的出现和发展 d s p s 技术的发展经历了三个主要阶段 2 0 世纪7 0 年代 8 0 年代和9 0 年 代 目前已发展到第五代产品 2 0 世纪7 0 年代的数字信号处理系统由分立元 件组成 包括部分处理器 线性电路模拟前端 a d 转换器 外围接口电路 组合电路以及可编程逻辑阵列等 当时的数字信号处理的研究局限于理论范围 和医疗电子 生物电子和地球物理等狭窄的应用领域 进入2 0 世纪8 0 年代 随着数字信号处理技术和计算机应用范围的不断扩大 以及集成电路制造工艺 的提高 出现了集成在单个芯片上的数字信号处理器 简称d s p s 2 0 世纪9 0 年代是数字信号处理技术飞速发展的时期 d s p s 的性能指标不断提高 而价格 却不断下降 同时d s p s 也获得了越来越广泛的应用 成为不少新兴科技的主 要推动力 其中包括通信 多媒体系统和消费电子等等 今天 随着全球信息化和因特网的普及 多媒体技术得以广泛应用 尖端 科技向民用领域迅速转移 数字技术大范围地进入消费电子类产品 使d s p s 不断更新换代 价格大幅度下降 各种开发工具日臻完善 从而使它成为最有 发展和应用前景的电子器件 据国际著名市场调查公司f o r w a r dc o n c e p t s 在 2 0 0 0 年发布的一份统计和预测报告显示 目前世界d s p 产品市场正以每年3 0 的增幅大幅度增长 其增长速度比整个半导体工业快5 0 倍 预计到2 0 0 7 年 全球d s p 市场总销售额将达5 0 0 亿美元 2 2d s p s 的特点 数字信号处理任务通常需要完成大量的实时计算 如f i r 滤波和f f t 算法 其中的数据操作具有高度重复的特点 特别是乘加和 m a c 操作y a b c 在 滤波 卷积和f f t 等常用的数字信号处理算法中用得最多 d s p s 在很大程度 上就是针对数字信号处理的运算特点设计的 与通用微处理器相比 d s p s 在寻 址和计算能力等方面作了扩充和增强 在相同的时钟频率和芯片集成度下 d s p s 完成f f t 算法的速度比通用微处理器要快2 3 个数量级 例如 对于1 0 2 4 点的f f r 算法 时钟相同 集成度相仿的i b mp c a t 3 8 6 与t m s 3 2 0 c 3 0 运 湖南大学硕士学位论文 算时间分别为0 3 秒和1 5 毫秒 速度相差2 0 0 倍 1 算术单元 硬件乘法器 乘法操作是d s p s 的一个主要任务 在通用微处理器中通过微程序实现 的乘法操作需要1 0 0 多个时钟周期 非常费时 因此在d s p s 内部都设有硬 件乘法器来完成乘法运算 这是区别d s p s 与通用微处理器的一个重要标志 4 1 并行功能单元 为了进一步提高速度 数字信号处理器内设置多个可并行操作的功能 单元 a l u 乘法器 地址产生器等 如在t i 公司的c 6 0 0 0 系列的d s p s 内部有8 个功能单元 即两个乘法器和六个a l u 由于多功能单元的并行 操作 使d s p s 在相同的时间内能够完成更多的操作 提高了程序的执行速 度 定点d s p s 还设有移位单元 可以在不增加操作时间的前提下对操作数 或操作结果任意移位 2 总线结构 通用微处理器通常采用冯 诺依曼总线结构 同一的程序和数据空间 共 享的程序和数据总线 由于总线的限制 微处理器在执行指令时 取指和存取 操作数必须共享总线 限制了指令的执行速度 对数字信号处理这样需要大量 数据处理的任务 冯 诺依曼总线结构大大的限制了系统的性能 因此d s p s 采用了具有独立程序总线和数据总线的哈佛结构 这样 取指和存取操作数就 可同时进行 许多d s p s 甚至有两套或两套以上的数据总线 这种总线结构被 称为修正哈佛结构 对于乘法或加法运算 一条指令要从存储器中取两个操作 数 多套数据总线使两个操作数个可同时取得 提高了执行效率 3 专用寻址单元 d s p s 面向的是数据密集型的应用 伴随着频繁的数据访问 如果不在地址 计算上作特殊考虑 计算地址的时间比实际的算术操作时间还要长 例如 8 0 8 6 做一次加法需要3 个时钟周期 但是产生一次地址却需要5 1 2 个时钟周期 因 此d s p s 内设有专门用于计算地址的单元 地址产生器 地址产生器与算术 单元并行工作 地址的计算不占用额外的时间 此外 地址产生器还支持位反 寻址 用于f f t 循环寻址等特殊寻址方式 4 指令系统 与密集的数据处理相对应 d s p s 提供了丰富的单周期算术运算指令 如 4 湖南丈学硕上学位论立 单周期乘 累加指令m a c 这些指令把在通用微处理器上至少需要两条指令完 成的功能 用一条单周期的指令完成了 极大地提高了d s p s 的数据处理能力 非常适合运算密集型的应用 针对数字信号处理中迭代操作多的特点 许多 d s p s 提供专门的循环指令 如m o t o r o l a 的5 6 0 0 0 系列d s p s 的d o 指令 利用 硬件实现循环控制 不增加额外的执行时间 5 流水处理 流水技术是d s p s 提高程序执行效率的一个重要手段 在处理器内 指令 的执行分为取指 解码 执行等若干阶段 每个阶段称为一级流水 利用硬件 上的并行性 若干相邻指令的不同执行阶段可以并行执行 从而提高程序执行 速度 若每一流水的执行时间为一个节拍 理想情况下 一条k 段流水能在 k n 1 个节拍内处理 条指令 其中前k 个节拍用于完成第一条指令的执行 其余n 一1 条指令的执行需要n 一1 个节拍 而非流水处理器上执行n 条指令则需要 n x k 个节拍 当指令条数1 1 较大时 流水线的填充和排空时问可以忽略不计 可以认为每个节拍内执行的最大指令数为k 但是由于程序中存在数据相关 程序分支 中断以及一些其他因素 这种理想情况很难达到 对流水操作还有 个特殊的延迟间隙问题 即如果某条指令的执行时间不 是一个时钟周期 在指令结果可用之前要插入一个或几个节拍的等待时间 称 为延迟间隙 这个编程带来了 些困难 5 1 2 3d s p s 的选择 设计d s p s 系统时 首先要根据应用的需要选择合适的d s p 处理器 选择 d s p 处理器主要考虑以下几个方面 1 数据类型 d s p s 按照所支持的数据结构类型不同分为定点d s p s 和浮点d s p s 两大类 定点d s p 进行算术处理时 使用的是小数点位置固定的有符号数或无符号数 浮点d s p s 进行算术操作时 使用的是带有指数的小数 小数点的位置随着具 体数据的不同进行浮动 定点d s p s 在硬件结构上比浮点d s p s 简单 具有价格低 速度快的特点 因而用得最多 而浮点d s p s 的优点是精度高 不需要进行定标和考虑有限字 长效应 但其成本 功耗相对较高 速度较慢 适于对数据动态范围和精度要 求高的特殊应用 2 性能 5 湖南人学硕士学位论文 d s p s 的性能是选择d s p s 的重要指标 以下是一些d s p s 常用的性能指标 7 a m f l o p s 百万次浮点操作 秒 浮点操作包括浮点乘法 加法 减法 存 储等操作 m f l o p s 是表征浮点d s p 芯片的重要性能指标 选择d s p 芯片时 要注意 厂商提供的通常是峰值指标 因此系统设计时要留有余量 m o p s 百万次操作 秒 这里的操作 除了包括c p u 的操作外 还包 括地址计算 d m a 访问 数据传输 i o 操作等 m i p s 百万条指令 秒 这是最为常用的处理器性能指标 由于d s p 芯片结构的多样性 这些指标并不能完全表征d s p 处理器的处 理能力 以m i p s 为例 t m s 3 2 0 c 6 2 0 3 采用了v l l w 甚长指令字 技术 在 3 0 0 m h z 的时钟频率下其执行速度高达2 4 0 0 m i p s 而t m s 3 2 0 c 5 4 1 6 的执行速 度最高为1 6 0 m i p s 尽管两者之间的m i p s 比值为1 5 1 在完成2 5 6 点复数 f f t 算法时 t m s 3 2 0 c 6 2 0 3 仅比t m s 3 2 0 c 5 4 1 6 快7 8 倍 这是因为v l i w 技 术采用了指令较为整齐划一的指令集 每条指令所完成的工作比通常的d s p s 指令完成的工作少 其它的性能指标也存在类似的问题 8 对于常用的d s p 算 法可以参考d s p s 厂商提供的基准 b e n c h m a r k 在系统设计时 要想得到具体 参数下的精确指标 则必须通过软件仿真器 软件评估模块等开发工具 3 存储器配置 由于d s p s 面向的是数据密集型的应用 因此存储器的访问速度对处理器 的性能影响很大 大多数的定点d s p 芯片都设有片内程序 数据存储器 与片外 存储器相比 片内存储器不存在外部总线竞争和访问速度不匹配的问题 访问 速度很快 可以有效的缓解d s p s 的数据瓶颈 充分利用d s p s 的处理能力 对 于大多数嵌入式应用 其所需的程序和数据存储器较小 利用片内存储器加少 量片外存储器的配置可以很好的满足系统的要求 但是随着应用的日益复杂化 应用系统需要更大的存储空间 一些d s p 芯片采用片内高速缓存加大的外部数 据 地址总线的配置 在满足访问速度的同时 兼顾大容量存储空间的需要 例 如t m s 3 2 0 c 6 2 1 1 c 6 7 1 1 将7 2 k 的片内存储器作为两级高速缓存使用 第一级 高速缓存采用哈佛结构 程序缓存与数据缓存分开 各占用4 k 第二级高速缓 存采用程序与数据统一的结构 大小为6 4 k 4 功耗 在便携式应用中 d s p s 的功耗是选择d s p 芯片的重要指标 大多数的d s p s 都具有功耗管理的能力 如在系统空闲时部分关闭系统时钟 关闭不需要的外 湖南大学硕上学位论文 设等 一些d s p 处理器甚至提供了通过软件控制的方式改变处理器的时钟频率 的能力 d s p s 厂商还针对便携式应用提供了工作于3 3 v 2 5 v 甚至1 8 v 电压 下的d s p 芯片 这些d s p s 的功耗比工作于5 v 下的d s p s 的功耗要小得多 要精确估计d s p s 的功耗大小是十分困难的 因为d s p s 的功耗与d s p s 上 执行的指令是相关的 大多数d s p s 厂商提供的功耗参数都是在典型情况下的 参数 在这一方面t i 公司做的不错 它提供了在不同处理器配置下d s p s 的各 种指令类型的功耗参数 使开发人员能更好的控制系统功耗 2 4d s p s 的软件开发 在d s p s 系统设计中 软件的设计对系统性能的影响是巨大的 好的d s p 代码可以充分利用d s p 芯片结构上的特点 发挥d s p 芯片的处理能力 d s p s 系统的软件设计可以采用汇编语言编程 高级语言编程 一般是c 语言 和混 合语言编程三种方式 使用汇编语言开发的优势在于可以设计出非常紧凑高效的代码 缺点是开 发周期过长 不利于维护 另一方面 所有的d s p s 厂商都提供高效的高级语 言编译器 这些编译器的编译效率大都超过9 0 高级语言开发所具有的优势 是不言而喻的 但是对于某些实时性要求高的应用 使用高级语言开发的代码 难以满足要求 在这种情况下可以采用混合语言编程方式 占用d s p s 大部分 处理能力的关键代码用汇编语言开发 非关键代码使用高级语言开发 这是目 前最流行的编程方式 2 5 下一代d s p s 的结构 最近两年 d s p 处理器的更高性能由于不能从传统结构中得到解决 因此 提出了各种提高性能的策略 其中提高时钟频率似乎是有限的 最好的方法是 提高并行性 这种并行要求产生了多种d s p s 新结构 1 v l i w 结构 这种结构的d s p s 采用一种更r i s c 精简指令集 化的指令集 并且在一 条指令周期执行多条指令 使用大的统一的寄存器堆 1 s i e m e m s 的c a r m e l p h i l i p s 的t r i m e d i a 和t i 的t m s 3 2 0 c 6 2 x x 处理器族都使用了超长指令字 v l i w 结构 c 6 2 x x 处理器每次取一个2 5 6 位的指令包 把包解析为8 个3 2 位的指令 然后把它们引到其8 个独立的执行单元 在最好的情况下 c 6 2 x x 同时执行8 7 湖南大学硕士学位论文 个指令秦这种情况下达到了极高的m i p s 率 如1 6 0 0 m i p s v l i w 结构的优点是 高性能 结构规整 潜在的易编程和好的目标编译系统 缺点是高功耗 代码 膨胀一需要宽的程序存储器 新的编程 编译困难 需跟踪指令安排 易破坏 流水线使性能下降 2 超标量体系结构 象v l i w 处理器一样 超标量体系结构并行地流出和执行多个指令 但跟 v l i w 处理器不同的是 超标量体系结构不清楚指定需要并行处理的指令 而 是使用动态指令规划 根据处理器可用的资源 数据依赖性和其他的因素来决 定哪些指令要被同时执行 超标量结构的优点是性能有大的跨越 结构规整 代码宽度没有明显增长 缺点是非常高的功耗 指令的动态安排使代码优化困 难 3 s i m d 结构 单指令多数据流 s i m d 处理器把输入的长的数据分解为多个较短的数 据 然后由单指令并行地操作 从而提高处理海量 可分解数据的能力 该技 术能大幅度地提高在多媒体和信号处理中大量使用的一些矢量操作的计算速 度 如坐标变换和旋转 s i m d 结构由于使总线 数据通道等资源充分使用 并无需改变信号处理 含图象 语音 算法的基本结构 因此s i m d 结构使用越来越普遍 s i m d 结构遇到的问题是算法 数据结构必须满足数据并行处理的要求 为了加速 循环常常需要被拆开 处理数据需要重新安排调整 通常s i m d 仅支持定点运 算 湖南大学硕士学位论文 第三章语音信号处理 3 1 语音信号的特点 语音信号有两个特点 1 语音信号的频谱分量集中在3 0 0 3 4 0 0 h z 的范围内 根据奈奎斯特采 样定理 用一个防混叠的带通滤波器将此范围内的语音信号频谱分量取出 然 后按8 k h z 的采样率对语音信号进行采样 就可以得到离散时域的语音信号 2 语音信号具有短时性 语音信号是一种典型的非平稳信号 这是因为 在语音的形成过程中发音器官也在运动中 但是这种物理运动比起声音的振动 速度来要缓慢的多 因此语音信号常常可假定为短时平稳 即在1 0 3 0 m s 这 样的时间段内 其频谱特性和某些物理特征参量可近似地看作不变 3 2 语音信号的产生 人的发声器官由三部分组成 喉 声道和嘴 喉位于气管的上端 其中有两片肌肉 称为声带 声带之间的空隙称为声 门 说话时两片声带相互靠近但不完全封闭 这样声门变成一条窄缝 当气流 通过这条窄缝时其间的压力变小 使声带完全合拢气流不能再通过 在气流阻 断时压力又恢复为正常 声带间的空隙再次形成 气流再次通过 这一过程周 而复始的进行 就形成了一串周期性的脉冲气流送入声道中 这一周期性气流 脉冲的周期称为基音周期 气流自喉向上经过口腔或鼻腔后 从嘴或鼻孔向外辐射 其间的传输通道 称为声道 声道是一个分布参数系统 它有许多自然谐振频率 在这些频率上 其传递函数具有最大值 所以声道可看作一个谐振腔 它放大某些频率而衰减 其它频率分量 这些谐振频率称为共振峰频率 简称共振峰 它是声道的重要 声学特性 共振峰由每一瞬间的声道形状决定 说话时 声道的形状不断改变 共振峰频率也随之改变 语音的频率特性主要是由共振峰决定的 在语音识别 技术中至少要考虑三个共振峰 而在语音合成中至少要考虑五个共振峰 9 l 嘴的作用是完成通过声道后的气体的向外辐射 嘴的张开形状会影响语音 频谱的形状 但是其作用较之声道而言是次要的 9 湖南大学硕士学位论文 语音信号可分为两大类 浊音和清音 w u v 发浊音时 气流通过绷紧 的声带 冲激声带产生振动 使声门处形成准周期性的脉冲串 这些脉冲串激 励声道 产生浊音 浊音具有周期性信号的特点 发清音时 声带松弛不振动 气流通过声门直接进入声道 清音具有随机白噪声信号的特点 1 0 经典的语音信号的数字模型将语音信号看成是线性时不变系统 声道 在 随机噪声或准周期脉冲序列激励下的输出 这一模型是语音信号处理的基础 产生语音信号的框图如图1 所示 基音 振幅 图1 语音信号模型 3 3 语音信号的时域分析 由于语音信号的短时性 要对语音信号使用平稳随机过程的分析方法就必 须对语音信号进行加窗处理 语音信号的时域分析实际上是对加窗后的短时语 音信号进行分析 在语音信号数字处理中常用的窗函数是矩形窗和海明窗 若 采样后的语音信号为s n 加窗后的语音信号为s w n 则s w m s w m w m j 为窗函数 短时平均能量 短时平均幅度 短时过零率 短时自相关函数 和短时平均幅度差是语音信号基本的时域参数 i 3 3 1 短时平均能量和短时平均幅度 语音信号s 的短时平均能量e 和短时平均幅度m 的定义如下 1 0 湖南大学硕十学位论文 e 一芝b 一一脚 2 3 1 m 罗l s m 1 n j 1 3 2 m m 短时平均能量的主要用途是 1 区分清音段和浊音段 浊音时 e 值比 清音时大得多 通过e 值的变化 可判断浊音变为清音或清音变为浊音的时刻 2 区分有话和无话 对于高信噪比的语音信号 噪声能量很小 当语音信号 的e 值显著改变时 可判定为语音信号的开始点或终止点 短时平均幅度的作 用类似于短时平均能量 但其计算更为简单 动态范围更小 3 3 2 短时平均过零率 语音信号s 的短时平均过零率z 的定义如下 z 罗i s g n p o 一s g n s n 一1 o m 3 3 荔 过零率有三类重要应用 第一 用于粗略地描述信号的频谱特性 使用多 带滤波器将语音信号分为若干通道 对各个通道进行短时平均过零率和短时平 均能量的计算 即可粗略估计信号的频谱特性 第二 用于判别清音和浊音 浊音的能量集中于低频段 其短时平均过零率比清音的要小 第三 用于判别 有话和无话 在背景噪声较大的情况下 用短时过零率作静音判决比用短时能 量有效 大多数的静音判决算法同时使用这两个参数 3 3 3 短时自相关函数 语音信号5 的短时自相关函数的定义为 心一s s m n 一胁 s t 月一 七 3 4 i j 短时自相关函数最重要的用途是估算语音信号的基音周期 语音信号的基 音周期可用自相关函数中的第一个峰值的位置来确定 为了正确的估算基音周 期 窗函数的长度n 至少要大于基音周期的两倍 通常若以l o l d i z 采样语音信 号 n 值不应小于2 5 0 湖南大学硕j 学位论文 3 4 语音信号的频域分析 短时傅立叶分析是语音信号频域分析的有力工具 其定义为 竺 x 0 0 3 0 一n x m 沁1 3 5 函 z 为语音信号 对式 3 5 可以从两个不同的角度来解释 第一 把x e 如 看 作是n 为固定值 一 c mc 区间内 m m z m 序列的标准傅立叶变换 其 物理意义为将窗函数的中心移至1 1 处截取信号x n 再做傅立叶变换得到的频 谱函数 第二 把x e 加 看作是u 为固定值 叫彬序列与x n e 一脚序列的卷积 其物理意义为语音信号经过一个中心频率为u 的带通滤波器 短时傅立叶变换是一维信号x n 的二维表示形式 x e 同时是时间n 和 角频率u 的函数 在短时傅立叶分析的数字实现中必须考虑x 0 如 在时间和频 率域中的抽样率 对于时间抽样率 由 3 5 的第二种解释可知 x p 是一个冲激响应为u n 的滤波器的输出 若u n 的傅立叶变换为w e 柚 对于大多数的窗函数 w e 一 具有低通滤波器的响应特性 若 p 一 的带宽为b h z 根据时域抽样定 理 为了避免混叠 x e 一 必须在2 b 抽样 秒的速率上抽样 对于频域抽样率 由于j 0 扣 以2 为周期随着 作周期性变化 只须在 2n 间隔内对之抽样 若窗的长度为l 根据频域抽样定理 为了从x 0 灿 中 准确恢复出x n 1 在0 到2 内抽样的点数n 应大于l 基于上述讨论 x e m 的最小总抽样率s r 为2 b l 其中b 为窗的频谱 宽度 l 为窗宽 3 5 线性预测分析 线性预测法是语音信号处理中的核心技术 它在语音识别 合成 编码 说话人识别等方面都得到了广泛地应用 它的出现大大地推动了语音信号处理 技术的发展 其重要性在于它能够极为精确地估计语音参数 例如基音 共振 峰 谱 声道面积函数等 而且计算简单快捷 线性预测分析所包含的基本概 念是 一个语音的抽样能够用过去若干个语音抽样的线形组合来逼近 通过使 实际的语音抽样和线形预测值之问的差值的平方和 在一个有限的间隔上 达 到虽小值 能够决定唯一的一组预测系数 其时域表示如下 湖南大学硕士学位论文 5 h 吩5 川 g 3 6 式中a i 为预测系数 s 为语音信号 h 伽j 为预测误差 具有白噪声的特性 p 为线性预测的阶数 由式 3 6 可确定一个数字滤波器h 俐 t 4 加 3 7 1 一三叩 h 亿j s mj 和h m j 的关系如图2 所示 图2h z s n 与u n 预测误差滤波器爿俐是系统晰j 的逆滤波器 即 4 z g h z 1 一 口 2 3 8 语音信号通过预测误差滤波器爿俐后得到的输出就是预测误差信号e 伽 它的 定义是 e n s o 一 f l i s n f 伪 n 如果一个p 阶时变线性预测器与实际产生语音信号的系统越接近 则e 例就越 接近信号源 对于准周期性的浊音信号 在每一基音周期的开始处预测误差较 大 利用这一原理 可以用e n j 来检测基音周期 将线性预测应用于语音 不仅希望利用其预测功能 而且要求它提供一个 非常好的声道传递模型 这个声道传递模型就是脚j 它是一个全极点模型 在基于参数模型的系统辨识研究中 常常假定其中系统的传递函数为有理函数 即变量z 的有理分式 这种有理函数有三种情况 一种是只有零点没有极点 称为滑动平均模型 即m a 模型 另一种是只有极点没有零点 称为自回归模 型 即a r 模型 第三种是既有零点又有极点 称为自回归滑动平均模型 即 a r m a 模型 这三种模型中最常用的是a r 模型 线性预测分析正是基于全极 点模型假定的 全极点模型具有计算简单的优点 对a r 模型作参数估计是对 线性方程求解的过程 较为容易 如果模型中含有有限个零点 则要解非线性 方程 实现起来非常困难 另外 如果不考虑鼻音和摩擦音 语音的声道传递 湖南人学硕上学位论文 函数就是一个全极点模型 1 1 对于鼻音和摩擦音 语音的声道传递函数既有极 点又有零点 这时如果线性预测的阶数p 足够高 可以用全极点模型近似表示 零点模型 因为一个零点可以用多个极点来近似 即 一1 1 1 韶 再i 了i 丐 如果分母多项式收敛得足够快 只要取其少数几项就够了 要使日 能较好地 符合声道模型 线性预测的阶数p 要与共振峰的个数相吻合 一对极点对应 一个共振峰 语音信号通常有4 5 个共振峰 在加上为了弥补鼻音中存在的零 点以及其他偏差 p 通常取1 0 1 2 3 5 1 线 性预测系数的解法 短时平均误差的定义为 e 2 摹h 沏 砉咋毛 m k 2 3 9 其中s m 是在抽样点n 选择的语音段 即 s m s o m 为了使e 达到最小值 a i 必须满足条件d e o a 0 f 1 2 3 p 由此可得方 程 善晶 小一 m 2 善a t 善5 一咖一 s 一沏一七 l s fs p 3 1 0 对式 3 1 0 的求和范围有两种考虑 分别对应线性预测系数的两种解法 若取式中m 的求值范围为0 到l p 1 l 为窗长 则式 3 1 0 具有如下形式 r 一 f 荟4 t r n i 一 i 1 s s p 3 1 1 式中r 为短时自相关函数 这种解法叫白相关法 若取式 3 1 0 中m 的 求和范围为0 到l 1 可得到线性预测系数的第二种解法 协方差法 对于协 方差法 式 3 一t o 具有如下形式 r j 2 善4 j 一 1 ep 其中 1 4 3 x 2 湖南大学硕士学位论文 r j s m s m j 1 ejs p 3 1 3 翩 这两种方法不是等价的 自相关法的计算要简单一些 利用l e v i n s o n d u b i n 的递归解法能够有效的求解自相关方程 而协方差方程要使用c h o l e s k y 分解来 求解 在p 1 0 时 两者的计算量相差3 倍 协方差法由于无须加窗 计算精度 大大提高 所得到的协方差系数能更精确地代表语音信号 它主要的缺点是不 象自相关法那样能保证系统的稳定性 由于在l 远大于p 时 自相关法所引入 的误差是可以忽略的 另外采用海明窗这样的平滑窗能进一步减少误差 所以 在实际应用中通常使用自相关法 在线性预测分析中 窗的长度n 也是一个重要因素 对于自相关法 由于 加窗引入了谱的畸变 为了得到精确的系统估计 窗函数的长度不得低于两个 基音周期 对于协方差法 因为无需加窗 理论上分析帧的长度n 可以小到任 意程度 但是系统估计的精度随着n 的增加而提高 通常n 可取2 3 个基音周 期长度f 1 2 j 3 5 2l e v in s o n d u b in 递归算法 将式 3 5 写成矩阵形式 有 r o r 1 r 1 r 0 见 2 也 1 r 0 1 疋p 一2 r p 一1 r p 一2 r p 一3 一r o 口1 口2 口 r 1 r 2 r p 3 1 4 这就是自相关方程 其中p x p 阶的自相关矩阵是一个托布利兹 t o e p l i t z 矩 阵 它的元素关于主对角线和副对角线对称 平行于主对角线上的元素相等 l e v i n s o n d u b i n 递归算法是式 3 8 的高效解法 其递推过程如下 1 对于i 0 时 群 r o 2 对于第i 次递归 1 k 专 r f 一蓦a 1 尺 f 一例1 s fs p 3 a 鼻k 3 口 口 l q 口2 1s s f 1 3 1 5 3 1 6 f 3 1 7 湖南大学硕上学位论文 4 e 1 一k 2 归 i 1 最终解为 a 口 1s isp 上面递推过程中的墨是反射系数 一1 k i 1 1s is p 也称p a r c o r 系数 其取值范围是 反射系数的这个条件是保证系统h z 稳定的充分必要条件 满足这个条件十分重要 由 3 1 8 可得到最小均方误差 e 一2 睇 r 一 o 珥 1 一k 3 1 8 r 3 1 9 在递推过程中保持 3 2 0 f l j 3 1 9 和 3 2 0 可知最小均方误差一定大于0 且随着预测器的阶数的增加而 减小 3 5 3 线性预测的频域分析 依照图1 所指的语音信号模型 语音信号是由随机白噪声或周期性脉冲串 激励一个线性系统 声道模型 产生的输出 线性预测法提供了一种基于时域 均方误差最小准则的模型参数估计算法 这种算法隐含了所分析的一段信号是 某个各惫历经的平稳随机过程的一个实现的假定 利用p a r s e v a l 定理将时域均 方误差最小准则变换到频域中有 弘瓤咿 1 2 高拍 3 z 其中s 是所分析的语音段的傅立叶变换 0 是声道模型的系统函数 h 俐在单位圆上的取值 从式 2 2 1 可得 误差的贡献取决于i h e 加 l 对信号 谱k 0 柚 l 的匹配 两者匹配得越好 时域均方误差就越小 如果语音段s n 似 的自相关函数为岛佃j 而与系统函数目锄相对应的冲激响应 似j 的自相关函数 为r d m 预测阶数为p 这两个自相关函数的前 p 1 个值相等 当p 一 时 这两个自相关函数在所有值上都相等 这意味着如果p 足够大 全极点模型能 以任意误差逼近信号谱 在实际应用中 p 的值不可能很大 误差是不可忽略 的 日 用来提取信号谱包络 总的说来 在信号能量大的区域 接近谱的峰 湖南大学硕士学位论文 值处 p e m l 与信号谱匹配得很好 而在信号能量低的区域 接近谱的谷底 处 匹配较差 1 2 湖南大学硕士学位论文 4 1 语音编码的分类 第四章语音编码 语音信号处理包括语音识别 语音合成 语音编码和说话人识别四大分支 语音编码技术主要应用在数字语音通信和数字语音存储两个领域 其研究的内 容是如何在尽量减少失真的情况下 高效率地对模拟语音信号进行数字表达 传统上 语音编码技术分为三类 波形编码 参数编码 声码器 和混合 编码 波形编码技术以尽可能重构语音波形为原则进行数据压缩 它具有语音 质量好 抗噪声性能强等优点 但是所需的编码速率高 一般在6 4 1 6 k b s 之 间 而参数编码则从听觉的角度注重语音本身的重现 它通常是基于某种语音 产生模型假定 在编码端分析出该模型的参数并对之编码 在解码端则利用模 型参数重新合成语音 它具有编码速率低的优点 可以达到2 4 k b s 以下 但语 音质量差 而且对噪声较敏感 健壮性不够好 混合编码是波形编码与参数编 码的有机结合 与参数编码相同 它也是基于语音产生的模型的假定并采用了 分析与合成技术 同时它又利用了语音时问波形信息 增强重构语音的自然度 语音质量较参数编码有明显改善 编码速率在1 6 之 4 k b s 之间 1 7 1 4 2 语音编码器的性能指标 在语音数字通信系统中 语音编码器的性能指标主要有编码速率 语音质 量 健壮性 编码时延 误码容限和计算复杂度等 4 2 1 编码速率 编码速率又称比特率 是指一个编码器的信息速率 在语音通信系统 它 决定编码器工作时占用的信道带宽 一般p c m 编码器的比特率为6 4 k b s 蜂窝 系统中采用的编码器的比特率为6 7 1 3 k b s 4 2 2 语音质量 语音质量有许多评价标准 其中最为常用的是m o s 平均意见得分 下 表为m o s 的判分标准 湖南大学硕上学位论文 m o s 分收听质量等级 5 极好 4 好 3一般 2 差 1 劣质 表1 在数字通信中 通常认为m o s 在4 0 4 5 分为高质量数字化语音 达到长 途电话网的质量要求 接近透明信道编码 也常称为网络质量或长途质量 m o s 在3 5 左右称为通信质量 这时可以感到重建语音质量的下降 但不影响正常 通话 m o s 在3 0 以下称为合成语音质量 重建的语音具有足够的可懂度 但 自然度及说话人的确认方面不够好 4 2 3 健壮性 编码器的健壮性是通过取多种不同来源的语音信号进行编解码 并对输出 语音质量进行比较测试得到的一种指标 例如 取不同类型的发音人的语音 各种背景噪声下的语音 非语音声音等 多极编码解码情况下的输出语音质量也是衡量编码器健壮性的重要指标 在数字通信网络中常常存在多极编解码器级联的情况 在这种情况下 有的编 码算法的语音质量就会大大f 降 例如a d p c m 编解码级联 其音质就大为下 降 4 2 4 编码时延 编码时延表示运行编码算法所引入的延迟 这个延迟是算法本身的引起的 与处理时间无关 语音编码是以帧为单位进行的 只有在收到当前帧的最后一 个采样后 才会输出编码参数 这时编码时延就是帧的时间长度 对于线性预 测编码器 编码时延是预测窗口的时间长度 只有在收到预测窗口内的所有采 样后 才会产生编码输出 在实时语音通信系统中 语音编码时延同线路传输时延一样 对通信质量 有很大的影响 对于电话网 编码时延要求不超过5 1 0 m s 而对于移动通信系 湖南大学硕上学位论文 统 要求时延不超过l o o m s 4 2 5 误码容限 由于话音业务的实时性 不能像电报业务那样检错重发 而在通信系统中 由于信道噪声所引起的误码是不可避免的 误码容限要求编码器在一定的误码 率下仍然提供可以输出的语音 4 2 6 计算复杂度 计算复杂度主要影响硬件实现成本 对于复杂的编码算法 如混合编码算 法 一般用处理每一秒钟信号所需的数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论