数字语音处理及MATLAB仿真 (第3版)课件全套 第1-8章 绪论、语音信号的数字模型-语音编码原理及应用_第1页
数字语音处理及MATLAB仿真 (第3版)课件全套 第1-8章 绪论、语音信号的数字模型-语音编码原理及应用_第2页
数字语音处理及MATLAB仿真 (第3版)课件全套 第1-8章 绪论、语音信号的数字模型-语音编码原理及应用_第3页
数字语音处理及MATLAB仿真 (第3版)课件全套 第1-8章 绪论、语音信号的数字模型-语音编码原理及应用_第4页
数字语音处理及MATLAB仿真 (第3版)课件全套 第1-8章 绪论、语音信号的数字模型-语音编码原理及应用_第5页
已阅读5页,还剩459页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音信号处理深度学习人工智能实验案例国家一流课程(线下)课程总括课程性质 1

课程目的和任务

2课程重点

3课程难点

432学时=26学时线下+6学时实验+线上(时间不限)课程性质现代通信、电子信息、自然语言处理、人工智能领域通信、电子信息专业信号与系统、数字信号处理应用领域前修课程选修课程掌握语音信号的短时时域和频域分析方法了解该领域的新理论、新技术和发展趋势掌握语音信号处理的概念、原理和方法,熟悉语音信号处理的应用领域学习语音发声和听觉机理及其数字模型用Matlab语言编程实现对实际语音信号的处理课程目的和任务362514我们能为中国科技、人工智能、智能语音技术的发展做出什么贡献课程重点

语音信号的产生和语音信号数字模型LPC的基本原理以及与语音模型的关系短时能量、平均过零率、自相关的意义,及其在语音信号中的应用短时频域分析的两种解释以及实现自适应量化PCM,自适应预测编码原理及前馈和反馈的主要区别增量调制中所造成的失真以及失真补偿矢量量化原理、LBG算法以及实验理论知识在工程中的应用以及实用案例的实现课程难点

语音信号的产生和激励LPC方程组解法端点检测和基音周期的估计用数学公式来证明短时频谱是如何反映整个语音信号的频谱的自适应预测编码原理LBG算法以及实验中的分帧和基音周期检测理论知识在工程中的应用以及实用案例的实现第1章绪论1.1概述11.2语音信号处理的发展21.3语音信号处理的应用及新方向

31.4语音信号处理过程的总体结构41.5MATLAB在数字语音信号处理中的应用

5本节课的教学目标:1.掌握语音信号处理的三大分支定义、应用及发展新方向2.思政目标:学习技术发展与时代需求之间的关联,从而养成学习思维习惯

发现问题——分析问题——解决问题

技术思维—创新能力—为中国智能语音技术的发展努力

1.1概述语音信号处理--新兴的边缘学科语言学声学认知科学人工智能心理学生理学计算机科学语音学、数字信号处理目的:得到语音特征参数以便高效地传输或存储;通过某种处理运算以达到某种用途的要求。

想说阶段说出阶段传送阶段接受阶段理解阶段机器翻译文语转换语音分析语音编码语音加密公用电信网移动通信网语音解码语音增强语音识别语音理解机器翻译

图1.1人的语言过程

语音信息的交换大致上可以分为三大类:1.2语音信号处理的发展贝尔发明电话第一个声码器用声学方法对元音和歌唱进行了研究语谱图仪问世语音合成,系统论述语言产生的声学理论基础研究方面和技术应用领域都取得了突破进展1876年1939年19世纪60年代20世纪40年代1948年后21世纪以来车载语音控制1.2语音信号处理的发展语音对话机器人“我的书本会说话”苹果Siri应用贝尔发明电话第一台声码器思维逻辑:固话-大哥大-2G-5G时代发展与技术需求之间的关联据时代发展的思维

创新的思维

(思维——能力——品行)把这种思维用到学习专业知识、用到国家科技的发展上。1.2语音信号处理的发展1语音合成3语音编码2语音识别语音编码语音增强前端1.2.1语音合成以语言信息压缩、存储为主要目的对语音信号数字模型进行研究最终恢复出自然流畅的语音来同时研究音素、音节、词组与句子的发音规则文语转换系统(TTS)语音合成原理图1.2.1语音合成用语音控制家中所有电器工作;听网页,收到有声的电子邮件;不用学英语就可以与另一个不会中文的英国人交流;可以与计算机进行语音聊天成为真正的朋友;……TTS系统合成语音ElevenLabs1.2.2语音编码语音编码的目的:在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。“太原理工大学”原始语音波形G.721编解码输出波形文本到声音的转换即计算机发声,它可以是标准播音员或其它声音;对处理帧长没有太严格的限制。1.2.2语音编码两者区别人与人之间的话音交流,要保留说话人的声音特征;不仅对压缩率和音质有要求,而且要求较低的编、解码延迟。语音编码文语转换语音“我到北京去”采样率11.025kHz采样率8kHz采样率22.05kHz1.2.2语音编码语音信号的特征存储到计算机内,并与计算机接收到的汉语发音进行比较使计算机能够听懂人类的语言目的

1.2.3语音识别将识别出的音节序列转换成文字,就是语言理解。语音识别与理解

语音识别研究领域包括:说话人说话方式孤立字语音识别连接字语音识别连续语音识别说话人依赖程度特定人语音识别非特定人语音识别词汇量大小小词汇量语音识别中等词汇量语音识别大词汇量语音识别无限词汇量语音识别

1.语音识别技术的应用安全加密语音查询、声控语音拨号公安机关破案法庭取证1.3语音信号处理的应用及新方向声控智能玩具

1.语音识别技术的应用语音咨询服务语音控制语音搜索、语音服务

1.语音识别技术的应用2.语音合成的应用语音自动报站器语音提示语音提醒药盒人机语音对话语音报警2.语音合成的应用语音娱乐语音教学语音计算器语音翻译语音助手2.语音合成的应用录音笔(语音存储)

3.语音编码的应用语音微信语音通信卫星电话

二、语音信号处理的新方向

(1)基于语音的信息检索。(2)基于语音识别的广播新闻的自动文摘技术的研究。语音检索购物语音转换为文本

二、语音信号处理的新方向

(3)语音训练与校正技术。人工耳蜗的语音训练学习语音技术的你们未来将为语音听力障碍和发音障碍的人群提供方便,增强了他们与人交流的效率和自信心,对社会的安定、团结做出自己的贡献。1.4语音信号处理过程的总体结构图1.1信号处理和加工的一般示意图信号提取与利用信号变换信号表示观察与测量信号源信息加工和处理的一般流程如图1.1所示

语音输入预处理数字化特征提取合成传输参考模式库模式匹配识别结果压缩处理识别训练语音识别解压缩存储语音输出图1.2

语音处理过程的结构框图语音处理过程的结构框图2、3、4、5章1、5、6、7章1、4章1、2、3、4章线上语音识别1.5程序在数字语音信号处理中的应用

数字语音信号处理是将数字信号处理与语音学相结合,解决现代通信领域中人与人、人与机器之间的信息交流的学科。MATLAB是一种功能强大、效率高、交互性好的计算机高级语言,是学习语音信号处理和进行研究工作的仿真软件工具。

MATLAB在数字语音信号中的几方面应用:对数字化的语音信号进行时频域分析;对数字化的语音信号进行估计和判别;对语音信号进行编程处理。声明:所有AI图片均来自于豆包总结语音信号处理的三大分支1.语音识别2.语音编码3.语音合成4.发展趋势和应用前景作业1.学习通作业2.讨论区进行讨论语音处理的新方向和技术3.学习通预习第二章任务4.思考题:

你想在智能语音处理的领域做些什么贡献?第二章语音信号的数字模型

2.1概述2.2语音的发音机理2.3语音的听觉机理本章目录结构2.4语音的感知2.5语音信号模型2.6语音信号数字模型本节课的教学目标:1.掌握语音信号处理的二元激励的数学模型2.了解人与机器之间的关联,如何建立人机交互的链接所用技术:数字信号处理

发现问题——分析问题——解决问题

技术思维—创新能力—为发音障碍者提供技术助力

2.1概述

本章重点介绍语音信号产生的数字模型,对语音信号的特性和听觉特性作一般介绍。

这章对于听力障碍者和助听器的研究有重要的基础支撑。

图2.1模型产生时域图2.2语音的发音机理2.2.1人的发音器官1.组成⑴肺和气管产生声源;⑵喉和声带组成声门;⑶由咽腔、口腔、鼻腔

组成声道。图2.2发音器官机理模型

2.功能2.2语音的发音机理2.2语音的发音机理2.2语音的发音机理图2.4声道纵剖面图2.2语音的发音机理2.2语音的发音机理右图为语音生成其机理模型。空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,这就形成了语音。在声门(声带)以左,称为“声门子系统”,它负责产生激励振动;右边是“声道系统”和“辐射系统”。当发不同性质的语音时,激励和声道的情况是不同的,它们对应的模型也是不同的。图2.5语音生成机理图激励(声门)调制(声道)辐射语音(嘴唇)图2.6语音生成框图2.2语音的发音机理2.2.2语音生成-浊音2.2语音的发音机理

空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和闭合。图2.7声门波形语音生成-浊音2.2语音的发音机理声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。浊音m和l图2.8浊音m和l声音时域图和声音2.2语音的发音机理

基音频率是由声带张开闭合的周期所决定的:2.2语音的发音机理语音生成-清音2.2语音的发音机理空气流经过声带时,如果声带是完全舒展开来的,则肺部发出的空气流将不受影响地通过声门。空气流通过声门后,会遇到两种不同情况。一种情况是,如果声道的某个部位发生收缩形成了一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并在附近产生出空气湍流,这种湍流空气通过声道后便形成所谓摩擦音或清音。清音i和x图2.9清音i和x声音时域图和声音2.2语音的发音机理语音生成-爆破音

另一种情况是,如果声道的某个部位完全闭合在一起,当空气流到达时便在此处建立起空气压力,闭合点突然开启便会让气压快速释放,经过声道后便形成所谓爆破音。2.2语音的发音机理图2.10爆破音时域图和声音2.2语音的发音机理

共振峰频率或共振峰

声音产生后,便沿着声道进行传播。声道可以看成是一根具有非均匀截面的声管,在发音时起着共鸣器的作用。声音进入声道后,其频谱必定会受到声道的共振特性的影响,声道具有一组共振频率,称为共振峰频率或共振峰。声道的频谱特性便主要地反映出这些共振峰的不同位置以及各个峰的频带宽度。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。2.3语音的听觉机理2.3.1听觉器官

人的听觉器官包括:外耳、中耳和内耳图2.11人耳结构示意图1.外耳

外耳由耳廓(耳翼)、外耳道和耳鼓(鼓膜)组成。2.中耳

组成:包括三块听小骨:锤骨,砧骨和镫骨。

作用:阻抗匹配和限幅

外耳和中耳的综合作用相当于一个介于500Hz到6kHz之间的平滑的带通滤波器,可以用有限冲激响应(FIR---FiniteImpulseResponse)滤波器来模拟。2.3语音的听觉机理

3.内耳

内耳是一个充满液体的骨质结构,由前庭、圆形窗、卵形窗及耳蜗组成。2.3语音的听觉机理图2.12内耳结构图课程思政

内容思考:

作为一名新时代大学生,未来中国科技人,我们能为听力障碍者做什么?

2.3语音的听觉机理2.3.2耳蜗的信号处理机制图2.13耳蜗内流体波的简单表示2.3语音的听觉机理

2.3语音的听觉机理

当声音经外耳传入中耳时,镫骨的运动引起耳蜗内流体压强的变化,从而引起行波沿基底膜的传播。图2.6是流体波的简单表示。在耳蜗的底部基底膜的硬度很高,流体波传播的很快。随着波的传播,膜的硬度变得越来越小,波的传播也逐渐变缓。不同频率的声音产生不同的行波,而峰值出现在基底膜的不同位置上。图2.14基底膜上六个不同点的频率响应1基底膜2内毛细胞3外毛细胞4听传导通路

2.3语音的听觉机理2.4语音的感知2.4.1几个概念

人耳听觉界限的频率范围大约为20Hz-20kHz。语音感知的强度范围是0-130dB声压级。响度这是频率和强度级的函数。人耳刚刚可以听到的声音强度,称为“听阈”。音高(音调)

音高也叫基音。2.4.2掩蔽效应2.4语音的感知两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,一个声音的听觉感受性受同时存在的另外一个声音的影响,这个现象称为人耳的“掩蔽效应”。

2.4.3临界带宽与频率群

临界频带也可定义为:一个给定的正弦纯音在基底膜上能够产生谐振反应的那一部分。一个频率群的划分相应于基底膜分成许多很小的部分,每一部分对应一个频率群。一个临界带的单位用巴克(Bark)表示。

2.4语音的感知2.5语音信号模型有三部分作用施加在语音的声波上:语音信号的传递函数由这三个函数级联而成,即:H(z)=G(z)V(z)R(z)2.5.1激励模型

发浊音时,产生的脉冲类似于斜三角形的脉冲。激励波是一个以基音周期为周期的斜三角脉冲串。

图2.15三角波及其频谱图2.5语音信号模型

单个三角波的数学表达式为

其中:N1为斜三角波的上升时间

N2为其下降时间2.5语音信号模型

单个斜三角波的频谱G(ejω)表现出一个低通滤波器的特性。其z变换的全极点形式为:

作为激励的斜三角波串可以用一串加了权的单位脉冲序列去激励单位斜三角波模型实现。这个单位脉冲串和幅值因子可以表示成下面的z变换形式2.5语音信号模型

浊音激励模型可表示为

清音可以模拟成随机白噪声。2.5语音信号模型

典型的声道模型有两种:无损声管模型和共振峰模型。(1)共振峰模型当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,一般把它叫作共振峰。2.5.2声道模型-(1)共振峰模型2.5语音信号模型2.5语音信号模型图2.16清浊音频谱图

实践表明,用前三个共振峰代表一个元音足够了。多个Vi叠加可以得到声道的共振峰模型:一个二阶谐振器的传输函数可以写成2.5语音信号模型图2.17“我到北京去”语谱图2.5语音信号模型2.5.2声道模型-(2)无损声管模型2.5语音信号模型

无损声管模型:是假定声道由多个等长的不同截面积的管子串联而成的系统,并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内,声道可表为形状稳定的管道,并可以认为声波是沿管轴传播的平面波。

对于N个无损声管级联的情况,可得到无损声管的传递函数为:

2.5语音信号模型

从声道模型输出的是速度波ul(n),而语音信号是声压波Pl(n)。二者倒比称为辐射阻抗Zl,它表征口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,r近似为12.5.3辐射模型2.5语音信号模型2.6语音信号数字模型2.6.1数字模型

(1)组成:

包括三部分:激励模型、声道模型和辐射模型。

激励源分浊音和清音两个分支,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。

2.6语音信号数字模型

(2)在浊音的情况下,激励信号由一个周期脉冲发生器产生。所产生的序列是一个周期为T的冲激序列,T的倒数即为基音频率。为了使浊音的激励信号具有声门气流脉冲的实际波形,还需要使上述的冲激序列通过一个声门脉冲模型滤波器。2.6语音信号数字模型(3)在清音的情况下,激励信号由一个随机噪声发生器产生。设其均值为0,方差为常数,幅度具有高斯概率分布。乘系数的作用是调节清音信号的幅度。(4)图2.16中画出了一段浊音语音产生过程中的有关波形。2.6语音信号数字模型(5)声道模型V(Z)给出了离散时域的声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学的方法可以导出,在大多数情况下它是一个全极点函数。V(Z)可以表示为:2.6语音信号数字模型

把截面积连续变化的声管近似为P段短声管的串联,每段短声管的截面积是不变的。P称为这个全极点滤波器的阶。P值越大,模型的传输函数与声道实际传输函数的吻合程度越高。

辐射模型R(Z)与嘴型有关,通常R(Z)可以表示为2.6语音信号数字模型

在这个模型中,除了G(Z)和R(Z)保持不变以外,T、Av、Au、清/浊音开关的位置以及声道模型中参数a1~ap都是随时间而变化的,由于发音器官的惯性使这些参数的变化速度受到限制。对于声道参数,在10~30ms的时间间隔内可以认为它们保持不变,因此,语音的短时分析是分帧进行的。对于激励源参数,多数情况下这一结果也是正确的。2.6语音信号数字模型

(6)统一的公式

离散时域语音信号s(n)的z变换S(z)可以用一个统一的公式来计算:在浊音情况下,E(z)是一周期冲激序列的z变换且则2.6语音信号数字模型在清音情况下,E(z)是一个随机噪声的z变换且

则2.6语音信号数字模型

声道的传输函数具有全极点的性质,这对于元音和大多数辅音来说是比较符合实际的,但对于鼻音和阻塞音来说,由于出现了零点,这种模型就不够准确了。

一种解决问题的方案是在V(z)中引入若干零点;另一种方法是适当提高阶数P,使得全极点模型能更好地逼近具有此种零点的传输函数。2.6语音信号数字模型-

模型局限性(1)2.6语音信号数字模型

数字模型的基本思想是认为任何语音都是由一个适当的激励源作用于声道而产生的,这意味着激励源与声道系统是互相独立的。上述假定对于大多数语音是合适的,但在有些情况下,例如某些瞬变音,实际上声门和声道是互相耦合的,这便形成了这些语音的非线性特性。2.6语音信号数字模型-

模型局限性(2)2.6语音信号数字模型

并非任何语音都能够明显地按清音和浊音来划分,有的音甚至也不是清音和浊音的简单叠加。这种将语音信号截然分为周期脉冲激励和噪声激励两种情况的“二元激励”法在高质语音的合成中是不适用的。2.6语音信号数字模型-

模型局限性(3)2.6语音信号数字模型本章小结重要概念:浊音、清音、爆破音

基音周期、基音频率、共振峰

临界带宽重点掌握:(1)语音产生过程;(2)掩蔽效应

(3)语音信号的数字模型,模型局限性以及解决办法。思考1、简要解释语音的形成过程。2、什么是听觉掩蔽效应?掩蔽效应的存在对研究语音信号处理系统有什么启示?3、理解语音信号产生的数字模型及模型组成。4、你想为听障者提供些什么方面

的技术支持?

业1.学习通作业题2.预习第三章的任务点3.讨论区进行讨论相关问题4.在智能语音领域你能做些什么?第3章语音信号的短时时域分析采样率22.05kHz3.1

概述13.2语音信号的预处理3.3

短时平均能量

33.4

短时平均幅度函数

43.5

短时平均过零率

53.6短时自相关分析

623.7基于能量和过零率的语音端点检测73.8基音周期估值8第3章语音信号的短时时域分析

分析之前的处理特征参数应用3.1

概述

语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中都需要提取语音中包含的各种信息。

语音处理目的对语音信号进行分析,提取特征参数,用于后续处理加工语音信号,如语音增强和语音合成中的应用第3章语音信号的短时时域分析

图3.1歌曲时域图语音信号分析可以分成时域分析和变换域(频域、倒谱域)分析。1.最简单、最直观;2.直接对语音信号的时域波形进行

分析;3.特征参数——语音的短时能量和平均

幅度、短时平均过零率、短时自相

关函数和短时平均幅度差函数第3章语音信号的短时时域分析

图3.2语音识别分析仪器3.2语音信号的预处理大公司或语音研究机构发布的被大家认可的语音数据库模拟语音信号s(t)离散化为s(n)数字处理研究者个人用录音软件或硬件电路加麦克风随时随地录制的一些发音或语句获得数字语音的途径正式非正式3.2语音信号的预处理

语音信号的频率范围通常是300~3400Hz,一般情况下取采样率为8kHz即可。本书的数字语音处理对象为语音数据文件,是已经数字化了的语音。有了语音数据文件后,对语音的预处理包括:预加重、加窗分帧等。图3.4语音采样和录制设备3.2.1语音信号的预加重处理目的:对语音的高频部分进行加重,去除口唇辐射的影响,增加语音的高频分辨率实现:通过一阶FIR高通数字滤波器来实现设n时刻的语音采样值为x(n)

,经过预加重处理后的结果为y(n)=x(n)-ax(n-1)

3.2语音信号的预处理高通滤波器的幅频特性和相频特性如下

3.2语音信号的预处理图3.5一阶高通滤波器的幅频响应预加重前和预加重后的一段语音信号时域波形

3.2语音信号的预处理图3.6预加重前后语音时域波形

预加重前和预加重后的一段语音信号频谱

3.2语音信号的预处理图3.7预加重前后语音频域波形3.2.2语音信号的加窗处理

3.2语音信号的预处理帧移与帧长示意图。

帧长帧移第K+1移帧长3.2语音信号的预处理图3.8帧移和帧长示意图加窗常用的两种方法

矩形窗窗函数如下:

汉明(Hamming)窗窗函数如下:3.2语音信号的预处理矩形窗及其频谱如下3.2语音信号的预处理图3.9矩形窗及时域及频谱图汉明窗及其频谱如下思考:两种窗效果有何异同?3.2语音信号的预处理图3.10汉明窗及时域及频谱图加窗方法示意图:3.2语音信号的预处理图3.11窗移动图

语音信号的分帧处理,实际上就是对各帧进行某种变换或运算。设这种变换或运算用T[]表示,x(n)为输入语音信号,w(n)为窗序列,h(n)是与w(n)有关的滤波器,则各帧经处理后的输出可以表示为:3.2语音信号的预处理几种常见的短时处理方法是:1.对应于能量;2.,对应于平均过零率;3.对应于自相关函数;3.2语音信号的预处理3.3短时平均能量

1.短时平均能量定义定义n时刻某语音信号的短时平均能量En为:

当窗函数为矩形窗时,有若令则短时平均能量可以写成:

3.3短时平均能量

MATLAB的具体实现如下:1、用Cooledit读入语音“我到北京去”。2、将读入的语音文件wav保存为txt文件。3、把保存的文件zqq.txt读入Matlab。4、对采集到的语音样点值进行分帧。5、能量计算,画出图片。不同矩形窗长N时的短时能量函数

3.3短时平均能量

图3.13不同窗长N的短时能量图1.En反映语音信号的幅度或能量随时间变化的规律。2.如果窗选得很长,En不能反映语音信号幅度变化。窗选得太窄,En将不够平滑。

通常,当取样频率为10kHz时,选择窗宽度N=100~200是比较合适的。3.3短时平均能量

1)可以作为区分清音和浊音的特征参数。短时平均能量的主要用途2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。3)可以作为辅助的特征参数用于语音识别中。3.3短时平均能量

思考题:短时平均能量的作用短时平均能量的缺点3.4短时平均幅度函数

为了克服短时能量函数计算x2(m)的缺点,定义了短时平均幅度函数:1Mn能较好地反映清音范围内的幅度变化;2Mn所能反映幅度变化的动态范围比En好;3Mn反映清音和浊音之间的电平差次于En。Mn与En的比较3.4短时平均幅度函数图3.15短时平均幅度函数随矩形窗窗长N变化的情况3.4短时平均幅度函数作业题:1.序列x(n)的短时能量定义为

对于特定的选择w(m)=am,m≥0=0,m<0,找到一个En的递推公式。(1)找一个差分方程,用En-1和输入x(n)表

示En。(2)画出这个方程的数字网络图。(3)为了可能找到一个递推实现h(m)=w2(m)必须具有什么样的一般性质。3.5短时平均过零率

1.定义

在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。短时平均过零率的定义为

在上式中,用1/2N

作为幅值,是考虑了对该窗口范围内的过零数取平均的意思。3.5短时平均过零率

考虑到w(n-m)的非零值范围为n-m≥0,即m≤n,以及n-m≤N-1,故m≥n-N+1,因此短时平均过零率可以改写为:(定义式)3.5短时平均过零率

2.实现短时平均过零率3.5短时平均过零率

女声“我到北京去”的短时平均过零次数的变化曲线:3.5短时平均过零率

图3.17短时平均过零次数3.应用清音过零率高,浊音过零率低。局限性:浊音和清音重叠区域只根据短时平均过零率不可能明确地判别清、浊音。3.5短时平均过零率

图3.18作业题2、短时平均过零率的定义如下:

证明Zn可以表示成

3.6短时自相关分析

时域离散确定信号的自相关函数定义为:

时域离散随机信号的自相关函数定义为:

周期为P的周期信号满足:

3.6.1短时自相关函数

自相关函数具有下述性质:(1)

对称性R(k)=R(-k)(2)

在k=0处为最大值,即对于所有k来说,|R(k)|≤R(0)(3)

对于确定信号,R(0)对应于能量

对于随机信号,R(0)对应于平均功率

3.6短时自相关分析3.6.2语音信号的短时自相关函数

采用短时分析方法,定义语音信号短时自相关函数为因为所以3.6短时自相关分析

定义(3-18)

那么短时自相关函数可以写成:

上式表明,序列经过一个冲激响应为的数字滤波器滤波即得到短时自相关函数3.6短时自相关分析3.6短时自相关分析Z-KHk(n)X(n-k)x(n)图3.19自相关实现框图也可采用直接运算的方法,令则可得:上式可以写成

3.6短时自相关分析浊音的短时自相关函数

3.6短时自相关分析图3.20加不同窗时浊音的短时自相关函数清音的短时自相关函数

3.6短时自相关分析图3.21加不同窗时清音的短时自相关函数1)短时自相关函数可以很明显的反映出浊音信号的周

期性。2)清音的短时自相关函数没有周期性,也不具有明显

突出的峰值,其性质类似于噪声。3)不同的窗对短时自相关函数结果有一定的影响。3.6短时自相关分析图3.22

不同矩形窗长时的短时自相关函数3.6短时自相关分析3.6.3修正的短时自相关函数修正的短时自相关函数,其定义如下3.6短时自相关分析式中,K为k的最大值,即0≤k≤K。要使为非零值,必须使

考虑到,可得

修正的短时自相关函数可以写成:3.6短时自相关分析因为求和上限是N-1,与k无关,故当k增加时,值不下降

.

3.6短时自相关分析作业题:3、短时自相关函数定义为(1)证明Rn(k)=Rn(-k)(2)证明Rn(k)可以表示为

其中(3)假定n≥0时,w(n)=an

,n<0时,w(n)=0,求hk(n)=?(4)求出(3)中hk(n)的z变换,并且从它得到对Rn(k)的递推实现,画出为计算Rn(k)的一个数字网络实现,Rn(k)作为n的函数,且对应于(3)的窗。3.6.4短时平均幅度差函数

一个周期为P的周期信号,在k=0,±P,2P,…时,

对于浊音语音,在基音周期的整数倍上,d(n)总是很小,但不是零,因此,我们可以定义短时平均幅度差函数AMDF为

使用矩形窗时,短时平均幅度差函数可写成:与之间的关系为:3.6短时自相关分析图3.23加矩形窗的浊音短时平均幅度差函数3.7基于能量和过零率的语音端点检测

正确的端点检测对于语音识别和语音编码系统都有重要的意义。本节介绍基于能量和过零率的语音端点检测方法——两级判决法及程序实现。语音端点检测就是指从包含语音的一段信号中确定出语音的起始点和结束点。

两级判决法示意图3.7基于能量和过零率的语音端点检测

图3.24两级判决法

采用双门限比较法的两级判决法,具体如下

第一级判决:

1.先根据语音短时能量的轮廓选取一个较高的门限T1,语音起止点位于(即AB段之外)。2.根据背景噪声的平均能量确定一个较低的门限T2,于是CD段就是用双门限方法根据短时能量所判定的语音段。3.7基于能量和过零率的语音端点检测

第二级判决:

以短时平均过零率为标准,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起止点。门限T3是由背景噪声的平均过零率所确定的。

注意:门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决前,T1,T2,T3,三个门限值的确定还应当通过多次实验。3.7基于能量和过零率的语音端点检测

基于MATLAB程序实现能量与过零率的端点检测算法步骤如下:

(1)语音信号x(n)进行分帧处理。

(2)得到语音的短时帧能量。

(3)计算每一帧语音的过零率,得到短时帧过零率。

(4)T1,T2,T3,判断语音前端清音和后端尾音。3.7基于能量和过零率的语音端点检测

3.8

基音周期估值基音周期估值在语音信号处理应用中具有十分重要的作用。本节介绍语音信号基音周期估值最基本的两种方法:

基于短时自相关法的基音周期估值基于短时平均幅度差函数法的基音周期估值

3.8.1基于短时自相关法的基音周期估值

语音的浊音信号具有准周期性,其自相关函数在基音周期的整数倍处取最大值。计算两相邻最大峰值间的距离,就可以估计出基音周期。

为了突出反映基音周期的信息,同时压缩其他无关信息,减小运算量,自相关计算之前需要对语音信号进行适当预处理。3.8

基音周期估值先对语音信号进行低通滤波,再进行自相关计算。12

预处理的两种方法先对语音信号进行低通滤波,再进行自相关计算。1.中心削波

中心削波函数为3.8

基音周期估值削波后的序列用短时自相关函数估计基音周期,在基音周期处峰值更加尖锐,可减少倍频或半频错误。

3.8

基音周期估值图3.25中心削波前后语音波形削波前后语音信号对比图及修正自相关对比图3.8

基音周期估值图3.26中心削波前后修正自相关函数3.8

基音周期估值2.三电平削波为了克服短时自相关函数计算量大的问题,在中心削波法的基础上,还可以采用三电平削波法,削波函数如下式

经削波后的取样值仅有三种可能情况,即+1,0,-1。显然,这种信号的短时自相关函数的计算实际上是不需要乘法运算的,这就大大节省了计算时间。

3.8

基音周期估值3.8

基音周期估值图3.27三电平削波前后的语音波形3.8

基音周期估值图3.28三电平削波前后修正自相关图3.8.2基于短时平均幅度差函数

AMDF法的基音周期估值

对于浊音语音,在基音周期的整数倍上的幅度差值不是零,但总是很小。

因此,可以通过计算短时平均幅度差函数中两相邻谷值间的距离来进行基音周期估值。

这里使用修正的短时平均幅度差函数并加矩形窗,得到:AMDF函数与短时自相关函数的不同是:自相关函数进行基音周期估计时寻找的是最大峰值点的位置AMDF寻找的是它的最小谷值点的位置由于清音没有周期性,所以它的自相关函数和平均幅度差函数均不具有准周期性的峰值或谷值。

3.8

基音周期估值图3.29浊音信号的AMDF3.8.3基音周期估值的后处理

在提取基音时,无论采用哪种方法提取的基音频率轨迹与真实的基音频率轨迹都不可能完全吻合。

实际情况是大部分段落吻合,而在一些局部段落和区域中有一个或几个基音频率估计值偏离,甚至远离正常轨迹,通常是偏离到正常值的2倍或1/2处,即实际基音频率的倍频或分频处,称这种偏离点为基音轨迹的“野点”。

为了去除“野点”,常用的平滑技术主要有:中值滤波平滑处理、线性平滑、动态规划平滑处理。总结主要内容:短时时域分析特征:平均能量、幅度、过零率、自相关、修正自相关。应用:1.端点检测的两极判别法(平均能量+过零率)2.基音周期检测(修正自相关、幅度差)

(简化的三电平削波、中心削波)3.程序(分帧、加窗、应用)第四章语音信号的短时频域分析

信号的分析与综合课前准备与衔接1.加窗后信号变成短时一帧帧的信号2.与实际听觉的差异3.需要做什么?课程目的:掌握两种解释、分析与综合原理目录152

概述

傅里叶变换的解释

滤波器的解释

短时谱的时域及频域采样率

短时综合的滤波器组相加法123454.1概述

语音信号可被看作是短时平稳信号,其某一帧的短时傅里叶变换定义式如下:

(4.1)

式中w(n-m)是窗函数。在式中,短时傅里叶变换有两个变量,它们是离散时间n及连续频率ω4.1概述

若令

,则得离散的短时傅里叶变换如下:

(4.2)它实际上就是

的频率的取样。4.1概述

可以看出:(1)当n固定时,它们就是序列

(-∞≤m≤+∞)

的傅里叶变换或离散傅里叶变换。(2)

当或k固定时,它们是一个卷积,这相当于滤波器的运算。因此,语音信号的短时频域分析可以解释为傅里叶变换或滤波器。

4.1概述4.2傅里叶变换的解释1.求x(n)

将式(4.1)写作

(4.3)

时变傅里叶变换是时间标号n的函数,当n变化时,窗w(n-m)沿着x(m)滑动。4.2傅里叶变换的解释

4.2傅里叶变换的解释

傅里叶逆变换公式为:

(4.4)令m=n,则

(4.5)

可以看出,只有当w(0)≠0时,x(n)才能从求出。

4.2傅里叶变换的解释

此外,由功率谱定义,可以写出短时功率谱与短时傅里叶变换的关系:

(4.6)功率谱是自相关函数

(4.7)

的傅里叶变换。

4.2傅里叶变换的解释

作业题1:证明

讨论:窗函数的作用

1.选出x(m)序列中被分析部分;

2.它的形状对时变傅里叶变换特性也有重要作用。

4.2傅里叶变换的解释

如果被看成是w(n-m)x(m)序列的标准傅里叶变换,同时假设x(m)及w(m)的标准傅里叶变换存在,为:

(4.8)

(4.9)当n固定时,序列w(n-m)的傅里叶变换为:

(4.10)4.2傅里叶变换的解释

短时频域能否表征整个信号的频谱呢?反相移位根据卷积定理,有:

(4.11)写成卷积积分形式:

(4.12)将θ改换为-θ后,可以写成:

(4.13)

可见,为了使能够充分地表现的特性,要求对于来说,必须是一个冲激脉冲。4.2傅里叶变换的解释

窗函数和窗宽对短时傅里叶谱的影响:

由于矩形窗有主瓣窄,旁瓣高,能量泄露较多。哈明窗相反。窗宽时,时间分辨率低,频率分辨率高。窗窄时,反之。4.2傅里叶变换的解释

程序4.1结果如下4.2傅里叶变换的解释

浊音清音4.3滤波器

的解释1.短时傅里叶变换的滤波器实现形式一由式(4.1)可得

(4.14)

如果把w(n)看作为一个滤波器的单位取样响应,则短时傅里叶变换就是该滤波器的输出,为滤波器的输入。

4.3滤波器的解释

4.3滤波器的解释

用实数来运算的方法:

(4.15)(4.16)4.3滤波器的解释

结论:

经调制后,其付里叶变换为,这说明调制使

的频谱在频率轴上向左移动了,线性滤波器输出端的频谱等于乘积,故为了使输出频谱准确等于,应当是一个冲激。即要求线性滤波器近似为一个窄带低通滤波器。

4.3滤波器的解释

2.短时傅里叶变换的滤波器实现形式二令:

(4.16)

(4.17)则有

(4.18)4.3滤波器的解释

可以画出短时傅里叶变换的滤波器解释的另一种形式如图(4.3)所示,也分为复数运算和实数运算两种。同样要求线性滤波器近似为一个中心频率为ω的窄带带通滤波器。4.3滤波器的解释

4.3滤波器的解释

4.3滤波器的解释

4.4短时谱的时域及频域取样率

短时傅里叶变换同时是时间n以及角频率ω的函数。由来恢复x(n),首先遇到的就是时域取样率和频域取样率的问题。4.4短时谱的时域及频域取样率1.时域取样率(ω为固定值)

若将w(n)的傅里叶变换记为,对于大多数窗函数来说,具有低通滤波器的特性,若它的带宽为BHz,则具有与窗相同的带宽。低通滤波器的带宽是由第一个零点位置决定的。因为是的傅里叶变换,因而B的取值决定于窗口序列的长度N和形状。4.4短时谱的时域及频域取样率若使用哈明窗,的近似带宽为

(4.20)

的采样率为(采样/秒)若使用矩形窗,的近似带宽为

的采样率为(采样/秒)

4.4短时谱的时域及频域取样率2.频率取样率(n为固定值)

此时,是以2π为周期的ω的连续函数,用下述一组频率值来取样:

(4.21)

设w(n)为有限时宽N,的短时傅里叶反变换x(m)w(n-m)也应当是宽度为N有限时宽的。现在在频域内L个角频率上对进行取样,根据这些取样所恢复出的时间信号应该是x(m)w(n-m)进行周期延拓的结果,延拓周期等于L。为使恢复的时域信号不产生混叠,要求,故频域最小取样数为窗宽SRf=N。

4.4短时谱的时域及频域取样率3.总取样率

的总抽样率(SR)等于

(抽样/秒)

(4.22)

在大多数实际窗中,B可以表示为FS/N的倍数

(4.23)

其中,C是比例常数,x(n)的抽样频率即为

(采样/秒)

(4.24)SR/FS即为与一般取样频率相比而得到的“过速率采样比”。4.4短时谱的时域及频域取样率4.5短时综合的滤波器组相加法

可表示为

(4.25)(4.26)

若定义则

(4.27)

(4.28)4.5短时综合的滤波器组相加法4.5.1短时综合的滤波器组相加法原理式(4.28)的图形解释4.5短时综合的滤波器组相加法

定义

(4.29)

可得

(4.30)

可见,是一个冲激响应为的带通滤波器的输出。4.5短时综合的滤波器组相加法4.5短时综合的滤波器组相加法

复数带通滤波器的频率响应为

上式用图4.7(b)表示,中心频率为,带宽为,假定所有通道都使用了相同的窗函数,即

(4.31)(4.32)4.5短时综合的滤波器组相加法

考虑整个带通滤波器组时,其中每个带通滤波器具有相同的输入,其输出相加在一起,如图4.8所示,输出为y(n),输入为x(n),整个系统的复合频率响应为

(4.33)

4.5短时综合的滤波器组相加法4.5短时综合的滤波器组相加法

如果在频率域上正确抽样(N≥L,L为窗宽),可以证明对于所有ω都满足

(4.34)

上式证明如下:

的傅里叶反变换是窗函数,如果在频率上以N个均匀间隔抽样,抽样形式的离散傅里叶反变换为

(4.35)4.5短时综合的滤波器组相加法

如果w(n)的宽度等于L个抽样,则

w(n)=0,n<0,n≥L

(4.36)

在式(4.35)中取n=0,得到

(4.37)

从式(4.27)及式(4.34)可以推出复合系统的冲激响应为:

(4.38)4.5短时综合的滤波器组相加法

这时的复合输出为

(4.39)

于是,用滤波器组相加法恢复的信号可以表示为:

(4.40)

4.5短时综合的滤波器组相加法4.5短时综合的滤波器组相加法

上面已讨论到,当w(n)具有有限宽度L时,x(n)完全能从时间及频率域抽样后的时变傅里叶变换准确地恢复。下面还能证明,如果在频域内是频带受限的,则x(n)也能准确从中恢复。

4.5短时综合的滤波器组相加法4.5.2短时综合的滤波器组相加法的MATLAB程序实现

程序filterbank1.m对应于图4.6中的(b)图,先调制后滤波,实现流程图见图4.10。图4.6中的(b)图4.5短时综合的滤波器组相加法图4.10filterbank1的流程图YN读入语音数据分帧,不足补零,共N帧加哈宁窗滤波i=1~65取k=1帧数据用调制i=1~65用调制i=1~65k=k+1输出k≥N?4.5短时综合的滤波器组相加法输入语音输出语音程序4.2运行结果4.5短时综合的滤波器组相加法

程序filterbank2.m对应于图4.6中的(a)图,先滤波后调制,实现流程图见图4.12,程序运行结果见图4.13。图4.6中的(a)图4.5短时综合的滤波器组相加法YN读入语音数据分帧,不足补零,共N帧各通道滤波i=1~65取k=1帧数据并分别送入1~65通道的输入端

各通道用调制i=1~65各通道用调制i=1~65k=k+1输出k≥N?4.5短时综合的滤波器组相加法图4.12filterbank2的流程图程序4.3运行结果输入语音输出语音4.5短时综合的滤波器组相加法

(4.41)式中r为一整数,0≤i≤N-1,上式的反变换为

(4.42)又

(4.43)因而

(4.44)假设在时域上利用周期为R的取样对取样得4.5.3短时综合的叠接相加法原理及MATLAB程序实现4.5短时综合的滤波器组相加法

将式(4.42)代入式(4.44)中,可得

如果R选得足够小,这时不论n为何值均可写出:

因而,式(4.44)写成

上式说明,y(n)与x(n)只差一个常系数,因而利用式(4.45)就能准确恢复x(n)。(4.46)(4.47)(4.45)4.5短时综合的滤波器组相加法4.5短时综合的滤波器组相加法4.5短时综合的滤波器组相加法

图4.15表示了按照式(4.44)的运算过程。当0≤n≤R-1时,y(n)可写成

当R≤n≤2R-1时,则y(n)可以写成:

(4.49)(4.50)4.5短时综合的滤波器组相加法

滤波器组相加法与频率取样有关,它所要求的频率取样数应使窗变换满足下式:

而重叠相加法要求时间抽样率应使窗满足下式:

式(4.51)与式(4.52)构成对偶数关系。(4.51)(4.52)4.5短时综合的滤波器组相加法下面给出短时综合的叠接相加法的MATLAB程序实现的运行结果读入语音输出语音4.5短时综合的滤波器组相加法主要内容:1.短时频域分析的两种表示:傅里叶表示

滤波器表示2.短时频谱能否表征长时频谱特性?3.短时频谱能否恢复出时域信号?4.综合滤波器组相加法。总结作业题习题一:作业题习题二:作业题习题三:第5章语音信号的倒谱5.1

复倒谱和倒谱15.2

复倒谱的几种计算方法35.3

语音的倒谱分析及应用25.1复倒谱和倒谱5.1.1定义设信号x(n)的z变换为X(z)=z[x(n)],其对数为

那么的逆z变换可写成

取,上两式可分别写为

如果对的绝对值取对数,得则求出的倒频谱c(n)为实倒谱,简称为倒谱,即

上式要求相角为ω的连续奇函数。信号的复倒谱定义式:5.1.2复倒谱的性质z变换的一般形式为:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论