3时频分析.ppt_第1页
3时频分析.ppt_第2页
3时频分析.ppt_第3页
3时频分析.ppt_第4页
3时频分析.ppt_第5页
已阅读5页,还剩83页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

II语音信号的产生模型 语音产生模型 主要内容2 1语音信号的产生模型2 2语音的感知2 3语音学基础知识 语音产生模型 1 2 1语音的产生 声带每开启和闭合一次的时间是基音周期 PitchPeriod 其倒数为基音频率 声道是对发音起重要作用的器官 发音器官包括 肺 气管 喉 咽 鼻腔 口腔 唇 语音产生模型 2 语音产生模型 3 语音产生的机理图 语音产生模型 4 语音信号产生系统模型 发浊音时 声带振动形成准周期的脉冲串 发清音时 声带松弛 相当于一个随机白噪声 语音产生模型 5 在声学上对均匀无损耗的管道的声学特性有非常简单的数学描述 均匀 截面积不变 无损耗 不考虑声波在管内的热损耗 粘滞摩擦损耗和管壁的热传导作用 在此基础上 可以将声道简化成一些截面积不等的均匀无损声管的级联 用该模型来逼近真实的声道 称之为声道的时间离散模型 语音产生模型 6 一般可用如下的全极点模型来刻画共振峰特性 P为全极点滤波器的阶 在8 12内取值 一对极点对应一个共振峰 另一种是将声道视为一个谐振腔 共振峰是这个腔体的谐振频率 共振峰模型 通常用前3个共振峰来代表一个元音 对复杂的辅音或鼻音 大约用5个以上共振峰才行 声道参数一般在10ms 30ms内保持不变 短时分析 语音产生模型 7 辐射模型研究表明 辐射效应在高频段较为明显 在低频段影响较小 可用一个高通滤波器来表示辐射模型 其中r接近1 在实际信号分析时 常采用这样的预加重技术 即在采样之后 插入一个一阶高通滤波器 在语音合成时再进行 去加重 处理 就可以恢复原来的语音 语音产生模型 8 对传统的语音产生模型 在发音过程中声道处于运动状态 且与语音信号相比变化缓慢 一般可用时变的线性系统来模拟 20世纪80年代 Teager等人在实验基础上 给出了一个语音产生模型 语音信号是由平面波部分的线性部分和涡流区域的非线性部分共同组成 语音产生模型 9 基于上述的这种非线性现象 许多学者开始试图提出新的语音产生模型来解释语音产生的过程 1993年Maragos从语音是由声道共振产生的角度 提出调频 调幅模型 AM FMmodulationmodel 语音信号中单个共振峰的输出 相当于以该共振峰频率为载波频率进行频率调制和幅值调制的结果 假定语音信号是由若干个共振峰经过这样调制结果的叠加而成 这样 就可以用能量分离算法将与每个共振峰相对应的瞬时频率从语音信号中分离出来 语音产生模型 10 1 调频 调幅模型的基本原理 对于一个载波频率为 频率调制信号为 来控制幅值的调制信号 可以表示为 这里的载波频率与每个共振峰频率对应 为在t时刻的瞬时相位 语音产生模型 11 它反映了在载波频率附近的频率是按着频率调制信号来变化 可以将语音信号看作是由若干个这样共振峰调制信号的叠加而成 则语音信号可以表示为 可看作是语音信号的单个共振峰的输出 将瞬时频率定义为瞬时相位的变化率 语音产生模型 12 对于单个共振峰的调制信号 这个能量分离算法是根据Teager能量算子发展而来的 可以用一个能量分离算法将幅度调制后的幅值包络 和频率调制后的瞬时频率 从语音信号中分离出来 语音产生模型 13 2 Teager能量算子 在连续域和在离散域中有两种表达形式 语音信号的数字处理都在离散域上 它在一定程度上对语音信号的能量提供一种测度 可以表示出对单个共振峰能量的调制状态 语音产生模型 14 在离散上 对一帧语音信号s n 能量算子定义为 利用这个能量算子 可以把语音信号中的幅值调制部分与频率调制部分有效地分离开 可以看出 能量算子输出信号的局部特性 只依赖于原始语音信号本身和它的时域差分 语音产生模型 15 3 能量分离算法能将只包含单个共振峰的语音信号分离成频率分量和幅值分量 进行能量算子操作 有 对单个共振峰的调制信号 用离散形式可以重新表达如下 频率调制后的瞬时频率 幅值调制后的幅值包络 语音产生模型 16 信号的能量算子输出是幅值包络和瞬时频率的一个函数 它可以反映出幅值和频率的变化 上式的结果表示了该算子的能量跟踪能力 所以将这个算子称为能量算子 例 如果r n 信号为一个简单的调频脉冲信号 其幅值不变 则经过TEO操作后的输出如下图 语音产生模型 17 可以看出 当信号的幅值不发生变化时 TEO操作后的信号可以反映出频率的高低 语音产生模型 18 考虑到差分的对称性 可以用 对于 的导数 它的能量算子的输出仍然是只与 有关的一个函数 代替 的导数 则 语音产生模型 19 信号的幅值包络和瞬时频率如下 以 和 为未知函数 联立求解 可得到 这样就可以分别求出瞬时频率和幅值包络 语音的感知 1 2 2语音的感知 耳翼的作用是保护耳孔 其卷曲状具有定向作用 外耳道同其它管道一样也有共振频率 大约是3400Hz 鼓膜位于外耳道内端的韧性锥形结构 声音的振动通过鼓膜传到内耳 外耳在声音感知中有两个作用 一是对声源的定位 二是对声音的放大 中耳的作用有两个 一是放大声压 二是保护内耳 中耳由三块听小骨组成 内耳的耳蜗是听觉的受纳器 从声震动到神经冲动的转换在此完成 语音的感知 2 正常人耳能感知的频率范围为20Hz 20KHz 强度范围为0dB 120dB 音调是人耳对不同频率声音的一种主观感觉 单位为Mel 与频率近似的满足方程 响度用来描述人耳对不同频率纯音的辨别灵敏度 单位为Phon 方 1Phon等于1kHz纯音的声强级 而零方对应人耳的听阈 语音的感知 3 人耳感知的声音响度是频率和声压级的函数 通过比较不同频率和幅度的语音可以得到主观等响度曲线如下图 语音的感知 4 掩蔽效应指在一个较强的声音附近 相对较弱的声音将不被人耳觉察 强音称为掩蔽者 弱音称为被掩蔽者 分为同时掩蔽和异时掩蔽 频率为1kHz声压级为60dB的音调信号的掩蔽阈值曲线 语音的感知 5 异时掩蔽又分为前掩蔽和后掩蔽两种一般后掩蔽可持续100ms 而前掩蔽仅持续20ms 三种掩蔽现象的强度以及持续时间 语音的感知 6 各种不同的掩蔽效果 1 纯音调信号间的掩蔽 频率为1kHz声压级不同的纯音调对纯音调的掩蔽阈值曲线 语音的感知 7 2 宽带噪声对纯音调的掩蔽 宽带噪声对纯音调的掩蔽阈值曲线 语音的感知 8 3 窄带噪声对纯音调的掩蔽 中心频率为1kHz 声压级不同的窄带噪声对纯音调的掩蔽曲线 语音的感知 9 中心频率不同的窄带噪声产生的掩蔽阈值曲线的形状是不同的 声压级相同中心频率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音的感知 10 为了描写窄带噪声对纯音调信号的掩蔽效应 引入临界带宽的概念 一个纯音可以被以它为中心频率 且具有一定带宽的连续噪声所掩蔽 如在这一频带内噪声功率等于该纯音的功率 这时该纯音处于刚好能被听到的临界状态 称这一带宽为临界带宽 连续的临界频带序号记为临界频带率 或称为Bark域 为了纪念Barkhauseu 通常将20Hz到16kHz之间的频率用24个频率群来划分 或者说共有24Bark 语音的感知 11 临界带宽表 声压级相同 但临界频带率不同的掩蔽阈值曲线如下图 语音的感知 12 声压级相同 临界频带率不同的窄带噪声对纯音调的掩蔽阈值曲线 语音学基础知识 1 2 3语音学基础知识音素是语音的基本单位 可以分为元音和辅音 元音是指发音的过程中 对声腔气流无明显阻塞而发出的音段 如 a i 等 辅音是声腔气流明显受阻时所发出的音段 如 m n 等 此外还用半元音 双元音 半辅音等等 语音学基础知识 2 对一组语言来讲 可以用一组音素来描述 美国英语包括42个音素 分为 元音12个 双元音6个 半元音4个 辅音20个 汉语普通话是以北京语音为标准音 以北方话为基准 国际上常用的词为 mandarin 汉语采用声韵结构 每个字音分成两部分 前面的部分称为声母 initial 后一部分称为韵母 声母为辅音 但不是所有的辅音都可以做声母 声母共22个 语音学基础知识 3 声母表bpmfdtnlgkhjqxzhchshrzcs韵母可以包括一个元音 也可以包括多个元音 也可以包括辅音 韵母共38个 韵母表Iu Aiauaouoeie eaiuaieiueiaoiaoouiouanianuan aneninuen nangianguangenginguengongiong 语音学基础知识 4 汉语音素为64个 分为辅音 单元音 复元音和复鼻尾音 汉语的每个字就是一个音节 音节由声母和韵母拼接而成 音节中也可以不包含声母 无调音节415个 无调音节列表每个音节可以有四种声调 因此有调音节一千二百多个 语音学基础知识 5 汉语音节的声调主要体现在信号的基音频率随时间而变的规律上 时域 频域处理方法 本部分的内容 时域 频域处理方法 1 主要内容3 1时域处理方法3 2端点检测3 3频域处理方法3 4时频分析技术3 5同态解卷积3 6Mel倒谱系数 时域 频域处理方法 2 3 1时域处理方法3 1 1语音信号的采样和量化采样 sampling 电话语音的采样率为8kHz 纯语音在进行计算机录入时 一般采样率在10kHz 20kHz左右 音乐的采样率可以高达44kHz 采样前 应进行抗混叠滤波 时域 频域处理方法 3 量化 Quantization 就是将整个信号的幅度值分成若干个有限的区间 并且把落入同一个区间的样本点都用同一个幅度值表示 量化级数越多 量化误差越小 每个采样点占用的Bit就会越多 在语音信号处理中常用的有16bit 8bit等量化 时域 频域处理方法 4 3 1 2短时分析语音信号是非平稳信号 但是可以认为10 30ms的时间范围内 语音信号是平稳信号 短时分析将语音信号分为一段一段分析 每段称为一帧 frame 分帧可以连续 也可以交叠 交叠部分称为帧移 时域 频域处理方法 5 数字化语音的采集与存储通常采用中断的方式按采样周期定时采集语音数据 两次采样间的时间段内可进行相关的语音特征计算等 用循环队列的方式来存储语音数据 以便用一个有限容量数据区来应付数据量极大的语音数据 处理时按帧从数据区中取出数据 当前帧处理完后再取下一帧数据 时域 频域处理方法 6 数据循环区 特征循环区 指针 找到语音后 数字化语音的存储 时域 频域处理方法 7 短时分析的最基本手段是对语音信号加窗 将语音分帧 时域 频域处理方法 8 汉明 Hamming 窗 汉宁 Hanning 窗 时域 频域处理方法 9 若把窗函数理解为某个滤波器的单位冲激响应 则可以比较它们的频率响应特性 汉明窗 方窗 汉明窗的带宽大约是矩形窗的两倍 汉明窗能更好地保留原语音信号的频率特性 使用最广泛 时域 频域处理方法 10 3 1 3短时能量 短时平均幅度和短时过零率短时能量其中l是从第n个采样点开始的一帧的帧号 若记 则 实际中 为控制动态范围常采用对数能量 时域 频域处理方法 11 短时平均幅度 短时过零率 单位时间内通过零值的次数 式中 时域 频域处理方法 12 短时平均过零率容易受到低频的干扰 因而提出了门限过零率的思想 时域 频域处理方法 13 3 1 4短时自相关函数自相关函数对于确定性离散信号 其自相关函数为 对于随机或周期性的信号 R k 表示一个信号和延迟k点后的该信号本身的相似性 时域 频域处理方法 14 自相关函数的性质 1 偶函数 2 k 0时函数取最大值 对于确定性信号其值为能量 对于随机信号 其值为该信号的平均功率 3 如果原序列是周期为T的周期信号 那么自相关函数也是周期为T的周期函数 时域 频域处理方法 15 短时自相关函数定义为 短时自相关函数可用于基音周期的检测 下面给出三个自相关函数的图示例子 时域 频域处理方法 16 浊音 峰值约出现在72的倍数上 浊音 峰值约出现在58的倍数上 清音 没有明显的峰值 时域 频域处理方法 17 短时平均幅度差函数为的是简化计算自相关函数 对一个周期信号做差值 则当k与信号的周期吻合时 d n 值最小 时域 频域处理方法 18 3 2端点检测 时域特征的一个应用对语音进行 浊音 清音 无声 的判定 浊音的能量 或幅度 高于清音 清音的过零率高于无声段 在汉语中 浊音处于音节的后部 容易通过短时能量 或幅度 来区别 但在音节的前端 清音与环境噪声则很难区分 时域 频域处理方法 19 双门限法 1 用较高的短时幅度门限MH确保A1 A2肯定是浊音 2 从A1A2开始向两端搜索 短时幅度 较低门限ML的B1 B2还是语音段 3 从B1B2开始向前后搜索 短时过零率 门限Zs的为清音部分 l l 有效语音段 时域 频域处理方法 20 3 3语音信号的频域分析语音的感知过程与人类听觉系统具有频谱分析功能紧密相关 因此 对语音信号进行频谱分析 是认识语音信号和处理语音信号的重要方法 3 3 1滤波器组方法 时域 频域处理方法 21 3 3 2短时傅里叶变换和语谱图 信号x n 的短时傅里叶变换定义为 两种解释 1 当n n0时 是将窗函数起点移到n0处截取信号x n 所得到序列的标准傅里叶变换 时域 频域处理方法 22 在实际计算时 一般用离散傅里叶变换代替连续傅里叶变换 需要对信号进行周期性扩展 2 当时 是信号经过一个中心频率的带通滤波器产生的输出 时域 频域处理方法 23 短时功率谱 可以证明 它是x n 的短时自相关函数的傅里叶变换 语谱图用时间作为横坐标 频率作为纵坐标 将短时功率谱的值表示为灰度级所构成的二维图 时域 频域处理方法 24 开始 语音的宽带语谱图 开始 语音的窄带语谱图 窗长 6 4ms频率分辨率 313Hz 窗长 51 2ms频率分辨率 39Hz 时域 频域处理方法 25 几种基于短时傅里叶变换谱之间的关系 时域 频域处理方法 26 3 4时频分析技术3 4 1传统傅里叶变换的缺点时间分辨率为零基于信号平稳的假设在全频域范围内分辨率相同3 4 2时频分析的引入着眼于真实信号组成成份的时变谱特征 时频分析 设计时间和频率的联合函数 同时描述信号在不同时间和频率的能量密度和强度 时域 频域处理方法 27 3 4 3信号的时频表示将一维的时间信号或频域信号映射成时间 频率平面上的二维信号 信号的瞬时能量和功率谱可以分别表示为 时域 频域处理方法 28 信号在时频域 的能量成分表示为 根据上式可计算在某一特定时间的频率的密度 人们提出了多种时频表示方法 它们各有优缺点 时域 频域处理方法 29 线性时频表示由于傅氏谱具有线性变换的性质 如果信号之间满足线性关系 那么它们的谱函数之间同样满足这样的线性关系 如 时域 频域处理方法 30 由傅氏谱演化而来的线性时频表示也同样满足这样的线性关系 其中是的时频表示 属于这类的时频表示主要有短时傅里叶变换与Gabor变换及小波变换等 希望既具有好的时间分辨率 同时又具有好的频率分辨率 但这要受到下面的不确定原理的制约 3 4 4不确定原理信号波形在频率轴上的扩张和在时间轴上的扩张不可能同时小于某一界限 即若函数和构成一对傅氏变换 则它们不可能同时都是短宽度的 即等号成立充分必要条件是 为高斯函数 对给定的信号 其时宽与带宽的乘积为一常数 时域 频域处理方法 31 3 4 5Gabor变换窗函数取高斯函数时的短时傅里叶变换称为Gabor变换 其定义为 时域 频域处理方法 32 其中 是高斯函数 a是大于零的固定常数 决定时窗的宽度 a取不同值时高斯函数的图形 有效抑制了t n邻域外信号 对应频谱反映局部信息 时域 频域处理方法 33 由于 因此 表明 信号的Gabor变换是对任何a 0在时间附近对傅里叶变换的局部化 仍然是高斯函数 保证了在频域也有局部化的能力 时频窗上的解释 时域窗 频域窗 时 频窗 直观描述了时频局部化的情况 时域 频域处理方法 34 可以证明 Gabor变换是具有最小时频窗的短时傅里叶变换 反映了其某种最佳性 短时傅里叶变换和Gabor变换 时频窗口的形状是固定的 不能随所分析信号的高低频等信息而变化 对非平稳信号分析能力是有限的 希望能用时频分析算法自动适应这一要求 小波变换则具备这一能力 时域 频域处理方法 35 3 4 6小波变换小波 Wavelet 就是指小的波形 小 是它具有衰减性 波 是指波动性 使用一个窗函数 小波函数 其时频窗面积不变 但形状可改变 小波函数根据需要调整时间与频率分辨率 具有多分辨分析的特点 WavesandWavelets 时域 频域处理方法 36 小波母函数满足 依赖参数 a b 的小波 尺度因子a的作用是把基本小波做伸缩 a 1 对小波有伸展作用 表示用伸展的波形去观察整个信号 0 a 1 有压缩作用 表示用压缩的波形去观察信号的局部 b的作用是确定对信号分析的时间位置 时域 频域处理方法 37 小波变换 实质是原来函数在附近按照进行加权平均 体现的是以为标准快慢信号的变化情况 时域 频域处理方法 38 小波分析特点 恒Q性质 Q为母小波的品质因数 定义如下 Q 带宽 中心频率 时域 频域处理方法 39 不同尺度下小波变换所分析的时宽 带宽 时间中心和频率中心的关系如下图 不同尺度下时频窗的面积不变 但提供了一个可调的窗口 小波变换的特点当用较小的a对信号做高频分析时 实际上是用高频小波对信号做细致观察 而用较大的a对信号做低频分析时 实际上是用低频小波对信号做概貌观察 时域 频域处理方法 40 小波变换的多分辨分析从理想滤波器组的角度看 多分辨分析实质上是将信号按频带进行分解 时域 频域处理方法 41 低通滤波器 高通滤波器 0 2的低频部分 反映信号概貌 2 的低频部分 反映信号细节

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论