第4章语音信号的时域分析_第1页
第4章语音信号的时域分析_第2页
第4章语音信号的时域分析_第3页
第4章语音信号的时域分析_第4页
第4章语音信号的时域分析_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国家 “ 十一五 ” 规划教材 数字语音编码 讲议同济大学电子与信息工程学院赵晓群 编著机械工业出版社, 2007年第第 4章 语音信号的时域分析章 语音信号的时域分析4.2 语音信号的数字化与预处理 4.1 概述 4.4 短时平均过零率和上升过零间隔 4.3 短时平均能量和短时平均幅度 4.5 短时自相关函数和短时平均幅度差函数4.6 短时时域处理技术的应用 4.7 中值滤波在语音短时时域处理中的应用 第 4章 语音信号的时域分析4.1 概述语音信号 携带各种信息: 男声 、 女声 , 喜 、 怒 , 中 、 英 等。不同场合感兴趣的信息不同; 判断信号是否为 语音 ,只需人类语音信号的 一般特征 ; 区分语音为 清、浊音 ,需语音 能量谱 和 基频 ; 数字传输或数字存储时,目的 不同 ,保留信息精度 不同 ;语音信号处理 的 任务 : 去除 与应用目的不相干或影响不大的语音信息 需要的信息不仅应当提取出来,有时还需要 加强 。以上涉及语音信号中,各种信息的 表示问题 。表示方法的原则: 最方便 、 最有效 。短时分析 技术 贯穿于 语音分析的全过程。第 4章 语音信号的时域分析 4.1 概述同济大学电子与信息工程学院 - 3 - 赵晓群 教授整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。语音信号分析 : 时域分析 、 频域分析 、 倒频域分析 等;语音信号分析 : 模型分析 、 非模型分析 ;模型分析法是指依据语音信号产生的数学模型,来分析和提取表征这些模型的 特征参数 , 模型分析: 共振峰分析 、 无损级联声管分析法 非模型分析: 不进行模型化的分析语音的预处理 :语音信号的 数字化 、语音信号的 端点检测 、预加重 、 加窗 、 分帧 等,本章重点: 语音信号的各种时域分析技术,是语音处理技术的基础知识。第 4章 语音信号的时域分析 4.1 概述同济大学电子与信息工程学院 - 4 - 赵晓群 教授第 4章 语音信号的时域分析4.2 语音信号的数字化和预处理 信号数字化: 放大 、 增益控制 、 反混叠滤波 、 取样 、A/D变换 及 编码 ( PCM编码 );预处理: 预加重 、 加窗 、 分帧 、 端点检测 等;图 4.1: 语音信号数字 分析 或 处理 的 系统框图 。第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 同济大学电子与信息工程学院 - 5 - 赵晓群 教授图 4.1 语音信号数字处理系统框图反混叠滤波语音输入语音输出A/D转换 分析处理平滑滤波 D/A转换 合成处理传输或存储4.2.1 预滤波、取样、 A/D变换 预滤波: 带通滤波器 (上、下 截止频率 为 fH、 fL) 防混叠滤波 ,抑制 fs/2的输入信号分量( fs为取样频率) 抑制工频干扰 ( 50 Hz电源)。多数 语音编 /译码器: fH = 3.4kHz, fL = 60100Hz, fs= 8kHz。语音识别: 对 电话用户 指标与语音编 /译码器时相同; 要求较高或很高: fH=4.5 or 8kHz, fL=60Hz, fs = 10 or 20kHz。A/D变换需对信号 量化 ,编码为 二进制 ,产生 量化误差 。量化误差 ( 量化噪声 ): 量化信号值 与 原信号值 之差;信号波形的变化 足够大 或量化 间隔足够小 时,量化噪声符合具有下列特征的统计模型: 量化噪声是 平稳的白噪声 过程; 量化噪声与输入信号 不相关 ; 量化噪声在量化间隔内 均匀分布 ,即具有 等概率密度分布 。同济大学电子与信息工程学院 - 6 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 量化信噪比 SNR(信号与量化噪声的功率比)为:式中, 输入 语音信号序列 的 方差 , 噪声序列 的 方差 , 信号的 峰 -峰值 , B 量化字长 ,设语音信号的幅度服从 Laplace分布 ,则取 , 上式改写为:B=7 bit, SNR=35 dB,能 满足一般 通信系统的要求。语音波形的 动态范围 达 55 dB,故 B应取 10 bit以上。为保持 35 dB的 信噪比 ,常用 12 bit量化 ,附加的 5 bit用于 补偿30 dB左右的输入 动态 的变化。 同济大学电子与信息工程学院 - 7 - 赵晓群 教授表明量化器中每 bit字长对SNR的贡献约为 6 dB 第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 A/D变换器: 分为 线性 和 非线性 两类。目前采用绝大部分的 线性 A/D变换器 是 12 bit。非线性 A/D变换器 一般是 8 bit,它与 12 bit线性变换器 等效 。有时需要将非线性的 8 bit码转换为线性的 12 bit码。数字化的 反过程 是从数字化语音中 重构语音 波形。必须在 D/A后加 平滑滤波器 ,对重构的语音波形的高次谐波起平滑作用,以 去除高次谐波 失真。预滤波 、 取样 、 A/D和 D/A变换 、 平滑滤波 等许多功能可以用一块芯片 完成,在市场上有多种这样的 集成芯片 供选用。同济大学电子与信息工程学院 - 8 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 4.2.2 预处理 预处理: 预加重 、 加窗 、 分帧 、 端点检测 等;语音的一个特征: 约 8 kHz高频端按 -6 dB/倍频程 跌落。预加重: 提升 语音的 高频 部分,使信号的频谱变得 平坦 , 可在 反混叠滤波前 ,可 压缩动态范围 , 提高信噪比 。 也可在 数字化后 、 参数分析之前 。预加重 用 6 dB/倍频程 的提升高频特性的 预加重数字滤波器 :式中, 为 常系数 ,值接近于 1,通常取 = 0.920.94。恢复 原信号,对测量值进行 去加重 处理,即加上 -6 dB/倍频程的下降的频率特性来还原成原来的特性。 同济大学电子与信息工程学院 - 9 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 4.2.3 窗函数的作用 采用 连续分段 或 交叠分段 的方法 分帧 , 33 100帧 /秒 。图 4.2: 帧移与帧长示例。帧与帧之间的信号平滑过渡,保持其连续性。帧移: 前后帧的 交叠部分 。帧移 与 帧长 的 比值 一般为 01/2。移动窗函数加权实现:x(n)为 语音信号, w(n)为 窗函数, sw(n)为 窗选语音信号 。 同济大学电子与信息工程学院 - 10 - 赵晓群 教授图 4.2 帧移与帧长的示例 (N为帧长, M为帧移 )理想窗函数的频率响应有一个 很窄的主瓣 ,它增加了频率的分辨度,而 没有旁瓣 。第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 讨论 窗函数 的 形状 和 长度 的影响。1. 窗函数的形状好的窗函数的 标准 : 时域:减小 时间窗两端的 坡度 ,使窗口两端边缘 平滑过渡到到零 , 减小 语音帧的 截断效应 ; 频域:较宽 的 3 dB带宽和 较小 的边带最大值。常用的 窗函数 (窗长为 N):(1) 矩形( rectangular)窗: (2) Hamming(汉明)窗:(3) Hanning(汉宁)窗:同济大学电子与信息工程学院 - 11 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 (4) Bartlett(巴特雷特)窗: (5) Blackman(布累克曼)窗:(6) Kaiser(凯散)窗:式中, 零阶贝塞尔函数 , 同济大学电子与信息工程学院 - 12 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 图 4.3、 4.4 : 窗函数的波形 矩形窗 主瓣最窄 ,频率分辨度最高 ,频率 泄漏最大 ; Blackman窗频率分辨度 最低 ,频率 泄漏最小 。 常用 矩形窗 、 Hamming窗 。同济大学电子与信息工程学院 - 13 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 图 4.3 各种窗函数的时间波形 图 4.4 各种窗的频率响应Bartlett窗 矩形窗Hamming窗 Blackman窗 Hanning窗 Kaiser窗 2. 窗口的长度 取样周期 Ts = fs、 窗口长度 N、 频率分辨率 f 的关系为: Ts一定时, f 随窗口 N增加 而 减小 ,即 f 提高 ,时间分辨率 降低 。 如果窗口 取短 ,频率分辨率 下降 ,时间分辨率 提高 。取样周期和频率分辨率 矛盾 ,应根据需要 选择合适 的窗长。时域分析: N 很大,语音高频受阻,短时能量变化很小,不能反映幅度变化; N 太小,滤波器通带宽,短时能量急剧变化,不能平滑能量函数。通常一帧内应含有 1 7个基音周期。 基音周期变化大,从女性和儿童的 2 ms到老年男子的 14 ms 10 kHz取样时, N 折衷选择为 100 200点( 10 20 ms)。分析条件: (通常需标明,以提供性能评价参考依据)取样频率、精度、预加重方式、窗函数、帧长、帧移 等。 同济大学电子与信息工程学院 - 14 - 赵晓群 教授第 4章 语音信号的时域分析 4.2 语音信号的数字化和预处理 第 4章 语音信号的时域分析4.3 短时能量和短时平均幅度4.3.1 短时能量语音的清音能量 较小 ,浊音能量 较大 。语音的能量分析主要 短时能量 和 短时平均幅度 。n时刻 语音信号的 短时能量 En为:或式中, h(n)=w2(n),可以看做滤波器的 冲激响应函数 。 En反映语音 振幅 或 能量 随 时间 缓慢变化的 规律 。窗函数 或 滤波器 的函数 形式 和 宽度 对能量序列影响很大。选择合适的 窗函数 或滤波器的 冲激响应函数 和它们的 宽度 。用得较多的是 矩形窗 和 Hamming窗 。第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 15 - 赵晓群 教授窗宽的影响:窗函数很宽 或 冲激响应很长 ,平滑作用 显著 ,使 En变化不大,反映不出语音能量的时变特性。窗函数过窄 ,平滑作用 有限 ,仍然保留 瞬时 快变化,使 En反映语音振幅细节,表现不出振幅平方包络的变化规律。当 N小于语音基音周期时,将按照基音周期内语音振幅平方波形的 细节 瞬时变化;当 N比基音周期的若干倍还要大时,各段语音的短时能量差别不大,不能跟随语音能量的时变特性。这两种情况都不能准确描述语音能量自身的实际变化规律。必须选择合适的窗宽,兼顾男声和女声, 10 kHz取样时,选 窗宽 10 20 ms。第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 16 - 赵晓群 教授 图 4.5: 语音的 短时能量 序列的 包络曲线 。第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 17 - 赵晓群 教授(a) 加矩形窗时 (b) 加 Hamming窗时图 4.5 语音 “同舟共济 ”的短时能量函数( 10 kHz取样) 矩形窗比 Hamming窗的平滑效果显著 ; 随着窗宽的增加,平滑效果越显著; 从的包络曲线可以清楚看出清音和浊音之间的 区别 和 分界点 ,4.3.2 短时平均幅度En的计算是 平方求和 ,计算量大;平方运算 扩大 了样本间 差别 ,选窗宽择带来附加的困难。须选择较宽的窗,才能 较好地平滑 平方幅度的起伏。为此,提出语音能量时变性质的 另一个重要参数。n时刻 语音信号的 短时平均幅度 Mn为:或式中, h(n) =w(n) 通常窗函数 w(n)0 ,所以 h(n) = w(n)。 依据 定义式 可导出多种的 计算方法 (略) 。共三种。第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 18 - 赵晓群 教授 图 4.6: 语音的 平均幅度 序列的 包络曲线 。第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 19 - 赵晓群 教授(a) 加矩形窗时 (b) 加 Hamming窗时图 4.6 语音 “同舟共济 ”的短时平均幅度函数( 10 kHz取样)语音的 平均幅度 与 短时能量 具有相似的一些性质 矩形窗比 Hamming窗的平滑效果显著 ; 随着窗宽的增加,平滑效果越显著; 从的包络曲线可以清楚看出清音和浊音之间的 区别 和 分界点 ,比较 En和 Mn( 比较 图 4.6与 4.5 ): 短时平均幅度的差别没有它们的短时能量的差别那么显著; 清音的短时平均幅度比短时能量有所提高。En和 Mn的主要用途: 区分语音的 清音段 与 浊音段 ; 区分 声母 与 韵母 ; 无声 与 有声 的 分界 ; 作为一种 超音段信息 用于语音识别。 第 4章 语音信号的时域分析 4.3 短时能量和短时平均幅度同济大学电子与信息工程学院 - 20 - 赵晓群 教授第 4章 语音信号的时域分析4.4 短时平均过零率和上升过零间隔 4.4.1 短时平均过零率离散信号 相邻样本 取 不同符号 时,称为出现了 过零现象 。过零率: 单位时间过零的次数。窄带离散信号 的 过零率 较准确地度量了信号的 频率特性 。宽带离散信号 的 过零率 只能粗略地反映信号的 频谱特性 。语音信号 是 宽带 、 缓时变信号 ,其频谱特性随时间变化。语音信号的 短时过零率 粗略地表征语音信号的 频谱特性 。语音信号的 过零率序列 能够描述:语音序列的 清音 和 浊音 、 无声 与 有声 等特征,在语音分析中有 重要应用 。第 4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 同济大学电子与信息工程学院 - 21 - 赵晓群 教授n时刻 语音信号的 短时平均过零率 Zn为: 式中,上式的 物理意义 : 当相邻两个样本符号 相同 时, 不产生 过零; 当相邻两个样本符号 相反 时, 产生 一次过零。第 4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 同济大学电子与信息工程学院 - 22 - 赵晓群 教授图 4.7: 语音的 短时平均过零率 的 包络曲线 。浊音频谱主要集中在 3 kHz以下低频区域,超过 4 kHz后频谱幅度迅速下降;而清音频谱幅度在超过 4 kHz后反而呈上升趋势,甚至超过 8 kHz后频谱幅度仍然很大。这表明清音频谱主要集中在高频区域。短时平均过零率粗略地描述了语音信号的频谱特性,并可用于区分浊音和清音。例 : 图 4.7中短时平均过零率高的区段对应清音,过零率低的区段对应浊音。但是,仅用过零率的高低区分清音和浊音并不很准确,因为某些清音和浊音的短时平均过零率的数值相差不多。 同济大学电子与信息工程学院 - 23 - 赵晓群 教授第 4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 图 4.7 语音 “同舟共济 ”的短时平均过零率曲线( 10 kHz取样)(a) 原始语音波形(b) 平均过零率图 4.8: 清音 和 浊音 每 10 ms内 过零数 的 概率分布曲线 。 清音: 10 ms过零数为 49的 概率最大 ,大体上显 正态分布 。 浊音: 10 ms过零数为 14的 概率最大 ,也大致呈 正态分布 。 浊音 和 清音 每 10 ms过零数为 24左右的概率 几乎是相等的 ,因而凭着这类数值就 很难区分 浊音和清音。规定一个 噪声门限 : 样本 超过 门限 正值 ,认为是 正 并赋值, 样本 低于 门限 负值 ,认为是 负 并赋值, 界于 门限 正负值 间,认为是 零 并赋值。为准确判定样本的符号, 应要求 : 信号中 不含直流偏移 ; 噪声 和电源 干扰 尽可能 小 ; 选择合适的 正负门限值 。同济大学电子与信息工程学院 - 24 - 赵晓群 教授第 4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 图 4.8 过零率概率分布图清音 47 浊音 0 10 20 30 40 50 60 70 80每 10 ms内的过零分布144.4.2 短时上升过零间隔 短时平均过零率: 描述复杂波形 “ 频率 ” 特征的一个参数。短时平均上升过零间隔: 描述复杂波形 “ 周期 ” 特性的参数。在一定的噪声背景下, 过零间隔 参数具有很好的顽健性,对不同的语音具有很好的差异性 上升过零点时间 RZCT:当前信号波形样本 大于 或 等于零 ,而其前一点样本 小于零 。上升过零间隔 RZCI:上升过零间隔次数序列 :将各种语音得到的统计出各种长度的间隔出现的次数,由此可以得到上升过零间隔次数序列。第 4章 语音信号的时域分析 4.4 短时平均过零率和上升过零间隔 同济大学电子与信息工程学院 - 25 - 赵晓群 教授第 4章 语音信号的时域分析4.5 短时自相关函数和短时平均幅度差函数 4.5.1 短时自相关函数自相关函数 用于衡量信号自身 时间波形 的 相似性 。清音 和 浊音 的 发声机理 不同, 波形 上存在较大的 差异 。 浊音 的时间波形呈现 准周期性 ,波形之间 相似性较好 ; 清音 的时间波形呈现 随机噪声 的特性,样本间 相似性较差 。可以用短时自相关函数来 测度语音 的 相似特性 。时间离散的 确定信号 , 自相关函数 的定义为:随机信号 或者 周期信号 , 自相关函数 的定义为:第 4章 语音信号的时域分析 4.5 短时自相关函数和短时平均幅度差函数 同济大学电子与信息工程学院 - 26 - 赵晓群 教授自相关函数具有以下性质:(1) 周期性: 周期信号的自相关函数是周期函数;(2) 对称性: R(k) = R(-k) ;(3) 存在最大值: 对所有 k,有 R(0) R(k) ;(4) 对 确定信号 , R(0) = 信号能量 ;对 随机信号 或 周期信号 , R(0) = 平均功率 。短时自

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论