第11章 多带激励声码器.ppt_第1页
第11章 多带激励声码器.ppt_第2页
第11章 多带激励声码器.ppt_第3页
第11章 多带激励声码器.ppt_第4页
第11章 多带激励声码器.ppt_第5页
已阅读5页,还剩46页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国家 十一五 规划教材 数字语音编码 讲议同济大学电子与信息工程学院赵晓群编著机械工业出版社 2007年 第11章多带激励声码器11 1概述CELP MPLPC等 全极点模型 LPC分析 合成 分析法 听觉加权方均误差准则 闭环确定激励参数 这类混合编码 在4 8 16kbit s码率内获得巨大成功 关键技术 是保持了合成语音与原始语音波形的相似性 再降数码率时 合成语音质量迅速下降 LPC声码器 清 浊音 二元激励模型 分析 合成法 LPC分析 清 浊音判别 估计基音周期 SNR较高时 2 4kbit s及以下码率 语音可懂度相当高 以上编码器 当噪声较大时 因无法准确提取参数 性能严重恶化 其它声码器 如通道声码器 同态声码器等也有同样弱点 产生原因 二元激励模型过于简化 不符合实际语音的特性 许多语音段 同时含周期性 非周期性分量 过渡音段 有噪浊音段更是如此 当用二元谱来拟合时 合成语音缺乏自然度 1988年MIT林肯实验室提出多带激励 MBE 语音编码 突破二元激励的局限性 对多个频带逐个进行V U判决 故称为多带激励模型 采用合成 分析法 在2 4 4 8kbit s码率时性能优良 改进方案被国际海事卫星组织采用 INMARSAT MVoiceCodec 码率为6 4kbit s 本章主要内容 MBE原理 参数提取方法 合成语音的方法 重点介绍INMARSAT MVoiceCodec标准的算法 第11章多带激励声码器11 2多带激励语音模型窗选语音信号为 窗长20 40ms 源 系统语音模型理论 语音段是线性系统 声道 对某种激励信号的响应 设系统的单位脉冲响应为 则的Fourier变换可表示为 式中Hw Ew hw n ew n 的Fourier变换 重建语音信号谱Xwr 可表示为 式中Hwr 合成滤波器的系统函数 Ewr 合成滤波器的激励信号的Fourier变换 两者皆从原始语音信号中分析提取 清音波形 Hwr 用全极点函数来逼近 相应于Xwr 的谱包络 MBE按基音各谐波 将语音分成若干个子频带 如以3个相邻的谐波频带为一组进行分带 分别对各子带进行V U判决 激励信号为各子带的和 清音带 用白噪声谱作为激励信号谱 浊音带 用周期性的Pw 作为激励信号谱 激励信号是周期性信号与非周期性噪声按不同频带混合而成 系统函数Hwr 的作用是 调整各子带分量的相对幅度和相位 并将Ew 映射成Xw 该模型较符合实际语音的特性 使合成语音谱同原语音谱在频谱精细结构上拟合得更好 若还利用谱的相位信息 则能够合成出高质量的语音 图11 1 典型的浊音 清音和混合语音段的分析 合成情况 MBE编码过程涉及三种参数的提取 基音频率 每个子带的谱包络的幅度和相位参数 每个子带的V U判决 图11 2 MBE语音编 解码器的简化原理图 a 浊语音段 b 清语音段 c 混合语音段图11 1语音MBE的分析 合成波形 10kHz采样 256点Hamming窗 第11章多带激励声码器11 3多带激励语音分析MBE模型参数的最优提取 计算量大 工程难以实时实现 常用次优算法 分两步完成参数的提取 确定基音频率和每个分带的谱包络参数 用AbS法提取 对每个分带进行V U判决 有两种参数提取方案 使下列加权积分值 加权方均谱误差 为最小 应使下列加权积分值达到最小 式中G 频率加权函数 Xw Xwr 原始语音谱和合成语音谱 差别 方案 利用语音谱的模值 方案 利用模值和相位 性能优于 但计算复杂 码率有所增加 INMARSAT MVoiceCodec采用方案 本节主要内容 11 3 1频域分析11 3 2时域分析11 3 3INMARSAT M改进MBE模型分析算法 11 3 1频域分析1 基音估计及各次谐波幅度的计算设基音周期为T0 基音角频率 0 2 T0 依次假设 0为各种可能出现的值 对于可能的基音角频率值 0 将 分为若干频带 分界点为 am m 0 5 0 bm m 0 5 0 m 0 1 M 1 设每个分带 am bm 中Hwr 保持不变 Hwr Am 则有 式中 总的加权方均谱误差 m 第m子带加权方均谱误差 或 仅考虑幅度谱时 考虑幅度 相位谱时 令或 由上两式可分别解得一组最佳和 或 若第m次谐波的能量显周期性 则其能量集中在该谐波附近 选周期性Pw 的作为激励信号Ewr 则合成语音谱Xwr 与窗选语音谱Xw 在第m次谐波带内将拟合得很好 m最小 若第m次谐波的能量显非周期性 则Xw 在该频带内没有特征性的形状 仍用Pw 作为激励 m值将较大 此时 应选噪声为激励 仅考虑幅度谱时 考虑幅度 相位谱时 分析周期性与非周期性信号激励时的最佳解 浊音频带时 选Pw 为激励信号 由上页两式得 清音频带时 激励采用理想白噪声 幅度谱 1 则有 仅考虑幅度谱时 最佳谱幅度 考虑幅度 相位谱时 最佳谱包络 相位信息无关紧要 在此无需计算Am 对于假定基音频率 0的每一个谐波 计算 Am 或Am 再求出各次谐波内的最小误差 则整个频带的总的最小误差 每假设一个基音频率 0 计算出对应的 0 显然 正确的基音周期或其倍数上 0取极小值 搜索 0的全局最小值对应的T0 2 0值可能是正确的基音周期的某个整数倍值 因而 还需要对T0 2 T0 3 处的 0进行校核 以判断正确的基音周期 从而确定最佳基音周期 最后确定最佳基音周期时 还需要考虑前后帧的情况 一般相邻帧的T0值变化不会太大 2 谐波频带内V U判决第m子带的归一化误差能量为 采用激励信号Pw 谱幅度 Am 或谱包络Am 周期T0 是第m谐波子带的谱拟合误差 令频率加权函数G 1 上式化简为 子带判决 可以将相邻的几个谐波频带合并成一个子频带 用上述同样的方法提取 Am 或Am 并进行V U判决 11 3 2时域分析W 窗函数w n 的Fourier变换 0 归一化基音角频率 基音周期T0 0 2 T0 假设在 频率范围内共2M个谐波 Pw 为激励时 有 式中 令频率加权函数G 1 由前面给出的式子得 全带拟合误差 式中 由上式可求出使 取极小值的矢量a为 再代入上式 结合上页式 得 式中 因此 对于某个选定的T值时 计算min 等价于max 注 上标T为转置H为共轭转置 为了方便 选择窗函数w n 使其满足 频域内正交条件 I是单位矩阵 相当于时域内满足条件 还要求其Fourier变换的泄露足够小 主瓣宽度足够窄 此宽度不应大于基音频率值 满足上述条件且w n 为偶函数时 上页计算 式可改写为 注意到 0M 近似成立 且 0T 2 则上式可简化为 式中T 假定的基音周期 w2 n x n 的自相关函数 由Parseval定理 总拟合误差写成 为了去除由于T值增加造成的 下降 需要对上式修正 以保证真正的基音周期对应的是全局最小值 采用无偏拟合误差公式如下 采用此修正后 归一化总误差能量应写成下列形式 设窗函数w n 长为2N 1 以原点对称 同时假设在窗长范围内有L个假设基音周期 即 则上页式中 uB的求和上下限应作相应的改动 即得到 为粗搜索时确定初始基音周期TI所用的拟合误差时域表达 为提高精度 T值也可取非整数 如20 5 21 21 5 非整数点上的相关函数可插值计算 实验表明 10kHz采样 基音周期的精确可达0 04样点 数码率较低时 4 8kbit s以下 精确到1 4 1 8样点也就满足要求了 这样运算量可以减少很多 11 3 3INMARSAT M改进MBE模型分析算法图11 3 INMARSAT M改进MBE模型算法框图 语音信号 8kHz采样 线性PCM编码 语音样值的最大值定标范围 214 1 215 1 最小值定标范围 215 214 需求出改进MBE模型参数 基音角频率 V U判决 子带谱包络参数 仅考虑幅度谱 1 高通滤波 语音经数字高通滤波器 滤除信号中的直流分量 高通滤波器的截止频率约10Hz 传递函数为 2 低通滤波 低通滤波器输出的信号按下式计算 低通滤波器是21阶FIR数字滤波器 其系数值列于表11 1 3 基音估计基音估计算法 应保持相邻语音帧基音周期的某种连续性 基音跟踪算法 在确定当前帧的基音周期时要考虑相邻的过去帧和将来帧的影响 图11 4 当前帧和前后帧之间的关系 帧长为20ms 160个样点 基音估计算法分 初始估计 精细估计两步进行 初始估计得到初始基音周期 TI TI D 21 21 5 114 精度 1 2采样周期 再由精细估计得出归最终基音周期 精度 1 4采样周期 两步法可降低计算复杂度和提高鲁棒性 算法的重要特点 初始估计和精细估计使用不同长度的窗函数 初始估计窗wI n 长为281个样点 精细估计窗wR n 长为221个样点 皆是对称三角形窗 两窗中点对齐 相邻语音帧之间的重叠量是窗长的函数 重叠量 窗长 帧移动量 160个样点 wR n 时 重叠量61个样点 wR n 时 121个样点 1 基音的初始估计 步骤见图11 5 对每一个可能的基音周期T D 计算误差函数值E T 然后通过前向与后向基音跟综算法 比较求出的值 最终选择最佳的候选者作为TI 计算误差函数 根据归一化总误差能量定义 误差函数E T 定义为 式中wI n 归一化三角形窗函数 满足 当t为整数值时 自相关函数 t 定义为 当t为非整数值时 用线性内插公式计算 t 基音周期的初始估计TI为 采用基音跟踪算法 保证基音周期TI的连续性 后向基音跟踪 E 1 T 1 E 2 T 2 过去两帧对应的误差函数值 因基音周期的连续性 当前帧的基音周期T应在T 1附近 应满足约束条件 在上式范围内逐个选取T 并计算相应的E T 使E T 最小的T就是后向估计TB 计算后向累计误差CE TB CE TB 是后向基音估计的置信度测度 前向基音跟踪 E1 T1 E2 T2 将来两帧对应的误差函数值 将来两帧的基音周期尚未确定 前向基音跟踪算法必须首先设法确定这些基音周期值 在集合D内选定一个T0 按下面的约束条件选取T1 T2 使E1 T1 E2 T2 最小的T1 T2表示为 并按下式计算前向累计误差函数CEF T0 为 重复上述过程 在规定的范围内逐个选定T0 计算相应的CEF T0 使其最小的T0定义为 为防止倍基音周期 考虑取的可能性 要求 选择一个与其最接近的值代替 再检查是否满足下列三个条件之一 且为最小值的 若有 则前向基音估计 否则 完成前 后向基音跟踪 并求得估计值后 按下列判决规则确定初始基音估计TI IfCEb TB 0 48thenTI TBelseifCEb TB CEF TF thenTI TBelseTI TF 最终的基音估计的精度提高到1 4采样周期 2 基音的精细估计图11 6 基音精细估计的方框图 精细估计窗wR n 长221个样点 归一化三角形窗 由基音初始估计TI 产生10个基音精细估计的候选值 将其转换为相应的基音频率 0 2 T0 然后在这10个点上进行细搜索 确定基音周期的精细估计 计算窗选语音和窗函数的离散Fourier变换 对窗选语音信号 计算256点DFT 对窗函数 计算16384点DFT 扩大点数 可保证精度 对每一个假设的 0 求各谐波的最佳谱包络值Am 0 选定 0 则在 之间有个 2 0 谐波分量 两个相邻谐波之间含有256 0 2 个语音信号的DFT点 对于第m次谐波 它的频带下限 上限为 其中 INTx表示取大于或等于x的最小整数 根据式 因窗选激励Pw 在频带内与窗函数主瓣包络形状相同 故用WR 代替Pw 这意味着语音改变一个样点 窗改变64个样点 因此 最佳用下式计算 计算合成语音谱 按下式计算 计算加权总拟合误差 选择最佳 0 或T0 采用DFT的总拟合误差为 在细搜索中 主要考虑高次谐波频带拟合的情况 因此 加权函数在低频端可以取0 求和下限不从1开始 高频端可以取1 求和上限也不必达到127 语音频谱一般限制在200 3600Hz范围内 故按下列公式确定求和上限q 总拟合误差可以改写成 对10个候选基音频率 逐个计算出总拟合误差 使其最小的 0是当前帧基音周期的精细估计值 利用偶对称性 只计算了一半的值 4 V U判决图11 7 V U判决的方框图 利用每个谐波处合成谱与窗选语音谱拟合的程度来确定 若归一化拟合误差 阈值 判定该谐波频带为浊音带 反之为清音带 采用DFT时 前面推导的归一化误差应改写成 也可将几个相邻谐波频带合并成一个频带 根据该频带总拟合误差作出该带的V U判决 实用V U判决方案 最多分12个带 判决方法如下 确定谐波的个数M 计算式 确定子带的个数K 每个子带包含3个谐波分量 见图11 8 子带数的计算式 计算各带的归一化拟合误差 计算式 计算V U的判决阈值 计算式 第一项 随 0增大而变大 当 0增加时谐波个数将减少 拟合误差会变大 此项起到去偏作用 第二项 随 0升高而变小 由于话音高频端通常更具有随机谱的特征 因此 较多地判为清音区会使合成语音听起来自然 第三项 是同语音当前帧能量E0 平均能量Eavg 最小能量Emin 最大能量Emax有关的参数 采用自适应方法 逐帧更新这些参数 以期获得更好的效果 若用E 0 表示当前帧的参数 E 1 表示前一帧的参数 相关量的定义为 且满足的约束条件 求出上述几个能量之后 再确定函数 V U判决 判决规则为 5 求各谐波幅度或包络图11 9 频谱幅度估计框图 改进MBE语音编码器 每个分频带包含3个谐波 谐波结构见图11 8 对于第k个频带 其频带范围为a3k 2 b3k 需要确定3个频谱幅度A3k 2 A3k 1 A3k 浊音带时 按下式计算 如果数码率足够高 也可以直接传送Am 0 清音带时 Am按下式计算 对于最高分频带K 其频带范围是a3k 2 bM 包含M 3k 3个谱幅度 令直流分量A0 0 改进MBE模型的全部参数为 基音周期T0 各带的V U判决Vk k 1 2 K 各谐波处的最佳幅度Am m 1 2 M 参数传送给解码器前 需量化 编码 INMARSAT M语音编码器的比特率为6 4kbit s 帧长20ms 每帧128bit 其中45bit留给信道编码用 余83bit供量化模型参数用 表11 2 比特分配表 参数量化的方法从略 第11章多带激励声码器11 4多带激励语音合成两种合成方法 频域合成法 时域合成法 频域合成法 重建语音谱 求Fourier反变换得时域序列 相当于分析过程的逆过程 特点 比较直接 但不能保证合成语音基音周期的平滑变化 时域合成法 利用插值实现帧间基音周期的平滑过渡 可使合成语音更自然 因此 实际的MBE算法都采用这种方法 下面介绍时域合成法 图11 10 改进MBE语音合成框图 浊音成分与清音成分分开合成 再相加形成完整的合成语音 11 4 1清音成分的合成清音成分的合成用白噪声激励 初始值为u 105 3147 按下式产生一个白噪声序列u n 对相继的合成语音帧 u n 移动20ms 160样点 对u n 加窗 合成窗wx n 长 209样点 因此 在相继合成语音帧之间 噪声序列重叠49样点 对加窗后的u n 进行256点的DFT 得 再根据谐波频带m是浊音区 Vk 1 或清音区 Vk 0 再对Uw l 进行修正得Uwc l 式中 am bm 定义见前面 Am 0 当前帧的Am值 m 伸缩系数 是合成窗wx n 与基音精细估计窗wR n 的函数

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论