最新语音识别技术与声纹鉴定原理_第1页
最新语音识别技术与声纹鉴定原理_第2页
最新语音识别技术与声纹鉴定原理_第3页
最新语音识别技术与声纹鉴定原理_第4页
最新语音识别技术与声纹鉴定原理_第5页
已阅读5页,还剩184页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数字语音处理及matlab仿真 张雪英编著 1 voice recognition 0101 0202 0303 技术简介技术简介 应用领域应用领域 发展前景发展前景 2018年年1月月 数字语音处理及matlab仿真 张雪英编著 2 语音识别是以语音为研究对象,通语音识别是以语音为研究对象,通 过语音信号处理和模式识别让机器过语音信号处理和模式识别让机器 自动识别和理解人类口述的语言。自动识别和理解人类口述的语言。 就是就是让机器听懂你说话让机器听懂你说话。 。 数字语音处理及matlab仿真 张雪英编著 3 语音识别技术的应用包括语音拨号、语语音识别技术的应用包括语音拨号、语 音导航、室内

2、设备控制、语音文档检索、音导航、室内设备控制、语音文档检索、 简单的听写数据录入等。语音识别技术简单的听写数据录入等。语音识别技术 与其他自然语言处理技术如机器翻译及与其他自然语言处理技术如机器翻译及 语音合成技术相结合,可以构建出更加语音合成技术相结合,可以构建出更加 复杂的应用,例如语音到语音的翻译。复杂的应用,例如语音到语音的翻译。 数字语音处理及matlab仿真 张雪英编著 4 人机交互方式 图形用户界面图形用户界面graphic users interface 多点触控多点触控 multi touch 数字语音处理及matlab仿真 张雪英编著 5 应用领域应用领域 数字语音处理及m

3、atlab仿真 张雪英编著 6 siri google now 车载导航车载导航 智能智能pda 数字语音处理及matlab仿真 张雪英编著 7 语音语音 搜索搜索 歌曲歌曲 识别识别 语音语音 控制控制 家电家电 遥控遥控 语音搜索早先的模式是我们可以通过打电话的方式查一些专 项的资讯,比如天气预报或者打12315。随着服务的延伸呢,很 多的企业都尽力了自己的客户专线,实际上这个时候语音信息 的服务就由企业为他的用户提供,主要是产品或者服务的资讯 或者售后服务。常见的有apple的siri和google的google now。 数字语音处理及matlab仿真 张雪英编著 8 语音语音 搜索搜

4、索 歌曲歌曲 识别识别 语音语音 控制控制 家电家电 遥控遥控 生活中,时常听到很熟悉的 旋律,却想不出歌曲的名字。 这个时候我们就可以直接利用 语音识别功能来查找相关歌曲, 常见的有微信摇一摇搜歌,以 及其他音乐播放软件的搜索功 能。 数字语音处理及matlab仿真 张雪英编著 9 语音语音 搜索搜索 歌曲歌曲 识别识别 语音语音 控制控制 家电家电 遥控遥控 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上, 因此在汽车上拨打电话,需要使用具有语音拨号功能的免提 电话通信方式。此外,对汽车的卫星导航定位系统(gps) 的操作,汽车空调、照明以及音响等设备的操作,同样也可 以由语音来方便的

5、控制。 数字语音处理及matlab仿真 张雪英编著 10 语音语音 搜索搜索 歌曲歌曲 识别识别 语音语音 控制控制 家电家电 遥控遥控 用语音可以控制电视机、dvd、空调、电扇、窗帘的操作, 而且一个遥控器就可以把家中的电器皆用语音控起来,这样, 可以让令人头疼的各种电器的操作变得简单易行。 数字语音处理及matlab仿真 张雪英编著 11 随着互联网的快速发展,以及手 机等移动终端的普及应用,目前可以从 多个渠道获取大量文本或语音方面的语 料,这为语音识别中的语言模型和声学 模型的训练提供了丰富的资源,使得构 建通用大规模语言模型和声学模型成为 可能。 数字语音处理及matlab仿真 张雪

6、英编著 12 目前,国外的应用一直以苹果的 siri、谷歌的google now为代表。 国内方面,科大讯飞、云知声、盛大、 捷通华声、搜狗语音助手、紫冬口译、 百度语音等系统都采用了最新的语音识 别技术,市面上其他相关的产品也直接 或间接嵌入了类似的技术。 数字语音处理及matlab仿真 张雪英编著 13 发展前景 语音识别系统的出现,会让人 更加自由的沟通,让人在任何地方, 任何时间,对任何事都能够通过语音 交互的方式,方便地享受到更多的社 会信息资源和现代化服务。这必然会 成为语音识别技术研究和应 用的重要发展趋势。 数字语音处理及matlab仿真 张雪英编著 14 发展前景 但任何技术

7、的成熟都会经历 一段很长时间的发展期,所以目 前依然有识别率、可靠性及成本 等问题亟待人们去克服。 数字语音处理及matlab仿真 张雪英编著 15 数字语音处理及matlab仿真 张雪英编著 16 数字语音处理及matlab仿真 张雪英编著 17 主要问题 对自然语言的识别和理解。首先必 须将连续的讲话分解为词、音素等单 位,其次要建立一个理解语义的规则。 语音信息量大。语音模式不仅对不 同的说话人不同,对同一说话人也是 不同的,例如,一个说话人在随意说 话和认真说话时的语音信息是不同的。 一个人的说话方式随着时间变化。 数字语音处理及matlab仿真 张雪英编著 18 主要问题 语音的模糊

8、性。说话者在讲话时, 不同的词可能听起来是相似的。这在 英语和汉语中常见。 4.环境噪声和干扰对语音识别有严重 影响,致使识别率低。 数字语音处理及matlab仿真 张雪英编著 19 语音识别语音识别 概述概述 1 hmm基本原理及在语音识别中基本原理及在语音识别中 的应用的应用 2 数字语音处理及matlab仿真 张雪英编著 20 10.1 概述概述 语音识别以语音为研究对象,涉及到生理学、语音识别以语音为研究对象,涉及到生理学、 心理学、语言学、计算机科学,以及信号处理等心理学、语言学、计算机科学,以及信号处理等 诸多领域,最终目的是实现人与机器进行自然语诸多领域,最终目的是实现人与机器进

9、行自然语 言通信,用语言操纵计算机。言通信,用语言操纵计算机。 语音识别系统可以分为孤立字语音识别系统可以分为孤立字( (词词) )语音识别语音识别 系统、连接字语音识别系统以及连续语音识别系系统、连接字语音识别系统以及连续语音识别系 统。统。 数字语音处理及matlab仿真 张雪英编著 21 语音识别系统分为两个方向:一是根据对说语音识别系统分为两个方向:一是根据对说 话人的依赖程度可以分为特定人和非特定人语音话人的依赖程度可以分为特定人和非特定人语音 识别系统;二是根据词汇量大小,可以分为小词识别系统;二是根据词汇量大小,可以分为小词 汇量、中等词汇量、大词汇量,以及无限词汇量汇量、中等词

10、汇量、大词汇量,以及无限词汇量 语音识别系统。语音识别系统。 不同的语音识别系统,尽管设计和实现的细不同的语音识别系统,尽管设计和实现的细 节不同,但所采用的基本技术是相似的。一个典节不同,但所采用的基本技术是相似的。一个典 型的语音识别系统如下页图所示。主要包括预处型的语音识别系统如下页图所示。主要包括预处 理、特征提取和训练识别网络。理、特征提取和训练识别网络。 数字语音处理及matlab仿真 张雪英编著 22 输入输入 预处理预处理特征提取特征提取 训练识别训练识别 网络网络 输出输出 语音识别系统组成部分图示语音识别系统组成部分图示 数字语音处理及matlab仿真 张雪英编著 23 1

11、0.1.1 预处理预处理 在语音识别系统中,语音信号预处理主要包在语音识别系统中,语音信号预处理主要包 括抗混叠滤波、预加重及端点检测等。括抗混叠滤波、预加重及端点检测等。 1抗混叠滤波与预加重抗混叠滤波与预加重 语音信号的频谱分量主要集中在语音信号的频谱分量主要集中在3003400hz 范围内。因此需用一个防混叠的带通滤波器将此范围内。因此需用一个防混叠的带通滤波器将此 范围内的语音信号的频谱分量取出,然后对语音范围内的语音信号的频谱分量取出,然后对语音 信号进行采样,得到离散的时域语音信号。信号进行采样,得到离散的时域语音信号。 数字语音处理及matlab仿真 张雪英编著 24 抗混叠滤波

12、抗混叠滤波 根据采样定理,如果模拟信号的频谱的带宽根据采样定理,如果模拟信号的频谱的带宽 是有限的,那么用等于或高于是有限的,那么用等于或高于2 2fm的取样频率进行的取样频率进行 采样,所得到的信号能够完全唯一的代表原模拟采样,所得到的信号能够完全唯一的代表原模拟 信号,或者说能够由取样信号恢复出原始信号。信号,或者说能够由取样信号恢复出原始信号。 因此,为了防止混叠失真和噪声干扰,必须因此,为了防止混叠失真和噪声干扰,必须 在采样前用一个锐截止模拟低通滤波器对语音信在采样前用一个锐截止模拟低通滤波器对语音信 号进行滤波。该滤波器称为反混叠滤波器或去伪号进行滤波。该滤波器称为反混叠滤波器或去

13、伪 滤波器。滤波器。 数字语音处理及matlab仿真 张雪英编著 25 预加重预加重 语音从嘴唇辐射会有语音从嘴唇辐射会有6db/oct的衰减,因此的衰减,因此 在对语音信号进行处理之前,希望能按在对语音信号进行处理之前,希望能按6db/oct的的 比例对信号加以提升比例对信号加以提升(或加重或加重),以使得输出信号,以使得输出信号 的电平相近似。可采用以下差分方程定义的数字的电平相近似。可采用以下差分方程定义的数字 滤波器:滤波器: ( )( )(1)y nx nax n(10-1) 式中,系数常在式中,系数常在0.9至至1之间选取。之间选取。 数字语音处理及matlab仿真 张雪英编著 2

14、6 2端点检测端点检测 语音信号起止点的判别是任何一个语音识别系语音信号起止点的判别是任何一个语音识别系 统必不可少的组成部分。常用的端点检测方法有统必不可少的组成部分。常用的端点检测方法有 下面两种。下面两种。 数字语音处理及matlab仿真 张雪英编著 27 (1) 短时平均幅度短时平均幅度 端点检测中需要计算信号的短时能量,由于端点检测中需要计算信号的短时能量,由于 短时能量的计算涉及到平方运算,而平方运算势短时能量的计算涉及到平方运算,而平方运算势 必扩大了振幅不等的任何相邻取样值之间的幅度必扩大了振幅不等的任何相邻取样值之间的幅度 差别,这就给窗的宽度选择带来了困难,而用短差别,这就

15、给窗的宽度选择带来了困难,而用短 时平均幅度来表示语音能量,在一定程度上可以时平均幅度来表示语音能量,在一定程度上可以 克服这个弊端。克服这个弊端。 数字语音处理及matlab仿真 张雪英编著 28 (2) (2) 短时平均过零率短时平均过零率 当离散信号的相邻两个取样值具有不同的符当离散信号的相邻两个取样值具有不同的符 号时,便出现过零现象,单位时间内过零的次数号时,便出现过零现象,单位时间内过零的次数 叫做过零率。叫做过零率。 如果离散时间信号的包络是窄带信号,那么如果离散时间信号的包络是窄带信号,那么 过零率可以比较准确的反应该信号的频率。在宽过零率可以比较准确的反应该信号的频率。在宽

16、带信号情况下,过零率只能粗略的反映信号的频带信号情况下,过零率只能粗略的反映信号的频 谱特性。谱特性。 数字语音处理及matlab仿真 张雪英编著 29 10.1.2 语音识别特征提取语音识别特征提取 特征提取,也称为前端处理,与之相关的内特征提取,也称为前端处理,与之相关的内 容则是特征间的距离度量。容则是特征间的距离度量。 特征提取:即对不同的语音寻找其内在特征,特征提取:即对不同的语音寻找其内在特征, 由此来判别出未知语音,所以每个语音识别系统都由此来判别出未知语音,所以每个语音识别系统都 必须进行特征提取。必须进行特征提取。 特征的选择对识别效果至关重要。同时,还要特征的选择对识别效果

17、至关重要。同时,还要 考虑特征参数的计算量。考虑特征参数的计算量。 数字语音处理及matlab仿真 张雪英编著 30 孤立词语音识别系统的特征提取一般需要解孤立词语音识别系统的特征提取一般需要解 决两个问题:决两个问题: 一个是从语音信号中提取一个是从语音信号中提取( (或测量或测量) )有代表性有代表性 的合适的特征参数的合适的特征参数( (即选取有用的信号表示即选取有用的信号表示) ); 另一个是进行适当的数据压缩。另一个是进行适当的数据压缩。 对于非特定人语音识别来讲,希望特征参数对于非特定人语音识别来讲,希望特征参数 尽可能多的反映语义信息,尽量减少说话人的个尽可能多的反映语义信息,尽

18、量减少说话人的个 人信息人信息( (对特定人语音识别来讲,则相反对特定人语音识别来讲,则相反) )。从信。从信 息论角度讲,这也是信息压缩的过程。息论角度讲,这也是信息压缩的过程。 数字语音处理及matlab仿真 张雪英编著 31 语音信号的特征主要有时域和频域两种。语音信号的特征主要有时域和频域两种。 时域特征:短时平均能量、短时平均过零率、时域特征:短时平均能量、短时平均过零率、 共振峰、基音周期等;共振峰、基音周期等; 频域特征:线性预测系数频域特征:线性预测系数(lpc)、lp倒谱系数倒谱系数 (lpcc)、线谱对参数、线谱对参数(lsp)、短时频谱、短时频谱、mel频率频率 倒谱系数

19、倒谱系数(mfcc)等。等。 目前已有结合时间和频率的特征,即时频谱,目前已有结合时间和频率的特征,即时频谱, 充分利用了语音信号的时序信息;以及基于听觉充分利用了语音信号的时序信息;以及基于听觉 模型的特征参数提取,如感知线性预测模型的特征参数提取,如感知线性预测(plp)分析。分析。 数字语音处理及matlab仿真 张雪英编著 32 1线性预测系数(线性预测系数(lpc) 线性预测分析从人的发声机理入手,通过对线性预测分析从人的发声机理入手,通过对 声道的短管级联模型的研究,认为系统的传递函声道的短管级联模型的研究,认为系统的传递函 数符合全极点数字滤波器的形式,从而某一时刻数符合全极点数

20、字滤波器的形式,从而某一时刻 的信号可以用前若干时刻的信号的线性组合来估的信号可以用前若干时刻的信号的线性组合来估 计。通过使实际语音的采样值和线性预测采样值计。通过使实际语音的采样值和线性预测采样值 之间达到均方误差之间达到均方误差(mse)最小,即可得到线性预最小,即可得到线性预 测系数测系数lpc。 数字语音处理及matlab仿真 张雪英编著 33 根据语音产生的模型,语音信号根据语音产生的模型,语音信号s(z)是一个是一个 线性非移变因果稳定系统线性非移变因果稳定系统v(z)受到信号受到信号e(z)激励产激励产 生的输出。在时域中,语音信号生的输出。在时域中,语音信号s(n)是该系统的

21、是该系统的 单位取样响应单位取样响应v(n)和激励信号和激励信号e(n)的卷积。语音产的卷积。语音产 生的声道模型是一个可用下式阐述的全极点模型:生的声道模型是一个可用下式阐述的全极点模型: p k k kz a zh 1 1 1 )( 数字语音处理及matlab仿真 张雪英编著 34 根据最小均方误差对该模型参数根据最小均方误差对该模型参数ak进行估计,进行估计, 就得到了线性预测编码就得到了线性预测编码(lpc)算法,求得的算法,求得的 即为即为lp系数系数(p为预测器阶数为预测器阶数)。对。对lpc的计算方的计算方 法有自相关法法有自相关法(levinson-durbin莱文逊莱文逊-杜

22、宾法杜宾法)、 协方差法、格型法等。计算上的快速有效保证了协方差法、格型法等。计算上的快速有效保证了 这一声学特征的广泛使用。这一声学特征的广泛使用。 p a 数字语音处理及matlab仿真 张雪英编著 35 2lpc倒谱系数倒谱系数(lpcc) 倒谱系数是信号的倒谱系数是信号的z变换的对数模函数的逆变换的对数模函数的逆z 变换,一般先求信号的傅里叶变换,取模的对数,变换,一般先求信号的傅里叶变换,取模的对数, 再求傅里叶逆变换得到。再求傅里叶逆变换得到。 主要优点:比较彻底地去掉了语音产生过程主要优点:比较彻底地去掉了语音产生过程 中的激励信息,反映了声道响应,而且往往只需中的激励信息,反映

23、了声道响应,而且往往只需 要几个倒谱系数就能够很好地描述语音的共振峰要几个倒谱系数就能够很好地描述语音的共振峰 特性。特性。 数字语音处理及matlab仿真 张雪英编著 36 3mel频率倒谱系数频率倒谱系数(mfcc) mel频率倒谱系数是先将信号频谱的频率轴频率倒谱系数是先将信号频谱的频率轴 转变为转变为mel刻度,再变换到倒谱域得到倒谱系数。刻度,再变换到倒谱域得到倒谱系数。 其计算过程如下:其计算过程如下: (1) 将信号进行短时傅立叶变换得到其频谱。将信号进行短时傅立叶变换得到其频谱。 (2) 求频谱幅度的平方,即能量谱,并用一组三角求频谱幅度的平方,即能量谱,并用一组三角 滤波器在

24、频域对能量进行带通滤波。滤波器在频域对能量进行带通滤波。 (3) 对滤波器的输出取对数,然后作对滤波器的输出取对数,然后作2m点傅立叶点傅立叶 逆变换即可得到逆变换即可得到mfcc。 数字语音处理及matlab仿真 张雪英编著 37 这里,这里,mfcc系数的个数系数的个数l通常取最低的通常取最低的12 16。在谱失真测度定义中通常不用。在谱失真测度定义中通常不用0阶倒谱系数,阶倒谱系数, 因为它是反映倒谱能量的。上面所说的在频域进行因为它是反映倒谱能量的。上面所说的在频域进行 带通滤波是对能量谱进行滤波,这样做的根据是考带通滤波是对能量谱进行滤波,这样做的根据是考 虑到一个多分量信号的总能量

25、应该是各个正交分量虑到一个多分量信号的总能量应该是各个正交分量 的能量之和。的能量之和。 1 log( )cos (0.5) / 1,2, m n k cx kkn mnl 数字语音处理及matlab仿真 张雪英编著 38 4. 过零峰值幅度过零峰值幅度(zcpa) 特征参数的好坏直接决定着系统的识别性能。特征参数的好坏直接决定着系统的识别性能。 要想使识别系统有好的鲁棒性,必须要求提取的要想使识别系统有好的鲁棒性,必须要求提取的 特征参数有很强的抗噪性。特征参数有很强的抗噪性。 人类的听觉系统在噪音环境下能够很好工作,人类的听觉系统在噪音环境下能够很好工作, 所以如果语音识别系统能模拟人类听

26、觉感知的处所以如果语音识别系统能模拟人类听觉感知的处 理特点,噪音环境下识别率一定会提高。理特点,噪音环境下识别率一定会提高。 数字语音处理及matlab仿真 张雪英编著 39 近年来,基于听觉模型的语音特征提取方法近年来,基于听觉模型的语音特征提取方法 在语音识别领域日益受到重视。在语音识别领域日益受到重视。 过零峰值幅度特征过零峰值幅度特征zcpa就是基于人类听觉就是基于人类听觉 特性的一种特征。特性的一种特征。 下图给出了基于人耳听觉特性的下图给出了基于人耳听觉特性的zcpa特征特征 提取原理图:提取原理图: 数字语音处理及matlab仿真 张雪英编著 40 zcpa原理框图原理框图 x

27、(n) 耳蜗滤耳蜗滤 波器波器 m 耳蜗滤耳蜗滤 波波 器器 2 耳蜗滤耳蜗滤 波波 器器 1 1 zcpa(t,f) 耳蜗滤耳蜗滤 波波 器器 i 过零点过零点 检测器检测器 频频 率率 接收器接收器 峰峰 值值 检测器检测器 非线性非线性 处处 理理 数字语音处理及matlab仿真 张雪英编著 41 该系统由带通滤波器组、过零检测器、峰值该系统由带通滤波器组、过零检测器、峰值 检测器、非线性压缩和频率接收器组成。带通滤检测器、非线性压缩和频率接收器组成。带通滤 波器组由波器组由16个个fir滤波器组成,用来仿真耳蜗基滤波器组成,用来仿真耳蜗基 底膜;过零检测器、峰值检测器、非线性压缩部底膜

28、;过零检测器、峰值检测器、非线性压缩部 分则仿真听觉神经纤维。从过零检测器获得频率分则仿真听觉神经纤维。从过零检测器获得频率 信息,峰值检测器获得强度信息,经非线性压缩信息,峰值检测器获得强度信息,经非线性压缩 后,用频率接收器合成频率信息和强度信息,最后,用频率接收器合成频率信息和强度信息,最 后将后将16路所获得的信息合成为语音信号的特征。路所获得的信息合成为语音信号的特征。 数字语音处理及matlab仿真 张雪英编著 42 10.1.3 语音识别方法语音识别方法 一般来说,语音识别的方法有四种:一般来说,语音识别的方法有四种: 基于声道模型和语音知识的方法基于声道模型和语音知识的方法 模

29、式匹配的方法模式匹配的方法 统计模型方法统计模型方法 人工神经网络的方法人工神经网络的方法 基于声道模型和语音知识的方法起步较早,基于声道模型和语音知识的方法起步较早, 没有达到实用的阶段。目前常用的方法是后三种没有达到实用的阶段。目前常用的方法是后三种 方法,目前它们都已达到了实用阶段。方法,目前它们都已达到了实用阶段。 数字语音处理及matlab仿真 张雪英编著 43 模式匹配常用的技术有矢量量化(模式匹配常用的技术有矢量量化(vq)和)和 动态时间规整(动态时间规整(dtw);); 统计型模型方法常见的是隐马尔可夫模型统计型模型方法常见的是隐马尔可夫模型 (hmm); 语音识别常用的神经

30、网络有反向传播(语音识别常用的神经网络有反向传播(bp) 网络、径向基函数网络(网络、径向基函数网络(rbf)及小波网络。)及小波网络。 本书重点介绍经典的隐马尔可夫模型及其在本书重点介绍经典的隐马尔可夫模型及其在 语音识别中的应用。语音识别中的应用。 数字语音处理及matlab仿真 张雪英编著 44 模式匹配法用于语音识别共有四个步骤模式匹配法用于语音识别共有四个步骤:特征特征 提取、模板训练、模板分类、判决。其原理框图提取、模板训练、模板分类、判决。其原理框图 如下:如下: 识识别别结结果果 识识别别 语语音音信信号号 预预处处理理 特特征征提提取取 模模式式匹匹配配 参参考考模模式式 判

31、判决决规规则则 s 训训练练 数字语音处理及matlab仿真 张雪英编著 45 训练过程:输入语音经过预处理后,语音信训练过程:输入语音经过预处理后,语音信 号的特征被提取出来,首先在此基础上建立所需号的特征被提取出来,首先在此基础上建立所需 的模板,这个建立模板的过程称为训练过程。的模板,这个建立模板的过程称为训练过程。 识别过程:根据语音识别整体模型,将输入识别过程:根据语音识别整体模型,将输入 的语音信号特征与存在的语音模板(参考模式)的语音信号特征与存在的语音模板(参考模式) 进行比较,找出一系列最优的与输入的语音相匹进行比较,找出一系列最优的与输入的语音相匹 配的模板。然后,根据此模

32、板号的定义,通过查配的模板。然后,根据此模板号的定义,通过查 表就可以给出计算机的识别结果。表就可以给出计算机的识别结果。 数字语音处理及matlab仿真 张雪英编著 46 动态时间规整(动态时间规整(dtw)算法的思想:)算法的思想: 把未知量均匀地伸长或缩短,直到它与参考把未知量均匀地伸长或缩短,直到它与参考 模式的长度一致时为止。在时间规整过程中,未模式的长度一致时为止。在时间规整过程中,未 知单词的时间轴要不均匀地扭曲或弯折,以便使知单词的时间轴要不均匀地扭曲或弯折,以便使 其特征与模型特征对正。其特征与模型特征对正。 dtw应用动态规划方法在孤立词语音识别应用动态规划方法在孤立词语音

33、识别 中获得了良好性能。但因其不适合连续语音大词中获得了良好性能。但因其不适合连续语音大词 汇量语音识别系统,目前已被汇量语音识别系统,目前已被hmm模型和模型和ann 替代。替代。 数字语音处理及matlab仿真 张雪英编著 47 隐马尔可夫模型是对语音信号的时间序列结隐马尔可夫模型是对语音信号的时间序列结 构建立统计模型,将之看作一个数学上的双重随构建立统计模型,将之看作一个数学上的双重随 机过程:机过程: 一个是用具有有限状态数的一个是用具有有限状态数的markov链来模拟链来模拟 语音信号统计特性变化的隐含的随机过程,另一语音信号统计特性变化的隐含的随机过程,另一 个是与个是与mark

34、ov链的每一个状态相关联的观测序列链的每一个状态相关联的观测序列 的随机过程。前者通过后者表现出来,但前者的的随机过程。前者通过后者表现出来,但前者的 具体参数是不可测的。具体参数是不可测的。 数字语音处理及matlab仿真 张雪英编著 48 基于基于hmm的孤立词语音识别原理图的孤立词语音识别原理图 数字语音处理及matlab仿真 张雪英编著 49 采用采用hmm进行语音识别,实质上是一种概进行语音识别,实质上是一种概 率运算。根据训练集数据计算得出模型参数后,率运算。根据训练集数据计算得出模型参数后, 测试集数据只需分别计算各模型的条件概率测试集数据只需分别计算各模型的条件概率 (vite

35、rbi算法),取此概率最大者即为识别结果。算法),取此概率最大者即为识别结果。 除训练时需运算量较大外,识别时的运算量除训练时需运算量较大外,识别时的运算量 仅有模式匹配法的几分之一。仅有模式匹配法的几分之一。 数字语音处理及matlab仿真 张雪英编著 50 人工神经网络(人工神经网络(ann)在语音识别中的应用)在语音识别中的应用 是当前研究的热点。人工神经网络本质上是一个是当前研究的热点。人工神经网络本质上是一个 自适应非线性动力学系统,模拟了人类神经元活自适应非线性动力学系统,模拟了人类神经元活 动的原理,具有自适应性、并行性、鲁棒性、容动的原理,具有自适应性、并行性、鲁棒性、容 错性

36、和学习特性。目前用于语音识别的神经网络错性和学习特性。目前用于语音识别的神经网络 有多层感知机,有多层感知机,kohonen自组织神经网和预测神自组织神经网和预测神 经网。经网。 数字语音处理及matlab仿真 张雪英编著 51 由于神经网络反映了人脑功能的基本特征,由于神经网络反映了人脑功能的基本特征, 具有自组织性、自适应性、和连续学习的能力。具有自组织性、自适应性、和连续学习的能力。 这种网络是可以训练的,即可以随着经验的积这种网络是可以训练的,即可以随着经验的积 累而改变自身的性能。同时由于高度的并行性,累而改变自身的性能。同时由于高度的并行性, 它们能够进行快速判决并具有容错性,特别

37、适它们能够进行快速判决并具有容错性,特别适 合于解决象语音识别这类难以用算法来描述而合于解决象语音识别这类难以用算法来描述而 又有大量样本可供学习的问题。又有大量样本可供学习的问题。 数字语音处理及matlab仿真 张雪英编著 52 基于神经网络的语音识别原理图基于神经网络的语音识别原理图 待识别的待识别的 语音数据语音数据 权值权值w 根据标号训练根据标号训练 网络得出权值网络得出权值 已有神经已有神经 网络模型网络模型 输出结果输出结果 特特 征征 提提 取取 用于训练的用于训练的 语音数据语音数据 数字语音处理及matlab仿真 张雪英编著 53 神经网络的语音识别方法与传统方法差异:神

38、经网络的语音识别方法与传统方法差异: 提取了语音的特征参数后,靠神经网络中大提取了语音的特征参数后,靠神经网络中大 量的连接权对输入模式进行非线性运算,产生最量的连接权对输入模式进行非线性运算,产生最 大兴奋的输入点就代表了输入模式对应的分类。大兴奋的输入点就代表了输入模式对应的分类。 神经网络的连接权系数是在使用中根据识别结果神经网络的连接权系数是在使用中根据识别结果 的正确与否不断的进行自适应修正。的正确与否不断的进行自适应修正。 比较起来,神经网络识别系统更接近人类的比较起来,神经网络识别系统更接近人类的 感知过程。感知过程。 数字语音处理及matlab仿真 张雪英编著 54 矢量量化技

39、术在语音识别中应用时,一般是矢量量化技术在语音识别中应用时,一般是 先用矢量量化的码本作为语音识别的参考模板,先用矢量量化的码本作为语音识别的参考模板, 即系统词库中的每一个即系统词库中的每一个(字字)词,做一个码本作为词,做一个码本作为 该该(字字)词的参考模板。词的参考模板。 识别时对于任意输入的语音特征矢量序识别时对于任意输入的语音特征矢量序 列列 ,计算该序列对每一个码本的总平均,计算该序列对每一个码本的总平均 的失真量化误差。总平均失真误差最小的码本所的失真量化误差。总平均失真误差最小的码本所 对应的对应的(字字)词即为识别结果。词即为识别结果。 n xxx, 21 数字语音处理及m

40、atlab仿真 张雪英编著 55 矢量量化在语音识别中的应用矢量量化在语音识别中的应用 预处理预处理 参数提取参数提取 码本码本1 码本码本2 码本码本m 判决逻辑判决逻辑 模型模型1 模型模型2 语音语音 信号信号识别输识别输 出结果出结果 数字语音处理及matlab仿真 张雪英编著 56 10.2 hmm基本原理及在语音识基本原理及在语音识 别中的应用别中的应用 10.2.1 隐马尔可夫模型隐马尔可夫模型 马尔可夫过程(或马尔可夫链)直观解释是:马尔可夫过程(或马尔可夫链)直观解释是: 在已知系统目前的状态在已知系统目前的状态(现在现在)的条件下,的条件下,“将将 来来”与与“过去过去”无

41、关。这种过程也称为无记忆的单无关。这种过程也称为无记忆的单 随机过程。如果这种单随机过程的取值随机过程。如果这种单随机过程的取值(状态状态)是离是离 散的,我们又可以将它称作无记忆的离散随机过程。散的,我们又可以将它称作无记忆的离散随机过程。 数字语音处理及matlab仿真 张雪英编著 57 假设有一个系统,它在任何时间可以认为假设有一个系统,它在任何时间可以认为 处在有限多个状态的某个状态下。在均匀划分处在有限多个状态的某个状态下。在均匀划分 地时间间隔上,系统的状态按一组概率发生改地时间间隔上,系统的状态按一组概率发生改 变(包括停留在原状态),这组概率值和状态变(包括停留在原状态),这组

42、概率值和状态 有关,而且这个状态对应于一个可观测的物理有关,而且这个状态对应于一个可观测的物理 事件,因此称之为可观测马尔可夫过程。事件,因此称之为可观测马尔可夫过程。 数字语音处理及matlab仿真 张雪英编著 58 不可测不可测(随机随机)的双随机过程只能通过另一组的双随机过程只能通过另一组 随机过程才能观测到,另一组随机过程产生出观随机过程才能观测到,另一组随机过程产生出观 测序列(行为),而这组行为是可见不可测的。测序列(行为),而这组行为是可见不可测的。 因此,这种双随机过程称为隐马尔可夫模型因此,这种双随机过程称为隐马尔可夫模型(或或 隐马尔可夫过程隐马尔可夫过程)。通常,。通常,

43、hmm对应的状态被假对应的状态被假 设为离散的,且其演变是无记忆的,因而,设为离散的,且其演变是无记忆的,因而, hmm也被称为无记忆的离散双随机过程。也被称为无记忆的离散双随机过程。 数字语音处理及matlab仿真 张雪英编著 59 隐马尔可夫过程是一个双重随机过程:隐马尔可夫过程是一个双重随机过程: 一重用于描述非平稳信号的短时平稳段的统一重用于描述非平稳信号的短时平稳段的统 计特征计特征(信号的瞬态特征,可直接观测到信号的瞬态特征,可直接观测到);另一;另一 重随机过程描述了每个短时平稳段如何转变到下重随机过程描述了每个短时平稳段如何转变到下 一个短时平稳段,即短时统计特征的动态特性一个

44、短时平稳段,即短时统计特征的动态特性(隐隐 含在观察序列中含在观察序列中)。 基于这两重随机过程,基于这两重随机过程,hmm既可有效解决既可有效解决 怎样辨识具有不同参数的短时平稳信号段,又可怎样辨识具有不同参数的短时平稳信号段,又可 解决怎样跟踪它们之间的转化等问题。解决怎样跟踪它们之间的转化等问题。 数字语音处理及matlab仿真 张雪英编著 60 人的言语过程也是这样一个双重随机过程。人的言语过程也是这样一个双重随机过程。 因为语音信号本身是一个可观察的序列,而它又因为语音信号本身是一个可观察的序列,而它又 是由大脑里的(不可观察的)、根据言语需要和是由大脑里的(不可观察的)、根据言语需

45、要和 语法知识语法知识(状态选择状态选择)所发出的音素所发出的音素(词、句词、句)的参的参 数流,大量实验表明,数流,大量实验表明,hmm的确可以非常精确的确可以非常精确 地描述语音信号的产生过程。地描述语音信号的产生过程。 数字语音处理及matlab仿真 张雪英编著 61 (1) n模型的状态数目。模型的状态数目。 状态的集合表示为状态的集合表示为 (2) m观测符号数。观测符号数。 即每个状态可能输出的观测符号的数目。即每个状态可能输出的观测符号的数目。 观测符号集合表示为观测符号集合表示为 (3) a状态转移概率分布。状态转移概率分布。 状态转移概率构成的矩阵为状态转移概率构成的矩阵为

46、,., 21n ssss ,., 21m oooo njisqsqpaaa itjtijij ,1,|, 1 一个隐马尔可夫模型由下列参数来决定:一个隐马尔可夫模型由下列参数来决定: 数字语音处理及matlab仿真 张雪英编著 62 (4) b状态的观测符号概率分布。状态的观测符号概率分布。 (5) 初始状态分布。初始状态分布。 为了完整地描述一个隐马尔可夫模型,应当为了完整地描述一个隐马尔可夫模型,应当 指定状态数指定状态数n,观测符号数,观测符号数m,以及三个概率密,以及三个概率密 度度a、b和和 。这些参数之间有一定的联系,因此。这些参数之间有一定的联系,因此 为了方便,为了方便,hmm

47、常用常用 来简记。来简记。 mknj sqotpobobb jtkkjkj 1 ,1 |)(),(时刻的输出符号为在 nisqp iii 1, 1 ),(ba 数字语音处理及matlab仿真 张雪英编著 63 10.2.2 隐马尔可夫模型的三个基本问题隐马尔可夫模型的三个基本问题 给定给定hmm的形式后,为了将其应用于实际,的形式后,为了将其应用于实际, 必须解决以下三个基本关键问题:必须解决以下三个基本关键问题: (1) 已知观测序列已知观测序列 和模型和模型 ,如何,如何 有效的计算在给定模型条件下产生观测序列有效的计算在给定模型条件下产生观测序列 的的 概率概率 。 (2) 已知观测序列

48、已知观测序列 和模型和模型 ,如何,如何 选择在某种意义上最佳的状态序列。选择在某种意义上最佳的状态序列。 (3) 给定观测序列,如何调整参数给定观测序列,如何调整参数 使条件概率使条件概率 最大。最大。 ,., 21t oooo ),(ba o op ,., 21t oooo ),(ba ),(ba op 数字语音处理及matlab仿真 张雪英编著 64 1第一个问题的求解第一个问题的求解 这是一个评估问题,即已知模型和一个观测这是一个评估问题,即已知模型和一个观测 序列,怎样来评估这个模型(它与给定序列匹配序列,怎样来评估这个模型(它与给定序列匹配 得如何),或怎样给模型打分,这个问题通常

49、被得如何),或怎样给模型打分,这个问题通常被 称为称为“前向前向-后向后向”的算法解决。的算法解决。 (一)前向算法(一)前向算法 首先要定义一个前向变量首先要定义一个前向变量 即在给定模型条件下,产生即在给定模型条件下,产生t以前的部分观测符号以前的部分观测符号 序列,且序列,且t时刻又处于状态时刻又处于状态si的概率。的概率。 )(i t )|,.,()( 21 ittt sqooopi; 数字语音处理及matlab仿真 张雪英编著 65 以下是前向变量进行迭代计算的步骤:以下是前向变量进行迭代计算的步骤: (1) 初始化初始化 (2) 迭代计算迭代计算 (3) 最后计算最后计算 其中其中

50、 为状态转移矩阵中的元素,为状态转移矩阵中的元素, 为观测符为观测符 号矩阵中的元素。号矩阵中的元素。 niobi ii 1 )()( 11 njttobaij tj n i ijtt 111)()()( 1 1 1 ;, )()|( 1 iop n i t ij a)( tj ob 数字语音处理及matlab仿真 张雪英编著 66 (二)后向算法(二)后向算法 同理,可以类似地定义后向变量同理,可以类似地定义后向变量 : 即在给定模型即在给定模型 及及t时刻处于状态时刻处于状态si的条件下,的条件下, 产生产生t以后的部分观测符号序列以后的部分观测符号序列 的概的概 率。率。 )(i t )

51、|;,.,()( 21 ittttt sqooopi ,., 21ttt ooo 数字语音处理及matlab仿真 张雪英编著 67 (1) 初始化初始化 (2) 迭代计算迭代计算 (3) 最后计算最后计算 前向和后向算法对于求解问题前向和后向算法对于求解问题2和问题和问题3也是有帮也是有帮 助的。助的。 nii t 1 , 1)( nitttjobai t n i tjijt 1 , 1,.,2, 1),()()( 1 1 1 )()|( 1 1 iop n i 后向变量也可以用迭代法进行计算,步骤如下:后向变量也可以用迭代法进行计算,步骤如下: 数字语音处理及matlab仿真 张雪英编著 6

52、8 由于由于 表示表示t时刻处于状态时刻处于状态 且部分观测序且部分观测序 列为列为 ,而,而 表示表示t时刻处于状态时刻处于状态 且剩且剩 下部分的观测序列为下部分的观测序列为 ,因而,因而 表表 示产生整个观测序列示产生整个观测序列o且且t时刻处于状态时刻处于状态 的概率,的概率, 即即 那么,问题那么,问题1也可以通过同时使用前向后向概也可以通过同时使用前向后向概 率来求解,即率来求解,即 )(i t i s ,., 21t ooo)(i t i s ,., 21ttt ooo )()(ii tt 、 i s )|,()()( ittt sqopii nittiiop n i tt ,.

53、2 , 1, 2 , 1)()()|( 1 ;, 数字语音处理及matlab仿真 张雪英编著 69 2第二个问题的求解第二个问题的求解 这个问题是求取伴随给定观测序列产生的最这个问题是求取伴随给定观测序列产生的最 佳状态序列。这一最佳判据,目的就是要使正确的佳状态序列。这一最佳判据,目的就是要使正确的 状态数目的期望值最大。它通常用状态数目的期望值最大。它通常用viterbi算法解决,算法解决, 用于模型细调。用于模型细调。 首先定义变量首先定义变量 : 它是在给定观测序列它是在给定观测序列o和模型和模型 的条件下,的条件下,t时时 刻处在状态刻处在状态si的概率。的概率。 )(i t ),|

54、()(osqpi itt 数字语音处理及matlab仿真 张雪英编著 70 由于由于 所以有所以有 且且 从而可求出在各个时刻所处的最可能的状态为:从而可求出在各个时刻所处的最可能的状态为: )|( )()( )()( )()( )( 1 op ii ii ii i tt n i tt tt t )|,()()( ittt sqopii )|( )|,( )( op sqop i it t 1)( 1 n i t i ttiq t ni t 1)(maxarg 1 , 可用前后向变量表示为:可用前后向变量表示为: 数字语音处理及matlab仿真 张雪英编著 71 但是,上式的求解仅仅从每个时刻

55、出现最可但是,上式的求解仅仅从每个时刻出现最可 能的状态来考虑的,而没有考虑到状态序列的发能的状态来考虑的,而没有考虑到状态序列的发 生概率(如没有考虑全局结构,时间上相邻状态生概率(如没有考虑全局结构,时间上相邻状态 以及观测序列的长度等等)。以及观测序列的长度等等)。 上述问题的解决办法是对最佳判据进行修正。上述问题的解决办法是对最佳判据进行修正。 最广泛应用的判据是寻找单个最佳状态序列最广泛应用的判据是寻找单个最佳状态序列(路路 径径),亦即使,亦即使 最大。下面介绍的最大。下面介绍的viterbi算算 法就是一种以动态规划为基础的寻找单个最佳状法就是一种以动态规划为基础的寻找单个最佳状

56、 态序列的方法。态序列的方法。 ),|(oqp 数字语音处理及matlab仿真 张雪英编著 72 完整的算法如下所述:完整的算法如下所述: (1) 初始化初始化 (2) 迭代计算迭代计算 (3) 最后计算最后计算 (4) 路径路径(状态序列状态序列)回溯回溯 0)(1)()( 111 iniobi ii , njttobaij tjijt ni t 1 ,2)()(max)( 1 1 , njttaij ijt ni t 1 ,2)(maxarg)( 1 1 , )(max 1 * ip t ni )(maxarg 1 * iq t ni t 1,.,2, 1)( * 11 * tttqq t

57、tt , 数字语音处理及matlab仿真 张雪英编著 73 3第三个问题的求解第三个问题的求解 这个问题是调整模型参数这个问题是调整模型参数 ,使观测,使观测 序列在给定模型条件下发生概率最大。即模型序列在给定模型条件下发生概率最大。即模型 参数重估问题参数重估问题(训练问题训练问题)。事实上,给定任何。事实上,给定任何 有限观测序列作为训练数据,没有一种最佳方有限观测序列作为训练数据,没有一种最佳方 法能估计模型参数。但是可以利用迭代处理方法能估计模型参数。但是可以利用迭代处理方 法法(baum-welch法,或称期望值修正法法,或称期望值修正法)来选择来选择 (a,b, )以使得以使得 最

58、大,可以用参数重估最大,可以用参数重估 来解决。来解决。 ),(ba )|(op 数字语音处理及matlab仿真 张雪英编著 74 首先定义变量首先定义变量 即给定模型和观测序列条件下,在时间即给定模型和观测序列条件下,在时间t处于状态处于状态 si ,而在时间,而在时间t+1处于状态处于状态sj的概率。根据前后向的概率。根据前后向 变量的定义,从计算图可以看出,变量的定义,从计算图可以看出, 可写成如可写成如 下形式:下形式: ),(ji t n i n j ttjijt ttjijtttjijt t jobai jobai op jobai ji 11 11 1111 )()()( )()

59、()( )|( )()()( ),( ),|,(),( 1 osqsqpji jtitt 数字语音处理及matlab仿真 张雪英编著 75 t-1 t+2 计算示意图计算示意图 tt+1 t-1 ji ss 1tjij oba ),(ji t 数字语音处理及matlab仿真 张雪英编著 76 此前己经定义了此前己经定义了 为在给定模型为在给定模型和观察序和观察序 列列o的条件下,在时刻的条件下,在时刻t位于状态为位于状态为si 的条件概率,的条件概率, 将将 对对j求和,可把两者联系起来,即求和,可把两者联系起来,即 利用上面的公式及计算事件发生的概念,可利用上面的公式及计算事件发生的概念,可

60、 以得到估计隐马尔可夫模型参数的方法,其计算以得到估计隐马尔可夫模型参数的方法,其计算 公式如下公式如下 )(i t ),(ji t n j tt jii 1 ),()( 数字语音处理及matlab仿真 张雪英编著 77 (1) 的重估公式的重估公式 即在时间即在时间t=1处于状态处于状态si的次数的期望值。的次数的期望值。 (2) aij的重估公式的重估公式 (3) bj(ok)的重估公式的重估公式 n i i ii ii i 1 11 11 1 )()( )()( )( 1 1 1 1 11 1 1 1 1 )|(/ )()( )|(/ )()()( )( ),( t t tt t t t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论