第12讲_基于声卡的语言识别系统

上传人：q*** IP属地：湖北上传时间：2022-07-03 格式：PPT 页数：23 大小：827.01KB 积分：28 举报 版权申诉

已阅读5页，还剩18页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、基于声卡的语音识别系统基于声卡的语音识别系统系统简介系统简介功能：功能：u 在经过密码校验后可以进行密语录制在经过密码校验后可以进行密语录制u 进行待测者的语音录制（多次）进行待测者的语音录制（多次）u 待测者声音与密语进行语音匹配待测者声音与密语进行语音匹配u 连续连续2次语音匹配成功次语音匹配成功系统就认定成功系统就认定成功u 避免恶意试音，当试音失败超过避免恶意试音，当试音失败超过10次系统次系统就锁死。就锁死。前面板操作说明前面板操作说明1. 在输入正确密码后点击声音采集按钮，绿灯亮进行在输入正确密码后点击声音采集按钮，绿灯亮进行“密语密语”的录制。的录制。如果密码错误红灯亮，并且

2、无法录制密语。如果密码错误红灯亮，并且无法录制密语。2. 点击语音识别按钮，将录制待测者的声音。点击语音识别按钮，将录制待测者的声音。3. 当待测者声音录制完后，自动与录制的当待测者声音录制完后，自动与录制的 “密语密语”进行匹配。进行匹配。匹配成功，清匹配成功，清0失败次数。成功次数加失败次数。成功次数加1，连续，连续2次成功，系统认定成功。次成功，系统认定成功。匹配失败，清匹配失败，清0成功次数。失败次数成功次数。失败次数+1。10次后系统自动锁死。次后系统自动锁死。原原理理u声音信号转成功率谱后出现的明显特性曲线（声音信号转成功率谱后出现的明显特性曲线（0-3500HZ)u同一人同一人

3、2次说次说“开门开门”产生的产生的2条特性曲线条特性曲线u把把2次采集到的声音转成次采集到的声音转成2个特性曲线（个特性曲线（0-520HZ)u计算计算2个特性曲线相似度个特性曲线相似度u高于设定相似度则高于设定相似度则“匹配匹配”，低于设定相似度则，低于设定相似度则“不匹配不匹配” 密码正确情况下进行密语的采集进行待测者声音的采集通过数学方法匹配待测声音与密语匹配成功成功次数+1清0失败次数匹配失败失败次数+1清0成功次数成功次数大于2次失败次数小于10次成功次数小于2次失败次数大于10次系统认定成功系统认定失败系统认定失败系统锁死关键点与难点关键点与难点1.声音信号的声音特性的采取与转换。

4、声音信号的声音特性的采取与转换。（声音采集信号（声音采集信号声音波形声音波形功率谱功率谱选选0-520HZ）2.两波形相似度的计算。两波形相似度的计算。（提取两波形的特性参数存于数组（提取两波形的特性参数存于数组（1个波形个波形2个个数组）数组）数学方法对数组进行处理数学方法对数组进行处理计算出相计算出相似度）似度）一个声音波形信号转成一个声音波形信号转成2个数组个数组1.每每20HZ分成一段，将每段出现波峰时所对应的频率值的均值组成一个数组（如果没有波峰出现则置分成一段，将每段出现波峰时所对应的频率值的均值组成一个数组（如果没有波峰出现则置0)。作用：通过作用：通过2个波形对应的数组异或可以

5、判断个波形对应的数组异或可以判断2个波形在每段有没相同的波峰出现。个波形在每段有没相同的波峰出现。2.每每20HZ分成一段，将每段的幅值分成一段，将每段的幅值(Y)的均值组成一个数组。的均值组成一个数组。把把2个数据差值所占最大值的百分比算出来（大于百分个数据差值所占最大值的百分比算出来（大于百分75算不匹配）算不匹配）作用：减少波峰位置匹配时出现的误差（第一种方法）作用：减少波峰位置匹配时出现的误差（第一种方法）声音采集和训练识别声音采集和训练识别 “说话人识别说话人识别”的基本原理主要包括两阶段：训练和识别。的基本原理主要包括两阶段：训练和识别。在训练阶段，系统的每个使用者说出若干个

6、训练语句，在训练阶段，系统的每个使用者说出若干个训练语句，系统据此建立每个使用者的模板和模板参数。系统据此建立每个使用者的模板和模板参数。在识别阶段，待识人的语音特征提取后与系统训练时产在识别阶段，待识人的语音特征提取后与系统训练时产生的模板或模板参数进行比较。生的模板或模板参数进行比较。在说话人确认中，通过判断测试音与所生成的说话人的在说话人确认中，通过判断测试音与所生成的说话人的模型的匹配距离是否小于一定阈值做出判断。模型的匹配距离是否小于一定阈值做出判断。模型训练模型训练特征提取特征提取匹配距离匹配距离模型参数模型参数判决策略判决策略输入语音输入语音识别结果识别结果语音识别的机理语

7、音识别的机理“说话人说话人”的识别方法有两种：的识别方法有两种：1.发音内容依存型：是预先确定识别用语的方法。发音内容依存型：是预先确定识别用语的方法。2.发音内容独立型：是无论讲什么话都可进行识别的方法。发音内容独立型：是无论讲什么话都可进行识别的方法。u从声音中准确提取和分离个人信息是相当困难的。至今还从声音中准确提取和分离个人信息是相当困难的。至今还没有建立起准确分离和提取个人特征的技术。当前的状况没有建立起准确分离和提取个人特征的技术。当前的状况是说话人识别多采用是说话人识别多采用固定声音内容的方法固定声音内容的方法来提高识别率。来提高识别率。u多年来，人们对于多年来，人们对于特征参数

8、特征参数在说话人识别系统中在说话人识别系统中的有效性的有效性进行大量的验证和研究，得到许多有意义的结果。进行大量的验证和研究，得到许多有意义的结果。u声音可以理解成由振幅和相位随时间缓慢变化的正弦波构声音可以理解成由振幅和相位随时间缓慢变化的正弦波构成。人的听觉对声音的感觉特征主要包含在成。人的听觉对声音的感觉特征主要包含在振幅信息振幅信息中，中，相位信息一般不起作用相位信息一般不起作用。在研究声音的性质时，往往把时。在研究声音的性质时，往往把时域信息（波形图）变换得到它的频域信息（频谱），域信息（波形图）变换得到它的频域信息（频谱），通过通过研究频谱和与频谱相关联的特征获得声音的特性研究频谱

9、和与频谱相关联的特征获得声音的特性。语音识别的假设语音识别的假设语音信号是一种典型的非平稳信号，但是由于语音的形成语音信号是一种典型的非平稳信号，但是由于语音的形成过程是与语音器官的运动密切相关的。这种物理运动比起过程是与语音器官的运动密切相关的。这种物理运动比起声音振动速度要缓慢的多。因此，声音振动速度要缓慢的多。因此，语音信号常常可以假定语音信号常常可以假定为短时平稳的为短时平稳的。在在1030ms这样的时间段内，其频谱特这样的时间段内，其频谱特性和某些物理特征参量可近似地看作是不变的。性和某些物理特征参量可近似地看作是不变的。这样我们这样我们可以采用可以采用平稳的分析方法平稳的分析方

10、法来处理。来处理。语音识别的假设语音识别的假设我们的设计建立在如下几点假设基础之上：我们的设计建立在如下几点假设基础之上：1.将原始的声音信号转换成数字信号的过程对声音的特将原始的声音信号转换成数字信号的过程对声音的特征造成的影响可以忽略。征造成的影响可以忽略。2.录音设备和外界环境对声音信号的影响可以忽略。录音设备和外界环境对声音信号的影响可以忽略。3.声音特征基本反映在振幅信息中。声音特征基本反映在振幅信息中。4.从时域变换到频域后，语音特征体现在它的频谱中，从时域变换到频域后，语音特征体现在它的频谱中，忽略频谱失真。忽略频谱失真。5.语音信号是短时平稳的。语音信号是短时平稳的。本系统设计

11、思路本系统设计思路本系统模型采用的是本系统模型采用的是声音内容依存型声音内容依存型的说话人确认的说话人确认系统，需要先让系统对使用者说某个特定词的语音信号进系统，需要先让系统对使用者说某个特定词的语音信号进行行“学习学习”。该特定词就成为系统确认通过的。该特定词就成为系统确认通过的“密语密语”。也就是说想让系统确认通过，首先需要知道这个也就是说想让系统确认通过，首先需要知道这个“密语密语”。本系统中我们把这个本系统中我们把这个“密语密语”设定为汉语的设定为汉语的“开门开门”一词。当然这个一词。当然这个“密语密语”是可以改变的。是可以改变的。本系统设计步骤本系统设计步骤1. 语音个人特征的提

12、取。语音个人特征的提取。我们通过我们通过Windows自带的录音机得到声音数字信号。自带的录音机得到声音数字信号。这种信号是一系列离散时间上的量化的振幅样点。图这种信号是一系列离散时间上的量化的振幅样点。图1给给出某人说三次出某人说三次“开门开门”时的波形图。时的波形图。本系统设计步骤本系统设计步骤从上图中可以看出，虽然同一人说的都是同一个词，从上图中可以看出，虽然同一人说的都是同一个词，但三个波形图还是有一定差别的。所以即便声音特征反映在但三个波形图还是有一定差别的。所以即便声音特征反映在振幅信息中也很难直接从时域信号中提取出语音的个人特征。振幅信息中也很难直接从时域信号中提取出语音的个

13、人特征。因此需要从其它的角度来提取语音的个人特征。因此需要从其它的角度来提取语音的个人特征。语音的感知过程语音的感知过程与人类听觉系统具有的频谱分析功能与人类听觉系统具有的频谱分析功能是是紧密相关的，因此，紧密相关的，因此，对语音信号进行频谱分析，是认识语音对语音信号进行频谱分析，是认识语音信号和处理语音信号的重要方法信号和处理语音信号的重要方法。自功率谱自功率谱n 自相关函数自相关函数Rxx（tao）可以）可以了解不同时刻同一随机样本了解不同时刻同一随机样本间的波形相似程度间的波形相似程度。n 自功率谱密度函数自功率谱密度函数Sxx（f）：反映相关函数在时域内）：反映相关函数在时域内表

14、表达随机信号自身与其他信号在不同时刻的内在联系。达随机信号自身与其他信号在不同时刻的内在联系。n 当随机信号均值为零时，自相关函数和自功率谱密度函当随机信号均值为零时，自相关函数和自功率谱密度函数互为傅立叶变换对。数互为傅立叶变换对。n 自功率谱密度有明确的自功率谱密度有明确的物理含义物理含义：当：当tao0时，时，Sxx（f）曲线与频率轴曲线与频率轴f所包围的面积就是信号的平均功率。另外，所包围的面积就是信号的平均功率。另外，Sxx（f）还表明了信号的功率密度沿频率轴的分布状况，）还表明了信号的功率密度沿频率轴的分布状况，因此称因此称Sxx（f）为自功率谱密度函数。）为自功率谱密度函数。同一

15、个人两次说同一个人两次说“开门开门”的功率谱图的功率谱图不同人说不同人说“开门开门”的功率谱图的功率谱图同一人说不同两词的功率谱图同一人说不同两词的功率谱图功率谱图的特点功率谱图的特点可以看出功率谱图比较好地反映出声音的个人特征：可以看出功率谱图比较好地反映出声音的个人特征：在低频部分（频率低于在低频部分（频率低于6000Hz）。）。1.同一人说同一词：其功率谱图中的各个波峰所对应的同一人说同一词：其功率谱图中的各个波峰所对应的频率基本相同；频率基本相同；2.不同人说同一词：其功率谱图的出现波峰的频率比较不同人说同一词：其功率谱图的出现波峰的频率比较接近。接近。3.同一人说不同词：功率

16、谱的形状差别较大。在高频部同一人说不同词：功率谱的形状差别较大。在高频部分，波峰比较密集，特征不明显。分，波峰比较密集，特征不明显。系统设计思路系统设计思路1.首先采集声音信号经滤波、加汉明窗、求自功率谱。首先采集声音信号经滤波、加汉明窗、求自功率谱。2.将将06000Hz等分为等分为60个频段，个频段，100Hz为一频段，记录为一频段，记录功率谱图中每一频段出现波峰的频率。（信号的采样频功率谱图中每一频段出现波峰的频率。（信号的采样频率为率为22050Hz，窗长，窗长256的的Hamming窗，频率分辨率约窗，频率分辨率约为为89Hz） 3.我们可以将功率谱中频率较低段波峰出现的位置对应的我

17、们可以将功率谱中频率较低段波峰出现的位置对应的频率值作为声音的个人特征。不妨称为这些功率谱中波频率值作为声音的个人特征。不妨称为这些功率谱中波峰对应的频率值峰对应的频率值hz1,hz2,hzn为特征频率值，它们组为特征频率值，它们组成的向量成的向量Hz=(hz1,hz2,hzn)为特征频率向量。为特征频率向量。4.多次提取某人（模板提供者）说同一词时功率谱中的特多次提取某人（模板提供者）说同一词时功率谱中的特征频率值，这些频率值分布趋于稳定。征频率值，这些频率值分布趋于稳定。系统设计思路系统设计思路5.以以100Hz为一个频段，将频谱（为一个频段，将频谱（06000）划分为）划分为60个频个频段。将多次提取功率谱中每一频段出现的所有频率值的段。将多次提取功率谱中每一频段出现的所有频率值的平均值作为标准频率向量，平均值作为标准频率向量，F=(f1,f2,fn)以此标准频率以此标准频率向量向量F为模板。对一个待确认声音，提取其特征频率向量为模板。对一个待确认声音，提取其特征频率向量G =(g1,g2,gm)。因为。因为F由多次提取得到，所以有由多次提取得到，所以有m=n 。计算计算F与与G之间的匹配距离函数之间的匹配距离函数。

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

第12讲_基于声卡的语言识别系统

文档简介

温馨提示

最新文档

评论

第12讲_基于声卡的语言识别系统

文档简介

温馨提示

最新文档

评论

相关文档