语音信号的提取与识别技术-说话人识别系统的研究_第1页
语音信号的提取与识别技术-说话人识别系统的研究_第2页
语音信号的提取与识别技术-说话人识别系统的研究_第3页
语音信号的提取与识别技术-说话人识别系统的研究_第4页
语音信号的提取与识别技术-说话人识别系统的研究_第5页
已阅读5页,还剩93页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本科毕业设计(论文)毕业设计说明书语音信号的提取与识别技术说话人识别系统的研究作 者 :学 号:学院 (系 ):专 业 :指导教师: 评 阅 人: 20*年 6 月本科毕业设计(论文)毕业设计(论文)任务书学 院 、 系 :专 业 :学 生 姓 名:学 号:设计 (论文 )题目 : 语音信号的提取与识别技术起 迄 日 期 : 20*年 2 月 15 日 20*年 6 月 21 日设计 (论文 )地点 :指 导 教 师 :系 主 任 :发任务书日期:20*年 2 月 15 日本科毕业设计(论文)毕 业 设 计(论 文)任 务 书1毕业设计(论文)课题的任务和要求:1. 了解声音信号的特征参数,及现阶段研究处理方法。以现阶段信号处理领域比较活跃的语音信号为具体研究对象,进行相关知识的了解与学习。2. 学会在语音信号处理中使用 MATLAB 软件工具。3. 针对基本的个别个体的特定声音进行与信识别研究。4. 根据研究情况利用 MATLAB 语言进行相关算法的实现。2毕业设计(论文)课题的具体工作内容(包括原始数据、技术要求、工作要求等):1. 查阅相关资料,利用已学的相关知识进行消化和理解。2. 了解现阶段的语音处理情况,分析研究相关的产品。3. 研究学习基本的识别处理方法。4. 学习相关信号处理软件。 。5. 对软件的学习达到能对基本的算法进行软件的处理。6. 完成毕业设计论文。本科毕业设计(论文)毕 业 设 计(论 文)任 务 书3对毕业设计(论文)课题成果的要求包括毕业设计(论文) 、图纸、实物样品等):1、毕业论文一份;2、英文文献 1 份,相应的中文译文 1 份。4毕业设计(论文)课题工作进度计划:起 迄 日 期 工 作 内 容2006 年2 月 15 日 3 月 31 日4 月 1 日 5 月 31 日6 月 1 日 6 月 20 日6 月 20 日 6 月 21 日系统学习,查阅资料,作开题报告;英文资料翻译;撰写毕业论文;论文答辩。学生所在系审查意见:系主任: 年 月 日本科毕业设计(论文)毕业设计(论文)开题报告学 生 姓 名:学 号:学 院 、 系 :专 业 :设计 (论文 )题目 : 语音信号提取与识别技术指 导 教 师 :20*年 3 月 8 日本科毕业设计(论文)毕 业 设 计(论 文)开 题 报 告1结合毕业设计(论文)课题情况,根据所查阅的文献资料,撰写2000 字左右的文献综述:文 献 综 述语音信号识别研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反映。语音识别系统的研究涉及微机技术、人工智能、数字信号处理、模式识别、声学、语言学和认知科学等许多学科领域,是一个多学科综合性研究领域。近年来,高性能数字信号处理芯片 DSP (DigitalSignalProcess)技术的迅速发展,为语音识别的实时实现提供了可能,其中,AD 公司的数字信号处理芯片以其良好的性价比和代码的可移植性被广泛地应用于各个领域。因此,我们采用 AD 公司的定点 DSP 处理芯片 ADSP2181 实现了语音信号的识别。1语音识别的基本过程根据实际中的应用不同,语音识别系统可以分为:特定人与非特定人的识别、独立词与连续词的识别、小词汇量与大词汇量以及无限词汇量的识别。但无论那种语音识别系统,其基本原理和处理方法都大体类似。一个典型的语音识别系统的原理图如图 1 所示 1 。 语音识别过程主要包括语音信号的预处理、特征 提取、模式匹配几个部分。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。语音信号识别最重要的一环就是特征参数提取。提取的特征参数必须满足以下的要求:(1)提取的特征参数能有效地代表语音特征,具有很好的区分性;(2)各阶参数之间有良好的独立性;(3)特征参数要计算方便,最好有高效的算法,以保证语音识别的实时实现。本科毕业设计(论文)在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库。在识别阶段,语音信号经过相同的通道得到语音特征参数,生成测试模板,与参考模板进行匹配,将匹配分数最高的参考模板作为识别结果。同时,还可以在很多先验知识的帮助下,提高识别的准确率。2系统的硬件结构21ADSP2181 的特点 2AD 公司的 DSP 处理芯片 ADSP2181 是一种 16 b 的定点 DSP 芯片,他内部存储空间大、运算功能强、接口能力强。有以下的主要特点:(1)采用哈佛结构,外接 1667 MHz 晶振,指令周期为 30 ns,指令速度为 33 MIs,所有指令单周期执行;(2)片内集成了 80 kB 的存储器:16 kB 字的(24b)的程序存储器和16kB(16b)的数据存储器;(3)内部有 3 个独立的计算单元:算术逻辑单元(ALU) 、乘累加器(MAC)和桶形移位器(SHIFT) ,其中乘累加器支持多精度和自动无偏差舍入;(4)一个 16 b 的内部 DMA 端口(IDMA) ,供片内存储器的高速存取;一个 8 b 自举 DMA(BDMA)口,用于从自举程序存储器中装载数据和程序;(5)6 个外部中断,并且可以设置优先级或屏蔽等。由于 ADSP2181 以上的特点,使得该芯片构成的系统体积小、性能高、成本和功耗低,能较好地实现语音识别算法。22系统的硬件结构在构成语音识别电路时,我们采用了 ADSP2181 的主从结构设计方式,通过 IDMA口由 CPU 装载程序。语音识别系统的硬件结构如图 2 所示。在这种结构中,PC 机为主 CPU,ADSP2181 为从 CPU,由 PC 机通过 IDMA 口将程序装载到 ADSP2181 的内部存储器中。PC 机总线通过 CPLD 译码,形成等控制信号,与 ADSP2181 的 IDMA 口相连。这样,在 ADSP2181 全本科毕业设计(论文)速运行时,主机可以查询从机的运行状态,可以访问到 ADSP2181 内部所有的程序存储器和数据存储器。这对程序的编译和调试,以及语音信号的实时处理带来了极大的方便。参考文献1 RabinerL,Juang BHFundamentals ofspeechrecognitionMPTRPrentice Hall,19932苏淘,吴顺君,廖晓群高性能数字信号处理器与高速实时信号处理M西安:西安电子科技大学出版社,19993 Analog Inc.Using ADSP-2100 family volume lZ.4 Analog Inc.Using ADSP-2100 family volume 2Z.本科毕业设计(论文)毕 业 设 计(论 文)开 题 报 告本课题要研究或解决的问题和拟采用的研究手段(途径):语音识别的 DSP 实现技术1浮点运算的定点实现在语音识别的算法中,有许多的浮点运算。用定点 DSP 来实现浮点运算是在编写语音识别程序中需要首先解决的问题。这个问题可以通过数的定标方法来实现。数的定标就是决定小数点在定点数中的位置。Q 表示法是一种常用的定标方法。其表示机制是:设定点数是 x,浮点数是 y,则 Q 法表示的定点数与浮点数的转换关系为:2数据精度的处理用 16 b 的定点 DSP 实现语音识别算法时,虽然程 序的运行速度提高了,但是数据精度比较低。这可能由于中间过程的累计误差而引起运算结果的不正确。为了提高数据的运算精度,在程序中采用了以下的处理方法:(1)扩展精度在精度要求比较高的地方,将计算的中间变量采用 32 b,甚至 48 b 来表示。这样,在指令条数增加不多的情况下却使运算精度大大提高了。(2)采用伪浮点法来表示浮点数伪浮点法即用尾数指数的方法来表示浮点数。这时,数据块的尾数可以采用 Q115 数据格式,数据块的指数相同。这种表示数据的方法有足够大的数据范围,可以完全满足数据精度的要求,但是需要自己编写一套指数和尾数运算库,会额外增加程序的指令数和运算量,不利于实时实现。以上两种方法,都可以提高运算精度,但在实际操作时,要根据系统的要求和算法的复杂度,来权衡考虑。3变量的维护在高级语言中,有全局变量与局部变量存储的区别,但在 DSP 程序中,所有声明的变量在链接时都会分给数据空间。所以如果按照高级语言那样定义局部变量,就会本科毕业设计(论文)浪费大量的 DSP 存储空间,这对数据空间较为紧张的定点 DSP 来说,显然是不合理的。为了节省存储空间,在编写 DSP 程序时,最好维护好一张变量表。每进入一个 DSP 子模块时,不要急于分配新的局部变量,应优先使用已分配但不用的变量。只有在不够时才分配新的局部变量。4循环嵌套的处理语音识别算法的实现,有许多是在循环中实现的。对于循环的处理,需要注意以下几个问题:(1)ADSP2100 系列 DSP 芯片中,循环嵌套最多不能超过 4 重,否则就会发生堆栈溢出,导致程序不能正确执行。但在语音识别的 DSP 程序中,包括中断在内的嵌套程序往往超过 4 重。这时不能使用 DSP 提供的 dountil指令,只能自己设计出一些循环变量,自己维护这些变量。由于这时没有使用 DSP 的循环堆栈,所以也不会导致堆栈溢出。另外,如果采用 jump 指令从循环指令中跳出,则必须维护好 PC,LOOP 和CNTR 三个堆栈的指针。(2)尽量减少循环体内的指令数。在多重循环的内部,减少指令数有利于降低程序的执行次数。这样有利于减少程序的执行时间、提高操作的实时性。5采用模块化的程序设计方法在语音识别算法的实现中,为了便于程序的设计和调试,采用了模块化的程序设计方法。以语音识别的基本过程为依据进行模块划分,每个模块再划分为若干个子模块,然后以模块为单元进行编程和调试。在编写程序之前,首先用高级语言对每个模块进行算法仿真,在此基础上再进行汇编程序的编写。在调试时,可以采用高级语言与汇编语言对比的调试方式,这样可以通过跟踪高级语言与汇编语言的中间状态,来验证汇编语言的正确性,并及时的发现和修改错误,缩短编程周期。另外,在程序的编写过程中,应在关键的部分加上必要的注释与说明,以增强程序的可读性。在总调时,需要在各模块中设置好相应的入口参数与出口参数,维护好堆栈指针与中间变量等。6利用 C 语言与汇编语言的混合编程现在,大多数的 DSP 芯片都支持汇编语言与 C 或 C 语言的混合编程,ADSP2181也不例外。用 C 语言开发 DSP 程序具有缩短开发周期、降低程序复杂度的优点,但是,程序的执行效率却不高,会增加额外的机器周期,不利于程序的实时实现。为此,在本科毕业设计(论文)用 C 语言编写语音识别算法时,我们采用了定点化处理技术。ADSP2181 是 16 位定点处理器,定点化处理应注意以下几个问题 3,4 :(1)ADSP2181 支持小数和整数两种运算方式,在计算时应选择小数方式,使计算结果的绝对值都小于 1;(2)用双字定点运算库代替 C 语言的浮点库,提高运算精度;(3)注意在每次乘加运算之后进行饱和操作,防止结果的上溢和下溢;(4)循环处理后的一组数据可能有不同的指数,要进行归一化处理,以便后续定点操作对指数和尾数部分分别处理。本科毕业设计(论文)毕 业 设 计(论 文)开 题 报 告指导教师意见:指导教师: 年 月 日所在系审查意见:系主任: 年 月 日本科毕业设计(论文)附件:参考文献注释格式学术期刊 作者论文题目期刊名称,出版年份,卷(期):页次如果作者的人数多于 3 人,则写前三位作者的名字后面加“等” ,作者之间以逗号隔开。例如:1 李峰,胡征,景苏等. 纳米粒子的控制生长和自组装研究进展. 无机化学学报, 2001, 17(3): 3153242 J.Y.Li, X.L.Chen,H.Li. Fabrication of zinc oxide nanorods. Journal of Crystal Growth, 2001,233:57学术会议论文集 作者论文题目文集编者姓名学术会议文集名称,出版地:出版者,出版年份:页次例如:3 司宗国 谢去病 王群重子湮没快度关联的研究见赵维勤,高崇寿编第五届高能粒子产生和重离子碰撞理论研讨会文集,北京:中国高等科学技术中心,1996:105图书 著者书名版本出版地:出版者,出版年页次如果该书是第一版则可以略去版次。例如:4韩其智 孙洪洲群论北京:北京大学出版社,1987101预印本 作者论文题目预印本编号(出版年份)例如:5Xiaofeng Guo and Jianwei QiuThe leading power corrections to the structure functionshepph/9810548(1998)学位论文 作者论文题目学士(或硕士、博士)学位论文. 出版地:出版者,出版年份例如:6 陈异. 纳米粒子形貌控制研究. 硕士学位论文. 北京:中国科学院, 2002电子文献 主要责任者. 电子文献题名电子文献的出处或可获地址. 发表或更新日期本科毕业设计(论文)例如:7 王明亮. 关于中国学术期刊标准化数据库系统工程的进展. /pub/wml.txt/980810-2.html, 1998-08-16专利 专利所有者. 专利名称. 专利国别:专利号,日期.例如:8 姜锡洲.一种温热外敷药制备方案. 中国专利:881056073,1989-07-26.本科毕业设计(论文)语音信号的提取与识别技术摘 要语音识别(Speech Recognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术.说话人识别是语音识别的一种特殊方式.本论文中,将主要介绍说话人识别系统.说话人识别是指通过说话人的语音来自动识别说话人的身份,它在许多领域内有良好的应用前景。本文通过分析语音特征参数的特点和说话人识别的基本方法,提出了以美尔倒谱差分和线性预测差分为特征,通过动态时间归整算法来识别的文本相关说话人辨认系统。关键词: 语音识别, 说话人识别 , 线性预测倒谱,美尔倒谱系数,动态时间归整本科毕业设计(论文)The pick-up of speech signal and speech recognitionAbstractSpeech Recognition is a kind of technology that is using computer to transfer the voice signal to an associated text or command by identification and understand. Speaker recognition is a kind of special way of Voice-identifications. The paper is going to introduce speaker recognition. Speaker recognition is the process of automatically recognizing who is speaking on the basis of individual information include in speech signals. It has well application prospects in many fields. By analyzing speech characteristic parameters and the basis methods of speaker recognition, we choose MFCC and LPCCs difference to be the speech characteristic parameters. Using DTW to recognize text-dependent speech, we have developed a speaker identification system in this paper.Key words: Voice-Identification, Speaker-identification LPCC,MFCC, Dynamic Time Warping本科毕业设计(论文)目录1 引言 .12 语音识别技术的基础 .22.1 语音识别发展简史 .22.2 语音识别技术的应用 .33 说话人识别技术的国内外研究现状 .53.1 国内外发展水平 .53.2 主要应用领域 .53.3 技术难点 .64 说话人识别技术基础 .84.1 说话人识别的基本原理 .84.2 说话人识别系统中常用的特征 .94.3 说话人识别的分类 .104.4 说话人识别的主要方法 .114.5 说话人识别系统的性能评价 .135 语音信号分析与预处理 .165.1 语音产生机理 .165.2 语音信号的数字化和采集 .175.3 语音信号的数字模型 .185.3.1 激励模型 .185.3.2 声道模型 .185.3.3 辐射模型 .20本科毕业设计(论文)5.4 语音信号的预加重处理 .205.5 语音信号的短时参数特征 .215.5.1 短 时频谱 .225.5.2 短时自相关函数 .225.5.3 短时能量和短时平均幅度 .225.5.4 短时过零分析 .235.5.5 倒谱 .245.5.6 线性预测编码(LPC)参数 .245.5.7 短时基音周期估计 .255.6 语音信号端点检测 .275.6.1 双门限端点检测算法 .285.6.2 LPC 美尔倒谱特征端点检测方法 .286 说话人特征提取 .326.1 线性预测系数 LPC.326.1.1 线性预测的基本原理 .336.2.2 线性预测系数的求取 .3562 线性预测倒谱系数 LPCC.366.2.1 同态处理基本原理 .366.2.2 线性预测倒谱 .376.2.3 线性预测差分倒谱 .386.3 美尔倒谱系数 MFCC.396.3.1 MFCC 系数的提取 .396.3.2 美尔差分倒谱参数 .406.4 特征参数的实际提取 .416.4.1 LPCC 参数计算流程 .416.4.2 MFCC 的计算 .437说话人识别系统实现 .467.1 文本相关说话人辨认系统的实现 .467.2 线性预测倒谱参数的提取实现 .47本科毕业设计(论文)7.3 美尔倒谱系数及其差分的提取实现 .487.4MFCC 参数文本相关系统实现 .518 结论 .54致 谢 .55参 考 文 献 .56本科毕业设计(论文)1 引言语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要的地位.在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一。 随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的重要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个方面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压缩语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能;语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数,识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信号中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而语音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强调共性。说话人识别的应用有一些特殊的优势:比如使用者的接受程度高:获取语音的识别成本低廉,使用简单;适合远程身份确认;配合一些其他措施,如语义识别等,可以进一步提高准确率等。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展,己经越来越深入地影响并改变着我们每个人的生活和工作方式,这同时也对语音信号处理的研究工作提出了更高的要求,它在各方面的进展也今人嘱目。本文主要研究了说话人识别中所使用的基于短时频谱分析的传统特征基音周期、共振峰、LPC 倒谱特征、美尔倒谱特征等,通过对语音信号的分析和预处理,进行特征提取,根据线性预测倒谱参数及美尔倒谱系数,最后利用动态时间归整法实现说话人的识别。本科毕业设计(论文)2 语音识别技术的基础2.1 语音识别发展简史50 年代至 60 年代初是语音识别的初始研究阶段,主要探索声音和语音学的基本概念和原理。1952 年 Bell 实验室的 Davis Buddulph, Balashe 等人研制出世界上第一个语音识别系统,该系统采用第一和第二共振峰作为特征参数,能够识别孤立发音的英文数字,识别率高达 97%。该系统的出现标志着语音识别开始的里程碑。1960 年瑞典科学家 Fant 提出了语音产生理论和声源滤波器模型,指出语音信号由激励分量和声道分量作用产生,为语音信号处理奠定了基础。60 年代中期后,随着计算机技术和数字信号处理的兴起,新的有效的数字算法及信号处理技术层出不穷,也出现了语音识别方面能够影响至今的几种有效的技术措施。1963 年 Bogert 等提出了倒谱算法。1965 年 Cooly 和 Tukey 提出了快速傅立叶变换。1968 年 Oppenheim 把谱应用到语音信号处理,提出了同态声码器 1。RCA 实验室的 Martin 的一些研究工作在对语音起始和终止可靠检测的基础上解决了语音事件中因时间量度不一致引起的一系列问题。苏联科学家 Vintsyuk 提出了一种用动态规划方法,使一组语音发音在时间上进行对齐,其中包含了动态时间规整的思想和进行连续语音识别的一些基本算法。这些技术对后来语音识别研究产生了深远的影响,为计算机深入应用于语音识别的研究提供了可能性。与 50 年代相比,60 年代人们在语音识别的研究上大大前进了一大步,不过由于模型及算法的原因,使得语音识别的研究仍处于实验室研究阶段。70 年代在语音识别领域取得了许多具有里程碑意义的研究:苏联的Velichko 和 Zagoruyko 将模式识别思想引入到语音识别领域中来。日本的Stakoe 和 Chiba 提出动态时间规整 Dynamic Time Warping 的匹配算法大大提高识别率导致了七十年代语音识别研究的高潮。美国的 Itakura2 将线性预测编码技术 LPC 扩展到语音识别领域,较好的解决了基于语音特征提取问题,这种算法在语音识别应用方面取得基本令人满意的效果。中后期 J.K.Baker 等人将隐马尔可夫模型 Hidden Markov Model 技术引入语音识别领域,这是语音识别上的重大突破,由于隐马尔可夫模型合理有效地描述语音信号的统计特性,本科毕业设计(论文)从而成为 80 年代至今应用非常广泛的语音识别方法;另外矢量量化(Vector Quantization)3 技术被应用到说话人识别上来,使说话人识别的性能得到了大幅度的提高。这两大技术推动语音识别的迅速发展。80 年代连续语音识别的研究开始取得重要成果。技术上从模板匹配方法转向统计建模方法特别是隐马尔可夫模型得到广泛的引用。人工神经网络方法研究的再度兴起为语音识别注入了新的活力,神经网络方法本身具有自学习自组织联想记忆和抗干扰等特性,它已逐渐成为一种新的语音识别的方法。90 年代,小波分析与支持向量机技术也开始尝试用于语音识别方面的研究。由于多媒体时代的到来,语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及 IBM、Apple、AT&T 等著名公司都为语音识别系统的实用化开发研究投以巨资。我国也将语音识别系统的研制纳入了“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发,取得了高水平的科研成果,如中科院自动化所研制的非特定人、连续语音听写系统和汉语语音人机对话系统,其准确率或系统响应率可达 90%以上。2.2 语音识别技术的应用语音识别技术的解决不仅将使计算机成为普通百姓得心应手的工具,而且对于许多机器的操作、生产过程的控制,还有通信、口语机器翻译等领域来说,语音识别都大有用武之地。语音识别听写机在一些领域的应用被美国新闻界评为 1997 年计算机发展的十大事件之一;比尔盖茨认为下一代的操作系统和应用程序的用户界面将是语音识别,微软最新操作系统 Windows XP 就内嵌了语音识别模块,用户可以不用键盘而是直接用活筒控制计算机;计算机行业巨头 GoddenMoore 说:“语音技术将改变计算机的设计,它将使现在尚未使用计算机的人中的 85%用上计算机”:IBM 总裁 Lou Gerstner 指出, “有朝一日,将有数十亿的人运用自然语言 (利用语音识别和语音合成)在 Internet 上浏览、查询”,ABI ( Allied Business Intelligence)认为,在未来的网络化世界中,语音识别技术将扮演越来越重要的角色,新的语音识别技术可以让用户更为轻松地收发电子邮件,获取股市行情,了解天气、交通和道路情况,不久的将来,它将提供更为全面的更有价值的应用本科毕业设计(论文)服务 4。语音识别技术的渗透性很强,它已经悄悄进入我们的生活,并将无处不在的改变我们的生活方式。现在大多数的手机提供了“语音拨号功能” ,使用“语音拨号” ,只需一次性地输入(读入) 人名和电话号码,在使用时便可以直接对着电话“说出”要通话人的姓名,经语音识别后,查出该姓名所对应的号码,然后自动地进行“拨号” 。语音查询是语音识别的又一个应用领域,可用于旅游业及服务业的各种查询系统。如语音自动导游系统,游客只要说出自己当前的位置和感兴趣的景点名称,系统便自动显示出图文并茂的最佳路线、乘车方案、费用及其它相关信息。如果游客还需要进一步了解更为详尽的资料,则可以同系统进行交互式的对话,系统将对用户的问题一一给予答复。另一个有代表性的应用就是在医疗查询中,医疗改革推行后,大多数的医院都配备了电脑查询系统,供患者查询药品价格及医护人员简介,对于键盘输入非常陌生的大部分患者来说,语音输入提供了最方便快捷的查询方式。语音识别还可以应用在工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。语音识别技术在帮助伤残人的各种设备中也将发挥其难以替代的作用。对于一些肢体伤残者或盲人,若全部用声音控制,则给伤残者或盲人提供极大的生活便利。一些办公设备加上语音功能后,即使是伤残者也可以足不出户地在家里工作。 此外嵌入式语音识别软件具有语音识别、声控、用字母语音输入的语音键盘等功能,可应用于手提电话、掌上电脑、电子记事本、声控设备、及便于残疾人的自助设备等,应用前景非常广阔 5。本科毕业设计(论文)3 说话人识别技术的国内外研究现状3.1 国内外发展水平 如今说话人识别技术已逐渐投入实际应用,AT&T 应用说话人识别技术研究出了智慧卡(smart card),己应用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于 1998 年完成了 CAVE (Caller Verification in Banking and Telecommunication)计划,并于同年又启动了 PICASSO(Pioneering Call Authentication for Secure Service Operation)计划,在电信网上完成了说话人识别。同时 Motorola 和 Visa 等公司成立了 V-commerce 联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。国内研究说话人识别较早的机构有北京大学、清华大学、中科院声学所、中科院自动化所等,并先后得到了国家自然科学基金重大和重点项目、攀登计划等基金的支持,通过多年的研究也取得了丰硕的研究成果 34.3.2 主要应用领域说话人识别研究中,除了研究用视觉判断声音频谱的线索外,在由听觉判断是谁的声音时,研究了利用声音的各种特征问题。近几年来,由于计算机技术的飞速发展,说话人识别方法的研究得到了迅速的发展。说话人识别作为具有语音识别与理解功能的智能人机接口,是新一代计算机的重要组成部分,有着广泛的实际应用领域 5,其主要应用领域包括如下几个方面:(1)说话人核对包括电话预约业务中的声音确认转账、汇款、余额通知、股票行情咨询,以及未来可能出现的 Internet 信息服务中的声音身份确认; 用特定人的声音实现机密场所的出入人员检查:用工厂职工的口令实现职工签名管理等。(2)搜索罪犯判断犯罪现场记录的声音是多个嫌疑犯中的哪一个人的声音,有时可能嫌疑犯中不包含有真正的罪犯,此时常常需要将说话人辨认与确认结合起来。(3)医学应用如使说话人识别系统响应患者的命令,从而实现对机器假肢的控制等。(4)军事领域的应用本科毕业设计(论文)作为说话人辨认系统用于战场的侦听,以辨认对方指挥人员,或是实时执行军事指挥员或飞机驾驶的口述命令、只有有经验的操作人员才能进行高精度控制等。3.3 技术难点说话人识别技术发展到今天虽然已经有几十年的历史,也取得了许多优秀的成果,但是仍然存在着大量难点,直到今天为止还未达到令人满意的程度,尽管有些识别器已经投放市场,并用于商业军事、工业控制等领域,但基本上还停留在实验阶段。尤其是如何在高噪声环境下提高识别率,减少误认率等方面有待进一步发展。当然在语音处理的两领域,语音识别和说话人识别中,相对于语音识别来说,说话人识别更加困难 6。一个很简单的例子是在接听电话时一般不会搞错通话内容,却经常不知或误判对方的身份,这主要是由说话人特征提取问题所引起,归结为如下几个方面的原因: (1)尚未找到简单可靠的说话人语音特征参数语音信号中既包含了讲话内容的语义信息,又包含了说话人发声特征的个性信息,是语音特征和说话人特征的混合体,到目前为止,还没有很好的方法将说话人的个体特征从语音特征中分离出来,也没有找到简单的声学参数能够可靠地识别说话人.(2)语音信号的变异性即使对同一说话人和同一文本,语音信号也有很大的变异性。说话人的语音特征不是静态的、固定不变的。它具有时变特性,并常常与说话人所处的环境、情绪、健康状况有密切关系,会随着时间的推移和年龄的变化而变化。另外传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性从本质上使说话人特征空间发生移动,说话人模式产生变异,从而增加识别过程中的不确定性。(3)在理论上存在将有限特征空间进行无穷划分的问题在汉语语音识别中,全体音节的集合较小,其数目仅几百个,而全体汉语说话人却有近 14 亿。对于由同一语音信号组成的特征空间,语音识别要将其划分为 M 个子空间,M 为音节个数,而说话人识别要将其划分为 N 个子空间,N 为说话人个数,由于 N 可能远大于 M,使得识别说话人要比识别所说内容复本科毕业设计(论文)杂。在理论上存在将有限特征空间进行无穷划分的问题。此外,说话人识别的应用还受到伪装发音等问题的困扰。尽管说话人识别有一定的难度,但语音中所包括的个性信息一般有两种,一种是由声道长度、声带等先天性器官的个人差异产生的,另一种是由方言、语调等后天性说话习惯产生的,而先天性发音器官的个人差异是难于模仿的。在目前没有将说话人的个性特征从语音特征中分离出来的好办法时,采用固定文本内容得出说话人个性特征的方法,和不固定文本内容从语音信号的统计信息中得出说话人个性特征的方法 7.本科毕业设计(论文)4 说话人识别技术基础4.1 说话人识别的基本原理说话人识别系统的一般由预处理、特征提取、建立模型、模式匹配、判决等部分组成,其系统组成框图如图示:图 4.1 说话人识别系统组成框图预处理,包括归一化、去掉无声段和噪声等;特征提取,包括采样、量化、预加重、加窗等;建立和应用说话人识别系统,分为两个阶段,即训练阶段和识别阶段。在训练阶段,需要系统的每个使用者说出若干训练语句,系统据此建立每个使用者的模板或模型参量参考集。而在识别阶段,由待识别人发出的语音中提出的参量与在训练过程中的模板或参考参量集进行比较,并根据一定的模式分类算法得到判决结果。对于说话人辨认来说,所提取的参量要与训练过程中每个人的参考参量加以比较,并把与它距离最近的那个参考参量所对应的使用者辨认为说话人。对于说话人确认而言,则是将输入语音导出的参量与其声言为某人的参考参量相比较,如果二者的距离小于规定的阀值,则给予确认,否则给予拒绝 8。总的来说,要实现说话人识别,应解决如下基本问题:(1) 语音信号的预处理和特征提取特征提取就是提取能够有效表征说话人特征的参数。实际上现在采用的特征都是从语音信号模型中得到的,这些特征既包含了说话人的语音特征,又包含说话人的个性特征,互相交织在一起,以复杂的形式存在于语音参数中,目前还没有建立起准确分离和提取这两种特征的技术。(2) 说话人模型的建立和模型参数的训练模型的建立包括模型结构的表示或参数估计算法。模型训练要求系统能够本科毕业设计(论文)识别说话人,需要首先用说话人的语音对系统进行训练,并且在识别系统建立和识别系统扩展时,都需要对模板进行训练。由于说话人的声音常随时期和年龄而变化,常常需要在说话人辨认或说话人证实结果是正确时,由测试音对已识别正确的说话人的模型进行自适应调整和修正,从而构成自适应说话人识别系统。(3) 模式匹配模式匹配的目的也就是进行识别,随着技术的发展,说话人识别的方法不断出现,包括矢量量化,模板匹配法,隐马尔可夫模型,高斯混合马尔可夫模型,人工神经网络方法等。(4) 判决策略根据匹配结果判决说话人是否是所声称的说话人,即说话人确认,或说话人到底是谁,即说话人辨认。(5) 自适应部分考虑人的状况不断变化,为提高系统适应说话人特征的长时间变动情况,有些系统设有这一部分,从而能够根据说话人识别的结果得到正确识别的说话人的模型参数进行实时修正 8。4.2 说话人识别系统中常用的特征说话人的语音信号中包含了许多特征参数,在说话人识别系统中经常用到的特征参数有线性预测系数或其派生参数、由语音频谱直接导出的参数、其它鲁棒性参数、混合参数。(1) 线性预测系数或其派生参数线性预测系数是能够有效地表征语音的全极点模型参数。由它推演出的多种参数,例如部分相关系数、声道面积比函数、线谱对系数以及 LPC 倒谱系数等,都是可以应用的。(2) 由语音频谱直接导出的参数语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人生理上的差别,而短时谱随时间的变化,又反映了说话人的发音习惯,因此由语音短时谱导出的参数可以有效地用于说话人识别中。已经使用过的参数有功率谱,共振峰及其变化轨迹等。基音容易被模仿,且不够稳定,一般与其他参数组合本科毕业设计(论文)后使用。(3) 其它鲁棒性参数包括 Mel 频率倒谱系数,以及经过信道谱减或噪声谱减的倒谱等。(4) 混合参数为了提高系统的识别率,许多系统采用了混合参数构成的矢量。如果组成矢量的各参数之间相关性不大,则会更有效一些,因为它们分别反映了语音信号的特征。线性预测系数、自相关函数、声道面积比系数、倒频谱等作为说话人的个性特征参数的比较结果表明倒谱最好,其次是 LPC 系数,声道面积比系数最差。而对 LPC 倒谱系数各维的区分能力要比前面各维的好,当然并非单调的。一般用后 8 维特征矢量进行识别的正确识别率较高 910。4.3 说话人识别的分类根据说话人识别是通过对说话人语音信号的分析和提取,确定说话人是否在所登记的说话人的集合中,以及说话的人是谁的过程,可以将说话人识别分为说话人辨认和说话人确认 11。(1) 说话人辨认 (Speaker Identification)说话人辩认是把待测的说话人的语音判定为属于多个参考说话人之中的某一个,是多选一的问题。在这种应用中,通常不要求使用人提供个人姓名或个人编号,系统把说话人的信号特征与计算机中预留下的众多人员的特征相比较,从而确定是谁的说话。(2) 说话人确认 (Speaker Verification )说话人确认是根据待测说话人的语音,确定是否与所声称的参考说话人相符,这种确认只有两种情况,即得到确认或拒绝承认。在这种应用中,通常要求使用人提供个人姓名或编号,系统验证说话人与声言人是否为同一人。这时系统把说话人信号特征与计算机中预留下的声言为某人的特征相比较从而作出判别,是接受还是拒绝。用户在使用说话人识别系统时,需要向系统提供一段语音,根据发音材料, 可分为与文本有关和与文本无关两种。(1) 文本有关 (text-dependent)本科毕业设计(论文)与文本有关 12的识别系统要求用户按照规定的内容发音,并根据特定的发音内容建立精确的模型,从而达到较好的识别效果,但系统需要用户配合,如果用户的发音与规定的内容不符合,则无法正确识别该用户。(2) 文本无关 (text-independent )与文本无关 13的识别系统则不规定说话人的发音内容,因而要建立精确的模型较为困难,识别效果较差。另外,与其他生物识别技术类似,若考虑待识别的说话人是否在注册的说话人集合内,则说话人辨识分为开集(open-set)辨识和闭集(close-set)辨识,显而易见,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论