基于嵌入式语音识别系统研究_第1页
基于嵌入式语音识别系统研究_第2页
基于嵌入式语音识别系统研究_第3页
基于嵌入式语音识别系统研究_第4页
基于嵌入式语音识别系统研究_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于嵌入式语音识别系统研究 西安科技大学硕士学位论文基于嵌入式语音识别系统的研究姓名:宋艳申请学位级别:硕士专业:计算机应用技术指导教师:朱宇2011-06 论文题目:基于嵌入式语音识别系统的研究 专 业:计算机应用技术 硕 士 生:宋 艳 签名 指导老师:朱 宇 签名 摘 要 近些年来,随着科学技术的不断发展,语音识别技术开始从实验室走向市场。语音识别技术就是让机器通过识别和理解的过程将获取的语音信号转变成文本或命令的技术。由于其研究的难度以及重要性,语音识别技术成为当前研究的热点与难点。将其应用于嵌入式系统中,使得嵌入式语音识别技术成为语音识别领域新的发展方向,并且其应用已成为具有竞争性的高技术的新兴产业。 本文首先对语音识别的基本理论进行研究,包括语音信号的预处理、特征提取、模型匹配三个方面的重要方法,给出了基于 MFCC+MFCC 的语音特征参数提取方法。基于理论的研究,在实验室环境下提取了特定人的 0-9 的 10 个语音数据,分别对语音信号预处理中的预加重、端点检测,MFCC+MFCC 语音特征参数提取方法及语音模型匹配算法进行了实验仿真。结果表明了以上理论的有效性。然后将以上研究结果应用于嵌入式语音识别系统中。通过对嵌入式语音识别系统的开发环境、硬件处理器的选择等相关理论研究,进行了嵌入式语音识别系统硬件和软件的设计,系统包括硬件平台、Bootloader、Linux 内核及根文件系统。基于硬件设计部分,选用以 ARMS3C2440 处理器为核心的开发板,搭建系统的硬件平台,通过 UDA1341TS语音芯片的串行口软件来实现语音信号的 A/D 采样,ARMS3C2440 处理器的选用大大提高了系统的运行速度及性能。基于软件的设计部分,对系统软件的开发流程及实现方案做了详细介绍,并在Liunx交叉开发环境下,对 MFCC+MFCC 语音特征参数提取方法及 DTW算法的功能模块进行程序调试。 最后,通过 ARMS3C2440 采集语音数据,且经过具体实验验证了基于 MFCC+MFCC语音特征参数提取方法及 DTW模板匹配算法的特定人孤立词嵌入式语音识别系统的性能,系统测试结果达到预期目标。关 键 词:语音识别;特征提取;DTW;嵌入式;ARMS3C2440 研究类型:应用研究 Subject : The Research of Speech Recognition System Based on Embedded System Specialty : Computer application technology Name : Song Yan SignatureInstructor : Zhu Yu SignatureABSTRACT In recent years,with the development of the embedded technology, speech recognition technology started from lab to market. Speech recognition technology is a kind oftechnology which make the machine convert the linguistic signals into the text or command through the process of recognition and understanding. It becomes a research focus because of its study difficulty and importance. Applying speech recognition technology in embedded systems makes embedded speech recognition technology become the new development direction in speech recognition field. And the application of embedded speech recognition technology has become a competitive high-tech emerging industryIn this paper, we studied the basic theory of speech recognition firstly, which includs the speech signal pretreatment, feature extraction and model matching,and the phonetic features parameters extraction method which based on MFCC+MFCC is given. Based on the theory, we extracted 10 speech data which is from 0 to 9 of the specific person in laboratory environment. The experimental simulation of speech signal pretreatment method which include increase in advance ,endpoint detection and feature parameters extraction method which based on MFCC+MFCC and voice on the simulation model matching algorithm was carried respectively.The effectiveness of the above theory was proved by the experimental result. Then,we applied the above research results to embedded speech recognition systemBased on the study of relevant theories of embedded speech recognition which include the system development environment,the choice of hardware processor and so on,we designed the hardware and software of embedded speech recognition system.The system includes hardware platform, Bootloader, Linux kernel and root filesystem. Hardware design part, we choose ARMS3C2440 processor as core development board, then designed the hardware modules including system control,system audio input/output,system storage and communication interface,and build the system hardware platform, through the serial port UDA1341TS pronunciation chip to realize the software of speech signal A/D sampling. The selection of ARMS3C2440 greatly improved the system speed and performance. Software design part, the system software development process and implementation scheme is introduced. The phonetic features parameters extraction method which based on MFCC+MFCC and DTW algorithm functional modules are debugged and implementated in Linux development environmentFinally,through the ARMS3C2440 collect speech data and the specific experimental results verified the performance in specific person isolated words of speech recognition system which based on MFCC+MFCC phonetic features parameters extraction method and the DTW template matching algorithm, system test results to achieve the desired goals Keywords: Speech RecognitionFeature Extraction DTW Embedded typeARMS3C2440 Thesis: Application Research 1 绪论 1 绪 论 随着嵌入式技术的发展和嵌入式设备计算能力的提高,将语音识别技术应用于具有一定计算能力和存储资源的嵌入式平台上,对人们的日常生活和工作有着重要的作用和意义。 1.1 研究的背景与意义 语言是人类创造的,语音是语言的声学表现,是实现人们之间沟通交流的最直接最方便的手段,也是人类进行思维的一种依托。“阿里巴巴与四十大盗”的故事说明了让机器能听懂人类的语言,执行人表达的口头指令,是人类古已有之的理想。人类已经进入了科学技术发展信息化的时代,结合科学技术来研究语音识别的技术,更能使现代社会的人们,在生产生活中有效地产生、传递、储存和获得一定的语音信息,这样对促进社会的发展具有重要的意义。近三十年来,语音识别在计算机、通信与电子系统、自动控制、信息处理等领域的应用越来越广泛,并且在保密系统、机器人控制等一些高科技领域中正成为关键、具有竞争力的技术。应用语音识别技术,实现计算机与人类之间畅通无阻的语音交流,一直是人们不懈追求的梦想,用语言对计算机直接发号施令,让机器听懂人类的语言来工作,可免除操作人员大量重复的劳动,既经济又方便。世界上各大著名的 IT 公司如:IBM、Intel 等大型公司也投入了相当大的精力及许多财力来研究语音的识别技术。微软总裁盖茨说过:“我们将在这以后的几十年中,有效克服语音识别的障碍,使操作系统软件及应用程序抛弃鼠标与键盘,成为真正意义上的人机对话。” 语音识别技术是计算机发展技术重要发展的方向,随着多媒体时代的到来迫切要求解决自动语音识别的难题。语音识别技术已经成为计算机在亿万百姓中普及的关键技1术,并且必将成为信息产业的标志性技术和未来计算机重要特征 。其在嵌入式系统中主要应用于语音的控制,使用语音对于人机交互是最方便自然的方式,同时结合小型嵌入式设备可以节省体积。例如:日本研制的能识别主人声音的智能玩具、德国开发的汽车车载声控系统以及在安防仪器中有效地嵌入语音识别技术来解决相应的安全问题等。嵌入式技术中ARM几乎成了代名词,ARM技术平台下实现语音的识别功能是目前语音识别中的又一个新的挑战点,要建成具有和人相比拟的语音识别系统仍然是人类面临的2一个很大的挑战 。 目前,对于语音识别技术的研究大多数都是基于统计模式识别的理论,由于统计模型训练时的计算方法复杂,运算量比较大,一些计算工作都是通过计算机来完成,这样在许多便携式设备中就限制了语音识别技术的运用。本文通过研究动态时间规整DTW技术识别算法的特点,比较当前的硬件设备,选取了 ARM9 系列的 S3C2440 芯片硬件1 西安科技大学硕士学位论文 设备,进行嵌入式语音识别系统的研究,为目前嵌入式语音识别技术的应用做了一些有意义的工作。1.2 国内外研究现状 1.2.1 国外研究现状 语音识别的研究工作大约开始于上世纪 50 年代,这一阶段主要研究语音学和声音的基本概念和原理。1952年,Bell实验室的Davis等人首次成功研制实现了第一个可识别十个英文数字的离散数字语音识别系统?Audry系统,此系统主要依赖于测量数字元音区域的的共振波普。MIT林肯实验室的研究人员则是构建一种非特定人的元音识别3器,用于识别嵌在语境中的 10个元音 。 60年代中期,在RCALab实验室的第一个研究项目,目的是研究语音事件在时间刻4度上不均匀性的解决办法 。同时,前苏联的研究人员Vintsyuk提出使用动态规划DP5技术来将两个不同长度的语音段对齐 。此时引入的动态规划DP和线性预测分析技术LP,大大加快了语音识别方法研究的进展。DP技术有效解决了不等长的语音匹配的问题,LP技术较好地解决了语音信号产生模型的问题,用硬件实现的滤波器组来提取频谱特征,使用计算机匹配计算和判决语音信号,对语音识别的发展产生了深远影响。 70 年代,语音识别领域取得了突破性的进展。在许多方面线性预测分析技术LPC67的应用已取得成功,并且得到进一步发展,动态时间规整技术 DTW应用基本成熟,尤其是提出了隐马尔可夫模型HMM和矢量量化VQ模板匹配和识别技术理论。实践上,实现了基于线性预测倒谱LPCC特征参数提取和动态时间规整DTW技术的特定人孤立词语音识别系统,成为现今多数嵌入式语音识别系统研究的理论基础。 80年代,语音识别技术研究更加深入,即由传统的标准模板匹配识别技术思路开始转向基于统计模型HMM模型匹配识别的技术,并且人工神经元网络ANN和隐马尔可夫HMM模型在语音识别中成功应用。通过 ANN和 HMM 模型建立的语音识别系统,其系统的性能相当。AT&TBell 实验室 Rabiner 等科学家的共同努力使得 HMM 模型能广泛的应用,他们把 HMM 纯数学模型通过研究计算工程化,从而使更多的专业人士来了解和认识。 进入 20 世纪 90 年代后, 语音识别在参数提取和优化、细化模型设计以及系统自适应性等方面取得了关键性的进展 ,特别是在现代信号处理技术中,如混沌与分形理论、模糊理论、小波分析、时频分析、遗传算法等都正在应用于语音识别技术上 ,使得语音识别技术进一步走向成熟 。随着计算机科学技术、信息处理等领域的飞速发展,迫使语音识别系统开始从实验室走向实用市场。IBM 公司率先推出的汉语听写机产品,为语音识别技术在汉字输入方面的实际应用开辟了新的道路。 2 1 绪论 现代的 ARM 技术发展就相对比较迟,进入二十一世纪,正像美国微软公司总裁所说的那样,语音识别技术将使计算机丢掉键盘和鼠标,为我们的生活来很大方便,并将改变一些人的工作和生活方式。 1.2.2 国内研究现状 国内最初期的语音识别技术研究工作始于中科院声学所。在 20世纪 50年代后期,中科院声学所采用频谱分析的方法对汉语中 10个元音的语音识进行了研究;20世纪 70年代后期,研究构建了基于模板匹配的孤立词语音识别系统。到 80 年代后期,主要研究了八五期间中科院人机语音对话项目。在这个过程中,随着中科院声学所对语音识别的研究取得相应的成果,国内的许多大专院校及研究所也陆续开始对其研究。由此,中科院声学所、自动化所、北大、清华等国内的研究机构为中国的语音识别研究起了积极的催化和引导作用。 由于中国未来的庞大市场,国外也非常重视,一些公司投资巨大的人力、财力、精力对汉语语音识别进行研究,美国、新加坡等地聚集了很多来自大陆、香港、台湾等地的学者,研究成果已经达到相当高水平。因此,国内对语音识别系统的研究除了要不断加强理论的研究以外,还要加快从实验室的演示系统实现到商品转化的步伐。 1.3 嵌入式技术现状 嵌入式系统是指以计算机技术为基础、以应用为中心、软件硬件可剪裁、适应对功能、可靠性、成本、体积、功耗具有较高要求的专用计算机系统,主要由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户应用软件等部分组成,实现对其它设备监控和管理等功能。嵌入式操作系统分类很多,根据功能不同可以分为重量级和轻量级的操作系统。常见的重量级的嵌入式操作系统有Linux、VxWorks、WinCE等,是以系统的内核为基础,并且扩充了网络系统、文件系统、图形界面等多项功能,常用于开发大型10系统 。轻量级的操作系统有 C/OS-II、FreeRTOS、Salvo等,通常只提供任务管理、内存管理、时间管理、信号量、消息队列等内核服务,适用于较小系统的需要; 后 PC时代的到来以及智能化设备的发展为 32位的嵌入式系统的应用提供了广阔的发展空间,同时对当前嵌入式系统发展应用力不从心的 8 位机向 32 位高端发展起了接力的作用。由于 32 位嵌入式系统的应用,使得大量的计算机专业人士来深入研究它。同时基于嵌入式系统软硬件技术不断的发展,其应用模式的也发生了巨大的变化,使其应用进入到了一个基于软硬件平台、集成开发环境的嵌入式应用系统开发时代,并且带动了片上系统SOC技术的发展。 嵌入式系统应用于语音识别系统中,和 PC 机的语音识别系统相比,其内存容量和运算速度相对有一些限制,但是各自也有其优点。嵌入式语音识别系统和 PC 机的语音3 西安科技大学硕士学位论文 识别系统相比的最大优势是它的体积小、投入小、耗电低、可靠性高、便于移动等,并且大多数采用实时操作系统 RTOSReal Time Operate System作为软件核心用以提高系统的实时性能,当用户说话以后,系统能立即做出相应的反应。 嵌入式微处理器的不断发展和嵌入式实时操作系统的广泛应用,使嵌入式语音识别系统的发展和应用走向一个新的发展里程。 1.4 主要研究内容 本文主要研究基于嵌入式的语音识别系统。在研究和比较传统的特征提取方法的基础上,探索了一种基于传统美尔倒谱MFCC的语音特征提取方法 MFCC+MFCC,并将其应用于嵌入式语音识别系统中。本文从语音识别基础理论分析、系统硬件平台的设计、系统软件平台分析等方面讨论说明了语音识别在 ARMS3C2440 开发板上的设计实现过程。系统硬件设计上,设计了语音识别系统的控制部分、语音程序的存储部分以及语音的输入输出部分等;系统软件设计方面,则是对交叉编译环境、系统软件开发流程以及对系统的编译和实现做了详细说明。 主要研究内容如下: 1通过深入学习研究语音识别的基本理论,对特定人孤立词语音识别系统进行了深入研究。比较动态时间规整DTW和隐马尔可夫模型HMM两种识别方法的优缺点。经过对比研究得出基于特定人小词汇量的语音识别系统,选用DTW模型匹配方法更好。 2研究和比较传统的语音特征提取方法、语音模板训练匹配算法并进行matlab仿真,选择识别率更高,能提高系统效率的方法,给出了MFCC+MFCC的语音特征参数提取方法。实验数据采集了 09 的 10 个数字的语音数据信号,将其通过预处理、端点检测及特征提取,存储计算 10 个特征矩阵作为语音参考模板,并对语音系统模块进行了程序设计,然后进行实验。实验结果表明预处理过程中采用双门限端点检测方法、特征参数提取采用MFCC+MFCC方法以及选用DTW模型匹配方法更能满足特定人孤立词的语音识别系统的要求,并且提高系统的识别效率及准确率。 3将以上的研究结果应用于嵌入式语音识别系统中。系统包括硬件平台、Bootloader、Liunx内核及根文件系统,即硬件和软件设计两个部分。硬件设计部分,通过研究比较市场上的语音处理的硬件平台,选用先进的以ARMS3C2440 处理器为核心的开发板,通过对系统控制模块、系统音频输入输出模块、系统存储模块及系统的通信接口模块等硬件模块的设计,搭建系统的硬件平台,通过UDA1341TS语音芯片的串行口软件来实现语音信号的A/D采样,ARMS3C2440 的选用大大提高了系统的运行速度及性能。软件设计部分,对系统的开发坏境、系统的实现方案及系统软件的开发流程做了详细的介绍,并在Liunx交叉开发环境下对DTW算法功能模块进行程序实现。最后将三组待测语音与参考模板进行匹配识别,通过具体实验验证了特定人孤立词的语音识别系4 1 绪论 统。 1.5 论文结构安排 第一章绪论。简单介绍了语音识别技术和嵌入式技术发展的背景和现状,阐述了论文的研究内容以及论文的组织结构。 第二章主要介绍了语音识别的基本理论。从语音信号的预处理、特征提取、模板训练方法、模板匹配与识别方面进行了阐述。 第三章对语音识别系统进行了仿真。主要是运用 MATLAB7.0软件工具对语音信号的预加重、端点检测方法、特征提取及 DTW 算法进行仿真,得出仿真结果并进行了实验结果的分析。 第四章主要基于嵌入式语音识别系统应用平台的研究。介绍了嵌入式语音识别系统的要求、系统软硬件的应用平台、Bootloader以及系统的开发环境。 第五章详细介绍了嵌入式语音识别系统的软硬件架构及各功能模块的设计过程,对系统进行测试,并对结果进行了讨论。 第六章对本文的工作进行了总结,并展望了未来。5 西安科技大学硕士学位论文 2 语音识别的基本理论 2.1 语音识别的基础 2.1.1 语音信号产生的数学模型 语音信号是发声过程中通过声道的激励发生共振而产生的,由于声道的运动可以将11其看作是激励信号激励一个线性系统而产生的信号输出 。人类发音过程有三类不同的激励方式,因此能产生浊音、清音及爆破音三类不同的声音。 语音信号的浊音是利用基音周期控制脉冲串激励声道产生的,即是由一个准周期性的空气脉冲激励一个线性系统而产生的语音输出,这个线性系统由声门脉冲模型 Gz、声道模型 Vz和辐射模型 Rz级联而成。而语音信号清音的产生是当气流速度与横截面积之比大于临界速度时产生的摩擦音,也就是由白噪声序列来激励线性系统而产生的输出,此线性系统由声道模型 Vz和辐射模型 Rz级联而成。语音信号产生的数学模型如图 2.1所示。 声道参数周期脉冲 声门脉冲模发生器 型GZ声道模型 辐射模型清浊音开关VZ RZ随机发生器图 2.1 语音信号数学模型 由图 2.1 可以看出,一个完整的语音信号数学模型应由激励模型、声道模型及辐射模型三部分组成,其中激励模型包括浊音激励和清音激励。 激励模型的表达式如公式 2.1所示。 1GZ ?cT ?1 21 ?e z 0.5*1cos ?n /N 0 ?nN?1 12.1gncosn ?N / 2N N ?nN ?N1 1 1 1 2?0 others其中N 是斜三角形的上升时间,N 是斜三角的下降时间。 1 2声道模型(共振峰模型):共振峰模型可以建立级联型,并联型和混合型三种模型,通常采用级联型。可以通过声道模型计算出 500Hz,1500Hz,2500Hz,3500Hz,4500Hz 附近有 5个共振峰。声道模型的系统函数用 Vz表达,每个系统的传输函数对应一个全极点6 2 语音识别系统的基本理论 的 IIR滤波器,这些极点确定了声道的共振峰。Vz表达式如公式 2.2所示。 GV ZN2.2?k1a zkk ?1其中N 为极点的个数,G是增益参数,a 是常系数。 k辐射模型 RZ:声道模型中声道的终端为唇和口,其中唇端的辐射损耗在低频段影响比较小,而在高频端比较显著。语音信号是声压波,声道输出的是速度波,二者之比为辐射阻抗,即辐射模型,其公式表达式如 2.3所示。 RZR1 ?1/Z 2.3由以上可知语音信号是由激励信号 gn和传输函数 Hz组成的线性系统而产生输出的。Hz是由激励模型、声模型和辐射模型串连而组成的,传输函数如公 2.4所示。 H ZA*GZ *V Z *RZ 2.42.1.2 语音识别系统的类型 语音识别系统可以按照系统对用户的依赖程度、对用户说话方式的限制以及系统词汇量的大小来确定系统的类型。 根据系统对用户的依赖程度可将语音识别系统分为特定人和非特定人语音识别系统,其中特定人系统可以为个人的专用系统或者特定的群体系统。 按照语音识别系统对用户说话方式的限制,可以分为孤立词语音识别系统、连接词语音识别、连续语音识别和即兴口语语音识别系统。其中孤立词语音识别系统中词汇间的语音信号特征不受下文影响,语音信号起点和终点检测比较容易,系统实现的难度比较低,实用性强,使用范围广。连接词语音识别系统采用一种简化的连续语音识别策略识别连续发音的语句,是中小规模的词汇并且将词汇本身作为识别的基本单元。连续语音识别系统是用字词作为识别的基本单元的中大规模词汇的系统。 按照系统的词汇量的大小将语音识别系统分为中小词汇量语音识别系统,大词汇量以及无限词汇量语音识别系统。其中中小词汇量系统主要用于语音的系统控制,例如命令控制、电话拨号等,大词汇量以及无限词汇量系统大多数用于一般化的场合。 2.1.3 语音识别的基本原理 由于语音识别技术的不断发展,面向不同任务的语音识别系统,就有多种不同的系统设计方案,但系统的整体结构和模型的思想都是大致相同的。即采集语音信号后,经过语音特征提取模块的处理,得到一组反映该段语音特征的参数模型,然后再将提取的语音特征参数导入语音模型库的模块,进行语音训练和模式匹配,最后得出正确的识别结果。 7 西安科技大学硕士学位论文 语音识别系统实质是一种模式识别系统,包括语音预处理、特征提取、模式匹配以及参考模型库等基本单元,其基本结构原理图如图 2.2所示。 图 2.2 语音识别系统原理图 处理模块主要包括对语音的采样、A/D转换、预加重、分帧、端点检测。预加重一般是在语音信号数字化以后,在语音特征参数分析之前。特征提取模块主要是计算语音的声学参数,进行特征的计算,取出反映信号特征的关键特征参数,其本质是在降低或很少降低语音分类结果性能的情况下来降低特征空间的维数。 语音训练阶段,将输入的语音信号经过多次训练后,经过预处理和特征提取得到相应的特征矢量参数序列,最后建立语音参考模式库。在识别阶段,将输入语音的特征参数和语音参考模式库中的语音进行匹配,将匹配的最佳结果输出。这种最佳的结果与语音特征的提取、语音模型的好坏以及模板是否准确都有很大的关系。 2.2 语音信号的预处理 一般而言,语音信号在进行分析和处理之前,首先要将语音信号进行预处理。语音信号预处理包括:预滤波、采样、A/D转换、预加重和端点检测等。语音信号经过预处理以后,提取语音特征参数,之后语音信号的所有处理都是基于语音特征矢量序列的。 12语音信号是一种典型的非平稳、随时间而变的一维信号 。众所周知,语音信号在数字化之前,为了滤除噪声或高于 1/2 采样频率的语音信号,需进行防混叠滤波。通常将这种防混叠滤波与模数转换器做在一个集成块内,用来保证语音信号数字化的质量。 2.2.1 采样量化 当我们将采集到的声音存储到计算机里时,需要进行模拟语音转换成数字语音工作,即采样和量化。采样就是在时间域上,等间隔地抽取模拟信号,得到序列模拟音频后,并将其转化成数字音频的过程,实际上就是将模拟音频的电信号转换成二进制码 0和 1,0 和 1 便构成了数字音频文件,采样频率越大音质越有保证。采样过程如图 2.3所示,关系表达式如公式 2.5所示。 x nx nT ,n2.5a其中 n为整数,T为采样周期,Fs 1/T为采样频率。 8 2 语音识别系统的基本理论图 2.3 语音信号采样示意图 根据采样定理:如果 n信号x t的频谱是带宽有限的,即根据采样定理:如果信号ax t的频谱是带宽有限的,即: ax j ?0,? 2 ?F 2.6a a当采样频率大于信号的两倍带宽时,采样过程就不会信息丢失,即: 1F? 2F 2.7s aT从xn可精确重构原始波形,即x t能够唯一从样本序列重构为: anx tx nT sin t 2.8aaT Tn当F2F 时为 Nyquist 频率。 s a量化实际上是将时间上离散,幅度依然连续的波形幅度值进行离散化。量化时先将个整个幅度值分割成有限个区间,然后把落入同一区间的样本赋予相同的幅度值,这个过程取决于采样精度。量化决定了声音的动态范围,以位为单位,例如 8位可以把声波分成 256级。 2.2.2 语音加窗分帧 设原始语音信号的采样序列为xm,将其分成一些短段,乘以窗函数 ?n ?m。然后对分帧语音的各个短段进行处理,其实就是对各个语音帧进行某种变换或施以某种运算,其一般式为: QTxm ?n ?m 2.9n其中 T表示某种变换,它可以是线性的也可以是非线性的,xm为输入语音信号序列。Q 是所有各段经过处理后得到的一个时间序列。 ?n ?m是窗函数,用得最n多的两种窗函数是矩形窗和汉明窗Hamning,其定义分别为: 1矩形窗 1 0nL ?1?n 2.100 其他9 西安科技大学硕士学位论文 2汉明窗 0.540.46 cos2 ?n /L ?1,0nL ?1?n2.110,其他2.2.3 端点检测 端点检测就是通过准确地判断输入语音段的起点和终点,来减少运算量、数据量以及时间,进而得到真正的语音数据。资料表明在安静环境下,语音识别错误原因的一半13来自端点检测 。语音段可以是音素,词素,词或者音节等。相对于汉语,进行端点检测就是为了准确找出每个单字语音的起止点一段语音一般分为四种状态,即静音,静音?语音转换,语音,语音?静音转换四种。通常采用时域分析方法进行端点检测,即端点检测主要依据提取语音信号的一些特征参数,如能量、过零率、振幅等。比较常用的端点检测方法有两种:多门限端点检测法和双门限端点检测法。由于在语音信号检测过程中多门限检测算法有较长的时间延时,不利于进行语音过程实时控制,所以大多采用双门限端点检测方法。 双门限端点检测方法是通过利用语音信号的短时能量和平均过零率的性质来进行端点检测的,其步骤为: 1设定阈值。预先设定高能量阈值E ,低能量阈值E 及过零率阈值Z 。由于最H L th初采集的语音信号中短时段大多数是无声或背景噪声,因此采用已知的最初几帧一般E E Z取 10帧是“静态”的语音信号计算其高、低能量阈值 和 及过零率阈值 。 H L th2寻找语音信号端点检测的起点。假设第n帧的语音能量为En,若EnE ,H则进入语音段。之后在 0到n间再次继续寻找准确语音起点。则精确起点A为:0 ?i ?n Aarg minEiE or Z iZ L th2.12i3 寻找语音信号端点检测的终点。假设第 m帧的语音能量为 E ,若mEmE m ?n,确定检测点还在语音段中。则在m帧到该语音段的总帧数N间寻找H终点B。 4语音端点结果检测。首先设语音长度为LA-B,若L很小,则为噪声,那么继续对下一个语音段进行检测。此外,语音的端点检测中门限值设置都比较高,对实际采集的语音信号的位置可能存在一定的偏后性,因此为弥补这些不足,在得到检测位置以后,对数据进行追朔。其方法为:首先计算语音信号的短时能量值和短时过零率,然后对此语音帧信号是否为起点进行判别,最后将指向语音数据缓冲区得指针,改至前面语音数据采样的帧地址。 10 2 语音识别系统的基本理论 2.3 语音信号的特征提取 语音特征参数的选择是整个识别系统的基础,对正确的识别率有着直接影响。语音特征一般包括基音周期Pitch、主分量分析PCA、独立分量分析ICA、线性预测系数LPC、美尔频率倒谱系数MFCC。任何语音识别机器的输入数据都包含与其需要的相关和无关的信息。语音信号中含有丰富的信息,语音特征提取就是对输入的语音分析处理,最大的可能的提取出与语音识别系统无关的信息,将其摒弃。然后提取与其相关的重要信息,并以合理严密的形式描述提取的信息的过程。一般语音特征应满足以下两个条件。 1具有很强的稳健性 由于语音信号受不同的环境、采集条件以及说话方式等因素的影响,使得语音特征在不同的条件下不一致,导致系统识别性能不稳定,为了解决此问题,语音特征必须具有很强的稳健性。 2具有较强的区别性 语音识别系统的特征提取是适合于语音分类的信息特征,这些信息特征要能有效准确的区分不同的语音特征模式,而且对相同模式的变化具有相对的稳定性。具体表现为:相同类型模型的特征集中度应该相对比较高,而不同类型模型的特征应该相距比较远。 当前常用的语音特征提取方法是进行语音特征参数的提取。语音参数选择的好坏是14整个识别系统的基础,对正确的识别率有着重要的影响 。语音特征一般包括基音周期Pitch、主分量分析PCA、独立分量分析ICA、线性预测系数LPC、美尔频率倒谱系151617 1618数 MFCC 、线性预测倒谱系数LPCC 以及线谱对系数LSP等等。MFCC和LPCC在实际应用中最为成熟,特别是在一些真实信道噪声和频谱失真的情况下,能更好地反映人耳的听觉感知情况,因此在特征参数提取中应用的更多。 2.3.1 线性性预测倒谱系数LPCC 线性预测是目前语音处理技术的核心技术之一,普遍应用于语音处理的各个方面,19语音编码算法也用到LPCC技术,是目前最流行且有效的语音分析技术之一 。LPCC分析方法是一种基于全极点模型的假定,并且采用时域均方误差最小准则来估计语音模型的参数。一般复杂的语音信号特征仅仅用 12个LPCC系数就能很好的表达,不仅能有效的减少存储量和计算量,而且大大的降低了语音信号的冗余度,应用灵活方便。其优点在于:它比较彻底的去掉了语音信号产生过程中的激励信息,主要反映了声道频响,而20且仅用十几个参数就能较好地描述语音的共振峰特征 。 线性预测倒谱系数LPCC的基本原理为:每个语音特征信号的样本值都可由过去的若干个语音样本值的线性组合来逼近,即用信号的前 P个样本来预测当前的样本,同样11 西安科技大学硕士学位论文 也可以用实际的语音采样值和线性预测之间的均方差最小的方法来解出一组预测系数为: psna sn ?i2.13ii ?1由以上定义可以看出,语音信号sn是由 p个前样本值sn ?i来预测,其中 a 为预测系数,即 LPC系数,为常数,P为 LPCC预测阶数,其预测误差为: pen ?sn ?s n ?snasn ?i 2.14ii ?1LPCC 模型为纯数学模型,其未考虑人耳的听觉系统是非线性系统的特点,这对语音的处理具有一定的局限性,因此现在常用基于人耳听觉特征参数的美尔频率倒谱系数Mel Frequency Cepstral Coefficient,简称 MFCC。它是频谱上采用滤波器组的方法计算出来的,是一种能够比较充分利用人耳动态感知特性的一种特征提取参数。 2.3.2 美尔频率倒谱系数(MFCC) 人的听觉系统是一种特殊的非线性系统,基本上是一个对数的关系,它响应不同的频率信号的灵敏度是不相同的。美尔频率倒谱系数MFCC能充分利用人耳的这种特殊的感知特性。其具有较好的识别能力,但是计算量较大,通常在已经选定特征矢量维数为 10的情况下,一帧时间内,则进行一次FFT变换,10次软滤波,以及 10次傅立叶逆21变换和矢量量化计算 。线性频率与MFCC的转换关系如图 2.5所示。 1首先将提取的原始语音信号经过语音信号的预处理过程后,得到xn,其为每个语音帧的时域信号。 2xn然后将 的后面加上若干 0成为长是N 的序列后,经过FFT变换得到线性频谱X K ,其转换公式表达如公式 2.4所示。 N ?1?j 2 ?nk /NX Kxne2.150 ?n,kN ?1n ?0 一般 MFCC特征参数的提取过程如图 2.5所示。 图 2.4 MFCC计算流程图 12 2 语音识别系统的基本理论图 2.5 MEL标度与频率的关系 3 再将xk经过MEL频率滤波器组得到MEL频谱,并通过对数能量的处理,得到对数频谱Sm。其中MEL频率滤波器组为在语音的频谱范围内设置的若干个带通滤波器H k,0 ?m ?M ,M为滤波器的个数。每个带通滤波器的传递函数为: m0 kf m ?1?kf m ?1f m ?1 ?kf mf mf m ?1 0 ?m ?MH k2.16mf m ?1 ?kf m ?kf m ?1f m ?1f m0 kf m ?1 f m定义如下:N Bf ?Bf 1h lfB Bf ?m2.17m? 1?F M ?1 s 其中 f f 为滤波器最高频率和最低频率, f 为采样频率,N 为FFT的窗宽,h l s?1 h /1125B b700e ?1。为了使计算的结果对噪声和谱估计的误差具有较好的鲁棒性,一般将经Mel滤波器组得到Mel频谱取对数能量。因此,得到的对数频谱Sm总传递函数为: N ?1?2Smln X k H k 0 ?mM 2.18mk ?04将对数频谱Sm经过离散余弦变换DCT变换到倒谱频域,就能够得到MFCC系数cn如下公式 2.19所示。 M ?1?nm ?1/ 2?cnSm cos 0 ?m ?M2.19M?m ?12.4 语音识别系统模板的训练方法 语音识别系统模板训练是指将获得的语音特征信号按照一定的准则,从大多己知的训练模式中取得能表征此模式本质特征的模板参数。语音训练的过程是通过不断的调整13 西安科技大学硕士学位论文 系统模板的相关参数,来使

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论