已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音识别的研究作者:杨 玲 庞 明 执导教师:裴 东 王全洲 (届别:2006届 专业:电子信息工程 班级:2002级电子甲班 学号:200272020138 20022020126)摘要: 与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。而我们对语音识别系统的研究主要由三大部分组成:主控系统、语音录入播放部分、执行部分;由主控系统发出命令,接着进行语音播报,执行部分执行主控命令。 主控系统采用SUNPLUS公司生产的SPCE061A单片机,由它来完成语音识别及对伺服电机的控制。例如:在语音识别时,当发出识别命令“兄弟”时,系统提示进入识别,再一次发出“左拐”命令时,则伺服电机执行执行“左拐”命令,电机转动一定角度,如此反复的识别。虽然目前还不能实现人机自由对话,但它的优点是操作简单,易于控制和扩展。关键字:语音识别,主控系统,伺服电机,人机对话Research of Speech RecognitionAuthor :Yang ling Pang ming Tutor : Pei dong Wang quanzhou( Year:2006th falls due Major: Electronic information projectClass:In 2002 level electronic first class Number:200272020138 200272020126)Abstract :Now the world electronic technology rapid development, the microprocessor, the microcomputer obtained the widespread application in various area of technology, to various domains technology development to enormous impetus function. The integration of machinery development tendency is unable to avoid, moreover the two union is turning towards the Gauguin deep level development. A perfect integration of machinery system, should contain following several basic essential factors: Mechanical main body, power and actuation part, implementing agency, sensing measurement component, control and information processing part. The integration of machinery is the system technology, the computer and the information processing, the automatic control technology, the examination sensing technology, the servo drive technology and the mechanical technology and so on the multi-disciplinary area of technology synthesis overlapping technology-intensive systems engineering. “the machine reptile” is the development and the development but becomes in under this kind of knowledge system strut. We embark from the bionics angle, explain the profound in simple language, through the imitation reptiles some base behaviors and the movement, realized the reptile straight line in the entity to walk, the curve, automatically blocks and so on the basic function. The biological modelling systematization will be the main direction which the future robot will develop. New generation of cnc (Computer Numerical Control) the system, this kind of model integration of machinery product is facing the high performance,the intellectualization, the systematization as well as the featherweight,the microminiaturized direction develops.引 言语音识别技术关系到多学科的研究领域,不同领域上的研究成果都对语音识别的发展作了贡献。计算机语音识别过程与人对语音识别处理过程基本上是一致的。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分:(1)语音特征提取:其目的是从语音波形中提取出随时间变化的语音特征序列。 (2)声学模型与模式匹配(识别算法):声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。 (3)语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。 语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。语音识别过程实际上是一种认识过程。就像人们听语音时,并不把语音和语言的语法结构、语义结构分开来,因为当语音发音模糊时人们可以用这些知识来指导对语言的理解过程,但是对机器来说,识别系统也要利用这些方面的知识,只是如何有效地描述这些语法和语义还有困难: (1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。 (2)中等词汇量的语音识别系统。通常包括几百个词至上千个词的识别系统。 (3)大词汇量语音识别系统。通常包括几千至几万个词的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。目 录1总体设计思路1 1.1语音学的相关知识1 1.2语音信号的压缩和编码22 方案比较与论证12.1中央控制系统12.2电机的选择2.3电源电路的选择3系统设计53.1语音识别原理分析与说明53.1.1语音识别基本原理53.1.2特征提取和谱失真测度分析63.1.3语音信号的矢量量化分析63.1.4语音信号的模板匹配法3.1.5语音信号的隐马尔可夫模型3.2器件的选型与外围部件的制作73.2.1中央控制系统SPCE061A73.3电路设计与说明83.3.1电源电路103.3.2控制系统电路103.3.3语音录入和播放电路3.4软件设计103.5语音词汇量的选择114系统调试124.1硬件调试124.2软件调试134.2.1第一阶段134.2.2第二阶段135指标测试146系统说明156.1使用说明156.2系统说明157结束语16参考文献171 总体设计思路第一步,研究语音学的相关知识;第二步研究语音信号的压缩和编码及语音识别的相关知识;第三步,设计运用二个伺服电机和凌阳61板实现左转右转的功能.总体设计流程图如下:否否开 始复 位识别播放语音播报语音识别语音训练成功否右转前进后退左转1.1语音学的相关知识 人类说话的声音就是语音。语音的声学四要素是音强、音调、音色和音长。音强表明了语音的振幅强弱;音调表征了语音的频率快慢;音色表征了语音的频谱特征;音长是指语音持续的长短。对于汉语来说,音强与音长只能区别声音的强弱,而语义则要依靠音调和音色来区别。因此,对语音的研究包括语音信号处理和语言理解两部分。语音信号处理包括:数字化、预加重处理、防混叠滤波。语言理解即语言要表达的思想、观点等语义信息。1.2电机相关知识 微型伺服电机原理分析1)微型伺服电机内部结构一个微型伺服电机内部包括了一个小型直流电机;一组变速齿轮组;一个反馈可调电位器;及一块电子控制板。其中,高速转动的直流电机提供了原始动力,带动变速(减速)齿轮组,使之产生高扭力的输出,齿轮组的变速比愈大,伺服电机的输出扭力也愈大,也就是说越能承受更大的重量,但转动的速度也愈低。2)微行伺服电机的工作原理一个微型伺服电机是一个典型闭环反馈系统,其原理可由下图表示:减速齿轮组由电机驱动,其终端(输出端)带动一个线性的比例电位器作位置检测,该电位器把转角坐标转换为一比例电压反馈给控制线路板,控制线路板将其与输入的控制脉冲信号比较,产生纠正脉冲,并驱动电机正向或反向地转动,使齿轮组的输出位置与期望值相符,令纠正脉冲趋于为0,从而达到使伺服电机精确定位的目的。3)伺服电机的控制标准的微型伺服电机有三条控制线,分别为:电源、地及控制。电源线与地线用于提供内部的直流电机及控制线路所需的能源,电压通常介于4V6V之间,该电源应尽可能与处理系统的电源隔离(因为伺服电机会产生噪音)。甚至小伺服电机在重负载时也会拉低放大器的电压,所以整个系统的电源供应的比例必须合理。输入一个周期性的正向脉冲信号,这个周期性脉冲信号的高电平时间通常在1ms2ms之间,而低电平时间应在5ms到20ms之间,并不很严格,下表表示出一个典型的20ms周期性脉冲的正脉冲宽度与微型伺服电机的输出臂位置的关系:2 方案比较与论证2.1 中央控制系统对于一个应用系统主控电路是其“心脏”,所有功能的实现都是有其发出指令通过外围电路来实现,因此中央控制系统的好坏决定了这个系统的好坏。方案一:SUNPLUS的SPCE061A单片机优点:内含2K字SRAM,32K字FLASH,内部集成了语音处理功能的DSP模块、AGC和ADC电路。外围电路简单易控制,对于语音处理非常方便。缺点:体积大,指令是SUNPLUS自有的与MCS-51不兼容,因此通用性较低。方案二:AT89C51单片机优点:高性能CMOS 8位单片机,片内含2Kbytes FLASH和256bytes的RAM,兼容标准MCS-51指令。体积小,控制简单、灵活、自由。缺点:RAM和FLASH过小,语音程序不能直接存储,需进行扩展增加了电路的难度而且存在语音压缩问题。当处理大容量的语音时速度慢而且难度较大。方案三:DSP TMS3205402 优点:为了能自由的控制语音程序,以及考虑到电路的难度问题我们决定采用SUNPLUS单片机作为主控芯片。2.2电机选择从广义上讲,电机是电能的变换装置,包括旋转电机和静止电机。旋转电机是根据电磁感应原理实现电能与机械能之间相互转换的一种能量转换装置;静止电机是根据电磁感应定律和磁势平衡原理实现电压变化的一种电磁装置,也称其为变压器。我们这里使用的是旋转电机,其具体分类如图2:方案一:直流电机 优点:价格低廉,体积小巧。 缺点:速度与电压相关,不便于控制调节。方案二:伺服电机 优点:控制简单,反应速度快,体积小,功耗小,大扭力,装配灵活,相对经济。缺点:首先它是一个精细的机械部件,超出它承受范围的外力会导致其损坏,其次它内藏电子控制线路,不正确的电子连接也会对它造成损毁。方案三:步进电机优点:通过控制脉冲个数来控制角位移量,从而达到准确定位的目的;同时您可以通过控制脉冲频率来控制电机转动的速度和加速度,从而达调速的目的。因此在需要准确定位或调速控制时均可考虑使用步进电机。缺点:由于步进电机存在空载启动频率,所以步进电机可以低速正常运转,但若高于一定速度时就无法启动,并伴有尖锐的啸叫声;不同厂家的细分驱动器精度可能差别很大,细分数越大精度越难控制;并且,步进电机低速转动时有较大的振动和噪声。为了在体积、质量上尽量的小,而且控制方便,我们选择了功耗比较低、控制较为灵活的伺服电机。2.3电源电路选择方案一:开关电源电路优点:采用功率半导体器件作为开关,通过控制开关的占空比调整输出电压。以功率晶体管(GTR)为例,当开关管饱和导通时,集电极和发射极两端的压降接近零,在开关管截止时,其集电极电流为零,所以其功耗小,效率可高达70%95%。而功耗小,散热器也随之减小。此外开关电源具有重量轻,体积小等特点。缺点:产生较强的电磁干扰(EMI),EMI信号既具有很宽的频率范围,又有一定的幅度,经传导和辐射会污染电磁环境,对通信设备和电子产品造成干扰。如果处理不当,开关电源本身就会变成一个干扰源。方案二:稳压电源电路优点:电路制作简单,体积小巧,功耗低。缺点:滤波效果一般,容易被杂波干扰,转换效率低。考虑到系统的供电电压较低(5V),不需要直接接220V交流电,而且系统体积小。因此我们决定采用稳压电源电路。3 系统设计3.1 语音识别原理分析与说明3.1.1 语音识别原理分析语音识别分为特定发音人识别(Speaker Dependent)和非特定发音人识别(Speaker Independent)二种方式。特定发音人识别是指语音样板由单个人训练,对训练人的语音命令识别准确率较高,而其他人的语音命令识别准确率较低或不识别;非特定发音人识别是指语音样板由不同年龄、不同性别、不同口音的人进行训练,可以识别一群人的命令。下面我们介绍采取特定发音人语音识别方式。我们将标准模式的存储空间称之为“词库”,而把标准模式称之为“词条”或“样板”。所谓建立词库,是将待识别的命令进行频谱分析提取特征参数作为识别的“标准模式”。识别过程(如图3-1所示)首先要滤除输入语音信号的噪音和进行预加重处理,提升高额分量,然后用线性预测系数等方法进行频谱分析,找出语音的特征参数作为未知模式,与预先存储的标准模式进行比较,当输入的未知模式与标准模式的特征一致时,计算机便识别出输入的语音信号并输出结果。语音 语音分析滤波、预加重滤波器组PARCOR线性预测系数相关函数模式匹配词典识别结果输出图3-1 识别过程框图输入的语音与标准模式的特征完全一致固然好,但是,语音含有不确定因素,完全一致的情况几乎不存在,事实上没有人能以绝对相同的语调把一个词说二遍。因此,要预先制定好计算输入语言的特征模式与标准模式的类似程度(或距离度)的算法规则,把距离最小(即最类似)的模式作为识别相应语音的方法。3.1.2语音识别中的特征提取及谱失真测度 语音识别的第一步是特征提取也称前端处理。与之相关的内容是特征间的距离度量。特征的选择对语音识别的效果至关重要。其常用的方法有如下三种:带通滤波器组法的频谱参数及其失真测度、线性预测频谱系数及其谱失真测度、Mel频率倒谱系数极其失真测度。3.1.3语音信号的矢量量化矢量量化VQ(Vector Quantization)是一种极其重要的信号压缩方法,从20世纪70年代才发展起来的。它广泛用于语音编码、语音识别与合成、图象压缩等方面。量化分为标量量化和矢量量化。标量量化是将取样后的信号值逐个的进行量化;而矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量进行一次量化。矢量量化的过程是先将语音信号波形K个样点的每一参数帧,构成K维空间中的一个矢量,然后对这个矢量进行量化。3.1.4语音信号的模板匹配法 模板匹配法是多维模式识别系统中最常用的一种相似度计算方法。因为语音信号具有相当大的随机性,在进行模板匹配时,这些变化回影响相似度的计算,从而使识别正确率降低,因此在模板匹配时如果只对特征矢量序列进行线性时间规整,词中的音素就可能对不准,所以最好采用DTW(Dynamic Time Warping)-一种非线性时间规整模板匹配法,适用于运算速度、存储容量等资源有限的嵌入式语音系统。DTW采用动态规划技术DP(Dynamic Programming)把一个复杂的全局最优化问题化为许多局部最优化问题,再一步一步的进行决策。3.1.5语音信号的隐马尔可夫模型 隐马尔可夫模型HMM(Hidden Markov Models)是一种描述随机过程统计特性的概率模型。语音信号是一种时变非平稳的随机信号,建立一个模型来表征它是对其分析和处理的前提和基础。HMM是一个双重随机过程,包括一个代表状态转移的马尔可夫链和一个代表观察值输出的随机过程,通过将隐马尔可夫的状态与语音的某个平稳段相对应,以及各个平稳段之间移动与状态转移相联系,可以很好的表征语音信号整体上的时变非平稳性和局部的短时平稳性。此外HMM既可以描述暂态的,又可以描述动态的特性,所以它能够利用这些超音段和语音结构的信息。3.2 器件的选型与外围部件的制作3.2.1 中央控制系统 SPCE061ASPCE061A是型单片机是凌阳科技公司最新推出的一款16位微处理器,具有体积小、集成度高、易扩展、可靠性高、功耗低、结构简单、中断处理能力强等特点,内嵌32K字闪存FLASH,处理速度高,能够很方便的完成普通单片机的功能,61A内嵌DSP功能尤其适应于数字语音播报和识别等应用领域,是数字语音识别与语音信号处理的理想产品,得到了广泛的应用。主要性能如下: 16位nSP微处理器;工作电压:VDD为2.43.6V(cpu), VDDH为2.45.5V(I/O)CPU时钟: 32768Hz49.152MHz ;内置2K字SRAM、内置32K FLASH;可编程音频处理;32位通用可编程输入/输出端口;32768Hz实时时钟,锁相环PLL振荡器提供系统时钟信号;2个16位可编程定时器/计数器(可自动预置初始计数值);2个10位DAC(数-模转换)输出通道;7通道10位电压模-数转换器(ADC)和单通道语音模-数转换器;声音模-数转换器输入通道内置麦克风放大器自动增益控制(AGC)功能;系统处于备用状态下(时钟处于停止状态)耗电小于2A3.6V;14个中断源:定时器A / B,2个外部时钟源输入,时基,键唤醒等;使用凌阳音频编码SACM_S240方式(2.4K位/秒),能容纳210秒的语音数据;具备异步、同步串行设备接口;3.3 电路设计与说明 3.3.1 控制系统电路用32768HZ晶振和两个20P的电容构成一个61的最小系统,而且系统时钟有锁相环电路可提供多种实时时钟源;芯片内集成看门狗,可通过程序的方式清看门狗或者手动复位电路防止程序跑飞,而不用关闭电源。061A芯片的A和B口线全部以插针形式引出方便外部扩展。3.3.2 电源电路系统电路采用稳压电路电路如下图所示。5V直流电压经过SPY0029(稳压为3.3V)后给整个系统供电,并通过电解电容和瓷片电容分别滤去低频和高频的干扰波。3.3.3 语音录入和播放电路语音录入如图所示语音录入主要有Microphone、AGC、和ADC电路构成,61A内置了AGC电路和ADC电路,所以只需一些电阻和电容就可完成。语音播放如图所示SPCE061A内置两路10位DAC,只需外接功放电路即可。采用SPY0030做功率放大(工作电压2.4V,输出功率700mW)。3.4软件设计开 始檫除RAM中的语音命令模型 BSRDeleteSDGroup(0)调用第1条提示音播放PlayRespond(RSP_INTR)训练触发名称Train Word(NAME_ID,1)成功否训练第1条命令Train Word(COMMAND_ID,2)成功否训练第2条命令Train Word(COMMAND_ID,3)成功否开始识别初始化语音识别器BSR_InitRecognizer(BSR_MIC)启动实时监控BSR_EnableCPUIndicator()调用提示识别音播放PlayRespond(RSP_STAR)识别主循环获取识别结果BSR_GetResult() 图3-4 语音识别主程序框图3.5语音词汇量的选择 语音识别以规模分,有小词汇(10-50个)、中词汇(50-200个)、大词汇(200以上)。在所有的情况下,语音识别的识辨率都随单词量的增加而下降。根据我们使用的SPCE061A的FLASH的限定以及电路难度我们选择小词汇量。4 系统调试4.1 硬件调试首先,我们对伺服电机的性能作了一系列的测试:扭矩、PWM的控制问题及两电机相互工作的协调性;其次对录放音电路进行测试(包括声音的大小,外界干扰对识别率的高低等)。4.2 软件调试语音的软件调试分为几个阶段第一阶段:对伺服电机的旋转角度的调试,由于资料中的理论数据与实际测试值有一定的差距,我们以理论值为标准,取其左右偏差脉冲进行了多次实测,最终取得了满意的结果。第二阶段:整体的统调 ,首先进行语音训练,看是否有干扰,再进行识别与电机的相互协调。5 指标测试可持续工作时间:2小时电机转矩:连续在(-90-90)转动(通过程序可调节速度)6 系统说明6.1 工作流程本产品的运行流程概述:启动开关后,先进行一次语音播报,进入语音训练阶段。训练成功时有语音提示;接着便进入语音识别阶段;例如:先发出识别命令得到提示后发“左拐”命令,电机就转动。如遇到强干扰源使得程序跑飞,只需安下复位键或关闭电源,重新启动。要让它停止时只需再次按下开关即可。6.2 系统说明1本系统采用价格低廉、体积小、高速度的SPCE061A作为主控芯片,提高了系统的稳定性,增强了系统的抗干扰能力,其内部集成了AGC和ADC电路,电路制作简单,易于扩展。2.系统采用C语言和汇编语言交叉的方式,程序自有、灵活,代码执行率高,开发周期短,可移植性强。3.系统使用3节1.5V镍氢电池供电,而其本身体积小,便于移动、携带,适应于不同的工作场合。4.我们此次的研究只是对语音识别技术的初步探讨,实现了一些相对简单的功能,下一步还有许
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年大学《测绘工程-测绘数据处理与平差》考试模拟试题及答案解析
- 2025年大学《药学-药物化学》考试备考试题及答案解析
- 2025年大学《飞行器设计与工程-飞行器设计与工程概论》考试模拟试题及答案解析
- 2025年大学《卫生监督-卫生行政处罚》考试模拟试题及答案解析
- 2025年大学《轻化工程-轻化工业环境保护与废水处理》考试模拟试题及答案解析
- 2025年大学《食品营养与检验教育-教学技能与检验实训》考试备考题库及答案解析
- 2025年大学《医学影像学-医学影像学概论》考试参考题库及答案解析
- 2025年大学《农业资源与环境-农业面源污染控制》考试备考题库及答案解析
- 2025年大学《曲艺-曲艺表演技巧》考试模拟试题及答案解析
- 2025年大学《航空航天工程-飞行器动力装置基础》考试备考试题及答案解析
- 2025国网河北省电力校园招聘(提前批)笔试模拟试题浓缩500题及完整答案详解1套
- 2025-2026学年上学期小学语文统编版三年级期中必刷常考题之作文
- 运动馆安全培训课件
- 2025江苏南京玄武区招聘社区工作者和“两新”组织专职党务工作人员70人考试参考试题及答案解析
- 涂装知识培训课件
- 2025年国家开放大学《体育保健学》期末考试备考试题及答案解析
- 2025四川成都新都投资集团有限公司招聘23人笔试历年参考题库附带答案详解
- 热成像在桥梁检测中的应用-洞察及研究
- 2025年内蒙古自治区直属国有企业招聘考试笔试试题(含答案)
- 化工项目安全设计培训课件
- 中国资源循环集团有限公司子公司招聘笔试题库2025
评论
0/150
提交评论