语音识别基本知识及单元模块专项方案设计_第1页
语音识别基本知识及单元模块专项方案设计_第2页
语音识别基本知识及单元模块专项方案设计_第3页
语音识别基本知识及单元模块专项方案设计_第4页
语音识别基本知识及单元模块专项方案设计_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别是以语音为研究对象,经过语音信号处理和模式识别让机器自动识别和了解人类口述语言。语音识别技术就是让机器经过识别和了解过程把语音信号转变为对应文本或命令高技术。语音识别是一门包含面很广交叉学科,它和声学、语音学、语言学、信息理论、模式识别理论和神经生物学等学科全部有很亲密关系。语音识别技术正逐步成为计算机信息处理技术中关键技术,语音技术应用已经成为一个含有竞争性新兴高技术产业。1语音识别基础原理语音识别系统本质上是一个模式识别系统,包含特征提取、模式匹配、参考模式库等三个基础单元,它基础结构以下图所表示:未知语音经过话筒变换成电信号后加在识别系统输入端,首先经过预处理,再依据人语音特点建立语音模型,对输入语音信号进行分析,并抽取所需特征,在此基础上建立语音识别所需模板。而计算机在识别过程中要依据语音识别模型,将计算机中存放语音模板和输入语音信号特征进行比较,依据一定搜索和匹配策略,找出一系列最优和输入语音匹配模板。然后依据此模板定义,经过查表就能够给出计算机识别结果。显然,这种最优结果和特征选择、语音模型好坏、模板是否正确全部有直接关系。2语音识别方法现在含有代表性语音识别方法关键有动态时间规整技术(DTW)、隐马尔可夫模型(HMM)、矢量量化(VQ)、人工神经网络(ANN)、支持向量机(SVM)等方法。动态时间规整算法(DynamicTimeWarping,DTW)是在非特定人语音识别中一个简单有效方法,该算法基于动态计划思想,处理了发音长短不一模板匹配问题,是语音识别技术中出现较早、较常见一个算法。在应用DTW算法进行语音识别时,就是将已经预处理和分帧过语音测试信号和参考语音模板进行比较以获取她们之间相同度,按照某种距离测度得出两模板间相同程度并选择最好路径。隐马尔可夫模型(HMM)是语音信号处理中一个统计模型,是由Markov链演变来,所以它是基于参数模型统计识别方法。因为其模式库是经过反复训练形成和训练输出信号吻合概率最大最好模型参数而不是预先储存好模式样本,且其识别过程中利用待识别语音序列和HMM参数之间似然概率达成最大值所对应最好状态序列作为识别输出,所以是较理想语音识别模型。矢量量化(VectorQuantization)是一个关键信号压缩方法。和HMM相比,矢量量化关键适适用于小词汇量、孤立词语音识别中。其过程是将若干个语音信号波形或特征参数标量数据组成一个矢量在多维空间进行整体量化。把矢量空间分成若干个小区域,每个小区域寻求一个代表矢量,量化时落入小区域矢量就用这个代表矢量替换。矢量量化器设计就是从大量信号样本中训练出好码书,从实际效果出发寻求到好失真测度定义公式,设计出最好矢量量化系统,用最少搜索和计算失真运算量实现最大可能平均信噪比。在实际应用过程中,大家还研究了多个降低复杂度方法,包含无记忆矢量量化、有记忆矢量量化和模糊矢量量化方法。人工神经网络(ANN)是20世纪80年代末期提出一个新语音识别方法。其本质上是一个自适应非线性动力学系统,模拟了人类神经活动原理,含有自适应性、并行性、鲁棒性、容错性和学习特征,其强大分类能力和输入—输出映射能力在语音识别中全部很有吸引力。其方法是模拟人脑思维机制工程模型,它和HMM恰好相反,其分类决议能力和对不确定信息描述能力得到举世公认,但它对动态时间信号描述能力尚不尽如人意,通常MLP分类器只能处理静态模式分类问题,并不包含时间序列处理。尽管学者们提出了很多含反馈结构,但它们仍不足以刻画诸如语音信号这种时间序列动态特征。因为ANN不能很好地描述语音信号时间动态特征,所以常把ANN和传统识别方法结合,分别利用各自优点来进行语音识别而克服HMM和ANN各自缺点。多年来结合神经网络和隐含马尔可夫模型识别算法研究取得了显著进展,其识别率已经靠近隐含马尔可夫模型识别系统,深入提升了语音识别鲁棒性和正确率。支持向量机(Supportvectormachine)是应用统计学理论一个新学习机模型,采取结构风险最小化原理(StructuralRiskMinimization,SRM),有效克服了传统经验风险最小化方法缺点。兼顾训练误差和泛化能力,在处理小样本、非线性及高维模式识别方面有很多优越性能,已经被广泛地应用到模式识别领域。3语音识别系统分类语音识别系统能够依据对输入语音限制加以分类。假如从说话者和识别系统相关性考虑,能够将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专员话音进行识别。(2)非特定人语音系统。识别语音和人无关,通常要用大量不一样人语音数据库对识别系统进行学习。(3)多人识别系统。通常能识别一组人语音,或成为特定组语音识别系统,该系统仅要求对要识别那组人语音进行训练。假如从说话方法考虑,也能够将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词全部清楚发音,部分连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利连续语音输入,大量连音和变音会出现。假如从识别系统词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包含几十个词语音识别系统。(2)中等词汇量语音识别系统。通常包含几百个词到上千个词识别系统。(3)大词汇量语音识别系统。通常包含几千到几万个词语音识别系统。伴随计算机和数字信号处理器运算能力和识别系统精度提升,识别系统依据词汇量大小进行分类也不停进行改变。现在是中等词汇量识别系统,未来可能就是小词汇量语音识别系统。这些不一样限制也确定了语音识别系统困难度。4语音识别概述语音识别技术,AutomaticSpeechRecognition,简称ASR,是一个让机器听懂人类语言技术。语言是人类进行信息交流最关键、最长用、最直接方法。语音识别技术是实现人机对话一项重大突破,在国外多年来发展十分快速,其应用也逐步得到推广。近几年逐步普及IVR(自动电话应答)处理了不少简单而又反复咨询工作,节省了不少人力,但这种按键式语音自动应答却让用户花费很多时间按指导来完成简单查询,令用户倍感不便。语音识别无疑能够处理该方面问题。语音识别系统开发成功,充足发挥了计算机技术和网络技术优势,采取优异人机对话方法,摆脱电话按键束缚,大家只要象日常一样对着电话简单说出所需服务项目,即可轻松获取自动系统提供所需信息。5语音识别应用Nuance企业是自然语音接口软件佼佼者。使用自然语音接口软件,大家能够经过电话方便安全地获取信息、服务并进行交易。天天,千千万万人经过拨打运行Nuance企业语音识别、语言了解和声纹判别软件电话,进行出游预订、股票交易、和其它通讯媒体、企业和互联网系统进行交往等活动。NUANCE应用:美国航空、BellAtlantic、CharlesSchwab、家庭购物网络、LloydsTSB、Sears、UPS。NUANCE语音识别特点(1)海量词汇、独立于讲话者健壮识别功效Nuance系统能可靠地对多个语言进行大词汇量识别,并可提供识别结果置信度。该系统对商业上使用大量词汇提供最正确语音识别技术。利用Nuance系统开发应用程序,在市场上含有最高正确率。生产中应用程序经测试,正确性超出96%。(2)基于主机用户/服务机结构Nuance系统基于开放式用户/服务机结构,尤其为大型应用程序所需健壮性和可伸缩性而设计。呼叫者讲话由用户端搜集,而识别和判别处理负载被平均分配到网络上多个分开服务器上。(3)N-Best处理对于有些应用程序,可能需要识别引擎产生可能识别结果集,而不是一个最好结果。Nuance系统N-best识别处理方法便有这个功效,它提供了可能识别结果列表,并按可能性从高到低排列。(4)语法概率Nuance系统许可对呼叫者所讲特定词语或短语在语法中概率进行指定。当被讲词语或短语概率可依据实际使用进行估量时,很有用。对语法增加概率可提升识别正确率和速度。(5)降低噪音当进来呼叫包含稳定背景噪音时,Nuance系统经过一个机制,使识别服务器更正确地进行识别。识别服务器将进来话语进行增强,以有效地将语气、嗡嗡声、哼叫声、嘘嘘声等噪声过滤。假如相当数量电话均含有稳定背景噪声,比如在汽车上免提打电话时,这个机制效果较理想。6.基于识别应用语音短信本身业务、企业电话簿、个人电话簿、智能点歌、股票查询和交易、智能信息点播、列车时刻查询企业电话簿特点•系统支持电话接入方法用户可经过电话修改个人密码,个人上班电话和非上班电话•系统支持WEB接入方法•系统管理员可修改全部信息•各企业管理员可增加,删除,修改本企业电话信息7语音识别单元设计现在,语音识别技术发展十分快速,根据识别对象类型能够分为特定人和非特定人语音识别。特定人是指识别对象为专门人,非特定人是指识别对象是针对大多数用户,通常需要采集多个人语音进行录音和训练,经过学习,从而达成较高识别率。本文采取LD3320语音识别芯片是一颗基于非特定人语音识别技术芯片。该芯片上集成了高精度A/D和D/A接口,不再需要外接辅助FLASH和RAM,即能够实现语音识别、声控、人机对话功效,提供了真正单芯片语音识别处理方案。而且,识别关键词语列表是能够动态编辑。其语音识别过程如图2所表示。语音识别单元采取ATmega168作为MCU,负责控制LD3320完成全部和语音识别相关工作,并将识别结果经过串口上传至Arduinomega2560控制器。对LD3320芯片多种操作,全部必需经过寄存器操作来完成,寄存器读写操作有2种方法(标准并行方法和串行SPI方法)。在此采取并行方法,将LD3320数据端口和MCUI/O口相连。其硬件连接图图3所表示。语音识别步骤采取中止方法工作,其工作步骤分为初始化、写入关键词、开始识别和响应中止等。MCU程序采取ARDUINOIDE编写[5],调试完成后经过串口进行烧录,控制LD3320完成语音识别,并将识别结果上传至Arduinomega2560控制器。其软件步骤图4所表示。8系统软件设计示教和回放系统软件设计包含测控计算机软件设计和各从设备Arduinomega260控制器软件设计。测控计算机是整个系统控制关键,其软件采取C#进行编写,在示教和回放系统中关键是对操作数据统计方便依据所统计数据对操作过程进行正确回放,需要统计数据包含:各从设备操作人员操作口令,操作动作,口令及动作时间,各操作对应操作现象。为简化统计数据,事先编制好各事件代码,统计过程只记录代码,大大提升程序效率。建立结构体以下:在操作训练过程中测控计算机每隔50ms对下位机进行控制及轮询,并统计反馈数据,在数据统计时以50ms为一个单位。采取定时器对时间进行控制。在回放过程中首先比对目前时间和所统计时间,当所统计时间和目前时间吻合时测控计算机控制下位机实施该事件,完成事件回放。Arduinomega2560控制器负责接收测控计算机控制指令并实施指令,读取

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论