计算机语音自动识别的研究.doc_第1页
计算机语音自动识别的研究.doc_第2页
计算机语音自动识别的研究.doc_第3页
计算机语音自动识别的研究.doc_第4页
计算机语音自动识别的研究.doc_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

分 类 号 密 级 U D C 编 号 10486 武 汉 大 学硕士专业学位论文计算机语音自动识别系统的研究研 究 生 姓 名:蔡亮学 号:指导教师姓名、职称: 副教授专业学位名称: 工程硕士研 究 方 向: 电子与通信工程2013年11月郑 重 声 明本次学位论文是在xx副教授导师指导下单独研究并撰写的,学位论文不存在抄袭、造假、剽窃等违背学术规范、学术品德和侵权作为,如有不实,本人愿意承担由此而产生的法律责任和法律后果,特此郑重声明。 学位论文作者(签名): 2014年4月2日摘 要随着语音识别技术的开创性研究,在社会生活计算机发展的重要性正逐渐越来越明显。本次研究通过计算机进行人机语音通信技术的介绍开始,对当前技术发展的状况,发展,研究方向,,实现方法都做了详细的分析。语音识别技术以及以及语音识别系统的原理对于科学界而言早就受到广泛关注。因为人机界面,鼠标输入,键盘输入都不及语音最自然,其中分辨语音技术,也被称为语音识别技术中的自动语音识别(ASR)技术最关键,其目的是让计算机可以读输懂人类语言,并识别词汇内容。我们期望通过我们的研究让语音识别系统在生活中得到广泛应用,对语音识别系统的设计与开发的可以让语音识别技术从实验室走到日常生活。课题研究中利用微软提供的接口软件包(Speech SDK VoiceType)来实现语音识别(语音识别)功能,利用微软SAPI语音应用程序编程接口来实现文本到语音(text-to_speech)功能,以上编程接口包括了语音合成引擎和语音识别的相关API函数集。提供了一个语音识别与合成的开发平台。在语音识别实现中我们首先对语音识别的一些关键技术和开发结构进行一个研究和分析.实现了文本到语音模块,即根据用户在编辑框中输入的内容进行的朗读处理,语音朗读模块不但可以进行朗读,还可以把朗读内容写入到音频文件中来.。唇读模块也就是语音到文本模块,主要是实现接收麦克风传来的数据,并将音频输入转换成文本。最后分别对基于以上两种技术开发的语音朗读模块,口型朗读模块,朗读配置模块以及音频朗读模块和语音识别模块分别进行测试,对于中小词汇量语音识别系统的准确率大于98%,基本可以满足85以上基于语音识别的信息查询,信息服务系统的要性能。本文采用可视化开发工具VC+ ,通过MFC类库调用一个基于微软语音SDK接口的接口函数,实现了语音朗读和语音识别功能并给出了详细代码和编写方法。通过对课题的充分分析和具体研究,我们通过本次在利用计算机进行“人-机对话”专项课题中进行了不懈的努力,对人工智能做了有意义的和尝试。最后对全文做了总结并提出了今后的努力方向。关键词:语音识别;语音合成; 声音特征采集;文本到语音,朗读模块Abstract The groundbreaking research of speech recognition technology, the importance of the social life of computer development is gradually becoming evident. This study describes the beginning of human-computer voice communication through computer technology , on the current status of technology development , development, research , implementation has done a detailed analysis. Principle speech recognition and voice recognition technology and systems for the purposes of the scientific community has long attracted widespread attention. Because the man-machine interface , mouse input , keyboard input and voice is not the most natural , which distinguish speech technology , also known as voice recognition technology in automatic speech recognition (ASR) technology the most critical , and its purpose is to allow computers to understand human input can be read language , vocabulary and identify the contents . We hope that through our research so that the voice recognition system has been widely used in life , the voice recognition system design and development of speech recognition technology can make everyday life come from the laboratory . Research in the use of the interface software provided by Microsoft (Speech SDK VoiceType) to implement speech recognition ( voice recognition ) capabilities , using Microsoft SAPI Speech Application Programming Interface to implement a text -to-speech (text-to_speech) function , including more programming interface API function sets the speech synthesis engine and voice recognition . Provides a voice recognition and synthesis development platform. we first developed some key structural speech recognition technology and conduct a research In speech recognition analysis to achieve a text -to-speech module that, according to the reading process user input edit box contents carried out , not only can voice reading module While reading , you can read the contents to be written to the audio file . Lip-reading module is a voice -to-text module is to achieve receives data from the microphone and audio input into text . Finally, based on these two technologies were developed voice reading module , lip reading module , reading aloud module configuration module as well as audio and voice recognition modules were tested for small vocabulary speech recognition system accuracy rate greater than 98% , which can be meet more than 85% speech recognition -based information query , to performance information service system.In this paper, visual development tools VC + +, MFC class library by calling a function -based interface to Microsoft Speech SDK interface to achieve a voice reading and speech recognition capabilities and gives a detailed code and write methods. Through the full analysis and specific studies on the subject, we passed the time in the use of computer man - machine dialogue in the special issue have made unremitting efforts to make meaningful artificial intelligence and trying. Finally, the full text summarized and proposed future direction.Keywords : speech recognition ; speech synthesis ; sound feature collection ; text -to-speech , reading module目 录摘要. . . . . . . . . .IAbstract . . . . . . .II第1章绪论. . . 11.1 研究背景及意义. 11.2 国内外研究现状. . . . 11.3 本文主要工作. . 2第2章 语音识别开发结构及关键技术 . . . 42.1功能结构. . . . 42.2开发包的安装与使用. . 42.3声音特征采集. . . 62.4 SpeechSDK5.1的工作原理. . . .9第3章语音识别系统实现. . 103.1 主界面模块设计. . 103.2 语音朗读模块设计. . . . . . 103.2.1 语音朗读模块概述. . 133.2.2 语音朗读实现过程. 143.3 口型朗读模块. . . . 173.2.1 口型朗读概述. . 133.2.2 口型朗读实现过程. 133.4 朗读配置模块. . . 173.4.1 朗读配置概述. . . 133.4.2 朗读配置实现过程. . 133.5 音频朗读模块. . 173.5.1 音频朗读概述. . . 133.5.2 音频朗读实现过程. . 133.6 语音识别模块. . . 173.6.1 语音识别概述. . . 133.6.2 语音识别实现过程. . 13第4章语音识别系统测试. 194.1 语音系统测试简介. . . . 194.2 测试语音识别系统各个模块. 19第5章结论. 37参考文献. 38致谢. . . . 39第1章绪论1.1 研究背景及意义随着现代科学技术的发展,在信息和机器的交互中,需要一个更方便的,自然的方法,而语言是人类最重要的交流方式,最常用,最有效和最方便的。让人很容易想到是否使用自然语言来取代传统的鼠标, 键盘等电脑通讯工具。具备听力的设备是最自然的人机对话方式,使“理解”口语,在语音识别是我们最希望的语音识别功能1。一个语音信号处理的研究方向就是(SpeechRecognition)语音识别,它是一个涉及许多领域的技术,如通信,计算机,语言学,统计学,信号处理,神经生理学,人工智能科学,模式识别,声学和神经心理学的交叉学科有不可分割的关系2。它还涉及到人的生理,心理和身体语言(如人在说话时的表情,手势等动作可以帮助对方理解)。语音识别技术上一门交叉学科,也正逐步成为信息技术的人机界面的关键技术,语音识别技术和语音合成技术,使人们摆脱了键盘,语音识别已经成为一个强大的计算机人机交互工具,通过语音命令进行操作。成为一个竞争激烈的领域,语音技术在未来的应用将导致新的高技术产业发展3。许多研究通过语音识别听写系统发现,使用中这种技术已经取得让世界改变许多,如很多残疾人也可以通过语音命令控制计算机。但在同一时间,许多研究者已经发现,影响人们的在过程控制计算机产生的误差和时间延迟的语音识别的质量也越来越多,因此,如何减少或消灭这些缺陷对于语音识别研究的过程是这一技术变化最大的点的研究4。根据不同的任务,在广义上的语音识别可以分为四个方向:关键字识别,语音识别,语言识别,语意识别。说话人识别技术是根据扬声器的语音识别,所以识别和认证技术。在某些情况下,关键字检测技术有特殊要求,只注意那些包含特定词的句子6。一个方面的分析和识别语音段的每一种技术语言的语音识别处理技术,是语音识别技术的精髓。语音识别是指人在技术内容对象的确定是最重要和最广泛研究四个方面的一个方向6,也是本文讨论的主要内容。语音辨认程序一般是基于语音开发包来研发,有微软的Speech SDK和IBM VoiceType两种常用的工具包。而前者无疑是开发基于Windows平台的应用程序的最佳工具,该SAPI (微软的Win32 - mpatible语音应用标准编程接口)提供了一个文本到语音(文本到语音)和语音识别(语音识别)基本功能程序,极大地简化了编程难度,降低了语音编程的工作量7。因此,微软Speech SDK的语音识别程序得到开发人员青睐。此外,还有一系列的COM支持的Microsoft Speech SDK(组件对象模型)的语音自动控制界面组件,只要是支持OLE(对象链接和嵌入)自动化控制语言都可以通过这个讲话来实现识别应用开发8。研究语音识别,发挥清华大学,北京大学等科研机构和中国的技术发展正面引导的方向的显著催化效果,并具有一定的指导作用是积极的。微软提供一套语音识别系统的开发包,使用该开发包可以进行文体的朗读,可以进行语音的识别。文本朗读是从由视觉获取信息转化到由听觉获取信息,这样如有大量文本需要阅读的时候,只使用耳朵听就可以了,解放出手和眼睛去做其他的事情。语音的识别更是增加了控制的灵活性,使用过带语音识别系统的手机用户都知道,只要向手机说出带有运营标签的联系人姓名的时候,手机会自动呼叫该用户,从而减少了查找联系人的时间,在有很多联系人的手机用户手中,这个功能显得格外方便。但它也有一些弱点,就是识别率如果很低的话,该功能不能正常运作。时代发展至今一般手机中都使用语音识别系统9,所以应用程序更应该增加这项功能。1.2 国内外研究现状从使用计算机起头钻研到今天过去了半个多世纪的时间,语音分辨在50年代开始的迅速发展中取得了很大的发展。本节按照这项技术出现的一些重要的发展线索和采用的方法做简要回顾。上世纪五十年代,研究人员开始探索基本概念和专业的声学语音学。在ATT的贝尔实验室,实现一个孤立的英语发音的十位数语音识别系统,是每个元音的共振峰的分段测量数量的主要方法10。1956,在实验室的RCA独立的研究也在10个不同的音节识别单扬声器,也使用该方法测定的共振峰。在1959,英国大学的研究人员试图使用模板匹配的光谱分析方法,建立识别四个韵母和九个声调的音素识别器。麻省理工学院林肯实验室的研究人员正在构建一个非特异性的元音标识符识别嵌入在/ B /元音+ / T /辅助语言在10个元音上11。六十多年来,在这个领域陆续得出了一些语音识别的重要研究结论。然而,这在一开始是一些日本实验室在语音识别领域,通过语音识别系统做一些特殊的硬件。东京广播研究实验室的第一个元音识别装置构建的硬件实现。通过带通滤波器精细的频谱分析和频谱加权的声音信号通道输出,语音识别结果选择输入,最合乎逻辑的决定元音电路。1962,东京大学努力实现的音素识别的硬件。用于语音信号的分离和鉴定的过零率的方法被应用到不同的识别。 1963年,为日本NEC实验室语音识别可以被看作是最重要的工作,因为它是在语音识别NEC公司的研究,也导致了长期而卓有成效的研究计划,而不是仅仅是个开始12。60年代的最后成就是研究员雷迪动态跟踪语音的连续语音识别的开创性工作。这项工作在雷迪CMU(他60年代加入美国)的长期研究中已取得了巨大的成功,是在语音识别领域的最高水平,连续语音识别系统方面,他的研究仍是全球领先的识别系统里最高水平 13。统计方法将研究者的视线从微观转向宏观,不再刻意追求语音特征的细化,而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面,以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性,并且能根据一些基本建模单元构造成连续语音的句子模型,达到了比较高的建模精度和建模灵活性。在语言层面上,通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外,人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。语音分辨系统的研发在1970年以来获得了一系列的成功具有里程碑标志。首先,在模式识别中的成功应用,动态规划,线性预测理论的支持,孤立词语音识别和语音陈述分离的方法成为有用的技术可行性。另一个里程碑即70年代是一个长期的开端,大词汇量连续语音识别是一个集体研究的成果,在IBM卓有成效的努力。他们研究了20年通过三种不同的工作,最后得到tangorn听写系统,它是一个简单的备忘录14。在这期间,AT&T贝尔实验室推出了一系列旨在建立真正的说话者无关的语音识别系统的实验。并提出了一种复杂的一个广泛的聚类算法的研究,测定了不同模型的数字可以代表所有的声音的变化不同的词有一大批人。经由这10年精炼后,利用聚类技术来构建非特定的人语模型,现在这种方式充分在技术领域已被了解,也广泛在应用15。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice98。它带有一个32,000词的基本词汇表,可以扩展到65,000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度,是目前具有代表性的汉语连续语音识别系统。我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。自21世纪以来,人机语音交互已经成为科学研究的热点。学习上的理解和认同包括自然语音,多语言之间以及自然口语的语音对话,和同声翻译。 其中中国科学院在20世纪50年代末,在10个元音研究中取得重大进展,到二十世纪70年代末期,声谱分析方法是一种基于模板适配的独立词语音分辨功能的建设。在20世纪80年代后期,中国科学院研究人机语音对话主持第八五年的研究项目中25。在这一时期国内的大学和研究机构已经开始了一个语音识别研究16。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。声学方面,中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。除了自动化研究所,北京大学的语音识别的研究方向等机构的参与,清华大学和其他研究机构也其中对中国在这方面的研究内容和技术发展提供了催化和指导的积极作用。1.3 本文主要工作利用微软提供的Microsoft Sp eech SDK 5.1-API接口函数进行Windows平台下的开发的是本文的重点,开发工具为Vc6.0,选用Vc6.0工具是基于其良好的开发友好界面的优势而考虑的,同时Vc6.0环境下对语音识别程序的开发依然有很强的功能支持。通过对MicrosoftSpeechSDK的学习和使用,初步掌握语音识别技术和语音合成技术的基本概念,以及计算机进行语音识别和语音合成的工作过程,可以加深对语音技术方面的认识,在以后的工作和学习中也多一种能够使用的学习工具。在理论上也使用了今天叫云计算机的网格技术方法,通过这些方式实现和完成一种基于语音识别和控制的功能。计算机语音识别要实现两个功能文体的阅读和语音识别,不仅使计算机能够听到,而且还可以让计算机说,实现一种互动的过程。本课题的过程中研究的任务划分,分步实施,最后通过综合开发,完成学习任务。本文的内容结构如下:第一章首先是对本课题内容所具备的意义进行一个介绍. 同时对时代发展和研究背景,现状和意义,发展情况做了一个简单描述。第二章是在一些关键技术和语音识别的结构发展和研究与分析。第三章主要对语音识别的研究和开发工作的实现,包括文本到语音模块,唇读模块,读几个功能配置模块和音频阅读和语音识别是如何实现。第四章是对不同模块开发的语音识别系统,并分析。第五章是最后的总结本次研究的内容,然后为未来的发展和系统的完善进行展示, 并对其优缺点进行总结和分析.第2章 语音识别开发结构及关键技术 2.1功能结构与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。很多专家都认为语音识别技术是2005年至2015年间信息技术领域十大重要的科技发展技术之一。随着计算机技术的不断发展,以前实现不了的功能,现在都可以实现了,比如,现在可以让计算机自己阅读文本,可以解放双眼,减少显示器对眼睛的刺激,通过语音控制,计算机也可以取代传统的鼠标键盘等控制方式,不但增加了控制的灵活性,而且也推动了计算机向智能化的方向进一步发展17,本文就是通过实现对语音进行文本的输入,以及软件自动化对文本进行朗读,实现过去不能实现的功能,开拓我们对计算机和智能化的深入了解和认识。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别是利用模式识别应用,即在该过程中的未知语音模式,语音比较每个已知的参考模型的第一种技术,作为识别结果得到的参考模型的最佳匹配。它包括几个部分.(1)特征提取模块:担当关键参数而获得,因此,它可以得到的信号的特性反映后续处理技术语音声学参数和计算特征。 LSP(LSP)的线性参数,LPCC,线性预测(LPC)的mfcc参数,加权预测(PLP)参数,特征参数和高阶信号动态频谱现在比较常用的技术。其中,Mel频率倒谱系数(MFCC)参数,由于其良好的抗噪性和鲁棒性和广泛的应用18。(2)预处理模块:原始语音标识输入过滤,过滤掉不重要的记号和背景噪声,和语音信息的端点检测,预处理的语音帧和加重。(3)培训阶段:图像预处理和特征提取用户输入一些语音训练的特征向量后,所获得的参数,参考模型和修改后的训练一直很好语音库。 (4)确认阶段:相似参数的提取和参考模型库中的输入语音的特征矢量,结合专家知识(如构词规则,语法规则)和规则来得到最终的识别结果模式19。具体到我们的计算机语音识别系统,从技术共包含5个模块,分别是文本到语音模块,口念模块,配置模块,语音识别模块,模块的结构图如图2-1计算机语音识别系统语音朗读模块口型朗读模块朗读配置模块音频流朗读模块语音识别模块 图2-1 功能结构模块图对于音识别系统的结构而言,语音识别是研究如何利用计算机从人的语音信号中提取有用的信息,并确定其语言含义。其基本原理就是将输入的语音,经过处理后,将其和语音模型库进行比较,从而得到识别结果。见图2-2图2-2语音识别原理图其中语音采集设备指话筒、电话等将语音输入设备;数字化预处理则包括AD变换和过滤、预处理等过程:参数分析指提取语音特征参数,利用这些参数与模型库中的参数进行匹配,从而产生识别结果的过程:语音识别是最终将识别结果输出到应用程序中的过程;而模型库,是提高语音识别率的关键。不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,一个典型语音识别系统的实现过程如图2-3所示。图2-3语音识别的实现完整的基于统计的语音识别系统可大致分为三部分:(1)语音信号预处理与特征提取选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节, 数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素单元以前多见于英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。(2)声学模型与模式匹配声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。以汉语为例:汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,复元音13个,复鼻尾音16个。目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。(3)语言模型与语言处理语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。2.2 开发包的安装与使用微软Speech SDK是软件开发界面微软提供相关组件,包括与语音合成引擎和语音识别,以及帮助文件和代码,它是2次开发平台的语音识别和合成功能。开发人员可以利用这个平台,可以开发自己的嵌入式语音识别和语音合成软件,这样用户可以利用语音来代替鼠标和键盘来完成该操作的一部分,比如:菜单控制,文字输入等,实现真正的“人机对话” 20。在本次用到的微软语音研发包的计算机语音识别的发展(微软Speech SDK)。微软Speech SDK是正常用到的音频(语音)分辨应用的一组应用程序编程函数处置(即SAPI)。SAPI的提供了一个文本到语音转换(文本到语音)和语音识别(语音识别)的基本功能的程序,大大简化了编程的难度,减少了编程的工作量21。从语音SDK接口基于微软中国的音频完全开放的应用开发支持,SDK提供的语音识别和语音合成引擎和相关组件和应用层接口,详细的文件信息和技术信息。它使用了标准的串口通信协议的发展,在COM组件的形式都是完全独立的应用层,他的声音技术复杂的应用程序设计的屏蔽,充分体现了COM的优势,这是一个系列的开发和言论自由的相关接口的COM组件:通过语音合成引擎(SynthesisEngine)负责,语音识别引擎识别(也叫识别引擎)管理;程序员只要使用和把重点放到自己的应用就可以,剩下的实现语音识别调用相关的语音应用程序接口(SAPI)就好22。语音识别是基于Windows操作系统com组件的开发工具。这个定义的SDK的研发包中有语音应用程序编程函数(SAPI),一系列的语音合成(也称为文本到语音变化(TTS)引擎),微软的持续语音区别引擎(MCSR)等23。可以直接管理语音,高适应性训练精灵和低控制,语法,事件,编译器,SAPI,语音识别和文本到语音管理,其结构如图2-4所示。 图2中,业务模块提供各种不同接口来实现不同的语音识别特征,语音帧的使用取决于SAPI接口的操作,CAN接口的应用程序和语音引擎之间的合作发展和功能结构,让它与SAPI引擎的语音应用与高度紧密结合,获得实时处理来自各种语音引擎底部细节。该系统还将使用语音识别引擎和TTS引擎Speech SDK24。Microsoft Speech SDK可以在微软的官方网站免费获得,需要下载两个自解压文件,一个是开发包的安装文件(speechsdk51.exe),一个是中文的语言包(speechskd51.exe)。如图2-2所示speechsdk51.exe运行会弹出自解压对话框。如图2-5所示:单击“Unzip”按钮可以将文件解压到“D:SDK”路径下,运行“D:SDK”下的setup.exe来进行安装,setup执行文件出现安装向导栏 微软语音识别开发包 SDK5.1。如图2-6所示:在向导中,通过单击“Next”按钮一步一步根据提示进行安装。安装完成后计算机就具有了语音识别能力,输入法中会增加语音输入法。但此时只能识别英语,要想使计算机能够识别汉语,还需要安装语言包,运行speechskd51LangPack执行文件把文件解压,同扩展包一样运用setup.exe进行设置。安装完开发包后,就可以在代码中使用开发包的类库,使用开发包中朗读引擎类库的步骤如下:(1) 正常在应用程序的类的组员函数InitInstance()中开始,一开始先用CoInitialize()函数初始化微软的COM库。在InitInstance()成员函数中要做一下初始化操作,CvoiceCommanApp类是这类应用程序需要用到的类。(2) 然后通过ID值找到接口,通过接口执行库中的函数。例如,创建一个m_cpVoice接口实例,读课文,讲的功能被执行。(3) 使用完接口后,要对接口进行释放。(4) 在应用程序类推出函数ExitInstance内调用CoUninitialize消化COM库。在这个接口中, 工作的技术原理遵循C0M组件的结构设计和施工的应用服务和一般的Windows应用程序的过程是在语音识别工作的消息驱动机制,方法像下:初始化微软的COM组件平台;(1)为了确定每个语音接口对象特定,设置识别信息,识别语法,识别引擎处于工作状态; (2)语法规则被识别时,语音识别消息的ISpRecoContext对象,如响应函数呼叫识别信息的应用;然后在消息的功能,并通过ISpPhrase接口函数得到的识别结果。此步骤的语法规则可以再循环至停止。应用程序退出时,卸载COM平台。语音识别软件系统流程如下图所示,硬件只需在原来的机器人系统上配置麦克风。如果不能正常朗读,先运行调节朗读模块,进行默认的初始化,带口型的朗读,朗读英文选 Microsoft Mike是Speech SDK在VC+ +中的MFC的语音识别接口功能是微软开发的开发和利用类库,这些主要步骤需要在使用前引入,我们通过Speech 5.1和VC+6为例:1、 初始化COM端口引用CoInitializeEx函数开始COM初始化,通常在CWinApp的子类中,代码表示::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); / 初始

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论