




已阅读5页,还剩56页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密,在年解密后适用本授权书。本学位论文属于不保密。学位论文作者签名指导教师签名年月日年月日独创性声明本人郑重声明所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名日期年月日分类号密级UDC编号工程硕士学位论文基于WEB的SALT语音识别技术应用研究THEAPPLICATIONANDRESEARCHOFAUTOMATICSPEECHRECOGNITIONTECHNOLOGYBASEDONSALT指导教师作者姓名申请学位级别硕士学科专业计算机应用论文提交日期论文答辩日期学位授予单位和日期答辩委员会主席评阅人_摘要长久以来,人们都渴望以一种最简单、最轻松的方式进行沟通。而随着语音识别技术的飞速发展,人与计算机之间的沟通也变得越来越简单。SALTSPEECHAPPLICATIONLANGUAGETAGS技术是一项新兴技术,它是一种独立平台的标记语言,可以用于创建经由语音平台接入的应用系统。语音识别拥有可观的应用前景,尤其在我们生活信息化越来越加深的今天,应用于WEB的语音识别技术作为一个语音识别应用的热点方向,也具有深远广阔的应用前景。该技术在进行WEB开发中,可以提供一种全新的解决思路,因此“基于WEB的SALT语音识别技术应用研究”实例的实现是对这一新技术进行研究和实践的很好的学习、应用、检验、改进,甚至提高的过程。在本课题的研究中,主要完成了基于WEB具有语音识别功能并可以根据语音命令完成一定操作基本功能的语音应答平台系统的实现,需要将SALT技术应用于ASPNET服务系统页面之中。具体工作如下(1)研究了经典的HMM算法及其他算法,分析其算法性能的优劣。(2)本文重点集中讨论了基于SALTSPEECHAPPLICATIONLANGUAGETAGS的语音识别应用,介绍了语音合成技术、文语转换系统的组成及其实现过程、自动语音识别技术、自动语音识别系统的组成及其实现过程,探讨基于SALT的语音识别技术在软硬件平台上的实现以及实际应用中的具体问题。(3)本文结合SALT论坛最新即将发布的SALT语音应用语言标记技术,提出了基于SALT的语音识别系统实现的体系结构,论述了具体的实现方案和方法,并结合中小企业实际情况,开发了一套语音识别示例系统,初步实现了基于SALT技术的语音识别系统的开发,并初步实现了基于WEB的远程部署,为下一步的工作打下一个较为可靠的基础。系统开发集成环境包括WINDOWSXP操作系统、MICROSOFT的C、ASPNET、ADONET和SALT11FINAL版插件。关键词WEB,语音识别,SALT,程序设计,ASPNETABSTRACTFORALONGTIME,PEOPLEHAVEALLWISHEDEAGERLYTOCOMMUNICATEINAKINDOFSIMPLEST,MOSTRELAXEDWAYANDWITHTHEDEVELOPMENTATFULLSPEEDOFTHERECOGNITIONTECHNOLOGYOFTHEPRONUNCIATION,THECOMMUNICATIONBETWEENPEOPLEANDCOMPUTERBECOMESSIMPLERANDSIMPLERSALTSPEECHAPPLICATIONLANGUAGETAGSISAMARKUPLANGUAGETHATTAKESERVICEINOPEN,FREEPATENTABLEACCESS,INDEPENDENTOFPLATFORM,ITISUSEDFORCREATINGTHENEWLYAPPLICATIONSYSTEMTHATISCUTOVERTHROUGHSPEECHPLATFORMAUTOMATICSPEECHRECOGNITIONASRHASCONSIDERABLEANDBRIGHTFUTURE,WHILEMOREANDMOREINFORMATIONTECHNOLOGYHASBEENUSEDINOURDAILYLIFEANDASAHOTDOMAIN,ASRBASEDONSALTALSOWILLBEPOPULAREVERYWHERETHETECHNOLOGYINOURDEVELOPMENTOFTHEWEB,YOUCANPROVIDEUSWITHABRANDNEWIDEASTOSOLVE,“THESALTWEBBASEDVOICERECOGNITIONTECHNOLOGYAPPLIEDRESEARCH“ISTHEREALIZATIONOFOUREXAMPLESOFTHISNEWTECHNOLOGYTOSTUDYANDPRACTICEOFGOODSTUDY,APPLICATION,TESTING,IMPROVINGANDEVENIMPROVETHEPROCESSINTHISSTUDYOFTHESUBJECT,IHAVEPRIMARILYRESPONSIBLEFORWEBBASEDSPEECHRECOGNITIONFEATURESANDCANOPERATEWITHVOICECOMMANDSTOCOMPLETECERTAINBASICFUNCTIONSOFTHEVOICERESPONSESYSTEMPLATFORMTHEREALIZATIONOFTHENEEDTOSALTTECHNOLOGYINASPNETPAGESOFTHESERVICESYSTEMMAJORWORKISASFOLLOWS(1)ISTUDIEDCLASSICALHMMALGORITHMANDOTHERALGORITHMS,ANALYSISTHEMERITSOFITSALGORITHM(2)WITHAFOCUSONTECHNOLOGYOFSALTSPEECHAPPLICATIONSLANGUAGETAGSTHATSALTFORUMWILLPUBLISHRECENTLY,THISESSAYBRINGSUPTHETOTALSTRUCTUREOFAUTOMATICSPEECHRECOGNITIONASRSYSTEMBASEDONSALT,ANDEXPOUNDSTHETHEORYSCHEMEANDMETHODSOFREALIZATIONANAUTOMATICSPEECHRECOGNITIONASREXAMPLESYSTEMHASBEENDEVELOPEDBASEDONTHEACTUALCIRCUMSTANCESATSMALLANDMEDIUMSIZEDENTERPRISES,WHICHHASPROVIDEDASETOFSOFTWAREFORSMALLANDMEDIUMSIZEDENTERPRISESTHATCONFORMSTOPRACTICEANDSUITSTHEDEMANDINCUSTOMERSERVICETHEESSAYACHIEVESTHEASRDEVELOPMENTBASEDONSALT,ANDFINISHEDTHELONGDISTANCEARRANGEMENT,BRINGSARELIABLEBASEFORTHECOMINGWORKINTHENEXTROUND(3)THISSYSTEMENVIRONMENTINCLUDEOPERATORSYSTEMOFWINDOWSXPANDTHEDEVELOPMENTTOOLSOFTHEMICROSOFTVISUALCNET,ASPNET,ADONET,ANDSOONTHEVERSIONOFSALT11FINALISTHESUBJECTIVESOFTWARETOOLWHICHISUSEDTODEVELOPTHESPEECHINTERFACEOFTHEWEBSYSTEMKEYWORDWEB,SPEECHRECOGNIZE,SALT,PROGRAMMING,ASPNET目录第一章绪论111研究背景112研究现状213研究内容414全文的组织安排5第2章语音识别技术621语音识别的原理622语音识别的基本算法9221概述9222HMM模型的结构12223前向和后向算法14224VITERBI算法15225BAUMWELCH算法1623INTERNET中语音识别的应用1724本章小结18第3章基于WEBSALT语音识别1931SALT技术19311SALT技术知识分析19312SALT技术的优越性2232基于WEBSALT语音识别的体系结构23321SALT体系结构23322SALT开发流程2533基于WEBSALT语音识别的算法分析2734本章小结29第四章基于WEBSALT语音识别系统的设计与实现3041系统功能分析3042系统总体模块划分3043使用技术及方法31431面向对象的技术31432并行工程设计32433采用VSNET平台及B/S结构技术32434系统开发环境及运行环境的选择33435开发平台和WEB服务33436开发工具和语言34437运行环境3544系统接口设计35441用户界面设计35442SALT接口应用设计3645系统实现36451设计模式的应用36452WEB应用程序的详细设计37453语音识别系统语法GRAMMER设计39454语音识别系统的功能设计4046系统运行及特点4147运行测试评价42471测试环境42472运行测试42473测试结果分析45474测试结论4648本章小结47第五章总论和展望4851结论4852进一步研究工作4953本章小结49参考文献50致谢54第一章绪论11研究背景在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种形势下,如何让计算机智能化地与人通信,使人机交互更加自然方便成为现代计算机科学的一个重要的研究课题。语音是人际交流的最习惯、最自然的方式,它将成为人机交互方式的理想选择。让机器能听会说,是人类由来已久的理想。语音技术主要包括语音合成技术和语音识别技术。语音合成技术解决机器说的问题,语音识别技术解决机器听的问题。设计和开发的应用实例或系统是语音技术商业化、社会化的重要手段,语音技术的应用在当今社会有着重要的意义。首先政府开通的咨询热线、咨询服务业对于语音技术的应用期待己久。语音识别技术和语音合成技术,再加上数据库共同组成咨询服务业务的解决方案。呼叫中心必须迅速地走上机器智能应答和记录的道路,否则,呼叫中心只能变成为一个美丽而不实际的神话,24小时的热线服务,不均匀的问讯量峰谷,日益增高的工资成本,坐席人员的培训与流失,很快就会使政府、企业不堪其负。机器的语音应答,白动的问讯和需求记录,将大幅度降低呼叫中心的投资及其运转成本,将会受到各级政府、广大中小企业的欢迎。其次,语音自然交互更具有其它信息终端不具备的优势,利用自然语音交互技术,用户不再需要一项一项的填写WEB的FORM表单,不再需要痛苦的在小小的手机键盘上换着数字输入名字和EMAIL地址。基于关键字捕捉和自然语言处理技术,用户进入个人界面后可以轻松的说一句“旅游信息,杭州”,相应地计算机回应“杭州”的有关信息,一切轻松自然而又随意。再次,国际上衡量一个国家的咨询服务业发展程度有一个参考值,即信息咨询产值与电子产品工业产值的比率,这个比值在欧美日的平均水平是11强,而中国的这个比值是不到9,香港、新加坡的平均水平是中国大陆的4倍左右。最后,广阔的市场前景。美国的著名咨询企业安达信公司曾报告指出,按照中国的市场化发展速度看,到2010年中国的信息咨询业将达到100亿美元,即1000亿人民币左右的规模。这还不包括各级政府、大中小企业自建的咨询服务热线,中国互联网中心也预计语音产品及其咨询业规模将达到1300亿元。12研究现状语音识别AUTOMATICSPEECHRECOGNITION,ASR的研究工作起始于上个世纪50年代,1952年贝尔实验室的DAVIS,BIDDULPH和BALASHEK建立了一个与说话人有关的孤立英文数字语音识别系统1,3。在说话人和麦克风距离保持不变的情况下,该系统正确识别率达到了98。1959年,美国LINCOLN实验室的RORGIE和FORGIE3首次采用数字计算机识别英文的元音和以摩擦音开头的孤立字,这标志着计算机语音识别时代的开始。60年代末70年代初,一系列里程碑似的基础性突破为语音识别的发展奠定了基础。在语音学方面,瑞典通信工程师FANT发表了著名的博士论文语音产生的声学理论。在信号处理方面,线性预测编码LINEARPREDICTIONCODING,LPC技术在70年代被日本学者ITAKURA5成功地应用于语音识别,使语音信号的特征提取有了一次飞跃。前苏联科学家VINTSYUK60年代将动态规划应用于模式识别,成为语音识别方法的重要基础。日本学者SAKOE和CHIBA6提出了动态时间归整DYNAMICTIMEWARPINGDTW技术用来解决语音识别中不等长语音的对整问题。语音信号线性预测编码技术和动态时间归整技术,结合模板匹配原理,有效地解决了特定人、小词汇表的孤立词语音识别问题。美国于70年代实施了美国国防高级研究项目计划USDEFENCEADVANCEDRESEARCHPROGRAMAGENCY,DARPR,对语音识别研究给予很大支持,DARPA采用有多个说话人发音的1000词的语料库,作为参加DARPR计划的大学和公司研发的语音识别系统的性能评估语料库。80年代以后,语音识别的任务开始由特定人孤立词语音识别转向非特定人、中等词汇量的连续语音识别,识别的方法也逐渐从模板匹配方法转变到统计模型方法。以隐马尔可夫模型典型代表的统计方法,由于其在参数、结构和训练方法的选择上有很大的灵活性,逐渐成为语音识别技术的主流。HMM的理论基础在1970年前后由BAUM等人建立起来,随后由CMU的BAKER和IBM的JELINEK等人应用于语音识别之中,HMM模型的广泛应用归功于AT而对于大词汇量的电话语音的识别,美国CARNEIGIEMELLON大学的系统词误识率为451。这些系统代表着目前语音识别的最高水平。小词汇表语音系统也具有广泛的应用价值,英语数字语音识别的串识别率己达到99以上而具有高混淆度的英语字母的识别率也达到了97以上。互联网和移动通讯技术的成熟给语音识别技术的发展和应用带来新的契机。IBM,LUCENT,MOTOROLA和ATML_SALT_PROMPTTHREADPROCESS是ML_SALTPROPTSERVER对象中用于接收动作命令的循环线程ML_SALT_LISTENTHREADPROCESS是RNL_SALT_LISTENSERVER对象中用于接收动作命令的循环线程。他们由系统的主处理线程派生。34本章小结本章在阐述了SALT的基本知识,分析了基于SALT的语音识别系统结构,进行了基于WEBSALT语音识别算法分析,提出了基于此思想的语音识别系统的总体结构模型、网络结构、特点和过程管理要求,并探讨了语音识别系统使用的技术和方法,以及讨论了系统开发运行环境。第四章基于WEBSALT语音识别系统的设计与实现41系统功能分析在上述理论方法研究的基础上开发完成基于SALT的语音识别系统的一个功能子系统。它不但有自己的功能可单独使用,而且还可以在此基础之上附加功能模块或其他子系统集成为一个企业的语音功能平台,比如构建一个健壮的呼叫中心平台。这里完成的语音识别实例应具备下列一些功能1语音合成功能TTS,TEXTTOSPEECH在语音识别系统中,会存在许多语音播放效果,所有的这些语音效果都是通过一定的合成算法产生,具体功能如下多语言种类支持英文、中文;合成数字、字符、时间;语音库混合播放等。2语音识别功能SPEECHRECOGNIZE,ASR/AUTOSPEECHRECOGNIZE指在语音识别系统中,最基本的语音服务功能还应包括对用户自然语言的准确识别,也就是说可以直接实现机器“听懂”人说话,为服务整个系统提供一个实现语音识别的接口,从而可以提供进一步的其他服务。42系统总体模块划分根据上节的功能分析,将本语音识别实例分为以下几个功能模块语音合成模块TTS、基于SALT的语音识别模块、功能服务模块三大功能模块。它的功能结构如图41所示。图41语音识别实例功能结构图语音识别系统语音合成模块TTS基于SALT的语音识别模块功能服务模块其中,语音合成模块负责实现将任意指定的文字语句合成为语音,然后由标准输出设备输出;语音识别模块将标准输入设备输入的自然语音信号识别为文本字句;而功能服务将实现一个基于语音的服务功能。43使用技术及方法431面向对象的技术面向对象OBJECTORIENTED,OO方法是近年来发展迅速的软件工程方法,对人工智能、系统工程等学科都有重要的影响。它不仅是一种程序设计思想,更是一种基于事物本质的思想抽象方法。既提供了从一般到特殊的演绎手段如继承,又提供了从特殊到一般的归纳形式如类。解决信息集成的难题,目前可有3种方法设计接口、“浓缩重组”和面向对象方法。在这3种方法中,面向对象方法是最灵活的解决办法,信息可以达到较好的集成效果。利用OO方法分析设计问题域并重组语音识别系统结构,将有可能解决语音识别系统通用性和实用性均低的缺陷,并便于系统的后续扩充。随着语音识别研究和应用的深入,传统的结构方法己不能满足构造新一代语音识别系统的需要,面向对象技术作为一种新的认识方法、新的系统分析方法和新的系统设计方法,己在语音识别系统的研究与开发中发挥了极为重要的作用,大大提高了语音识别系统的开发质量,加快了系统的开发周期,有力促进了语音识别系统智能化和实用化方面的发展。OO思想的概念及含义可简单地用一个公式来表示面向对象对象分类继承通过消息的通讯。OO程序设计具有许多优点1开发时间短,效率高,可靠性高,所开发的程序更强壮。由于面向对象编程的可重用性,可以在应用程序中大量采用成熟的类库,从而缩短了开发时间。2应用程序更易于维护、更新和升级。继承和封装使得应用程序的修改带来的影响更加局部化。语音识别系统以客户服务为研究对象,管理有关客户服务整个生命周期的信息,基于SALT的语音识别系统的开发中必须采用面向对象的分析和面向对象的设计技术,建立面向对象的数据模型,这样才能正确描述其复杂的数据结构。采用面向对象的方法,根据“浓缩重组”思想,建立信息集成的模型。432并行工程设计并行工程设计是一种对客户服务及其相关过程进行并行和集成设计的系统化工作模式和设计方法。并行工程的定义是集成地、并行地设计各种流程的系统方法。即要求在服务过程中对相关的并行工程进行设计,以降低服务成本,提高服务质量。并行工程的目的之一是要加速服务时间,因此在服务过程中、各阶段的服务工作既是有序的、又是并行的,信息流是双向的,决策取决于上下信息流的输入,并要达到信息共享,提高服务工作的并行度,及时发现服务过程中的问题,从而缩短了服务时间、提高了服务质量、降低了成本,增强了企业的竞争力。433采用VSNET平台及B/S结构技术系统整体架构采用了B/S结构模式,将系统分为客户界面层也称为表现层、业务逻辑层也称为服务层和数据库服务层也称为数据层,开发平台则采用了NETFRAMEWORK,有效地降低了系统对客户机的要求,避免了在客户机上分发应用程序与版本控制的困难。1客户界面层用户界面采用的是ASPNET技术,ASPNET技术的应用增强了系统的通用性,客户端只需安装IE浏览器,无需加载任何组件。主要由HTML,ASPX等组成。2业务逻辑层采用了NETFRAMEWORK调用OWC的技术,能够根据用户的要求快速取得数据库中的数据动态生成图表。系统能够支持复杂的检索条件,检索速度快,响应时间短。该层主要由C等文件编译成的DLL控件或组件。3数据服务层数据服务层可采用任何一款关系型数据库。在本系统使用的是MICROSOFT关系数据库,它能与NETFRAMEWORK无缝集成。数据库存取技术则采用了ADONET。在三层结构中,数据层通过中间层来连接以及操作,客户界面层给业务逻辑层传递参数,并接受业务逻辑层的参数。在ASPNET中,主要关注的是业务逻辑层与客户界面层的数据交换。434系统开发环境及运行环境的选择下表对系统的开发和运行环境作了一个简单的说明表41开发和运行环境选择435开发平台和WEB服务随着SALT标准的发布,己经发布或计划发布支持SALT标准的产品的主要企业和组织包括微软的SASDK;飞利浦的基于JAVA2支持SALT的浏览器;美国KIRUSA的SOFTSERVER;美国HEYANITA的FREESPEECHPLATFORM;美国卡耐基梅隆大学的OPENSAIT等。微软提供的语音应用平台和已经发布了能够无缝嵌入到该公司开发环境VISUALSTUDIONET中的支持SALT的语音开发工具包SPEECHAPPLICATIONSOFTWAREDEVELOPMENTKIT,SASDK。微软希望通过其NET语音平台来实现商业化应用,这将在不久成为现实。运行在MICROSOFTNET语音平台44上的WEB语音程序将由MICROSOFTNET语音软件SDK来开发,并且可以通过一组SALT开发工具以及语音控制集成到VISUALSTUDIONET和ASPNET中。1微软的SASDKSASDK是一套可以让WEB开发人员能够创建、调试和部署支持语音的MICROSOFTASPNETWEB应用程序,这些应用程序适用于多种设备,包括电话、基于MICROSOFTWINDOWSMOBILE的设备以及桌面计算机等。SASDK提供了全套的创作工具,可用来开发能够在多种客户端如桌面计算机、平板计算机或掌上电脑上运行的、支持语音的WEB应用程序。这些工具与类别名称开发平台WINDOWS2003SP1开发工具VSNET2003开发语言C,SASDK运行环境WINDOWSSASDKWEB服务IIS60数据库系统SQLSERVER2000MICROSOFTVISUALSTUDIONET紧密集成,从而使开发人员可以利用自己熟悉的功能强大的开发环境。SASDK还提供了一组功能强大的ASPNET语音控件、一个适用于MICROSOFTINTERNETEXPLORER的语音外接程序、一个适用于MICROSOFTPOCKETINTERNETEXPLORER的语音外接程序、一个内容丰富的语法库、语音调试工具、一个应用程序事件日志记录机制以及文档资料。2语音应用服务服务软件支持标准的电话硬件,也可以发布于标准的基于INTEL服务,明显地降低开发成本。包括以下两部分电话服务软件允许用户通过电话与HTML和支持SALT的WEB应用来进行交互。而软件将会运行在标准的支持WINDOWS的硬件,并且用一个电话插件和电话网进行连接。语音服务软件通过一个局域网和电话服务商进行联接,可以对电话提供商的语音循环请求提供多语音和语音/文字提示。可以对便携PC以及其它设备的语音循环请求提供语音识别和声音提示服务。3客户端软件PC和便携计算机运行于SALT附加的IE浏览器都可以使这些设备通过IP地址和远程语音平台进行联接。即用户通过加装一个小的电话插件或附件就可以运行语音软件的设备实现语音功能。WINDOWS操作系统是现在全球风行的操作系统,具有友好的界面和强大的功能,现为广大的用户开发人员所使用和认可。WINDOWS2003是WINDOWS系列产品中较新的版本,对于WEB服务程序具有良好的兼容性。INTERNET信息服务IIS是方便于发布信息和将商用应用程序加载到网站上的WINDOWS组件,IIS便于您为网络应用程序和通讯创建强大的平台。436开发工具和语言VSNET是由MICROSOFT公司推出的一种功能强大、使用灵活的快速应用开发工具。VSNET是一种面向网络,支持各种用户终端的开发平台环境。微软的目标是让VSNET彻底改变软件的开发方式、发行方式和使用方式等。VSNET的核心内容就是要搭建新的互联网平台,这个网络平台将解决网站之间的协作问题,从而最大限度的获取信息。ASPNET45,46,47是为解决了现有开发环境的许多问题,而且提供了强大的可扩展性,同时为用户带来了强大的工具支持。选用ASPNET重要有以下4个主要目标使代码更清晰提高可部署性、可伸缩性、安全性及可靠性为不同的浏览器和设备提供更好的支持支持一种全新的WEB应用程序。C48,49主要是为NET平台设计的,C是一种简单、新型、面向对象、类型安全、兼容性和交互操作性的编程语言。运行在NET语音平台上的WEB语音程序将由SPEECHAPPLICATIONSDK来开发,并且可以通过一组SALT开发工具以及语音控制集成到VISUALSTUDIONET,目前最新版本的SASDK版本为11。WEB窗体页是用ASPNET技术生成的,ASPNET是一种统一的WEB平台,它提供了生成企业级应用程序所必需的全部服务50。ASPNET又是基于NET框架生成的,因此整个框架都可用于任何ASPNET应用程序。您可以使用任何与公共语言运行库兼容的语言包括MICROSOFTVISUALBASIC,VISUALC和JSCRIPTNET来创作应用程序。所以选择VSNET平台下的ASPNET作为开发工具,并集成SASDK开发工具包,以C语言作为开发手段。ASPNET集成开发环境不仅提供了一整套用于设计、编写、测试、调试和发布应用程序的工具软件,同时还包含了大量可以重用的控件、模板。437运行环境本系统可运行于WINDOWS2000,WINDOWSXP或WINDOWSSERVER2003操作系统。WINDOWS为用户提供了一个多任务、多窗口的操作环境,且WINDOWS下的应用程序都具有一致的外部特性和图形界面风格,因此,WINDOWS己经成为微机平台上的事实界面标准。运行在NET语音平台上的WEB语音程序将由SASDK工具包来开发,在客户端也要调用工具包中的文件,所以运行系统也应该包括SASDK。44系统接口设计441用户界面设计本系统主要采用用户控件对页面进行设计。包括四个用户控件来完成,包括HEADER,FLOW,FOOTER和PAGE。根据功能的规划,对页面作了适当的安排,下面就是该程序的界面设计一示意图标题语音合成模块TTS基于SALT的语音识别模块功能服务模块FOOTER图42系统页面设计示意图442SALT接口应用设计SASDK支持SALT,SALT对HTML和其他标记语言进行了扩展,使用标记和支持脚本的对象来执行语音输出、口头语言输入、技术管理和消息处理。45系统实现该系统的应用程序可以分为两部分进行设计和开发WEBSERVER和WEB应用程序。对于前端的客户程序即为系统的用户层,在MVC模式中它处于视图部分,我们将设计为WEBPAGE形式,其中需要用到ASPNET,HTML和SCRIPT的相关知识完成;而控制端程序即我们的服务处理核心层,在MVC模式中它是处于控制部分,我们将通过基于NET框架平台的C编程来完成。另外,我们在设计时就会考虑如何能将SALT技术进行融合,从而完成语音平台和传统的WEB应用平台的整合。451设计模式的应用在开始进行语音识别示例系统的设计之前,首先介绍一下将会在本系统中应用的设计模式。进行该系统的设计时要保证该系统的可扩展性,当有新的业务或现有业务规则需要调整时能够比较容易地实现。为此采用MVC设计模式对此应用系统进行划分,并最终以三层应用的方式进行部署。在本系统中,视图VIEW部分由一组ASP页面组成,即用户界面、任务和运行结果显示等;控制CONTROL部分获得用户的请求,然后依据客户的请求调用模型MODEL提供的功能,本系统控制部分使用一个XML和SOAP实现;而模型部分封装了系统的数据及业务规则,在本系统中模型由一组WEBSERVER组成。在本系统的设计中,我们采用先完成基本系统的设计和实现,然后在此基础之上进行SALT接口的实现。但是设计重点是在于如何实现基于SALT技术支持的语音交互WEB应用。452WEB应用程序的详细设计本系统中使用了CNET来建立语音识别示例系统的界面和后台服务功能部分。ASPNET用于前端的展示页面的开发和设计。其中页面运行主要流程如下图所示图43系统页面工作流程示意图在本示例系统中,用户可以设定待合成的文字信息,如“HELLOWORLD”等,语音合成功能按钮可以转化成目标语音流并从标准输出设备(如耳机音箱)返还给用户;语音识别功能按钮可以将用户输入人的自然语音根据一定的语法规则识别用户语音意思,并根据用户口头语音命令显示不同的图片,从而完成功能演示动作。识别页面如下图所示用户登录程序运行语音合成输出(TTS)语音输入识别(ASR)语音命令服务图444系统识别页面运行示意图在图中预先设置了识别内容,根据识别内容,用户使用标准输入设备(如话筒麦克风等),输入这些预定识别内容,语音识别页面根据不同的对应分别显示不同的图片结果。预定识别列表如表41。表42预定识别列表英文中文含义PLAYGROUND操场STUDENTCENTER大学生活动中心ELECTRICALBUILDING机电楼TEACHINGBUILDING教学楼1栋STUDENTBUILDING教学楼2栋SCIENCEBUILDING科技楼GYMNASIUMBUILDING体育馆LIBRARY图书馆BEAUTIFULFLOWERS鲜花ADMINISTRATIONBUILDING行政楼STUDENTRESTAURANT学生食堂DORMITORY学生宿舍SCHOOLGATE学校大门与此同时,必须在页面中引入SALT功能,即声明SALT变量,系统各个变量对象声明如下453语音识别系统语法GRAMMER设计对于基于SALT的语音应用程序设计,设计和调用适当的语法图是程序好坏的关键。作为本系统我们采用了调用系统语法,自己定义语法,在自定义语法中调用系统语法等方法。1SDK系统语法由于VISUALNET的SALTSDK自己已经带了比较全面的语法结构,我们在程序设计时可以充分利用这些语法来完成我们自己的任务。比如YESNOCANCEL,INTEGER,FLOAT,SIMPLEALPHANUMLN,还有USPHONENUMBER等等,我们都可以随意的调用。2自定义语法但是对于那些我们的SDK里面没有的语法,我们需要进行语音识别的就要求我们自己根据情况进行定制了。目前我采用的是英文的识别,以后还可以增加汉语的语音识别。在我们这个系统里,目前用到的针对显示不同图片时的特点,我们定制一套语法规则嵌入进系统识别页面当中,具体如下/SALT语法变量定义并赋值/识别内容列表PLAYGROUNDSTUDENTCENTERELECTRICALBUILDINGTEACHINGBUILDINGSTUDENTBUILDINGSCIENCEBUILDINGGYMNASIUMBUILDINGLIBRARYBEAUTIFULFLOWERSADMINISTRATIONBUILDINGSTUDENTRESTAURANTDORMITORYSCHOOLGATE454语音识别系统的功能设计根据预先的设计,不同的功能模块必须能够对于用户不同的输入动作实现不同的功能,完成不同的任务,而这也是语音识别系统的具体内容和目的所在。实例将整个功能分化为不同的功能模块,然后对各个部分分别实现。1)TTS语音合成功能模块能将预先设定的字符语句动态的合成为语音信号并播放出去,语音识别主要功能函数实现如下FUNCTIONSTARTPROMPT/TTS合成开始函数TRY变量赋初值TESTPROMPTSTART“IAMZHANGZHUOYUN,THISISMYSALTEXAMPLE“/TTS合成内容赋值CATCHE/识别结果显示ALERT“SPEECHOUTPUTERROR“/出错处理FUNCTIONHANDLEPROMPTONCOMPLETE/识别结果状态显示TRYPROMPTMESSAGEINNERHTML“PROMPTWASSUCCESSFULLYPLAYED“PROMPTSTATUSINNERHTML“STATUS“TESTPROMPTSTATUS“若函数执行成功,则在ASP页面上显示提示信息“PROMPTWASSUCCESSFULLYPLAYED“,并给出状态值,否则会给出错误提示。识别功能模块将根据预先设计的自定义语法,实现对自然语音的识别,并执行相应的动作,从而完成预先的设计功能。网页识别功能函数部分代码如下TEXTEVENTSRCELEMENTTEXT/捕获当前事件的TEXT并给变量赋值RECOMESSAGEINNERHTML“RECOGNITIONWASSUCCESSFUL“IFTEXT“/识别结果提示RECOTEXTINNERHTML“RECOGNIZEDINPUT“ELSERECOTEXTINNERHTML“RECOGNIZEDINPUT“EVENTSRCELEMENTTEXTRECOSTATUSINNERHTML“STATUS“TESTRECOSTATUS“系统根据识别的内容发生不同的动作,在实例中示例功能以显示不同语义意思对应的不同图片,因此当应用到实际应用中时,应用范围较为广泛,如可以将其具体为操纵一台工业机器手等等。以自然语意为“PLAYGROUND”为例,功能代码实现如下IFEVENTSRCELEMENTTEXT“PLAYGROUND“/若当前事件文本内容为PLAYGROUND,则执行一下语句DOCUMENTWRITE/显示PLAYGROUND对应的图片前面对于语音识别系统的论述,提出了一种基于SALT标准的新模式,同时也对基于这种新模式的系统方案设计作了一个介绍,也提到了实现这个模式需要的一些方法。下面介绍基于SALT的语音识别系统应用实例的运行测试。46系统运行及特点系统采用微软的软件界面设计风格,在一般的IE60浏览器下就可运行,实现客户和操作人员的使用习惯。灵活、简洁的编辑环境,帮助用户快速、高效、准确的完成语音识别流程的操作任务。该系统具有以下特点1开放式体系结构采用最新的SALT标准,基于WEB应用方式,支持分布式流程部署,采用NET技术实现企业应用继承EAI;2高度的适应性支持WINDOWS操作系统,支持多种数据库和多种CTI接口;3方便的图形化界面支持语音流程编辑,支持语音识别;4完备的配置管理提供完善的安装、配置、管理、监控和日志工具;47运行测试评价471测试环境(1)硬件环境计算机配置为INTELPENTIUM(R)43G,内存1G,需要配置声卡。输入设备为麦克,输出设备为耳机或者音箱。(2)软件环境WINDOWS平台,操作系统为WINDOWS2003SEVER。00000000此外,由于语音识别引擎为英文,此次测试语音输入与输出均采用英文。472运行测试运行测试评价是软件测试的一个阶段性结论,用所生成的测试评审报告,来确定测试是否达到相关的标准和要求。通过测试报告,验证测试结果是否符合测试计划中制定的测试标准。根据缺陷报告提供的测试结果数据,给出软件质量和测试完整性的评审报告。在客户端登录系统运行系统后,界面显示如下图45系统页面运行示意图图46系统页面运行示意图测试分析报告是在测试分析的基础上,对测试的结果以及测试的数据等加以记录和分析总结。它也是测试过程中的一个重要环节,同时它也是对软件性能的一个总的分析和认可及对不足之处的说明。因此,测试分析报告对于今后软件功能的加强,不足之处的弥补等都起着十分重要的提纲作用另外,它还有利于今后软件开发者阅读原程序,根据测试提供的数据和结果,分析原代码,掌握各函数的功能和局限性。从而缩短软件开发者的再开发时间和所耗费的精力、资金。在本程序中,预先设置的语音识别语句为“IAMZHANGZHUOYUN,THISISMYSALTEXAMPLE”。当按“播放示例语音”键后,用户可以从标准输出设备听到系统实时动态合成的语音信号。输出结束然后,系统会在页面提示栏显示转换播放成功的提示信息“PROMPTWASSUCCESSFULLYPLAYED”和状态参数“STATUS0”。如果系统出错没有成功转换,系统会弹出错误对话框“ANERRORHASOCCUREDPROMPTERROR”。按“开始语音”按钮,分别输入“SCHOOLGATE”、“SCIENCEBUILDING”、“LIBRARY”语音命令,系统将显示不同的图片,运行结果如下组图所示图47按“开始语音识别”按钮在使用者输入自然语音信号“SCHOOLGATE”后,系统能教迅速的完成识别,并将结果传给执行模块,完成示例功能,具体在本例中,是将无锡工艺职业技术学院校门显示出来。图48显示结果图片“学校大门”经过测试运行,识别系统能够较为理想的实现对语音信号的高效识别,能顺利准确的完成后续的功能服务,基本达到了预先的设计要求。473测试结果分析根据测试设计得出测试结果如下表表43单词及词组识别结果序号识别样本总识别次数识别成功次数成功率1ONE1001001002TWO1001001003THREE1001001004FOUR1001001005FIVE1001001006NIHAO10098987WUXIINSTITUTEOFARTSANDTECHNOLOGY10092928YIXING10098989JIANGSU100989810JIANGSUUNIVERSITY1009595表43网页识别结果序号识别样本总识别次数成功次数成功率1PLAYGROUND(操场)10096962STUDENTCENTER(大学生活动中心)10093933ELECTRICALBUILDING(机电楼)10096964TEACHINGBUILDING(教学楼1栋)10095955STUDENTBUILDING(教学楼2栋)10098986SCIENCEBUILDING(科技楼)10095957GYMNASIUMBUILDING(体育馆)10094948LIBRARY(图书馆)10093939BEAUTIFULFLOWERS(鲜花)100969610ADMINISTRATIONBUILDING(行政楼)100979711STUDENTRESTAURANT(学生食堂)100939312DORMITORY(学生宿舍)100969613SCHOOLGATE(学校大门)1009595474测试结论从以上的测试运行结果来看,本次设计的语音识别系统整体运行良好,识别率达到了预期的效果。单词和词组的识别率较高,达981,网页的识别率也有9515。但是也存在一些问题无论是单词还是网页在喧噪的环境下的识别成功率均比在安静的环境下的识别成功率低;而词组与单词识别相比,识别成功率就更低了。造成该结果的原因可能是因为发布指令人发音模糊,吐字不清,带有方言,语速过快等诸多原因,再加上所处环境的噪音较大,对识别系统的影响巨大。48本章小结本章为基于SALT的语音识别系统的实例介绍,通过实际运行实例程序,对实例系统分析和软件运行实例对系统各功能模块的分析及实现、系统处理流程进行了概要说明,同时对软件测试进行了评价和分析。第五章总论和展望51结论语音和文字是语言的两大组成部分,也同样是文明诞生以来,人们相互间传递信息的主要方式。近几十年来,人类社会对信息交流不断增长的需求构成语音技术发展的最大推动力。在语音识别技术吃速发展的今天,人们与计算机之间的对话变得越来越容易。这使得我们能够在更多、更广阔的领域中实现语音识别。然而,尽管语音识别技术有其广泛的应用性,可是当我们想把它推广到生活中的各个方面时,却发现存在着种种的技术上的局限。比如用户在使用时的不方便,开发人员在编写程序时的不方便,还有很重要的是人们往往很难在不改变传统的应用程序的基础上,使其具有语音识别的功能。而文章适时地引入了一种全新的语音技术SALT技术,利用其开放式的,无专利使用费的,独立平台的标记语言,可用于创建经由语音平台接入等特点,极大拓宽了语音识别技术在现实生活的应用性。并以一个示例语音识别系统这样一个应用程序为例子,通过在其中使用SALT语音标记,使其具有语音识别的功能,初步具备一定的服务功能;也由此验证了SALT技术在应用中的巨大优势。总结全文,所作的主要工作如下1回顾语音识别的发展,分析语音识别技术的特点,指出语音识别的广泛应用性。2深入地对SALTSPEECHAPPLICATIONLANGUAGETAGS,语音应用标记语言技术进行了研究和分析,并同时对SALT的体系结构、事件线索、基本元素、设计准则等进行了详细的阐述。3结合SALT技术在语音识别中的巨大应用优势,提出了基于SALT的语音识别系统的总体设计方案,划分了各功能模块,提出了软件接口和内部接口设计方案,结合具体计算机应用方面的特征,建立了适合本系统的软、硬件环境。4提出了系统的详细设计方案,初步实现了基于SALT技术的语音识别系统的开发,并初步实现了基于WEB的远程部署,对识别和服务功能模块及其运行流程进行了具体的分析和设计,为下一步的工作打下一个较为可靠的基础。52进一步研究工作在完成本次毕业设计的过程中,查询了许多资料,也进行了无数次的调试,但是系统还是存在不少有待改进的地方。主要表现如下几点1流程单一性在企业级的实际应用中,服务情况是复杂而多变的,单一性的流程是难以适应将来发展的需要,大大限制了本系统的应用推广,所以完善服务流程是非常重要的。2语法结构和语音提示数据库还有待完善语法结构和语音提示数据的丰富,将进一步提高本系统语音应答的能力,增加本系统的实用性,提高语音界面的亲和力,减少机器合成语音的生涩陌生感,应在语法结构上尽量完善。3系统功能模块有待开发和完善系统当前实现的服务功能较为单一,现有服务模块实用性能有待加强,有些模块功能还没有实现,下一步的工作是对现有功能加强完善,开发增加新的功能模块。4)加强多种语言识别引擎由于目前使用的SALT技术只是基于英语的语音识别引擎,所以今后需要进一步掌握并运用SALT基于汉语的语音识别引擎。我认为也是今后进一步研究和学习的内容。53本章小结本章详细比较了传统语音识别系统与基于SALT技术的语音识别系统,总结出基于SALT技术的语音识别系统的巨大优势。对于示例语音识别系统针对还存在的不足之处,提出改进建议和目标。参考文献1KHDAVIS,RBIDDLDPH,ANDSBALASHEK,“AUTOMATICRECOGNITIONOFSPOKENDIGITSJACOUSTSOCAM,246,1972P6376422HFULSONANDHBELAR,“PHONETICTYPEWRITER”,JACOUSTSOCAM,286,1976P107210813DBFRY,“THEORETICALASPECTSOFMECHANICALSPEECHRECOGNITION”,ANDPDENES,“THEDESIGNLONDONANDOPERATIONBRITISHINSTOFTHEMECHANICALRADIOENGC194,SPEECHRECOGNIZERA
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 矿山汽车考试题及答案
- 殡仪馆考试题及答案
- 航向操作考试题及答案
- 上虞招聘面试题及答案
- 非遗智慧:孩子学艺诀窍
- 2020-2025年BIM工程师之BIM工程师高分通关题库A4可打印版
- 2025年注册消防工程师之消防技术综合能力通关提分题库(考点梳理)
- 1.1菱形的性质与判定第2课时(教学课件)数学北师大版九年级上册
- 保安防恐防暴培训知识课件
- 保安知识培训资料内容课件
- 切削刀具项目实施方案
- 常见行政案件笔录模版
- 手术室甲状腺切除术手术配合护理查房
- 国家电网电力中级职称考试题
- 美国专利法及实务培训-上传课件
- 新版中国电信员工手册
- 2023年中国工商银行软件开发中心春季校园招聘500人笔试模拟试题及答案解析
- D500-D505 2016年合订本防雷与接地图集
- 中国重症加强治疗病房(ICU)建设与管理指南
- 社区矫正法课件
- 后勤保障楼幕墙施工方案新
评论
0/150
提交评论