语音识别技术在智能多媒体教学系统中的应用.doc_第1页
语音识别技术在智能多媒体教学系统中的应用.doc_第2页
语音识别技术在智能多媒体教学系统中的应用.doc_第3页
语音识别技术在智能多媒体教学系统中的应用.doc_第4页
语音识别技术在智能多媒体教学系统中的应用.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

语音识别技术在智能多媒体教学系统中的应用李振亭(河南师范大学物理与信息工程学院 河南新乡 453003) 【摘要】语音识别技术已经日趋成熟,在许多领域已经开展应用,当然教育教学领域则应是其应用最迫切和前景最有价值的领域,尤其是在智能计算机辅助教学的系统中,恰当的应用语音识别技术,除了增强课件的多媒体信息表现形式外,可以增强课件的智能化程度和提高CAI教学活动的效果。本文首先阐述了在多媒体教学系统中应用语音识别和智能阅读技术的基本思想,其次介绍了在多媒体教学系统中应用语音识别和智能阅读技术的实现,然后以简单的示例说明利用VB多媒体开发系统开发具有语音识别功能教学软件的方法。【关键词】智能教学系统,语音识别,智能阅读系统,文本朗读,多媒体教学。【中图分类号】G434 【文献标示码】AThe Application of Speech Recognition Technology in Intelligent Multimedia Instruction SystemLi Zhenting(College of Physics & Information Engineering,Henan Normal University,Xinxiang,Henan,453002)Abstract: The paper states the basic idea about the application of speech recognition technique in intelligent multimedia instruction system, introduces the technique applying speech recognition technique to an intelligent multimedia instruction system, and gives a method for the intelligent speech instruction system with a simple example in Visual Basics system.Key words: intelligent instruction system, speech recognition, multimedia instruction在多媒体教学软件中的设计方案多媒体计算机辅助教学(MCAI)、多媒体远程教育(MDE)已经成为现代教育技术的重要标志。在计算机辅助教学(CAI)活动的过程中,在呈现文字、图形和动画信息的同时,再伴随旁白或朗读的声音会使教学效果更好,这也是特瑞赤拉(Treicheer)于1967年提出的关于学习与记忆的研究结论。如何把已经成熟的语音识别技术智能化地应用于教学系统中是当前教育技术人员和计算机辅助教学研究者应该关心的课题之一。本文首先阐述了在多媒体教学系统中应用语音识别和智能阅读技术的基本思想,其次介绍了在多媒体教学系统中应用语音识别和智能阅读技术的实现,然后以简单的示例说明利用VB多媒体开发系统开发具有语音识别功能教学软件的方法。在计算机辅助教学中语音处理技术的应用可以分成两种形式:一种为语音识别教学方式,另一种为智能阅读教学方式。语音识别教学方式的主要功能是计算机在接受到来自学生(用户)由麦克风输入的语音信息后,能够与计算机系统已具有的“经验模型”进行比较,判断和确定用户输入的语音信息的含义,并能够给出最合理的评价和反馈信息。这种方式也叫做命令控制方式。所谓的“经验模型”是在构造具有语音识别功能的教学系统之前,或者是当学生在初次进入教学系统进行注册时,除了让学生对系统的麦克风进行调整外,要使使用者个人的声音模型对系统的语音引警进行“训练”或“学习”。语音识别教学方式在计算机辅助教学(CAI)活动中主要应用于对进入学习系统的学习者通过语音信息进行资格审查、身份认证、学员学习登记、学习过程中人机交互的应答判断等功能模块中的语音信息的识别及语音合成。智能阅读教学系统的主要功能是让系统能够识别计算机呈现的文本内容并进行配音阅读,能够识别由学生输入的文本内容并能够进行朗读,以及对于一些图形、图象进行解说等语音处理功能。智能阅读教学系统的语音引警是在开发设计时进行“训练”、“学习”或者利用语音系统已有“经验模型”,不必要由用户对语音引警进行训练。智能阅读教学系统不同于传统的多媒体教学软件中的朗读功能。传统的多媒体教学软件也具有文本朗读的功能,但是,那里采用的方法是配音的方法。即对于要配音的文本内容,事先录制了相应的声音并保存以声音文件,在程序中,当显示了该段文字并需要发出声音时,让计算机读取该段文本对应的声音数据文件并播放出声音信息。显然这种方式比较机械、死板,并且大量的声音文件要占用大量的系统资源。而智能阅读教学系统的语音引警是应用了人工智能技术,对于常用的字、词、短语及句子语意等都有了样板“经验模型”,或者在开发系统时进行训练学习,不必要录制数据量惊人的声音文件。因此。具有智能阅读功能的教学系统的文本朗读功能可以弥补传统多媒体教学软件的上述缺点,并增强教学系统的智能化程度。当然一个理想的智能多媒体教学系统应该是既具备语音识别功能又具备智能阅读功能的。要开发一个具有智能语音教学系统的CAI课件,无论是语音识别式教学还是智能阅读式教学系统都需要进行良好的教学设计。文献2对于智能阅读的不同教学内容提出了有价值的进行教学设计的方法。此外,不同的学科、不同的教学内容、及教学系统应用的教学模式不同,所依据的教学理论和教学策略是不同的,作者不宜概而论之。2语音处理技术的应用程序接口当前世界有不少公司或专家从事智能语音处理技术,已经有一些相关的智能语音识别技术的接口产品问世,具有语音识别或阅读的多媒体教学软件投入应用。下面主要介绍由微软(Microsoft)公司开发出的一套语音应用程序接口技术的功能特点,以及在多媒体教学系统中的应用方法。微软公司发布的语音应用程序接口(Speech Aplication Programming Interface,即SAPI)套件已经多次改进,因而有不同的版本。笔者使用的为4.0版本。这一SAPI套件,能够使我们在应用程序中加入语音识别和文本朗读的功能。利用多媒体功能强大的Visual Basic6来开发具有智能语音处理功能的多媒体教学系统是比较方便的。SAPI SDK套件主要有以下六个语音处理控件组成:Direct SpeechRecognition(直接语音识别)Void Command(Voice命令)Dictation(口述命令)Direct Speech Synthesis(直接语音合成)Voice Text控件Speech Telephone(语音电话)其中:Direct SpeechRecognition和Direct Speech Synthesis控件提供了对整个Speech API的访问,每个控件都载有语音引警,通过这两个控件可以最大程度地应用SAPI的功能。Dictation提供口述命令的功能,它能够让你在应用程序中加入诸如文本翻译、单词校正和响应口述命令等的字处理功能。对于想创建一个能够响应语音命令的应用程序,采用Dictation控件是个很好的选择。Speech Telephone部件中综合了语音识别和声音合成等技术,可以用来帮助你设计诸如语音通讯、视频会议及网络电话应用程序。Void Command和Voice Text控件是有关标示符命令和文本朗读功能的接口控件。具有与其它应用程序共享资源,它是以降低应用的灵活性为代价换来应用程序开发时代码的简单和应用的方便。若要使语音合成处理功能灵活、适应性强,就应该使用Direct Speech Synthesis控件。因此,使用上述六个语音处理控件,可以很方便地开发出具有语音识别和文本朗读的多媒体教学系统或多媒体CAI课件。需要补充说明的是在构造具有语音识别功能的教学系统之前,需要对所使用的麦克风系统和使用者个人的声音模型对系统的语音引警进行“训练”或“学习”,用以构造或补充语音系统的“经验”模型。在Speech SDK Web 页面的主页中包含有一个连接Microphone Setup Wizard,通过该连接可以使设计者根据语音引警来调整系统的麦克风和对系统的语音引警进行“训练”或“学习”。这项操作很简单,在机器上安装了Microphone Setup Wizard和麦克风之后,对着麦克风朗读一段指定的文字就可以了。语音识别应用示例例如,为多媒体课件资源库设立一个卫士,对于要进入资源库者进行口令验证,当学生对麦克风发出“芝麻!芝麻!开开门吧!”声音时,系统打开资源库的大门,为用户提供可利用课件资源。否则,示以“口令不对!”的警告,当连续三次发出错误口令,则视为“非法入侵者”,关闭系统结束运行。可以利用VB开发的卫士模块如下:界面:CAI资源库背景;主要对象:Direct Speech Recognition,其Name属性设为DirectSR;Command1按钮,其Picture属性设为人耳图片,用于激活口令监听;TextBox,其Text属性设为空,用于显示语音命令短语;语音识别程序:Dim retval, I As IntegerPrivate Sub Form_Load()DirectSR.GrammarFormStringGrammar+vbNewLine+type=cgf+vbNewLine+vbNewLine+=芝麻,芝麻开开门吧!+vbNewLineEnd Sub Command1.Click()I=I+1DirectSR.ActivateEnd SubPrivate Sub DirectSR_PhraseFinish(Byval flags As Long,Byval beginhi As Long,Byval beginlo As Long, Byval endhi As Long, Byval endlo As Long,Byval Phrase As String, Byval parsed As String,Byval results As Long)TxtCommand.text=PhraseSelect Case PhraseCase is =芝麻,芝麻开开门吧!Retval = Shell(C:sourcesource.exe,1)Case Else If I=3 Then TxtCommand.text=非法入侵者!谢绝访问。:EndTxtCommand.text=口令错误!End SelectEnd Sub当学习者要进入资源库界面要打开资源库的大门时,对着麦克风说:“芝麻,芝麻,开开门吧!”。则计算机就会系统资源库的大门打开,为学习者提供所需信息资源;若对着麦克风所说的话不是这句话的语音,则视为非法入侵者,谢绝入内,并示以警告。上述简单示例已经且仅说明语音技术应用的实现。然而,真正的应用系统要复杂得多。4结束语语音识别技术已经广泛地应用于网上电话与网络会议(NetMeeting)、自动邮件处理、由计算机负责激活的安全系统、计算机控制的设备、远程数据输入和游戏等,而在智能教学系统中的广泛还存在着许多技术上的难题殛待解决。尤其是在具有中文和汉语的智能教学系统中有效地应用语音识别和智能阅读技术,还需要大量的研究工作去做。在一般的智能教学系统中,语音识别技术作为一种补充技术(相对于键盘命令而言)使学生能够通过声卡上的麦克风发出语音命令,以操作计算机上的程序执行或对计算机进行控制,或者利用语音识别技术来测试或矫正学生应答的语言表述已经获得了应用5。对于文本朗读的研究和应用,也已初见端倪6。可以预想随着语音识别技术的不断改进,在中文和汉语的智能教学系统中应用语音识别和智能阅读技术一定回取得大的突破。它能够给多媒体教学过程带来多么友好的只能效果和方便性。随着语音识别技术的进步,我们将看到越来越多的应用程序可以通过声音来控制,作者简介:李振亭,男,1954年出生,河南师范大学物理与信息工程学院教育技术系副教授参考文献:1 师书恩计算机辅助教育北京师范大学出版社,1993年6.P192-1962 赵建华,李克东智能阅读教学系统中的教学设计电化教育研究2000年第9期,P33 R.Nkambou, G.GauthierIntegrating WWW resources in an intelligent

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论