华侨生创新创业训练计划项目结题报告书及研究成果-校级202年_第1页
华侨生创新创业训练计划项目结题报告书及研究成果-校级202年_第2页
华侨生创新创业训练计划项目结题报告书及研究成果-校级202年_第3页
华侨生创新创业训练计划项目结题报告书及研究成果-校级202年_第4页
华侨生创新创业训练计划项目结题报告书及研究成果-校级202年_第5页
免费预览已结束,剩余27页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

采用各种新特征参数,以提高算法的抗噪声性能。有时,还通过将信号的几种特征组为一个新的特征参数进行端点检测。对语音端点的方式也由原来的单一门限、双门限发展分,并实现文本的关联。初步实现一套方便英语训练的数字。项目完成后,对学生 Thevoicetechnologyisenteringamatureperiod,butstillfarcomparedtohumanhearingability,therearealotofspaceontheapplicationanddevelopment.I ylongtime,thespeechendpointdetectionalgorithmismainlybasedonthespeechsignaltime-characteristics.Themainparametersusedintheshort-timeenergy,short-timeaveragezero-crossingrate,thatisoftensaidthattheenergy-basedendpointdetectionmethod.Inrecentyears,withtherapiddevelopmentofthecommunicationsindustry,thestrongdemandforobjectiveevaluationofthevarioussectorsofthecommunicationssystemvoicequalityandspeechrecognitionmethodpractical,butalsotherehavebeenalotofspeechendpointdetectionalgorithm.Theyaremainlyanti-noiseperformancebyusingavarietyofcharacteristicparametersinordertoimprovethealgorithm.Sometimes,throughthecombinationofseveralcharacteristicsofthesignalintoanewcharacteristicparameterforendpointdetection.Judgmentsofspeechendpointfromasinglethreshold,dual-thresholddevelopmenttojudgmentbasedonfuzzytheory.Thisprojectisbasedonthesilentsegmentofvoiceanddatadetection,Englishlisteningmaterialsphoneticword"sentence"segmentation,andtextassociation.TheinitialsetofdigitalmaterialstofacilitateEnglishlisteningtraining.Uponcompletionoftheproject,thestudentslearnEnglishwords,sentences,aswellashearing,hasagreathelp.Keywords:LanguageEndpointDetection;WavWaveFile;Simulation;Text............................................................................................................................................................2 引 第1 引入基本概 语音识别技 第2 设计背 语音识别技术 的问 语音端点检测特 第3 WAV文件的解 wav文件简 wav文件基本格 第4 算法研 算法的调 算法详 算法的评价与总 第5 第6 切分器展 6.3.1展 总结与展 致谢 参考文 引语音技术目前正在进入一个相对成时期,但比起人类的听觉能训练的数字。项目完成后,对学生学习英语单词、句子、还有第1章引入基本语音识别技术,也被称为自动语音识别AutomaticSpeech信息论、机理和听觉机理、人工智能等等。第2章设计国外现程,早期的声可被视作语音识别及的雏形。而1920年产的"RadioRex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼系统是由AT&T贝尔开发的Audrey语音识别系统它能够识别10个英文数字。其识别方法是语音中的峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(CollegeofLondon)的Denes已经1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性编码LinearPredictiveCoding(LPC),及动态时间弯折DynamicTimeWarp技术。语音识别技术的最重大突破是隐含模型HiddenMarkov大学的最终实现了第一个基于隐模型的大HMM框架。测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐模型(HMM)理论。于在突破了大词汇量、连续语音和非特定人这三大 (CarnegieMellonUniversity)的Sphinx系统,它是第一个高性能的非特定词汇量连续语音识别系统。这一时期,语音识别研究进一步深入,其显著特征是HMM模型应归功于AT&TBellRabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为研究者了解和认识,从而使统计特征的细化,而是地从整体平均(统计)的角度来建立最佳的语音MarkovHMM(隐式Markov)比较有效地解决了语音信号短时稳定、长时时变规模语料的词之间同现概率即N同音词。另外,人工神经网络方法、基于文则的语言处理机制等也研究中得到了不断的提高。比较有代表性的系统有:IBMViaVoiceDragonSystemNaturallySpeaking,Nuance司的NuanceVoicePlatform语音平台,的Whisper,Sun的VoiceTone等。又开发出可以识别话、话和话等地方口音的语音识别系统95%。该系统对语音识别具有较高的精度,是目前具有代表性的汉国内现国家863智能计算机组为语音识别技术研究专门立项,每两年滚动一化所、声学所、、、哈尔滨工业大学、交通大学、中国科技大学、邮电大学、华技大学等科研机构都有进行过语音识别方面的研究,其中具有代表性的研究单位为电子工程系与自动化模式识别国家。字串)96.8%(定长数字串)5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词语音技术目前正在进入一个相对成时期,但比起人类的听觉能语音技术能集成到需要语音功能的大量中去。语音产业需要更加开放的环境,使有和实力的企业都能加入到逐步改变人们用鼠标、键盘的。等)算法的可伸缩技术(ScalableTechnology)的研究。2语音识别技术所的问识。ViaVoice和AsiaworksSPK训练,以让计算机适应你特征。这必然限制了语音识别技术的进语音端点检测(voiceactivitydeteccionVAD)又称有声/无声检和双门限发展到基于模糊逻辑和模式分类的。盟G.729标准和欧洲电信标准化应用于第三代移动通1994JunquaJ语音端点检测特端点通常是通过门限的方式实现的,即设定一定的门该门限时认为是噪声,语音端点的方式最初是单一门限和双门限的形式,随后又逐步发展为基于模糊逻辑和模式分类的方式。检测算法必须具有对绝大数噪声的鲁棒性,能力强;量上对算法要求。语音端点检测主要目在端点检测找到语音的起始点时,系统将停止提示音的。语音端点检测目的及意第3章WAV文件的wav样频率×采样位数×声道)×时间/8(1字节=8bit)。 RIFF为这些类型的数据提供了 法,RIFF文件所包含的数据类型由该文件的扩展名来标识,能以RIFF文件的数据包括:音频交错格式数据(.AVI)、波形格式数据(.WAV)、位图格体(.RMN)、动画光标(.ANI)、其它RIFF文件(.BND)。用Little-Endian字节顺序进行 为标准的。RIFFResourceInterchangeFileFormatRIFF/WAV格式说明段两部分。WAVE文件各部分内容及格式见附表。8Bit)和双声道(44.1KHz16Bit)。采样WAVE文件数据块包含以脉冲编码调制(PCM)格式表示的样本。WAVE文件是由样本组织而成WAVE文件0代表左声道,声1WAVEWAVE文件的每个样本值包含在一个整数i中,i的长度为容纳指定样本长度所需的最小字节数。首先低有效字节,表示样本幅度的位i的高有效位剩下的位置0,这816PCM波形样本的数据格式。WAVE文件为多中使用的声波文件格式之一,它是以RIFF格式为标准。波形音频文件(*.WAV)是为Windows设计的多文件格式RIFF(TheResourceInterchangeFileFormat,资源交换文件格式)中的一种(另一种常用的为AVI)。RIFF由文件头、数据类型标识及若类型Fn头“fmt16或18)记1数izeB头xenblockAlign第4章算法语音信号短时能量算语音信号短时过零率算n=mm=0,1,2,3Zm发浊音时,声带振动,因而声门激励是以调频率为基频来使声道;尽管有若干个峰,但其能量的分布集中于低于3KHz的频率范围内。发清音时声带不振动,声道某部分阻塞产生类似白噪声激励,于较低频率段内,具有较低的过零率,而发清音时能量集中于较高频率背景噪声的很多值都为零,因此按照上述公式计算的短时过零率就会很低。实际的处理中,浊音的短时过零率都会分布在一个范围内。2算法详语音信号短时能量和过零率算行分析处但由于语音信号本身的特点,在10~30ms的短时间范围内,音波形时域信号为x(l)、加窗分帧处理后得到第n帧语音信号为x(m)nx(m)n满足下式:其中,n01T2T,L,并且NT过零率,低频零率较低。定义语音信号x(m)n的短时过零率nZ能s为s设1m22<0和-p2于aELTZLTEHTZH算法的评价与总但是很多情况表明使用单一的法并不能得到理想的检测结果,这得为力。将这两种方法结合起来,通过短时能量分析去除高频环境第5 辅助文本校正的切分算基于规则的文本切分算这种情况出现在中,表示人物语句的结束,或者的结束。句点+“’”+“””这种情况出现在中并其他的话语中。句点+空格+非小写字母ifw1ifw2returnTrue;returnreturnifw1returnifw1&&returnreturn第6 切分 展概述功实现一套方便英语训练的数字,方便英语阅读,进一系统结构框架及各功能模块:用于音频文件的打开、、暂停、显示等基本操作;系统整体设计流 将窗体及控 N判断是文本关Y提示实现从文件夹MP3文件 列实现遍历及打MP3文件的操窗体列表设计过完双击MP3文件完双击MP3文件 该文关联展实现学习、理想的高效目标。通过及研究,在细致的需求分析之后,做了如下的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论