基于matlab的语音编码毕业论文_第1页
基于matlab的语音编码毕业论文_第2页
基于matlab的语音编码毕业论文_第3页
基于matlab的语音编码毕业论文_第4页
基于matlab的语音编码毕业论文_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

西安邮电大学毕业设计(论文)题目基于MATLB的语音编码技术的实现院(系)通信与信息工程学院专业电子信息科学与技术班级电科092学生姓名赵荷导师姓名单洁职称讲师起止时间2013年3月1日至2013年6月14日毕业设计(论文)诚信声明书毕业设计(论文)诚信声明书毕业设计(论文)诚信声明书毕业设计(论文)诚信声明书本人声明本人所提交的毕业论文基于MATLB的语音编码技术的实现是由本人在指导教师指导下独立研究,完成的成果,论文中所引用他人的文献、数据、图件、资料均已明确标注;对于论文编写的过程中给予我支持的指导老师以及其他个人,集体,在这里表示诚挚的感谢,均已在文中以明确方式注明并表示感谢。本人完全意识到本声明的法律后果由本人承担。论文作者(签字)时间2013年6月14日指导教师已阅(签字)时间2013年6月14日西安邮电大学毕业设计毕业设计毕业设计毕业设计论文论文论文论文任务书任务书任务书任务书学生姓名赵荷指导教师单洁职称讲师学院通信与信息工程学院专业电子信息科学与技术题目基于MATLB的语音编码技术的实现任务与要求课题要求通过查阅大量资料熟悉、了解语音信号的基础知识、语音编码技术的设计思路,以及MATLAB软件的基础操作、并编程实现。第一阶段熟悉“语音信号”“语音编码技术”的有关知识,查阅有关文献,了解基础知识背景,初步理解语音识别技术的实现原理。开始撰写开题报告。第二阶段认真阅读有关文献,熟练掌握MATLAB设计实现方案,确定实现算法。第三阶段编写程序并调试、验证,初步完成论文框架、大纲和基础部分内容。第四阶段结合实际工作情况撰写论文,修改论文,准备答辩。开始日期2013年3月1日完成日期2013年6月14日院长签字2013年3月12日西安邮电大学毕毕毕毕业业业业设设设设计计计计论文论文论文论文工工工工作作作作计计计计划划划划2013年年年年3月月月月14日日日日学生姓名赵荷指导教师单洁职称讲师院(系)_通信与信息工程学院_专业_电子信息科学与技术_题目基于MATLB的语音编码技术的实现_工作进程3月1日至3月30日熟悉“语音编码技术”的有关知识,查阅有关文献了解基础知识背景,初步理解语音编码技术的原理及算法。开始撰写开题报告。4月1日至4月20日认真阅读有关文献,熟练掌握MATLB设计实现方案,确定实现算法。了解语音编码的基础知识,熟悉语音编码的种类,初步形成知识体系结构。4月21日至5月15日运用MATLB语言编写程序并调试、验证,初步完成论文框架、大纲和基础部分内容。5月16日至6月10日正式开始撰写论文,修改论文,完成最终算法仿真。6月1日至6月14日打印论文,修改格式,微调内容,制作PPT准备答辩。起止时间工作内容主要参考书目资料主要参考书目资料1语音信号处理,赵力编著,机械工业出版社,20032语音信号处理,姚天任编著,华中理工大学出版社,19923数字语音编码原理,鲍长春,西安电子科技大学出版社,20074数字语音处理及MATLB仿真,张雪英,电子工业出版社,20105MATLB辅助现代工程数字信号处理,李勇、徐震,西安电子科技大学出版社,20026数字信号处理教程MATLB释义与实现,陈怀琛,电子工业出版社,20047MATLB宝典,陈杰,电子工业出版社,20078MATLAB工具箱应用,苏金明、张莲花、刘波,电子工业出版社,20039MATLAB基础与编程入门,张威,科技大学出版社,200410语音信号处理,韩纪庆、张磊,清华大学出版社,语音信号处理,胡航,哈尔滨工业大学出版社,2000主要仪器设备及材料计算机一台MATLAB70软件环境论文设计过程中教师的指导安排每周一上午3、4节固定时间答疑。其他时间随时电话或MAIL讨论对计划的说明第一阶段熟悉“语音编码技术”的有关知识,查阅有关文献了解基础知识背景,初步理解语音编码技术的原理及算法。开始撰写开题报告。第二阶段认真阅读有关文献,熟练掌握MATLB设计实现方案,确定实现算法。了解语音编码的基础知识,熟悉语音编码的种类,初步形成知识体系结构。第三阶段编写程序并调试、验证。第四阶段结合实际工作情况撰写论文,修改论文。第五阶段制作PT,准备答辩西安邮电大学毕业设计论文开题报告通信与信息工程学院院(系)电子信息科学与技术专业209级02班课题名称基于MATLB的语音编码技术的实现学生姓名赵荷学号0492034指导教师单洁报告日期2013年3月15日1本课题所涉及的问题及应用现状综述本课题所涉及的问题1语音编码的方式,思路,所用到的技术有哪些,MATLAB在语音编码中的地位和优势有哪些,如何发扬使用这些优势,设计自己的语音编码。2学习掌握用MATLAB实现语音编码,并与其他软件实现的语音编码比较,归纳总结MATLAB实现语音编码的优缺点。3MATLAB语言的深入学习,了解MATLAB强大的功能,灵活运用MATLAB进行语音编码。4语音编码的种类有哪些,各自有什么优点和缺点,应用在哪些领域。应用现状综述MATLAB是由美国MATHWORKS公司发布的主要面对科学计算、可视化以及交互式程序设计的高科技计算环境。它将数值分析、矩阵计算、科学数据可视化以及非线性动态系统的建模和仿真等诸多强大功能集成在一个易于使用的视窗环境中,为科学研究、工程设计以及必须进行有效数值计算的众多科学领域提供了一种全面的解决方案,并在很大程度上摆脱了传统非交互式程序设计语言(如C、FORTRAN)的编辑模式,代表了当今国际科学计算软件的先进水平。在通信系统中,语音编码是相当重要的,因为在很大程度上,语音编码决定了接收到的语音质量和系统容量。语音编码为信源编码,是将模拟语音信号转变为数字信号以便在信道中传输。语音编码的目的是在保持一定的复杂程度和通信时延的前提下,占用尽可能少的通信容量,传送尽可能高质量的语音。语音编码技术又可分为波形编码、参量编码和混合编码三大类。MATLAB语言是一种数据分析和处理功能十分强大的计算机应用软件,它可以将声音文件变换为离散的数据文件,然后利用其强大的矩阵运算能力处理数据,如数字滤波、傅里叶变换、时域和频域分析、声音回放以及各种图的呈现等,它的信号处理与分析工具箱为语音信号分析提供了十分丰富的功能函数,利用这些功能函数可以快捷而又方便地完成语音信号的处理和分析以及信号的可视化,使人机交互更加便捷。信号处理是MATLAB重要应用的领域之一。语音编码的目的,是寻求语音信号的某种紧缩表示方法,以便能够在频带有限的有线信道的无线信道上有效传输,或再介质中存储这些信号时节约存储空间。说的更具体一点,语音编码的目的,就是用尽可能少的比特数以数字形式表示语音信号,同时保持要求的语音可懂度和语音质量。因此,语音编码又称语音压缩编码或简称为语音压缩。2本课题需要重点研究的关键问题、解决的思路及实现预期目标的可行性分析关键问题本课题的设计重点是语音信号的编码,本论文针对以上问题,查阅相关资料,了解语音信号编码的基本方法,运用数字信号学基本原理、语音编码的基础知识以及MATLAB的相关运用实现语音编码,任意选取一种语音编码的方法,在MATLAB70环境下编写程序,完成课题要求。解决思路1)了解语音信号的产生和感知模型查阅相关资料,了解语音信号的基础知识。2)熟悉语音编码的性能指标了解哪些因素会影响语音编码,以及在语音编码中的重要性。3)熟悉语音编码的国际标准了解语音编码的标准有哪些,选择适合课题的标准进行语音编码。4)了解语音编码的基本方法熟悉各种语音编码的优缺点,了解各自的应用领域以及这些编码方法的重要作用。5)基于MATLAB的语音编码的实现任选一种语音编码的方法,借助MATLAB软件编写程序,完成课题要求。预期目标在MATLAB70环境下综合运用语音信号的编码及处理知识,实现G721ADPCM语音编码。我所做的工作就是了解语音信号的产生和感知模型,熟悉语音信号的性能指标,了解语音编码的国际标准,并且掌握各种语音编码的方法,了解各自的优缺点及应用领域,借助MATLAB70软件,编写程序,最终实现G721ADPCM的语音编码。3完成本课题的工作方案3月1日至3月30日熟悉“语音编码技术”的有关知识,查阅有关文献了解基础知识背景,初步理解语音编码技术的原理及算法。开始撰写开题报告。4月1日至4月20日认真阅读有关文献,熟练掌握MATLB设计实现方案,确定实现算法。了解语音编码的基础知识,熟悉语音编码的种类,初步形成知识体系结构。4月21日至5月15日运用MATLB语言编写程序并调试、验证,初步完成论文框架、大纲和基础部分内容。5月16日至6月10日正式开始撰写论文,修改论文,完成最终算法仿真6月1日至6月14日打印论文,修改格式,微调内容,制作PPT准备答辩。4指导教师审阅意见指导教师签字2013年3月24日说明本报告必须由承担毕业论文设计课题任务的学生在毕业论文设计正式开始的第1周周五之前独立撰写完成,并交指导教师审阅。西安邮电大学毕业设计论文成绩评定表学生姓名赵荷性别女学号04092034专业班级电科092班课题名称基于MATLB的语音编码技术的实现课题类型软件工程类难度较难毕业设计(论文)时间2013年3月1日6月14日指导教师单洁职称讲师课题任务完成情况论文千字;设计、计算说明书千字;图纸张;其它含附件指导老师见分项得分开题调研论证分;课题质量(论文内容)分;创新分;论文撰写(规范)分;学习态度分;外文翻译分指导教师审阅成绩指导教师签字2012年月日评阅教师意见分项得分选题分;开题调研论证分;课题质量(论文内容)分;创新分;论文撰写(规范)分;外文翻译分评阅成绩评阅教师签字2012年月日验收小组意见分项得分准备情况分;毕业设计(论文)质量分;(操作)回答问题分验收成绩验收教师组长签字2012年月日答辩小组意见分项得分准备情况分;陈述情况分;回答问题分;仪表分答辩成绩答辩小组组长签字2012年月日成绩计算方法填写本系实用比例指导教师成绩20评阅成绩30验收成绩30答辩成绩20学生实得成绩百分制指导教师成绩评阅成绩验收成绩答辩成绩总评答辩委员会意见毕业论文设计总评成绩等级院系答辩委员会主任签字院系签章2013年6月15日备注西安邮电大学毕业论文设计成绩评定表续表目录目录目录目录摘要IABSTRACTI引言11绪论21语音编码的发展趋势2研究内容312本文使用的软件MATLAB介绍3运行的环境414本课题研究的意义2语音信号概述521语音产生和感知模型5语音编码的性能指标621语音质量2比特率723延时4算法复杂度823语音编码的国际标准3语音编码的基本方法1031波形编码102参数编码3混合编码124基与MATLAB的语音信号波形编码1341均匀量化PCM132自适应量化441前馈自适应12反馈自适应543自适应差分脉冲编码调制ADPCM165G721ADPCM语音编码标准的MATLAB实现216总结23致谢24参考文献25附录26I摘要摘要摘要摘要语音是人们交换信息最方便、最快捷的一种方式,在信息社会高速发展的今天,使用数字化的方法进行语音的传输、储存、识别、合成以及增强等是数字化通信网中最重要也是最基本的组成部分之一。随着人类步入信息社会脚步的加快,越来越多的地方都需要用到语音信号处理的知识。语音编码的目的就是在保证语音质量(不同的领域对语音质量有着不同的要求)的前提下,用尽可能少的二进制数码对语音信号进行正确有效的表示。语音编码技术有着非常广泛的应用领域,它是现代通信和信息工程领域不可缺少的关键技术,它已经成为信息科学领域的研究热点。编码标准的制定和研究,越来越受重视,许多语音编码标准正在不同的应用领域发挥着举足轻重的作用。语音编码在数字通信网中占据着重要的位置,人们对移动电话和IP电话不断增长的需求很明显的证明了它活跃的的生命力。随着通信技术和信息社会的飞速发展,频率资源显得越来越宝贵。因此,降低电话信道的传输码率又或者是压缩语音信号的传输带宽,一直以来都是人们所追求的目标,语音编码在实现这个目标的过程中肩负着异常重要的角色。数字语音通信是目前信息产业中发展最快也是普及面最广的业务。IP电话的持续发展,使得国内长途电话和国际长途电话大幅度降价,使广大人民收益。移动通信的数字化发展趋势,不但有利于扩展信道容量,改善服务质量,而且更加促进了这一产业的飞速发展。语音信号的数字化和压缩对军事通信也有着极其重要的意义。总而言之,数字语音通信和模拟语音通信相比较,具有保密性好、抗干扰性强、易于开展增值业务、控制和管理方便、生产成本低等优点。而语音的存储技术和语音编码又是密不可分的。语音应答系统、语音信箱、数字录音电话、语音查询系统等,也都是随着语音压缩编码技术而发展起来的。关键字语音编码,压缩,语音信号,二进制,带宽,频率,语音质量,传输基于MATLB的语音编码技术的实现IABSTRACTSPEECHISTHEMOSTCONVENIENTTOEXCHANGEINFORMATION,THEFASTESTAWAY,INTHEHIGHSPEEDDEVELOPEDINFORMATIONSOCIETY,THEEVALUATEDUSINGTHEMETHODOFDIGITALVOICETRANSMISION,STORAGE,IDENTIFCATION,SYNTHESIANDENHANCEMNTISTHEMOSTIMPORTANTINTHEDIGITALCOMMUNICATIONNETWORK,ONEOFTHEMOSTBASICPARTALONGWITHTHESPEEDUPTHEPACEOFHUMANINTOTHEINFORMATIONSOCIETY,MOREANDMOREPLACENEEDTOUSEKNOWLEDGEOFSPEECHSIGNALPROCESINGAIMISTOENSURETHEQUALITYOFVOICEOFSPEECHCODING,DIFERNTARESHAVEDIFERNTREQUIREMNTSFORVOICEQUALITYUNDERTHEPREMISOFASLITLEASPOSSIBLEOFTHEBINARYNUMBEROFDIGITALVOICESIGNALEFCTIVELY,SPEECHODINGTECHNOLOGYHASAWIDEAPPLICATIONFIELD,ITISINDISPENSABLETOMODERNCOMMUNICATIONANDINFORMATIONENGINEERINGANDKEYTECHNOLOGIES,ANDITHASBECOMEARESARCHHOTSPOTINTHEFIELDOFINFORMATIONSCIENCEVARIOUSSPEECHODINGSTANDARDSNATIONALORREGIONALORINTERNATIONALRESARCHANDDEVELOP,HASBEENWIDESPREADATENTION,MANYLANGUAGECODINGSTANDARDSAREPLAYANIMPORTANTROLEINDIFERNTAPPLICATIONFIELDSSPEECHCODINGOCCUPIESANIMPORTANTPOSITONINTHEDIGITALCOMMUNICATIONNETWORK,PEOPLEDEMANDFORSUSTAINEDGROWTHOFMOBILEPHONEANDIPTELPHONEPOWERFULPROVEITSVITALITYWITHTHEHIGHSPEEDDEVELOPMENTOFINFORMATIONSOCIETYANDCOMMUNICATIONTECHNOLOGY,FREQUENCYRESOURCESBECOMELESVALUABLETHEREFORE,COMPRESIONOFSPEECHSIGNALTRANSMISIONBANDWIDTHORPHONECHANNELTRANSMISIONCODERATEDIGTALVOICECOMMUNICATIONISTHEFASTESTDEVELOPMENTININFORMATIONINDUSTRY,THEMOSTWIDELYPOPULARIZATIONRATEOFBUSINESTHESUSTAINABLEDEVELOPMENTOFIPTELPHONE,MAKEDOMESTICLONGDISTANCECALSANDINTERNATIONALONGDISTANCEPHONECALBIGPRICEUTS,MASESOFPEOPLEDIGITALMOBILECOMMUNICATION,EXPANDEDTHECHANNELCAPACITY,IMPROVETHESERVICEQUALITYANDPROMOTETHERAPIDDEVELOPMENTOFTHEINDUSTRYINTHESATELITECHANNELALINAL,DIGITALVOICEOMMUNICATIONCOMPAREDTOANALOGVOICEOMMUNICATIONS,ISFEATUREDBYSTRONGANTINTERFRENCE,THESECRYGOOD,EASYTOCARYOUTVALUEADDEDSERVICES,MANAGEMENT,ANDCONVENIENTCONTROL,LOWPRODUCTIONCOSTADVANTAGESANDVOICESTORAGETECHNOLOGYANDSPEECHCODINGAREINSEPARABLEVOICERESPONSESYTEM,DIGITALRECORDINGTELPHONE,VOICEMAIL,VOICEINQUIRYSTEM,ETC,AREALSODEVELOPEDWITHVOICECOMPRESIONCODINGKEYWORDSKKKSPEECH,ODINGCOMPRESPEECH,SIGNALBINARY,STEMBANDWIDTHFREQUENCYSPEECHQUALITYTRANSMISION基于MATLB的语音编码技术的实现1引言引言引言引言语音是人类相互之间交流时最常使用的信息载体。在信息化高度发展的今天,语音处理技术以及它的应用已经成为信息化社会不可缺少的重要组成部分。语音的产生是一个非常复杂的过程,包括心理和生理等方面的一系列动作。当人们需要通过语言表达某种信息的时候,这种神经信号就会作用于发生器官从而产生携带信息的语音信号。语音信号处理的研究产生于对发生器官的模拟。1939年,美国人HDULEY展出了一个非常简单的发声过程模拟系统,之后发展成为声道的数字模型。利用这个模型就可以对语音信号进行各种频谱以及参数的分析,同时也可以根据分析获得的频谱特征或参数变化规律来合成语音信号,实现机器的语音合成。目前,对语音信号进行研究,一般都是基于语音信号的数字表示。因此,语音信号数字处理的基础就是语音信号的数字表示。我们熟知的采样定理是语音信号数字化的理论依据。语音信号离散表示的方法可以分为两类波形表示和参数表示,通过采样和量化的过程来保存模拟语音信号“波形”的方法即为波形表示,而参数表示是把语音信号表示成为某种语音产生模型的输出。为了得到参数表示,就必须对语音信号进行采样和量化,然后再进一步处理以得到语音信号产生模型的参数。语音信号产生模型的参数一般可以分为了两大类一类是激励参数,另一类是声道参数。一直以来,人们都很重视对语音信号和语音通信的研究。社会的进步对于语音通信提出了更高的要求,需要更低的数码率和更高的语音质量,从而推动了语音编码技术的发展。然而自动控制和计算机科学的发展又要求用语音沟通人与机器的信息交流,要求机器能听懂人说话并且能对人说话,甚至还能辨别得出是谁在说话,这又推动了语音识别、说话人识别以及语音合成的研究,从而使语音处理的技术得到了迅速的发展。语音编码、说话人识别、语音信箱、语音合成等技术的基础,都是对语音信号特征的进一步深入的认识,都要利用数字信号处理的一些技术来处理和分析语音信号,而更深层次的发展则涉及到了人的听觉机理和发音机理,与生理学、语言学甚至心理学都有关。基于MATLB的语音编码技术的实现21绪论绪论绪论绪论1语音编码的发展趋势语音编码的发展趋势语音编码的发展趋势语音编码的发展趋势从1980年至今,在语音编码的领域,已经做出了特别多重要的进展。这些进展的取得主要有以下几种原因对语音信号的结构和语音的产生机理有了更加深入的理解。对人类听觉系统的深入理解,利用了人耳的掩蔽效应,提出了有利于实现的理解加权滤波器方案。更加优良的量化技术被提出了,特别是合成分析的技术,使得重构语言的质量有了显著的提高。数字信号处理芯片(DSP)的大量使用,为语音编码器的商品化打下了坚实的基础。这些发展趋势一直在继续,至少目前的状况就是这样的。我们已经看到,ITU语音编码的专家组,研究的焦点有移动的倾向。大约在1992年以前,在语音编码上的主要进展,大都是基于线性预测的,是在使用合成分析法的基础上得到的。这些年以来,对于48KIB/S到16KIB/S间的比特率,这种方法近乎占据了统治地位。但是,现在有情况显示,如果比特率降低到48KIB/S以下,基于线性预测的合成分析方法,超过其他方法的优点就会逐渐减少。语音编码所需要的最低信息速率,是一个异常复杂的问题。它被多种因素所限制,但是,作为一个低限,临界信息速率是人们理解信号所需要的速率。这个问题还需要我们继续深入的研究,因为有关于语音信号的某些信息,虽然人能够感觉到有变化,但是编码器却找不到对应的特征参量。相反的,有时候语音的特征参量和波形变化很大,但人依旧可以毫无障碍的理解。例如一个发音人,他将一段文章连续读两次,产生了两段非常不同的波形,但是,这些差别并不会影响收听者的理解。因此,要说语音编码器具有多少比特率,才是最终的结果,目前还是很困难的。但是,要达到这个目标,对人脑感知信号的过程,必须有更加深入的研究,这是一项长期而艰巨的工作。语音通信是人类通信最基本也是最重要的方式之一。语音信号的数字化传输和存储,在抗干扰能力、快速交换、可靠性等方面远远胜过模拟化,而且灵活方便,易于保密,价格低廉,因此数字化语音在通信系统中所占的比重越来越大。语音编码是数字语音通信中的一项极其重要的技术,为了能够使同样的信道容量能传输更多路的语音信号并且能节省存储空间,随着通信技术的发展,语音编码技术也取得了很大的进展,并且在短波、超短波、地面微波和卫星通信系统中得到了非常广泛的应用。1研究内容研究内容研究内容研究内容本论文主要介绍的是的语音信号的编码。本论文针对以上问题,运用数字信号学基于MATLB的语音编码技术的实现3基本原理实现语音信号的编码,在MATLAB70环境下综合运用语音信号的编码及处理知识,实现G721ADPCM语音编码。我所做的工作就是了解语音信号的产生和感知模型,熟悉语音信号的性能指标,了解语音编码的国际标准,并且掌握各种语音编码的方法,了解各自的优缺点及应用领域,借助MATLAB70软件,编写程序,最终实现G721ADPCM的语音编码。12本文使用的软件本文使用的软件本文使用的软件本文使用的软件MATLB介绍介绍介绍介绍MATLAB是美国MATHWORKS公司出品的一款商业数学软件,应用于算法开发、数据可视化、数据分析及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和SIMULINK两部分。MATLAB在现实中应用十分广泛,随处可见,在各个领域都有着广泛的使用。MATLAB是矩阵实验室(MATRIXLABORATORY)的简称,和MATHEMATICA、MAPLE并称为三大数学软件(7)。它在数值计算方面以及数学类科技应用软件中都是占据着重要的地位。MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式很相似,所以用MATLAB解算问题要比用C,FORTRAN等语言来做相同的事要简单很多,而且MATHWORK也吸收了像MAPLE等软件的诸多优点,使MATLAB成为一种强大的数学软件。此外,许多MATLAB爱好者都编写了一些经典的程序,用户可以直接下载就可以使用。MATLAB语言具有开放的源程序,除了内部函数以外MATLAB核心文件和工具箱文件都是可读可改的源文件,用户可以通过对源文件的修改以及加入自己的函数文件而构成自己的专用工具箱。MATLAB语言灵活,方便易学。MATLAB语言调试手段丰富,调试速度快,把编辑、编译、连接和执行融为一体,不必要求用户具有高深的数学和程序语言设计的知识,不必要求用户深刻的了解算法和编程技巧。信号处理是MATLAB的重要应用领域之一。13运行的环境运行的环境运行的环境运行的环境运行环境主要介绍了硬件环境和软件环境。硬件环境1处理器AMD三核羿龙处理器N8302内存2GB3硬盘空间500GB软件环境操作系统WINDOW7开发环境主要介绍了本系统所采用的操作系统、开发语言。1操作系统WINDOWS7家庭版基于MATLB的语音编码技术的实现42开发环境MATLAB7014本课题研究的意义本课题研究的意义本课题研究的意义本课题研究的意义语音编码的目的,就是为了寻求语音信号的某种紧缩表示方法,以便能够在频带有限的有线信道和无线信道上有效传输,或在介质中存储这些信号时节约了存储空间。说的更具体一点,语音编码的目的,就是用尽可能少的比特数以数字形式表示语音信号,同时保持要求的语音可懂度和语音质量(2)。因此,语音编码又称语音压缩编码或简称为语音压缩。推动语音编码技术发展的最主要因素,是数字通信的发展,以及对降低比特率和节约带宽的普遍需要。语音编码就是在降低比特率和保持语音质量之间进行权衡的,在某些应用中还必须要考虑编解码的复杂度、编码延时,以及与误码和丢包有关的性能等其他因素。语音编码的对象是数字化的语音信号和音频信号,语音信号编码有特别广泛的应用领域,其中包括通信,数字同步的声音和数据及大量的基于PC的游戏和多媒体应用等。基于MATLB的语音编码技术的实现52语音信号概述语音信号概述语音信号概述语音信号概述21语音产生和感知模型语音产生和感知模型语音产生和感知模型语音产生和感知模型语音编码是通过去除语音信号内的冗余量来降低码率的,因此,理解语音信号的产生和感知原理对于涉及语音编码器是非常重要的。在理想的情况下,一个设计合理的编码器只需要对感知相关的参数进行编码就可以获得高质量的重建语音。在语音产生时,肺部排出空气形成气流。当空气经过声带时,如果声带是紧绷的,则声带将产生张弛振动,声带会形成周期性的打开和关闭1。声带开启时,空气流会从声门喷射出来,形成一个脉冲;声带闭合时,相当于间歇期的脉冲序列。因此,这种情况下会在声门处产生一个准周期性脉冲序列的空气流,该空气流经过声道后最终从嘴唇辐射出声波,这便是“浊音”语音1。如果声带是完全舒展开的,则肺部发出的空气流将会毫无阻碍的的通过声门。空气流通过声门后,会遇到两种不同的情况。一种情况是,如果声道的某个部位发生收缩从而形成一个狭窄的通道,当空气流到达此处时被迫以高速冲过收缩区,并且在附近产生出空气的湍流,这种湍流空气通过声道后便形成“摩擦音”或“清音”1;另一种情况是,假设声道的某个部位完全闭合在了一起,则当空气流到达时便在此处形成空气压力,一旦闭合点突然开启,气压便会快速释放,“爆破音”就是这样形成的。这样看来,语音是由空气流激励声道最后从嘴唇或鼻孔或同时从嘴唇和鼻孔辐射出来而产生的2。浊音、清音以及爆破音三种不同类型的语音的激励源是不同的。浊音的激励源是位于声门处的准周期脉冲序列,清音的激励源则是位于声道的某个收缩区的空气湍流(类似于噪音),而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放2。三种激励方式将声音产生出来之后,声音便会顺着声道进行传播。声道就犹如一个具有某种谐振特性的腔体,而声音就是从这样一个腔体中间通过。腔体的一组谐振点被称之为共振峰,声道的频谱特性就是由这些共振峰的位置及各个峰的宽度所决定的,声道的形状和尺寸由共振峰以及其带宽取定。声道共振特性会影响输出的气流频率。谐波成分蕴含在声门脉冲序列当中,这些频率成分与声道的共振峰频率之间相互作用,语音的音质会受到其很大的影响。共振峰频率与声道传输函数相对应,当鼻道关闭,并且声门振动是唯一的激励源时,声道传输函数就不会出现有限的零点,这将很大程度上简化了分析。为了精确的描述语音,必须采用尽可能多的共振峰,但是在实际应用中,只有头三个共振峰才是最重要的。语音信号的频谱特征可以表现出语音产生的时域性质。浊音信号的频谱表现出了相当明显的谐振结构,谐振频率就相当于声门开合的基音频率,但谐振结构在清音信号中不存在,白噪声谱和其频谱更为相似。除了在浊音时存在一定的谱倾斜之外,明显的谱包络在声门激励中是不存在的。语音信号的谱包络是因为声门激励通过声道的基于MATLB的语音编码技术的实现6原因。声道的频率响应不是很平坦导致了在相邻的语音信号间需要引入一定的相关性,这种相关性一般称之为短时相关性。此外,因为浊音时激励信号所具有周期特征,因此,又会导致相邻基音脉冲中对应样点之间的相关性,区别于短时相关性的这种相关性称之为长时相关性2。在频域上,信号的包络谱对应短时相关性,而频率的精细结构则对应长时相关性。信号间的冗余度就可以由这两种相关性而引入,这就需要语音编码技术采用合理的方法来解决,常采用的方法有LPC分析、基音预测器等。图21语音信号产生的数字模型由上面分析可知,一个简单的语音产生源滤波器模型在实际应用时往往将声门脉冲模型、声道响应和辐射效应结合起来用一个时变滤波器来表示。语音的听觉感知是一个复杂的人脑心理过程。目前,我们对听觉感知的研究还很不成熟,听觉感知的实验主要还在测试响度、音高和掩蔽效应等阶段。人耳听觉界限的频率范围大约为20HZ20KHZ。在频率范围低端,感觉声音变成低频脉冲串,在高端感觉声音减小直至完全听不到一点声响。语音感知的强度范围是0130DB声压级(基准声压级为1010W/CM2),声音强度太高,就会让人感到难以忍受,强度太低则会感到寂静无声。2语音编码的性能指标语音编码的性能指标语音编码的性能指标语音编码的性能指标221语音质量语音质量语音质量语音质量这里所说的语音质量是指解码器输出语音的质量。语音质量包括了语音的可懂度、自然度,以及说话人辨识等多个方面。评估编码语音质量的理想条件是输入语音清晰(无背景噪声),无传输误码,一次编码。重要的是,在理想条件下解码后的语音听起来感觉到的质量如何。但是实际上却是很难满足这些理想条件的,因为,大多数实际应用环境都存在着大量的背景噪声;传输过程中有误码(个别比特误码,甚至整帧丢失);在会议电视等诸多应用中常常需要桥接好几个呼叫者,以便使每个呼叫者都能听到其他呼叫者的谈话,因此,就会要求语音编解码器把每个呼叫者的码流解码后再进行相加,并且将相加结果重新进行编码,这就会出现多次编码和解码的情况,甚至会出现不用编码标准进行级联的情况。在评估语音质量的时候,所有这周期脉冲发生器声门脉冲模型GGGGZ白噪声发生器声道模型VZ辐射模型RZ基音频率声道参数语音信号SN振幅AV振幅AU基于MATLB的语音编码技术的实现7些情况都应该加以考虑。评估语音质量有主观和客观两类度量标准。大多数客观度量标准是以分贝(DB)数表示的信噪比(SNR)为基础的3。基于SNR的度量主要用来说明重建语音与原始语音波形的近似程度,因此适合用于波形编码,这种度量的计算过程简单,而且可以根据它来确定重建语音的增益及延时。但是,它没有考虑到人耳的听觉感知特性,因此,在传输速度有限的应用中,经常会出现信噪比高的重建语音不一定对应于听觉感知好的语音质量,即会出现客观度量的语音质量与主观听觉感知的语音质量不一致的情况。所以在低比特率编码的应用中,常常不使用客观度量的方法而主要使用主观度量的方法。22比特率比特率比特率比特率比特率又称为码率,是指对长为1S的语音信号进行数字编码所用的比特数,度量单位是每秒比特(B/S)3。比特率反映的是语音被压缩的程度,比特率越低说明语音压缩程度越高。编码语音具有较高的比特率,意味着它要求占用较宽的带宽。编码语音常常与其他数据公用一个信道,因此,总是希望在保证满足解码语音质量要求的前提下,使编码语音的最大比特率尽可能降低,以使占用的信道带宽尽量的小。大多数语音编码器工作在固定的比特率,但却不管输入语音信号的特性。在多媒体应用的情况下,由于编码语音与其他形式的信号共享同一信道,因此最好能使编码器的比特率是可变的。在语音和数据同时在同一个信道上传送的应用中,可以在语音信号的时段(语音活动期)使用一个固定的比特率,而在没有语音信号的时段(只有背景噪音的静默期)使用一个较低的比特率,这就是所谓的静默期压缩方法。在采用静默期压缩方法时,把静默期的比特率降到零(不传送任何比特)的做法是不可取的,因为人们习惯于在静默期听到有低电平的背景噪声而不习惯于死一般的寂静。如果在静默期没有传送任何比特,那么,在解码时应该人为地生成一种让人听了感到舒服的背景噪声加入到静默期中,这就是所谓的“舒适噪声生成”方法3。为了使语音活动段与静默期之间平滑过渡,要求编码端和解码端准确同步;由于在静默期没有传送任何比特,因此这种同步有时是很困难的。比特率与语音编码有着密切的关系,一般的趋势是比特率越高解码语音质量越好。具体来说,广播质量语音的比特率至少应该大于64KB/S;长途电话质量语音的比特率为864KB/S,取决于语音编码器的复杂度;通信质量语音的比特率为4812KB/S;合成语音质量的比特率一般都低于48KB/S。223延时延时延时延时语音编码系统的延时由运算延时、处理延时和通信延时等部分组成。许多低比特率语音编码器对数据的处理和传送是逐帧进行的,此外,有时为了能基于MATLB的语音编码技术的实现8够对信号进行更加充分的分析和处理,需要使用一帧数据之前的若干数据(称为欲做准备数据),因此,需要首先把一帧数据和其前面的若干数据加以缓存,然后才能开始对这帧语音进行编码,由此产生的延时称为运算延时。但是无论怎么样改变编码和解码的方案,运算延时却是无法减小的,但是其他两种延时是能够通过硬件的改进来减小的。编码器的编码时间和解码器重建语音的时间总和称之为处理延时。处理延时取决于编码和解码的算法,以及实现编码器和解码器的硬件速度。运算延时与处理延时之和称为单向编解码延时。一帧数据从进入编码器输入端算起,直到由解码器输出端输出,中间不经过信道,总共需要的时间,称之为通信延时。上述的运算延时、处理延时和通信延时的总和称为编码系统的单向系统延时。在通信系统中,如果存在着由阻抗不匹配而产生的回声,那么,编码延时将会增大回声对声音信号的影响,并使语音信号的质量下降。所以,在没有回声的情况下,最大单向系统延时不大于200MS。在有回声的情况下,要求最大单向系统延时不大于25MS。因此,通信系统中常常需要使用回声消除器。224算法复杂度算法复杂度算法复杂度算法复杂度语音编码的算法复杂度直接决定了硬件实现的复杂性、体积、功率消耗以及价格等指标。大多数实时语音编码算法是在数字信号处理器DSP上实现的。因此,一个比较复杂的算法要求功能更加强大的DSP芯片。DSP芯片的运算速度用单位时间(每秒)执行百万条指令数(MIPS)来表示。低复杂度语音编码器需要的运算速度低于15MIPS,高复杂度的语音编码器需要的运算速度高于30MIPS,中复杂度语音编码器需要的运算速度介于这两个数值之间。算法复杂度是设计或选择语音编码算法时需要重点考虑的因素。增加编码算法的复杂度意味着增加硬件实现的成本、增加硬件的功率消耗(对于便携式设备来说,意味着电池充时间间隔缩短)。另一个需要考虑的因素是语音编码器的功率消耗和价格在整个系统中所占的比例。为了达到给定的比特率,如果能够把这个比重控制在10左右,可以尽量选择最好的编码器算法,因为各种不同编码器的功率消耗和价格之间的差别一般不足以改变这个比重。但是如果这个比重偏大,选择最适合的编码器就非常有必要了。23语音编码的国际标准语音编码的国际标准语音编码的国际标准语音编码的国际标准由于数字语音编码技术具有广阔的应用范围和良好的市场前景,从20世纪80年代开始,国际上著名的通信研究机构和大学均大力开展高音质低码率的语音编码技术的研究,并且取得了丰硕的成果,因此,语音编码技术的标准化工作就显得尤为重要。ITU在语音编码技术的标准化方面做了大量的工作,制定了很多标准,并且逐渐基于MATLB的语音编码技术的实现9受到了业界的认同。在其中,比较典型的有G711、G711、G721、G728、G729等标准。(1)G711标准最早的语音编码方案是PCM编码,PCM的码率是64KBPS。对语音信号按照8KHZ进行采样,再对每一个样本做8BIT的标量量化。这种方案只能将语音由模拟信号变为数字信号,但却没有做任何进一步的数学处理。虽然它的码率很高,但是处理程序却很简单,至今仍然在很多的场合中被采用。它被ITU定为G711。(2)G721标准G711标准产生之后,人们在语音压缩编码领域投入了大量的精力进行研究。经很长时间的研究,一种致力于消除语音信号样本间相关性的线性预测编码算法被科学家们提出了。它可以在基本保证音质的条件下,使码率有了较大程度的压缩。利用当时还处于初级阶段的线性预测方法,科学家们成功开发出了码率为32KBPS(相对于PCM码,它被压缩了一半)的增量调制编码ADPCM方案,但音质略次于PCM编码,可懂度和自然度都很不错,立即就受到了人们的亲睐。它被ITU定为G721标准。(3)G728标准正当人们对线性预测编码技术进行深入研究的时候,另外一种利用相关性压缩量化编码的方法即矢量量化方法被提出来。该技术在压缩量化编码上的效率很高,但其缺点是计算量太庞大,随着IC技术的不断发展,计算机和DSP的运行处理速度加快,这种编码方式的可行性就越加的明显。不过现代的计算机和SP芯片已经能够满足它的计算要求。把矢量量化技术和线性预测编码技术联合起来使用,就产生了许多比较成功的音质较好的线性预测编码方法3。例如多脉冲激励线性预测编码算法。规则脉冲激励线性预测编码算法以及码激励线性预测编码算法(即CELP算法)等。其中由CELP算法衍生出的低延时码激励线性预测编码算法更为成熟,1991年被ITU定为G728标准。LDCELP算法的语音质量不低于ADPCM,但其码率又比ADPCM降低了一倍,即为16KBPS。4G729标准保持高音质就是要使合成原始语音的均方误差始终小到不易察觉。在这样的前提下,通过改进算法,达到进一步压缩码率的目的CSACELP算法就是该思路的历史产,它实现了8KBPS的码率,比LDCELP又降低了一倍,然而它所达到的语音质量却一点也不亚于G721标准,但却比G721标准码率压缩了整整四倍。ITU在1996年将CSACELP算法制定为G729标准。在实际选择语音编码标准时,要综合考虑带宽、时延、算法复杂度等各种因素。基于MATLB的语音编码技术的实现103语音编码的基本方法语音编码的基本方法语音编码的基本方法语音编码的基本方法31波形编码波形编码波形编码波形编码波形编码是最简单也是应用最早的语音编码方法。最基本的一种就是PCM编码,如G711建议中的A律或律。APCM、DPCM和ADPCM也属于波形编码的范畴,使用这些技术的标准有G721、G726、G727等。波形编码具有算法简单,自适应能力强和语音质量高等特点。因此,在1664KB/S的码率范围已经获得了广泛的应用。由于波形编码只着眼于信号波形,而不管信号是如何产生的,因此,在需要对语音信号和非语音信号都进行成功编码的应用中是最有用的。例如,在PSTN中需要同时成功传输调制解调器和传真的信令音,信号的交换和语音的成功传输差不多同等重要。应用最普遍的波形编码有均匀16BPCM、压扩8BPCM和ADPCM。但是,波形编码的码率无法进一步降低,因为如果把码率降到16KB/S以下,那么将得不到令人听觉满意的语音质量。抽样量化编码数字通信系统解码低通滤波器模拟信号模拟信号PCM信号PCM信号模/数变换数/模变换图31PCM原理图其他重要的波形编码方法还有变换编码和子带编码,一般认为变换编码在语音信号中作用不是很大,但在音频信号中它却是主要的压缩方法。变换编码的原理是首先把语音信号在时域内分成相继的帧(可以有部分重叠),典型情况下没帧包含64512个取样值;然后对每帧信号进行某种酋变换,得到一组变换系数,然后对每组变换系数独立的进行量化和编码。在接收端,对接收到的码字解码后得到变换系数,然后对每组变化系数进行相应的逆变换,恢复出每帧语音信号,最后将所有帧信号连接起来(如有重叠则进行叠接相加)便得到重构语音信号。设计得好的变换能够把信息和能量集中于少数变换系数,因此在对变换系数独立进行编码时,可以根据人耳对不同频率成分语音的听觉感知特点,把较多的比特分配给少数重要的系数,其余系数甚至根本就不需要进行编码传输,所以变换编码能够获得较低的比特率,同时保持语音高质量。子带编码和变换编码都属于频域编码,它们的主要特点是利用信号在频域(或更广义的说,在变换域)中的冗余度来减小波形编码的比特率。子带编码利用带通滤波器组把语音信号的频带(称为全频带或简称全带)分成一些子带,而变化编码则利用离散傅里叶变换成频域系数或频域成分(或其它变换域中的元素),然后对每个频域成分分别独立地进行波形编码。这样做的好处是(1)可以根据语音的短时谱的结基于MATLB的语音编码技术的实现1构特点和人耳的听觉感知特性,对不同子带或不同频率成分合理的分配带宽和比特数。例如,对语音可懂度有重要影响的基音和共振峰频率主要处在低频段,而某些类似噪音的声音(如摩擦音)主要落在高频段,因此可以给低频段分配较窄的带宽和较多的比特数,而给高频段分配较宽的带宽和较少的比特数,这样就能够提高对基音和前几个共振峰的频率分辨率和量化精度。(2)量化噪声都被局限在各个子带内,因此,有利于避免弱信号子带被其他子带的强信号所掩盖,同时能够避免产生子带外的谐波失真。(3)便于采用噪声谱整形技术来减小量化噪声的影响。因此,频域编码方法虽然不像声码器那样主要以语音信号模型和人耳的听觉感知特点为基础,但是,却都充分利用了语音的短时谱和人耳的听觉感知特点。虽然在窄带语音编码中,经典的变换编码没有产生过重大的影响,而子带编码在近年也逐渐失去人们的兴趣,但是在高质量语音编码应用中滤波器组方法和变换编码方法却起着十分关键的作用。子带编码系统中需要用到离散时间信号的减取样和增取样处理,此外,在概念上子带编码与短时傅里叶变换的线性滤波器组分析方法有很密切的关系。32参数编码参数编码参数编码参数编码参数编码是建立在人类语音产生的全极点模型的理论上,全极点模型的参数基频、线谱对、增益产生了参数编码器传输的编码参数。对语音来说,参数编码器的编码效率最高,但对于音频信号来说,参数编码器就不太合适了。典型的参数编码器有LPC10、LPC10E,当然,G729、G7231以及CELP(FS1016)等码本激励声码器都离不开参数编码。图32LPC声码器原理图参数编码又称声码器,其中分析部分可以采用不同的方法,例如可以用滤波器组把语音信号划分成不同的频段,可以通过分析得到语音信号共振峰参数,还可以利用线性预测分析得到预测系数,并相应的分别称为通道声码器、共振峰声码器和线性预测声码

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论