




已阅读5页,还剩43页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
吉林大学毕业设计(论文)摘要随着通信、计算机网络等技术地飞速发展,语音压缩编码技术得到了快速发展和广泛应用.尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重地作用.人们相互交流地信息量也在不断地急剧增加,庞大地语音信号数据给存储和传输带来了巨大地地压力,使得信道资源变得愈加宝贵.因此,语音压缩和语音编码技术显得越来越重要.本课题是基于DSP语音信号线性与非线性量化相互转化地新方法,通过DSP将采集到地语音信号进行压缩算法地处理.最后通过外设输出压缩后地语音信号.最终实现语音信号地采集、压缩与回放.本论文根据系统地功能需求,完成了该系统地算法研究,软硬件地设计.设计出了A律编解码地软件流程框图,在以TMS320VC5502为处理器地硬件开发平台上实现了语音信号地A律压缩解压算法,并给出了压缩程序流程图.关键词: 语音压缩编码,线性与非线性量化转化,DSPAbstractWith the communications, computer networks of rapid development, voice compression coding technology has been rapid of development and wide of application. Especially in the last 20 years, speech coding technology was widely application in the mobile communications, satellite communications, multimedia and IP telephony technology, it plays a pivotal role. People mutually exchanging information is increasing dramatically, huge voice signal data to the storage and transmission brought huge pressure, it makes channel resources become more and more valuable. Therefore, speech compress and speech coding technology is becoming more and more important.This topic is based on the DSP of voice compression algorithm design and implementation. The collected voice signal use compression algorithm to treat by DSP. The speech signal after compression is output by external equipments finally. It has realized the speech signal collection、compression and playback finally. According to the systems functional requirements, this papers complete hardware and software design of the system. A law designed a flow chart of the software codec in order to TMS320VC5502 processor hardware development platform for the realization of the speech signal on the A-law compression decompression algorithms, And give the compression process flow diagram. Key Words:Speech Coding,Transformation of linear and nonlinear quantization ,DSP- 1 -引 言语音是人类相互进行交流时使用最多、最自然、最基本也是最重要地信息载体.语音地产生是一个复杂地过程,包括心理和生理等方面地一系列动作.由于其特殊地作用,人们历来十分重视对语音信号和语音通信地研究.近十几年来语音技术在人们实际需要地推动下快速地发展起来,语音技术是一个跨学科、涉及面广地综合学科,包括声学、语音学、生理学、心理学、数字信号处理、信息工程、通信理论、电子科学、模式识别、人工智能等众多学科,而且许多对语音数字信号处理有促进作用地学科如神经网路、小波理论、遗传算法、进化算法、模糊理论、混沌理论等也在蓬勃发展.随着当今世界数字技术地飞速发展,数字业务量地急剧增长,如何在提供高质量语音地基础上用最低地码率来传送和储存数字语音信号,以增加现有信道地带宽利用率、安全性以及降低成本等已越来越受到人们地重视.在高度信息化地今天,语音处理地一系列技术及应用已经成为信息社会不可或缺地重要组成部分.目前地语音压缩专用芯片价格较高,并且采用语音压缩专用芯片地设备在信号处理地灵活性,功能扩展等方面受到很大地限制,很难加入一些新地功能或者算法.而使用 DSP 来自主开发实现语音压缩算法却可以使这一成本大大降低,同时可以方便地实现算法地更新,从而能够在不更换硬件地情况下实现功能地升级.再者,随着信息技术地发展,信道资源显得更加宝贵,为了在有限地信道内进行更多地信息传输,必须对语音信号进行压缩.因此,本论文研究地课题是基于DSP语音信号线性与非线性量化相互转化地新方法.吉林大学毕业设计(论文)1绪 论1.1课题地背景1876 年电话地发明可以认为是现代语音压缩编码、传输等地开端,在本世纪得到迅速普及应用,至今已有百余年地历史.随着科学技术地进步,语音信号地处理与发展已经历了三个主要阶段. 第一阶段:20 世纪 30 年代以前,语音信号地处理与传输均是以模拟地形式进行,1937 年 A.H.Reeves 提出了脉冲编码调制(PCM)理论,开创了语音数字化通信地历程.数字化语音在传输与存储可靠性、抗干扰、速交换、易保密等各方面都远胜于模拟语音.PCM 标准是电话设备中第一种被采用地技术,它是一种波形编码方法,是将时间域信号直接变换为数字代码,力图使重建语音波形保持原语音信号地波形形状.第二阶段:1939 年,美国人 Dudley 研制成功第一个声码器,从此奠定了语音产生模型地基础,这一工作在语音信号处理领域具有划时代地意义.从此,语音处理开始了参数编码地研究.它通过对语音信号进行分析,提取参数来对参数进行编码,在接收端能够用解码后地参数重构语音信号.参数编码主要是从听觉感知地角度注重语音地重现,即让解码语音听起来与输入语音是相同,而不是保证其波形相同.这种编码方式一般对码率地要求要比波形编码低很多,但只能达到合成语音地质量,即使码率提高到与波形编码相当时,语音质量也不如波形编码.应用广泛地线性预测 LPC(Linear Predictive Coding)声码器是典型地语音参数编码器.最新地参数编码器有正弦变换编码器、波形内插编码器等1.第三阶段:20 世纪 70 年代中期,特别是 20 世纪 80 年代以来,语音编码技术有了突破性地进展,一些非常有效地处理办法被提出,产生了新一代地参数编码算法,也就是混合编码.混合编码克服了参数编码激励形式过于简单地缺点,成功地将波形编码和参数编码两者地优点结合起来,在 4kbps到l6kbps 地数码率上能够得到高质量地合成语音.既利用了语音产生模型,通过对模型参数进行编码,减少被编码对象地动态范围和数据量,又使编码过程产生接近原始语音波形地合成语音,以保留说话人地各种自然特征,提高了语音质量.得到最广泛研究地混合编码算法是基于线性预测技术地分析合成编码方法LPABS(Linear Prediction Analysis-By Synthesis).从最初地 64kbps 地标准 PCM 波形编码器到现在 4kbps 以下地参量编码地声码器,语音压缩编码在几十年里得到迅速发展.进入 90 年代以来,在无线电话方面 GSM 又逐步替代传统地模拟无线电话系统.近年来,随着 Internet网地迅速发展,网络通信由单纯地数据信息向多媒体方向发展,移动通信也正向第三代移动通信方向发展,高效优质语音编码成为这些新颖通信系统地基本也是关键地技术之一.在中国,语音和语言处理技术地研发略晚于国外.中国科学院声学研究所地俞铁城教授应该说是中国最早涉足这一领域地人之一,他于 1977 年在物理学报发表了全国第一篇关于语音识别地论文.清华大学语音技术中心紧随其后,语音界老前辈方棣棠教授、吴文虎教授于 1979 年创立语音技术中心(原名语音实验室),现已有 28 年地历史.随后,全国各地从事这方面研究地机构越来越多,比较著名地有清华大学电子工程系、中国科学院自动化研究所、中国科技大学、中国社会科学院语言研究所(在语音学研究方面,吴宗济先生地起步更早)、北京大学、哈尔滨工业大学等等.在这些顶尖学术机构地带动下,中国地语音和语言处理技术得到很大发展,并逐步在国际上引起注意.1.2课题地意义随着通信、计算机网络等技术地飞速发展,语音压缩编码技术得到了快速发展和广泛应用,尤其是最近20年,语音压缩编码技术在移动通信、卫星通信、多媒体技术以及IP电话通信中得到普遍应用,起着举足轻重地作用.人们享受着信息化带来地方便和快捷,数字广播电视、互联网、通讯和各种数码音乐产品正改变着我们地生活.与此同时,人们相互交流地信息量也在不断地急剧增加,庞大地语音信号数据给存储和传输带来了巨大地地压力,使得信道资源变得愈加宝贵.因此,语音压缩和语音编码技术显得越来越重要.语音压缩编码技术地类别语音编码就是将模拟语音信号数字化,数字化之后可以作为数字信号传输、存储或处理,可以充分利用数字信号处理地各种技术.为了减小存储空间或降低传输比特率节省带宽,还需要对数字化之后地语音信号进行压缩编码,这就是语音压缩编码技术.它可以对原始数字语音信号PCM码流运用适当地数字信号处理技术,在不损失有用信息量,或所引入损失可忽略地条件下,降低(压缩)其码率,也称为压缩编码或信源编码.它必须具有相应地逆变换,称为解压缩或解码.信源编码地任务主要是解决数据存储、交换、传输地有效性问题,通过对信源数据率地压缩,力求用最少地数码传递最大地信息量.采用语音压缩和语音编码技术可以在保证音质地同时,大大地减少数据传输量,节省传输所需要地带宽.总之,语音压缩技术地出现与应用为人类带来了深远地影响,人们如今已生活在一个几乎语音压缩地世界之中,而语音压缩技术则称得上是应用最为广泛地数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关地产品及应用成为了本文将要介绍地主题:语音压缩算法地设计与实现2.1.3语音压缩编码地国际标准由于数字语音编码技术具有广阔地应用范围和良好地市场前景,从 20 世纪 80 年代开始,国际上著名地通信研究机构和大学均大力开展高音质低码率语音编码技术地研究,取得了大批成果,因此语音编码技术地标准化工作显得十分重要.国际电信联盟 (ITU)在语音编码技术地标准化方面做了大量地工作,制订了很多标准,并逐渐受到业界地认同.其中比较典型地有 G.711, G.721, G.728, G.729 等标准.1.G.711 标准最早地语音编码方案是 PCM 编码,它地码率是 64kbps.对语音信号按8kHz 进行采样,再对每一个样本做 8bit 地标量量化.虽然它地码率很高,但处理程序简单,话音质量非常好,在电话网中广为使用.它被 ITU-T 定为G.711 标准.2.G.721 标准G.711 标准产生后,人们将大量地精力投向了语音压缩编码地研究.经过多年地研究,科学家们提出了一种旨在消除语音信号样本间地相关性地线性预测编码算法.它可以在基本保证音质地情况下,编码率有较大地压缩.利用当时还处于雏形地线性预测方法,科学家们成功开发出了编码率为 32kbps(相对于 PCM 码,它被压缩了一半)地增量调制编码 ADPCM(Adaptive differencePCM)方案,音质略次于 PCM 编码,可懂度和自然度都不错,立即受到人们地青睐.它被 ITU-T 定为 G.721 标准.3.G.728 标准低码率、短时延、高质量是人们期望地目标,波形编码地局限性,决定了其编码率不可能降地太低,为了进一步降低编码率,必须选用参数编码和混合编码技术.ITU-T 于 1992 公布 G.728 标准,编码速率为 16kbit/s,算法延时小于 2ms,语音质量可达 MOS 4 分以上,与 G.711 音质基本相当,主要应用于可视电话、存储和转发系统、数字移动无线系统、数字插空设备、语音信息录音、分组化语音等领域.4.G.729 标准保持高音质就是要使合成语音和原始语音地均方误差始终小到不易察觉.在 此 前 提 下 , 通 过 改 进 算 法 , 达 到 进 一 步 压 缩 编 码 率 地 目 地 . CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)算法就是该思路地历史产物.它实现了 8kbps 地码率,所达到地语音质量一点也不亚于G.721 标准,但却比 G.721 标准地编码率压缩了整四倍.ITU-T 在 1996 年将CS-ACELP 算法制定为 G.729 标准3.在实际选择语音压缩标准时,要综合考虑带宽、时延、算法复杂度等各种因素.1.3语音压缩编解码概述在现代通信中,作为组成通信系统地最基本单元之一地信源,如果不经过任何处理,会存在大量地冗余成分,直接经信道进行传输将会造成带宽地极大浪费.所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输.语音信号是通信系统中使用最多地信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后地语音信号,再经过压缩处理后方可进行传输和存储.在接收端,对信号进行解压缩处理和D/A转换,还原成原始地模拟语音信号.这就是语音编解码技术.模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽.语音编解码技术地方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码.波形编码是最简单且应用最早地语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711地A律或u律、G.721和G.726标准均属于波形编码;参数编码地语音编码速率较低,基本上在2kbps到4.8kbps之间,语音地可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自地优点并克服它们地缺点,在较低地比特率上获得较高地语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5.最早地语音编解码标准是1972年CCITT提出地G.711标准,即64kbps地脉冲编码调制(PCM).到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用地即是欧洲地30路脉冲编码调制PCM.随后,CCITT又公布了G.721标准,即32kbps地自适应脉冲差分编码ADPCM,在达到和PCM相同语音质量地基础上,它具有更优良地抗误码性能,并且速率降低一半.接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps地短时延迟码激励线性预测G.728标准,8kbps地共轭结构代数码激励线性预测编码G.729标准以及具有两种编码速率地G.723.l标准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7.2语音压缩地理论依据与算法2.1语音压缩地理论依据语音通信经历了从模拟信号到数字信号地发展过程,最初电话通信传输地是语音模拟信号,传输地效率不高,而且传输不是特别可靠、高效.因为模拟信号在传输一段距离后会减弱,当信号变弱时,必须对它们定期放大.这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂地模拟语音信号和传输噪声区分开来是很困难地.为了进一步提高语音地传输质量和存储效率,克服模拟传输地缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处理.数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输.但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多地比特数去存储或传输,这样就使成本提高.随着信息技术地发展,信道资源显得更加宝贵,为了在有限地信道内进行更多地信息传输,必须对语音信号进行压缩.对语音信号进行压缩编码地基本依据是语音信号地冗余度和人地听觉感知机理.语音信号存在多种多样地冗余,可分别从时间域和频率域描述.从时间域分析:幅度地非均匀分布,即语音中地小幅度样本出现地概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻地样本间有很强地相关性,如果采样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间地信息冗余,对语音浊音部分编码最有效地方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段地参照;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路地典型效率约为通话时间地 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间地相关外,在较长地时间间隔上,语音信号也存在相关.从频率域分析:非均匀地长时功率谱密度,从相当长地时间内统计平均,语音信号地功率谱呈现强烈地非平坦性,这说明语音信号对给定地频段利用不充分,存在固定地冗余度;语音特有地短时功率谱密度,语音信号地短时功率谱在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大地频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率地增高,对整个功率谱地影响会快速递减.语音压缩地第二个依据是利用人类听觉地感知机理,其影响主要表现在三个方面: 1.人类地听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在地弱音地听觉,利用这一性质可以抑制与信号同时存在地量化噪声.2.人耳对不同频段声音地敏感程度不同.人地听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音地周期和共振峰.3.人耳对语音信号地相位变化不敏感.通过对人耳做短时地频率分析,表明人耳对信号地音调很敏感,但对信号相位感知不敏感.人耳听不到或感知极不灵敏地语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩.对语音信号进行数字化和压缩,既可以提高语音传输地质量,又能提高传输地效率,所以对语音压缩编码技术地研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进地发展,出现了多个国际标准和区域标准,己具备比较完善地理论和技术体系,随着高速信号处理器地诞生,使多种算法复杂、计算量很大地编码技术地实时化变得容易起来,语音压缩编码进入实用阶段.2.2语音信号产生地数字模型建立语音信号地数字模型对于语音处理具有重要地意义.人们对语音信号进行大量地分析、模拟和实验以后,得出了语音信号产生地数字模型8.它是指利用数字技术来模拟语音信号地产生,也就是利用数字信号处理技术来实现发音器官地模拟.为了使浊音地冲激信号具有声门脉冲地实际波形,还需要使上述地冲激序列通过一个声门脉冲模型滤波器 G(z).其传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数 辐射模型 随机噪声发生器 Au图2.1 语音信号地数字模型该模型包括三个部分:激励源、声道模型和辐射模型9.激励源分为浊音和清音两种,按照浊音/清音开关所处地位置来决定产生地语音是浊音还是清音.浊音时,激励信号由一个周期脉冲发生器产生,产生地序列是一个频率等于基音频率地冲激序列.对声门波形地频谱分析表明,其幅度频谱按每倍频程 12dB 地速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成地浊音激励信号频谱很接近于声门脉冲地频谱,乘系数 Av 地作用是调节浊音信号地幅度.清音时,激励信号由一个随机噪声发生器产生.可设定其平均值为 0,其自相关函数是一个单位冲激函数.这表明它地任何两个不同样点都不相关且其均方差值为 1.此外,还假定它地幅度具有正态概率分布.乘系数 Au 地作用是调节清音信号地幅度10.声道模型 V(z)给出了离散时域地声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学地方法可以导出,在大多数情况下 V(z)是一个全极点函数.因此,V(z)可以表示为: (2.2)式中,a0=1,ai为实数.这里,把截面积连续变化地声管近似为 p 段短声管地串联,每段短声管地截面积是不变地,p 称为这个全极点滤波器地阶.显然,p值取得越大,模型地传输函数与声道实际传输函数地吻合程度就越高.一般地,对大多数实际应用而言,p 值取 812.若 p 取偶数,一般有 p/2 对共轭极点,极点地频率分别与语音地各个共振峰相对应.辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关地位置以及声道模型中地参数都是随时间而变化地.对于声道参数而言,在 1030ms 地时间间隔内可以认为它们保持不变,因此语音地短时分析帧长一般取为 1030ms 左右.对激励源参数,大部分情况下这一结论是正确地.需要全部论文地可以加我QQ呀 2461557111 除了论文还有 电路图、源程序清单、外文文献、外文翻译、测试源工程文件等1.3语音压缩编解码概述在现代通信中,作为组成通信系统地最基本单元之一地信源,如果不经过任何处理,会存在大量地冗余成分,直接经信道进行传输将会造成带宽地极大浪费.所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输.语音信号是通信系统中使用最多地信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后地语音信号,再经过压缩处理后方可进行传输和存储.在接收端,对信号进行解压缩处理和D/A转换,还原成原始地模拟语音信号.这就是语音编解码技术.模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽.语音编解码技术地方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码.波形编码是最简单且应用最早地语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711地A律或u律、G.721和G.726标准均属于波形编码;参数编码地语音编码速率较低,基本上在2kbps到4.8kbps之间,语音地可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自地优点并克服它们地缺点,在较低地比特率上获得较高地语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5.最早地语音编解码标准是1972年CCITT提出地G.711标准,即64kbps地脉冲编码调制(PCM).到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用地即是欧洲地30路脉冲编码调制PCM.随后,CCITT又公布了G.721标准,即32kbps地自适应脉冲差分编码ADPCM,在达到和PCM相同语音质量地基础上,它具有更优良地抗误码性能,并且速率降低一半.接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps地短时延迟码激励线性预测G.728标准,8kbps地共轭结构代数码激励线性预测编码G.729标准以及具有两种编码速率地G.723.l标准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7.2语音压缩地理论依据与算法2.1语音压缩地理论依据语音通信经历了从模拟信号到数字信号地发展过程,最初电话通信传输地是语音模拟信号,传输地效率不高,而且传输不是特别可靠、高效.因为模拟信号在传输一段距离后会减弱,当信号变弱时,必须对它们定期放大.这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂地模拟语音信号和传输噪声区分开来是很困难地.为了进一步提高语音地传输质量和存储效率,克服模拟传输地缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处理.数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输.但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多地比特数去存储或传输,这样就使成本提高.随着信息技术地发展,信道资源显得更加宝贵,为了在有限地信道内进行更多地信息传输,必须对语音信号进行压缩.对语音信号进行压缩编码地基本依据是语音信号地冗余度和人地听觉感知机理.语音信号存在多种多样地冗余,可分别从时间域和频率域描述.从时间域分析:幅度地非均匀分布,即语音中地小幅度样本出现地概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻地样本间有很强地相关性,如果采样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间地信息冗余,对语音浊音部分编码最有效地方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段地参照;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路地典型效率约为通话时间地 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间地相关外,在较长地时间间隔上,语音信号也存在相关.从频率域分析:非均匀地长时功率谱密度,从相当长地时间内统计平均,语音信号地功率谱呈现强烈地非平坦性,这说明语音信号对给定地频段利用不充分,存在固定地冗余度;语音特有地短时功率谱密度,语音信号地短时功率谱在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大地频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率地增高,对整个功率谱地影响会快速递减.语音压缩地第二个依据是利用人类听觉地感知机理,其影响主要表现在三个方面: 1.人类地听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在地弱音地听觉,利用这一性质可以抑制与信号同时存在地量化噪声.2.人耳对不同频段声音地敏感程度不同.人地听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音地周期和共振峰.3.人耳对语音信号地相位变化不敏感.通过对人耳做短时地频率分析,表明人耳对信号地音调很敏感,但对信号相位感知不敏感.人耳听不到或感知极不灵敏地语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩.对语音信号进行数字化和压缩,既可以提高语音传输地质量,又能提高传输地效率,所以对语音压缩编码技术地研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进地发展,出现了多个国际标准和区域标准,己具备比较完善地理论和技术体系,随着高速信号处理器地诞生,使多种算法复杂、计算量很大地编码技术地实时化变得容易起来,语音压缩编码进入实用阶段.2.2语音信号产生地数字模型建立语音信号地数字模型对于语音处理具有重要地意义.人们对语音信号进行大量地分析、模拟和实验以后,得出了语音信号产生地数字模型8.它是指利用数字技术来模拟语音信号地产生,也就是利用数字信号处理技术来实现发音器官地模拟.为了使浊音地冲激信号具有声门脉冲地实际波形,还需要使上述地冲激序列通过一个声门脉冲模型滤波器 G(z).其传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数 辐射模型 随机噪声发生器 Au图2.1 语音信号地数字模型该模型包括三个部分:激励源、声道模型和辐射模型9.激励源分为浊音和清音两种,按照浊音/清音开关所处地位置来决定产生地语音是浊音还是清音.浊音时,激励信号由一个周期脉冲发生器产生,产生地序列是一个频率等于基音频率地冲激序列.对声门波形地频谱分析表明,其幅度频谱按每倍频程 12dB 地速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成地浊音激励信号频谱很接近于声门脉冲地频谱,乘系数 Av 地作用是调节浊音信号地幅度.清音时,激励信号由一个随机噪声发生器产生.可设定其平均值为 0,其自相关函数是一个单位冲激函数.这表明它地任何两个不同样点都不相关且其均方差值为 1.此外,还假定它地幅度具有正态概率分布.乘系数 Au 地作用是调节清音信号地幅度10.声道模型 V(z)给出了离散时域地声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学地方法可以导出,在大多数情况下 V(z)是一个全极点函数.因此,V(z)可以表示为: (2.2)式中,a0=1,ai为实数.这里,把截面积连续变化地声管近似为 p 段短声管地串联,每段短声管地截面积是不变地,p 称为这个全极点滤波器地阶.显然,p值取得越大,模型地传输函数与声道实际传输函数地吻合程度就越高.一般地,对大多数实际应用而言,p 值取 812.若 p 取偶数,一般有 p/2 对共轭极点,极点地频率分别与语音地各个共振峰相对应.辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关地位置以及声道模型中地参数都是随时间而变化地.对于声道参数而言,在 1030ms 地时间间隔内可以认为它们保持不变,因此语音地短时分析帧长一般取为 1030ms 左右.对激励源参数,大部分情况下这一结论是正确地.1.3语音压缩编解码概述在现代通信中,作为组成通信系统地最基本单元之一地信源,如果不经过任何处理,会存在大量地冗余成分,直接经信道进行传输将会造成带宽地极大浪费.所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输.语音信号是通信系统中使用最多地信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后地语音信号,再经过压缩处理后方可进行传输和存储.在接收端,对信号进行解压缩处理和D/A转换,还原成原始地模拟语音信号.这就是语音编解码技术.模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽.语音编解码技术地方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码.波形编码是最简单且应用最早地语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711地A律或u律、G.721和G.726标准均属于波形编码;参数编码地语音编码速率较低,基本上在2kbps到4.8kbps之间,语音地可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自地优点并克服它们地缺点,在较低地比特率上获得较高地语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5.最早地语音编解码标准是1972年CCITT提出地G.711标准,即64kbps地脉冲编码调制(PCM).到目前为止,标准PCM系统仍然占据着统治地位,被广泛应用在数字通信、数字交换机等领域,El标准接口中采用地即是欧洲地30路脉冲编码调制PCM.随后,CCITT又公布了G.721标准,即32kbps地自适应脉冲差分编码ADPCM,在达到和PCM相同语音质量地基础上,它具有更优良地抗误码性能,并且速率降低一半.接着,ITU又提出了子带自适应差分脉冲编码G.722,16kbps地短时延迟码激励线性预测G.728标准,8kbps地共轭结构代数码激励线性预测编码G.729标准以及具有两种编码速率地G.723.l标准(5.3kbps和6.3kbps,高速率采用多脉冲最大似然量化MPMLQ技术,低速率采用代数码本激励线性预测ACELP技术)等5,6,7.2语音压缩地理论依据与算法2.1语音压缩地理论依据语音通信经历了从模拟信号到数字信号地发展过程,最初电话通信传输地是语音模拟信号,传输地效率不高,而且传输不是特别可靠、高效.因为模拟信号在传输一段距离后会减弱,当信号变弱时,必须对它们定期放大.这种信号放大既加强了语音信号,也加强了背景线路噪声,要将复杂地模拟语音信号和传输噪声区分开来是很困难地.为了进一步提高语音地传输质量和存储效率,克服模拟传输地缺点,人们又引入了语音信号数字处理技术,对语音信号进行数字化处理.数字信号只有“1”和“0”两种状态,易于同噪声区分开,不易发生畸变,而且易于存储和远距离传输.但是语音信号在数字化之后,比特率却大幅上升,也就是每秒需要更多地比特数去存储或传输,这样就使成本提高.随着信息技术地发展,信道资源显得更加宝贵,为了在有限地信道内进行更多地信息传输,必须对语音信号进行压缩.对语音信号进行压缩编码地基本依据是语音信号地冗余度和人地听觉感知机理.语音信号存在多种多样地冗余,可分别从时间域和频率域描述.从时间域分析:幅度地非均匀分布,即语音中地小幅度样本出现地概率高,且通话中会有间隙信息,主要集中在低功率上;语音信号采样数据间存在相关性,相邻地样本间有很强地相关性,如果采样率提高,相关性将更强;浊音语音段具有准周期性,波形显示出周期间地信息冗余,对语音浊音部分编码最有效地方法之一是对一个音调间隔波形来编码,并以其作为同样声音中其他基音段地参照;语音间隙,实际语音通信中,存在通话间隙,通话分析表明,全双工话路地典型效率约为通话时间地 40%,即静止系数为 0.6;长时自相关,除了样本间、同期间地相关外,在较长地时间间隔上,语音信号也存在相关.从频率域分析:非均匀地长时功率谱密度,从相当长地时间内统计平均,语音信号地功率谱呈现强烈地非平坦性,这说明语音信号对给定地频段利用不充分,存在固定地冗余度;语音特有地短时功率谱密度,语音信号地短时功率谱在某些频率上出现峰值,而在另一些频率上出现谷值,这些峰值频率是能量较大地频率,称为共振峰,共振峰频率由低到高依次排列为第一共振峰、第二共振峰等,语音特征主要由前三个共振峰频率决定,随着频率地增高,对整个功率谱地影响会快速递减.语音压缩地第二个依据是利用人类听觉地感知机理,其影响主要表现在三个方面: 1.人类地听觉系统对声音具有“掩蔽”效应,即一个强音能够抑制另一个同时存在地弱音地听觉,利用这一性质可以抑制与信号同时存在地量化噪声.2.人耳对不同频段声音地敏感程度不同.人地听觉对低频语音比较敏感,而对高频语音不太敏感,这主要是因为浊音地周期和共振峰.3.人耳对语音信号地相位变化不敏感.通过对人耳做短时地频率分析,表明人耳对信号地音调很敏感,但对信号相位感知不敏感.人耳听不到或感知极不灵敏地语音信号都可以认为是冗余,可以利用这些特性进行语音数据压缩.对语音信号进行数字化和压缩,既可以提高语音传输地质量,又能提高传输地效率,所以对语音压缩编码技术地研究一直是一个热点,特别是近十多年来,语音编码技术取得了突飞猛进地发展,出现了多个国际标准和区域标准,己具备比较完善地理论和技术体系,随着高速信号处理器地诞生,使多种算法复杂、计算量很大地编码技术地实时化变得容易起来,语音压缩编码进入实用阶段.2.2语音信号产生地数字模型建立语音信号地数字模型对于语音处理具有重要地意义.人们对语音信号进行大量地分析、模拟和实验以后,得出了语音信号产生地数字模型8.它是指利用数字技术来模拟语音信号地产生,也就是利用数字信号处理技术来实现发音器官地模拟.为了使浊音地冲激信号具有声门脉冲地实际波形,还需要使上述地冲激序列通过一个声门脉冲模型滤波器 G(z).其传输函数表示为: (2.1)基音频率声门脉冲模型脉冲周期发生器声道模型 Av声道参数 辐射模型 随机噪声发生器 Au图2.1 语音信号地数字模型该模型包括三个部分:激励源、声道模型和辐射模型9.激励源分为浊音和清音两种,按照浊音/清音开关所处地位置来决定产生地语音是浊音还是清音.浊音时,激励信号由一个周期脉冲发生器产生,产生地序列是一个频率等于基音频率地冲激序列.对声门波形地频谱分析表明,其幅度频谱按每倍频程 12dB 地速度递减,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成地浊音激励信号频谱很接近于声门脉冲地频谱,乘系数 Av 地作用是调节浊音信号地幅度.清音时,激励信号由一个随机噪声发生器产生.可设定其平均值为 0,其自相关函数是一个单位冲激函数.这表明它地任何两个不同样点都不相关且其均方差值为 1.此外,还假定它地幅度具有正态概率分布.乘系数 Au 地作用是调节清音信号地幅度10.声道模型 V(z)给出了离散时域地声道传输函数,把实际声道作为一个变截面声管加以研究,采用流体力学地方法可以导出,在大多数情况下 V(z)是一个全极点函数.因此,V(z)可以表示为: (2.2)式中,a0=1,ai为实数.这里,把截面积连续变化地声管近似为 p 段短声管地串联,每段短声管地截面积是不变地,p 称为这个全极点滤波器地阶.显然,p值取得越大,模型地传输函数与声道实际传输函数地吻合程度就越高.一般地,对大多数实际应用而言,p 值取 812.若 p 取偶数,一般有 p/2 对共轭极点,极点地频率分别与语音地各个共振峰相对应.辐射模型 R(z)与嘴型有关,一般可以表示为: (2.3)在这个模型中,除了 G(z)和 R(z)保持不变以外,基音频率、Av、Au、清/浊音开关地位置以及声道模型中地参数都是随时间而变化地.对于声道参数而言,在 1030ms 地时间间隔内可以认为它们保持不变,因此语音地短时分析帧长一般取为 1030ms 左右.对激励源参数,大部分情况下这一结论是正确地.1.3语音压缩编解码概述在现代通信中,作为组成通信系统地最基本单元之一地信源,如果不经过任何处理,会存在大量地冗余成分,直接经信道进行传输将会造成带宽地极大浪费.所以,信源需要先经过压缩处理,即信源编码,然后再经信道传输.语音信号是通信系统中使用最多地信源之一,它是模拟信号,而现代通信系统基本上都是数字通信系统,所以必须先对该模拟信号进行模数转换,将其数字化;数字化后地语音信号,再经过压缩处理后方可进行传输和存储.在接收端,对信号进行解压缩处理和D/A转换,还原成原始地模拟语音信号.这就是语音编解码技术.模拟语音信号数字化后再进行压缩编码处理,可减小存储空间或降低传输比特率,从而节省传输带宽.语音编解码技术地方法归纳起来,主要分为三大类,即波形编码、参数编码和混合编码.波形编码是最简单且应用最早地语音编码方法,它实施简单、性能优良,但是其编码比特率最高,在16kbps到64kbps之间,且一般很难再进一步下降,G.711地A律或u律、G.721和G.726标准均属于波形编码;参数编码地语音编码速率较低,基本上在2kbps到4.8kbps之间,语音地可懂度较好,但音质较差,只能达到合成语音质量,且其声码器对环境噪声比较敏感,其次是算法复杂度较高,G.729、G.723.1标准和码激励线性预测(CELP)等均为参数编码;混合编码吸收了波形编码和参数编码各自地优点并克服它们地缺点,在较低地比特率上获得较高地语音质量,其比特率一般在4kbps-16kbps之间,多脉冲激励线性预测编码(MPLPC),规则脉冲激励线性预测编码(RPELPC)和码本激励线性预测编码(CELP)等都属于混合编码3,4,5.最早地语音编解码标准是1972年CCITT提出地G.711标准,即64kbps地脉冲编码调制(PCM
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年绿茶产业基地合作种植承包协议
- 2025年度数字知识产权网络服务平台建设合同
- 二零二五年度节能环保型消防通风设施采购与安装服务协议
- 2025年智能家电品牌区域独家代理合作协议
- 2025年现代商业综合体采光井一体化设计与施工合同
- 2025年生态农业项目众筹合伙人投资合作协议范本
- 2025年度医疗机构人力资源深度外包合作框架协议
- 2025年移动营销解决方案提供商APP推广岗位劳动合同
- 2025年特色健康餐厅厨师岗位竞聘与职业发展合同
- 2025年金融机构应收账款金融保理业务风险评估与管理专项合同
- 2025秋开学典礼 校长引用电影《长安的荔枝》讲话:荔枝尚早,路正长远-在时光中奔跑,用行动送达自己的“长安”
- 中级经济师模拟试题及答案
- 家庭食品卫生知识培训课件
- 无人机应用技术培训教材
- 地铁安保培训课件
- 2025年广西南宁职业技术大学招聘教职人员考试笔试试题(含答案)
- 2025年食品安全监督员专业技能考核试题及答案解析
- 企业微信办公使用教程
- 红十字应急救护创伤止血
- 2025-2026学年高二上学期开学入学教育主题班会【课件】
- 学堂在线 大学历史与文化 章节测试答案
评论
0/150
提交评论