




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Ch1 绪论1.1 语音信号处理概述一、语音、语音信号处理的名词解释1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。二、语音处理技术的应用领域语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。三、语音信号采用数字处理的原因(数字语音的优点)语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点:1、数字技术能够完成许多很复杂的信号处理工作;2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理;3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务;4、数字语音适合在强干扰信道中传输,也易于加密传输。四、语音学的名词解释 语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。1.2 语音信号处理的发展概况一、语音信号处理的发展史1、1874年:电话的发明时现代语音通信的开端;2、1939年:通道声码器技术;3、40年代后期:语谱仪;4、50年代初:第一台口授打字机和英语单词语音识别器;5、60年代:Fant发表语音产生的声学理论;6、70年代初:Flanagan著作语音分析、合成和感知;7、90年代以来:语音识别的研究由实验室走向实用化。二、语音编码、语音合成、语音识别名词解释1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。为了实现人机语音通信,必须具备语音识别和语音理解两种功能Ch2 基础知识2.2 语音产生的过程一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课)1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。三、基音周期、基音频率的概念基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。基音频率:基音周期的倒数称为基音频率,简称为基频。基频取决于声带的尺寸和特性,也决定于它所受的张力。基频还决定了声音频率的高低,频率快则音调高,频率慢则音调低。基音的范围约为80-500Hz左右,老年男性偏低,小孩和青年女性偏高。四、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。因此,这种情况下在声门处产生出一个准周期脉冲序列的空气流,即“浊音”语音。如果声带完全舒展,则肺部发出的空气流不受影响地通过声门:一种是形成“摩擦音”和“清音”,一种是形成“爆破音”。五、对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。六、共振峰的概念1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)3、声道的共振峰特性决定所发声音的音色。4、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。七、几个小的填空题1、共振峰特性决定信号频谱的总轮廓(谱包络)。2、共振峰和声道的形状和大小有关。3、语音的频率特性主要是由共振峰决定的。4、声道的共振峰特性决定所发声音的频谱特性(音色)。5、人在说话时,元音的音色和区别特征主要取决于声道的共振峰特性。6、声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对语音的音质有很大影响。7、语音识别技术中要考虑3个共振峰,而在语音合成技术中要考虑5个共振峰。8、声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。2.3 语音信号的特性一、语音的物理属性 语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。二、音素、音节、单词、句子的基本概念以及它们之间的关系(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。(2)音节是最小的语言片段,一个音节由一个或几个音素组成。(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。(4)句子是单词的进一步组合。三、语音的时间波形和频谱特性1、元音的时间波形如图2-2所示特点:其声门波形为脉冲序列,脉冲之间的间隔为基音周期,用g(t)表示。2、声道的输出如图2-3所示特点:是g(t)与冲激响应h(t)的卷积,其中,每个高峰代表一个新的声门脉冲的起点,它们之间的间隔等于声门脉冲的周期。3、元音信号的频谱如图2-6所示特点:g(t)的频域为G(f),冲激h(t)的频域表示为H(f),输出的频谱为G(f)H(f),如图2-6所示。其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。四、几个小知识点1、任何语音都有元音和辅音两种音素。2、元音在音节中占主要部分。3、每个元音的特点是由声道的形状和尺寸决定的。4、所有元音都是浊音。5、发辅音时如果声带不振动,为清音;发辅音时声带振动,为清辅音。6、在已知语言中元音有少至2个多到12个,辅音从10多个至70多个。一个音节可以是1个元音和1-2个辅音的组合。五、汉语的特点1、汉语的特点为自然单位是音节、每一个字都是单音节字,即汉语的一个音节就是一个字的音,字是独立的发音单位;再由音节字构成词,最后由词构成句子。每一个音节字由声母和韵母拼音而成;在音节中,声母较简单,而韵母比较复杂。2、汉语语音的另一个特点是它具有声调。3、汉语的特点还有音素少、音节少的特点。六、汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。七、清音和浊音的频谱特性 清音和浊音的波形有很大的不同。清音的波形类似于白噪声,具有很弱的振幅;元音具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期,还可以大致看出其频谱特性。2.4 语音信号产生的数学模型一、语音信号的数字模型1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术的基础。2、语音信号数字模型的框图:P21 图2-18图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基因频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。二、语音信号数字模型的组成等1、语音信号数字模型由激励模型、声道模型和辐射模型组成。2、声道模型包括声管模型和共振峰模型。3、共振峰模型又可分为级联型、并联型和混合型。级联型、并联型、混合型的特点分别是:(1)级联型:比较简单,可用于描述一般的元音。级联的级数取决于声道的长度。(2)并联型:比级联型复杂,每个谐振器的幅度都要独立控制。(3)混合型:是级联型和并联型的结合,是比较完备的一种共振峰模型。能够根据不同性质的语音进行切换。三、一个完整的语音信号数字模型可以用激励模型、声道模型和辐射模型的级联来表示。四、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。(2)发清音时,此时声带松弛而不振动,气流通过声门直接进入声道。五、激励模型的频谱特点1、发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波类似于斜三角形的脉冲,激励是一个以基音周期为周期的斜三角脉冲串。2、发清音时,声道被阻碍形成湍流,可以模拟成随机白噪声。六、P和P/2 P/2代表级联的个数七、辐射模型是一阶类高通滤波器的形式。2.5 语音感知一、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz,老年人则衰退到10kHz。二、声音的三要素声音可以用幅度、频率和相位三个物理量来描述,但相对于人耳的感觉,声音的描述有其三要素,即:响度、音调和音色。1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。人耳对30004000Hz的声音感觉最灵敏。2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。音调与声音频率是近似的对数关系,单位是美(mel)。3、音色:也叫音质,反映了声音属性。人根据音色在主观感觉上区别具有相同响度和音调的两个声音。三、听觉掩蔽的名词解释及其应用1、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。2、应用:听觉掩蔽现象在语音处理中得到了广泛的应用。在语音编码中,利用听觉掩蔽效应改善输出语音质量已取得很大效益。Ch3 时域分析3.1 概述一、为什么时域分析要采用短时分析技术(结合语音的特点)1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。2、语音信号本身就是时域信号,因而时域分析是最早使用、也应用最广的一种方法,它具有:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可以得到语音的一些重要参数这三个特点。3.2 数字化和预处理一、取样和量化1、为了将原始的模拟信号转换为数字信号,必须经过取样和量化两个步骤,从而得到在时间和幅度上均离散的数字语音信号。2、取样的名词解释:取样是将时间上连续的语音信号离散化为一个样本序列。根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。3、量化的名词解释:量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。4、长途通信、移动通信、卫星通信中的声音以电话宽带语音为主,取样率多取8kHz,在实际的语音系统中,取样率常取10 kHz。某些现代语音处理系统语音频率高端扩展,相应的取样率提高到15-20 kHz。二、量化噪声的概念及特点1、量化噪声:量化后信号值与原信号之间的差值称为量化误差,即量化噪声。2、特点:(1)它是一个平稳的白噪声过程;(2)量化噪声和输入信号不相关;(3)量化噪声在量化间隔内均匀分布,即具有等概率密度分布。3、量化信噪比的计算公式:SNR(dB)=6.02B-7.2三、语音信号系统框图(为什么要进行预处理) 1、系统框图:P26 图3-42、反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混叠失真和噪声干扰。3、D/A后面的低通滤波器是平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。4、在预处理中进行预加重,目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。3.3 短时能量分析一、语音信号的能量分析:语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。二、直角窗和海明窗1、不同的窗口选择将决定短时能量特性,即窗口的形状和长度。2、直角窗和海明窗的比较(1)从窗口形状上:直角窗时的响应h(t)具有线性的相位-频率特性,其频率响应中第一个零值点对应的频率为fs/N,这里fs为取样频率,T=1/fs为取样周期。海明窗的第一个零值频率位置比直角窗要大1倍左右,即带宽约增加1倍;同时带外衰减也比直角窗大得多。选用不同的窗口,将使能量的平均结果不同。直角窗的谱平滑较好,但波形细节丢失,海明窗刚好与之相反。(2)从窗口形状上(窗口选择原则):选择太大,则短时能量随时间变化就很小,不能充分反映语音信号的幅度变化;而选择得小,即选择等于或小于一个基音周期时,将按照信号波形的细微变化而起伏不定,以致短时能量不够匀化和平滑。因此,折衷考虑的值,在通常情况下,当取样频率为10KHz时,=100-200被认为是合适的。三、短时能量的概念及其结论短时平均能量反映了语音能量随着时间缓慢变化的规律。它的主要用途有:1、可以区分清音段和浊音段;2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。3、作为一种超音段信息,用于语音识别中。四、对语音信号采用短时分析时,信号流的处理用分段或分帧来实现。每秒的帧数一般约为33-100。3.4 短时过零分析一、过零分析和平均过零数的名词解释1、过零分析:过零分析是语音时域分析中最简单的一种,对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。2、平均过零数:单位时间内的过零数。二、短时平均过零数的实现 1、实现框图:P32 图3-12 2、文字描述:首先对语音信号序列x(n)进行成对的查对采样以确定是否发生过零,若发生符号变化,则表示有一次过零;而后进行一阶差分计算,再求绝对值,最后进行低通滤波。三、短时过零分析的用途(包含清音、浊音的各自特点)1、短时平均过零数可应用于语音信号分析中。由于它粗略地描述了信号的频谱特性,因而可以用来区分清音和浊音。发浊音时,语音能量约集中于3kHz以下。而发清音时,多数能量集中在较高的频谱上。浊音具有较低的平均过零数,而清音时具有较高的平均过零数。可见P33的图3-132、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语音和有语音的起点和终点位置。四、图3-14说明的问题是什么 由图可见,这三句话的平均过零数变换都很大,高平均过零数对应于清音,低平均过零数对应于浊音;但是清音和浊音的变化非常明显。因而,短时平均过零数可用于清音和浊音的大分类上。3.5 短时相关分析一、短时自相关分析得到语音信号有何特点和用途1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。2、短时自相关函数是语音信号时域分析的重要参量。它有两个用途,一是判断清/浊音,并估计浊音的基音周期;二是它的傅里叶变换是短时谱。二、短时平均幅度差函数能够代替自相关函数进行语音分析,是基于:语音的浊音具有准周期性。三、自相关函数的性质1、如果序列是周期的,则自相关函数也是同周期的周期函数;2、是偶函数;3、k=0时,自相关函数具有极大值;4、R(0)等于确定性信号序列的能量或随机性序列的平均功率。Ch4 短时傅里叶分析4.1 概述一、傅里叶分析在信号分析与处理中的地位与作用 在语音信号处理中,傅里叶表示在传统上一直起主要作用。其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。二、短时傅里叶分析的重要性。短时傅里叶分析是分析缓慢时变频谱的一种简便方法,是用稳态分析方法处理非稳态信号的一种方法,在语音处理中是一个非常重要的工具。三、常用的频域分析方法有带通滤波器组法、傅里叶分析、线性预测分析等。4.2 短时傅里叶变换一、短时傅里叶变换的定义(集中备课)语音信号可以认为是局部平稳的,所以可以对某一帧语音进行傅里叶变换,即短时傅里叶变换,定义为:二、短时傅里叶变换的两种解释(集中备课) 一是标准傅里叶变换的解释,二是滤波器的解释。三、标准傅里叶变换解释1、与序列的傅里叶变换相同,短时傅里叶变换随着作周期变化,周期为2。2、窗口序列具有的特性:(1)频率分辨率高,即主瓣狭窄、尖锐;(2)通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。3、海明窗与直角窗(矩形窗)对浊音语音的频谱分析比较它们在基音谐波、共振峰结构以及频谱具有相似性,但其频谱间也具有差别。(1)是基音谐波尖锐度增加,这是因为矩形窗频率分辨率较高;(2)矩形窗较高的旁瓣产生了一个类似于噪声的频谱。因此,在语音频谱分析中极少采用矩形窗。4、窗口宽度与短时傅里叶变换特性之间的关系,即用窄窗可得到好的时间分辨率,用宽窗可得到好的频率分辨率。四、滤波器的解释 1、短时傅里叶变换滤波器的解释包括复数运算和只有实数运算。2、第一种形式的滤波器为低通滤波器;第二种形式的滤波器为带通滤波器。具体掌握图4-5及下一段的解释。4.3 短时傅里叶变换的取样率一、时间取样率、频域取样率和总取样率的相关概念1、时间取样率2B=2fs/N 直角窗2B=4fs/N 海明窗2、频域取样率为使恢复的时域信号不产生混叠失真,需满足条件LN(取样频率L取样点N)。3、总取样率SR(单位是Hz)SR=时域取样率*频域取样率=2B*L=2BLSR=2fsL/N 直角窗SR=4fsL/N 海明窗4.4 语音信号的短时综合一、语音的短时综合两种经典的方法是:滤波器组求和法和快速傅里叶变换求和法。两者的比较:滤波器组求和法与快速傅里叶变换求和法之间存在着对偶性,即一个与频率取样有关,另一个却与时间取样有关。当传输中存在噪声时,滤波器组求和法将比较优越。Ch5 同态滤波及倒谱分析5.1 概述一、根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看做是声门激励信号和声道冲激响应的卷积。二、为了分离加性组合信号,常采用线性滤波方法;而为了分离非加性组合信号,常采用同态滤波技术。5.2 同态信号处理的基本原理一、同态信号处理的概念同态信号处理就是将非线性问题转化为线性问题来处理,按处理的信号可分为乘积同态处理和卷积同态处理。二、同态信号处理的实现框图(自己补充)任何同态系统都可以表示为三个同态系统的级联,框图如图5-2所示。即同态系统可分解为两个特征系统和一个线性系统。三、特征系统与逆特征系统的组成在同态系统的组成中第一个系统以若干信号的卷积作为输入,并将它变换成对应输出的相加性组合。第二个系统是一个普通的线性系统,服从叠加定理。第三个系统是第一个系统的逆变换,即它将信号的相加性组合反变换为卷积组合。特征系统和逆特征系统如图5-3所示。(自己补充)5.3 复倒谱和倒谱一、复倒谱和倒谱的概念复倒谱:是一个时域序列,称是的“复倒频谱”,简称为“复倒谱”。倒谱:是序列对数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换并没有使信号返回到时域,而是进入一个新域,这个新域称作倒谱域。用表示“倒频谱”,简称为“倒谱”。若则倒谱5.4 两个卷积分量复倒谱的性质一、一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,并且长度Np不变,只是序列变为无限长度序列。二、声门激励信号的特点发清音时,声门激励是能量较小、频谱均匀分布的白噪声;发浊音时,声门激励是以基音周期为周期的冲激序列。三、声道冲激响应序列复倒谱的性质1、 是双边序列,存在于-n。2、 是衰减序列。3、 随|n|增大而衰减的速度至少比1/|n|快。4、如果x(n)是最小相位序列,即极零点均在z平面单位圆内,此时 只在n0时有值,即 是因果序列。最小相位信号序列的复倒谱是因果序列。5、如果x(n)是最大相位序列,即极零点均在z平面单位圆外,此时 只在n0时有值,为左边序列。最大相位信号序列的复倒谱是左边序列。5.5 避免相位卷绕的算法一、相位卷绕的定义 在复倒谱分析中,Z变换后得到的是复数,所以取对数时进行的是复对数运算。这时存在相位的多值性问题,称为“相位卷绕”。二、避免相位卷绕求复倒谱的方法包括:微分法、最小相位信号法、递推法。三、几种方法的比较1、微分法:这种方法避免了求复对数的问题,但其缺点是会产生严重的频谱混叠。2、最小相位信号法:是一种较好的避免产生相位卷绕的方法,但仅适用于信号x(n)是最小相位信号。3、递推法:也仅适用于x(n)是最小相位信号。Ch6 线性预测分析6.1 概述一、线性预测分析的基本概念 线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测系数。二、线性预测分析参数包括LPC参数、PARCOR参数及LSP参数。6.2 线性预测分析的基本原理一、线性预测模型采用全极点模型的原因全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。二、全极点模型非鼻音浊音语音极零点模型鼻音和摩擦音三、线性预测(LPC)谱的特点1、对于浊音信号谱在谐波成分处的匹配效果要远比谐波之间好得多。2、LPC谱对其他谱的优点是可以很好地表示共振峰结构而不出现额外的峰起和起伏。6.4 线性预测分析的解法(1)一、线性预测的经典解法有两种,一种是自相关法,一种是协方差法。二、自相关法和协方差法的比较1、就信号的特性而言,自相关法适用于平稳信号,而协方差法适用于非平稳信号。2、自相关法对摩擦音能给出比较好的结果,而协方差法对于周期性语音可以给出比较好的结果。3、自相关函数需加窗,求得的预测系数精度不高,而协方差法无需加窗,计算精度较高,但稳定性得不到保证。4、自相关法用定点运算有其优点,更适合于硬件实现,而协方差法的困难在于对中间量的比例运算。通过选择窗函数,以及加大窗口的宽度,子相关法在精度上的劣势不再明显,而高速性能仍然突出。因此在实际应用中大都采用自相关法。6.5 线性预测分析的解法(2)一、反射系数的概念 在声管模型中,声道被模拟成一系列长度不同,截面积为Ai的声管的级联,ki规定了声波在各声管段边界处的反射量;而这里的每一个格型网络就相当于一个小声管段,ki反映了第i节格型网络处的反射,故称k1-kp为p级格型滤波器的反射系数。二、格型法的优点与自相关法和协方差法相比较,格型法具有的优点是:1、反射系数可被直接用于计算预测系数,格型滤波器的级数等于预测系数的个数。2、滤波器的不稳定会导致输出语音信号无规律地振荡。格型法的稳定性可由其反射系数的值来判定。三、根据滤波器的结构形式,定义了三个均方误差,即正向均方误差、反向均方误差和交叉均方误差。 格型法还可分为:正向格型法、反向格型法、平均几何格型法、伯格法和协方差格型法。Ch7 矢量量化7.1 概述一、量化可以分为两类:标量量化和矢量量化。二、矢量量化VQ的基本概念矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化,即作为一个整体进行量化。三、矢量量化的理论依据与优越性(大纲)根据仙农信息论可以得出,矢量量化总是优于标量量化,且矢量维数越大性能越优越。因为矢量量化有效利用了矢量中各分量间的各种相互关联的性质。采用矢量量化技术对信号波形数据进行压缩,可以获得非常高的压缩比。7.2 矢量量化的基本原理一、矢量量化的过程将语音信号波形的K个样点的每一帧,或有K个参数的每一帧参数,构成K维空间中的一个矢量,然后对这个矢量进行量化。二、码书(码本)、码字(码矢)通常把所有M个量化矢量构成的集合称为码书(码本)。把码书中的每个量化矢量称为码字(码矢)。三、设计矢量量化器的关键是编码器的设计方法,而译码器的工作过程仅是一个简单的查表过程。四、矢量量化器的性能指标与码书大小M及量化产生的平均信噪比有关。五、在训练数据已知的情况下,矢量量化的准则是在给定码本大小K时使量化所造成的失真最小。7.3 失真测度一、失真测度必须具备的几个特性必须在主观评价上有意义;必须是易于处理的;平均失真存在且可计算;易于硬件实现。二、失真测度主要有均方误差失真测度(即欧式距离)、加权的均方误差失真测度、板仓-斋藤似然比距离、似然比失真测度。三、几种常用的欧式距离:r方平均误差、r平均误差、绝对值平均误差和最大平均误差 7.4 最佳矢量量化器和码本的设计一、矢量量化器最佳设计的两个条件是:最佳划分和最佳码书。二、几种初始码书的生成方法包括:随机选取法、分裂法、乘积码书法。三、维数:K1,大小为M1的码书 维数:K-K1,大小为M2的码书得到一个:维数:K,大小为M1*M2的码书7.5 降低复杂度的矢量量化系统一、矢量量化系统的组成矢量量化器主要由编码器和译码器组成。编码器由码书搜索算法和码书构成。译码器由查表方法和码书构成。二、矢量量化器的研究主要是围绕着降低速率、减少失真和降低复杂度展开的。速率、失真和复杂度是矢量量化器的三个关键问题。 降低复杂度一般有两条途径:一是寻找好的快速算法,二是使码书结构化。三、降低复杂度的设计方法包括两类:无记忆的矢量量化器和有记忆的矢量量化器。四、无记忆的矢量量化器和有记忆的矢量量化器的概念及区别无记忆的矢量量化器是指量化每一个矢量时都不依赖于此矢量前面的其他矢量,即每一个矢量都是独立量化的。有记忆的矢量量化器与无记忆的矢量量化器不同,它是量化每一个输入矢量时,不仅与此矢量本身有关,而且也与其前面的矢量有关。五、无记忆的矢量量化系统包括树形搜索的矢量量化系统和多级矢量量化系统。有记忆的矢量量化分为反馈矢量量化和自适应矢量量化两类。Ch9 基音检测分析9.1 基音检测一、基音、基音周期基音是指发浊音时声带振动所引起的周期性。基音周期是指声带振动频率的倒数。二、基音检测的重要性和难点(大纲) 基音的提取和估计是语音信号处理中十分重要的一个问题,准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要意义。在低速率语音编码中,准确的基音检测是非常关键的,它直接影响到整个系统的性能。三、基因检测的三个研究方面1、稳定并提取准周期性信号的周期性方法;2、因周期混乱,采取基音提取误差补偿的方法;3、消除声道影响的方法。四、基音检测的三种方法:波形估计法、相关处理法和变换法。五、清/浊音判断的辅助参量1、语音信号能量2、过零数3、自相关函数4、线性预测系数六、常用的几种基音检测方法包括:自相关法、并行处理法、倒谱法、简化逆滤波法。七、9.2 共振峰估值一、共振峰估计中存在的问题1、虚假峰值2、共振峰合并3、高基音语音二、几种常用的提取共振峰特性的方法1、带通滤波器组法2、离散傅立叶变换3、倒谱法4、LPC法三、浊音和清音时DFT谱特性比较1、浊音时DFT得到的频谱受基频谐波的影响,最大值只能出现在谐波频率上,因此共振峰测定误差较大。2、清音时此时信号具有随机噪声的特点,其频谱不具有离散谐波特性,但其包络基本上反映了声道的特性。对其频谱进行线性平滑而得到谱包络,并用一个峰值搜索算法来确定峰值。四、浊音和清音时倒谱法检测效果对比 见P131五、倒谱法难以解决的两个问题1、并不是所有的谱峰都为共振峰2、带宽的计算六、LPC法进行共振峰估计的两个方案1、求根法2、LPC谱估计七、LPC法的优点和缺点优点:1、通过对预测多项式的分解能够精确地决定共振峰的频率和带宽。2、能很好的表示共振峰结构而不出现额外的峰起和起伏。3、额外的极点一般容易排除。缺点:用一个全极点模型逼近语音谱,对于含有零点的某些音来说,根反映了极零点的复合效应,因而无法区分这些根是相应于零点还是极点,或完全与声道的谐振极点有关。Ch10 语音编码(1)波形编码10.1 概述一、编码分为信源编码和信道编码两类。二、语音编码的目的语音编码的目的是在保持可以接受的失真的情况下尽可能少的比特数表示语音。三、传输码率(数码率)的概念 是指传输每秒语音信号所需的比特数,也称为数码率。四、语音压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三个方面折中。五、语音信号数字传输的优点1、可以在窄带信道上传输;2、能克服信道失真;3、在大多数信道中,当误码率给定时,低数码率比高数码率所需要的发射功率更小;4、给定容量的复接电路或复按网络允许通过更多的信道;5、为了存储一定的语音所需的存储器容量将更少;6、当和差错纠正与扩频技术结合使用时,将具有更大的抗噪声与抗干扰能力。六、语音编码的两类应用1、语音信号的数字传输2、语音信号的数字存储七、语音编码的分类1、波形编码2、生码器技术10.2 语音信号的压缩编码原理一、语音压缩的必要性(大纲)语音编码的目的是在保持可以接受的失真情况下,采用尽可能少的比特数表示语音。如果对语音直接数字化,则传输或存储语音的数据量太大。为了降低传输或存储的费用,必须对其压缩。二、语音压缩的两个基本依据对语音进行压缩编码的基本依据有两个。一个是从产生语音的物理机理和语言结构的性质来看,语音信号中存在较大的冗余度。第二个依据是利用人类听觉的某些特性。三、冗余度的概念分客观冗余和主观冗余。客观冗余包括:1、语音信号样本间相关性很强;2、浊音语音段具有准周期性;3、声道的形状及其变化比较缓慢;4、传输码值的概率分布式非均匀的。主观冗余包括:1、人的听觉生理-心理特性对于语音感知的影响存在听觉掩蔽现象;2、人的听觉对低频端比较敏感,对高频端不太敏感;3、人耳对语音信号的相位变化不敏感;4、人耳听觉特性对语音幅度分辨率是有限的。四、语音压缩编码需考虑的因素1、输入语音信号的特点;2、传输比特率的限制3、对输出重构语音的音质要求五、语音通信质量的分类语音通信中语音质量分为四等(质量越来越差):1、广播质量:2、长途电话质量:3、通信质量:4、合成质量:六、两种压缩编码方式:波形编码和声码器的比较1、波形编码的目的是在给定传输比特率下,使重构误差最小,采用信噪比作为评定标准。声码器音质的好坏由主观评价,缺乏客观依据。2、波形编码的语音质量好,但降低比特率困难。声码器语音的自然度、可懂度差,受噪声和误码的影响大,算法复杂。10.3 脉冲编码调制及其自适应一、脉冲编码调制(PCM)包括均匀PCM和非均匀PCM。二、PCM的定义 将语音变换成与其幅度成正比的二进制序列,并用脉冲对采样幅度进行编码,称为脉冲编码调制。三、均匀PCM中,信噪比与量化字长的关系 SNR(dB)=6.02B-7.2四、非均匀PCM1、基本思想:对大幅度的样本使用大的,对小幅度的样本使用小的;在接收端按此还原。2、两种非均匀量化的方法:A律和律。我国采用的是A律;美国采用的是律。五、自适应PCM(APCM)1、原理:它是使量化器的特性自适应于输入信号的幅值变化,或使量化器的增益G随着幅值而变化从而使量化前信号的能量为恒定值。2、按自适应参数的来源划分,自适应量化分为前馈和反馈两种。 3、原理框图(一个是匹配自适应,一个是G匹配自适应,如图10-6所示)10.4 预测编码调制及其自适应一、预测编码1、定义:在接收端,使用与发送端相同的预测器,就可恢复原信号。这种编码方式称为预测编码。2、预测编码分为:差分脉冲编码调制和增量调制。二、短时预测和长时预测短时预测:利用比较相邻的相本值的预测,是频谱包络的预测。长时预测:基于基音周期的预测,是频谱细微结构的预测。三、噪声整形的概念 能使噪声谱随语音频谱的包络变化,则语音共振峰的频率成分就必然会掩盖量化噪声,这种技术称为噪声整形。10.5 自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)一、DPCM和ADPCMDPCM(差分脉冲编码调制):对相邻样本间的差信号进行编码,可谋求信息量的压缩,这种编码方式称为DPCM。ADPCM(自适应差分脉冲编码调制):采用自适应量化及高阶自适应预测的DPCM。二、ADPCM的国际标准 采用ADPCM作为长途传输中的一种新的国际通用语音编码方案。这种ADPCM可达到标准64kbit/sPCM的语音传输质量,并具有很好的抗误码性能。三、ADPCM的系统框图(如图10-14)四、增量调制(DM)定义 DM是一种特殊简化的DPCM,是一种极限情况,只用1bit的量化器。最大的特点是简单,易于实现。五、斜率过载和颗粒噪声1、斜率过载:在DM中,与量化阶梯相比,当语音波形幅度发生急剧变化时,译码波形不能充分跟踪这种急剧变化而必然产生失真,称为斜率过载。2、噪声颗粒:在没有输入语音的无声状态时,或者是信号幅度为固定值时,量化输出都将呈现0、1交替的序列,而译码后的波形只是的重复增减,这种噪声称为颗粒噪声。自适应增量调制是克服斜率过载和颗粒噪声最理想的方法。10.6 子带编码(SBC)一、频域编码的两个基本原则1、通过合适的滤波或变换,在频域上得到数目较少、相关性较小的分量,从而提高编码效率;2、接受者所感知的失真信息是用来提高语音编码的性能。二、子带编码的概念与实现 SBC也称为频带分割编码,是在频域上寻求语音压缩途径的编码方法。它不对信号进行直接变换,而是首先使用带通滤波器组将语音信号分割成若干个子带,用调制的方法对滤波后的信号进行频谱平移变成低通信号,再利用奈奎斯特速率对其进行取样,最后进行编码处理。三、SBC的优点 SBC的优点是对应于人的听觉特性,可以比较容易地考虑噪声的抑制:即各子带可以选用不同的量化参数以分别控制其信噪比,满足主观听觉的要求。量化噪声只能出现在各被分割的频带内,对其他频带没有任何影响,可以较轻易地控制噪声谱。四、正交镜像滤波法的特点:上子带滤波器的频率响应是下子带滤波器频率响应的镜像。10.7 自适应变换编码(ATC)一、自适应变换编码的基本概念(大纲)变换编码是一种优秀的高质量的语音压缩编码方法,它将时域的语音信号变换到频域,变换后的数值表示信号中不同频率分量的强度,然后将这些变换系数按照比特分配的结果进行量化编码。二、DCT和KLT的定义及比较DCT:离散余弦变换KLT:简称为卡洛变换DCT具有的优点:1、DCT与KLT相比,频域变换明确,与人的听觉频率分析机理相对应,容易控制噪声的频率范围。2、DCT提供的性能一般在KLT的1-2dB之内,KLT计算量大。3、DCT运算量少、数据量少,无需传输特征矢量。4、DCT比DFT变换效率高。5、DCT与DFT相比,在端点取出波形的影响较小,在频域区的畸变小。Ch11 语音编码(2)声码器技术及混合编码11.1 概述一、语音参数编码的基本概念1、语音参数编码通过对语音信号的参数进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语意。这类编码的优点是编码率低,可低至2.4kbit/s以下。2、参数编码的基础是语音产生的数学模型。实现参数编码的器件称为声码器,主要用于窄带信道的语音通信。3、为了充分发挥声码器的性能而必须的三个重要因素:(1)去掉语音波形中的冗余部分,提取对于听觉所需的重要参数。(2)对参数进行有效编码。(3)根据编码的参数,尽可能忠实地将语音还原出来。11.2 声码器的基本结构一、声码器的基本结构及实现过程1、声码器的基本结构包括分析和合成两部分。2、实现过程:语音信号经过分析得到谱包络和基音以及清浊音判别,编码后送入信道传输;在接收端,压缩后的语音由合成器加以恢复。二、声码器的局限1、由于声道滤波器阶数有限,因而合成的语音的频谱精度收到一定限制。2、浊音激励是规则的准周期脉冲,含有语音中将会出现的人为规则的特性。3、采用了清浊音二元判决,或产生纯粹的清音,或产生纯粹的浊音,与实际的语音有区别。4、语音合成模型中参数更新的速率受到限制。5、语音合成器中的激励源只有两个,每次只能产生一个音。三、目前常用的声码器包括:通道声码器、共振峰声码器和LPC声码器。11.5 线性预测声码器一、LPC参数的变换和量化包括:反射系数、对数面积比和预测多项式的根。二、为什么要对反射系数进行量化对反射系数的研究表明,各反射系数幅度值的分布是不相同的:k1和k2的分布是非对称,对于多数浊音信号,k1接近于-1,k2接近于+1;而较高阶次的反射系数k3、k4等趋向于均值为零的高斯分布。此外,反射系数的谱灵敏度也是非均匀的,其值接近于1时,谱的灵敏度越高,此时反射系数很小的变化将导致信号频谱的较大偏移。上面的分析表明,对反射系数的值在(-1,+1)区间作线性量化是低效的,一般都是进行非线性量化。11.6 混合编码一、混合编码的概念(大纲) 混合编码是波形编码和声码器两种优点的结合:既利用了语音生成模型,通过对模型中的参数进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。二、混合编码包括:多脉冲线性预测声码器(MPLPC)和码激励线性预测编码(CELP)。前者是使用一个数目有限、幅度和位置可调整的脉冲序列作为激励源;后者是使用一个波形码矢量作激励源,它通常从高斯白噪声序列构成的码本中选取。三、MPLPC与CELP的特点1、MPLPCMPLPC具有LPC和ADPCM的预测编码结构,采用感知加权进行设定,通过改进激励模型提高LPC的性能,采用几个脉冲作为一个语音帧的激励信号;脉冲数量事先选好,但需考虑复杂性和语音音质。2、CELPCELP的目的是将MPLPC中使用的混合编码方法扩展到低比特范围,它是中低速率编码中最成功的一种方案,它以高质量的合成语音及优良的抗噪声和多次转接性能,在9.6kbit/s以下的速率中得到了广泛的应用。两者的区别:CELP是从矢量激励码本中选择激励信号,然后激励合成系统产生最优合成声
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论