语音信号处理.docx

上传人：c*** IP属地：河南上传时间：2020-01-17 格式：DOCX 页数：4 大小：22.75KB 积分：20 举报 版权申诉

全文预览已结束

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第一二章：语音信号处理包括：语音合成，识别，编码。人的言语的5个阶段：想说，说出，传送，接收，理解阶段。发音器官的组成：肺和气管组成声源；喉和声带称为声门，咽腔口腔鼻腔组成声道。声带之间的间隙称为声门，功能主要是产生激励。声道主要功能是传输调制声波。浊音：在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波，这便是浊音语音。这个准周期脉冲的周期即为基音周期。清音：声带完全舒展是，若声带间有狭窄的通道，则形成摩擦音或清音；若某个部位闭合则形成爆破音。共振峰频率：声音进入声道后，其频谱必定会受到声道的共振特性的影响，声道具有一组共振频率，称为共振峰频率或共振峰。人耳三部分：外耳中耳内耳语音的产生过程：空气由肺部排入喉部，经过声带进入声道，最后由嘴辐射出声波。语音数字信号模型：激励，声道，辐射模型二元激励数字模型的解决方法：1.一种解决问题的方案是在V(Z)中引入若干零点2.另一种方法是适当提高阶数P，并非任何语音都能够明显地按清音和浊音来划分，有的音甚至也不是清音和浊音的简单叠加。掩蔽效应：一个声音的听觉感受性受同时存在的另外一个声音的影响，这个现象称为人耳的“掩蔽效应”。典型的两种声道模型：无损声管模型和共振峰模型。共振峰模型当声波通过声道时，受到声腔共振的影响，在某些频率附近形成谐振。反映在信号频谱图上，在谐振频率处其谱线包络产生峰值，一般把它叫作共振峰。无损声管模型是假定声道由多个等长的不同截面积的管子串联而成的系统，并假定管子中的流体及管壁没有热传导和粘滞的损耗。在短时间内，声道可表为形状稳定的管道，并可以认为声波是沿管轴传播的平面波。预加重技术：由辐射引起的能量损耗正比于辐射阻抗的实部R(z)，其频响曲线表现出一阶高通滤波器的特性。在实际信号分析时，常用所谓预加重技术，即：在取样之后加入一个一阶高通滤波器。这样，模型只剩下声道部分，对参数分析就方便了。在语音合成时再进行解加重处理。常用的预加重因子为,这里R(n)是信号S(n)的自相关函数，对浊音R(1)R(0)1，对清音该值可取得很小。第三章预滤波目的：去掉输入信号中频率分量超出fs/2的所有分量（fs为采样频率），以防止混频干扰。两种窗，一种是矩形窗：另一种是哈明（Hamming）窗：两种窗的区别：矩形窗的主瓣宽度小于汉明窗，具有较高的频谱分辨率，但矩形窗的旁瓣峰值较大，因此其频谱泄露较严重。相比较，虽然汉明窗的主瓣宽度较宽，约大于矩形窗的一倍，但是它的旁瓣衰减较大，具有更平滑的低通特性，能够在较高的程度上反映短时信号的频率特性。短时平均能量：特点：En反映语音信号的幅度或能量随时间缓慢变化的规律。窗的长短对于能否由短时能量反映语音信号的幅度变化，起着决定性影响。如果窗选得很长，即选择等于几个基音周期值，这等效于很窄的低通滤波器，此时En随时间的变化很小，不能反映语音信号的幅度变化。En值大的对应于浊音段，而En值小的对应于清音段。过零率：在离散时间语音信号情况下，如果相邻的采样具有不同的代数符号就称为发生了过零。单位时间内过零的次数就称为过零率。过零率应用：如果过零率高，语音信号就是清音，如果过零率低，语音信号就是浊音。自相关应用：对于浊音语音信号，由于其自身具有周期性，故Rn( k )也具有明显的峰值且呈周期分布；对于清音语音信号，则没有很强的自相关周期峰。第四章窗函数的作用：1.选出x(m)序列中被分析部分，2.它的形状对时变傅里叶变换的特性也有重要作用。时域取样率（为固定值）当为固定值时，Xn（ejw）是一个冲激响应为w(n)的滤波器的输出，若将w(n)的傅里叶变换记为W（ejw），对于大多数窗函数来说，W(ejw)具有低通滤波器的特性，若它的带宽为BHz，Xn(ejw)则具有与窗相同的带宽。根据采样定理，Xn(ejw)的时域采样率至少为2B才不至于发生混叠现象。低通滤波器的带宽是由它的第一个零点位置决定的。因为W（ejw）是w(n),0nN-1的傅里叶变换，因而B的取值决定于窗口序列的长度N和形状。所以，在时域内的最小取样率SRt (e ) =2B。频率取样率(n为固定值)当n为固定值时, Xn（ejw）是以2 为周期的的连续函数，需在2 长度间隔内取样，Xn（ejw）用下述一组频率值来取样：Wk=2 k /L,k=0,1,L-1设w(n)为有限时宽N，Xn（ejw）的短时付里叶反变换即x(m)w(n-m)也应当是宽度为N有限时宽的。现在在频域内L个角频率上对Xn（ejw）进行取样，根据这些取样所恢复出的时间信号应该是x(m)w(n-m)进行周期延拓的结果，延拓周期等于L。为使恢复的时域信号不产生混叠，要求LN，故频域最小取样数即为窗宽SRf=N。时域取样率：若使用哈明窗，w(ejw) 的近似带宽为B=2Fs/N(Hz)，Xn(ejw)的采样率为 2B=4Fs/N采样/秒。若使用矩形窗, W(ejw) 的近似带宽为 B=Fs/N(Hz)，Xn(ejw)的采样率为2B=2Fs/N采样/秒总取样率总抽样率（SR）等于SR =SRt SRf= 2BN（抽样/ 秒）在大多数实际窗中，B 可以表示为Fs/N的倍数，其中Fs是x （n）的抽样频率，即B=CFs/N(Hz)其中，C是比例常数，上式代入式（4.25）中，得SR=2CFs(采样/秒)SR/FS即为与一般取样频率相比而得到的“过速率采样比” 本节讨论语音合成方法，是基于利用滤波器组表示语音的短时谱的方法。即由短时谱Xn（ejw）重构x(n)采用两种方法：1 滤波器组相加法2 叠接相加法第七章语音编码器：1.波形编码2.参数编码3.混合编码。波形编码：降低量化每个语音样点的比特数，同时保持相对好的语音质量，在波形编码中要求重建语音信号的各个样本尽可能地接近原始语音信号s(n)的样本值，如果令e(n)=s(n)-s(n)表示量化误差或重构误差，那么波形编码的目的是在给定的传输比特率下，使误差序列的能量最小。因此在波形编码中，信噪比总是一个有用的性能评定标准。波形编码具有适应能力强，算法简单，易于实现，语音质量好等优点，缺点是编码速率高。方法有，pcm，adm，adpcm参数编码：是以语音信号产生的数学模型为基础，对数字语音信号进行分析，提出一组特征参数,在解码后可以由这些参数重新合成语音信号。合成语音的音质好坏需要藉助于主观评定.参数编码的优点是编码速率低，且这类编码器对讲话环境噪声较敏感，需要安静环境才能给出较高的可懂度。混合编码:在保留参数编码的技术精华的基础上，引用波形编码准则去优化激励源信号，克服了原有波形和参数编码的弱点，而吸取了它们各自的长处，在4kbit/s16kbit/s的速率上能够合成高质量语音，在本质上也具有波形编码的优点。多脉冲激励线性预测编码(MPELP)、码本激励线性预测编码(CELP)等都属于这类混合编码器。这类编码器以复杂的算法和很大的运算量为代价，在中低速率语音编码上获得了高质语音。/衡量语音编码性能的主要因素:编码质量(主观MOS分，客观SNR)、编码速率，算法复杂度（运算能力，存储量容量），算法延迟。编码速率，I和R的关系式为：I=R*fs，其中，fs为语音信号的采样频率，R平均每个语音样点用什么比特编码。/语音压缩编码的依据,语音信号的冗余度主要源于两个方面,一即语音信号幅度分布的非均匀性以及样点之间的相关性。语音信号的长时和短时幅度统计特性表明，语音信号小幅度出现的概率大，大幅度出现的概率小,二是利用人耳的听觉特性。人类听觉有一个特点，就是“听觉掩蔽效应”，一个强的音能抑制一个同时存在的弱音的听觉，另外，听觉对低频端比较敏感，而对高频端不太敏感，对信号的相位特性不敏感。对数PCM：非均匀量化器，-律或A-律量化器；自适应量化：自适应量化是指量化器的特性自适应于输入信号的幅度的变化，量化间隔可变，与输入信号的幅度方差保持相匹配，增益可变，使进入量化器的输入信号方差保持为固定的常数。采用自适应量化器的PCM就称为“自适应脉冲编码调制APCM) (1)前馈自适应,所谓前馈自适应是指信号的能量或方差是由输入信号本身估算出来的.(2)反馈自适应反馈系统，其特点是输入信号的方差是由量化器输出估算出来的，优点G(n）无需保存或传送，因为编码端可以如同解码端那样直接从码序列中估算出来。由于不涉及数码率增加的问题，反馈自适应中的或G(n)总是逐点自适应修正，以求得较好的自适应效果。缺点：对码序列中由于传输产生的误差比较敏感，因为误码还将影响到或G(n)的自适应，并且这一影响会不断地传播下去。传输速率，前馈高，反馈低。斜率过载失真，梯波的上升或下降有可能跟不上信号的变化，因而产生滞后，这就造成了失真，称为“斜率过载”失真，斜率过载期间的码字将是一连串的0或一连串的1。为了避免这种失真，要求阶梯波的上升和下降的斜率等于或大于语音信号的最大变化斜率。颗粒噪声当语音信号不发生变化或变化很缓慢时，预测误差信号将等于零或具有很小的绝对值。这种情况下预测误差信号被量化为和-的概率是相等的，因此，经量化后成为幅度为2的等幅振荡，编码为0和1交替出现的序列。在译码器中所得到的将是峰-峰值等于的等幅脉冲序列。这便形成一种噪声，称为“颗粒噪声”，却应当将值取得小些。自适应增量调制（ADM）的基本思想是：使增量自适应语音信号的平均斜率变化，当信号波形平均斜率变大时，自动增大、反之则减小；从而缓解DM中由于固定引起的矛盾。ADM一般采用反馈自适应方式。另一种自适应增量调制是所谓“连续可变斜率增量调制”语音信号的分析合成，根据语音信号的生成模型，对于表征声源和声道的有关特征参数进行分析和提取，再运用这些特征参数重新合成语音信号的过程。第八章矢量量化定义：矢量量化是先把信号序列的每K个样点分成一组，形成K维欧氏空间中的一个矢量，然后对此矢量进行量化矢量量化与标量量化比较矢量量化还具有如下特点：（1）矢量量化是把量化矢量（码字）分别存储在编码器和译码器两端的码书中，在信道中传输的并不是输入矢量X的量化矢量Y本身，而是码字Y的下标j的编码信号；（2）在相同的速率下，矢量量化的失真比标量量化的失真明显的小；（3）在相同的失真条件下，矢量量化所需要的速率比标量量化所需的速率低的多；（4）矢量量化是一种多维模式匹配、多维优化过程，而标量量化是一维模式匹配、一维优化过程。一般来说，用一维优化是得不到多维优化的结果的；（5）矢量量化的复杂度随维数成指数增加，所以矢量量化的复杂度比标量量化的复杂度高设计最佳矢量量化器的必要条件一是在给定码书的条件下，寻找信源空间的最佳划分，使平均失真最小；二是在给定划分的条件下，寻找最佳码书，使平均失真最小。初始码书的选取方法。（1）随机选取法优点：不用初始化计算，从而可以大大地减少计算时间；由于初始码字选自训练序列中，因

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语音信号处理.docx

文档简介

温馨提示

最新文档

评论

语音信号处理.docx

文档简介

温馨提示

最新文档

评论

相关文档