语音信号处理作业_第1页
语音信号处理作业_第2页
语音信号处理作业_第3页
语音信号处理作业_第4页
语音信号处理作业_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

课堂作业1:1、 语音信号的特点是什么?画出数字模型语音信号的最基本组成单位是音素。音素可以分为“浊音”和“清音”两大类,语音信号的频谱分量主要集中在3003400HZ的范围内,其采样率为8kHZ,某些语音系统将此频率扩展到79KHZ,其采样率也提高 到1520kHZ。语音信号具有短时性。2、简述语音信号的特点,基频、共振峰是什么含义?语音一般由清音和浊音组成,浊音的声带振动基本频率,又称基音频率。声道可以看成是一根具有非均匀截面的声管,在发音时起共鸣的作用,。当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。3、简述短时分析方法,怎样用AMDF判基音?由于语音信号的准平稳特性,任何语信号数字处理算法和技术都建立在“短时”基础上。语音信号中一组基本短时参数有:短时能量E,短时平均幅度M和短时过零率Z。短时自相关函数和短时频谱(或短时功率谱)是语音信号非常重要的一对短时参数,分别在时域和频域中表征了语音信号的一些主要特征。短时基音周期是语音信号重要的参数之一。用短时自关函数进行基音周期估计是寻找它的最大峰值点的位置,而用短时AMDF进行基音周期估计是寻找它的最深谷值点的位置。4、短时傅立叶分析的含义?采样时如何考虑?语音波是一个非平稳过程,因此适用于周期、瞬变或平稳随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该用短时傅立叶变换对语音信号的频谱进行分析,相应的频谱称为“短时谱”。课堂作业二:1、画出同态滤波中特征系统框图,写出倒谱定义式*X(n)Y(n)+*+X(n)D* L D-1* y(n)卷积同态系统的框图复倒谱是x(n)的Z变换取对数后的逆Z变换,其表达式如下: (7)倒谱c(n)定义为x(n)取Z变换后的幅度对数的逆Z变换,即 (8)2、 相位卷绕是什么?怎样避免?相位伸展或相位解卷绕的前提条件是相邻采样点相位差的绝对值小于pi,即要求lARGH(k)一ARGH(k1)I -全极-LPC 有关。课堂作业4:1、您知道哪些基音检测方法?为何要作后处理?基音检测算法有很多,如自相关函数法(ACF)、峰值提取法(PPA)、平均幅度差函数法(AMDF)、并行处理技术、倒谱法、简化逆滤波法(SIFT)、谱图法,小波法等等。无论采用哪一种基音检测算法都可能产生基音检测错误,使求得的基音周期轨迹中有一个或几个基音周期估值偏离了正常轨迹,这种偏离点为基音轨迹的“野点”,为了去除这些野点,就要对基音检测进行后处理,最常用的是中值平滑算法和线性平滑算法。2、语音编码的评价标准有哪些?语音编码研究的基本问题,就是在给定编码速率的条件下,如何能得到尽量好的重建语音质量,或称编码质量,同时应尽量减小编码延时以及算法的复杂程度。换个角度说,在给定编码质量、编码延时及算法复杂程度的条件下,如何降低语音编码所需的比特率。所以语音编码的评价标准有:编码质量(MOS),编码速率,编解码的复杂程度,编解码延时。3、利用所学知识,设计一个LPC声码器,画出原理框图,并作简要说明4、SBC原理与降低计算复杂度的方法子带编码(SBC),也称频带分割编码,属于频域编码。SBC首先使用带通滤波器组将语音信号分割成若干个频带也称为子带,然后用调制的方法对滤波后的信号即子带信号进行频谱平移变成低通信号(即基带信号),以利于降低取样率进行抽取;再利用奈奎斯特速率对其进行采样,最后再分别进行编码处理。课堂练习题5:1、简述VQ中码书生成时的有关问题 及解决算法。矢量量化的两个基本问题是码书设计和码字搜索。码书设计的目的就是将训练矢量分成不重叠的N个聚类,每个聚类用一个码字来描述,这些码字构成了码书,码书设计的目的使平均失真最小。码书设计问题可以用下面两个优化准则来描述:(1)最邻近条件,即对于给定码书,训练矢量集的最优分类可通过把每个训练矢量映射为离它最近的码字而得到。(2)质心条件,即对于给定的训练矢量分类,其对应的最优码书中各码字可以通过求各聚类中心矢量而得到。2、VQ在语音编码中如何应用?矢量量化的基本思想:将若干个标量数据组成一个矢量在多维空间给予整体量化,从而可以在信息量损失较小的情况下压缩数据量。3、HMM三项问题是什么? 相应算法叫什么?(1)识别问题(2)寻找与给定观察字符序列对应的最佳的状态序列:给定观察符号序列和输出该符号序列的模型M=A,B,pi,如何有效地确定与之对应的最佳的状态序列。即估计出模型产生观察字符号序列时最有可能经过的路径。它可以被认为是所有可能的路径中,概率最大的路径。(3)模型训练问题:实际上是一个模型参数估计问题,即对于初始模型和给定用于训练的观察符号序列,如何调整模型M=A,B,pi的参数,使得输出概率P(O/M)最大?前向后向算法;维特比算法;Baum-Welch算法;三个问题分别为:(1)已知观测序列O=O1,O2,OT和模型namda=(A,B,pi),如何有效的计算在给定模型namda 条件下产生观测序列O 的(条件)概率P(O|namda)?算法:相应算法有前向-后向算法等(2)已知观测序列O=O1,O2,OT和模型namda=(A,B,pi),如何选择相应的在某种意义上最佳的(能最好地解释观测序列的)状态序列?算法:Viterbi 算法等(3)如何调整模型参数(A,B,pi)以使条件概率P(O|namda)最大?算法:迭代处理方法,如Baum-Welch 方法,梯度法等课堂练习6什么是语音识别?语音识别的研究目标是让机器“听懂”人类口述的语言。听懂有两种含意,第一种是将这种口述语言逐词(字)逐句地转换为相应的书面语言(即文字),第二种则是对口述语言中所包含的要求或询问做出正确的响应。语音识别如何分类的?语音识别系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习;(3)多人的识别系统:通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。如果从说话的方式考虑,也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。 如果从识别系统的词汇量大小考虑,也可以将识别系统分为3类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。简述DTW用途与原理动态时间规整(DTW) 语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。简述FSVQ的原理与在识别中的应用有限状态矢量量化FSVQ,矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。 核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论