




已阅读5页,还剩7页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语音信号处理复习题1 由下面的WAV文件读出语音的编码信息:52 49 46 46 A4 9A 7B 01 57 41 56 45 66 6D 74 2010 00 00 00 01 00 02 00 44 AC 00 00 10 B1 02 0004 00 10 00 64 61 74 61 80 9A 7B 01 42 FF 35 FCE2 FE 07 00 E7 FE AF 03 5F FF 65 01.编码(Code)内容(Contents)批注(Notes)区块说明(Chunk descriptor)52 49 46 46R I F FA4 9A 7B 0124,877,732Chunk size (017B9AA4)16 = 24,877,73257 41 56 45W A V E编码(Code)内容(Contents)批注(Notes)fmt 子 区块(fmt sub_chunk)66 6d 74 20f m t10 00 00 0016Sub_chunk_1 size (00000010) 16 = 1601 001(0001) 16= 1, PCM format (audio)02 002Number of channels = (0002) 16= 244 AC 00 0044,100Sampling rate (0000AC44) 16= 44,10010 B1 02 00176,400Bytes/second = (0002B110) 16 = 176,40004 004Block align =(0004) 16= 410 0016Bits/sample = (0010) 16= 16编码(Code)内容(Contents)批注(Notes)数据子区块(data sub_chunk)64 61 74 61d a t a80 9A 7B 0124,877,696Size:(017B9A80) 16 = 24,877,69642 FF 35 FCL= 65,346,R= 64,565(FF42) 16= 65,346 (FC35) 16= 64,565E2 FE 07 00L= 65,250,R= 7(FEE2) 16= 65,250 (0007) 16= 7E7 FE AF 03L= 65,255,R=943(FEE7) 16= 65,255 (03AF) 16= 9435F FF 65 01L= 65,375,R= 357(FF5F) 16= 65,375 (0165 ) 16= 3572 画出语音信号的产生模型,简述语音的产生过程。语音的形成过程空气由肺部排入喉部,经过声带进入声道,最后由嘴辐射出声波,形成语音。3 为生么语音信号要进行“短时”分析。答:语音信号特性是随时间变化的,是一个非平稳的随机过程,但在一个短时间范围内其特性基本保持不变,即语音信号具有“短时平稳性”,因而可将语音信号看成准平稳过程,对其进行短时分析.4 语音信号的时域分析方法有那些?答:短时能量,短时平均过零率,短时自相关函数5 语音信号频率范围是多少? 答:语音信号的频率大约在20Hz20KHz。6 什么是浊音的基音频率(F0)?男性、女性和儿童的F0大致分布在什么范围。答:浊音的基音频率(F0):声带张开和闭合一次的时间的倒数。由声带的尺寸、特性和声带所受张力决定。F0的大小决定了声音的高低,称为音高。 男性的F0大致分布在:60-200Hz,女性和儿童的F0大致分布在:200-450Hz7 可以认为多长的时间范围内,语音信号是平稳信号。答:10-30ms8 电话语音的采样率为8kHz;纯语音在进行计算机录入时,一般采样率在15kHz20kHz左右;音乐的采样率可以高达44kHz。9 如何利用语音信号的时域分析方法进行清、浊判断。答:1、短时能量分析依据:是基于语音信号幅度随时间变化清音段幅度小,其能量集中高频段;浊音段幅度较大,其能量集中低频段;2、平均幅度分析的依据:清音段幅度小,浊音段幅度较大。3、短时平均过零率:浊音平均过零率低,集中在低频段;清音过零率高,集中在高频段。4、短时自相关函数:浊音语音的自相关函数具有一定的周期性; 清音语音的自相关函数不具有周期性,类似噪声,有点如语音信号本身10 通过对语音信号进行分析,可以提取到那些特征参数(列举出三个以上)。答:短时能量和短时平均幅度,短时平均过零率,短时自相关函数11 人的发音器官包括那些。答:人体发音器官肺、气管、喉(包括声带)和声道。12、 傅立叶分析在信号处理中有什么意义?答:1、它是分析线性系统和平稳信号和稳态信号特性的强有力手段。2、以复指数函数为基函数的正交变换,理论完善,计算方便,概念容易理解。3、傅里叶分析可以使信号的某些特性变得很明显。语音信号的频谱具有非常明显的语言学意义,可以获得重要的语音特征(如共振峰频率和带宽等),13 文语转换系统(TTS)属于那种语音合成系统。答:规则语音合成系统14 语音的共振峰是如何形成的?答:气流流过声道时犹如通过了一个具有某种谐振特性的腔体,放大某些频率,在频谱上形成相应位置的峰起,称为共振峰。15 同态信号处理也称为同态滤波,画出同态滤波中特征系统框图16 语音合成的分类及特点,举出一个语音信号参数合成的例子。1、波形合成法特点:简单/小词汇(报站器) 2、参数合成法 特点:可以合成大词汇(字典)3、规则合成法 特点:实现难度较大 如TTS系统(文语转换系统)17 画出实现语音信号时频语音增强功能的框图。18 什么是语音信号的“短时”处理方法。答:语音信号的能量是一种随时间变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音参数也都对时间变化,但这种变化时缓慢的,在一小段时间内10-30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的段时间段来处理。而每一段时间具有固定的特性,这种方法称为“短时”处理方法。19 语音信号短时能量分析的用途答: 1、区分清音段与浊音段; 2、区分声母和韵母;3、在高信噪比下,区分无声与有声的分界;4、区分连字的边界; 5、用于语音识别。20 短时自相关函数的物理意义,性质,作用。答:物理意义确定两个信号在时域内的相似性,用于研究信号本身。表示方法序列经过一个冲激响应为 hk(n) 的数字滤波器滤波即得到短时自相关函数。性质:(1)对称性 R(k)= R(-k) (2)在k = 0处为最大值,即对于所有k来说,|R(k)|R(0)(3)对于确定信号,值R(0)对应于能量,而对于随机信号,R(0)对应于平均功率作用:a.区分清/浊音浊音语音的自相关函数具有一定的周期性。清音语音的自相关函数不具周期性,类似噪声,与其本身相似。b.估计浊音语音信号的周期,即估计基音周期。21 利用短时自相关函数进行语音分析时要注意的问题22 语音信号傅里叶分析的作用(p41) 在语音信号处理中,傅立叶表示在传统上一直起主要作用。其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的23 短时傅里叶变换的滤波器的解释。24 取样率的基本概念(1)时域取样率的基本概念。(2)频域取样率的基本概念。(3)总取样率的基本概念 25 从如下语音信号的短时谱中能得到什么信息?答:1、快速变化,由激励信号引起的;2、慢速变化,声道滤波器的共振峰引起的;3、采用汉明窗得到的短时频谱较较矩形窗平滑。26 倒谱分析的作用答:(1)区分清/浊音(2)求浊音的基音周期, 可以得到浊音的激励信号。(3)得到声道的冲激响应h(n)27 简述语音信号的特点,基频、共振峰是什么含义?答: 特点:语音一般由清音和浊音组成,语音信号具有短时平稳性。基音频率:浊音的声带振动基本频率。是声带张开和闭合一次时间的倒数。共振峰:当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。共振峰为频谱中明显的几个凸起点,它的出现频率与声道的谐振频率相对应。28 线性预测的基本思想。答:一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过时实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决定唯一的一组预测数据,而预测系数就是线性组合中所用的加权系数。29 线性预测分析如何用于语音编码和语音合成。答:编码:预测误差e(n)就是激励信号G*u(n),预测系数ak就是声道虑波器的系数dk.ak=dk,e(n)=G*u(n)线性预测分析可以对生成模型的增益参数G和滤波器系数dk进行直接和高效率的计算。 合成:30 简述矢量量化的过程。答:(书上定义):将语音信号波形的K个样点的每一帧,或有K个参数的每一参数帧,构成K维空间中的一个矢量,然后对这个矢量进行量化。 (课件上说):当给矢量量化器输入一个任意矢量Xi进行矢量量化时,矢量量化器首先判断它属于哪个子空间,然后输出该子空间的代表矢量Yj.矢量量化过程就是用Yj代替Xi的过程。 Yj=Q(Xi) 1jJ 1iN31 通常线性预测分析设定的模型是什么模型。答:全级点模型。32 什么是矢量的失真测度?常用的失真测度有哪些答:失真测度(距离测度)就是将输入矢量Xi用码本重构矢量Yj来表征时所产生的误差或失真的度量方法,它可以描述两个或多个模型矢量之间的相似程度。常用的失真测度为欧氏距离测度。33 矢量量化器最佳设计的两个条件?答:最佳划分,最佳码本34 初始码书的生成方法随机选取法:从训练序列中随机选取J个矢量作为初始码字,从而构成初始码本。分裂法:35 短时能量和短时过零率的的用途。答:短时能量:1、区分清音段与浊音段;2、区分声母和韵母;3、在高信噪比下,区分无声与有声的分界;4、区分连字的边界;5、用于语音识别。过零率: 1、区分清音和浊音:浊音平均过零率低,集中在低频端;轻音过零率高,集中在高频端。 2、从背景噪声中找出是否有语音,以及语音的起点。36 对语音信号进行处理时为什么要进行分帧。答:语音信号短时平稳,要将语音信号划分为很多短时的语音段,而每个短时的语音段称为一个分析帧。这样,对语音信号进行分针处理就相当于对特征固定的持续信号进行处理。经过处理,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理来提取语音特征参数。37 为什么端点检测有重要意义?答:端点检测:从包含语音的一段信号中确定出语音的起点和终点。有效的端点检测不仅能使处理的时间减到最小,而且能排除无声段的噪声干扰。实验表明:端点检测的正确与否影响到识别率的高低。语音端点检测的方法:短时能量和短时过零率。38 什么叫LBG算法,怎样设计初始码本,并用来训练码本。LBG算法是一种递推算法,从一个事先选定的初始码本开始迭代。把训练序列按照码本中的元素根据最邻近准则分组,对每一分组找质心,得到新的码本,又作为初始码本,再进行分组,重复上述过程,直到系统性能满足要求和不再有明显的改进为止。39 为什么说语音信号可以看成隐马尔科夫过程,隐马尔科夫过程有哪些模型参数。HMM包含两个随机过程,三个概率矩阵,一个输出概率答:隐马尔可夫模型:只能观察到输出符号序列(ab),而不能观测到状态之间如何转移(状态转移概率)和状态的分布(状态的概率)。而语音信号是一个可观察的序列:它是由大脑中的思维(不可观测)及语言需要和语法知识(不可观测)所发出的参数流。40 列举常用语音编码速率的值。答: 64kbit/s; PCM; 32kbit/s; ADPCM; 4.8kbit/s; CELP; 2.4kbit/s; LPC声码器41 波形编码、参数编码与混合编码各有什么优缺点。答:波形编码:话音质量高,编码速率高。参数编码:编码速率低,自然度低,对环境噪声敏感。混合编码:质量高和速率低.42 在语音编码中,如何使用自适应技术。答:利用自适应的思想改变量化间隔(量阶)的大小,即用小的量化间隔去编码小的差值,使用大的的量化间隔去编码大的差值43 语音合成的目的是什么?它主要分为哪几类?比较它们的优缺点。答:目的:让机器说话,达到一定的音质与可懂度(或产生与人类通信相关的语音)(1)、波形合成法。 优点:合成音质好; 缺点:存储空间大。(2)、参数合成法。 优点:存储空间小; 缺点:合成音质较差。(3)、规则合成法。 优点:可以合成无限词汇,存储量小 ; 缺点:合成音质效果较差44 在TTS系统中,如何进行语音合成中的韵律控制。答:韵律特征包括声调、语气、停顿方式、发音长短等。这些通过基频、音长、音强等参数来体现,通过控制这些参数达到对韵律控制。包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等。预处理:语音信号的放大、防混叠滤波、自动增益控制、模数转换、消除噪声、端点检测。语音特征参数包括:短时平均能量、短时过零率、频谱、三个共振峰频率(F1、F2、F3的频率值、带宽、幅值)、线性预测系数、LPC倒谱和Mel倒谱等。模式匹配:将未知语音的特征参数与模板参数逐一进行比较与匹配,判决的依据是失真测度最小的准则。专家知识库:用来存储各种语言学知识,如汉语声调变调规则、音长分布规则、同音字判别规则、构词规则、语法规则、语义规则等。识别决策:是最后一步,也是系统识别效果的最终表现。根据若干准则及专家知识,判决选出可能结果中最好的结果,由识别系统输出。46 为什么语音识别时需要做时间规整?答:语音信号具有很强的随机性,不同的发音习惯,发音时所处的环境不同,心情不同都会导致发音持续时间长短不一的现象。如单词最后的声音带上一些拖音,或者带上一点呼吸音,此时,由于拖音或呼吸音会被误认为一个音素,造成单词的端点检测不准,造成特征参数的变化,从而影响测度估计,降低识别率,因此在语音识别时,首先有必要对语音信号进行时间规整。47 说话人识别的目的及分类。答:目的:确认说话人(即证实说话的人是否是所要求的那个人)或者从某个已知的人群集合中辨认出那个说话人。分类:说话人确认和说话人辨认。主要用于身份的验证。48 什么叫加性噪声和乘性噪声。为什么加性噪声的处理是语音增强的基础。答:按噪声和信号相关的性质可将噪声分为加性噪声和乘性噪声。加性噪声是指噪声和信号相关性是加和关系;(如冲激噪声、周期噪声、宽带噪声等)乘性噪声是指噪声和信号相关性是乘积关系;(如残响基传输网络的电路噪声) 对加性噪声进行处理,从带噪声语音信号中提取尽可能的纯净的原始语音,改善语音质量提高语音可懂度,是语音增强的有效的基本方法。工作过程:将含噪语音信号和有声、无声判别得到的纯噪声信号进行DFT变化,从含噪语音谱幅度的平方中减去纯噪声的谱幅度的平方,然后开方,得原始语音谱幅度的估值,在借用含噪语音的相位,进行IDFT变化,得到
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 铁路线路养护维修作业关键指标与规定测试题附答案
- 2025年药品购销考试试题及答案
- 2025年文艺部工作考试题及答案
- 2025年服装入职考试试题及答案
- 化学实践学习成果评价试题
- 固定搬运技能考试题及答案
- 2025年高考物理名校联考仿真试题(二)
- 客服主管笔试试题及答案
- 公共管理考试题及答案
- 高中餐饮考试题及答案
- 中医学课件幻灯片模板
- (高清版)DB11∕T 2440-2025 学校食堂病媒生物防制规范
- 化肥产品生产许可证实施细则(二)(磷肥产品部分)
- 护士职业素养课件下载
- 行政责任伦理重构-洞察及研究
- 养老护理员工作流程
- 摩托车智能化技术分析-洞察阐释
- 古籍版本智能鉴定-洞察阐释
- 公共组织绩效评估-形考任务一(占10%)-国开(ZJ)-参考资料
- 《2025年CSCO HR阳性晚期乳腺癌治疗指南》解读
- 企业决策支持系统-项目案例分析
评论
0/150
提交评论