




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、第一部分:基本理论:语音信号 处理方法细则解释备注时域处理语音数字化和预处理数字化:取样-> 量化预处理目的:提升语音信号的高频部分,使信号的频谱变得平坦。以 便于进行频谱分析或声道参数分析。短时平均能量和短时 平均幅度短时平均能量主要用途:1、可以从清音中区分出浊音2、可以用来确定声母与韵母,无声与有声,连字等的分界。3、可以作升-种超音段信息用于语音识别。短时平均幅度:因为短时平均能量对于高电平信号处理过于灵敏,所以采用短时平局幅度。短时过零分析如果信号按段分割,就称为短时,把各段信号的过零率作统计平均, 就是短时平均过零率。短时自相关函数和平 均幅度差函数短时自相关函数具有自相关函
2、数所有的性质,是语音信号时域分析的一个重要奔里。短时平均幅度差函数与短时自相关函数类似的功效,但运算量和对硬件的要求可以降低许多,相对来说,这种技术应用广泛。高阶统计量1一般指高阶矩、高阶累积量、高阶矩谱、高阶累积量谱。时频处理短时傅里叶变换1、是个一个二维函数,也称时频函数。2、物理意义:函数将窗函数的中心移至某处截取信号,再做傅里叶 变换。3、矩形窗具有较窄的主瓣,因而具有较高的频率分辨率,但它具有 较高的旁瓣,且会产生“破碎”的频谱;采用哈明窗得到的短时 频谱却要平滑的多,因而应用的比较普遍。4、短时傅里叶变换以固定的滑动窗对信号进行分析,从而可表征信 号的局域频率特性。小波变换1、时域
3、等宽的分析方法并不是对所有信号都合适,例如:在信号的 低频端具有很高的频率分辨率,而在高频端的频率分辨率较低。所以出现了 小波变换。2、分析的目的:既要看到森林(信号的概貌),又要看到树木(信号的细节)。倒谱同态 处理复倒谱和倒谱无论对于语音通信、语音合成还是语音识别,倒谱参数所含的信息都 比其他参数多,其缺点是运算量较大。尽管如此,倒谱分析仍是一种 有效的语音信号分析方法。语音信号的倒谱分析1 与同态解卷积将语音信号中的激励信号与声道响应分离,并且只需时十几个倒谱系数就能相当好地描述语音信号的声道响应。避免相位卷绕的算法缘由:在复倒谱分析中,Z变换后得到的是复数,所以取对数时进行的是复对数运
4、算,这时存在相位的多值性问题,称为“相位卷绕”,由于相位卷绕使后面求复倒谱、以及由复倒谱恢复语音等运算均存在不确定性而产生错误。解决方法:最小相位信号法第二部分:语音识别系统项目细节解释备注语料库基本特征1、理论语言学原则指导2、构成和取样按照明确的语言学原则并采取随机抽样方法收集语料,而非简单堆积。3、作为自然语言运用的样本,具有代表性。4、以电子文本形式存储且通过计算机自动处理。5、基于语料库的研究以量化研究为基石,以概率统计为基本手段,以 “数据驱动”为基本理念。6、语料文本是一连续的文本或话语片断,而不是孤立的句子和词汇。以不同层面来考虑可以划分为不同的类型。语音语料屑建立、收集和标注
5、。863汉语语音特性描述。普通话合 成语料库语音识别单元的选1、选择原则:这是语音语音识别取首先,对于不同的语言,基元选择的考虑是不同的,例如:汉语, 可用“声母一韵母”,也可用音节字、词、等作为识别单兀。第二,识别基元选择具后灵活性,用它可以组成具他的语音或语法单位,具有稳定性。灵活性希望基元尽可能地小,如音嗦;而稳定性则希望基元尽可能地大,如词甚至词组。第三,基元的选择还需要考虑搜索时间模型存储开销。基兀选择愈小、存储量愈小,算法愈复杂,正识率愈低。第四,基元选择也与实际用途有关,有限词汇量的识别基兀可以选 的点(如词或短语等);而无限词汇量则应选的小一点(如音素、 声母一韵母等)。识别中
6、非 常重要的 环节自动分段-端点检作用:用数字处理技术来找出语音信号中的各种段落(如音素、音节、在汉语中的预处理恻技术词素、词等)的始点和终点的位置。主要目的方式:1、基于能量的端点检测2、基于LPC-10声码器的端点检测。3、基于信息嫡的语音端点检测4、基于频带方差的端点检测5、基于倒谱特征的带噪语音信号端点检测6、基于HMM勺端点检测方法7、基于分形技术的端点检测8、基于自相关相似距离的端点检测9、基于迟滞编码的端点检测10、实时端点检测算法是找出字 的两个端 点,进而 找出其中 声母段和 韵母段语音信 号特征参 数基音周期概念:指发浊音时声带震动所引起的周期运动时间间隔。几种有效且实用的
7、的方法:1、自相关法及其改进:区分清音和浊音并估计出基音周期。具体方法:1、先对语音信号进行低通滤波, 然后再计算短时自相关函数。2 、米用中心削波技术3 、用短时幅度差函数来代替短时自相关函数,这样也省去乘法 运算从而节约运算时间。2、并行处理法:语音信号经过预处理后形成一系列脉冲,这一串 脉冲保留了信号的周期性特 征,而略去与基音周期无关的 信息;然后由平行的一些简单 的检测器估计基音周期。最后 在后处理部分,对这几个基音 周期检测器的估值作逻辑组合,输出估计的正确周期。 这 种算法比较简单,硬件实现容 易,不仅能估计出基音周期, 而且还可以定出峰点位置,这 在一些按基音周期操作的处理 中
8、是很有用的。3、倒谱法:a.采样,用哈明窗平滑,求出倒谱。b.求倒谱峰值及其位置,c.峰门值计算比较得出结论d.峰值检测。4、简化逆滤波法:将语音信号降低采样率并提取其模型参数,然后用这些参数对原信号进行逆 滤波得到音源序列,最后求出 该序列的峰值位置以求得基音 周期。线性预测参数1线性预测信号模型:3种信号模型:1、自回归信号模型(AR模型)2 、滑动平均模型(MA莫型)3 、自回归滑动平均模型(ARMA莫型)理论上讲,ARMA莫型和MA模型可以用无限高阶的AR模型来表达。对AR模型作参数估计时遇到的是线性方程组的求解问题,相对来说容易 处理,而且实际语音信号中全极点又占了多数。 线性预测误
9、差滤波设一个预测误差滤波器,就是求解预测系数 ai使得预测误差e(n)在 某个预定的准则下最小,这个过程称之为线性预测分析。 语音信号的线性预测分析语音信号序列是一个随机序列,它也可以用上述的三种信号模型化来进 行分析。 线性预测分析的解法经典的解法后两种:1、自相关法:假定语音信号序列 s(n)在间隔Own WN-1以外等于零,如莱文逊-德宾算法;2、协方差法:不规定语音信号 s(n)的长度范围,而定义自相关序列r(j)中n的范围为0w n< N-1,在此范围内认为估算 r(j)所需要的s(n)值存在,即s(n)的长度范围应该为-pWnWN-1,如乔 里斯基算法。上向两种方法中的精度和
10、稳定性之间都存在矛盾,因向导致了斜格法的逐渐形成。他们都分成两步:先计算相关矩阵,再解一组线性方程。优缺点:自相关法由于使用了窗函数来截取,认为地平滑了 s(n),从而引入了误差,所以自相关法求得预测系数精确度不高;另一方面,协方差法由于没有限制 s(n)的长度,又不采用窗口函数,所以精度高,但 不如自相关法稳定。 斜格法及其改进在运算中不需要用窗口函数对信号进行加权,同时又保证解得稳定性, 因而较好的解决了精度和稳定性的矛盾。稍后从最大嫡谱分析的观点也得到了相似和等价的结果,接着对其缺点进行了改进:因为一般的斜格法的运算量要比自相关法及协方差大 4倍左右,协方差斜格法可使运算 量恢复到自相关
11、法或协方差法的水平上, 而同时保持较高的精度和解得 稳定。线谱又( LSP)参数线谱对分析原理:在线性预测分析基础上频域求解的方法,它求解的模型是“线谱对”,线谱对是线性预测参数的另一种表示形式,用线谱对 参数构成合成滤波器 H(z)时和Ki参数一样容易保证稳定性,而且这种 参数的量化特性和内插特性均优于反射系数。线谱对分析的求解:1、代数方程式求根2、 DFT法LPCC参数线性预测倒谱参数 (LPCC是线性预测系数(LP。在倒谱域中的表示。 该特征是基于语音信号为自回归信号的假设, 利用线性预测分析获得倒 谱系数。优点:计算量小,易于实现,对元音有较好的描述能力。缺点:在于对辅音的描述能力较
12、差,抗噪声性能较差。MFCCK美尔频标倒谱系数(MFCC考虑了人耳的听觉特性,将频谱转化为基于 Mel频标的非线性频谱,然后转换到倒谱域上。由于充分考虑了人的听觉特性,而且没有任何前提假设,MFCC参数具有良好的识别性能和抗噪能力,但其计算量和计算精度高。ASCO 数研究表明,中频段1500Hz2500Hz对口音分类的影响最大,并提出了一种新的口音敏感刻度,在这种标度卜计算的参数就是口音敏感参数ASCC它与MFCCf同,采用滤波器组的方法计算出来。感觉加权的线性预 测(PLP)特征PLP参数:基于听觉模型的特征参数。是全极点模型预测多项式的一组系数,等效干-种LPC特征。用输入的语音信号经听觉
13、模型处理后所得到的信号替 代传统的LPC分析所用的时域信号。 RASTA-PLP#数很多语音参数估计技术很容易被通信信道的频率响应干扰。感觉加权线性预测(PLP)语音分析是基于语音的短时谱的,在计算语音短时谱之 后又进行了数种基于听觉的变换,PLP参数(正如其他的许多基于短时谱的参数),当短时谱被通信信道频率影响后变得脆弱。使用RASTAT法使得PLP和其他的一些基于短时谱的技术对线性谱失真更具有稳健 性。动态差分参数通常语音信号的动态参数能较好的反映语音信号的时变特征,因此获得每帧信号的特征参数,还要计算相应的差分参数。高阶信号谱类特征在进行语音信号处理时先将彳t号分帧(每帧大约10ms30
14、mS, 一帧期间内的信号视为平稳过程, 将整帧信号作 DFT等处理得到该帧信号的频 谱或功率谱特征。这种处理方法遇到的问题是帧长的合宜选取。若选得太长,在语音信号的特性时变较大的情况下,帧会将不向时刻具有相当特性差别的特征彼此混淆,或将一些短时出现的重要特征冲淡、淹没。反之,将帧长取短则又会因帧内样值少而不足以表征低频成分,这事实上相当于加上了使信号畸变的低通滤波。解决问题的途径为:将帧长取的较长,但采用高阶信号谱类来代替付氏 谱作为每帧的特征, 使之能较好的表征时变 (非平稳)信号的特性。有 一种高阶信号谱称为 WWf特征变换线性判别分析(LDA)用一类比较简单的判别函数进行分析。首先假定g
15、(x)是x的线性函数:g(x)=wix+wi0. 对于c类问 题,可以 定义 c个判 决函 数,则 i=1,2,c.取后要用样本去估计 wi和wi0 ,并把未知样本 x归到具有 最大判别函数值的类别中去。从本质上 看,提取 的语音特 征参数不主分量分析(PCA信息处理过程中的一个关键问题就是大数据量问题, 因此如何以尽可能 小的代价,尽可能地减小数据量,获取尽可能高的效率。简单地丢弃一 部分数据,显然会导致很大的失真,破坏信息的完整性。所谓主分量分 析,就是要寻找、保留数据中最有效、最重要的“成分” ,舍去一些冗 余的、包含信息量很少的“成分”。是正交 的,它的 概率统计 分布也不 是独立 的
16、,这三 种分析方 法将语音 特征参数 止交化、 独立化。独立分量分析(ICA)假设n个观测变量,由n个独立分量线性组合而成,观测变量和独立分 重均为随机变重。在时刻 t有n个观祭变重,整合各种变里关系,构成 矩阵形式。这个矩阵模型称为线性独立分量分析。语音识别 的模型动态时间规整(DTW语音识别中,不能简单地将输入模板直接作比较,因为语音信号具有相当大的随机性,即使是同一个人在不同时刻的同一句话的同一个音,也不可能具有完全相同的时间长度,因此时间规整是必不可少。 动态时间规整就是把时间规整和距离测度计算结合起来的一种非线性规整技术。 动态规划技术(DB: 一种最优化算法,它把一个 N阶段决策过
17、程化为 N个单阶段的决策过程, 亦即化为逐一做出决策的 N个子问题,以便使 计算简化。采用DP技术实现的DTW的缺点:1、系统识别性能过分依赖于端点检测2、动态规划的计算量太大。3、没有充分利用语音信号的时序信息。4、求累积距离时,对测试模板的各帧给予相等权重。有了上面的缺点,才有了 DTW算法的改进。隐马尔可夫模型(HMM定义:1、信号模型:隐马尔可夫是一个双重随机过程:一重用于描述非平稳信号的短时平稳段的统计特征;另一重随机过程描述了每个短时平稳段如何转变到下一个短时平稳段。基于这两重随机过程,HMMJR可有效解决怎样辨识具有不同参数的短时平稳信号段,怎样跟踪它们之间的转化等问题。人的言语
18、过程也是这样一种双重随机过程, 因为语音信号本身是一 个可观察的序列,而它又是大脑里的(不可观察的)、根据言语需要和语法知识(状态选择)所发出的音索(词,句)的参数流。数学描述:一个 HMMS全可以由2个模型参数 N, M和3个概率分布参 数A,B,兀来确定。 HMMfr白3个基本问题及其解决方案欲使所建立的隐马尔可夫模型能解决实际问题,必须解决的3个问题(详见实用语音识别基础182页)。 隐马尔可夫模型的类型:马尔可夫链 HMMIT法实现的问题1、初始模型的选取2、HMM犬态类型的选择3、HMMfr B参数类型的选择4、多个观察值序列训练5、比例因子问题6、克服训练数据/、足分类模型(SVM
19、)1、学习问题2、学习过程一致性的条件3、学习过程收敛速度的界。4、结构风险最小归纳原理5、支持向量机人工神经网络它是在现代神经科学研究成果的基础上提出来的,并反映了人脑功能的基本特性。1、神经元的基本模型:加权求和部分,线性动态SISO(单输入-单输出) 系统,非线性函数映射2、前向网络:强有力的学习系统,其结构简单且易于编程;从系统的 观点来看,前向网络是一静态非线性映射,通过简单非线性处理单 元的复合映射可以获得复杂的非线性处理能力。但从计算的观点来看,前向网络并不是一种强有力的计算系统,它缺乏丰富的动力学 行为。3、反馈网络:一种反馈动力学系统,它比前向神经网络具有更强的计 算能力。在
20、此网络中稳定性与其联想记忆的能力密切相关。同斯混合模型(GMM本质上是一种多维概率密度函数,一个具有M个混合成分的D维GMM可以用M个图斯成员的加权和来表示。参数调整算法一EM算法:GM靖数的估计基于最大似然准则(MD,通 过£屣代算法来实现。第三部分:语音识别中关键处理技术项目细节解释备注自适应方式的分类特定人识别-> 非特定人识别-> 自适应方式1、批处理式:训练语音由用户一次性录入,然后进行统一的自适应 训练,更新系统参数。2、在线式:训练语音是用户使用识别系统时所识别的语音,系统根 据累积德统计量,按照一定时间间隔更新系统参数。3、立即式:训练语音是当前正在识别的语音,没有在线式自适应的 累积。说话人自 适应和说 话人归一 化技术MLLR算法介绍基于变换的一种自适应算法。1、语音特征空间的划分:由于MLLR算法的前提假设是相近的语音共 享相同的变换,因此需要根据一定的准则对语音空间进行划分, 然后对每一类空间倩计其相应的变换。2、参数的估计:可以采用最大期望算法迭代倩计W3、对均值矢量
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新目标引领新未来
- 《测控一体化闸门安装及验收规程》(征求意见稿)编制说明
- 2025年教育培训行业品牌塑造与市场推广策略研究报告:品牌区块链营销策略
- 2025年运动医学医疗市场增长动力报告:技术创新趋势下的市场前景
- 医药流通行业供应链优化与成本控制2025年竞争格局分析报告
- 元宇宙社交平台用户行为洞察报告:2025年用户体验优化与瓶颈解析
- 探索废弃矿井资源再利用与绿色发展协同推进模式
- 2025年绿色金融发展趋势与投资策略研究报告
- 2025年互联网医疗平台在线问诊医疗服务质量监控报告
- 2025年潮流玩具市场分析报告:收藏价值与文化传承深度挖掘
- 仁爱版九上英语单词表
- 中国糖尿病防治指南(2024版)解读
- 《三国演义》探究课 课件
- 河道钢板桩围堰施工方案
- 江苏省南通市金沙街道公开招录村(社区)后备干部高频重点提升(共500题)附带答案详解
- 临床路径品管圈
- 公务员面试宝典:2025年升级版详解
- 【MOOC】《微型计算机原理与接口技术》(南京邮电大学)章节中国大学慕课答案
- 2025年中国兵器智元研究院招聘笔试参考题库含答案解析
- 防溺水教师安全培训课件
- 2025年佛山市南海区西樵派出所辅警历年高频重点提升(共500题)附带答案详解
评论
0/150
提交评论