全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于GSM编码的语音识别系统信息与通信工程学院 电子09-3 王海康 译 指导教师:杨亚宁摘要:语音编码与识别精度对语音识别的性能有重要影响。几乎所有能识别编码的系统都是先输入编码参数,然后执行确认(在噪声或信道补偿后),这是语音识别使用的常规步骤。在本文中,我们非常认可语音编码的准确度得益于语音识别精度使用倒频谱所获得的参数。在这里,我们使用13-kbps的GSM全速率编解码器。GSM编解码器具备线性预测(LPC)滤波器和残差信号的编码声音组件。我们进行量化和编码,测量所得参数准确表示,通过选择性地组合倒频谱代表的LPC参数和残差信号的流是能够准确得到等于或超过识别精度的波形。关键词:GSM编码;语音识别;全速率1 简介 语音编码会影响语音识别的准确性,可以使编码比特率降低。语音通信应用程序使用的增加编码算法和语音通信的相互作用,让这些系统的自动语音识别应用程序进行语音编码,限制应用的性能,就成为一个严重的问题。我们处理这个问题的方法有不少。这些方法涉及再生的信号补偿和适应技术的应用。识别准确率较大时,用于识别的语音不能经过相同的编码过程(即“不匹配条件”)。 然而,使用同样编码的语音准确率降低,也并不能消除识别的障碍。 我们认为使用13-kbps的GSM全速率编解码器,可以提高语音编码的准确性和对语音识别的精度。 GSM是一个正脉冲激励(RPE-LTP)的编码过程。我们假设,对语音识别系统访问发送GSM编码语音信号的参数,我们可以从结果分析出有损压缩和量化的影响来自量化面积比率(LAR),及RPE-LTP参数重构残差信号。我们通过比较发现,它们是衍生的逆谱未编码和未量化这些信号的版本。 我们将证明,量化和编码影响着LPC滤波器和造成不同量的残余激励信号。我们经过分析LPC滤波器和所述残余信号,尽量减少了语音识别的错误率。 我们在第2节会简要地讨论一下GSM编解码器的特点。我们在第3节将讨论GSM编码和量化的效果和特征。在第4节中,我们讨论提取系数的方法及简述倒谱特征,以最大限度地减少GSM编码声音信号识别错误率。2 全速率GSM语音编解码器 GSM全速率语音编解码器是一个在有损语音的基础上有规律的激发脉冲的算法。 GSM转换成13位数字信号的采样是从8 kHz开始的。因此,GSM编码产生一个总比特率为13.0 kbps的算法,实际的GSM传输比特率是由于添加了较高的错误恢复和数据包信息。 RPE-LTP编码算法是由线性预测合成(LPAS)家族的编码算法4。 在有LPAS算法的情况下,GSM编解码器表示的语音信号使用了两个参数集:信息LPC滤波器(量化的面积比的形式,Q-LARS)和残差信号的编码信息(形式量化的RPE-LTP参数)。压缩的残差信号是在一个有损的过程中引入失真成的残差信号。在解码过程中,所述残差信号是第一重建的RPE-LTP信息,然后由短期合成滤波器过滤,最后导出参数。 在特定情况下的全速率GSM的差异最小化用实际残差信号和所述重构的残差信号计算这种差异的量化的RPE-LTP来表示。除了表示的残余信号,该算法还介绍了RPE-LTP部量化的LAR系数在讲话中受到退化起到了重要作用,表明其已经经历了GSM编码过程。3 参数量化的影响和编码的逆谱 在本节中,我们描述了用于开发程序的倒谱信号和开发的GSM语音编码的语音识别功能。我们认为,矢量直接从重构衍生GSM语音信号,矢量来自量化的面积比率,这代表了LPC滤波器和来源于残差向量的信号。我们通过比较这些逆谱与未编码非量化的信号参数,确定版本在何种程度上编码和量化可以影响信号的准确度。最后,我们通过比较准确度,在语音识别系统中获得更加精确的信息。3.1 重建GSM语音 大多数识别系统直接操作的语音波形以常规的方式,从GSM参数解码。GSM的解码信号和原始信号之间的语音波形差异可能会导致语音识别的劣化。GSM编码影响的各种倒谱系数代表不同比例的解码讲话。在图1中,我们绘制的归一化平均平方误差(NMSE)对应GSM解码语音的系数倒频谱矢量(平均平方误差归一由一个给定的系数的平均平方值)。如果我们考虑失真的影响,存在加性噪声信号,NMSE是大成比例的信号的逆噪声比(SNR)。可以看出,在图1中,归一化均方误差由GSM编码引入一般作为系数增加指数导致的。3.2 LPC推导逆谱面积比参数 倒频谱系数,也能够获得量化的面积比(LAR)参数,在量化这些参数的过程中开发GSM编码。LAR参数被转化成相应的LPC系数。 GSM标准规定,要使用生成的8个系数对八阶LPC进行分析。图3.21 归一化平均平方误差(NMSE)的逆谱以GSM重建语音波形逆谱的原始波形为标准。在LPC分析开发的倒频谱系数的归一化均方误差中GSM的编码语音信号被绘制在图2中。 可以看出,GSM编码的效果一般。这些系数似乎代表原始波形中的系数,归一化均方误差NMSE一般随着系数顺序增加。图3.22 归一化均方误差产生的逆谱量化LARS GSM-编码的语音的逆谱的波形。图3.23 归一化均方误差产生的逆谱从残余GSM的编码的语音信号得出相应的逆谱波形。3.3 推导逆谱信号 倒频谱系数也可以生成RPE-LTP表示残余激励信号的参数。该RPELTP从传统的倒频谱分析系数获得时间的功能。虽然一般是假设的残差信号,主要包含的信息相关性较低的语音识别任务,例如音调,周期性,声门波形信息。然而,由于在LPC编码下,使用的第八阶LPC分析残差信号得出的是有用的语音。我们获得的倒谱系数,是从GSM编解码器所得的残余参数,是比较它们的值到相应未编码的语音信号的系数。图3示出的对数倒频谱系数,代表GSM编码的语音,对应原始的未编码语音。与此相反的NMSE重建波形和Q-LARS为所示图1和2,倒频谱系数表示的归一化均方误差的残差信号作为系数顺序降低的倾向增加。我们也注意到,NMSE残差是远远大于逆谱的两个QLARS和重建的语音波形。4 GSM编码的准确性 在本节中,我们描述的语音识别的结果的一系列实验中使用的倒谱特征来自重构的波形和GSM参数。识别实验进行了减少带宽和使用扬声器独立组成部分的采样,在清净和嘈杂的环境下管理RM1语料库。在所有情况下的讲话信号均通过3.5千赫至8千赫的低通滤波。对于存在噪声条件下的情况,低通噪声产生的SNR约18分贝。高斯白噪声是通过一个简单的2极点滤波器的噪音与共振频率大约650赫兹,约半功率带宽400赫兹产生的。4.1 使用原始的识别率重建语音波形 GSM编码识别错误相对温和,错误率增加约20,并且大部分的降解GSM编码在测试中被淘汰。4.2 使用功能的识别率来自GSM参数 识别精度从来自在LAR和Q-LAR的功能获得参数几乎一样好。识别精度从重构的波形本身提取从残差信号有效。 结合Q-LAR逆谱与GSM残留逆谱:传统的LPC理论是重建语音波形通过以下方式获得的脉冲响应的卷积的LPC滤波器的残差信号,对数倒频谱的语音波形可以通过添加LPC滤波器的逆谱估计残差。但是,在第3节NMSE倒谱系数中,这两套表现不同。本节表明,我们可以提高识别通过选择性地组合Q-LAR来自GSM复原后的残差的倒谱系数信号倒频谱系数的精度。 我们考虑一下这两种方式相结合的逆谱LPC滤波器和残余的过滤器:(1)直接添加两个逆谱(这当然对应于卷积与残差信号的LPC滤波器的脉冲响应);(2)组装一个13维复合倒频谱矢量串连的一个子集的倒谱系数,代表LPC滤波器的一个子集的倒谱系数,代表剩余的波形。我们实施后者程序量化LAR的逆谱恢复剩余的逆谱。这些被选中的子集系数因为残余逆谱的NMSE为小高阶系数。在进一步的实验中我们确认,良好的识别精度的串联载体可以得到特定的系数,只要前两个从残差信号的倒谱系数被排除在外(这些系数表现出最大的NMSE)。5 结论 综上所述,GSM编码对语音识别精度的降解效果经过量化和有损编码已引入到对数倒频谱的失真与面积比率复原后的残差信
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业年终总结及工作计划范本
- 农产品电商运营策略汇编
- 销售服务合同履约保证承诺书3篇
- 小学数学教材课程解读与实践应用
- 中小企业员工职业培训手册
- 房地产销售合同管理及风险防控指南
- 初中生物教学重点难点分析
- 制造企业员工绩效管理办法
- 两面针品牌市场营销创新方案
- 变电站继电保护设备维护规范
- 锂电池pack基础知识培训课件
- 风景园林考试试题及参考答案详解完整版
- 2025及未来5年中国超市周转筐市场调查、数据监测研究报告
- 数学活动自然数被3整除的规律
- TCNAS49-2025成人泌尿造口护理学习解读课件附送标准全文可编辑版
- 2025至2030全球及中国酒店收益优化解决方案行业项目调研及市场前景预测评估报告
- DB61∕T 1305-2019 生态环境监测质量管理技术规范
- 课题3物质组成的表示第1课时(导学案)
- 八上英语每日一练【空白】
- 2025年成人高考专升本政治模拟试题及答案
- 2025年全国成人高等学校招生考试(英语-高起点)经典试题及答案五
评论
0/150
提交评论