




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
为残疾人提供的语音识别摘 要在过去的几年里,多亏了数据处理的演变,我们经历了一个语音识别系统很重要的演变。所开发的系统取决于应用程序,它具有孤立词识别和系统的连续语音识别系统。孤立词的识别的系统作为声带命令的应用而连续语音识别系统的系统主要应用有类似的声乐听写。对于残疾人士缺少数据基础和多样性的发声障碍是建立可靠的语音识别系统的重大障碍,这也说明为残疾人建立的语音识别系统在市场上所遇到困境。这项工作发展在于适应一些现有语音识别系统为那些有发声障碍的人。对于孤立词识别系统,我们使用动态方法的培训,这使得该系统有可能逐步适应用户在他的使用过程中。这种方法有可能使残疾用户使用该系统,不用通过长时间的培训,而这培训一般是沉重,对这些人是痛苦的。在同等测试条件它还允许识别系统使用一个训练基地。对于连续识别系统,我们使用两种方法:1- 一个为残疾人士动态适应的连续语音识别系统的模型。这种方法使我们能够让用户适应的识别系统并可以像正常人一样说话。2 为识别使用一个独立的语言分割(ALISP)。这种方法包括使用之间的对应关系ALISP分割和语音和模型ALISP的段,以建立识别系统。对于字识别系统,我们使用了DTW的动态培训。关键词:言语;认知;适应;充满活力;残疾;培训1 绪论在非特定人语音识别系统,培训令扬声器变化要求发言者广泛的人参与。这个令扬声器变化更重要的是当发言者有发音障碍。特别是,残疾人很难有独立的扬声器电话模型。在这项工作中,我们使用的手机模型都是从独立扬声器训练有素的BREF数据库中选取适应每次系统识别正确的句子模型。我们第一次提出的方法被运用于最大似然线性回归(MLLR)和动态时间规整(DTW的),然后我们提出了实验结果和结论。2 动态时间规整在这种类型的语音识别技术测试数据被转换为模板。识别过程,然后由语音输入与匹配存储的模板。从输入模式模板中最低的距离测量模板是已识别的词。最佳匹配(最低距离度量),是基于在动态规划。这就是所谓的动态时间规整(DTW的)文字识别者。为了了解DTW,需要两个概念被处理*特点:在每个信号信息必须以某种方式表示。*距离:一些度量形式已被用于为了获得匹配的路径。有两种类型:o地方:在一个信号特征及其他特点之间计算差异。o全球:整体计算整个信号之间的区别和另一个信号可能不同的长度。由于特征向量可能有多个元素,一种计算局部距离的方法是需要的。两个特征向量之间的距离测量采用的是欧氏距离度量来测量。因此,特征向量之间的信号特征信号1和2给出了向量X的Y局部的距离, 算法:言语是随时间变化的过程。因此,对同一个词会有不同的发音周期,与具有相同的周期同一个词在话语中会有所不同,这是由于不同地区的话,人们讲的时候速度不同。要获得两个全球距离的话语模式(作为一个向量序列为代表)一个时间序列必须执行。这个问题可以参考下图0,在这种时候,时间“矩阵是用于可视化的路线。对于所有的时间序列例子参考模式(模板)上升侧面和底部的输入模式去。在本图中输入SsPEEhH“是一个噪音的模板版本讲话”。这个想法是,h是一个更接近匹配的H比其他任何模板中。输入SsPEEhH“将在所有模板进行匹配该系统的信息库。最佳匹配的模板的其中之一是最低的距离有路径调整到模板输入模式。给一个路径一个简单的总体远程评分是简单的去弥补局部路径距离的总和。上图显示了测试和训练模式的时间一致。为了推出公式和减少过度的计算,我们在传播方向上作出了一定的约束。下面给出了这个约束。*匹配路径不能及时向后*输入的每一个框架必须用在匹配路径上*通过增大总体范围,现代远程教育重要性被凸显了。该算法被称为动态规划(DP)。当应用到基于模板的语音识别,它常常被称为动态时间规整(DTW的)。DP是保证找到通过矩阵的最低距离路径,而最大限度地减少计算量。动态规划算法工作在时间同步的方式:动态规划算法工作在时间同步的方式:每个时间被考虑为连续时间矩阵(相当于列处理输入帧逐帧),因此,对于一个长度为n的模板,最大数量的路径在任何时候被认为是n。如果D(ij)是总体距离可达(ij)和在(ij)地方距离,是用d(ij)。给出D(1,1)=d(1,1), (这是初始条件),我们有一个有效的计算D(i,j)的递归算法的基础上。最后全球距离d(n,N)为我们提供了模板的整体比对分数与输入。输入单词,然后确认为这个词所对应的最低得分匹配模板。3 最大似然线性回归MLLR最初是为适应扬声器,但同样可以应用于环境不匹配的情况。高斯为HMM的参数设置转换矩阵估计这最大限度地适应数据的可能性。本集的转换相对比较小的系统中高斯总数等多项共享相同的高斯变换矩阵数字。这意味着,转换参数稳健估计可从只有一数量有限的数据,这使所有的高斯HMM模型中的设置进行更新。对于少量的数据(或非常稳健转型的估计)只有使用单一的总体性转变。随着越来越多的数据可以利用,更加特别的转换能够进行估计。最初变化的平均估计只有参数,但最近的做法已得到扩展,使高斯变换也可以更新。本节给出了基本MLLR理论概述、平均参数和方差。均值和方差是适应于两个不同的阶段。最初发现新的方式被发现。然后,鉴于这些新的方式,差异被更新了。因此,HMM模型被修改了。例如,其中M是原来的模型集,模型有集合M刚刚更新的平均参数(1,.,M)以及模型集M既有的手段和方差1, M更新和T为适应数据T=(1),.,(T)3.1 MLLR适应方式该MLLR的目的是为了获得一个变换矩阵集最大化适应数据的可能性。转换矩阵是用来给均值的,在新的估计=Wmm和Wm是n*(n+1)转换矩阵(对于n维数据)和m是扩展的平均向量m=1, 1, n 为了确保转换参数稳健估计,转换矩阵高斯并列横跨数,根据回归类树。这种树包含所有系统中的高斯,与统计的叶子(可能每个包含高斯数)聚集。最具体的变换,可以适应稳健估计使用产生的所有系统中的高斯。一个特定的转换是Wm被束缚在R高斯m1mR.对于输出概率密度函数,高斯认为,可能是通过求解,其中和q () 在时间上表示高斯mr.。对于整个案件的协方差矩阵计算的解决方案代价是很高的。每个转换可以是一个完整的矩阵或约束为分块对角或对角线。3.2 MLLR适应的差异一般方差协方差矩或阵高斯向量,使用下面的转换可以换一种表达方式。Hm是线性变换的估计和Bm是的反Choleski因素,所以和。以同样的方式的手段,方差变换是在一个共同的高斯数m1.mR.它是简单的表明,最大似然估计,给出了之前计算的方法。可以看出,方差变换矩阵将满时,产生的每个高斯完整协方差矩阵。对角线为差异转化可能是通过简单归零非对角线上。4 识别试验该实验的对象是从获得帕金森的人群数据库中抽取的。该数据库记录在AIX-EN-PROVENCE医院. 这些录音都是由法国国家科学研究中心研究工程师文字和普罗旺斯大学语言实验室的议员伯纳德特斯顿记录的。这个数据库包括200例,每例持续时间不同完整残缺程度也不同,从记录49秒到4分钟。每一位发言者是应该记录的一句“LA CHEVRE DE MONSIEUR SEGUIN”。对于字识别系统,我们用了40字的2个扬声器数据库。这个数据库是为了一个指挥家创立的。4.1 系统描述对于字识别系统,我们使用动态培训。一开始我们在测试中使用的每一个字一个登记,如果系统识别好词,这个词将在字典中,如果不是它被拒绝。我们使用了一个6.4万字字典连续语音识别系统。我们用这个词的简表数据库模型训练的手机型号。对于单扬声器系统,将其分为4组各扬声器的数据库:3套为适应和一个测试集。我们分析后,连续的为每一个说话人识别系统的适应性能来适应数据库。对于非特定人识别系统,我们用每个残疾程度为10适应扬声器和6测试扬声器。我们用40个扬声器来适应以及每一级障碍程度运用6个扬声器作为连续独立扬声器识别系统的测试,该测试是为了那些遭受帕金森的病人的。4.2结果对于字识别系统,我们用了一个40个字的系统来指挥例如开门关门。下表阐述了识别结果,该结果运用了经典的DTW算法且这个结果用了我的方法来获得。表1:第一个人的文字识别率与动态演变培训句子经典DTW我们的方法12060230903309042070表2:第二个人的文字识别率与动态演变培训句子经典DTW我们的方法1501002409033090450100随着我们的方法在识别率迅速增加,所以在实际的用户,可以提高识别率时,它所采用的方法多次鼓励用户使用该系统。对于连续语音系统,我们开始了对病人的语音识别系统的性能通过使用总体模型。下表说明了结果:表1:BRIEF模型的患者的识别率发言者残疾程度的识别率(%)0123115.125.122.56227.692.565.12335.127.695.12442.562.562.56555.125.1200665.125.127.69所取得的成果表明,古典连续识别系统不产生令人满意的结果。得到的结果表明,这个词的质量下降。下表说明了在每个发言者适应基地连续提高识别率的演变发言者改编后的识别率(%)0123115.125.127.69227.6910.2510.25335.127.6910.25442.565.125.1255.125.127.697.6965.1210.2512.8212.82发言者改编后的识别率(%)0123012315.127.697.6910.2522.565.127.697.6937.6910.2512.8212.8242.562.565.125.1255.127.6910.2510.25发言者改编后的识别率(%)012312.565.125.127.6925.127.697.6910.2535.125.127.6910.2542.565.127.697.695002.565.127.6967.697.6910.2512.82发言者改编后的识别率(%)012312.565.125.127.6922.562.565.127.693002.562.565.1245.127.6910.2510.2552.567.6910.2510.2565.127.697.6910.25基础设置的增加而提高了识别系统的性能。这种方法使我们能够逐步适应识别系统。在一定数量的适应后,这个系统的表现将趋于稳定,但因缺乏充足的数据,在这个实验中我们不能验证这个事实。现在我们分析每个障碍等级特定人语音识别系统的表现。下列表格说明与适应障碍的同样程度的发言者的某些型号的识别率演化的扬声器。发言者识别率(%)BREF模型盘口模型15.1212.8227.6912.8235.1215.3842.5610.2555.1210.2565.1212.82发言者识别率(%)BREF模型盘口模型15.1210.2522.567.6937.6912.8242.567.6955.1210.2565.1210.25发言者识别率(%)BREF模型盘口模型12.5610.2525.1210.2535.1212.8242.5610.255007.6967.6912.82发言者识别率(%)BREF模型盘口模型12.567.6922.5610.253005.1245.1210.2552.567.6965.1210.25同等障碍程度的人的字模型的适应使这类扬声器有这样一个识别系统成为可能。现在我们将分析一个非特定人识别系统的表现,而该系统是针对的说话者是遭受帕金森疾病的人。结果被统计在下表中。发言者识别率(%)BREF模型盘口模型15.1215.3827.6915.3835.1215.3842.5612.8255.1212.8265.1220.51发言者识别率(%)BREF模型盘口模型15.1212.8222.5610.2537.6917.9742.5612.8255.1212.8265.1215.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年泰语等级考试二级真题模拟试卷
- 2025年事业单位招聘考试综合类专业能力测试试卷(财务类)-财务会计法规政策
- 2025年托福写作高分预测试卷:写作素材与创意训练
- 2025年事业单位招聘考试市场营销类综合专业能力测试试卷(市场营销合作营销篇)
- 2025年托福考试阅读真题模拟模拟试卷:英语阅读理解能力提高
- 2025年四川省成都市双流区事业单位招聘考试卫生类医学检验专业知识试卷
- 2025年事业单位招聘考试电子商务专业综合能力测试试卷三十九
- 2025年事业单位招聘考试综合类专业能力测试试卷(电子商务类)电子商务平台设计试题
- 2025年事业单位招聘康复治疗学专业考试试卷:2025年康复治疗学模拟考试
- 2025年事业单位招聘考试卫生类护理学专业知识试卷(护理学热点问题)
- 助焊剂存储管理办法
- 乙型肝炎防治知识教学课件
- 环卫安全事故处理方案
- 七十岁老年人三力测试驾考题库
- 复杂性肛瘘护理
- 物资检测培训课件图片
- 民警社区工作课件
- 高钾血症试题及答案
- 电缆敷设及电缆头制作安装施工方案
- JG/T 374-2012建筑用开窗机
- 货运平台代扣代缴协议书
评论
0/150
提交评论