版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章连续语音识别系统7.1连续语音识别问题的难点连续语音识别有两个重要问题是孤立(字)词识别所没有的。(1) 单词切分任何语言中,短语(或词组)和句子的数量都是非常人的。因此,一般情况下,以短句和句子为单位进行模式识别是不恰当的。这就需要把连续语音分割成比短语更小的单位,例如单词甚至“子词”(所谓子词(Subword)是指建立在语言学意义上的小于词的语音单元,比如:音素、双音、类双音、半音节和音节等单元)。以单词为单位进行模式匹配来识别连续语音,这就是所谓连续单词语音识别。但是,对连续语音进行分割是困难的,主要因为连续语音句子中各单词的发音之间通常是没有停顿的,即各单词之间不存在明显的边界。图7.1给出了对同一数字串的孤立发声和连续发声的例子。(2) 发音变化连续语音中各单词的发音通常都比较自然和随便(不像发孤立单词语音那样专注和认真),因而,各单词受协同发音的影响也更为严重。图7.1同一数字串的孤立发声(上部)
和连续发声(下部)的例子7.2连续单词语音识别的几种典型算法在连续单词语音识别系统中,假设输入连续语音是单词间没有停顿的单词组成的时河序列。该时间序列通常是以句子为单位的的(句子间通常有停顿),但句子中各单词间无间隔,因而存在着以下几个问题点:(1)单词序列的长度未知(不知有几个单词,但通常可取1到7个单词的长度)。(3)单词序列中各单词之间的边界未知,即我们只知道单词序列的起始点和终止点,但序列内的各单词之间的边界是无以知晓的。由于协同发音的影响,导致单词边界的模糊性。从而无法明确地确定单词的边界。当给定M个单词参考模式和L长的待识语音模式时,就可能有卜卩种组合的匹配序列。在实际应用中,这样的计算近乎不可能。连续单词语音识别可以用孤立单词语音识别技术来进行识别,但要对处理方法作一些修正。如比较流行的算法有:两级DP法(two-leveldynamicprogianuiuiig)>分层构造法(levelbuildmg)和一次通过法(onepass)。其基本思路是:连续单词语音识别系统的参考模式由孤立单词的参考模式按时间顺序动态接续组合而成,识别系统把待识连续单词语音和被接续起来的单词模式序列进行匹配比较,距离最短的单词参考模式之序列就为识别结果。图7.2为连续单词语音识别问题的示意图。即:设7= t(2),…,t(M)}表示待识语音的特征矢量的时间序列(待识语音模式),Rv= rv(2),rv(Nv)}表示单词v(v=l,2,•…V)的参考矢量的时间序列(单词参考模式),则连续单词语音识别问题就是如何寻找与卩最为匹配、最佳的单词参照模式的序列。这里,若设最佳单词参照模式的序列R*由L个单词参照模式连接组成的话,则R*={Rq"QRqqQ.ORqg},(1Wq*(l)WV)图7・2连续单词语音识别问题的示意图7.2.1两级DP法(two-leveldynamicprogramming)(1)第一级计算以输入语音的所有时点为始端b,在所有单词参考模式之间,把终端自由的单端点e移动进行DP匹配,计算并存储该部分区间(b,e)的最小匹配距离及与之对应的单词指针。这一级的具体计算步骤为:将各单词的参考模式…,V)与待识模式T中的任意部分(b,e)进行DP匹配,求出最小匹配距离D(v,b,e)。eD(v,b,e)=iiun{Lr/w(m))},(b=l,…,M;e(>b)=l,M)
何m)m・b (V=l,…,V)对所有&逑D(v、b,e)的最小匹配距离D(b,e),并记录与该参考模式所对应的单词编号用(b,e)oD(b,e)=niin{D(v,b,e)}v^V
N(b、e)=arginin{D(v,b,e)}
严v^V图7.3为如何计算任意起始帧b和终止帧e之间的最佳累计距离$©亡)的示意图。终止帧C终it帧终止帧C终it帧e图7.3计算任意起始更b和终止帧e之间的
最佳累计距离D(b,e)的示意图第二级计算图7.4以e为终止帧的路径序列根据(1)图7.4以e为终止帧的路径序列如图7.4所示,先着眼于e点,利用k个连接的参考模式序列来定义到达e点(帧)的最佳路径的距离瓦(亡)。Dk(e)=mm{D(b,e)+Dk-i(b-1)}即:在帧e终止、且由k个参考模式连接而成的最佳路径,正好相当于使用k-1个参考模式连接到达b・l点的距离,再加上从b点到达e点的最佳路径的距离,然后找出全体距离为最小的b点。这一级的具体计算步骤为:初始化 Do(O)=0,Dk(0)=8,1WkWKg置k=l,计算Di(e)=D(l,e),2WeWM迭代计算(k=I,…,KZD2(e)=nmi{D(b,e)+Di(b-1)},3WeWMl^b<e^(e)=nun{D(b,e)+D2(b-1)},4WeWMl^b<eDt(e)=min{D(b,e)+Dk-i(b-1)},k+1WeWMl^b<e④最终解D*=inin{Dk(m)}最后,通过路径回溯,便町得到实际参考模式的单词序列。7.2.1分层构造法(levelbuilding)这里的层,指的是假设单词序列中单词的数目。分层构造法就是一个一个地增加连接的单词数量(层数),一边求出输入语音和连接单词序列的匹配距离,找出最佳单词序列。因此,为了识别一个由L个单词构成的单词序列,至少要构造L层。分层构造法算法的具体步骤为:(1)在第1层,以输入语音的起始点为始端,对所有单词参考模式进行终端自由DP匹配。如图7.5所示,从T的第1帧起,采用DTW方法先将其与最初的参考模式Ri进行非线性时河匹配。在待识语音帧mn(l)WmW 的范I韦I内,非线性时间伸缩路径将与皿最后的帧(第巴帧)相交。对每个非线性伸缩路径的终端帧,分别记录其各自的最小累计距离5/(111)0同样,从T的第1帧起,再将其与长度为N,的参考模式忌进行非线性时间匹配。这样通过匹配,便可以得到在m21(l)WmW】心(1)范围内的最佳匹配路径。这样,反复进行匹配计算,直到第1层V个单词的匹配全部结束为止。因此,作为第1层的输出就为与各参考模式相匹配而得到的最小累计距离及对应于其的终止帧的范附。即:Dd(m),mn(l)WmW11112(1)Dr(m),m2i(l)WmWDiv(m),mVi(l)WmWmV2(l)这里,将第1层的终端范ffl(mi(l)WmW1112(1))定义为如下:mi(l)=min{mvi(l)}l^v^V1112(1)=max{mV2(1)}l^v^V并记录以下列举的参数:D卢(m)=nun{D/V(m)}:第/层、到达第m帧时的最佳距离严产VN卢(m)=argnmi{D/V(m)}:与D卢(m)相对应的参考模式之指针到0^(111)之前的层的、最佳终端帧之路径回溯指针(2)接着从第2层后开始,把前一层获得的终端范围的最佳累枳距离看成是卞一层的始端匹配的初始值,然后进行两端点移动性DP匹配。如图7.6所示,在计算第2层时,其始端匹配的初始值范围就为:mg)WmW口⑴。然而,从第2层后开始,除了其初始值范鬧变宽以外,所采用的DTW方法与第1层的DTW方法在本质上是完全一致的。因此在第2层,对于参考模式乩的终端范闱是:mu(2)WmWmi:(2),而对于参考模式的终端范围则为:m2i(2)WmWm?2⑵。这样进行下去,便可得出第2层的终端范围:m】(2)=niui{mvi(2)}l^v^Vm:(2)=max{liiv:(2)}l^v^V并对mR2)WmWm«2)范闱内的各个帧,可以求得:D2B(m)>5^(01)和F2B(m)o重复操作至能够允许的最大层数Lmax,把输入语音终端的累计距离作为单词的识别结果。这里若用D*来表示最终结果的话,则D*就可以由下式求得。D*=nun{D卢(m)}图7.5分层构造法第1层计算方法示意图图7・6分层构造法第2层计算方法示意图为便于对分层构造法的基本概念有进一步的理解,图7.7给出了一个两单词参考模式(等长)的说明例子。在这个例子中,假设两单词分别为A和E,相应的参考模式分别为Ra和另外,假设仅计算到第4层,即:1=4。如图7.7所示,对这个例子来说,在第1层有6个终端帧存在,待识语音的起始2帧的最佳匹配对应于参考模式接下去4帧的最佳匹配则对应于参考模式R”在第2层有10个,第3层有6个,第4层则有1个对应于第M帧的终端存在。这样,再通过沿着一条在m=M帧终止的最佳路径向前回溯,就可以得到如下所示的最佳的参考模式序列尺叫这时,待识语音的帧5e2,6和6就对应于序列M中的4个单词的最后一个帧。R*={RQR.GRQ心}7.2.3一次通过法(onepass)识别系统的输入是连续语音,参考模式是孤立单词模式。连续语音与孤立单词参考模式比较仍采用动态规划的算法,即找出最佳时间匹配路径。如图7.8所示,与孤立单词识别不同的是,现在的时间匹配路径可以离开一个参考模式的终点并进入另一参考模式的起点。为此,动态规划
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年海洋牧场装备财产综合险投保与理赔实务
- 畜禽饲料科学配比:从营养需求到精准配方
- 2026年跨境数据传输合规审计操作指南
- 2026年载人潜水器水下作业机械手操作与维护规范
- 2026年大模型算法框架与硬件系统协同创新实践
- 2026年摄像头像素提升与ISP处理能力匹配
- 2026年银发经济示范区家庭养老床位建设与服务包设计
- 2026年远程监护平台与可穿戴设备整合实现医院到家数据贯通
- 2026年对韩贸易RCEP与中韩FTA并用策略设计
- 2026四川宜宾江安县人力资源和社会保障局第一次招聘编外聘用人员14人备考题库带答案详解(培优b卷)
- 2025年文化旅游演艺产业集群人才培养可行性研究
- 2026河北衡水恒通热力有限责任公司招聘28人笔试备考试题及答案解析
- 2026届甘肃省兰州市下学期高三一模物理试题(含答案)
- 1.3“开元盛世”与唐朝经济的繁荣 课件(内嵌视频) 2025-2026学年统编版七年级历史下册
- 初中英语语法填空专项练习含答案解析
- 2026年人教版三年级下册数学全册教学设计(春改版教材)
- 华为班组长培训课件
- 电力线路巡检报告模板
- 劳务合同2026年合同协议
- 高中数学资优生导师培养模式与教学资源整合研究教学研究课题报告
- 鼾症科普宣传课件
评论
0/150
提交评论