现代语音信号处理(Python版)教学课件第10章 语音识别N_第1页
现代语音信号处理(Python版)教学课件第10章 语音识别N_第2页
现代语音信号处理(Python版)教学课件第10章 语音识别N_第3页
现代语音信号处理(Python版)教学课件第10章 语音识别N_第4页
现代语音信号处理(Python版)教学课件第10章 语音识别N_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第10章语音识别 南京工程学院

梁瑞宇第10章语音识别概述语音识别原理与系统构成动态时间规整隐马尔可夫模型人工智能与语音识别性能评测第10章语音识别南京工程学院梁瑞宇10.1

概述语音识别主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关系。随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品在人机交互应用中,已经占到越来越大的比例。第10章语音识别南京工程学院梁瑞宇10.1

概述语音识别系统按照不同的角度、不同的应用范围、不同的性能要求有不同的分类方法:➢孤立词/连续语音?Isolated

or

Continuous

speech➢认人/不认人?Speaker-dependent

or

Independent➢小词汇量/大词汇量?Small

or

large

vocabulary➢安静环境/噪杂环境?Environment

robustness➢一般信道/电话信道?Channel

adaptability第10章语音识别南京工程学院梁瑞宇10.1

概述语音识别方法一般有模板匹配法、随机模型法和

概率语法分析法三种。虽然,这三种方法都可以

说是建立在最大似然决策贝叶斯判决的基础上的,但具体做法不同。模板匹配法——简单,但实用性不强随机模型法——主流的语音识别算法概率语法分析法——用于大长度范围的连续语音识别第10章语音识别 南京工程学院

梁瑞宇基于云计算服务的语音识别Siri和Voice

Actions分别作为当今两大智能阵营苹果

iOS

5和谷歌Android4.0的重点特征推出。它们都是语音输入服务,目的是让生活更加轻松简单,无需手动操作,通过说话就可以播放音乐、上网搜索、发送短信邮件。南京工程学院梁瑞宇第10章语音识别基本原理语音压缩包编码用户语音内容云服务器互联网上传识别本机识别器分析下载可以理解的语言选取识别可能性最高的片段进行优先处理根据用户最有可能的语音命令整理出一个候选列表,并陈列出来第10章语音识别 南京工程学院

梁瑞宇10.2

语音识别原理与系统构成10.2.1

基本构成第10章语音识别 南京工程学院

梁瑞宇基本构成语音识别系统的本质就是一种模式识别系统,包括前段预处理、后端模式识别以及训练模型等基本单元。预处理过程包括预滤波、采样、量化、分帧、加窗、预加重和端点检测甚至降噪。特征参数的提取,特征的数量和维度呈增加的趋势。语音识别系统分为两个主要阶段:训练阶段:将数据库中的语音样本进行特征参数提取,为每个词条建立一个识别基本单元的声学模型以及进行文法分析的语言模型,并保存为模板库;识别阶段:将待识别语音信号经过相同的处理获得语音参数,然后按照一定的准则和测度将待识别样本特征与训练样本特征进行比较,通过判决后得出识别结果。第10章语音识别 南京工程学院

梁瑞宇10.2.1

基本构成研究得最早也最成熟的孤立字(词)识别系统的特点包括:➢单词之间有停顿,可使识别问题简化➢单词之间的端点检测比较容易➢单词之间的协同发音影响较小➢一般孤立单词的发音都比较认真系统存在的问题较少,较容易实现,且其许多技术对其他类型系统有通用性并易于推广,如稍加补充一些知识即可用于其他类型系统。第10章语音识别 南京工程学院

梁瑞宇10.2.1

基本构成在语音识别中,孤立单词识别是基础。孤立字(词)识别的三个主要目标:➢扩大词汇量➢提高识别精度➢降低计算复杂度要达到这三个目标,关键问题是:➢特征的选择和提取➢失真测度的选择➢匹配算法的有效性第10章语音识别 南京工程学院

梁瑞宇10.2.2

前端处理语音特征提取的关键在于使语音识别的类内距离尽量小,类间距离尽量大。特征参数提取是语音识别的关键问题,特征参数选择的好坏直接影响到语音识别的精度。识别参数可以是下面的某一种或几种的组合:平均能量、过零率、频谱、共振峰、倒谱、线性预测系数、偏自相关系数、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。此外,美尔倒谱参数也是常用的语音识别特征参数。除了这些静态参数以外,上述参数的时间变化也反映了语音特征的动态特性,因此也常常被用于语音识别当中。提取的语音特征参数有时还要进行进一步的变换处理,如正交变换、主元素分析等,以达到特征降维的目的,减少运算量,提高识别性能的目的。第10章语音识别南京工程学院梁瑞宇10.2.3

关键组成*语音与语言模型语音模型一般指的是用于参数匹配的声学模型。而语言模型一般是指在匹配搜索时用于字词和路径约束的语言规则。现在公认的较好的概率统计模型是隐马尔科夫模型(HMM),可以根据环境和话者引起的特征参数的变动,实现非特定人的语音识别。对于汉语来说,音素、声母—韵母、字、词等都可以作为识别基本单元。但是,识别正确率和系统的复杂度(运算量和存储量等)之间总是存在矛盾。在汉语连续语音识别时,采用声母和韵母作为识别的参数基元、以音节字为识别基元,结合同音字理解技术以及词以上的句子理解技术的一整套策略,可望实现汉语全字(词)语音识别和理解的目的。第10章语音识别南京工程学院梁瑞宇10.2.3

关键组成*语音识别算法主流算法包括:基于参数模型的隐马尔可夫模型(HMM)——主要用于大词汇量的语音识别系统,它需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间基于非参数模型的矢量量化(VQ)方法——所需的模型训练数据,训练与识别时间,工作存储空间都很小,但是对于大词汇量语音识别的识别性能不如HMM好。基于动态时间规整(DTW)算法——应用在小词汇量、孤立字(词)识别系统人工神经网络(ANN)、ANN/HMM法、VQ/HMM法等。第10章语音识别南京工程学院梁瑞宇10.2.3

关键组成*语音识别算法用于语音识别的距离测度有多种,如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。选择什么样的距离测度与识别系统采用什么语音特征参数和什么样的识别模型有关,如线性预测系数和倒谱系数都有相应的距离测度。对于匹配计算而得的测度值,根据若干准则及专家知识,判决选出可能的结果中最好的结果作为识别结果,由识别系统输出,这一过程就是判决。在语音识别中,一般都采用K最邻近(KNN)准则来进行决策。因此,选择适当的距离测度的门限值是问题的关键,这往往需要大量实验来多次调整这些门限值才能得到满意的识别结果。第10章语音识别南京工程学院梁瑞宇10.2.3

关键组成*语音识别算法模式识别部分是将输入语音特征参数信息与训练时预存的参考模型(或模板)进行比较匹配。由于发音速率的变化,输出测试语音和参考模式间存在着非线性失真,即与参考模式相比输入语音的某些音素变长而另一些音素却缩短,呈现随机的变化。根据参考模式是模板或是随机模型,最

有效的两种时间规正策略分别是DTW技术和HMM技术。除了发音速率的变化外,相对于参考模式,测试语音还可能出现其他的语音变化,如连续/音渡/音变等声学变化、发音人心理及生理变化、与话者无关的情况下发音人的变化以及环境变化等。如何提高整个系统对各种语音变化和环境变化的鲁棒性,一直是研究的热点。第10章语音识别南京工程学院梁瑞宇10.3

动态时间规整10.3.1

基本构成系统首先对语音进行预处理,然后逐帧进行特征提取。语音识别系统选用美尔频率倒谱系数(MFCC)及其一阶和二阶差分作为特征参数。在识别阶段,系统选用动态时间规整(DTW)技术作为模式匹配算法,进行语音识别。第10章语音识别 南京工程学院

梁瑞宇10.3.2

动态时间规整基于模板匹配的语音识别算法需要解决的一个关键问题是说话人对同一个词的两次发音不可能完全相同,这些差异不仅包括音强的大小、频谱的偏移,更重要的是发音时音节的长短不可能完全相同,而且两次发音的音节往往不存在线性对应关系。第10章语音识别南京工程学院梁瑞宇10.3.2

动态时间规整直接匹配是假设测试模板和参考模板长度相等,即线性时间规整技术假设说话速度是按不同说话单元的发音长度等比例分布的,即3)DTW是把时间规整和距离测度计算结合起来的一种非线性规整技术,它寻找一个规整函数 ,将测试矢量的时间轴n非线性地映射到参考模板的时间轴m上,并使该函数满足:第10章语音识别南京工程学院梁瑞宇10.3.2

动态时间规整DTW算法的实质就是运用动态规划的思想,利用局部最佳化的处理来自动寻找一条路径,沿着这条路径,两个特征矢量之间的累积失真量最小,从而避免由于时长不同而可能引入的误差。DTW算法要求参考模板与测试模板采用相同类型的特征矢量、相同的帧长、相同的窗函数和相同的帧移。为了使动态路径搜索问题变得有实际意义,在规整函数上必须要加一些限制,否则找出的最优路径很可能使两个根本不同的模式之间的相似性很大,从而使模式比较变得毫无意义。第10章语音识别 南京工程学院

梁瑞宇10.3.2

动态时间规整通常规整函数必须满足:1)边界限制:规整发生在起点帧和端点帧之间,反映在规整函数上就是:单调性限制:规整函数必须保证匹配路径不违背语音信号各部分的时间顺序,即规整函数必须满足单调性限制:连续性限制:为了保证信息损失最小,规整函数一般规定不允许跳过任何一点。即:第10章语音识别南京工程学院梁瑞宇10.3.2

动态时间规整DTW算法分两步进行,

一是计算两个模式各帧之间的距离,即求出帧匹配距离矩阵,二是在帧匹配距离矩阵中找出一条最佳n

m路径。搜索路径的过程为:搜索从(1,1)点出发,点

(i,i)可达到的前个点只可能是(in+1

m,i)、n+1

m+1

n

m+1(i

,i )

和(i

,i )

。那么一定选择这三个距离中的最小者所对应的点作为其前续格点,这时此路径的累积距离为:第10章语音识别南京工程学院梁瑞宇10.3.3

算法的改进DTW算法虽然简单有效,但是动态规划方法需要

存储较大的矩阵,直接计算将会占据较大的空间,计算量也比较大。因此,在实际应用中会将DTW

算法进行一些改进以减少存储空间和降低计算量。常见的改进方法有搜索宽度限制、放宽端点限制

等。第10章语音识别 南京工程学院

梁瑞宇10.4

隐马尔可夫模型10.4.1

隐马尔可夫模型概述语音信号是时变的,所以用模型表示时,其参数也是时变的。HMM既解决了用短时模型描述平稳段信号的问题,又解决了每个短时平稳段是如何转变到下一个短时平稳段的问题。HMM是建立在一阶Markov链的基础之上的,因此它们的概率特性基本相同。不同点是HMM是一个双内嵌式随机过程,即HMM是由两个随机过程组成,一个随机过程描述状态和观察值之间的统计对应关系的,它解决了用短时模型描述平稳段的信号的问题;由于实际问题比Markov链模型所描述的更为复杂,观察到的事件并不像Markov链模型一样与状态一一对应,所以HMM通过另一组与概率分布相联系的状态转移的统计对应关系来描述每个短时平稳段是如何转变到下一个短时平稳段的情况。第10章语音识别 南京工程学院

梁瑞宇10.4.1

隐马尔可夫模型概述HMM是一个输出符号序列的统计模型,具

有N个状态,它按一定的周期从一个状态转移到另一个状态,每次转移时,输出一个符号。转移到哪一个状态,转移时输出什么符号,分别由状态转移概率和转移时的输出概率来决定。因为只能观测到输出符号序列,而不能观测到状态转移序列(即模型输出符号序列时,不能知道通过了哪些状态路径),所以称为隐藏的马尔可夫模型。第10章语音识别南京工程学院梁瑞宇设有N个缸,每个缸中装有很多彩色的球,在同一个缸中不同颜色球的多少由一组概率分布来描述。实验的步骤如下:根据某个初始概率分布,随机的选择N个缸中的一个缸,如第i个缸。再根据这个缸中彩色球颜色的概率分布,随机地选择一个球,记下球的颜色,记为o1,再把球放回缸中。又根据描述缸的转移的概率分布,选择下一个缸,如第个j缸,再从缸中随机选一个球,记下球的颜色,记为o2

。一直进行下去,可以得到一个描述球的颜色的序列o1

,o2

,

…,由于这是观察到的事件,因而称之为观察值序列。如果每个缸中只装有一种彩色的球,则根据球的颜色的序列o1

,

o2

,…,就可以知道缸的排列。但球的颜色和缸之间不是一一对应的,所以缸之间的转移以及每次选取的缸被隐藏起来了,并不能直接观察到。而且,从每个缸中选择什么颜色的球是由彩球颜色概率分布随机决定的。此外,每次选取哪个缸则由一组转移概率所决定。一个著名例子---球和缸的实验第10章语音识别南京工程学院梁瑞宇10.4.1

隐马尔可夫模型概述一个简单的三状态HMM(aab)S1->S1->S1->S3:0.3*0.8*0.3*0.8*0.2*1.0S1->S1->S2->S3:0.3*0.8*0.5*1.0*0.6*0.5S1->S2->S2->S3:0.5*1.0*0.4*0.3*0.6*0.5第10章语音识别 南京工程学院

梁瑞宇10.4.2

隐马尔可夫模型的定义1)离散Markov过程Markov链是Markov随机过程的特殊情况,即Markov链是状态和时间参数都离散的Markov过程。n阶Markov过程:一阶Markov过程:这里,Pij(t,t+1)是从当时刻t的状态i到时刻t+1的状态j的转移概率。当这个转移概率是与时间无关的常数时,称其为具有常数转移概率的Markov过程。第10章语音识别 南京工程学院

梁瑞宇10.4.2

隐马尔可夫模型的定义2)隐Markov模型HMM类似于一阶Markov过程,不同的是HMM是一个双内嵌式随机过程。如前所述,HMM由两个随机过程组成:一个是状态转移序列,它对应着一个单纯Markov过程;另一个是每次转移时输出的符号组成的符号序列。对于隐Markov模型,把所有可能的状态转移序列都考虑进去,则有:第10章语音识别 南京工程学院

梁瑞宇假定一段时间的气象可由一个三状态的马尔可夫模型M描述,S1:雨,S2:多云,S3:晴,状态转移概率矩阵为:如果第一天为晴天,根据这一模型,在今后七天中天气为O=“晴晴雨雨晴云晴”的概率为第10章语音识别南京工程学院梁瑞宇10.4.2

隐马尔可夫模型的定义i

i3)HMM的基本元素语音识别用HMM可以用下面六个模型参数来定义,即:S:模型中状态的有限集合,即模型由几个状态组成。在球与缸的实验中的缸就相当于状态。O:输出的观测值符号的集合,即每个状态对应的可能的观察值数目。在球与缸实验中所选彩球的颜色就是观察值。π:系统初始状态概率的集合。π

表示初始状态是s的概率,即在球与缸实验中,它指开始时选取某个缸的概率。第10章语音识别南京工程学院梁瑞宇10.4.2

隐马尔可夫模型的定义3)HMM的基本元素A:状态转移概率的集合。所有转移概率可以构成一个转移概率矩阵,即ij

i

j其中,a

(k)是从状态S

到状态S

时的转移概率。在球与缸实验中,其描述了选取当前缸的条件下选取下一个缸的概率。ij

ijB:输出观测值概率的集合。B={b

(k)},其中b

(k)是从状i

j态S

到状态S

转移时观测值符号k的输出概率,即缸中球的颜色k出现的概率。F:系统终了状态的集合。第10章语音识别南京工程学院梁瑞宇10.4.2

隐马尔可夫模型的定义3)HMM的基本元素严格来说Markov模型是没有终了状态的,只是语音识别的Markov模型要设定终了状态。因此,一个HMM可记为:可简写为:因此,HMM可分为两部分:一个是Markov链,由π

、A描述,产生的输出为状态序列;另一个是一个随机过程,由B描述,产生的输出为观察值序列。第10章语音识别 南京工程学院

梁瑞宇HMM的三个基本问题评估问题:对于给定模型,求某个观察值序列的概率P(O|λ)解码问题:对于给定模型和观察值序列,求可能性最大的状态序列maxQ{P(S|O,λ)}学习问题:对于给定的一个观察值序列O,调整参数λ,使得观察值出现的概率P(O|λ)最大赌场的欺诈某赌场在掷骰子时采用的作弊方法:在连续多次掷骰子的过程中,通常使用公平骰子A,偶而混入一个灌铅骰子B。AB0.90.10.2公平骰子灌铅骰子0.8第10章语音识别南京工程学院梁瑞宇骰子A骰子B1点1/602点1/61/83点1/61/84点1/63/165点1/63/166点1/63/8公平骰子A与灌铅骰子B的区别:第第1100章章语语音音识识别别

南南京京工工程程学学院院

梁梁瑞瑞宇宇时间1234567骰子AAABAAA掷出点数3345162一次连续掷骰子的过程模拟隐序列明序列查封赌场后,

调查人员发现了一些连续掷骰子的记录,其中有一个骰子掷出的点数记录如下:124552646214614613613666166466163661636616361651561511514612356234

…第10章语音识别 南京工程学院

梁瑞宇给定:一个骰子掷出的点数记录124552646214614613613666166466163661636616361651561511514612356234评估问题:会出现这个点数记录的概率有多大?求P(O|λ)解码问题:点数序列中的哪些点数是用骰子B掷出的?

求maxQ{P(S|O,λ)}学习问题:

作弊骰子掷出各点数的概率是怎样的?公平骰子掷出各点数的概率又是怎样的 ? 赌场是何时换用骰子的 ?南京工程学院梁瑞宇第10章语音识别本例中HMM的定义隐状态集:

S={骰子A,骰子B}明字符集:

V={1,2,3,4,5,6}初始状态概率:

π1=1,

π2=0隐状态转移概率

:a11=0.9,

a12=0.1a21=0.8,

a22=0.2初始状态明字符生成概率

:b11

=

b12=…=b16=1/6b21=0,

b22=b23=1/8,

b24=b25=3/16,

b26=3/81.001:1/62:1/63:1/64:1/65:1/66:1/60.80.90.21:02:1/83:1/84:3/165:3/166:3/80.1骰子A骰子B第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法t1)前向-后向算法——前向算法前向算法即按输出观察值序列的时间,从前向后递推计算输出概率。计算步骤:1)给每个状态准备一个数组变量α

(j),初始化时令初始状1

0

0态S的数组变量α

(1)为1,其它状态数组变量α

(j)为0;t

t2)根据t时刻输出的观察符号o

计算α

(j):T当状态S

到状态S

没有转移时,

α

=0;i

j

ij当t≠T时转移到2),否则执行4);把最终的数组变量α

(N)内的值取出,则:第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法2)前向-后向算法——后向算法后向算法即按输出观察值序列的时间,从后向前递推计算输出概率的方法。计算步骤:初始化:递推公式:(3)最后结果:第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法t2)维特比(Viterbi)算法计算步骤:1)给每个状态准备一个数组变量α

´(j),初始化时令初始1

0

0状态S的数组变量α

´(1)为1,其它状态数组变量α

´(j)为0;t

t2)根据t时刻输出的观察符号o

计算α

´(j):i

j

ij当状态S

到状态S

没有转移时,

α

=0;设计一个符号数组变量把每一次使α

´(j)最大的状态i保存下来;t3)当t≠T时转移到2),否则执行4);T4)把最终的数组变量α

´(N)内的值取出,则第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法3)Baum-Welch算法利用Baum-Welch算法进行HMM训练的具体步骤:1)适当地选择aij和bij的初始值。常用的设定方式为:给予从状态转移出去的每条弧相等的转移概率,即给予每一个输出观察符号相等的输出概率初始值,即并且每条弧上给予相同的输出概率距阵;第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法t3)Baum-Welch算法2)给定一个(训练)观察值符号序列O,由初始模型计算γ

(i,j)等,并且由重估公式计算以下两种概率;t3)再给定一个(训练)观察值符号序列O,把2)计算的概率作为初始模型计算γ

(i,j)等,由上述重估公式,重新计算两种概率;4)如此反复,直到两种概率收敛为止。第10章语音识别 南京工程学院

梁瑞宇10.4.3

隐马尔可夫模型的基本算法3)Baum-Welch算法模型收敛,停止训练的判定方法也很重要。因为并不是训练的越多越好,训练过头反而会使模型参数精度变差。一种判定方法是前后两次的输出概率的差值小于一定阈值或模型参数几乎不变为止;另一种判定方法是采用固定训练次数的办法,如对于一定数量的训练数据,利用这些数据反复训练十次(或若干次)即可。另外,训练数据的数量也很重要,一般来讲,要想训练一个好的HMM,至少需要同类别数据几十个左右。HMM训练(参数估计问题)是HMM在语音处理中应用的关键问题,与前面讨论的两个问题相比,这也是最困难的一个问题。第10章语音识别 南京工程学院

梁瑞宇10.4.4

基于隐马尔可夫模型的孤立字(词)识别利用HMM进行孤立字(词)语音

识别时,主要分为两个阶段,即训练阶段和识别阶段。假设总共有G个待识别的孤立字(词),在训练阶段,对于每一个孤立字(词)g,进行预处理和特征提取,得到的语音信号的特征矢量序列的集合作为观察值序列O(g)。然后,利用HMM的Baum-Welch算法估计出与当前孤立字(词)对应的HMM的参数M(g)。当所有孤立字(词)

HMM所对应的HMM参数估计出之后,训练过程结束。第10章语音识别 南京工程学院

梁瑞宇10.4.4

基于隐马尔可夫模型的孤立字(词)识别在识别阶段,对于任一待识别的语音X´,首先将其进行预处理和特征提取,得到对应的特征矢量序列O´。然后,利用

HMM的前向—后向算法计算该特征矢量序列在训练好的每个孤立字(词)HMM上的输出概率P(O´|M(g)),把输出概率最大的HMM所对应的孤立字(词)作为识别结果。第10章语音识别 南京工程学院

梁瑞宇10.5

人工智能与语音识别2009年,学者将传统的HMM-GMM中的声学模型替换为DBN-HMM模型,成功搭建了一个单音素的语音识别系统。随后,越来越多的神经网络架构被挖掘出来并成功应用在语音识别系统中,如DNN、CNN、RNN等。在语音深度识别领域中,端到端的学习模型逐渐成为这几年研究的热潮。与传统框架相比,

端到端的语音识别模型省去了繁杂的发音模型、声学模型、语言模型的分支,完成的是从语音

输入到文字输出的直接映射。第10章语音识别南京工程学院梁瑞宇10.5.1常用开源数据集一、英文数据集

1)LibriSpeech公开数据集中最常用的英文语料,其中包含了1000小时的16kHz有声书录音,并且经过切割和整理成每条10秒左右的、经过文本标注的音频文件,非常适合入门使用。数据取自LibriVox项目的已读有声读物。2)2000

HUB5

English

Evaluation

Transcripts该数据集由语言数据协会开发,由NIST(美国国家标准技术研究院)赞助的2000

HUB5评估中使用的40个英语电话对话组成。Hub5系列评估的重点是通过电话进行对话语音,其特殊任务是将对话语音转录为文本。第10章语音识别南京工程学院梁瑞宇二、中文数据集THCHS30是一个很经典的中文语音数据集,包含了1万余条语音文件,大约40小时的中文语音数据。它是由清华大学语音与语言技术中心出版。ST-CMDS是由AI数据公司冲浪科技发布的中文语音

数据集,包含10万余条语音文件,大约100余小时的语音数据。AISHELL-1是由北京希尔公司发布的一个中文语音

数据集,其中包含178小时的开源版数据。该数据集包含

400个来自中国不同地区、具有不同的口音的人的声音。

4)aidatatang_1505zh是数据堂推出AI数据开源计划面向高校和学术机构等非商业组织群体,首次开源的数据集为:1505小时中文普通话语音数据集。第10章语音识别南京工程学院梁瑞宇10.5.2语音唤醒√语音唤醒技术也称为关键词检测技术,是语音识别任务的一个分支,需要从一串语音流检测出有限个预先定义的激活词或者关键词,而不需要对所有的语音进行识别。√这类技术是嵌入式设备具备语音交互能力的基础,可以被应用到多种设备上,比如手机、智能音箱、机器人、智能家居、车载设备、可穿戴设备等。√通常,设备唤醒词是默认的或者预先设定的,大部分中文唤醒词是4个字,音节覆盖越多,其差异越大,相应的唤醒和误唤醒性能越好。第10章语音识别南京工程学院梁瑞宇常用特征√目前最常用的语音特征包括语谱和MFCC等。√基于对数表示的特征(如MFCC)会压缩动态范围,经过对数运算之后,放大了小幅值的动态范围,而压缩了大幅值的动态范围,比如安静语音幅值会占据大部分动态范围。其次,这些特征与语音响度强相关,而预期音量不应该对唤醒结果造成影响。√Google提出信道能量归一化的特征(per-channelenergy

normalization,PCEN):是采用一阶无限滤波其中,

是原始特征,器平滑之后的特征平滑系数。第10章语音识别南京工程学院梁瑞宇典型深度学习模型Google在2014年提出了用深度神经网络的方法来实现语音唤醒,称之为Deep

KWS。唤醒分为三个步

骤:特征提取、经过深度神经网络输出后验概率和后处理判决。首先对输入语音做特征提取,然后经过DNN网络得到一个三分类的后验概率,三分类分别对应关键字

Okey、Google和其他,最后经过后处理得到置信度得分,用于唤醒判决。第10章语音识别南京工程学院梁瑞宇2015年,Google提出基于CNN的KWS模型,典型的卷积网络结构含一层卷积层和一层最大池化层。相比DNN,CNN的优势在于:1)DNN不关心频谱结构,输入特征做任何拓扑变形也不会影响最终性能,然而频谱在时频域都有高度相关性,CNN在抓取空间信息方面更有优势;2)CNN通过对不同时频区域内的隐层节点输出取平均的方式,比DNN用更少的参数量,能克服不同的说话风格带来的共振峰偏移问题。但是,CNN建模的一个缺陷是:一般尺寸的卷积核不足以表达整个唤醒词上下文,而RNN正好擅长基于上下文建模。RNN的缺点在于无法表达连续频谱的空间关系,而CNN正好擅长基于空间关系建模。因此,语音任务中出现将CNN和RNN结合的CRNN模型结构,并以CTC作为损失函数,百度将这个模型结构应用在唤醒任务上,并大幅缩减了模型参数量。第10章语音识别南京工程学院梁瑞宇10.5.3

DeepSpeechDeepSpeech

V1百度研究团队于2014年底发布了第一代深度语音识别系统DeepSpeech。系统采用了端对端的深度学习技

术,也就是说,系统不需要人工设计组件对噪声、混响或扬声器波动进行建模,而是直接从语料中进行学习。团队采用7000小时的干净语音语料,通过添加人工噪音的方法生成10万小时的合成语音语料,并在

SWITCHBOARD评测语料上获得了16.5%的WER。当时的实验显示,百度的语音识别效果比起谷歌、

Bing与Apple

API而言优势明显。第10章语音识别南京工程学院梁瑞宇Deepspeech

V1的核心是一个RNN。每个时刻RNN

输出的是一个概率分布,表示这个时刻输出某个字符的概率。字符集包括a-z这26个字母,空格,撇号和空字符。第10章语音识别南京工程学院梁瑞宇DeepSpeech的模型包含5个隐层:前3层是全连接层,对于第1层,在t时刻的输入不只是t时刻的特征,而且还包括它的前后C帧特征,共计2C+1帧。前3层通过如下公式计算:第四层是一个双向的递归层,包含了两组隐藏单元,其中一组是前向递归,另一组是后向递归,计算公式为:第10章语音识别 南京工程学院

梁瑞宇第五层把第四层的前向和后向输出加起来当做输入最后一层是一个全连接层(无激活函数),它使用

softmax把输出变成对应每个字符的概率第10章语音识别南京工程学院梁瑞宇(2)DeepSpeech

V22015年年底,百度推出了DeepSpeech

2,它基于

LSTM-CTC的端对端语音识别技术,通过将机器学习领域的LSTM建模与CTC训练引入传统的语音识别框架里,提出了具有创新性的汉字语音识别方法。并能够通过深度学习网络识别嘈杂环境下的两种完全不同的语言——英语与普通话,而端到端的学习能够使系统处理各种条件下的语音,包括嘈杂环境、口音及区别不同语种。DeepSpeech2相对于v1来说,加深了其网络结构。共有9层网络,其中包括了双向RNN(或GRU),一层前瞻卷积,一层时序卷积以及三层CNN。在v2中使

用了GRU,GRU

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论