已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于kohonen神经网络的语音特征轨迹的可视化 上海交通大学网络学院基于kohonen神经网络的语音特征轨迹的可视化摘 要目前在语音识别处理领域有着诸多方法,其中的基本处理手段大都基于对语音特征矢量的比对分析,因为语音特征量能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性,可以成为比对分析的依据。但是特征矢量抽象、不直观,给比对分析造成一定的困难。若能找到一种直观、简便的方法直接展现不同语音的特征矢量将给语音特征的辨识带来很大便利。本文针对语音特征轨迹可视化展现的方法进行了探讨:(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的mfcc特征提取方法给出了详细说明。(2) 对kohonen神经网络的实现原理进行了重点研究分析,对kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于kohonen神经网络将语音特征的轨迹进行可视化展现的方法进行了探讨。(3) 用matlab在pc机上实现基于kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。证明了语音轨迹在kohonen二维平面的可视性和直观性。论文以语音特征轨迹可视化的实现为中心,阐述了kohonen神经网络运用于语音特征轨迹可视化系统中的原理、建模方法以及可视平台的实现手段。本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三章对基于kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨论使用本文所述方法对语音特征轨迹实现可视化的效果;最后一章为总结和展望。关键词:kohonen神经网络,自组织特征映射,语音识别,可视化the visualization of speech feature tracks based on kohonen neural networks abstractin the paper, the model of how to show the visualization of speech feature tracks is being discussed.first, investigates and analyzes the method of speech feature extraction and expound the main algorithm in the mfcc particularly and implement methods. second, discusses in detail the visualization of speech feature tracks with the methods based on kohonen neural network, finally, design and implement the visualization of speech feature tracks system used matlab at windows platform. the experiments show that speech feature tracks can be draw at kohonen two-dimensions plane.the paper is organized into six chapters: chapter 1 describes some concept, history and presents a brief overview of this design; chapter 2 mainly introduces some fundamental concepts of speech recognition and artificial neural network; chapter 3 discusses in detail the visualization of speech feature tracks method based on kohonen neural network. based on this research, author gives a system flow and every modules interface; chapter 4 discusses in detail the methods of every modules; chapter 5 specific implement methods and analyzes the test data with the methods; chapter 6 discuss the summing-up and vista.key words: kohonen neural networks,som,speech recognition,visualization目 录第一章前 言111语音信息处理的基本概念和现状11.1.1语音信息处理的各个领域112我的工作31.2.1工作目标31.2.2主要成果31.2.3本文的安排4第二章相关概念和基本原理521语音识别52.1.1语音学的相关知识52.1.2语音特征分析92.1.3语音识别算法1322神经网络的基本概念142.2.1人工神经网络的由来142.2.2人工神经网络的种类162.2.3 kohonen神经网络的原理182.2.4 kohonen神经网络的结构182.2.5 kohonen神经网络的特点192.3 kohonen神经网络用于语音特征分析的可行性20第三章系统实现2231系统框架223.1.1语音输入223.1.2语音采集233.1.3特征提取233.1.4 som网络23第四章每个模块采用的算法和数据结构2441语音采集2442特征量提取2543 som网络26第五章实验结果30第六章总结和展望32参考文献33致谢3435第一章 前 言11语音信息处理的基本概念和现状语音信号数字处理是指用数字化的方法对语音进行传送、存储、识别、合成、增强等处理,是数字化通信网中最重要、最基本的组成部分之一。应该说语音信号数字处理是一门涉及面很广的交叉科学,它与语音学、语言学、概率与数理统计以及神经生理学等学科都有非常密切的关系。1.11语音信息处理的各个领域l 语音识别(speech recognition)以语音信号处理为研究对象,用声音来进行特定范围的词语辨别。所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。所以,要提高系统克服这些因素影响的能力,使系统在不同的应用环境、条件下性能稳定,根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。l 说话人识别(speaker recognition)它并不注意语音信号中的语义内容,而是希望从语音信号中提取出个人的特征,力求挖掘出包涵在语音信号中的个性因素,强调的是不同人之间的差别。说话人识别多用于保安领域,如机密场所的进入控制、身份核查、合法使用通信线路、电子银行转帐业务的安全检查等。l 说话人区分(talker separation)从多个说话人的混合话音信号中提取每个人的语音信号。由于混合语音信号往往是通过单声道进入处理系统,不同说话人的基音和共振峰往往交叉或重叠,所以区分起来难度很大。l 语言辨识(language identification)区分所处理的语音属于哪一种语言。这是一件相当困难的事,因为难以表征某种语言特有的参量。加之说话人的多种多样性,不同地区的口音和发音习惯更增加了问题的难度。l 语音编码(speech coding)语音信号编码可分成两大类。第一类是编码存储回放系统,或称数字语音录放系统;第二类是编码传输解码系统,或称数字电话通信系统。数字语音录放系统具有灵活性高、可控性强、寿命长等优点,广泛应用在诸如数字录音电话、语音信箱、电子留言簿、发声字典、多媒体查询系统等。数字语音通信系统具有抗干扰性强、保密性好、易于集成化等优点,因此目前语音通信系统都在向数字化方向发展。在数字语音通信系统中,不仅要求能够实时编解码,往往还有抗信道误码等要求。l 语音合成文-语转换(text-to-speech conversion)以文字串为输入的规则合成系统。其输入的文字串是通常的文本字串,文本分析器首先根据发音字典将输入的文字串分解为带有属性标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定重音等级和语句结构及语调、各种停顿等,这样,文字串就转变为代码串。规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。文-语转换系统除了依赖各种语义学、语音学、词规则外,还必须对文字内容有正确理解,这就涉及语用学以及篇章学问题,也就是自然语言的理解问题,所以真正的文-语转换系统实际上是一个人工智能系统。l 语音增强(speech enhancement)语音增强在一定意义上也可以说是实现一种说话人区分。只不过所区分的不是来自其他说话人的语音干扰,而是区分出在背景中的噪声。因为噪声对语音的识别精度有着重大的影像。在实际生活中背景噪声环境十分复杂,有相对固定的环境噪声,如风机声,机械传动声等,这类为窄带噪声;还有一类噪声为宽带白噪声,其频谱很宽,但与语音的相关程度很小;再有就是非平稳的随机噪声,其特征是复杂多变,语音增强的目的在于改善语音的质量,压制和弱化背景噪声,凸显出语音本体。u 在语音信息处理的各个领域,存在有诸多处理的类型和手段。其中中对语音特征的分析则是一种基础的处理方式,从语音特征入手可以对语音信息进行各种深入的比对分析和加工处理。u 对语音提取其相应的语音特征矢量的过程也就是将语音以一定的规则进行矢量化的过程,矢量化的结果是产生了一个高维度的语音特征矢量矩阵。这个矢量矩阵包涵了对相应的语音的特征的较为全面的描述。u 这个语音特征的矢量矩阵是抽象的和不容易直观理解的,从而也就对语音信息进一步的分析比对造成障碍。如果能够将其以一种比较直观的形式展现出来,将大大有利于对语音信息的深入处理。u 语音特征的可视表现方式有很多种,比如说波形图、频谱图、语谱图等(如【图11】所示),在对语音特征的表现方式上他们有着各自的优点,但也存在着不足。常常只是仅仅展现了语音的某些局部的特征,并不能全面涵盖语音的特征量,从而给语音信息的深入比对分析和加工处理带来了一定的困难。图1-1 几种语音信号的图谱12我的工作1.2.1工作目标探讨运用kohonen神经网络的原理,借助其自组织、竞争学习、聚类等的特点和优势,将语音特征的轨迹进行可视化展现的处理方法。以期利用语音特征轨迹可视化这种直观的表现方法,令其成为语音识别的前端处理“特征量相似性判断”的一种便捷的辅助工具。同时也是对kohonen神经网络二维输出平面上的语音特征轨迹能否成为语音相似性比对的一种可行方法的探讨。1.2.2主要成果(1) 对语音特征矢量在时域、频域、倒谱域的提取方式进行了分析,特别是对语音在倒谱域上的mfcc特征提取方法给出了详细说明。(2) 对kohonen神经网络的实现原理进行了重点研究分析,对kohonen神经网络的自组织特性、聚类特性、竞争学习等特性做了详细阐述。对基于kohonen神经网络将语音特征的轨迹进行可视化展现的方法进行了探讨。(3) 用matlab在pc机上实现基于kohonen神经网络的语音特征轨迹可视化系统,并对给定的语料进行语音特征轨迹测试。绘制出数字“0”“9”的kohonen二维平面语音特征轨迹图,以此证明语音轨迹在kohonen二维平面的可视化较为直观易辩。1.2.3本文的安排本文由六部分组成:第一章对本毕业设计的研究背景和设计目标作宏观介绍;第二章对本文中用到的相关概念和原理进行介绍;第三章对基于kohonen神经网络的语音特征轨迹的可视化的方法进行重点讨论,给出系统的框架,内部模块的功能描述和接口;第四章详细讨论每个模块的实现方法;第五章通过实验数据对模块功能进行测试,讨论使用本方法对语音特征轨迹实现可视化的效果;第六章为总结和展望。第二章 相关概念和基本原理21语音识别2.1.1语音学的相关知识 2.1.1.1声母和韵母音节是语音中最小的结构单位,也是人们可以自然地察觉到的最小的语音单位。普通话的音节一般由声母、韵母、声调三部分构成。一般说来,一个汉字的读音就是一个音节。它是由1至4个音素组成的。声母是音节的起始部分。普通话有22个声母,其中21个由辅音充当,此外还包括一个零声母(零声母也是一种声母)。声母后面的部分,普通话有39个韵母,其中23个由元音充当,16个由元音附带鼻辅音韵尾构成。因此,普通话的韵母是由元音或以元音为主要成分构成的。普通话的声母按照发音方法可以分为5类1:(1)塞音有6个(b、p、d、t、g、k);(2)鼻音有3个(m、n、ng,其中只有m、n作声母);(3)擦音有6个(f、h、x、sh、s、r);(4)边音有1个(l);(5)塞擦音有6个(j、q、zh、ch、z、c)。每个汉字字音结构由声母、韵母和声调三部分构成。通常被称为零声母的音节,也就是没有辅音声母的音节,例如安(n),这个字音不是辅音开头,而是用元音a开头的,这样的音节就是零声母音节。普通话的声母按照发音时声带振动与否又可分为清音、浊音两类。清音:声门完全封闭,这时声道不是受声门周期脉冲气流的激励而是利用口腔内存有的空气释放出来而发声。由于该气流通过一个狭通道时在口腔中形成湍流,因而明显的具有随机噪声的特点。相应的语音称为“清音”(unvoice)浊音:说话时两片声带相互靠近但不会完全封闭,这样声门变成一条窄缝。当气流通过这个窄缝隙时其间的压力减小,从而两片声带完全合拢使气流不能通过。在气流阻断时压力恢复正常,因此声带间的空隙再次形成,气流再次通过。这一过程周而复始的进行,就形成了一串周期性的脉冲气流送入声道。这一周期气流脉冲串的周期称为“基音周期”,其倒数称为“基音频率”,基音频率取决于声带尺寸和特性,也决定于它所受的张力。用上述方式发出的语音是“浊音”(voice)普通话声母中除了m、n、l、r为浊音外,其余都是清音。浊音的短时谱有2个特点:第一,有明显得周期性起伏结构,这是因为浊音的激励源为周期脉冲气流。第二,频谱中明显具有几个突起点,他们的出现频率与声道的谐振频率相对应。这些突起点称为“共振峰”,共振峰按照频率由低到高排列为第一共振峰、第二共振峰,相应的频率用f1、f2来表示。一般浊音中,可以辨别的共振峰有5个,其中前3个(尤其是前2个)对于区别不同语音是至关重要的。清音的短时谱没有上2个特点,他十分类似于一段随机噪声的频谱。声母是一种辅音,所有辅音的共同特点是发音是声道处于某种阻挡得状态。另一个重要特点在于这是一种动态特征很强的音(发音时发声器官的状态变化较大)辅音的短时频谱也随着时间而有很大变化。元音与辅音相反,发声时声道不受明显得阻挡,他的频谱结构相对稳定。2.1.1.2汉语数字“0”“9”发音的声韵特征本文所做的可视化实验数据就是基于数字“0”“9”语音发音的特征轨迹,所以在此对“0”“9”发音的声韵特征做介绍【图22】是汉语数字“0”“9”发音的的波形图(其中“1”发“yi”音)图2-2 汉语数字“0”“9”发音的的波形图汉语“0”“9”(又称为汉语数码语音)平均包含2.1个音素,存在大量音素相同的情况,例如“6”与“9”,其元音部分完全相同,只有辅音l与j不同。同样的现象还存在于易混淆的“0”“6”,“1”“7”“3”“4”和“2”“8”等语音对中5。汉语“0”“9”语音的辅音和元音列于【表21】中:数字 0 1 2 3 4 5 6 7 8 9元音 in i er an iz uiou i aiou辅音 l y / s s w l q b j表2-1 汉语数字“0”“9”发音的辅音和元音分布下面我们对汉语“0”“9”语音的辅音和元音作详细分析:辅音辅音分为浊辅音和清辅音两类:浊辅音汉语“0”“9”语音的浊辅音包括:半元音y、w,边音l、塞音b,它们由于声带发声,所以具有浊音的特征,具体表现为低频段100至400hz间能量较高。由于它们发声时声腔都要形成一定阻碍,不象元音发声时声道畅通,所以又具有辅音的特性,对于半元音y、w及边音l表现为640至2800hz间的频谱能量较元音为低,而塞音b的持续时间很短,我们难以利用其声学特征,因此对其不作讨论。清辅音汉语“0”“9”语音的清辅音包括清擦音s、不送气塞擦音j、送气擦音q。清擦音s非圆唇时的特点为能量分布下限很高,在4000hz以上,而主要能量集中于5000hz以上。j、q的同发声部位清擦音是x,所以它们的特征都表现为频谱上具有两个强频区,分布在3000hz、4000hz左右(非圆唇情况)。可见汉语“0”“9”语音的清辅音的能量主要都分布于高频部分1。元音汉语“0”“9”语音包含了汉语普通话中大部分的基本元音,它们都是靠声带发声,因此具有浊音性,频谱100至400hz间能量较高,而其区分于浊辅音的特征为640至2800hz间的能量较高。我们将以上分析总结于【表22】中: 浊 音 清 辅 音 元 音 浊 辅 音 声 学 特 征表2-2 汉语数字“0”“9”发音的辅音和元音特征频谱低频(0.1至0.4khz间)能量较高;频谱中频(0.64至2.8khz)能量较高频谱低频(0.1至0.4khz间)能量较高;频谱中频(0.64至2.8khz)能量较低频谱 高频(3.5khz 以上)能量较高2.1.2语音特征分析(各种特征矢量的提取)在语音信号数字处理过程中,对语音信号特征量的提取和分析是关键。语音特征的选择和计算中,对特征量的要求是:()能有效地代表语音特征,包括声道特征和听觉特征,具有很好的区分性;()各阶参数之间有良好的独立性;()特征量要计算方便,最好有高效的计算方法,以保证语音识别的实时实现。语音特征分析大体上有时域、频域、倒谱域等分析方法2.1.2.1时域特征量有短时平均能量、跨零数、自相关函数和幅差函数等。通常认为,语音信号具有短时平稳性,因此语音信号常被分段或分帧处理。一般来说每秒的帧数约为33100帧,视实际情况而定。短时平均能量信号流的分帧是采用可移动的有限长度窗口进行加权的方法来实现的。如直角窗w(n):(式21)当然,也可以采用其他形式的窗口来分帧。不同的窗口选择(形状、长度),将决定短时平均能量的性质。因此,我们可以定义以n为标志的某帧语音信号x(m)的短时能量en:(式22)在直角窗口时为:(式23)若令h(n)=w2(n),则可写成普遍式为:(式24)短时平均跨零数顾名思义,跨零是指信号通过零值,所以跨零数就是单位帧内信号值通过零值的次数。对于离散时间序列,跨零则是指序列取样值改变符号,跨零数则是每个样本的改变符号的次数。短时平均跨零数的定义为如【式25】所示:(式25)zj:第j帧语音信号的短时平均跨零数(式26)一般而言,浊音具有较低的跨零数,而清音具有较高的跨零数。因此,也可以用短时平均跨零数zn作为粗略估计其频谱性质的参数。在语音处理领域中,短时平均能量和短时平均跨零数这两个参量,常被用于识别寂静段和语音段的始点和终点的位置(语音端点检测)。在背景噪声较小时用前者来识别较为有效,在背景噪声较大时用后者来识别较为有效。但在很多情况下,需要联合使用这两个参量。2.1.2.2频域特征量由于语音信号x(m)是短时平稳的随机信号,所以可写出某一帧的短时傅立叶变换的定义式如【式27】:(式27)这里w(n-m)是窗口函数序列。同样,不同的窗口函数,将得到不同的傅立叶式变换的结果。由【式27】可见,短式傅立叶变换有两个变量:n和,所以它既是时序n的离散函数,又是角频率的连续函数。与离散傅立叶变换逼近傅立叶变换一样,如令=2k/n,则得离散的短时傅立叶变换如【式28】:(式28)0kn-1,它实际上就是xn(ej)的频域的取样。这两个公式有两种解释:1)当n是固定时,它们就是序列w(n-m)x(m)(-m)的傅立叶变化或离散傅立叶变换;2)当或者k固定时,它们是一个卷积,即是信号序列与窗口函数序列的卷积。这相当于滤波器的运算。此外还有对应的反傅立叶变换,主要解决的问题是如何由xn(ej)来恢复x(n),或者说,就是如何由某短时谱来合成语音信号的问题,其中也同样遇到时域的取样率和频域的取样率的问题。2.1.2.3倒谱域特征量倒谱是信号经傅立叶变换所得功率谱取对数后的逆傅立叶变换,它可将周期脉冲与声道相分离,进而从语音信号中得到说话人的声道参数。一般选择线性预测倒谱系数(lpcc)和mel频率倒谱系数(mfcc)作为语音识别的参数。二者都是将语音从时域变换到倒谱域上,前者利用线性预测编码(lpc)技术求倒谱系数,后者则直接通过离散傅利叶变换(dft)进行变换。lpcc系数主要是模拟人的发声模型,是纯数学模型,未考虑人耳的听觉特性。它对元音有较好的描述能力,对辅音描述能力及抗噪性能比较差,而其优点为计算量小,易于实现。mfcc系数则考虑到了人耳的听觉特性,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果,具有较好的识别性能。由于它需要进行快速傅立叶变换,将语音信号由时域变换到频域上处理,因此其计算量和计算精度要求高。实验证明,采用这种技术,语音识别系统的性能有一定提高。本文所述系统实现中对语音特征量的提取就是采用的mfcc算法,在此对mfcc做相应介绍。 mfcc参数提取mfcc参数的基本思想是将语音的频域从线性频标变换为mel频标,以符合人耳的听觉特性,其具体步骤为:1 假定已有一帧采样语音,n为帧长。为方便后面所需的fft,我们取n256。对加hamming窗后作n点fft,将时域信号转化为频域分量。2 将线性频标转化为mel频标。转化方法是将频域信号通过一系列三角滤波器。三角滤波器的中心频率间隔特点是在1000hz以下为线性分布,1000hz以上为等比数列分布。对于“0”“9”的数码语音,其频域范围为0至5500hz,在其中安排24个滤波器,其中心频率值分布如【表23】所示 序号 1 2 3 4 5 6 7 8频率值(点) 2 4 6 8 10 12 14 16频率值(hz) 86 172 258 344 430 516 602 688 序号 9 10 11 12 13 14 15 16频率值(点) 18 20 22 24 26 29 33 36频率值(hz) 774 860 946 1032 1118 1247 1419 1548 序号 17 18 19 20 21 22 23 24频率值(点) 41 47 53 61 70 81 94 110频率值hz1763表2-3 三角滤波器中心频率分布表 2021 2279 2623 3010 3483 4042 4730 三角滤波器的输出则为(式29) ,i = 1,2,.,24 其中为第i个滤波器的输出。3.用离散余弦变换(dct)将滤波器输出变换到倒谱域:(式210) ,k = 1,2,.,p 其中p为mfcc参数的阶数,我们取p12。即为所求的mfcc参数。求出mfcc参数后,我们按倒谱权重公式【式211】对其进行加权,并按差分倒谱公式【式212】计算差分mfcc参数。最后我们可以得到24维的特征矢量用于识别。(式211) , (式212) , mfcc参数的优点与lpcc参数相比,mfcc参数具有以下优点:1 语音的信息大多集中在低频部分,而高频部分易受环境噪声干扰。mfcc参数将线性频标转化为mel频标,强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。lpcc参数是基于线性频标的,所以没有这一特点。2 mfcc参数无任何前提假设,在各种情况下均可使用。而lpcc参数假定所处理的信号为ar信号,对于动态特性较强的辅音,这个假设并不严格成立,而汉语“0”“9”语音识别需要对辅音有较强的分辨能力,如“6”“9”,“1”“6”等,所以mfcc参数在汉语“0”“9”语音识别中优于lpcc参数。另外,当噪声存在时会给lpc分析的结果带来较大误差。因此,mfcc参数的抗噪声能力也优于lpcc参数。2.1.3语音识别算法现在应用较为广泛的语音识别的算法主要有以下几种:动态时间规整、离散隐马尔可夫模型、连续隐马尔可夫模型、人工神经网。2.1.3.1基于动态时间归整匹配的dtw算法从目前来看,这可能是一个最为小巧的语音识别的算法。其系统开销小,识别速度快,在对付小词汇量的语音命令控制系统中是一个非常有效的算法。 2.1.3.2基于统计的hmm算法这可能是目前最为成功的一种语音识别模型和算法了。目前所能见到的各种性能优良的连续语音的识别系统几乎无一例外地采用了这种模型。这是因为这种数学模型出现的时间较早,人们对它的研究也比较深入,已建立起了完整的理论框架。从80年代初人们开始用这种模型来描述语音信号后,就不断有人对它进行各种改良和发展。这种隐含马尔可夫模型的算法是将语音看成是一连串特定状态,这种状态是不能被直接观测到的(例如这种状态可以是语音的某个音素),而是以某种隐含的关系与语音的观测量(或特征)相关联。而这种隐含关系在hmm模型中通常以概率形式表现出来,模型的输出结果也以概率形式给出。这为系统最后给出一个稳健的判决创造了条件。如今,各种形式的hmm模型和算法已日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,制定了最佳的搜索和匹配算法,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。因此,hmm语音识别模型与算法是迄今为止最为完美的一个语音识别模型,从中也可看出完美的理论体系对研究工作所起的重要的指导作用。hmm技术非常有效,但是hmm要求大数据量的训练,以确定多种hmm参数。同时,hmm的不少参数和hmm的组构在很大程度上还依赖于经验调整。这些情况增加了应用hmm的困难。 2.1.3.3基于神经网络的训练识别算法近年来,并行分布式处理系统,或者说人工神经网络也成为热点,并被认为有可能解决语音识别问题和其他认知问题。人工神经网络已被研究多年。这些神经网络的模型主要是尝试着去模仿人类的神经系统,因为人类的神经系统在语音、听觉、影像和视觉方面均有很完美的表现,所以也期望这些模型能够在这些方面有出色的成果。神经网络的架构就是来自于现今对人类神经系统的认识。常用的神经网络语音识别模型大都是基于bp算法的各种模型,或者是由其演变而来的模型,如dnn、npn、tdnn等。当然也有基于self-organize feature map(自组织)算法的模型,本文所探讨的语音特征轨迹的可视化也正是期望能够基于自组织的kohonen神经网络的帮助下对多维的语音特征量进行处理,从而得到一个相对比较简约直观的二维平面上的语音特征轨迹输出 22神经网络的基本概念2.2.1人工神经网络的由来1. 生物神经元的特点一个典型的神经元可分为 (1)细胞本体 (soma)、(2)轴突 (axon)、以及(3)树突 (dendrites) 等三部份,见【图23】。图23 生物细胞的神经组织图树突的主要功能就是接受其它神经元所传递而来的信号。若导致位于轴突丘的细胞膜电位超过某一特定阀值(threshold)时,则所谓的活化电位(action potential) 的脉冲就会被激发出来。藉由管状的轴突传递至其它相连接的神经元。轴突的终点处是突触,这种细胞间的信号传递(见【图24】)以化学性的方式居多。 图24 神经信号的传递图当神经细胞被刺激时,在树突部位的细胞膜的特性会被改变,使得钠离子可以进入细胞內,导致细胞膜电位的改变,这种电位称为层次电位,其振幅与刺激强度成正比,并且会随着传递距离的增加而衰减。所有位于树突上,因刺激而引起的电位变化,都会朝向位于细胞本体上之轴突丘方向传递,若这些信号的综合效果,导致轴突丘的细胞膜电位的增加,而且超过某一特定的阀值(如 -55mv)时,则活化电位会被激发,见【图25】。 图25 细胞的活化电位活化电位以一种振幅大小不变的方式,沿着轴突方向传递。刺激强度的信息与活化电位的发生频率有关,而与其振幅的大小无关,其传递的速度与轴突的直径大小以及轴突上的细胞膜的电容及电阻性有关。 2. 人工神经网络在实际的神经网络中(比如人的视网膜)存在着一种“侧抑制”现象当某个神经细胞兴奋后,通过它的分支会对周围其他神经细胞产生抑制。这种侧抑制使神经细胞之间出现竞争,虽然开始阶段各个神经细胞都处于程度不同的兴奋状态,由于侧抑制的作用,各细胞之间相互竞争的最终结果是:兴奋作用最强的神经细胞所产生的抑制作用战胜了它周围所有其他细胞的抑制作用。自组织竞争人工神经网络正是基于上述生物结构和现象形成的。它能够对输入模式进行自组织训练和判断,并将其最终分为不同的类型。自组织映射(self-organizing map ; som)神经网络是一种非监督式学习网络模式,是由芬兰学者tuevo kohonen教授在1979年到1982年间所发展完成的一种以竞争架构为学习基础的人工神经网络模式,所以又称kohonen神经网络。一个典型的som人工神经网络的架构包括两个网络层 输入层和输出层,输入层的每个处理单元都是完全连接到输出层的每个结点上。图27 大脑皮质结构功能区域分布图神经细胞模型中还存在着一种细胞聚类的功能柱。它是由多个细胞聚合而成的,在接受外界刺激后它们会自动形成。一个功能柱中的细胞完成同一种功能。最常见的一个例子就是大脑结构的特性,入【图27】所示。大脑中有相似功能的脑细胞聚集在一块,譬如人类大脑中明显地有专门负责视觉、听觉、味觉等区块,也就是说脑神经细胞具有物以类聚的特性;生物细胞中的这些现象在som网络模型中有所反映。当外界输入不同的样本到som自组织映射网络中,一开始时输入样本引起输出兴奋的位置各不相同,但通过网络自组织后其输出处理单元会互相影响,当网络学习完成后,其输出处理单元相邻近者会具有相似的功能,而形成各聚类的输出群特定区域,它们分别代表了输入样本的分布,反映了输入样本的图形分布特征,所以som网络又常被称为特性图。2.2.2人工神经网络的种类 典型模型自适应谐振理论(adaptive resonance theory简称art) 神经网络属于非监督式网络,采用的是动态式的网络架构,也就是说,有足够数目的神经元等待被使用。由自适应谐振理论发展出来的有处理二元值输入的art 1及处理连续信号的art 2,除此之外,fuzzy art及artmap也是相关的网络。kohonen 网络(自组织映射图som)kohonen神经网络是本文的重点,其内容在下一节详细介绍反向传播(back propagation)网络输入层 隐藏层 隐藏层 输出层图28 bp网络结构图属于监督式学习网络,适合诊断、预测等应用。bp网络由许多单层网络所连接,而每一层的网络则由数个神经元(或称节点)组成,见【图28】。最初由werbos开发的反向传播训练算法是一种迭代梯度算法,用于求解前馈网络的实际输出与期望输出间的最小均方差值。bp网是一种反向传递并能修正误差的多层映射网络。当参数适当时,此网络能够收敛到较小的均方差,是目前应用最广的网络之一。bp网的短处是训练时间较长,且易陷于局部极小。bp网络一般由输入层、隐藏层和输出层三层架构。网络的训练方式包涵两个阶段:前馈阶段以及倒传递阶段。 hopfield网络(反馈式网络、联想记忆)【图29】图29 hopfield网络示意图离散的hopfield网络 hopfield网络的收敛特性是循环神经网络的代表,使用非同步的方式来更新神经元的输出,利用能量函数的局部极小特性来存储资料,网络收敛于某一稳定状态。 hopfield网络的应用范围很广,如类比/数位转换器的设计以及用来解决最佳化的问题按学习的方法分类generalized delta rule倒传递网络(mlp)hebbian learning自联想、异联想competitive learningkohonen soft-organizing feature map(som)主要学习算法有监督(有导师)与无监督(无导师)学习的区别l 有监督学习是从范例中学习(称为分类),训练是带有类标签的,新的数据是基于训练集进行分类的l 无监督学习是从观察与发现中学习(称为聚集),训练集是没有类标签的。一般提供一组属性,然后寻找出训练集中存在类别或者聚集。2.2.3 kohonen神经网络的原理som网络的基本原理便是计算输入的特征量映射至输出层每一处理单元的欧几里得距离(euclidean distance),而具有最小距离值的处理单元就是优胜单元并且将会调整它的连接权值,使其能够更接近原始的输入向量,而且此处理单元的邻近区域也会调整本身的连接权值,使自己与输入向量间的欧几里得距离能够减少。2.2.4 kohonen神经网络的结构som神经网络和一般人工神经网络最大的不同,就是将输出神经元安排在有前后关系的直线或平面上;而这种特征映射最大的目的,就是要将高维度的特征,映射至一维或二维的输出神经元阵列,如【图210】所示。输出层(又称竞争层)权重输入层(又称感知层)图210 kohonen神经网络结构图输入层:用以表现网络的输入变数,即训练范例的输入向量,或称特征向量,其处理单元数目依问题而定,每一个处理单元代表着输入向量的每一个元素,亦即该输入资料所拥有的特征。使用线性转换函数,即f(x)=x。输出层:用以表现网络的输出变数,及训练范例的聚类,其处理单元数目依问题而定。其结构本身有网络拓扑以及邻近区域(neighborhood)的概念。网络连结:每个输出层处理单元与输入层处理单元相连结的权数所构成的向量,表示一个输入特征值向量对应训练范例聚类的标量。当网络学习完毕后,其输出处理单元相邻近者会具有相似的连结权数。2.2.5 kohonen神经网络的特点1. 墨西哥帽效应图211 侧向联结作用在许多生物的脑部组织中会有大量的神经元,他们彼此之间信息交互方式有很多种,不过研究表明,相邻近的神经元之间的局部交互的方式有“侧向联结”,如【图211】所示,侧向联结的回馈量通常是以“墨西哥帽函数”来代表如下的规律特征:(1)以发出信号的神经元为圆心,对近邻的神经元的交互作用表现为兴奋性侧反馈,形成侧向激发作用区域(2)以发出信号的神经元为圆心,对远邻的神经元的交互作用表现为抑制性侧反馈,形成侧向抑制作用区域(3)以包围着抑制区域的一个环形,形成一个强度较小的激发作用区域2. 自组织性人工神经网络作为一种自适应的模式识别技术并不需要预先给出关于模式的先验知识和判别函数,它通过自身的学习机制自动形成所要求的决策区域。网络的特征由其拓扑结构、节点特性、学习或训练规则所决定,它能充分利用状态信息,对来自不同状态的信息逐一训练以获得某种映射关系,而且,网络可以连续学习。当环境改变,这种映射关系可以自适应,以求对对象的进一步逼近。3. 聚类效应聚类 (clustering):简单说就是一个区域,满足该区域中的点的密度大于与之相邻的区域,也就是说将数据分成若干簇(cluster),簇内最大程度相似,簇间最大程度相异。与分类不同的是:聚类是“无监督的分类”(unsupervised classification)即无预定的分类规则因为只有与获胜节点相连的权值才能得到修正,通过其学习法则使修正后的权值更加接近其获胜输入矢量。结果是获胜的节点对将来再次出现的相似矢量更加容易赢得该节点的胜利。而对于一个不同的矢量出现时,就更加不易取胜,但可能使其他某个节点获胜,归为另一类矢量群中。随着输入矢量的重复出现而不断地调整与胜者相连的权矢量,以使其更加接近于某一类输入矢量。最终,如果有足够的神经元节点,每一组输入矢量都能使某一节点的输出为1而聚为该类。通过重复训练,自组织竞争网络将所有输入矢量进行了分类。所以,竞争网络的学习和训练过程,实际上是对输入矢量的划分聚类过程,使得获胜节点与输入矢量之间的权矢量代表获胜输入矢量。4. 非监督式(无导师)学习的特点从观察及发现中学习有导师学习是由老师为系统提供精确的数据而进行的一种学习。无导师学习是通过系统自身的学习来达到期望的学习结果所进行的一种学习。该学习不需要导师为系统提供各种精确的输入输出信息和有关知识,只需要提供所期望达到的目标和结果。由于提供给学习系统的信息减少,使得无导师学习的方法要比有导师学习的方法在实际上更困难、更复杂,相比之下,无导师学习的形式比有导师学习的形式更丰富。有导师和无导师学习的训练数据具有“传授知识”的作用。学习过程中的几个问题(1)过度训练或训练不足的问题若对输入训练的资料学习过度,可能会将资料中的杂讯学习进去,造成过度训练,对新资料的预测反而有不良的效果。若学习不足,亦无法作出太好预测,也就是训练不足。一般较重视的是过度训练的问题,因为若能收敛,表示已有相当的学习。(2)如何知道过度训练除了训练范例之外,另外准备一组测试范例。当网络对训练范例收敛时,测试范例是否也跟着收敛。解決过度训练的方法之一是更改误差的容忍度。(3)造成无法收敛的原因输入训练的资料內有极端状况或互相矛盾。输入训练的资料其排列顺序问题。所设定的误差容忍度太小。输出层內处理单元数目太少。学习率太大所产生的震荡现象。(4)前人的经验参数当学习速率愈大,网络会愈快收敛,但是网络的误差会比较大。网络的学习速率应不超过0.5 ,标准差不超过0.1 ,网络能获得较好的结果。5. 竞争式学习法使用竞争式学习法,只有其中的一个人工神经元会被活化,这个被活化的人工神经元就称为“得胜者(winner)”人工神经元。这种人工神经网络通常是被用来做群聚分析,在没有事先的分类资讯下,去发觉资料中本身的结构以及群聚关系。网络竞争的目的,是使权值w经过竞争后逐渐移动到能够代表输入矢量类别的点上。2.3 kohonen神经网络用于语音特征分析的可行性许多问题都可以转化为分类问题,神经网络是解决分类问题的行之有效的一类方法。神经网络以大量简单的单元(节点)通过复杂的相互链接后,并行运行实现其功能,系统的知识存储于网络的结构和各个单元(神经元)之间的连接权中。神经网络具有概括性强、分类精度高、抗噪声能力强等优点。kohonen网络使输入的语音特征样本通过竞争学习后,特征相同的输入靠得比较近,特征不同的分得比较开,以此将一些无规则的输入自动排开。也就是说,如果输入样本足够多,那么在输出层上也反映了输入量的概率密度分布,即概率大的样本集中在输出空间的某
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年全国事业单位统考《综合应用能力试卷》真题+答案解析
- 电信网络维护故障诊断与排除方案汇编
- 小学一年级数学强化训练题库
- 职场新人职业规划及时间管理手册
- 工业设备防雷测试合同协议范文
- 团队合作项目总结报告模板
- 幼儿自主性培养教学案例分析
- 2025年山东建筑大学建筑学(绿色建筑)专业考试试卷与答案解析
- 小学二年级数学逻辑推理课件制作
- 广播电视节目制作流程及脚本编写
- 消音百叶施工方案
- 铭记历史珍爱和平
- 学堂在线 人工智能 章节测试答案
- 2025全国硕士研究生政治考试完整真题及答案
- 运动会总结班会课件:比赛虽终拼搏不息
- ktv总经理合同协议
- 配送员食品安全培训课件
- 码头安全生产知识培训课件
- 2025中国葛洲坝集团易普力股份有限公司禹州分公司招聘22人(河南)笔试参考题库附带答案详解
- 2025年违规吃喝谈心谈话记录
- 生产现场成本培训课件
评论
0/150
提交评论