(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf_第1页
(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf_第2页
(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf_第3页
(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf_第4页
(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf_第5页
已阅读5页,还剩54页未读 继续免费阅读

(通信与信息系统专业论文)中文语音管辖音系学特征研究及自组织神经网络实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要摘要语音识别领域的大部分工作,或明确或含蓄的认为,语音识别是通过语言的子段单元或音素模型从而实现的,但是就目前而占基于语言学的框架的并没有多少实质性的研究成果。对于那些尚未验证的是否音系学是最终实现开放词汇,独立话者,多语种的突破点的理论而占,单从实际的角度将子段单元作为识别目标的优点己很显著。本文从提出管辖音系学理的基本理论入手,探讨这种新特征的在中文自动语音识别方向的优越性,并结合实验针对十个汉语孤立字完成自组织神经网络的建模和训练识别。主要工作包括以下两大部分:一g p 基本理论和中文语音单元的g p 表征研究:1 ) g p 理论认为所有语言的语音最终都可以被分解为一系列的基本单元,称为基石。这些基元可以单独构成也可以以组合的形式构成。每一个基元对对应其本身独特的声波标记图,而这个标记图是不随着语言不同和说话者不同而变化的。2 ) 本文结合中文的语言特点,根据已有的汉语英语音素对应关系,总结并得出中文语音单元所对应的g p 表示,为进一步的实验提供数据训练准备。二基于g p 特征表达的十个汉语孤立字的自组织神经网络的构建和训练识别1 ) 自组织竞争神经网络的选取、特性和优点:网络结构简单,适合小词汇孤立字识别,所需训练数据较少,实时性比较好。2 ) 基于m a t l a b 7 0 的自组织神经网络的构建,训练和识别。包括十个9 维样本向量的转化和预处理,训练样本向量的选取,网络建立和训练,测试向量的转化,和最终网络的测试并在误差允许的范围内取得较好的识别效果。从以上的分析论述,我们可以得出结论,g p 理论在语音识别领域中具有十分广阔的发展前景,并且随着英语体系下g p 理论的不断完善和发展,其在中文方面的应用也同样具有广阔的发展前景,并必将开拓汉语语音识别的一个全新的领域。关键词语音识别神经网络自组织神经网络管辖音系学特征基元a b s t r a c tt h em a j o r i t yo fw o r ki ns p e e c hr e c o g n i t i o na s s u m e s ,e x p l i c i t l yo ri m p l i c jt l y ,s o m ek i n do fs e g m e n t a lo rp h o n e m i cm o d e lo fs p e e c h ,d e s p i t et h ef a c t t h a ti nm o d e r nt h e o r e t i c a lp h o n o l o g yv i r t u a l i yn ow o r ki sc a r t i e do u ti nt h i sf r a m e w o r k f o rt h o s en o ty e tc o n y i n e e dt h a tp h o n 0 1 0 9 yc a np r o v i d et h eb r e a k t h r o u g ht ot h eu l t i m a t eg o a lo fo p e n v o c a b u l a r y ,s p e a k e r i n d e p e n d e n t ,m u l t i l i n g u a la s r ,t h ea d v a n t a g e so fu s i n gs u b s e g m e n t a lu n i t sa sr e c o g n i t i o nt a r g e t sa r ec o m p e l l i n gf r o map u r e l yp r a c t i c a lp o i n to fv i e wa sw e l l i w eo u t l i n et h ea d v a n t a g e sa n di n t r o d u e et h isp h o n o l o g i e a lt h e o r yk n o w na sg o v e r n m e n tp h o n o l o g y ( h e n c e f o r t hg p ) a n di t su s ei nt h ec h i n e s el a n g u a g es y s t e m 1 ) g pt h e o r yb e l i e v e st h a ta 1 1s p e e c hs o u n d si na 1 1l a n g u a g e sc a nb er e d u c e dt oas e to fp r i m i t i v e s c a l l e dp r i m e s 2 ) f r o me n g l i s ht oc h i n e s e ,w et r yt oa d o p tt h i st h e o r yt oe x p r e s sc h i n e s ew o r d sw it hg pe l e m e n t s ,a n dg e tt h ep h o n o l o g i c a le x p r e s si o n 。i i s e l f - o r g a n i z i n gn e u r a ln e t w o r ks e tu pa n dt r a i nb a s e do nm a t l a b7 01 ) s o n nt a k e st h ea d v a n t a g eo fm o r er e li a b l ea n dr o b u s tt h a nt h eo t h e rp a t t e r nr e c o g n i t i o ns y s t e m 2 ) t h ee x p e r i m e n ts i m u l a t eu s i n gm a t l a b7 0 ,g e n e r a t e das e r i e so fs a m p l ev e c t o r sa n dt r a n s f e r r e dt ot r a int h es e t u pn e t w o r k ,t h e na n o t h e r1 0t e s tv e c t o r sw e r eg e n e r a t e di nt h es a m ew a yt op e r f o r mt h ef i n a lt e s ta n dr e a l i z a t i o n t h er e s u l t st u r n so u tt ob ev e r yg o o da n dw ea s s u m et h a tg pt h e o r yh a sav e r yp r o m i s i n gf o r e g r o u n di nt h es p e e c hr e c o g n i t i o nf i e l da n dw i t ht h ed e v e l o p m e n to fg pi ne n g l i s hl a n g u a g es y s t e m ,t h ea p p l i c a t i o no fg pt h e o r yi nc h i n e s ew i l la l s om a k eg r e a tc o n t r i b u t i o n st om a n d a r i ns p e e c hr e e o g n i t i o n k e y w o r d s :s p e e c hr e c o g n i t i o n ,n e u r a ln e t w o r k ,g o v e r n m e n tp h e n o l o g y ,e l e m e n t ,s e l f - o r g a n iz i n gn e u r a ln e t w o r k华南理工大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名:0 氟a 、目期:2 醇年6 月芦学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权华南理工大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密口,在年解密后适用本授权书。本学位论文属于不保密囱。( 请在以上相应方框内打“4 ”)作者签名:导师签名:j 釉氰穆甭节日期:正的多年6 月c 日日期:1 舻月9 日第一章绪论第一章绪论语音识别,又称为自动语音识别( a u t o m a t i cs p e e c hr e c o g n i t i o n ,简称a s r ) ,属于多维模式识别和智能计算机接口的范畴。其研究目标是使机器通过识别和理解的过程把语音信号转化为相应的文件文本或命令,从而达到理解语音所要表达的意图并作出反应。语音识别的研究与声学、语音学、语言学、人工智能、数字信号处理理论、信息理论、模式识别理论、最优化处理理论和计算机科学等学科紧密相连“。语音识别技术有着广阔的应用前景和市场前景。众所周知,随着计算机应用的普及,许多复杂和繁琐的工作都可以由计算机来完成。通常,人机交互由键盘和鼠标来完成,然而语音是人类最自然表达方式,人们已经习惯于通过语音来进行交流和控制;在各种电话查询业务中,包括现在流行的c t i 呼叫中心和c r m 客户关系管理系统,传统的做法是客户拨打电话,服务器端安排专门的接线员负责接听和应答,这对成本控制和执行效率都非常不利;各种通信终端核心部分在集成电路设计水平的不断发展的今天,功能更强大的同时体积也越来越小,但是键盘输入的模式限制了其进一步的发展。目前语音识别技术得以广泛应用的有:声控电话交换、语音拨号系统、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、订票系统、声控智能玩具、医疗服务、银行服务、股票查询服务、听写机、计算机控制、工业控制、语音通信系统等等“。随着语音识别技术的不断成熟与发展,在实际应用中植入功能强大的语音识别模块,有望为这些领域带来更为革命性的进步。长期以来,许多国家都对语音识别的研究给予了高度重视,如美国国防部的a r p a 计划和d a r p a 计划组织美国的多所著名院校进行语音识别研究。许多世界著名的跨国大公司也有专门从事语音识别的研究小组,如i b m 、m i c r o s o f t 、a p p l e 、a t & t 等。根据应用的不同,语音识别大致可以分为两类:讲话者识别和语音识别。其中,讲话者识别又可以分为:1 讲话者辨别。讲话者辨别是判定某一待识别的语音是个讲话人当中哪一位的语音,其输出又个可能的结果,所以这属于闭集辨识的范畴;2 讲话者核实。讲话者核实是判定某一待识别的语音“是或不是”某一特定讲话者的语音。华南理工大学硕士学位论文而语音识别的识别结果是讲话者所讲的语音内容。除非特别指明是讲话者识别,一般意义上的语音识别就是指这类内容的语音识别。在这类语音识别系统中,又有下面几种不同的分类方法”1 :1 从所要识别的单位来分,可以分为孤立字( 词) 语音识别、音素识别、音节识别、连接字语音识别和连续语音识别等;2 从讲话语音的来源来分,有特定人的语音识别和与话者无关的语音识别;3 从识别的词汇量来分,有小词汇量( 少于1 0 0 个) 、中词汇量( 1 0 0 5 0 0个) 、大词汇量( 5 0 0 个以上) 之分。连续语音识别是与孤立词识别相对应的,是指对连续发的语音,或者蜕是正常发音速度的语音的识莉。连续语音识别比孤立词语音识别难度要丈,这是因为连续语音造成语句中相邻语音单元或者识别单元( 音节、词或词组) 相互钳制、相互影响,使得各音节问产生“吃音”、丢音和协同发音等,从而使得各个语音单元的音长、音强、音调等特征随前后相邻的语音单元不同而发生不同的变化。另外,连续语音使得语音单元的边界模糊,难以正确切分,这势必会影响到识别系统的性能。1 1 语音识别的发展历史及现状语音识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是研究出一种具有听觉功能的机器,能直接接受人的口呼命令,理解人的意图并做出相应的反应“。事实上,让“机器”听懂人的语言一直是人类长期追求的理想,有着广泛的应用需求。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着广泛的应用。当今,语音识别产品在人机交互应用中,已经占到越来越大的比例。例如,语音打字机的出现给办公自动化带来革命性的变化:语音数据库检索免除了操作人员对庞大数据库繁杂检索和查询的重复劳动,使用户通过语音直接向数据库检索或查询,既经济又方便;在特定环境下,语音识别可以将操作者的双手解放出来,如汽车、飞机驾驶员在高速行驶中进行电话拨号,失明者操作计算机等。但是,在使计算机“听懂”人的语言的研究过程中面临着诸多困难:语音信号的声学特征随其前后与之相连的语音不同而产生很大的变异,且连续语流中各语音单位之间不存在明显的边界:语音特征会随发音人的不同、发音人心理或生理状态的变化而产生很大的差异;传声设备的差异及环境噪声干扰也将直接影响语音特征的准确提取;一个语句所表达的意思,是与上下文内容,说话时的环境条件以及文化背景等因素有关的,而语句的语法结构又是多变化的,并第一章绪论且语境信息点几乎是计算机自动语音识别无法利用的,所有这些都给语意的理解带来很大的困难。正因如此,目前的语音识别技术研究水平还远远不能达到使计算机与人类之间能够自然交流的这个终极目标,因而吸引着众多学者致力于语音识别领域的研究。语音识别的研究工作大约开始于2 0 世纪5 0 年代,b e l l 实验室的d a v i d 等人利用带通滤波器进行语音频谱的分析和匹配,并成功研制出第一个可识别十个英文数字的语音识别系统一一a u d r y 系统,其识别率达到9 8 9 6 。这是语音识别研究工作的真正开端。2 0 世纪6 0 年代末至7 0 年代末主要是孤立字语音识别研究时期。7 0 年代初出现的线性预测( l i i l e a l - p r e d i c t i o n ,l p ) 技术和动态时间归正算法( d y n a m i ct i m ew a r p i n g ,d t w ) 被成功引入到语音信号处理中,有效地解决了语音的特征提取和不定长匹配地动态时间对准问题。2 0 世纪8 0 年代的研究重点是连接词语音识别,用于连接词识别的分层构筑技术( 1 e v e lb u i l d i n g ) 得到发展,另一方面,语音识别算法从模板匹配技术发展到基于统计模型的技术。期间,隐马尔可夫模型( h i d d e nm a r k o vm o d e l ,h m m ) 、矢量量化技术( v e c t o rq u a n t i z a t i o n ,v q ) 和人工神经网络( a n n ) 等相继出现并应用在语音识别领域,使语音处理技术产生突破性进展。进入9 0 年代,语音信号处理在实用化方面取得了许多实质性的研究进展。其中,语音识别逐渐由实验室走向实用化。而以i b m 公司、a t & t 公司“、美国卡内基一梅隆大学”、英国剑桥大学1 等为代表的研究机构目前则正致力于开发具有英语非特定人、大词汇量、连续语音识别功能的实用产品,而且已经取得了相当喜人的成果。其中1 9 9 7 年i b m 公司推出的v i av o i c e 非特定人连续语音识别系统已经成功推向市场,并获得了广泛的好评。同时,剑桥大学和菲浦公司还正在研究英语语音识别算法在其它欧洲语种中应用的可能性及效果“。虽然我国语音识别研究的起步比先进国家晚,但是进步很快,成果突出“”。1 9 8 8 年清华大学、中国科学院联合研制出无限词汇的汉语听写机开创了中国语音识别领域的里程碑,虽然该时期的汉语听写机是基于特定人孤立音节识别技术。语音识别技术在移动通信、电脑话务员、电话证券交易等领域有着极大的应用价值,因此受到了国内科研单位广泛重视。我国在7 0 年代末就开始了语音技术的研究,但在很长一段时间内,都处于缓慢发展的阶段,直到八十年代后期,随着计算机应用技术在我国的逐渐普及和数字信号处理技术的进一步发展,国内许多单位纷纷投入到这项研究工作中去,其中有中科院声学所,自动化所,清华大学,上海交通大学和华南理工大学等科研机构和高等院校,大多数研究者致力于语音识别的基础理论研究工作、模型及算法的研究和改进”“。但由于起步晚、基础薄弱,计算机水平不发达,导致在整华南瑾t 大学硕士学位论文个八十年代,我国在语音识别研究方面并没有形成自己的特色,更没有取得显著的成果和开发出大型性能优良的实验系统。但进入九十年代后,我国语音识别研究的步伐就逐渐紧追国际先进水平了。在“八五”、“九五”国家科技攻关计划、国家自然科学基金、国家8 6 3 计划的支持下,我国在中文语音识别的基础研究方面也取得了一系列成果,目前我国对大词汇量连续语音识别系统的研究已经接近国外最高水平”。在国际上,由于中国的国际地位与日俱增,以及在经济和市场方面所处的重要位置,汉语语音识别越来越被重视。国际上的一些跨国公司也看好了中国潜力巨大的市场,纷纷涉足中文语音技术,加紧技术、产品、市场的全面拓展。i b m 、微软、英特尔都把研究院办到了中国,并把包括中文语音技术在内的综合性中文智能平台的研究开发列为重点。a p p l e 公司在1 9 9 5 年推出第一个商用的汉语连接词语音识别系统;i b m 公司也于1 9 9 6 年正式推出中文听写机系统( v i a v o i c e ) ,该系统对新闻语音识别有较高的精度,已占领了中文语音识别9 0 以上的市场,是目前最具代表性的汉语连续语音识别系统”1 ;微软公司已经将语音识别技术捆绑到办公软件o f f i c ex p ,同时在操作系统w i n d o w sx p 中还提供了s p e e c ha p i函数以及语音识别引擎。1 2 语音特征参数提取的探究对语音识别系统而言,特征参数的选择与提取至关重要,是整个系统构建的基础。所谓特征参数提取,就是从语言信号中提取用于语音识别的有用信息。研究人员已对许多可以表征说话人个人特征的语音特征进行了探讨,大多数特征选取方案不是试图集中在声道构造的个体差异方面,就是试图集中在说话习惯的个人特征方面。特征参数提取所考虑的参数为:( 1 ) 单词中选定位置上的基音;( 2 )鼻辅音的频谱特性;( 3 ) 选定元音的频谱特性:( 4 ) 激励频谱的估计斜率;( 5 ) 擦音的频谱特性;( 6 ) 选定元音的时长:( 7 ) 选定语言环境中提前发声的存在。采用试验旬进行录音时所考虑的特征参数为:( 1 ) 元音的共振峰频率和共振峰带宽以及声门源的极点( 由12 阶线性预测分析来计算) ;( 2 ) 鼻辅音中极点频率的位置;( 3 ) 选定实验句的基音轮廓;( 4 ) 时变特性,尤其是在复合元音的整个发音期间和音位的收尾阶段第二共振蜂的变化率。线性预测编码( l i n e a rp r e d i c t i v ec o d ir i g ) 是目前应用广泛的特征参数提取技术,其基本思想是:由于语音样点之间存在相关性,所以町以用过去的样点值来预测现在或未来的样点值,即一个语音的抽样能够用过去若干个语音抽样或它们的线性组合来逼近。通过使实际语音抽样和线性预测抽样之f 叫的误差在某个第一章绪论准则下达到最小值来决定唯一的一组预测系数。而这组预测系数就反映了语音信号的特性,可以作为语音信号特征参数用于语音识别等。实际上语音信号处理中最常用的语音模型是全极点模型,线性预测编码解决的问题是:给定语音序列( 一帧) ,采用最小均方误差准则,求预测系数的最佳估值。语音识别常用的特征参数有两类,第一类为时域特征参数,包括短时过零率、短时能量、基音周期等。其中短时过零率和帧能量参数是语音端点检测中的重要参数。第二类为反映短时谱包络的频域特征参数,它们是语音识别中采用的主要特征参数,包括线性预测系数( l p c ) 、线性预测倒谱系数( l p c c ) 、m e l 频率倒谱系数( m f c c ) 等。本文将采用目前较新的语音特征一一管辖音系学( g o v e r n m e n tp h o n o l o g y ) 特征,提取特征矢量,研究该种语音特征的可行性及突出优点。1 3 语音识别与神经网络语音识别核心部分的作用是实现参数化的语音特征矢量到语音文字符号的映射,一般模型训练和模型匹配技术。模型训练是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数,而模式匹配则是根据一定准则,使未知模式与模型库中的某一个模型获得最佳匹配1 。人工神经网络( a n n ) 在语音识别中的应用是现在研究的一个热点。尽管统计模型在语音识别中占有主导地位,但神经网络的独特优点及其强大的分类能力和输入输出映射能力在语音识别领域很有吸引力。a n n 本质上是一个自适应非线性动力学系统,模拟了人类神经元活动的原理,可以将a n n 与传统的语音识别方法结合起来提高整个系统的鲁棒性。本文采用自组织神经网络结合m a t l a b 实验完成语音的训练和识别。1 4 本文的主要工作及章节安排本文主要研究基于一种新的前景广阔的语音学特征一一管辖音系学( g p ) 特征的汉语孤立字识别,采用自组织神经网络进行训练和识别,用m a t l a b 进行网络的构建和训练识别,并讨论在整个汉语语库上的拓广。全文分为四章,各章的主要内容如下:第一章绪论介绍语音识别研究的背景发展及现状,引出论文的主要工作;第二章引出管辖音系学特征的基本理论,在中文汉字的应用,包括表达式及其相应的特征提取方法和实验实现;第三章探讨自组织神经网络的实验算法和m a t l a b 的建模与仿真,得出实验结果并进行比较;第四章讨论和总结实验结果意义,并提出展望,即在整个汉语语库上的拓展。华南理工大学硕士学位论文第二章中文语音单元管辖音系学特征表示2 1 管辖音系学基本理论2 1 1 管辖音系学理论发展综述管辖音系学( g o v e r n m e n tp h o n o l o g y ,简称g p ) 是生成语法框架内的一种非线性音系学理论,是一套影响目前思维模式的语音表示体系。本意是想将语法和语音体系统一起来,证明它们其实都是人类语言能力的两个不同表示方面。它创立于8 0 年代初期,经过2 0 年来的不断发展,现已成为生成音系学的主要理论之一。一般来说,g p 理论的发展过程主要经过两个阶段”“:1 9 9 3 年之前是g p 标准理论的形成阶段,其核心是管辖关系及元素组合和表现的制约手段,由准许原则和参数驱动生成音系学理论;1 9 9 3 年之后则是对g p 理论的修正阶段。k a y e 在1 9 9 3年的“l e c t u r e so nc u r r e n ti s s u r e si np h o n o l o g y ”中最先提出来修正g p 理论的一些原则和方法,而后h a r r isa n dl i n d s e y ( 1 9 9 5t h ee l e m e n t so fp h o n o l o g i c a lr e p r e s e n t a t i o n ) ,j e s s e n ( 1 9 9 4i s ? a ne l e m e n t ? t o w a r d san o n s e g m e n t a lp h o n o l o g y ) ,b a c k l e y ( 1 9 9 3c o r o n a l ,t h eu n d e s i r a b l ee l e m e n t ) ,p 1 0 c h ( 1 9 9 5f r e n c hn a s a lv o w e l s :af i r s ta p p r o a c h ) ,c o b b ( 1 9 9 3l i c e n s i n gc o n s t r a i n t sa n dv o w e lh a r m o n yi nu y g h u r ,1 9 9 7c o n d i t i o n so nn u c l e a re x p r e s s i o ni np h o n o l o g y ) 等分别对g p 的一些具体问题进行了分析研究,提出了修正g p 理论的动因和方法。k a y e ( 1 9 8 5t h ei n t e r n a ls t r u c t u r eo fp h o n o l o g i c a le l e m e n t s :at h e o r yo fc h a r ma n dg o v e r n m e n t ) 中提出要建立一种没有规则的普遍音系学理论,并认为普遍音系学理论应由支配音系表征和结构的普遍原则和特定语言所具有的参数值两部分构成”。他们对音系进行了详细的分析和研究,提出了以独值的( u n a r y )音系成分为表征单位,以准许制约和管辖关系为主体的管辖音系学理论。g p 扬弃了经典生成音系学中的规则部分,保留了生成音系学从底层到表层的推导( d e r i v a t i o n ) 过程,并指出音系表征( p h o n e l o g i c a lr e p r e s e n t a t i o n ) 是按照一组原则和参数从一个固定的元素集中推导而来的,即一组数量有限的元素,其出现和组合的丁f 确性以及它们在音系变化中的表现都是由管辖他们的原则和参数决定的。g p 摄先发展了以音节成分之间的管辖关系为核心的管辖音系学基本理论。子段基元在自动语音识别中的提出。”第一章绪论由于音素在声学实现方面有着比较突出的矛盾,就连最复杂的语音识别系统都不能够完全区分说话人之间和说话人本身的变化。因此,选用一种更好的识别单元势在必行。比如子段基元,或者说音系学特征,便具有如下特性:1 ) 集合元素较少2 ) 每个基元具有一成不变的声波标记图3 ) 所有的词条均可以用基元表示除了为音系学现象的解释提供基本的声音基础,字段特征还具有如下的实际优点:i )他们比整段能够在信号中得到更好的实现:同时一系列语言驱动的特征可能反复表征声学的恒定性。i i )这种一系列较小组件的检测,由于可以得到较高的准确率,可以使其高一层的单元的识别较为无条件,因此对于不同说话人和方言具有较好的鲁棒性。i i i )特征是最合适的把握相似度( a s s i m i l a t i o n ) 的单位,因此能够提供一个更好的语音结构模型。i v )同一单元在某给定的词汇中的多次出现使得对同一训练数据而言,字段比整段训练数据相应较多。虽然在自动语音识别中应用源于音系学的特征和元素的概念已并不鲜见“”“”1 ,管辖音系学特征都提出了最小的特征集合( 7 个) ,同时这些特征的全局特性使其格外适合多语种识别模型。另外,同一些提出在音系学基元和发声模式之间存在直接映射的方法比较,g p 理论实质上是十分独特的。在众多很明显的跨语种的语言差异面前,如此少量的基元单位怎么能够满足所有人类语音的识别呢? 这种观点是基于语音信号的所有信息均于音系学有关的设想。事实上,这个假设是不正确的。同一信道有各种各样的信息,但只有其中的一部分是语言学相关的。比如说,语音信号传递冗余信息像性别,年龄,情绪状况以及群体关系( 例如方言) 等等。多语种语音识别要求我们滤除语音信号中不相关的部分并把精力集中在和我们的任务相关的特征身上。也即在本文中提出的管辖音系学特征。用一个具体的例子来说明,考虑法裔魁北克的字母“r ”的发音。有些语者用舌尖发该音而有些人则用舌头的后半部分或喉部发。重要的是,所有这些“r ”的语言学行为是一样的。也就是说,它们的语言学表征也必须一样。a s r ( 自动语音识别系统) 必须能够做到忽略这些表象上的不同而看到实质上相同的一面。同时,这两个r 的声波标记图应该是完全一样的。对于a s r 系统来说,其不同只不过是“包装”上的不同而已,如果不能够认清楚这一点将多语音识别大大的复杂化。华南理工人学硕上学位论文2 1 2 音系表达式( p h o n o i o g ic a ir e p r e s e n t a t io n s )i 元素概念g p 认为音系表征的初始单位不是音系特征,而是独值的元素( e l e m e n t ) ,即语音可以由毖音节更小的基元p r i m e f f 0 8 或e le m e n t ) 组成。它是只有一个标记( m a r k e d ) 特征的特征矩阵,特征矩阵中的唯一的这个标记特征,即所谓的“热”特征( h o tf e a t u r e ) 在整个音系表征中最为活跃,它体现该元素的标记性质,是界定该元素属性的显著( s a l l e n t ) 特征”。矩阵中其他非标记特征是元素的附属( b a c k g r o u n d ) 特征,它们可以起到对元素进行语音上的解释作用。g p 理论认为语言段都是由最基本的元素或叫基音( e t e m e n t 或p r i m e ) 融和而成的。h a r r i s在9 4 年提出,声音由基音按固定的结构化形式组成而被描述,而语言现象可由声音的基音的分裂和融和解释。g p 标准理论中的元素包括”a + ( 非高位性) i + ( a t r 元素) n + ( 鼻音性)io ( 腭音性)uo ( 唇音性)ro ( 舌脊性) ho ( 噪音性)? o ( 闭塞性)vol 一( 松声门) h 一( 紧声门)在这些元素中,vo ( 即冷元音,c o l dv o w e l ) 是唯一一个没有标记特征的元素,它只是用于在元素组合中填充没有“真实元素”音层上的空位。g p 中的这1 1 个元素可以单独或以组合( 即聚合) 形式构成特定语言所具有的所有音系表达式( p h o n o l o g i c a le x p r e s s i o n ) 。元素在聚合( f u s i o n ) 时有主从之分,主要元素称为主位( h e a d ) ,从属元素称为算符( o p e r a t o r ) 。基元a 、i 、u 均可以作为主位。其过程是作为算符元素的热特征将取代作为主位元素的热特征,其他主位元素的非标记特征予以保留。这种通过元素聚合构成新的音系表达式的过程叫做“聚合运算”( f u s i o no p e r a t i o n ) 。冷元音只在作为主位元素时影响元素聚合的结果。同g p 的标准理论不同,现今主流的g p 基元集合主要是两个,七元素集合和八元素集合。八元素集合:e = a ,i ,u , ,? ,h ,h ,n ) ”3 7 1基元a ,i ,u , 称为共振基音( r e s o n a n c ep r i m e s ) ,用于控制元音和辅音,源于对元音的光谱特性( 共振结构) 研究。基元? 代表闭塞性或振幅的突然持续减弱。基元h 代表噪音性,摩擦音,即非周期噪音。基元n 代表鼻音性。h 则表征紧声门,即无周期震荡的笔直声襞。存在的问题是对于基元 没有明确的定义。六元素集合:e = a ,i ,u ,h ,l ,? 2 5 2 5 1第一章绪论六元素集合与h a r r i s 的八元素理论的不同之处在于是没有 这个基元,事实上在八元素的集合的 也并没有作出明确定义;同时h 和h 合并:用包含n 的l 代替n( 鼻音基元n 是为方便起见从元素l 中分出) 。为简化起见,本文中采用k a y e 的六元素的定义。如下表2 1 所示:注意其中“一”元素是作为同一元素( i d e n t i t ye l e m e n t ) 表示在音系表达式中。表2 1k a y e 元素理论t a b l e2 1k a y e se l e m e n tt h e o r yi 1 | ! 豢麟囊囊鬻l 鬟懑羹攀i 1一_ f s 一二i ;e 。e g 、i 薹羹ia1 f 高位性af a t h e rl 鬻腭音化门1 e豢麓u唇音性ut o o鬻罐ih紧声门( h ) ,- )h o r s e蠢l松声门( l ,? ) ,- )s i t gi 露蹩7闭塞一阵( ? ) ,一)9 0i i 霪空( ) ,一)k i s s e si i 音系表达式构成所有的语音均可以表示为元素的音系表达式。音系表达式定义为如下的有序对音系表达式= ( 0 ,h )其中:i 0 e ( 0 可能为空)ii h e ( 可为特定元素)iii h 0按照惯例,有序对的第一个组成叫作操作数( o p e r a t e r ) ,第二个称为该音系表达式的头或主位( h e a d ) 。根据有无主位,可以分为有主位和无主位( h e a d l e s s )的两种。主位起管制( 1ic e n s e ) 其操作数的作用。2 1 3 规则理论骨架点,管辖关系与音节成分骨架的概念阳6 1 提出由一系列“x ”构成的音系字串:9华南理工大学硕士学位论文x 的位置按照上面所示的方式标号,按照惯例从左到右。同时,我们可以定义两个位置之间的“相邻关系”:假设x1x2 x 。x :则x 。和x 。( n l o ) 以及x 。( n + 1 xl ln0rnx 一 i z n 。( n 表示该音系表达式含特征元素的个数)i i a 管辖无a 的:含有a 的音系表达式能够管辖不含a 的i i i 以复杂性原则为主,在x 和y 复杂性相同的情况下含a 表达式管辖不含a的。对于双元音( d i p h t h o n g s ) ,我们认为它们是包含两个音系表达式( 比如筇) 的核心。双元音又分为两个音系表达式连在一个骨架点上的轻双元音( l i g h td i p h t h o n g s ) 和分别连在两个骨架点上的重双元音( h e a v yd i p h t h o n g s ) 。显然,重双元音同时肯定是分支核心。nxknin卜h e轻双元音重双元音混合双元音( 其中主位为粗体显示)对于轻双元音,其主位无特殊要求,但是其被辖者必须单一且不含a 。严l pn卜卜xll以第一章绪论说双元音只能为核心,推断只有核心主位才能许可双元音结构。也就是说,像下面这样的结构是不能得到验证的也即是不存在的:袋在英语中,大致包含4 0 个音素,根据发音方式和位置可以简单划分为鲥如表2 2 ( a ) 和2 2 ( b ) 所示。表2 - 2 ( a ) 美式英语音素按发音方式分类表t a b l e2 - 2 ( a ) p h o n e m e so fa m e r i c a ne n g l i s h ( m a n n e rc l a s s )i | | | i | | | 鬟鬟。 疆a n n e 一一黼震瓣i 蘩i | | 1 霪戴1 | | i i 鬟黪瓣i i i 鬻嚣l c | | | | | | 4元音v o w e l s16摩擦音f r i c a t i v e s8阻塞音s t o p s6半元音s a mi v o w e l s4鼻音n a s a l s3塞擦音a f f r i c a t e s2滑音a s p i r a n t1总计t o t a i4 0s i m o mk i n g 和p a u lt a y l o r 使用延时循环网络( t i m e d e l a y i n gr e c u r r e n tn e u t r a ln e t w o r k ) 口7 1 ,在t i m i t 语音数据库的基础上,给出了三种特征系统( s p e二值特征,多值特征和g p 特征) 的英语因素和特征之间的一一映射,并在此基础上验证特征识别率。由于他们所使用的是八元素理论系统,就我们所关心的g p特征而言,将其整合到k a y e 的六元素理论上,可以得到g p 特征和英语音素之间的一一对应关系,其中1 表示该音素中含有该特定元素,0 则反之。注意并非所有的6 1 个音素均有独特特征,但是对于4 0 个音素的缩减集,则均有,因此这里我将原来给出的6 1 个音素7 1 按照表2 - 2 ( b ) 所给出的4 0 个音素缩减以得到唯一特征的表示口9 | ,在表2 - 3 中给出。? x s 。( i j )a ,= 0 ,i j( 7 2 )如果出现s ,= s 。的情况,则按照统一约定取上边的神经元作为获胜神经元。焉毪k输入麓斑簟晨图3 - 2 基本竞争网络结构f i g u r e3 - 2c o m p e t i t i y en e t w o r ks t r u c t u r e5 ) 与获胜神经元相联的各连接权按照下式进行修正,而其他所有连接权保持不变。螃“k t + 吲譬一)i = 1 ,2 ,n ( o q 1 )( 7 3 )其中叩为学习系数,m 为第k 个学习模式p 。= ( p i ,p :,pk 。) 中元素为1的个数。华南理工人学硕士学位论文6 ) 选取另一个学习模式,返回步骤3 ) ,直至t 个学习模式全部提供给网络。7 ) 返回步骤2 ) ,直至各连接权的调整量变得很小为止。以上的学习规则分析如下:式( 7 3 ) 中的学习系数叩反映了学习过程中连接权调整量的大小,叩的典型值一般为0 0 1 o 0 3 。由式( 7 3 ) 可见,当p ,为1 时,竞争层获胜神经元j 与输入层神经元i 之间的连接权w ,在满足式( 7 1 ) 的约束条件下有w 。 l ,所以其调整量为正。即连接权向增大的方向变化;当p ,为0 时,其调整量为负,即连接权向减小的方向变化。所有的连接权始终在( 0 ,1 ) 之间变化。当同一个学习模式反复提供给网络学习后,则这一模式前次所对应的竞争层获胜神经元的输入值s 会逐渐增大,继续保持其领先者的地位。当与这一学习模式非常接近的模式提供给网络的时候,也将促使同一神经元在竞争中获胜。因此,在网络回想时,就可以根据所记忆的学习模式按照式( 7 2 ) 对输入模式做出最邻近分类,即以竞争层获胜神经元表示分类结果。3 3 实验及结果3 3 1 问题描述:输入向量的目标向量的设计给网络输入一些类别的样本向量,经过训练之后,网络调整权值。对于以后输入的向量,网络能够将它们进行正确的分类。根据本文以上章节提出的采用g p 特征进行语音识别的构想,实验预计先从表4 一卜l 所给出的十个单音中文汉字入手,在此基础上训练自组织网络并进行识别,进而考虑推广到整个汉语的拼音集( 约合5 9 个) 。初始向量矩阵为:1234567891 010o111000101010o0o0000101111o0o0oo001101000o0o011000000000011000010000o101000000o01010o000f23456789阽第三章基于自组织神经网络的g p 特征识别这里,由于9 维向量不适合m a t l a b 的仿真和测试,因此,设计了一个g e t v a l u e函数完成9 维向量到2 维的转化。假设l = aiu?hlaiu ,根据特征的性质的不同将其分为前6 位和后3 位,取其对应的十进制数分别对应二维向量p = x ,y 的x 值和y 值,因此可知,x 的最大最小值为6 3 和0 ,而y 的最大最小值为7 和0 。唯一的x 和y 的值对应唯一的一个9 维向量,即唯一的一个中文汉字。设计函数l i z e n n g e n c ( n c l a s s ,n s a m p l e ,s t d d e v ) 来产生一定类别的样本向量。此函数原型为n n g e n c ( x ,c l u s t e r s ,p o i n t s ,s t d d e v ) ,共有四个参数,第一个用于指定类中心的范围,第二个用于指定类别的数日,第三个用于指定每一类的样本点的数目,第四个使用于指定每一类样本点的标准差,默认为0 0 5 。函数调用并将输入样本向量在图上表示出来,如图3 3 所示。p = l i z e n n g e n c ( 1 0 ,1 0 0 ,0 0 5 ) :p 1 0 t ( p ( 1 ,:) ,p ( 2 ,:) ,+ r ) ;t i t l e ( 输入样本向量) :x l a b e l ( p ( 1 ) ) :y l a b e l ( p ( 2 ) ) :图3 - 3 输入样本向量分布f i g u r e3 - 3i n p u ts a m p l ev e c t o r sd i s t r i b u t i n g华南理工大学硕上学位论文可见,这些样本向量按照我们的设计分为了十类。接下来网络的工作就是对这些已知的分类样本向量进行学习,调整网络的权值,使得以后对网络输入向量能够进行正确的分类。3 。3 2 网络的建立和调练设计函数n e t s e t u p a n d t r a i n ( ) 来完成自组织竞争神经网络的创建和训练。表示为n e t s e t u p a n d t r a i n ( x m i n ,x m a x ,y m i n ,y m a x ,c o u n t ,p l e a r n ,p ,e p o c h s ) 。因为要区分的类别数目为1 0 个,因此设计网络的神经元数目也为1 0 ,即c o u n t 为神经元数目,等于类别数,这里为1 0 :p l e a r n 为学习速率,取默认值0 1 :p 为训练样本;e p o c h s 为学习步长。该函数封装了神经网络工具箱中用于创建自组织神经网络的函数r l e w c ( p i t ,s ,k l r ,c l r ) ( 创建竞争层) ,以及网络的训练函数,表式为t r a ir l ( n e t ,p ) 。调用该函数,n e t = n e t s e t u p a n d t r a i n ( 0 ,6 4 ,0 ,6 ,1 0 ,0 1 ,p ,1 0 0 ) ;这里取x ,y的最值分别为0 ,6 4 和0 ,6 ,1 0 个类别,学习速率设为0 1 ,输入向量p ,取学习步长为1 0 0 。这里学习率影响系统学习过程的稳定性( 收敛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论